百度大脑“突围”史上最难ECCV：10篇论文入选，尽显国际AI顶流风范|自动驾驶|百度

　　近日，国际三大计算机视觉顶尖会议之一的ECCV （欧洲计算机视觉国际会议）官方公布了2020年论文收录结果。结果显示，ECCV 2020投稿量再创新高，共5025篇有效投稿，相较上届翻了一倍多。投稿激增的同时，接收率却大幅下降，今年ECCV共接收发表文章1361篇，接收率为27%，相比上届降低近5%，其中Oral论文接收率仅为2%，堪称史上最难ECCV。

　　虽然竞争加剧，接收率不断降低，百度AI的ECCV 2020之行依然取得骄人战绩，共入选10篇论文，其中1篇Oral和1篇Spotlight论文，涵盖了自动驾驶识别&定位、声源定位&场景识别、目标跟踪、多模态&度量学习等众多领域，彰显了AI领军者的风范和深厚的技术底蕴以及持续创新能力。

　　未来，百度将继续深耕人工智能领域，加速技术迭代，推动语音、人脸、NLP、OCR等人工智能技术迈向新的高度，真正做到理论与应用并举，助力全球人工智能行业不断发展的同时，向国际展示中国AI的实力。

　　以下为百度ECCV 2020入选论文的亮点集锦：

　　论文1：Monocular 3D Object Detection via Feature Domain Adaptation

　　关键词：单目，三维目标检测，特征域迁移

　　自动驾驶中，基于单目的三维目标检测是一项极具挑战性的任务，因为单目估计深度的不可靠因素，导致了基于单目的三维目标检测和基于激光雷达的三维目标检测之间存在明显的性能差距。论文中，百度提出一种新的基于特征域适配的单目三维目标检测框架DA-3Ddet，核心思想是将基于图像深度估计得到的伪雷达特征迁移至特征更鲁棒且精度更高的真实雷达特征域，从而直接缩小两者性能的差距。在自动驾驶KITTI数据集的大量实验证明，简单且有效的新框架优于其他框架，达到了目前SOTA的性能指标。

　　论文2：DA4AD: End-to-End Deep Attention-based Visual Localization for Autonomous Driving

　　论文链接：https://arxiv.org/abs/2003.03026

　　关键词：自动驾驶、视觉定位、视觉SLAM

　　论文中，百度AI介绍了一个基于视觉传感器的自动驾驶车辆自定位方法，它基于深度注意力特征实现了高精度高鲁棒性的视觉定位能力，效果媲美基于成本高昂的高线数激光雷达的定位系统。传统的视觉定位方法或依赖人工构建的视觉特征或依赖场景中人工建造的带有语义特征的标识物来进行车辆位置测定。这些人工构建的视觉特征已知对于因光照或视角造成的物体外观变化没有很好的鲁棒性，容易造成严重的误匹配。而场景中人工建造的带有语义特征的标识物，如车道线、交通标志牌等，在很多实际场景中难以保证连续高密度的存在。这两种原因都会导致定位系统因缺乏可用的鲁邦的定位特征导致定位失败。

　　百度试图通过一个基于深度注意力特征的端到端神经网络去发现场景中适合定位任务的显著的、独特的且稳定不变的特征点，并且通过网络来学习得到这些特征点的特征描述子。这些通过神经网络发现并学到的特征及特征描述子被证明可以在复杂场景中建立稳定的匹配关系，从而稳定高精度地进行车辆位姿的估计。基于Apollo稻香湖数据集，百度详细验证了新系统的效果。在该数据集中，百度通过高端组合导航设备提供了高精度的定位结果真值用于评估定位系统的定位精度效果。同时该数据集包含了北京城区从秋天到春天、上午到傍晚以及晴天雨雪等复杂的场景、光照和季节变化。实测结果证明，新算法可在上述复杂场景下实现厘米级定位精度，效果逼近成本高昂的激光定位系统，为降低自动驾驶系统整体成本及商业量产化进一步铺平了道路。

　　论文3：DVI: Depth Guided Video Inpainting for Autonomous Driving

　　关键词：视频修复，自动驾驶，深度图像，图像合成，仿真

　　为了在自动驾驶中获得清晰的街景和逼真的仿真，百度提出一种自动视频修复算法，它可从视频中删除移动的物体，并在深度/点云信息的指导下合成缺失的区域。通过点云信息构建密集的3D地图，视频中的帧会通过此3D地图产生几何关联。为了填充帧中的目标修补区域，可以通过将像素从其他帧转换到当前帧被遮挡的位置。

　　此外，还可通过3D点云融合多个视频，从而用多个源视频修复目标视频，解决长时间遮挡问题，即在整个视频中都被遮挡的区域。据知，这是首个将多个视频融合在一起进行视频修复的工作。为验证新方法效果，百度在真实的城市道路环境中使用同步的图像和激光雷达数据（包括许多挑战场景，例如长时间遮挡）构建了一个大型的视频修复数据集。实验结果表明，在所有的量化标准中，该方法均优于现在最好的方法，尤其是RMSE（均方根误差）降低了约13％。

　　论文4：Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition

　　论文链接：https://arxiv.org/abs/2005.08449

　　关键词：航空影像，场景识别，跨任务迁移，声音事件，多模态识别

　　针对航空影像的场景识别是遥感观测的基本任务之一，并且在近年来受到越来越多的关注。尽管现有视觉模型在场景识别方面表现出良好性能，但考虑到航空影像的特殊性，地物差异、光照变化等仍然是影响视觉识别的较大因素。受到人类大脑多通道知觉的启发，声音信息会在一定程度上为视觉内容理解提供帮助。

　　论文中，为提高航空影像的识别表现，百度联合德国宇航中心，慕尼黑工业大学，北京交通大学等单位，探索了一种新颖的视听航空场景识别任务，它使用图像和声音作为输入。研究人员观察到，某些声音事件在特定的航空场景听到的概率会显著高于其他场景，因此提出利用声音事件中的知识来改善航空场景识别的性能。为进一步研究此问题，研究人员构建了一个名为视音频航空场景识别（ADVANCE）的数据集。借助此数据集，在多模态学习框架中提出了将声音事件知识迁移到航空场景识别任务的三种方法，并展示了利用声音信息是可以为航空影像识别带来益处的。

　　论文5：Multiple Sound Sources Localization from Coarse to Fine

　　论文链接：https://arxiv.org/abs/2007.06355

　　关键词：声源定位，跨模态关联，复杂场景，视音学习

　　如何在复杂视听场景中实现机器多模态感知是一个非常有趣但富有挑战性的问题。论文中，百度联合上海交通大学着重探索如何在缺少声音和物体配对标注的情况下，实现多声源场景中声源物体的视觉定位。具体地，研究人员利用二阶段的音视频关联学习框架，首先将复杂的多声源场景解耦为多个简单场景，其次基于类别和场景实现精细的跨模态特征对齐，构建声音和物体的配对。

　　实验结果充分证明了该模型能够有效地在复杂场景中建立声源物体及其声音之间的对应关系。所提出的模型在公开数据集的定位任务上取得了先进的效果，并在复杂场景的多源声音定位上达到了可观的性能; 同时，获得的声源定位结果亦能够有效地应用于声音分离任务，准确分离出物体对应的声音。

　　论文6：Graph-PCNN: Two Stage Human Pose Estimation with Graph Pose Refinement

　　关键词：人体姿态估计，关键点定位，两阶段，图结构姿态改善

　　在人体姿态估计任务中，目前主流算法主要采用基于热力图回归的方案，通过解码热力图获取关键点的坐标。论文中，百度旨在探索一种优化方案进一步提升定位精度，并提出两个改进思路：1）粗定位和精定位使用不同的特征图 2）考虑关键点之间的关联关系。基于以上思路，研究人员提出了一个基于图结构的、模型无关的两阶段训练框——Graph-PCNN。该框架在原有热力图回归框架上增加了一个定位子网络和一个图结构姿态优化模块；其中热力图回归网络则作为第一阶段，用于提供各关键点的粗略定位，为第二阶段提供候选点；定位子网络作为第二阶段，用于对各关键点的候选点提取视觉特征，并回归最终的关键点坐标。

　　为了进一步利用各关键点之间的关联关系，这里使用图结构姿态优化模块对各关键点的候选点特征进行优化，从而获得更精确的回归结果。实验证明，Graph-PCNN可以适配多种不同的基础网络，并大幅提升定位精度。在COCO test-dev集合上，新提出最优模型的AP可以得到76.8%，达到领先水平。

　　论文7：Segment as Points for Efficient Online Multi-Object Tracking and Segmentation

　　论文链接： https://arxiv.org/abs/2007.01550

　　关键词：多目标跟踪，实例分割

　　现有的多目标跟踪与实例分割（MOTS）算法框架大多采用检测-跟踪这一方案，其中，主流方法多采用2D卷积神经网络提取实例的特征。然而，由于受到感受野范围的影响，采用2D卷积神经网络对实例提取特征过程中，不可避免地会将实例前景信息与背景信息混合在一起，严重影响后续帧间关联的准确率。论文中，百度将图像像素转化成2D的“点云”，并提出一种全新的基于实例分割掩膜的特征提取方法。对于每一个实例，研究人员利用前景像素和背景像素分别构建3D“点云”，对于每一个2D“点云”中的点，则进一步结合颜色、位置、类别等多种模态的特征。

　　随后，通过借鉴Pointnet 3D点云处理网络结构，完成对每个实例提取特征。新提出的PointTrack为一整套全新的在线MOTS算法框架，效果超过此前最好方法MOTSFusion 5.4%(MOTSA)，并达到了接近实时的处理帧率22FPS。最后，研究人员还提出了一个更有挑战性的MOTS数据集-APOLLO MOTS，相比KITTI-MOTS，实例的密度提升约68%。

　　论文8：Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents

　　关键词：视频描述，对话代理，多模态学习

　　对于人工智能系统的安全性担忧正随着其接触到的越来越多的敏感信息而增加，研究人员为此也一直在追求创造更为安全可靠的人工智能系统。论文中，百度提出一个全新的视频描述任务，旨在以两个代理之间的自然语言对话作为主要信息媒介来描述视频。相比于直接传输视频，自然语言更具有透明性，难以传递人脸等敏感隐私信息。具体来说，任务中包含两个对话代理，即外界提问代理Q-BOT和内部回答代理A-BOT；其中Q-BOT仅通过视频首尾两帧静态图像对视频中所展现的环境有模糊感知，而A-BOT则可以看到完整的视频音频信息和相应的视频描述。

　　任务过程中，Q-BOT可以向A-BOT询问视频相关的十个问题，A-BOT则针对这些问题给出答复，在十轮问答之后，Q-BOT需要根据初始的两帧静态图像与对话信息对视频作出具体描述。此外，论文还提出一个可以让两个代理之间进行有效信息传递的网络架构。实验证明Q-BOT可以有效通过对话交互来完成描述视频的任务。

　　论文9：Collaborative Video Object Segmentation by Foreground-Background Integration

　　论文链接：https://arxiv.org/abs/2003.08333

　　关键词：视频目标分割，度量学习

　　论文中，为了更好地解决具有挑战性的半监督视频分割任务，百度对嵌入学习的关键所在进行了研究。以往的嵌入学习方法通常只考虑学习前景像素上的特征，不同与此，本文方法认为同等地学习背景与前景更为重要。基于此，研究人员提出了前背景整合的协作式视频目标分割方法。

　　该方法会隐式地迫使模型学到的前景特征与背景特征具有更强的对比性，从而使得模型对前景的分割更为精准。除此之外，新模型会同时匹配像素尺度和实例尺度上的前背景嵌入特征，这使得模型对不同尺度的物体都有良好的鲁棒性。研究人员在三个最常用的数据集（DAVIS-2016, DAVIS-2017和YouTube-VOS）上进行了大量的实验来验证我们的方法的有效性。在这三个数据集上，新提出单模型性能均超越了现有的最佳方法。

　　论文10：GINet: Graph Interaction Network for Scene Parsing

　　关键词：场景分割，图交互单元，语义上下文损失，上下文推理

　　最近基于图像区域的上下文推理在场景分割中已经取得显著进步。论文中，百度通过提出图交互单元和语义上下文损失，探索如何利用语义知识来促进基于图像区域的上下文推理。图交互单元能够增强卷积网络的特征表示，同时能自适应地为每个样本学习语义一致性。

　　具体地，基于数据集的语义知识首先被纳入图交互单元来促进视觉图的上下文推理，然后演化的视觉图特征被反投影到每个局部特征来增强其可区分力。图交互单元进一步被语义上下文损失改善其生成基于样本语义图的能力。完整的消融实验证明了新方法中的每个组件和相关设计选择的有效性。特别地，本文提出的图交互网络在Pascal-Context和COCO-Stuff数据集上超过了同期方法。

特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。