CVPR 2021|中科院自动化所、字节跳动提出高性能的指代性分割基准模型|中科院

　　机器之心专栏

　　作者单位：中科院自动化所、字节跳动

来自中科院自动化所、字节跳动的研究者提出了一种高性能的指代性分割基准模型，与之前的最佳结果相比，该方法可以获得更好的分割效果。

　　如何通过自然语言定位并分割出场景中的目标物体？比如给定一张图片，语言指示「分割出穿白色衬衫的人」。这个任务在学术界叫做指代性物体分割（Referring Image Segmentation）。目前指代性分割的工作通常着重于设计一种隐式的递归特征交互机制用于融合视觉 - 语言特征来直接生成最终的分割结果，而没有显式建模被指代物体的位置。

　　为了强调语言描述的指代作用，来自中科院自动化所、字节跳动的研究者将该任务解耦为先定位再分割的方案（LTS，Locate then Segment），它在直观上也与人类的视觉感知机制相同。比如给定一句语言描述，人们通常首先会注意相应的目标图像区域，然后根据对象的环境信息生成关于对象的精细分割结果。该方法虽然很简单但效果较好。在三个流行的基准数据集上，该方法大幅度优于所有以前的方法。这个框架很有希望作为指代性分割的通用框架。

　　论文地址：https://arxiv.org/abs/2103.16284

　　引言

　　指代性分割旨在为自然语言表达所描述的图像生成对应的分割结果。除了语义分割面临的问题，图像和语言之间的语义鸿沟也是该任务的一个重要挑战。现有的指代性图像分割方法通常利用卷积神经网络和递归神经网络来提取图像特征和语言特征，然后使用多模态交叉注意和循环 ConvLSTM 用于融合视觉和文本特征来得到一个粗糙的分割。最后进一步将 DenseCRF 用作后处理，来获得最终的精细分割结果。这些方法主要集中在如何融合图像特征和语言特征，它们通常使用复杂的网络架构，此外，这些方法没有明确地定位由语言表达指代的对象，而仅利用耗时的后处理来生成最终的精细分割。

　　本文从另外的角度看待这个问题：将指代性图像分割任务分解为两个子序列任务：

　　1. 被指代对象的位置预测。通过位置建模可以显式获取语言所指代的对象；

　　2.对象分割结果的生成。后续的分割网络则可以根据视觉环境信息来得到准确的轮廓。

　　方法

　　本文提出的模型主要包括定位模块和分割模块。