西安电子科技大学学子在ICCV 2021竞赛中再获六项冠亚季军|图像|西安电子科技大学

　　2021国际计算机视觉大会International Conference on Computer Vision （ICCV）是国际首屈一指的国际计算机视觉盛会，将于10月11日至10月17日举行。在西安电子科技大学人工智能学院焦李成教授、刘芳教授、屈嵘教授、刘旭博士与团队博士生杨育婷、黄钟健、赵嘉璇、张俊、游超、耿雪莉、马彦彪的共同指导下，学院参赛队伍在ICCV 2021四项竞赛中取得2冠3亚1季军奖项，共计9支队伍入围榜单前五的优异成绩。据统计，团队在ICCV 2021共计获得11项冠亚季军奖项。本次竞赛由国家自然科学基金、中国人工智能学会-华为MindSpore学术奖励基金资助。

　　其中，2021级硕士研究生李成辉、程谊、王姝涵组成的学生队伍获得了ICCV 2021 The ROAD Challenge中agent检测赛道冠军。

　　The ROAD Challenge中agent检测赛道的任务是检测连续帧中的运动目标，并将同一运动目标的信息聚集为一个tube，所有目标的聚集成的tube形成一个tubes。冠军获奖队伍采用了YOLOv5加后处理的方式来实现tubes的生成。使用YOLOv5预测每一帧中的各个agent的边界框位置以及所属类别置信度。后处理时，通过运动信息判断不同帧中agent的相似度和增加网络中漏预测到的agent来生成tubes并通过各个tube长度过滤掉误判的agent。同时针对小样本agent类别基于yolov4进行专门训练，采用mosaic，horizonalflip，translate等方法进行数据扩充，在此基础上进行多尺度训练。

　　2020级硕士研究生路小强、曹国金、刘昕煜、张紫霄组成的学生团队获得了ICCV 2021 VIPriors Object Detection Challenge目标检测赛道冠军。

　　VIPriors 2021目标检测赛道的任务是在数据不足且不允许使用预训练权重的环境下对DelftBikes数据集进行22类密集注释的自行车零部件的定位与识别。冠军队伍提出一种基于YOLO检测器的多尺度集成学习算法，该方法基于Bagging思想同时联合数据扩充、强数据增强等技巧实现对小样本数据信息的挖掘与利用；此外，队伍还引入多尺度联合训练、多尺度特征融合、多尺度测试增强以及多模型集成等策略进行精细化预测输出，有效地提升了对小目标的检测性能。

　　2020级硕士研究生牛君豪、谷雨、聂璐瑶组成的学生团队获得了ICCV 2021 VIPriors Object Detection Challenge目标检测赛道亚军。

　　VIPriors 2021目标检测赛道的任务是为自行车的22类零部件预测其是否缺失以及预测其边界框和置信度。亚军队伍基于原始的Swin Transformer框架和DETR框架进行多尺度训练，使用半监督的方法，对两个网络模型分别训练，互相使用对方网络的伪标签进行迭代训练，另外还在22类的基础上将其分为两个部分进行训练，测试的时候使用soft-nms方法代替传统的nms方法，有效的缓解了零部件位置重叠、部分零件特征相似等问题，提高了最终的检测准确率。

　　2021级硕士研究生高子涵、马天植组成的学生队伍组成的学生团队获得了ICCV 2021 VIPriors Action Recognition Challenge动作识别赛道亚军。

　　VIPriors研讨会的重点是如何用通用的视觉归纳先天性知识结构来预置深度网络，这就可以将来之不易的现有通用知识纳入其中。亚军队伍最终使用的是基于多模型动态融合的视频动作识别方法，使用动态加权软投票的方式合并模型，融合了Video Swin Transformer, SlowFast, TIN等7个模型和弱分类器。同时采用了多种数据增强方式，如多尺度随机裁剪，高斯模糊，测试时增强(TTA)，更换了多种损失函数以提高最终得分。

　　2021级硕士研究生王佳豪、王浩、陈翼飞组成的学生团队获得了ICCV 2021 VIPriors Image Classification Challenge图像分类赛道亚军。

　　VIPriors 2021 图像分类赛道的主要任务是在小样本的分类数据集上获得最高的Top-1准确率。亚军获奖队伍采用resnest101，rexnet200等多个backbone网络将训练集和验证集融合进行训练，然后将所有结果进行加权软投票进行集成，最后在不同软投票结果的基础上继续硬投票进一步提高准确率。除此之外，针对准确率低的类别使用团队提出的新loss进行针对性训练，而后将之前二次融合的结果反向覆盖到针对性训练的结果上，准确率得到进一步提高。

　　2021级硕士研究生何文鑫、刘畅、宋欣燃组成的学生团队以第五名的成绩入榜 Image Classification Challenge赛道。

　　VIPriors 2021图像分类赛道的任务目的是使用少量图像，训练尽可能高精度的图像分类模型。第五名队伍使用了PyramidNet、DenseNet、ResNeSt三种模型，在其基础上，尝试不同的损失函数和参数；采用图像增强方法提高了模型的泛化性和鲁棒性，对表现较差的类别进行单独训练，添加了warm-up、使用验证数据扩充训练数据等技巧,最后采用投票法进行模型融合，对所有模型进行集成，有效的提高了最终的结果。

　　其中，2020级硕士研究生路小强、曹国金、张紫霄”组成的学生团队获得了ICCV 2021 SSLAD Challenge Track1-2D Object Detection目标检测赛道季军。

　　道路图像中的目标检测作为视觉感知系统中必不可少的模块，在自动驾驶系统中至关重要。SSLAD 2021目标检测赛道提供1000万张未标记图像以及1万张全注释图像，旨在提升自监督/半监督模型的发展。季军队伍提出一种简单而高效的半监督学习框架，该方法首先基于集成学习的思想，通过对有限标注数据的高效利用来获取一个强有力的全监督教师模型作为基准。其次，队伍提出一种可靠的伪标签生成方法，通过图像级阈值学习和预测框级阈值学习以实现源域与目标域之间的域适应，从而获取高质量的伪标签。最后通过自训练获得一个鲁棒性与准确性兼具的学生模型用以最终预测。

　　2020级硕士研究生冯若贤、王梦娇、张轩铭组成的学生团队获得了ICCV 2021 SSLAD Challenge Track1-2D Object Detection目标检测赛道第四名。

　　团队采用了基于YoloV5以及YoloV4的目标检测网络完成目标检测任务。同时使用后置的SENet分类模块对目标检测的结果进行修正。针对输入数据的类别不平衡问题，团队采用实例平衡增强的方法对原数据集进行采样并对采样结果随机进行包括高斯噪声，grid，小目标cut out等在内的多种数据增强。最后，对得到的6个结果使用WBF进行了融合。

　　2020级硕士研究生刘昕煜、王语涵组成的学生队伍获得了ICCV 2021 Video-And-Language Understanding Evaluation (VALUE) Challenge视频问答任务的第5名。

　　VALUE 2021视频问答赛道的任务用于评估 VALUE 基准中4个视频问答任务的算法，测试数据集包括 TVQA、How2QA、VIOLIN 和 VLEP，实现高效的视频推理，回答视频相关问题。该学生队伍采用的基于HERO的多模态网络架构，它具有强大的理解多通道视频的能力。团队将一系列视频片段和字幕句子作为输入，并以分层方式对它们进行编码，并使用跨模态转换器来融合字幕句子及其伴随的本地视频片段。跨模态转换器之后是时间转换器，以使用视频中的所有片段获得每个片段的全局上下文嵌入。该网络可以作为多通道视频编码器应用于不同类型的视觉-文本任务。最终，经过多任务、多通道训练，最后将多个单模型进行投票得到了最终成绩。

　　ICCV，全称IEEE International Conference on Computer Vision（国际计算机视觉大会）由IEEE主办，在世界范围内每两年召开一次。其与计算机视觉模式识别会议（CVPR）和欧洲计算机视觉会议（ECCV）并称计算机视觉方向的三大顶级会议。

　　让学生通过学术竞赛快速提升科研能力、加强学术交流是该校人工智能学院人才培养的有力举措之一。“赛中学”不仅让学生快速了解该领域的相关知识，提高学生科研的动力，同时也锻炼了学生的组织协调能力、抗压能力。据介绍，近年来，智能学子已连续在多个国际顶会赛事中取得优异成绩，仅在2021年就于IGARSS、CVPR与ICCV国际赛事上已累计获得了7冠军、8亚军与5季军共20项奖项，人才培养成效显著。（通讯员：西安电子科技大学杨育婷王语涵何文鑫）

特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。