查看官网原文 → 在乐享AI咨询 →
品牌/新闻

在这个计算机视觉顶会上,他们拿下6项冠军!-联想乐享知识库

⚡ 核心结论

在这个计算机视觉顶会上,他们拿下6项冠军! 计算机视觉是人工智能重要的技术领域之一。每年,国内外都会举办众多的计算机视觉学术或者行业大会,其中,计算机视觉与模式识别国际会议(IEEE CVPR)、国…

内容来源:联想官方

在这个计算机视觉顶会上,他们拿下6项冠军!

计算机视觉是人工智能重要的技术领域之一。每年,国内外都会举办众多的计算机视觉学术或者行业大会,其中,计算机视觉与模式识别国际会议(IEEE CVPR)、国际计算机视觉大会(ICCV)以及欧洲计算机视觉国际会议(ECCV)是最为知名的三大顶会。

在全球专家学者交流研讨的同时,这些顶会还会举办系列挑战赛,全球众多顶尖团队积极报名参赛,在计算机视觉的各个细分领域同台“论剑”,一争高下。

6月下旬举办的CVPR大会也不例外。在本次大会组织的各项计算机视觉挑战赛中,联想研究院团队共斩获6项冠军,包括:

  • 第一人称视角与外界视角融合的4D视觉挑战赛(Ego4D and EgoExo4D Challenge)社交互动(Looking At Me)赛道冠军
  • 第一人称视角与外界视角融合的4D视觉挑战赛(Ego4D and EgoExo4D Challenge)手部姿态估计(Hand Pose)赛道冠军
  • 自动驾驶ARGOVERSE挑战赛3D物体检测(3D Object Detection Challenge)赛道冠军
  • 自动驾驶ARGOVERSE挑战赛3D多目标跟踪(3D Multi-Object Tracking Challenge)赛道冠军
  • 自主系统挑战赛(Autonomous Grand Challenge, AGC)具身多模态三维视觉定位(Multi-View 3D Visual Grounding)赛道冠军,并拿下最具创新奖
  • 人工智能城市挑战赛(AI City Challenge)多相机多行人跟踪(Multi-Camera Multi-People Tracking)赛道冠军

其中,研究院PC创新与生态系统实验室团队收获前四项冠军,而人工智能实验室和清华大学、以及与上海交通大学的两个联合团队分别拿下自主系统挑战赛具身多模态三维视觉定位冠军和最具创新奖,以及AI CITY挑战赛多相机多行人跟踪赛道冠军。

Ego4D数据集是一个大规模的以自我为中心的视频数据集和基准套件。它提供3670小时的日常生活活动视频,涵盖数百种场景(家庭、户外、工作场所、休闲等),由来自全球74个地点和9个不同国家的931名独特的相机佩戴者(camera wearer)拍摄。

Ego-Exo4D数据集则是一个多样化的、大规模的多模式多视角视频数据集和基准套件。Ego-Exo4D同时捕捉以自我为中心和以外部为中心的,大众熟悉的人类活动视频(例如,体育、音乐、舞蹈、自行车修理等)。

基于这两个数据集,CVPR2024提出了一系列新的基准挑战,这些挑战围绕着理解第一人称视觉体验展开。联想研究院PC创新与生态系统实验室团队收获了其中的社交互动(Looking At Me)赛道和手部姿态估计(Hand Pose)赛道两项冠军。

在社交互动(Looking At Me)赛道,团队以80.91 mAP(mean Average Precision,平均精度均值)的成绩获得了挑战赛第一名。

社交互动是人类行为理解的关键。通过获取以自我为中心的视频数据,我们可以获得一种独特的视角,捕捉到每个参与者的言语交流和非语言线索。这种技术为研究社交互动提供了宝贵的信息源,有助于深入理解人类的社交行为。未来,这种技术有望推动虚拟助理和社交机器人的发展,使其能够更好地融入人类的社交环境,提供更智能、更贴心的交互体验。通过分析社交互动的细微信号,我们可以培养出更富同理心和社交智慧的人工智能系统,使其能够更自然地与人类进行沟通互动。

比如该技术可以用来检测家庭成员情绪状态,并为其提供建议或播放音乐等缓解情绪,具备情境理解与响应能力。再比如,当检测到厨房的烟雾报警器响起时,它不仅能即时通知家庭成员,还能自动联系紧急服务,并指导家中的儿童安全撤离。

在该挑战中,参与者获得了一段视频,其中包含了已被定位和识别的社交伙伴的人脸,并对每个可见的人脸进行分类,判断它们是否都在看向相机佩戴者。由于场景中人与摄像机之间的距离,以及人体的运动,导致了人脸图像的模糊,使得这项任务具有很高的挑战性。

面对这项挑战,团队提出了由一个InterVL图像编码器和Bi-LSTM网络组成的InternLSTM解决方案。InternVL负责提取空间特征,Bi-LSTM提取时间特征。为了解决任务的复杂性,我们引入了平滑滤波器,以消除输出的噪声或尖峰。

在CVPR2024第一人称视角与外界视角融合的4D视觉挑战赛的另一个赛道——手部姿态估计(Hand Pose),团队以25.51 MPJPE(Mean Per Joint Position Error)和8.49 PA_MPJPE (Procrustes Aligned MPJPE) 的成绩获得了挑战赛第一名。

在该挑战中,团队需要从自我中心视角拍摄的视频图像中,精确捕捉并重建手部的三维姿态,包含21个3D关节的精确估计,这不仅要求算法的超高精度,更需要对复杂手部姿态的深刻理解。

由于手部动作非常细微并且经常被遮挡,使得这项任务极具挑战性。为了处理该项复杂的任务,我们提出了基于Transformer的3D手部姿态估计网络(HP ViT)。HP ViT包括ViT主干网络和Transformer解码器,利用MPJPE和RLE损失函数,来估计3D手部关节位置。

我们的 ViT-Huge 模型通过使用 MPJPE 损失函数训练了20次,然后使用RLE损失函数对模型进行微调,进一步提高了性能。我们发现,使用不同超参数设置训练的模型融合之后,可以降低整体误差。

接下来,我们计划将该姿态估计方法从单个图像扩展到视频序列,通过整合手部运动信息,以进一步提升模型的性能。通过这些策略,我们希望能够继续优化模型,为姿态估计任务提供更加准确和强大的解决方案。

Figure 1. The framework of HP-ViT.

3D手部姿态识别技术可以赋能多种场景。比如,在一款VR射击游戏中,玩家可以通过实际挥动手部来模拟射击动作,游戏通过识别手部姿态来执行相应的射击指令。这项技术还可以用于辅助残障人士,通过识别手部动作来控制轮椅或其他辅助设备,提高他们的生活质量。在医疗领域,3D手部姿态分析也可以帮助医生评估患者的康复进度,提供个性化的康复训练计划。

Argoverse 2是来自美国六个城市的开源自动驾驶数据和高清(HD)地图的集合。该版本建立在最初发布的Argoverse(“Argoverse 1”)的基础上,Argoverse 1是同类数据中首批包含用于机器学习和计算机视觉研究的高清地图的数据集。

在自动驾驶ARGOVERSE 3D物体检测(3D Object Detection)和3D多目标跟踪(3D Multi-Object Tracking)比赛中,团队设计出一个端到端的统一感知预测方案Le_E2E_Forecaster,融合多种传感器,包括激光雷达、360°环视摄像头输入的信息,并融合历史信息实现特征增强,使用Deformable DETR解码器,同时处理检测、跟踪,运动预测和占用网络预测等多个子任务。

最终在3D物体检测赛道上,CDS(Corner Distance Similarity)指标获得43%的好成绩,相比第二名,高出16%;在3D多目标跟踪赛道上,HOTA(高阶跟踪准确度)指标获得64.6的好成绩,相比第二名,高出5%。

3D目标检测和跟踪技术广泛应用于自动驾驶汽车中,能够用于实时识别并追踪周围物体的位置和速度,如行人、其他车辆和交通标志。例如,在城市交通环境中,这项技术可以帮助自动驾驶系统做出安全决策,如避让行人或变更车道。此外,3D目标检测也用于无人机导航,通过识别地形和障碍物,无人机可以自动规划飞行路径,实现精准的货物投递或地形测绘。

在CVPR2024自主系统挑战赛(Autonomous Grand Challenge)的具身多模态三维视觉定位”(Multi-View 3D Visual Grounding)赛道中,研究院人工智能实验室和清华联合团队力压哈佛大学、洛桑联邦理工学院、香港中文大学、中科大等国际国内高校,以及微软、小米等企业,将赛事冠军和最具创新奖一并收入囊中。

相比一般意义上的AI,具身智能(Embodied AI)更加注重将人工智能融入机器人等物理实体,从而使机器人获得感知和理解环境、以至于和环境动态交互的能力。具身多模态三维视觉定位就是具身智能相关技术的一个重要领域。

本次挑战赛聚焦室内场景。与常见的3D感知任务相比,位于室内的3D感知系统面临更多的挑战,比如多模态输入(包括图片、3D点云和语言指令)、更加多样的物体类型、需要关注不同的物体种类和物体朝向,甚至它们的相对位置、以及更加复杂的空间场景等。

本任务主要的挑战点包括:多模态的输入信息(3D点云、图像、语言),特别是语言模态的加入,极大地增加了任务的难度;以及在3D点云模态下的小尺寸室内物体检测。针对这两个难点,团队提出了如下解决方案:

数据样本

语言模态增强:上图是一个数据样本。任务要求是“找到桌子旁边的椅子”,而图中实际上存在很多把椅子,但是只有一把在“桌子旁边”,这会对模型预测产生极大的干扰。针对此问题,团队使用了大语言模型(LLM)对原始的文本数据进行增强,以构建更加丰富的语义信息。

通过上图步骤,可以把“桌子旁边的椅子”这样的简单描述,变成“桌子旁边的椅子,且离电视最近、离窗户最远”,这样模型能够更加顺利地找到目标物体。

多模态融合:该任务的另一个难点是室内场景下物体太小,导致点云数据难以捕捉到小目标,如下图场景中的鼠标,激光雷达只能从鼠标上获得很少的信号;但是对于相机来说,获得鼠标的位置要容易得多。

传统的多模态融合模式,一般是先将图片和点云两个模态的信息融合,然后再和文本信息融合。这种融合方式的缺陷在于模型并不知道需要重点关注3D空间中的哪些部分。以鼠标为例,直接融合图片和点云信息可能对检测鼠标并没有什么帮助,甚至可能反过来削弱2D图片中鼠标信号的强度。

针对这种情况,我们设计了一套新的多模态注意力机制,整体框架如下:

我们先将多视角的图片信息和文本信息通过名为Bi-TVI的模块进行融合,这一模块旨在通过注意力机制引导网络关注那些“真正需要的部分”。在进行了注意力交互之后,通过携带有注意力信息的图片特征再去和3D点云信息进行融合,从而实现高效的小尺寸室内物体检测。

人工智能城市挑战赛是智慧交通领域国际上最具知名度的竞赛之一,在今年该赛事的多相机多行人跟踪赛道中,研究院人工智能实验室和上海交通大学联合团队一举夺冠。

多相机多行人跟踪赛道主要任务需要在跨摄像头的遮挡场景中检测和跟踪每个人,并在不同的摄像头上为同一对象分配相同的 ID。今年该赛道大幅增加了数据的难度:摄像头数量从129增加到了1300左右,行人数量从156增加到了3400左右。同时为了鼓励参赛者采用在线算法,在线跟踪将会获得额外10%的奖励分数。

跨摄像头跟踪场景

基于项目场景,团队设计了一套基于外观一致性和空间一致性的在线跟踪系统。该系统集成了相机内和相机间的空间信息以及目标的自适应外观信息。在将多视图的检测结果与跟踪目标进行匹配时,同时考虑 2D 空间信息、3D 极限距离、单应距离和自适应的Re-ID相似度 。其中,前三个旨在满足单视图内和不同视图之间的几何约束,后者有助于纠正严重遮挡期间和之后的 ID 切换问题。为了避免由于同一ID个体在不同视点之间的显著 Re-ID 差异而导致的多条轨迹,团队专门设计了一个 Re-ID 特征储存库来存储对应于不同姿势和角度的 Re-ID 特征,使得系统具有强大的在线ID重识别能力,这在人群密集和遮挡严重的场景中极为重要。

系统框架图

近年来,联想研究院一直致力于布局多模态视觉感知、大语言模型/多模态大模型的研发,此次夺得6项冠军,充分彰显了团队在这些领域的技术能力。在过去几年的计算机视觉顶会组织的挑战赛中,包括CVPR以及ECCV等,联想研究院团队曾屡次夺得多个赛道冠军。