$VideoContentTcplayer$
  • 采购项目
  • 配套企业库
  • 销量查询
  • 盖世汽车社区
  • 盖世大学堂
  • 盖亚系统
  • 盖世汽车APP
  • Gasgoo night
  • 盖世汽车产业大数据
  • 2025汽车消费趋势洞察大会
  • dive into the Chinese auto market and supply chain
  • 2025第三届中国汽车及零部件出海高峰论坛
  • 第八届上海-斯图加特汽车及动力系统国际研讨会
  • 2025第四届中国车联网安全大会
当前位置:首页 > 新技术 > 正文

中科院研究人员通过创新框架改善场景感知

盖世汽车 刘丽婷 2024-05-15 10:59:37

盖世汽车讯 据外媒报道,在中国科学院合肥物质科学研究院刘勇教授的带领下,研究人员提出新框架,即基于视频片段的知识转移和关系上下文挖掘(Clip-based Knowledge Transfer and Relational Context Mining,CKT-RCM),以解决计算机视觉中的长尾分布问题。

中科院研究人员通过创新框架改善场景感知

图片来源:中科院

全景场景图(PSG)是场景图生成中的一个突出研究方向,需要图像中所有关系的全面输出以及目标定位的精确分割。PSG旨在通过计算机视觉模型提高对场景的理解,并支持场景描述和视觉推理等下游任务。

在这项研究中,研究人员探讨了人类如何感知物体关系,提出了两个关键观点。 人类通常根据常识或先验知识来预测客体关系,并根据主体和客体之间的上下文信息推断关系。

这些观点强调了利用先验知识的重要性:一种涉及使用人类先前观察到的外部数据来纠正数据偏差,而另一种则依赖于对象之间条件的先验分布。

“因此,我们认为充足的先验知识和背景信息对于PSG预测至关重要。”团队成员王帆博士表示。

他们开发了这个网络框架CKT-RCM。基于预训练的视觉语言模型CLIP,CKT-RCM有助于PSG过程中的关系推理。它集成了交叉注意力机制来提取关系上下文,确保关系预测中价值和质量之间的平衡。这项研究有助于机器人和自动驾驶车辆对场景的理解和感知。

2024年全球前瞻技术情报

*特别声明:本文为技术类文章,禁止转载或大篇幅摘录!违规转载,法律必究。

本文地址:https://auto.gasgoo.com/news/202405/15I70392336C409.shtml

文章标签: 前瞻技术
 
0

好文章,需要你的鼓励

微信扫一扫分享该文章