$VideoContentTcplayer$
  • 采购项目
  • 配套企业库
  • 销量查询
  • 盖世汽车社区
  • 盖世大学堂
  • 盖亚系统
  • 盖世汽车APP
  • 2025第六届软件定义汽车论坛暨AUTOSAR中国日
  • 2025第五届中国汽车人机交互与体验设计创新大会
  • 2025第五届汽车计算大会
  • 2025第三届AI定义汽车论坛
  • 2025第三届中国汽车及零部件出海高峰论坛
  • 第八届上海-斯图加特汽车及动力系统国际研讨会
  • 2025第四届中国车联网安全大会
当前位置:首页 > 新技术 > 正文

研究人员开发出视觉语言框架 可帮助机器人抓取未曾见过的新物体

盖世汽车 钟群 2024-08-06 18:05:00

盖世汽车讯 要在广泛的现实世界动态环境中部署,机器人必须具备成功完成各种手动任务的能力,从家务到复杂的制造或农业过程等。这些手动任务需要抓取、操纵和放置不同类型的物体,这些物体的形状、重量、属性和纹理可能会各不相同。

研究人员开发出视觉语言框架 可帮助机器人抓取未曾见过的新物体

图片来源:arXiv

然而,目前大多数使机器人能够抓取和操纵物体的方法,只能使机器人与训练中遇到的物体匹配或非常相似的物体进行交互。这意味着,当机器人遇到一种新的(即以前从而见过的)物体时则无法进行抓取。

据外媒报道,北京航空航天大学(Beihang University)和利物浦大学(University of Liverpool)的研究团队最近着手开发新方法,以克服机器人抓取系统的这一关键限制。相关研究论文发表在arXiv预印本服务器上,其中介绍了一种统一的视觉语言框架OVGNet,可以实现开放式词汇学习,进而使机器人能够掌握已知和新类别的物体。

李蒙、赵琦及其同事在论文中写道:“在现实世界的机器人应用中,识别和抓取新类别的物体仍然是一个关键且具有挑战性的问题。尽管它意义重大,但目前在这一特定领域进行的研究有限。为了解决这个问题,我们提出了一种新的框架,将开放式词汇学习集成到机器人抓取领域,使机器人能够熟练地处理新物体。”

该框架依赖于研究人员编译的一个新基准数据集,称为OVGrasping。该数据集包含63385个抓取场景的示例,这些抓取场景的对象属于117个不同的类别,这些类别分为基本(即已知)和新颖(即未见过)类别。

李蒙、赵琦及其同事写道:“首先,我们提出了一个大规模的基准数据集,专门用于评估开放式词汇掌握任务的表现。其次,我们提出了一个统一的视觉语言框架,作为机器人成功抓取基本物体和新物体的指南。然后,我们引入了两个对齐模块,旨在增强机器人抓取过程中的视觉语言感知。”

该研究团队引入的新框架OVGNet基于视觉语言感知系统。利用视觉和语言元素,该系统通过训练能够识别物体并设计出有效的策略来进行抓取。该框架包括图像引导语言注意力模块(IGLA)和语言引导注意力模块(LGIA)。这两个模块用于共同分析被检测物体的整体特征,增强机器人在已知和新物体类别中推广其抓取策略的能力。

研究人员使用模拟的ROBOTIQ-85机器人和UR5机械臂,在基于pybullet的抓取仿真环境中对他们提出的框架进行了一系列测试。测试结果表明,该框架取得了可喜的结果,在涉及新物体类别的任务中,该框架优于其它机器人抓取的基线方法。

李蒙、赵琦及其同事写道:“值得注意的是,我们的框架在新数据集中的基本类别和新类别上的平均准确率分别为71.2%和64.4%。”

研究人员编译的OVGrasping数据集及其OVGNet框架的代码是开源的,其它开发人员可以在GitHub上访问。未来,他们的数据集可用于训练其它算法,而他们的框架可以在其它实验中进行测试,并部署在其它机器人系统上。

2024年全球前瞻技术情报

*特别声明:本文为技术类文章,禁止转载或大篇幅摘录!违规转载,法律必究。

本文地址:https://auto.gasgoo.com/news/202408/6I70401062C409.shtml

文章标签: 前瞻技术
 
0

好文章,需要你的鼓励

微信扫一扫分享该文章