$VideoContentTcplayer$
  • 采购项目
  • 配套企业库
  • 销量查询
  • 盖世汽车社区
  • 盖世大学堂
  • 盖亚系统
  • 盖世汽车APP
  • 科技平权:汽车生态整合进入2.0时代
  • 2025第六届软件定义汽车论坛暨AUTOSAR中国日
  • 2025第五届中国汽车人机交互与体验设计创新大会
  • 2025第五届汽车计算大会
  • 2025第三届AI定义汽车论坛
  • 走进上汽提质增效&创新驱动论坛暨
  • 2025第三届中国汽车及零部件出海高峰论坛
  • 第八届上海-斯图加特汽车及动力系统国际研讨会
  • 2025第四届中国车联网安全大会
当前位置:首页 > 新技术 > 正文

新方法帮助机器人导航 使用语言基输入而不是昂贵的视觉数据

盖世汽车 Elisha 2024-06-18 08:42:18
核心提示:这种方法不是将机器人周围环境图像的视觉特征编码为视觉表征(这需要大量计算),而是创建描述机器人视角的文本说明(text caption)。

盖世汽车讯 有一天,人们可能希望自己的家用机器人把一大堆脏衣服搬到楼下,并把它们放进地下室最左边角落的洗衣机。机器人需要将指令与它的视觉观察结合起来,以确定它应该采取什么步骤来完成这项任务。

新方法帮助机器人导航 使用语言基输入而不是昂贵的视觉数据

(图片来源:arXiv)

对于人工智能本体(AI agent)来说,这说起来容易做起来难。当前方法通常使用多个人工创建的机器学习模型来处理各部分任务,基于大量的人力和专业知识而构建。这些方法通过视觉表征(visual representation)来直接做出导航决策,需要大量的视觉数据来进行训练,而这些数据通常很难获得。

据外媒报道,为了克服这些挑战,麻省理工学院(MIT)和MIT-IBM Watson AI实验室的研究人员设计了一种导航方法,将视觉表征转换为语言片段,然后将其输入大语言模型中,该模型可以实现多步导航任务中的所有部分。

这种方法不是将机器人周围环境图像的视觉特征编码为视觉表征(这需要大量计算),而是创建描述机器人视角的文本说明(text caption)。大语言模型通过这些说明来预测机器人应该采取的行动,以完成用户基于语言的指令。

这种方法使用纯语言基表征,因此可以使用大语言模型来有效生成大量的合成训练数据。这种方法并不优于使用视觉特征的技术,但在缺乏足够视觉数据用于训练的情况下表现良好。研究人员发现,将基于语言的输入与视觉信号结合起来,可以实现更好的导航性能。

这项研究的论文发表在arXiv预印本服务器上。电气工程和计算机科学(EECS)研究生Bowen Pan表示:“通过纯粹使用语言作为知觉表征,我们的方法更为直接。由于所有输入都可以编码为语言,研究人员可以生成人们可以理解的轨迹。”

用语言解决视觉问题

由于大语言模型是现有最强大的机器学习模型,研究人员试图将它们整合至复杂的视觉和语言导航任务中。但是,这类模型仅接受文本基输入,无法处理来自机器人摄像头的视觉数据。因此,该团队需要找到一种使用语言的方法。

该技术利用简单的说明模型(captioning model)来获取机器人视觉观察的文本描述。这些说明与基于语言的指令相结合,并输入到大语言模型中,然后该模型将决定机器人下一步应该采取的导航步骤。大语言模型会输出机器人在完成该步骤后应该看到的场景说明。这用于更新轨迹历史,以便机器人可以跟踪它去过的地方。该模型重复这些过程以生成一条轨迹,从而引导机器人一步步到达目标。

为了简化这一过程,研究人员设计了模板,以便将观察信息以标准形式呈现给模型,作为机器人可以根据周围环境做出的一系列选项。例如,一个说明可能会说“在你的左边30度是一扇门,旁边有一盆植物,在你的背后是一个小办公室,有一张桌子和一台电脑”等等。该模型会选择机器人是向门还是办公室移动。

研究人员表示,最大的挑战之一在于,弄清楚如何以适当的方式将这种信息编码成语言,让AI本体理解任务是什么以及它们该如何回应。

2024年全球前瞻技术情报

*特别声明:本文为技术类文章,禁止转载或大篇幅摘录!违规转载,法律必究。

本文地址:https://auto.gasgoo.com/news/202406/18I70396026C409.shtml

 
0

好文章,需要你的鼓励

微信扫一扫分享该文章