$VideoContentTcplayer$
盖世汽车讯 有一天,人们可能希望自己的家用机器人把一大堆脏衣服搬到楼下,并把它们放进地下室最左边角落的洗衣机。机器人需要将指令与它的视觉观察结合起来,以确定它应该采取什么步骤来完成这项任务。
(图片来源:arXiv)
对于人工智能本体(AI agent)来说,这说起来容易做起来难。当前方法通常使用多个人工创建的机器学习模型来处理各部分任务,基于大量的人力和专业知识而构建。这些方法通过视觉表征(visual representation)来直接做出导航决策,需要大量的视觉数据来进行训练,而这些数据通常很难获得。
据外媒报道,为了克服这些挑战,麻省理工学院(MIT)和MIT-IBM Watson AI实验室的研究人员设计了一种导航方法,将视觉表征转换为语言片段,然后将其输入大语言模型中,该模型可以实现多步导航任务中的所有部分。
这种方法不是将机器人周围环境图像的视觉特征编码为视觉表征(这需要大量计算),而是创建描述机器人视角的文本说明(text caption)。大语言模型通过这些说明来预测机器人应该采取的行动,以完成用户基于语言的指令。
这种方法使用纯语言基表征,因此可以使用大语言模型来有效生成大量的合成训练数据。这种方法并不优于使用视觉特征的技术,但在缺乏足够视觉数据用于训练的情况下表现良好。研究人员发现,将基于语言的输入与视觉信号结合起来,可以实现更好的导航性能。
这项研究的论文发表在arXiv预印本服务器上。电气工程和计算机科学(EECS)研究生Bowen Pan表示:“通过纯粹使用语言作为知觉表征,我们的方法更为直接。由于所有输入都可以编码为语言,研究人员可以生成人们可以理解的轨迹。”
用语言解决视觉问题
由于大语言模型是现有最强大的机器学习模型,研究人员试图将它们整合至复杂的视觉和语言导航任务中。但是,这类模型仅接受文本基输入,无法处理来自机器人摄像头的视觉数据。因此,该团队需要找到一种使用语言的方法。
该技术利用简单的说明模型(captioning model)来获取机器人视觉观察的文本描述。这些说明与基于语言的指令相结合,并输入到大语言模型中,然后该模型将决定机器人下一步应该采取的导航步骤。大语言模型会输出机器人在完成该步骤后应该看到的场景说明。这用于更新轨迹历史,以便机器人可以跟踪它去过的地方。该模型重复这些过程以生成一条轨迹,从而引导机器人一步步到达目标。
为了简化这一过程,研究人员设计了模板,以便将观察信息以标准形式呈现给模型,作为机器人可以根据周围环境做出的一系列选项。例如,一个说明可能会说“在你的左边30度是一扇门,旁边有一盆植物,在你的背后是一个小办公室,有一张桌子和一台电脑”等等。该模型会选择机器人是向门还是办公室移动。
研究人员表示,最大的挑战之一在于,弄清楚如何以适当的方式将这种信息编码成语言,让AI本体理解任务是什么以及它们该如何回应。
*特别声明:本文为技术类文章,禁止转载或大篇幅摘录!违规转载,法律必究。
本文地址:https://auto.gasgoo.com/news/202406/18I70396026C409.shtml
 
联系邮箱:info@gasgoo.com
求职应聘:021-39197800-8035
简历投递:zhaopin@gasgoo.com
客服微信:gasgoo12 (豆豆)
新闻热线:021-39586122
商务合作:021-39586681
市场合作:021-39197800-8032
研究院项目咨询:021-39197921