• 采购项目
  • 配套企业库
  • 销量查询
  • 盖世汽车社区
  • 盖世大学堂
  • 盖亚系统
  • 盖世汽车APP
  • 第六届汽车新供应链大会
  • 2024中国汽车工业质量大会
  • 2024第二届具身智能产业发展论坛
  • 2025第六届软件定义汽车论坛暨AUTOSAR中国日
当前位置:首页 > 新技术 > 正文

新方法帮助机器人导航 使用语言基输入而不是昂贵的视觉数据

盖世汽车 Elisha 2024-06-18 08:42:18
核心提示:这种方法不是将机器人周围环境图像的视觉特征编码为视觉表征(这需要大量计算),而是创建描述机器人视角的文本说明(text caption)。

盖世汽车讯 有一天,人们可能希望自己的家用机器人把一大堆脏衣服搬到楼下,并把它们放进地下室最左边角落的洗衣机。机器人需要将指令与它的视觉观察结合起来,以确定它应该采取什么步骤来完成这项任务。

新方法帮助机器人导航 使用语言基输入而不是昂贵的视觉数据

(图片来源:arXiv)

对于人工智能本体(AI agent)来说,这说起来容易做起来难。当前方法通常使用多个人工创建的机器学习模型来处理各部分任务,基于大量的人力和专业知识而构建。这些方法通过视觉表征(visual representation)来直接做出导航决策,需要大量的视觉数据来进行训练,而这些数据通常很难获得。

据外媒报道,为了克服这些挑战,麻省理工学院(MIT)和MIT-IBM Watson AI实验室的研究人员设计了一种导航方法,将视觉表征转换为语言片段,然后将其输入大语言模型中,该模型可以实现多步导航任务中的所有部分。



本文共计1000字开通高级账号后继续阅读

登录后获取已开通的账号权益

本文共计1000字开通高级账号后继续阅读

您未开通,请开通后阅读

*特别声明:本文为技术类文章,禁止转载或大篇幅摘录!违规转载,法律必究。

本文地址:https://auto.gasgoo.com/news/202406/18I70396026C409.shtml

 
0

好文章,需要你的鼓励

微信扫一扫分享该文章