$VideoContentTcplayer$
  • 采购项目
  • 配套企业库
  • 销量查询
  • 盖世汽车社区
  • 盖世大学堂
  • 盖亚系统
  • 盖世汽车APP
  • urope-Asia Automobile Innovation Forum
  • 第十三届汽车与环境创新论坛暨第七届金辑奖中国汽车新供应链百强颁奖盛典
  • 盖世汽车产业大数据
  • 2025第五届智能商用车创新大会
  • 2025第五届未来汽车AI计算大会
  • 2025第五届汽车芯片产业大会
当前位置:首页 > 新技术 > 正文

Figure推出视觉-语言-动作模型 通过语音指令让人形机器人做家务

盖世汽车 Elisha 2025-02-25 10:00:16
核心提示:这种“通用型”视觉-语言-动作(VLA)模型将感知、语言理解和学习控制统一起来,以克服机器人技术领域的多项长期挑战。

盖世汽车讯 据外媒报道,Figure创始人兼首席执行官Brett Adcock推出用于人形机器人的新机器学习模型——HelixHelix,这是一种“通用型”视觉-语言-动作(VLA)模型,将感知、语言理解和学习控制统一起来,以克服机器人技术领域的多项长期挑战。

Figure推出视觉-语言-动作模型 通过语音指令让人形机器人做家务

(图片来源:Figure公司)

VLA是机器人技术领域的新现象,利用视觉和语言命令来处理信息,例如目前比较有名的Google DeepMind的RT-2,通过视频和大型语言模型(LLM)组合来训练机器人。Helix的工作方式与之类似,将视觉数据和语言提示结合起来,以实时控制机器人。

Figure表示:“Helix表现出强大的物体泛化能力,只需通过自然的语言提问,就能拾起数千种新型家居用品,这些物品具有不同的形状、大小、颜色,以及在训练中从未见过的材料特性。”

在理想的世界中,人们只需命令机器人做某事,它就会去做。据Figure介绍,这就是Helix的作用所在。该平台旨在弥合视觉和语言处理之间的差距。该机器人在收到自然的语言语音提示后,能够通过视觉来评估环境,然后执行任务。

Figure提供了一些示例,例如“将一袋饼干递给你右边的机器人”,或“从你左边的机器人那儿接过一袋饼干,并把它放在打开的抽屉里”。这些都涉及一对机器人的协同工作,因为Helix设计旨在同时控制两个机器人,即其中一个机器人协助另一个机器人来执行各种家务。

Figure重点介绍该公司在家庭环境中使用其02人形机器人所做的工作,以展示该VLM。众所周知,对于机器人来说,房屋环境是比较棘手的,因为缺乏仓库和工厂的结构和一致性。

让复杂的机器人系统进入家庭,主要问题在于学习和控制障碍。由于这些问题涉及高昂的成本,大多数人形机器人公司不会优先考虑家用机器人。一般来说,这种方法用于为工业用户制造机器人,以在解决家庭场景适应性之前提高可靠性和降低成本。

随着Helix的推出,Figure阐明家庭环境应该成为优先考虑事项。对于测试此类训练模型,这是具有挑战性和复杂性的环境。例如,教机器人在厨房里完成复杂的任务,使它们能够在不同的环境中采取广泛的行动。

Figure表示:“要让机器人在家庭环境中发挥作用,它们需要能够按需产生智能的新行为,尤其是对于它们从未见过的物体。目前,即使是教会机器人一种新行为也会耗费大量人力,或需要博士级专家进行数小时的手动编程,或需要进行数千次演示。”但是,考虑到家庭环境的复杂性,这都需要高昂的成本。

总体而言,与目前许多类似的人形机器人一样,Helix的研发工作仍处于非常早期的阶段。 

2024年全球前瞻技术情报

*特别声明:本文为技术类文章,禁止转载或大篇幅摘录!违规转载,法律必究。

本文地址:https://auto.gasgoo.com/news/202502/25I70419359C409.shtml

 
0

好文章,需要你的鼓励

微信扫一扫分享该文章