• 采购项目
  • 配套企业库
  • 销量查询
  • 盖世汽车社区
  • 盖世大学堂
  • 盖亚系统
  • 盖世汽车APP
  • 盖世汽车产业大数据
  • 2025第八届智能辅助驾驶大会
  • 第八届上海-斯图加特汽车及动力系统国际研讨会
  • 2025第四届中国车联网安全大会
  • 2025汽车智能玻璃创新技术及应用大会
当前位置:首页 > 国际 > 正文

布朗大学开发出新人工智能模型 可将文本命令转化为机器人动作

盖世汽车 刘丽婷 2025-05-15 10:37:11

盖世汽车讯 据外媒报道,布朗大学(Brown University)的研究人员开发出新人工智能模型,该模型可以生成机器人和动画人物的动作,其方式与ChatGPT等人工智能模型生成文本的方式非常相似。相关论文已发表在arXiv预印本服务器上。

布朗大学开发出新人工智能模型 可将文本命令转化为机器人动作

图片来源: 布朗大学

该模型名为MotionGlot,用户只需输入一个动作——“向前走几步,然后右转”,即可生成该动作的精确表示,从而指挥机器人或动画角色。

据研究人员称,该模型的关键进步在于它能够跨机器人和各种类型的人物(从人形到四足动物等等)“翻译”动作。这使得它能够为各种机器人形态以及各种空间配置和情境生成动作。

“我们把动作简单地视为另一种语言,”布朗大学计算机科学博士生、这项研究的负责人Sudarshan Harithas说道。“就像我们可以翻译语言(例如,从英语翻译成中文)一样,我们现在可以将基于语言的命令翻译成跨多种具体实现的相应动作。这使得一系列新的应用成为可能。”

这项研究由Harithas和他的导师、布朗大学计算机科学助理教授Srinath Sridhar共同完成。

像ChatGPT这样的大型语言模型通过一种名为“下一个标记预测”的过程生成文本,这个过程将语言分解成一系列标记,或者说是小块,例如单个单词或字符。给定一个标记或一串标记,语言模型会预测下一个标记可能是什么。

这些模型在文本生成方面非常成功,研究人员也开始使用类似的方法处理运动。其理念是将运动的各个组成部分(例如行走过程中腿部的离散位置)分解成标记。一旦运动被标记化,就可以通过下一个标记预测生成流畅的动作。

这种方法面临的一个挑战是,不同体型的动作可能看起来截然不同。例如,当一个人在街上遛狗时,人和狗都在做所谓的“行走”动作,但他们的实际动作却截然不同。一个是双腿直立行走,另一个是四肢着地。

据Harithas介绍,MotionGlot可以将行走的含义从一种形态转换为另一种形态。因此,当用户命令一个机器人“沿直线向前行走”时,无论他们命令的是人形机器人还是机器狗,都能获得正确的动作输出。

为了训练模型,研究人员使用了两个数据集,每个数据集都包含数小时带注释的运动数据。QUAD-LOCO数据集包含类似狗的四足机器人,它们可以执行各种动作,并配有描述这些动作的丰富文本。一个名为QUES-CAP的类似数据集包含真实的人类动作,以及与每个动作相关的详细字幕和注释。

利用这些训练数据,该模型能够根据文本提示可靠地生成合适的动作,即使是它从未见过的动作。在测试中,该模型能够重现特定的指令,例如“机器人向后走,左转,然后向前走”,以及更抽象的提示,例如“机器人快乐地行走”。

它甚至可以利用动作来回答问题。当被问到“你能给我展示一下有氧运动的动作吗?”时,该模型会生成一个人在慢跑的画面。

“这些模型在经过大量数据训练后效果最佳,”Sridhar说道。“如果我们能够收集到大规模数据,该模型就可以轻松扩展。”

研究人员表示,该模型当前的功能及其跨界的适应性,使其在人机协作、游戏和虚拟现实以及数字动画和视频制作等领域拥有广阔的应用前景。他们计划公开该模型及其源代码,以便其他研究人员可以使用并进行扩展。

*版权声明:本文为盖世汽车原创文章,如欲转载请遵守 转载说明 相关规定。违反转载说明者,盖世汽车将依法追究其法律责任!

本文地址:https://auto.gasgoo.com/news/202505/15I70425136C101.shtml

文章标签: 前瞻技术
 
0

好文章,需要你的鼓励

微信扫一扫分享该文章