• 采购项目
  • 配套企业库
  • 销量查询
  • 盖世汽车社区
  • 盖世大学堂
  • 盖亚系统
  • 盖世汽车APP
  • Gasgoo night
  • 盖世汽车产业大数据
  • 2025汽车消费趋势洞察大会
  • dive into the Chinese auto market and supply chain
  • 2025第三届中国汽车及零部件出海高峰论坛
  • 第八届上海-斯图加特汽车及动力系统国际研讨会
  • 2025第四届中国车联网安全大会
当前位置:首页 > 活动 > 正文

智元新创:数据驱动的通用具身基座大模型GO-1

盖世直播 谢雨欣 2025-03-27 09:00:23

上海智元新创技术有限公司成立于2023年2月,是一家致力于以Al+机器人融合创新、打造世界级领先的具身智能机器人产品及应用生态的创新企业。 

2025年3月13日,在第三届具身智能机器人产业发展论坛上,智元具身研究中心常务主任任广辉表示,具身智能是未来十年人工智能技术发展的核心驱动力,预计将催生一系列革命性产品。具身智能的演进与发展离不开海量数据的支撑。当前,具身智能面临的最大瓶颈在于缺乏充足的机器人操作数据,这限制了技术的进一步发展和应用。现有具身模型在落地过程中存在泛化性差、场景适应性弱等问题,一旦场景发生变化,成功率会大幅下降。此外,扩展新任务时需要重新收集大量数据,成本高昂,且不同机器人本体的数据无法共享,进一步加剧了数据稀缺的问题。由于缺乏实际落地和数据回流,模型无法持续进化。 

针对这些挑战,智元提出了Vision-Language-Latent-Action(ViLLA)这一创新性架构,该架构能够充分利用数字金字塔中各个层级的数据资源,具备人类视频学习能力、小样本快速泛化能力、一脑多形能力和持续进化能力。

智元新创:数据驱动的通用具身基座大模型GO-1

任广辉 | 智元具身研究中心常务主任

以下为演讲内容整理:

公司发展与具身智能趋势

智元新创成立于2023年2月,2023年8月便发布了原型机远征A1。同年10月,下线100台产品,到2025年1月,累计下线达1000台,在量产机器人领域,发展速度处于国内外领先水平。

智元新创:数据驱动的通用具身基座大模型GO-1

图源:智元新创

从AI发展历程来看,1950年AI概念被提出,2012年Xnet的出现掀起了中国AI领域的第一波浪潮,诞生了CV四小龙等一批企业。2022年底,GPT的爆发引发了第二波AI浪潮。近期,Deepseek R1在春节期间受到全球关注。此前这些多属于数字世界AI,而具身智能才是对世界影响最为深远的领域,有望成为AI发展的下一个“GPT时刻”,也是未来十年科技发展的核心驱动力。如今,众多机器人公司应运而生,智元机器人便是其中之一。

具身智能是人形机器人的核心价值所在。机器人本体是基础,虽然其构型和硬件最终会趋于相似,但AI赋予了硬件更多应用可能,使其拥有灵魂。回顾汽车和手机行业的发展历程,可对机器人未来发展进行合理想象。从技术角度看,以往机器人的算法技术多处于G1、G2阶段,主要是人工编排或拆解的模块化程序,执行预设任务。如今,正朝着G3、G4阶段迈进,更倾向于端到端的技术,未来甚至可能实现大小脑合一的端脑袋大模型。在AI的算法、算力和数据三要素中,算法不断演进,而数据至关重要。然而,当前机器人领域的数据,无论是公开数据还是企业内部数据,规模都远不及互联网上其他AI领域,如OpenAI和一些图像视频相关的数据。

数据采集与开源项目

在数据方面,以一些先进成果为例,SFD目前已发展到V13版本,V12版本时使用了1000万条数据进行训练;OpenAI的Sora使用了数百万小时的视频数据;特斯拉的Optimus计划今年量产数千台机器人,并且在积极采集数据。但纵观机器人领域公开数据集,存在诸多问题。学术界的数据集多为桌面型,模拟场景简单,物体种类少,通常只有一二十种,任务也多为验证单一能力,实用性不足。工业界的数据定制化严重,缺乏通用场景数据,任务简单且数据不流通,分散在各个企业内部。

鉴于此,智元于2023年9月在上海建立了数采超级工厂。工厂面积达4000平方米,拥有3000多种真实物体,涵盖多种场景。2023年年底,公司将相关数据集开源,推出AgiBot World公开项目,这是首个全域真实场景数据集,涵盖公司自研硬件数据,且从采集到审核全程有人工质量把控。该数据集覆盖家居、工业、零售等5大场景,包含200多个任务、3000多个物体和100万条轨迹数据。

为配合数据采集,公司设计了一套本体硬件平台,配备环绕摄像头、多自由度机械臂和灵巧手等。同时,采用多种采集模式,如VR采集和动作协同采集,并搭建了管控数据的第二平台。与其他公开数据集相比,例如openx-embodiment,智元的数据集在场景覆盖、技能数量等方面优势明显。openx-embodiment是混合多种数据集整合而成,而智元的数据集是自主采集的原生数据。

通用计算技术大模型及优势

基于丰富的数据基础,智元在本周一发布了通用具身基座大模型。该模型从VLA架构进化到ViLLA架构,并部署在公司不同的硬件本体上。 

当前具身智能模型在落地过程中面临诸多困境,如泛化性差,场景切换后成功率大幅下降;扩展新任务时需要重新采集大量数据,成本高昂;不同本体的数据无法共用。这些问题导致模型难以实际应用,数据回流困难,形成恶性循环。现有模型存在局限,小模型参数量少,未充分利用互联网图文视频数据,缺乏通用场景感知和动作理解能力,技能单一。以VLM构建的具身大模型虽有一定通用场景理解能力,但未充分利用互联网视频数据。以Video generation为基础构建的模型,对指令理解和泛化能力不如VLM类模型。 

为此,智元提出ViLLA架构,旨在充分利用数据计算法中各层级的数据,包括互联网文本、图文、视频数据,以及仿真和真机数据,构建通用场景感知、指令理解和精细动作操作能力。ViLLA架构通过VLM+MoE构建通用场景感知和指令理解,同时引入两个专家模块。Latent Action Expert利用互联网大规模的操作数据,根据当前观测和指令推荐后续动作;Action Expert将抽象动作概念转化为本体可执行的动作。

ViLLA架构具有显著优势,能够使用人类视频和跨本体视频数据,甚至行业内开源的不同本体机器人数据,构建强大的通用场景感知和理解能力,实现极少数或零样本的泛化,降低新场景、新任务的后训练成本,提高模型落地可行性。此外,该架构还具备“一脑多形”的能力,可将抽象能力应用于不同本体,便于模型落地到各个细分场景,通过数据回流系统获取更多数据,形成良性循环。在5种不同复杂度的真实场景测试中,ViLLA模型相比当前其他方法,成功率有显著提升。同时,单独验证结果表明,ViLLA架构新增的抽象动作规划能力性能表现优异。智元相信,ViLLA架构的推出,将推动具身智能朝着通用化、开放化、自动化方向发展,使其能够执行更多任务,从封闭场景走向开放场景,从预设程序任务转向开放指令任务,更便于应用于各行业。

(以上内容来自智元具身研究中心常务主任任广辉于2025年3月13日在第三届具身智能机器人产业发展论坛发表的《数据驱动的通用具身基座大模型GO-1》主题演讲。)

本文地址:https://auto.gasgoo.com/news/202503/27I70421469C106.shtml

 
0

好文章,需要你的鼓励

微信扫一扫分享该文章