自变量聚焦于“通用具身大模型”的研发,是国内最早实现端到端统一具身大模型的公司。当前,自变量自研的Great Wall 操作大模型系列的 WALL-A 在多个性能上已达到世界级领先水平,可以实现机器人自主感知、自主判断、自主操作完成复杂而精细的物理世界任务。
2025年3月13日,在第三届具身智能机器人产业发展论坛上,自变量机器人联合创始人兼CTO王昊谈到,传统的工业自动化及机器人技术具有诸多瓶颈,比如预编程、固定轨迹的技术无法解决现实物理世界的复杂交互问题。
王昊指出,大模型的发展为突破传统机器人学的天花板带来契机,使其能处理非结构化场景和多样化任务,用一个通用大模型替代多个小模型,减少了提前建模需求。尽管机器人硬件性能超越人类手部,但在自主操作复杂任务上仍显不足,系统不稳定、传感器失效等问题限制了其表现。物理世界的随机性与复杂性,无法被完全感知、无法被提前规划、甚至无法用语言完全描述。人类通过亲历和交互学习复杂任务,而机器人单纯依赖语言描述难以掌握类似技能。未来方向是让机器人像人一样学习,通过自我评判、反思、调整行为形成经验,促进更好学习。
王昊 | 自变量机器人联合创始人兼CTO
以下为演讲内容整理:
物理交互的复杂性
当前关于机器人的理想很丰满,但现实很骨感。从70年前机器人+人工智能开始兴起时,我们憧憬着机器人能够融入家庭环境,成为得力助手,解放我们的双手,担当起保姆的角色,承担起打扫家务及执行各类体力劳动的任务。现实却是,机器人大多被安置在工厂的固定位置,按照预设的轨迹进行运作。至于那些已进入家庭的扫地机器人,尽管它们在一定程度上融入了日常生活,但其行动轨迹同样相对固定,且功能局限于单一的扫地任务。显然,这与我们期望中机器人所能达到的高度智能化、多功能化的形态相差甚远。
实际上,这一领域经历了显著的变革,转折点大致可追溯至2021年之前,彼时业界尚未形成清晰的发展路径。然而,这一切因大语言模型的突破性成功而发生了根本性变化,为机器人技术的发展带来了前所未有的新视角。
以往机器人主要局限于结构化场景中的作业,其面对的环境和任务相对单一,例如工业生产线上的特定抓取任务。但随着大模型的兴起,我们开始能够设想一种不同的范式。如今,机器人所处的场景可以不再受限于单一结构,而是能够应对非结构化环境。以往,为解决各类corner case(边缘案例),需要开发一系列小模型,利用模块逐一应对。而现在,通过一个通用模型,我们无需再为特定任务提前建模,而是构建了一种通用能力,使机器人在面对未知任务时能够自主解决。
第二个显著的不同在于,以往我们对机器人的运动速度和定位精度等有着极高的要求。现在,随着大模型的到来,我们对机器人的要求不再局限于固定轨迹的抓取任务,而是期望它们能够具备更通用的、适应动态位置控制的平衡能力等等。
早在十年前,机器人就能写毛笔字,其技艺甚至超越了众多人。那时的手术机器人也已经能精准地缝合葡萄皮或进行折纸等极为精细的操作。此类硬件的性能,无论是从精确度、耐用性还是其他维度考量,均已远超人类手部的执行能力。
遗憾的是,无论是书法创作还是手术机器人的精细操作,它们都仅能遵循人类预先设定的轨迹进行工作,依赖于预设的固定轨迹或人类的遥操作指令。硬件技术已取得了显著的进步,远远超越了人类自身的生理极限,但在机器人自主执行任务的能力上,却依然滞后。那么,在这背后,究竟存在着怎样的制约因素呢?
当我们发出指令要求机器人执行特定任务,例如抓取一个杯子时,我们期望机器人能够清晰地感知整个场景,并明确任务定义。然而,在现实中,机器人所面对的情况并非如此。
图源:演讲嘉宾素材
对于所有从事机器人研发的工作人员而言,当构建一个完整的机器人系统时,都会面临系统不稳定性的挑战。比如传感器、摄像头可能会出现随机故障,这可能是由于环境温度的变化,如室内过热,也可能是由于线路松动等物理因素。在大约百分之六七十的调试场景中,即便是微小的物理问题,如螺丝松动或线路连接不良,都可能导致机器人感知到类似左下角图像所示的混乱场景。此外,机器人系统自身的不稳定性,包括电机和各种传感器的控制不准确,也会进一步加剧这种感知上的误差。
上述两点挑战主要源自机器人本体在传感器或控制方面存在的随机性。这种随机性极难被人类提前完全掌握或彻底解决,因为机器人系统本质上是一个复杂系统,随机事件的发生不可避免。
另外,另一种随机性则源于物理世界的固有特性,这也是操作类任务与自动驾驶、导航等领域存在显著差异的关键所在。
在使用大语言模型时,我们给予其一个输入指令,通常会得到一个特定的输出,并且这个输出可能会根据输入的变化而有所改变。然而,在进行操作类任务时,情况则完全不同。比如模型向机械臂输入一个完全一致的轨迹指令,要求其沿轨迹推动杯子时,会出现什么情况呢?事实上,即便在相同的初始状态下,每次重复执行这一轨迹,其最终得到的结束状态也各不相同。
这一现象充分揭示了物理世界的复杂性。我们在执行动作时,并非处于真空环境之中,一旦涉及与物理世界的接触,就会遇到软硬物体的相互接触摩擦等情况,这些都会带来不可控的随机性。这种随机性根源于物理世界,但很难被机器人的传感系统及其所具备的能力捕捉到,它们隐藏于表象之下,成为我们无法直接感知的信息。
正是由于这种随机性,无论是源自本体感知与控制的随机性,还是物理世界中接触与摩擦所带来的复杂随机性,都极大地增加了操作任务的难度。
统一的机器人学习范式
回顾人类的学习过程,不难发现,单纯依靠语言描述难以真正学会并掌握技能,因为一旦与物理世界发生接触时,实际情况往往与预设想法大相径庭。这种复杂性在于,物理世界的反馈与预期往往存在偏差,这种偏差是语言描述难以完全捕捉和传达的。
人类并不是单纯依赖语言描述来进行学习。比如以学骑自行车为例,初学者在刚开始骑自行车时,可能需要调动全身数百块肌肉,且初期可能对力量源使用不当,如腿部或手臂,而非腰部,这显然不是正确的方式。然而,一旦掌握了骑行的技巧,人们会迅速调整自由度,仅利用关键部位,如大腿和腰部的力量,从而迅速学会骑自行车。这一过程极难用语言详尽描述,但亲历者却能通过实践,将自身复杂的生理系统完美适应于骑行这一活动。
这也正是物理接触的复杂性,通常是一个个无法被感知、无法被提前规划、甚至难以用语言充分描述的过程。在实际操作任务中,除了抓取这类相对明确的任务可以通过语言进行一定程度上的描述外,大多数复杂任务都极难用语言来全面阐述。这一点在机器人学习操作类任务时尤为显著,与让机器人学习对话或生成创意图像等任务存在显著差异。在这些操作类任务中,机器人需要面对并适应物理世界的复杂性和随机性,这是单纯依靠语言描述和预规划所无法充分应对的挑战。
过去,我们倾向于采用模块化的方法解决机器人领域的问题,人们普遍认为这样的系统可能比较简单。然而,现实总是充满各种挑战,比如数据的稀缺性便是一个显著的问题。虽然在感知领域拥有大量的数据,但在机器人实际操作方面的数据却较为匮乏。我们曾设想,如果能够将感知问题解决好,因感知数据的丰富性和已拥有的优秀预训练模型,或许可以解决90%以上的操作问题,从而使得机器人操作变得相对简单。
但这在实践中却有诸多困难。除了数据问题外,还面临着如何在现有技术形态上进行升级的挑战。在产业界,我们已经有了各种成熟的技术形态,此时如果基于过去已有的成果,通过引入一些新的AI模块来使系统看起来更智能,这就是现在典型的分层系统的构建方法,将感知、规划、决策作为不同的系统分开处理。实际上,无论是从认知科学的角度,还是从大模型的发展趋势来看,感知或观察与动作的真正实现从来都不是能截然分开的。在认知科学中,有一个非常重要的概念叫做“Enaction/亲历”,它强调的是感知与动作之间的紧密联系。
举一个简单例子,人偶尔会有一些下意识的动作,这些动作其实是在帮助人真正观察或更好地理解某一事物。当人在观察某物或执行某项任务时所做的动作,很难单纯地将其定义为动作或观察,因为更多时候,这些过程是通过与世界的交互来更好地认识这个世界及其操作对象。所以,我们很难将观察与动作断然分开,它们本质上属于一个统一的系统。
正是由于物理世界的复杂性,我们不得不借助与世界的互动来认识世界。因此,我们才不得不采用一种端到端的方式,即用一种统一的方法来学习整个物理世界发生的过程。这个过程会因我们与物理世界的交互而发生改变。输入可能非常多样,与人类相似,需要将能感知到的所有信息,包括语言、视觉、动作、触觉等,全部输入给模型,让模型自行学习这个过程到底发生了什么,并最终执行相应的操作。这是我们所期望的模型能够真正采用的学习方式,这样就能够解决一切那些隐藏于表象之下、我们无法直接感知到的细节,而这些环节一定可以通过模型与世界的交互来完成学习。
自变量实际上构建的便是这样一个统一的模型系统,这个统一模型系统具备两个关键维度:第一,我们期望该模型能够执行多样化的任务,无论是炒菜还是打扫卫生,模型能在学习各种各样任务的同时,逐步建立起对世界的系统性理解。这些任务背后所反映的物理规律是恒定不变的,我们希望模型能够通过大量数据学习来掌握这些规律,而非依赖人工经验建模学习;第二,我们追求模型在所有功能上的统一性,无论是感知、认知还是行动,都希望它们能在同一个模型框架下得以完成。
这两个维度上形成统一,才有可能是驱使模型实现思考的方式。回顾过去AI领域的发展,一个重要启示在于,真正能够持续scaling-up的学习方式,应当与问题的本质相匹配。
相较于分层方法,端到端方法的核心优势在于其学习方式的可持续性。当计算能力得到飞跃,数据量积累至足够规模时,端到端方式能够随着算力规模的扩大,不断提升模型的智能水平。
数据的确至关重要。尽管当前互联网数据丰富,合成与仿真数据也层出不穷,但机器人领域的数据却相对匮乏,这是当前必须克服的难题。在机器人数据稀缺的背景下,需要汇聚各方力量,包括个人、企业、政府及国家的力量,共同致力于数据的建设与完善。这些数据对于机器人初步理解世界、逐步建立本体感知与认知能力至关重要,因此高精度数据不可或缺。
值得庆幸的是,通过大模型的scaling law,我们可以明确知道所需数据是存在上限的。尽管目前无法精确预测这一上限的具体位置,但其优势在于,随着模型处理复杂任务的能力日益提升,解决新的复杂任务所需的数据量将趋于有限,这意味着可以用有限的数据应对无限的问题,这就是scaling law的魅力。
此外,随着模型能力的不断提升,对数据质量的要求也在逐渐降低。在端到端模型的发展过程中,现实世界的高质量数据无疑至关重要。然而,随着模型某些能力的增强,就逐渐不再需要人类采集极高精度的数据来训练模型,所需数据的精度会逐渐降低,直至发展到某一阶段,甚至无需刻意为机器人采集数据。模型完全可以通过观察人类,学习人类的反应进而掌握相对应的动作,也可以通过理解人类描述复杂的语言指令来完成动作。这是一个逐步演进的过程,从人类辅助机器人采集数据,到机器人融入人类社会,在社会环境中与人类一起学习,对数据的要求将越来越低。
在此过程中,至关重要的一点是模型与数据需同步发展。如果孤立地收集数据,我们难以判断哪些数据对模型真正有益。所有的数据产生过程必然需要模型的参与,因为模型能够反馈什么数据是优质的,这些优质数据又会进一步推动模型能力的提升。这一闭环过程促使我们在收集数据的同时,深入思考哪些数据对模型有益,以及模型的提升对数据提出了怎样的要求。
以叠衣服这一任务为例,当衣物处于随机状态,和被人为提前铺展平整并遵循固定步骤进行折叠相比,任务难度存在本质区别。当将一件衣服完全揉成一团,以至于机器人无法识别其是否为衣物时,完成这一任务的难度便远非仅让机器人模仿人类行为所能达成。此时,机器人需要进行极为复杂的空间推理和拓扑结构推理,这所要求的能力就不再是单一维度,而是需要多模态推理与执行能力等综合。类似地,晾衣服也因其涉及软硬物体的摩擦,复杂度远超处理可变形的柔性物体。
超越行为克隆
再次对比人类的学习过程,我们不难发现,当前的具身智能模型及机器人虽然能在特定任务上有良好的表现,但面对完全陌生的场景、出现未学习过的意外状况时,其表现往往大打折扣,确实不能像人类一样完成一件事情。人类能够基于已有知识进行推理,从而轻松地将叠上衣的技能迁移到叠裤子或裙子上,但对机器人而言,这却是难以逾越的鸿沟。
这充分说明,当前的机器人仅仅是在模仿人类行为,而非真正理解学习。如果仅依赖大量人类数据来训练机器人进行模仿,我们将永远无法赋予机器人真正的智能。尽管当前的数据驱动方法能够扩大训练规模,提升模型性能,但我们必须意识到,除了学习,机器人还需要具备探索未知的能力。然而,这两点目前都尚未很好地实现。实际上,通过模仿学习,仅是在要求机器人复制人类的行为进而完成任务,而非教会它们如何真正学习。但核心在于我们要教会机器人自主学习,而不是教会机器人实现某个特定的功能。
当前的学习方式与过去有着本质区别。过去,强化学习主要被用于帮助机器人从零开始完成新任务,但人们往往忽视了强化学习在提升机器人通用能力及自我学习能力方面的潜力,而这种潜力正是我们所期望的。我们期望目前构建的多模态端到端模型,不仅能够进行模仿,更具备两个核心功能。首先,它能在物理世界中进行推理,与现实世界交互并获取反馈。更为关键的是,它需对整个过程具备自我评判能力,能够判断自身行为的好坏。
在这种强化学习的范式下,我们不再像过去那样设置复杂的奖励机制,设计奖励机制本身就是一项极具挑战性的工作。人类的学习过程难以量化,如果试图以量化的方式指导机器人学习,那么机器人必然无法掌握事物的本质。因此,我们应借鉴人类的学习方式,帮助机器人建立价值观与是非观,使其懂得如何学习。我们构建的强化学习机制,旨在使机器人通过上下文的学习,最终以自然语言的方式,掌握解决问题的能力。
此外,还需要让机器人具备识别错误的能力。当机器人意识到某个策略失误后,能够转而采用其他策略,通过观察执行过程中的细微差别来调整自身行为。机器人需要具备评判与反思自身过去行为的能力,拥有一个能够压缩并存储过去经验的长期记忆,从而将这些经验转化为促进未来学习的动力。
这就是自变量在通用具身智能大模型的实践和探索——让机器人像人一样去学习,这正是机器人实现通用智能的关键一跃。
(以上内容来自自变量机器人联合创始人兼CTO王昊于2025年3月13日在第三届具身智能机器人产业发展论坛发表的《基于具身大模型构建可精细操作的通用智能体》主题演讲。)
本文地址:https://auto.gasgoo.com/news/202503/25I70421301C106.shtml
 
联系邮箱:info@gasgoo.com
求职应聘:021-39197800-8035
简历投递:zhaopin@gasgoo.com
客服微信:gasgoo12 (豆豆)
新闻热线:021-39586122
商务合作:021-39586681
市场合作:021-39197800-8032
研究院项目咨询:021-39197921