12月8日,地平线首届技术生态大会(Horizon Together 2025)在深圳启幕。大会以“向高同行”为主题,汇聚全球汽车产业链头部公司,聚焦“加速全场景辅助驾驶量产普及”的阶段性使命,分享前沿实践,凝聚关键共识。
其中在“从智能汽车到机器人的技术跃迁”专题论坛上,地平线机器人实验室负责人 苏治中系统阐述了其团队在具身智能全栈技术上的布局与开源成果,勾勒出一条从数据生成到运动控制、环境导航乃至灵巧操作的清晰技术路径。
苏治中介绍,地平线机器人实验室作为公司内部的前瞻研究机构,核心使命是解决行业共性技术问题。其团队传承自地平线智驾团队,具备丰富的量产经验与研究能力。当前,实验室已围绕机器人在物理世界中完成任务的核心环节——环境数据构建、运动控制、视觉语言导航和灵巧操作——完成了基础性技术布局。
演讲中重点展示了一项关键基础设施:EmbodiedGen具身智能仿真数据引擎。该引擎能通过Real2Sim交互式重建和AI生成两种模式,低成本、高效率地构建与真实世界对齐的高仿真训练环境。例如,仅用手机拍摄的照片即可快速生成可交互的数字孪生场景,为机器人模型提供了丰富的“练兵场”。
在运动控制层面,实验室推出了HoloMotion人形机器人全身运控基础模型。该模型作为机器人的“小脑”,能实现高精度轨迹跟踪和复杂地形下的全身平衡控制,甚至可以通过观察人类视频模仿动作。在导航方面,FSR-VLN等视觉语言导航模型让机器人能够理解“我渴了”这类高级指令,并自主寻找目标物体。
更为复杂的操作任务则由HoloBrain通用操作基础模型承担,它堪称机器人的“大脑”。该模型能够理解通用指令,并规划出一系列动作来完成如折叠衣物、整理桌面等需要精细空间感知和物理属性认知的灵巧操作。苏治中特别强调,除了HoloBrain,此次分享的其他技术内容均已开源,体现了地平线推动行业协同发展的决心。
苏治中在总结中指出,具身智能行业仍处早期,远未到企业间激烈竞争的时刻,当前更需要全行业共同“共创”,突破技术边界。为此,地平线将过往在自动驾驶领域积累的经验复用至机器人开发,推出了具身智能框架RoboOrchard,将一系列创新模型集成其中,旨在为开发者提供一个兼顾数据质量、灵活性和本体适配性的高效开发平台。这一系列从底层芯片、开源模型到开发框架的全面赋能,正助力地平线构建其在机器人时代的生态基石。
演讲正文:
苏治中:大家好,我是地平线机器人实验室的负责人苏治中。刚刚看到轶南哥分享了很多 Vbot 有趣的产品设计,我已经迫不及待想买一台给我儿子玩了。和轶南哥聚焦产品的分享不同,我的介绍更多围绕技术层面,今天分享的题目是《开源框架和基础模型赋能具身机器人行业》。
我们的团队是地平线机器人实验室,大家都知道,地平线已经有个子公司叫地瓜机器人,专门聚焦具身智能,包括泛机器人行业的生态,为这个行业提供底层芯片和技术支持。机器人实验室更多是地平线内部做前瞻性研究的机构,我们会用自己的探索成果,去支持包括地瓜在内的整个行业 —— 毕竟具身智能行业还处在早期,有非常多的技术问题等着解决,现在还没到大家互相竞争 PK 的阶段,还是得一起共创,突破技术边界。
我和我的团队都来自地平线原来的智驾团队,既有着丰富的量产经验,也产出了不少不错的研究成果。对于具身智能,我们实验室已经对这些关键技术做了基础布局:一台机器人最终要完成任务,首先得有数据,所以我们搭建了数据引擎来构建环境;之后它需要控制自己的身体,完成运动控制功能;再往前要到达目的地,就得有视觉语言导航功能;到了目的地后,还得用 “双手” 灵巧操作,完成具体任务。接下来我就从这几个方面,跟大家分享我们的进展。
首先是我们的 EmbodiedGen 具身智能仿真数据引擎,通过仿真数据资产,我们能生成真实又低成本的素材,给具身智能机器人的模型训练提供支持。EmbodiedGen 是一站式的数字资产生成引擎,包含 real2sim 和 AI generation 两种模式:一方面通过交互式重建技术构建数字孪生,另一方面完全靠 AI 生成的方式构建训练环境。具体来说,我们用手机、相机拍些照片,就能搭建出和真实世界对齐的仿真环境,这里面用到了各种各样的技术模型和基础能力。
这里面有我们两项关键工作:一个是可交互的3D空间重建,能把背景和前景分离开。大家看桌面上的番茄、盘子、梨这些东西,我们通过多张图片就能把这些物体完全独立地呈现出来。另一个工作叫 3D-Fixer,它通过前馈式流程,完成数字孪生的构建。另外结合真实世界的需求,我们还能通过任务提质来优化效果,比如要完成 “把香蕉捡起来” 这个任务,用一套机械臂就能让整个流程生成对应的训练环境,这里面也用到了大模型。给大家看个生成的简单 demo,这里有两个例子:一个是把西兰花放到白色盘子里,另一个是把笔放到笔筒里,这套管线会根据我们构建的环境,用具身智能技术完成训练。这个环境搭建里还有两项重要工作:一个是纹理生成,把文生图模型和 3D 纹理生成模型混合微调,得到真实又容易控制的 3D 资产纹理;右边这个是我们今年在 NeurIPS2025 上发表的成果,叫DIPO 铰链物体生成,可以通过两张图片生成可交互的矫正物体,比如抽屉 —— 原有技术经常分不清一个东西是门还是抽屉,我们用一张关闭、一张打开的图片,就能把物体特征完美呈现出来。
EmbodiedGen 具身智能支持一键导入,给大家看两个示例:左边是操作数据合成,右边是导航数据合成。凯哥昨天在主论坛发布的 HoloMotion 人形机器人全身运控基础模型,大家就能通过这套管线做数据获取、模型训练,最终得到实时的全身运控模型。当前 HoloMotion 的架构不算复杂,是相对完整的架构,依托地瓜的强大赋能,我们在 stage 部分部署了 transformer。现在 HoloMotion 已经能实现对任意轨迹的跟踪,未来一年,我们会让它支持执行任意指令、控制任意本体,还能在任意地形上行走。这里我们也详细列了技术架构,包括怎么执行指令、怎么在全地形行走。
HoloMotion 还能通过观察视频,学习复刻里面的动作,作为基础模型,它是具备类人学习能力的。右侧给大家展示的是人形机器人实时全身运控操作 —— 人要做的动作很多,机器人既要完成动作又要保持平衡,其实特别难。
接下来讲导航部分:首先是我们刚完成的有图视觉语言导航方案,名字叫 FSR-VLN,同样基于大模型能力,我们把特征图作为 Memory,但现在行业里很少做 Memory 设计,通过不同操作系统获取鲁棒的信息。除此之外,我们还有些无地图、无记忆的导航工作:一个是 Think 系列,包含辅助思考模块,另一个是 Aux-Think,只用 50% 的数据就能达到业界最好的效果。大家知道 Think 系列是通过推理阶段的开销来提升效果,我们创新地把它做成辅助阶段;Progress-Think 则是通过不同模块感知任务进度,用自动学习进度的方法实现性能提升。
除了 Think 系列,我们还有个 Dream 系列,简单说就是 “一边行走,一边在大脑里构思未来场景”,这是把世界模型和端到端技术结合的关键方法。它通过单路想象视图完成 VON 任务,输入只需要单帧图片;右侧的定性、定量评价也能看到,它在数据量很小的情况下也能达到很好的效果。这里有个视觉语言导航的简单 demo,我给大家解释下:视觉语言导航能接收比较高层次的简洁指令,模型会自动推理,在环境里找对应的物品。比如我说 “我渴了”,它就会判断你需要喝水,然后在环境里帮你找水。昨天我们也正式发布了 HoloBrain 通用操作基础模型,这是通用训练里最难的任务 —— 和导航、运控不一样,操作模型得理解通用指令、通用环境,还得控制机械臂和物体做精巧交互,甚至要认知物体的物理属性,难度特别大。现在 HoloBrain 虽然发布了,但暂时还没开源,刚才前面我们讲的所有的内容都是已经开源了,这里简单给大家介绍一下HoloBrain的框架图,最左侧是大规模预训练,遵循现有大语言模型的训练范式,也就是从大规模预训练到后训练的过程。预训练阶段,我们不仅用真实世界机器人的数据,还大量用仿真数据和人类数据,毕竟人类数据的量非常大。
在模型架构层面,我们主要的创新有两个:一个是空间感知增强,待会详细说 —— 现有方案通常只输入单张图片,也不做太多空间建模,我们会先统一所有相机的坐标系,让它们在同一个坐标系工作,再把内参、外参统一编码;通过这两步,机械臂的状态(包括末端位置)都会在统一空间下建模和解码,这一点目前行业里做得比较少,也是我们过去做自动驾驶的直觉 —— 做自动驾驶肯定要在模型里对内外参建模。这一设计让我们在仿真任务和真机测试上都有明显提升,更重要的是我们还做了相机高度的泛化性测试,现在行业里很少关注这一点,这也和我们过去的自动驾驶背景有关。另一个创新是 Unify Relative Action Space(统一相对动作空间):地平线和地瓜作为做 “机器人大脑” 的公司,我们希望支持 “一脑多形”,所以构建一个能适配不同本体的动作空间就很重要,我们也专门研究了这项工作。HoloBrain 还整合了我们的两项关键技术:一个是 SEM,是我们自研的在 VLA 上做空间感知增强的模型结构。
另外一个关键组件是H-RDT,RDT 是清华大学研发的很有名的双臂操作模型,地平线和清华大学合作,在 RDT 基础上扩展了人类数据预训练的能力。它分两个阶段:第一阶段用人手数据做预训练,之后再用多种本体的机械臂做后训练,最终获得不错的性能。右侧我们做了很多实验,展示的是基于 UMI 采集部署的效果,能看到它比原来的H-RDT、以及不用人类数据预训练的方案,提升都比较明显。
就像我刚才说的,具身智能现在还处在早期,所以这里也跟大家分享我们对具身智能通用操作模型的 roadmap:在模型结构、通用能力、数据引擎上,我们还有很多工作要做。结构层面,我们会从现在仅在 VLA 上做微创新,逐步转向空间建模;现在行业更多关注环境泛化,之后我们也会关注更多的模态融合,最终希望实现通用指令的在线学习,能对没见过的指令实时建模、实时学习。训练范式上,从现有的大规模预训练结合强化学习,逐步发展到大规模强化学习,达到超人级别的能力;最后是终身学习 —— 大家知道现有模型能力不足时就很难改进了,终身学习不只是具身智能,也是整个 AI 行业都非常关注的话题。数据引擎层面,除了我们现在做的数据预训练,还会进一步应用仿真数据,最终完成 VLA 的全量预训练。
接下来是一个demo,这个昨天凯哥在主论坛已经展示过了,是 HoloBrain 通用操作基础模型的能力:左上角是收纳任务,能把桌上的东西都收进去;右上角是折叠衣服的任务。最后说一下,讲了这么多算法,光有模型和算法还不够,我们还开发了具身智能框架 RoboOrchard—— 刚才提到的具身智能模型,比如 Think 系列这些,我们都集成在 RoboOrchard 里。大家能想到的对标产品可能是 ROS(Robot Operating System),RoboOrchard 则是基于我们过去做自动驾驶的经验构建的,兼顾了数据质量、灵活性,还有对本体的适配性,这里列了很多细节要点,我就不一一介绍了。如果大家想落地具身智能项目,又想找个好用的框架,我相信 RoboOrchard 肯定能帮到大家。
以上就是我分享的全部内容,谢谢大家。
本文地址:https://auto.gasgoo.com/news/202512/11I70438741C601.shtml
 
联系邮箱:info@gasgoo.com
求职应聘:021-39197800-8035
简历投递:zhaopin@gasgoo.com
客服微信:gasgoo12 (豆豆)
新闻热线:021-39586122
商务合作:021-39586681
市场合作:021-39197800-8032
研究院项目咨询:021-39197921
