过去一年,行业从 VLA 逐步走向世界模型,但随着模型纸面能力不断提升,一个更现实的问题开始浮现:世界模型能否摆脱数据中心级GPU的窠巢,不再停留在实验室阶段,而是真正运行在机器人本体的端侧芯片上?只有做到这一点,世界模型才具备规模化落地的可能。
如今,这一门槛正在被突破。
具身通用基础模型创业公司智在无界BeingBeyond今日正式发布 Being-H-Flash 模型产品,不仅完成全球首个百 TOPS 级端侧芯片实时部署,并率先实现了国产芯片与英伟达平台双适配。
继两个月前 Being-H0.7 开创具身领域隐空间世界模型范式、将人类视频预训练规模推进至 20 万小时后,智在无界此次发布Flash 版本进一步证明:世界模型不仅可以做得更强,也能够真正跑在机器人端侧。
这也意味着世界模型的竞争正从纸面论文指标,逐步走向部署效率、芯片适配、运行成本以及工程交付能力。
世界模型的首个百TOPS端侧芯片实时部署纪录
在具身智能领域,世界模型的价值不难理解。
机器人要在真实环境中执行任务,不仅需要识别物体、理解指令,更需要预判物理世界的变化:球会滚向哪里、衣服如何变形、液体是否会溢出。相比单纯的感知与执行,这种对未来状态的判断能力,正是机器人迈向复杂任务的关键。
传统 VLA 模型受限于动作监督数据,更容易学习行为模式,而非真实的物理规律和任务演化过程。以英伟达 Cosmos-Policy 为代表的显式世界模型,则试图通过视频生成和未来画面预测来弥补这一不足。然而,像素级预测带来的训练与推理开销十分巨大,难以满足机器人实时控制对延迟、稳定性和成本的要求。
Being-H0.7 则开辟了另一条路线:隐式具身世界模型。
不同世界模型在训练级显卡、消费级显卡与端侧芯片上的推理速度对比(单位FPS,越大越好),×表示芯片硬件受限
智在无界的测试结果显示,Being-H-Flash 的推理速度不仅在 A800、4090 等高算力平台上达到了 30~45 FPS,更在百 TOPS 级端侧平台上实现了 接近 20FPS 的实时效果。相比之下,Cosmos-Policy 等世界模型在同类平台上大多停留在个位数 FPS,明显低于主流 VLA 模型,而多数显式世界模型甚至难以部署到 Orin NX 等百 TOPS 级端侧芯片上。
Being-H-Flash 的意义远不止于“更快”。它让世界模型摆脱了对高端 GPU 的天然依赖,不再局限于云端或工作站环境。对于机器人而言,端侧实时运行意味着更短的控制闭环、更低的通信依赖和更稳定的系统响应,也意味着世界模型能够真正参与动态抓取、流水线分拣、柔性物体操作、液体倾倒等复杂任务的实时决策,成为机器人在线控制系统的一部分。
开辟隐空间具身范式,引领规模与成本变革
Being-H-Flash 的“闪电”般推理速度,源于其背后Being-H0.7 所开创的隐式具身世界模型路线。
传统显式世界模型通常依赖生成未来画面来理解未来状态。但智在无界研发团队认为,像素级预测并不是机器人控制真正需要的目标,反而会带来两方面问题:一方面,模型需要学习大量与动作决策无关的视觉细节,例如头发纹理、衣物褶皱或环境颜色等,这些信息几乎不会影响机器人动作,却会干扰模型对关键控制因素的学习;另一方面,未来画面的生成本身也会带来巨大的训练和推理开销。
因此,作为国内隐式世界模型的开创者,Being-H0.7 并不在训练和推理过程中逐帧生成未来图像,而是在多模态感知与动作生成之间引入一组可学习的 latent query,将当前观测、任务目标以及对未来交互的判断压缩到紧凑的潜空间中。通过这种方式,模型无需依赖像素级 rollout,依然能够保留世界模型对未来的预测能力。本质上,它将“预测未来”从像素空间转移到了潜空间。
有别于英伟达的显式路线,Being-H0.7首次开创了“人类视频预训练”+“潜空间推理”相结合的隐式世界模型路线
不过,放弃像素级监督并不意味着降低难度。恰恰相反,隐空间世界模型对数据规模和模型预训练管线提出了更高要求。为此,智在无界在 Being-H0.7 上使用了 超过 20 万小时第一人称人类视频和 1.5 万小时机器人示教数据。在此之前,Being-H0 和 Being-H0.5 已先后完成了 1000 小时和 1 万小时人类视频预训练的行业突破。智在无界将这三次数据规模跨越称为“第一级跃迁”,并围绕这一 Scaling Law 持续构建模型能力上限。
但对于机器人而言,仅有能力上限并不足以支撑大规模落地。除了数据与模型规模带来的“第一级跃迁”之外,智在无界还在持续推动另一条同样重要的路线——推理效率与部署能力的“第二级跃迁”。此次发布的 Being-H-Flash,正是“第二级跃迁”的集中体现:在保留世界模型预测能力的同时,实现了端侧实时部署,让世界模型真正具备走出实验室的可能。
国产/英伟达双芯适配,回应芯模协同战略需求
过去两年,机器人行业在很大程度上沿用了大模型的发展逻辑:更大的模型、更强的算力、更高性能的 GPU。
但机器人终究不是云端服务,而是需要走向真实世界的硬件产品。成本、功耗、散热、供应链、空间尺寸以及量产一致性,都是无法回避的现实约束。即便世界模型在数据中心表现优异,一个现实的问题是:如果其须依赖高端算力平台才能运行,那么机器人规模化落地的成本就很难真正下降,也就难形成真正的商业闭环。
对于机器人而言,实时运行本质上是一个系统工程。隐式世界模型带来的效率优势,只是拿到了商业化落地的“入场券”。真正决定产品上限的,仍然是数据、模型、控制、硬件以及推理基础设施之间的协同能力。
正因如此,围绕 Being-H0.7,智在无界构建了一整套面向端侧部署的后训练与推理基础设施,以保证模型在有限算力条件下依然能够稳定、精准地输出动作,其中包括自研的 Universal Async Chunking(UAC)等多项核心推理优化技术。
Being-H-Flash是一套模型、系统与硬件协同优化的完整方案:模型侧通过隐空间推理避免像素级 rollout,系统侧通过异步动作块机制维持实时控制,芯片侧则针对不同平台进行推理图、算子调度和内存访问优化。最终实现了世界模型在百 TOPS 级端侧芯片上的实时运行。在极限条件下,Flash 版本甚至能够在保持模型能力基本不变的前提下,将单步推理延迟压缩至毫秒级。
Being-H-Flash产品矩阵,以隐式世界模型为基座,从aura,ventus到procella,逐级推进真实场景机器人的部署效率和性能
围绕不同部署需求,智在无界规划了完整的 Being-H-Flash 产品矩阵。该系列除了模型核心能力的逐级递增,更大的区别在于推理效率、部署优化程度以及场景适配深度。
其中,基础版 Being-H-aura 面向通用场景,提供隐式世界模型的标准推理能力,相较传统显式世界模型可获得约 2~3 倍的推理速度提升;
加速版 Being-H-ventus 则进一步融合自研推理加速技术,在不损失模型能力的前提下显著提升端侧运行效率;
旗舰版 Being-H-procella 则面向产业落地需求,能够结合具体机器人本体、芯片平台与业务场景进行深度定制化优化,在推理性能、资源利用率与部署效果之间取得最佳平衡,可面向百 TOPS 级芯片实现实时部署。
这也是国内首次以“推理效率”为核心能力推出世界模型产品方案,其背后的商业逻辑十分明确:世界模型不再只是实验室中的研究成果,而正在演变为一种可交付、可部署、可规模化复制的产品能力,能够根据不同硬件平台、应用场景和 SOP 要求进行灵活适配。
过去一年中,智在无界积累了丰富的世界模型工程化落地经验,对于全新的芯片架构或硬件环境,Being-H-procella可以在2~4周之内实现从零开始的定制化适配,并将性能差距控制在主流参考平台的 5% 以内,为国产芯片与行业应用的快速落地提供了现实路径。
Being-H-procella 已同时完成英伟达与国产芯片平台适配,并在国产百 TOPS 级端侧算力平台上实现有效运行。这意味着模型架构已经具备面向下一代国产机器人芯片的协同能力,也意味着“国产世界模型+国产芯片”开始从产业愿景走向可验证的工程实践。
这是国产世界模型首次在国产百 TOPS 级端侧芯片上实现实用化部署,智在无界在其旗舰产品Being-H-procella 中整合了多项自研推理加速算法、算子与部署模块,并针对国产芯片架构特点进行了深度优化,最终完成这一关键突破。它意味着在具身智能领域,国产模型与国产算力平台开始具备协同演进的能力,并有机会依托国内完整的产业链体系持续降低部署成本、加速产品迭代,推动世界模型真正走向规模化应用。
世界模型的商业破晓时刻,让机器人干活费用降至150元/月
机器人的商业化,最终都要回到一笔清晰的成本账。
在这一点上,机器人与自动驾驶有着相似的逻辑。两者都属于高频实时系统,无法依赖云端持续输出决策。哪怕只有一两秒的延迟或断连,也可能导致流水线机器人将螺丝拧穿电路板,或者在服务场景中失去稳定控制。同时,机器人要实现规模化普及,成本必须被控制在合理范围内,这意味着不可能长期依赖高性能 GPU 作为计算平台。
过去,世界模型往往被视为一条“更聪明、也更昂贵”的路线。它能够帮助机器人理解动态变化、物理规律和长时序后果,但显式视频预测带来的巨大算力开销,也让这类能力难以进入低成本机器人平台。
为了量化这一问题,智在无界以“单台机器人日扫码2000件快递”为例,对不同方案进行了月度算力成本测算。在同类任务下,由于难以摆脱对高性能GPU部署的依赖,NVIDIA Cosmos 及多种显式世界模型方案的月算力成本均在8000元以上,而 Being-H-Flash 的运行成本仅为约为150元,相较前者降低了98%,甚至显著低于VLA代表作π0.5。
这组数据揭示了一个重要趋势:当世界模型从显式像素生成转向隐式潜空间推理,其部署成本曲线也将发生根本性变化。
过去两年,大模型行业已经反复证明,市场对成本极为敏感。无论能力多强,如果使用成本长期居高不下,就很难形成规模化应用。对于机器人而言,高昂的算力开销显然是难以持续的。
从这个角度看,Being-H-Flash 的意义正在于重新平衡世界模型的能力与成本。它既保留了世界模型对未来交互和物理过程的建模能力,又避免将推理过程变成昂贵的视频生成任务;既支持真实机器人的闭环控制,又能够在百 TOPS 级端侧芯片上实现实时运行。
对于用户而言,这意味着不必再在“模型能力”和“部署成本”之间做极端取舍。一方面,端侧实时运行降低了对云端网络的依赖,使机器人能够在工厂、仓储、门店和家庭等复杂环境中保持稳定运行;另一方面,对国产芯片平台的支持也为整机厂提供了更灵活的供应链选择。
过去只有高端硬件才能运行的世界模型,开始具备进入更多机器人产品的可能。在仓储物流中,机器人可以更稳定地处理高速变化的包裹;在工业产线中,机器人能够根据物体运动轨迹和接触关系实时调整动作;在商超、家庭和服务机器人场景中,模型则能够更好地处理柔性物体、液体、工具使用以及多阶段任务。
当世界模型的端侧算力门槛下降,许多过去受限于成本和部署条件的场景也将被重新打开,从“高成本智能”到“可量产智能”。
*版权声明:本文为企业供稿,供稿企业对文章观点及内容合规性负责。如有疑义或转载需求,请联系供稿企业。
本文地址:https://auto.gasgoo.com/news/202606/4I70460601C103.shtml
 
联系邮箱:info@gasgoo.com
求职应聘:021-39197800-8035
简历投递:zhaopin@gasgoo.com
客服微信:gasgoo12 (豆豆)
新闻热线:021-39586122
商务合作:021-39586681
市场合作:021-39197800-8032
研究院项目咨询:021-39197921
