当前位置：首页 > 智能网联 > 正文

小米机器人开源VLA模型Xiaomi-Robotics-0

盖世汽车 Garcia 2026-02-12 14:05:47

2月12日，小米雷军通过微博披露，小米机器人团队正式开源Xiaomi-Robotics-0，一个47亿参数的具身智能VLA模型。该模型采用Mixture-of-Transformers混合架构，在LIBERO、CALVIN和SimplerEnv三大仿真测试集的所有Benchmark中，与30个对比模型相比均取得当前最优成绩。

图片来源：小米技术

Xiaomi-Robotics-0的核心在于通过MoT架构将视觉语言大模型与多层Diffusion Transformer解耦。VLM负责处理模糊指令与空间关系认知，DiT则通过流匹配生成高频、连续的Action Chunk。这种设计让模型在消费级显卡上即可完成实时推理，解决了现有VLA模型因推理延迟导致真机“动作断层”的共性痛点。

模型架构及训练方法：(a) VLM多模态与动作混合预训练；(b) DiT专项预训练；(c) 目标任务后训练；图片来源：小米技术

训练策略分为两个阶段。跨模态预训练阶段引入Action Proposal机制，强制VLM在图像理解的同时预测多模态动作分布，完成特征空间与动作空间的对齐；随后冻结VLM，专项训练DiT从噪声中恢复精准动作序列。后训练阶段的核心是异步推理模式，使模型推理与机器人运行脱离同步约束。同时，Clean Action Prefix通过引入上一时刻动作输入来保证轨迹连续性，Λ-shape Attention Mask则强制模型优先响应当前视觉反馈，提升面对环境扰动时的反应敏捷性。

在真机部署测试中，搭载该模型的双臂机器人在积木拆解、叠毛巾等长时序、高自由度任务中展现出稳定的手眼协调能力，同时保留了VLM原有的物体检测与视觉问答能力。项目代码、模型权重与技术文档目前已同步上线GitHub和Hugging Face。

本文地址：https://auto.gasgoo.com/news/202602/12I70446824C601.shtml

好文章，需要你的鼓励

微信扫一扫分享该文章

点击收藏该文章

重磅！曝特斯拉考虑剥离中国业务

24小时热文

更多企业>相关企业

联系我们

联系邮箱：info@gasgoo.com
求职应聘：021-39197800-8035
简历投递：zhaopin@gasgoo.com
客服微信：gasgoo12 (豆豆)
合作电话

新闻热线：021-39586122
商务合作：021-39586681
市场合作：021-39197800-8032
研究院项目咨询：021-39197921
站内导航

盖世汽车社区盖世大学堂-公开课英文资讯站热门内容数据报告盖世汽车产业大数据
关于盖世
盖世汽车APP下载

作为采购商，我可以：

作为供应商，我可以：

小米机器人开源VLA模型Xiaomi-Robotics-0

联系我们

合作电话

站内导航

关于盖世