• 采购项目
  • 配套企业库
  • 销量查询
  • 盖世汽车社区
  • 盖世大学堂
  • 盖亚系统
  • 盖世汽车APP
  • 2025地平线技术生态大会
  • 盖世汽车产业大数据
  • 2025第七届AI智能座舱大会
  • 极氪9X核心零部件配套供应商一览
当前位置:首页 > 新技术 > 正文

中国研究人员发明新型多模态人工智能框架 为自动驾驶汽车带来类似人类的推理能力

盖世汽车 刘丽婷 2025-12-12 14:52:28 前瞻技术

盖世汽车讯 自动驾驶技术发展迅速,已从基于规则的系统发展到深度神经网络。然而,端到端模型仍然存在一些重大缺陷:它们通常缺乏对世界的认知,在罕见或模糊的场景下表现不佳,并且对其决策过程的解释能力有限。相比之下,大语言模型(LLM)擅长推理、理解上下文和解释复杂的指令。但是,LLM的输出是语言形式而非可执行指令,这使得将其与实际车辆控制系统集成变得困难。这些不足之处凸显了对一种框架的需求,该框架能够将多模态感知与基于既定驾驶逻辑的结构化、可执行的决策输出相结合。解决这些挑战需要深入研究如何将多模态推理与自动驾驶规划器相结合。

中国研究人员发明新型多模态人工智能框架 为自动驾驶汽车带来类似人类的推理能力

图片来源: 期刊《Visual Intelligence》

据外媒报道,上海交通大学、上海人工智能实验室、清华大学及合作机构的研究团队开发了一种用于闭环自动驾驶的多模态大型语言模型框架DriveMLM。相关研究成果已发表在期刊《Visual Intelligence》上(DOI: 10.1007/s44267-025-00095-w)。

DriveMLM集成了多视角摄像头图像、激光雷达点云、系统消息和用户指令,生成对齐的行为规划状态。这些状态可以直接输入到现有的运动规划模块,从而实现实时驾驶控制,同时生成对每个决策的自然语言解释。



本文共计1000字开通高级账号后继续阅读

登录后获取已开通的账号权益

本文共计1000字开通高级账号后继续阅读

您未开通,请开通后阅读

*特别声明:本文为技术类文章,禁止转载或大篇幅摘录!违规转载,法律必究。

本文地址:https://auto.gasgoo.com/news/202512/12I70438862C409.shtml

 
0

好文章,需要你的鼓励

微信扫一扫分享该文章