当前位置：首页 > 活动 > 正文

江淮汽车：以数据为驱动，大模型赋能车辆全生命周期场景

盖世直播金霄 2024-04-22 10:22:09

事物都有其发展规律，大模型也是如此。

2024年4月18日，在盖世汽车2024第二届汽车人工智能大会上，江淮汽车智能网联软件开发专家徐瑞雪坦言，2017年，Google提出Transformer架构，是大模型技术起始元年。大模型技术的发展规律表现为，从单模态过渡到多模态、从判别到生成、从专用到通用，最终理想状态实现人工通用智能AGI。

聚焦到汽车领域来看，以数据为驱动，大模型链接企业和车辆用户，覆盖研发、生产、营销、运营、购车、用车、养车、修车、售后全生命周期场景，提供简单、高效知识数字化服务。江淮汽车围绕座舱系统大模型展开了实践应用，包括自然的交互模式、高效的任务处理、靠谱的AI说明、有趣的内容创作等。同时全球首搭讯飞星火认知大模型的智聆智能座舱具备畅聊共情对话、智能用车专家、沉浸场景服务、智教互动助手等19个亮点功能。

关于智驾系统大模型，徐瑞雪表示，江淮智驾系统设计—感知一张网规划一张网，将感知和规划模块分别简化一张神经网络，可以数据驱动的方式持续训练更新。此外，数据将会成为自动驾驶赛道后半场的决胜关键因素之一，所以江淮也在布局自己的数据闭环系统。

徐瑞雪 | 江淮汽车智能网联软件开发专家

以下为演讲内容整理：

大模型是划时代的革新技术

大模型技术的发展并非一蹴而就，其技术元年可追溯到2017年，以谷歌发布的Transformer架构为标志。自此，各大科创公司开始基于Transformer进行大模型研发。大模型的实现源于计算机算力、神经网络与Transformer技术的融合。2018年，OpenAI发布首个参数量仅1.17亿的GPT-1，而两年后GPT-3的参数量已猛增至1750亿。随后，ChatGPT的出现标志着人工智能大规模通用场景应用的开始，国内科创企业也相继布局大模型领域。

大模型发展遵循一定规律，从单模态到多模态，从判别式到生成式，从专用到通用。OpenAI发布的Sora具有划时代意义，它能理解真实世界与物理规律，能够进行三维场景重建，展现了无限可能。同时，国内也呈现出百模大战的竞争态势。

目前，具身智能成为热门话题，它利用大模型与数据驱动实现人类机器人的通用性，整个系统无须人类写一行代码，未来有望大幅降低系统维护成本。大模型作为新范式，正引领行业变革，在医疗、教育、自动驾驶等领域发挥重要作用，并改变商业运营模式与人机交互方式。

大模型在汽车领域的应用

在汽车领域，大模型以数据驱动，可赋能车辆全生命周期，从研发到售后支持，提供高效数字化服务。它打通了DMS与互联网数据通路，实现全面自动化，并提升了获取用户喜好与通勤规律的能力。

图源：演讲嘉宾素材

通过大模型，我们能够沉淀全量用户对话体验，并将这一能力迁移至主机厂。在自动驾驶领域，大模型的嵌入能够优化量产工具开发链路，助力自动化标注，实现降本增效，并扩充仿真场景库。大模型的发展涉及多个分支领域，其中智驾大模型具有独特的发展特性，受到特斯拉等企业的引领。

目前，BEV+Transformer大模型架构成为行业引领者，与车端相关的大模型也围绕此技术展开。智驾大模型的爆发，与大模型和具身智能的进一步发展密不可分。认知的引入可能将汽车领域推向新的高度，不仅提升感知决策模型的应用，还能通过识别人类语言打造个性化服务体验，使无人驾驶体验更加完善。

大模型正重新定义人机交互，加速端到端自动驾驶的落地，推动舱驾一体及智能设备系统的全场景链接。

江淮汽车座舱系统大模型实践

智能座舱已成为不可或缺的第三生活空间核心载体，其技术综合体集成了大模型、互联网、大数据等，为用户提供了丰富的驾驶和娱乐体验。

江淮汽车也在智能座舱领域实现了大模型的落地应用，已有量产车型搭载的讯飞星火认知大模型。通过与讯飞的合作，江淮汽车从19个维度为智能座舱赋能，学习用户行为习惯和喜好，使车机交互更加顺畅便捷。此外，讯飞星火大模型AI训练底座与华为的合作也体现了生态安全的重要性，通过软硬件协同优化，构建了稳定高效的模型训练集群。

图源：演讲嘉宾素材

江淮汽车智驾系统大模型探索和思考

江淮在智驾大模型架构设计上进行了全面考量，以简化并优化传统ADAS智驾系统。传统系统采用模块化设计，包括感知、规划、决策和控制，每个模块都经过多轮迭代与应用，复杂度高。

以决策规划为例，涉及任务规划、行为规划、路径规划、轨迹规划、动态避障等多个方面，算法迭代频繁。然而，这样的系统存在可靠性和稳定性问题，需大量工程师调参以拟合期望行为，但效果并不尽如人意。

端到端设计方式虽然具有吸引力，但其可解释性差，泛化性不一定好，技术难度也较大。介绍了英伟达解散始建于2016年的自动驾驶端到端那批研发团队的原因，即采集的数据分布不一致，导致模型在某些场景下无法控制车辆，无法实现量产。其次，分析了目前打榜较好的 UniAD 方案无法落地应用的原因，即数据不满足独立同分布性质，训练数据场景无法全面覆盖所有真实驾驶场景。尽管特斯拉发布了FSDV 12等版本，但尚未实现真正量产应用。特斯拉之所以可能实现端到端方案的落地，是因为其采用了强化学习等特殊技术手段，处理数据不满足独立同分布的问题，并加入数据增强概念。特斯拉的具体端到端方案尚不清楚，但可能基于原有感知、决策、控制网络的独立训练，最终合并成统一的训练网络，实现一种端到端的技术方案。

江淮在综合评估前两种方案的优缺点后，决定与中科大合作，确立了基于感知一张网、规划一张网的技术路线。为确保安全，规划部分并不完全依赖神经网络，而是将传统方法作为备份。感知部分则采用BEV+transformer的技术方案，构建具备时空可理解性的感知网络。

BEV技术解决了传统感知算法中从2D到3D视觉泛化性差、探测不准的问题。它采用上帝视角，将空间划分为小格子，每个格子代表一个距离，每一个格子和相机像素属性连接在一起，实现了高效聪明的感知。目前，BEV+transformer已成为行业内的主流技术方案，其优势在于能从全局角度抓取关键特征，提升感知的准确性和泛化能力。

特斯拉在自动驾驶领域确立了端到端大模型的范式，其FSD软件逐渐减少了基于规则的占比，转而采用神经网络进行处理。特斯拉坚信纯视觉方案的潜力，并计划加入4D毫米波雷达作为安全备份，而非多模融合。视觉方案虽然在初期效果不如激光雷达，但随着模型泛化能力的提升和数据量的增加，其性能有望超过激光雷达。

江淮的方案目前以感知一张网、决策一张网为基础，逐步向端到端方案过渡。考虑到车端算力和存储能力的限制，我们将采用模型压缩技术，如剪枝、量化、模型网络搜索和蒸馏技术，以实现大模型在车端的落地应用。神经网络搜索技术作为其中的一种，能够自动化地设计高效的神经网络结构，减少手工调整的错误和耗时。尽管该技术对算力资源要求较高，但其优势在于能够高效地找到适合特定任务的神经网络结构。