$VideoContentTcplayer$
盖世汽车讯 据外媒报道,当地时间10月30日,Waymo发布了其最新的研究论文——《端到端多模态自动驾驶模型(EMMA)》。在自动驾驶领域,Waymo公司在人工智能(AI)和机器学习(ML)方面,已经保持了15年以上的领先地位。
Waymo自动驾驶模型(图片来源:Waymo)
EMMA由Gemini(谷歌研发的多模块大型语言模型)赋能,采用统一的端到端训练模型,可直接从传感器数据生成自动驾驶汽车的未来行进轨迹。EMMA经过专门针对自动驾驶应用的训练和微调,借助Gemini丰富的世界知识库,可以更精准地解读道路上的复杂场景。
Waymo的研究揭示了如何将Gemini等多模态模型应用于自动驾驶领域,并深入探讨了此种纯端到端方法的优缺点。该研究特别强调了在模型已经针对需要高度空间理解和推理能力的自动驾驶任务进行微调后,整合多模态知识的益处。值得注意的是,EMMA在多个关键的自动驾驶任务中展现了积极的任务迁移能力:当其被联合训练用于规划轨迹预测、目标探测和道路图理解时,其性能超过了用于每个任务的单独训练模型。这为未来研究指明了一条有发展前景的路径,可以采用类似的、扩展设置,让更多的核心自动驾驶任务结合起来。
介绍EMMA
EMMA反映了在更为广泛的AI研究领域,将大规模多模态学习模型和技术整合至更多领域的努力。基于Gemini并利用其功能,Waymo开发了一种专门针对自动驾驶任务(如运动规划和三维(3D)物体探测)的模型。
该研究的关键点包括:
端到端学习:EMMA对摄像头原始输入信息和文本数据进行处理,以生成各种驾驶输出信息,包括规划路径、感知物体和道路图元素等信息。
统一的语言空间:EMMA通过将非传感器输入的信息和输出的信息转变成自然的语言文本,从而最大限度地扩大了Gemini的知识范围。
链式思维推理:EMMA采用链式思维来改进其决策过程,从而将端到端规划性能提升6.7%并为其驾驶决策提供可解释的依据。
EMMA在公开和内部的基准测试中的多个自动驾驶任务中,都达到了领先或具有竞争力的成果,此类任务包括端到端规划路径预测、以摄像头为主要传感器的3D物体探测、道路图估计以及场景理解。
EMMA最令人期待的一点是其能够通过联合训练,提升其能力。单个联合训练的EMMA可以同时为多个任务生成输出信息,同时其性能可以达到甚至超越单独训练的模型,凸显了其具有作为许多自动驾驶应用通用模型的潜力。
虽然EMMA展现出巨大的潜力,Waymo也认识到其还面临着一些挑战。目前,EMMA在处理长期视频训练方面存在局限性,限制了其对于实时驾驶场景的推理能力。在复杂多变的场景下,长期记忆对于让EMMA预测并做出响应至关重要。确保安全驾驶行为的其他关键挑战还包括EMMA没有利用激光雷达(LiDAR)和雷达的输入信息(需要融合更复杂的3D传感编码)、用于评估的高效仿真法面临的挑战、需要优化模型推理时间以及验证中间决策步骤的必要性。
尽管EMMA作为一个独立的驾驶模型存在上述挑战,但该项研究工作凸显了通过多模态技术改进自动驾驶(AV)系统以及普及AV系统的好处。
该项研究的意义不仅限于自动驾驶汽车。通过将最先进的AI技术应用于现实世界的任务,Waymo正在扩大展AI技术在复杂、动态环境中的能力。此种进步可能可以让AI在其他不可预测的情况下,需要根据多种输入信息而做出快速、明智决策的关键领域提供帮助。
*特别声明:本文为技术类文章,禁止转载或大篇幅摘录!违规转载,法律必究。
本文地址:https://auto.gasgoo.com/news/202411/4I70409398C601.shtml
联系邮箱:info@gasgoo.com
求职应聘:021-39197800-8035
简历投递:zhaopin@gasgoo.com
客服微信:gasgoo12 (豆豆)
新闻热线:021-39586122
商务合作:021-39586681
市场合作:021-39197800-8032
研究院项目咨询:021-39197921