盖世汽车讯 打造真正意义上的自动驾驶汽车,需要更高效、更精准的复杂视觉数据处理方法。据外媒报道,法雷奥全球首家人工智能和深度学习研究中心(Valeo.ai)的Ellington Kirby、Alexandre Boulch和Yihong Xu,以及Yuan Yin、Gilles Puy、Éloi Zablocki及其同事基于Transformer推出新型端到端自动驾驶架构DrivoR系统,满足了上述需求。
该系统利用预训练的视觉Transformer模型和一种新颖的“注册令牌”机制,将来自多个摄像头的信息压缩成简洁的场景表示。这项创新显著降低了计算需求,同时保持了驾驶精度,更重要的是,它使系统能够根据安全性和舒适性等所需特性调整自身行为。
DrivoR在NAVSIM和HUGSIM等权威基准测试中展现出卓越的性能,证明了基于令牌的专注方法能够为构建稳健且适应性强的自动驾驶系统提供切实可行的途径。
这显著减少了下游计算量,同时又不牺牲准确性,从而能够更高效地处理视觉数据。这些标记驱动两个轻量级Transformer解码器,它们生成候选轨迹并对其进行评分,为路径规划提供框架。评分解码器学习模拟预言机,并预测代表安全性、舒适性和效率等方面的可解释子分数,从而在推理阶段实现基于行为条件的驾驶。
面向高效驾驶模型的摄像头感知令牌研究
该评分解码器有效地模拟了一个理想化的“预言机”,预测出安全、舒适和效率的可解释子分数,从而实现行为适应性驾驶。研究团队在NAVSIM-v1、NAVSIM-v2和HUGSIM上测试了系统性能,结果始终优于或与强大的现有基准系统持平。纯粹的Transformer架构,结合针对性的标记压缩,足以实现准确、高效且自适应的端到端驾驶。具体而言,该系统仅依赖于评分标注,无需显式的3D监督,却依然在所有测试基准上取得了最先进的结果。
该架构包含一个感知编码器和两个解码器(轨迹解码器和评分解码器),所有模块均基于标准Transformer模块构建。感知编码器将感知信息压缩成与摄像头相关的寄存器,形成场景标记以供后续处理。技术亮点包括通过将解码后的轨迹重新嵌入并从梯度计算图中分离出来,实现了评分和轨迹生成路径的解耦,从而提高了性能并增强了可控性。科学家们利用LoRa技术对ViT进行了微调,引入了每个摄像头特有的传感器寄存器,并将这些寄存器分组以形成场景标记。
研究人员引入了摄像头感知注册令牌,能够有效地将多摄像头输入压缩成简洁的场景表示,从而在不影响轨迹预测精度的前提下降低计算需求。这项创新使得创建轻量级解码器成为可能,该解码器能够生成和评估潜在的驾驶路径,其中评分解码器专门用于预测与安全性、舒适性和驾驶效率相关的可解释子分数。
通过在包括NAVSIM-v1、NAVSIM-v2和HUGSIM在内的基准测试中,DrivoR的性能始终与现有系统持平或更优。消融实验表明,采用LoRA微调、使用最佳数量的摄像头令牌(16到32个之间)以及为轨迹生成和评分维护独立的分支至关重要。研究人员也承认学习率调度方面的局限性,并指出进一步的改进有望缩小完全微调和LoRA之间的性能差距。
*特别声明:本文为技术类文章,禁止转载或大篇幅摘录!违规转载,法律必究。
本文地址:https://auto.gasgoo.com/news/202601/16I70443091C409.shtml
 
联系邮箱:info@gasgoo.com
求职应聘:021-39197800-8035
简历投递:zhaopin@gasgoo.com
客服微信:gasgoo12 (豆豆)
新闻热线:021-39586122
商务合作:021-39586681
市场合作:021-39197800-8032
研究院项目咨询:021-39197921
