• 采购项目
  • 配套企业库
  • 销量查询
  • 盖世汽车社区
  • 盖世大学堂
  • 盖亚系统
  • 盖世汽车APP
  • 2025第六届软件定义汽车论坛暨AUTOSAR中国日
  • 2025第五届中国汽车人机交互与体验设计创新大会
  • 2025第三届具身智能产业发展论坛
  • 2025第五届汽车计算大会
  • 2025第三届AI定义汽车论坛
  • 走进上汽提质增效&创新驱动论坛暨
  • 2025第三届中国汽车及零部件出海高峰论坛
  • 第八届上海-斯图加特汽车及动力系统国际研讨会
  • 2025第四届中国车联网安全大会
当前位置:首页 > 行业 > 正文

BEV感知与智驾方案-下|盖世大学堂舱驾、行泊一体系列知识讲解

盖世汽车 谢雨欣 2025-02-17 14:17:42

一、BEV感知的关键任务(一)3D检测与静态感知

  1.  3D检测方法:在3D检测任务方面,BEVDet是具有代表性的方法之一,它基于LSS(Lift, Splat, Shoot)技术,先将图像空间通过LSS转换到BEV空间,再进行heatmap加NMS预测,后续部分采用传统CNN时代的方法。此外,还有如DETR3D和PETR等方法,它们基于Transformer架构,通过不同的方式进行3D检测。

    BEV感知与智驾方案-下|盖世大学堂舱驾、行泊一体系列知识讲解

  2. 静态感知发展:BEV静态感知主要处理路面信息,如车道线、锥桶等。早期,静态感知多以分割结果输出,后续需进行实例化和矢量化等复杂后处理操作,以满足下游定位和建图等任务的需求。随着技术发展,出现了直接通过Transformer方式输出矢量化结果的方法,如MapTR,其通过对射线进行embedding并与图像像素结合,利用地图信息做attention来获取结果 。 

BEV感知与智驾方案-下|盖世大学堂舱驾、行泊一体系列知识讲解

当前,静态感知的发展趋势是从分割向实例化、从物理层向逻辑层拓展,旨在让网络学习不同元素之间的拓扑关系,从而实现更强大的感知能力。这一发展趋势使得地图存储的信息逐渐减少,体现了轻地图的底层逻辑,即感知能力的增强可降低对地图记忆信息的依赖。

(二)通用障碍物检测与多传感器融合

  1. OCC网络原理与应用:OCC(Occupancy Network)网络由特斯拉于2022年年初提出,其概念源于机器人场景。该网络将3D空间离散化为小cell,通过预测每个cell的占据概率(1表示被占据,0表示可通行)来实现对3D空间的建模。特斯拉采用视觉方法实现OCC,这在技术上具有很大挑战性,因为真值获取难度较大。OCC网络的优势在于能够处理遮挡问题,对动态和静态物体均能有效检测,且在分辨率关键区域可进行精细化处理。然而,其面临分辨率提升导致存储成本大幅增加的问题,特斯拉采用先预测稀疏结果,再按需精细化的策略来应对 。 

    BEV感知与智驾方案-下|盖世大学堂舱驾、行泊一体系列知识讲解

  2. 多传感器融合方式:多传感器融合在BEV感知中至关重要,常见的融合方式包括将图像和激光雷达数据进行融合。先将图像数据encode后转换到BEV空间,激光雷达数据则直接进行处理并提取特征,二者在特征层面进行融合,以提升对动态物体的检测效果。此外,还有基于Transformer的融合方法,通过在BEV feature的每个cell中预测参考点,并将其投影到不同模态中获取特征,实现多传感器数据的融合 。

(三)端到端感知规控一体

端到端感知规控一体是当前自动驾驶领域的重要发展趋势,旨在将动态、静态感知、motion prediction以及planning等功能集成到一个网络中。目前,特斯拉是在该领域取得显著进展的代表,其端到端方案已应用于实际车辆控制。国内小鹏也曾宣称实现了端到端方案,但实际效果有待进一步验证 。 

BEV感知与智驾方案-下|盖世大学堂舱驾、行泊一体系列知识讲解

端到端方案面临的主要挑战在于基础设施建设,需要大量的数据和计算资源进行模型训练。此外,评测指标的设计也是一个关键问题,传统的分模块评测方式无法适用于端到端模型,需要根据自动驾驶的安全性、舒适性等要求重新设计评测指标。同时,如何选择高质量的训练数据,以确保模型学习到良好的驾驶行为,也是需要解决的问题 。

二、BEV量产中的关键问题(一)模型的量化和部署

  1. 硬件芯片的选择与特点:在自动驾驶模型部署中,常用的计算芯片包括CPU、GPU、FPGA和ASIC(如NPU)。GPU以英伟达产品为主,具有算力高、产品成熟度高的特点,适用于图形学习、数值模拟和机器学习等领域;FPGA由于成本较高,在量产中应用较少;ASIC是针对特定算法进行加速的芯片,具有高算力和高能效比,但开发周期长,且由于自动驾驶模型的不断变化,其算法预判难度较大 。

    BEV感知与智驾方案-下|盖世大学堂舱驾、行泊一体系列知识讲解

  2. 模型部署的难点与解决方法:BEV Transformer模型在部署过程中面临诸多难点,如推理效率问题,部分算子对芯片的适配性不佳,需要进行替换,可采用CN等效率较高的算子进行替代。此外,模型分辨率和多任务训练也是挑战。在分辨率方面,不同目标对BEV融合过程中的分辨率要求不同,车辆大目标和骑车人/行人小目标所需的分辨率和图像特征倍数存在差异。在多任务训练中,通常采用各任务单独构建计算图、独立设置batch size、控制backward次数以及采样训练等方法,以提高训练效果 。

(二)泛化性问题

  1. 跨车传感器差异的应对:不同车辆的传感器安装位置和角度存在差异,这会对模型性能产生较大影响。特斯拉采用rectify方案,通过标定相机真实尺寸,利用旋转将相机朝向统一到虚拟平面上,使数据分布更加一致,便于网络模型学习。这种方法属于前处理技巧,能有效解决相机角度偏差带来的问题 。 

    BEV感知与智驾方案-下|盖世大学堂舱驾、行泊一体系列知识讲解

  2. 隐式编码与数据混合训练:采用隐式编码方案,如利用transformer结合几何特征和语义信息进行融合,可提高模型的泛化性。通过将射线编码与像素结合,为网络提供3D空间位置的提示,即使几何信息存在变化,模型也能较好地适应。此外,将不同车辆的数据混合在一起进行训练,也有助于提升模型的泛化能力 。

(三)其他挑战

目前,纯视觉在60米以上大路口的感知方面存在困难,这影响了车辆的定位和规控。为解决该问题,业界主要探索两种方向:一是通过建图的方式,保存路口信息;二是在模型中加入地图数据、先验数据或导航地图信息,如将路口的相关描述输入网络,以辅助模型进行感知,但目前该问题尚未得到有效解决 。

三、BEV感知的发展趋势(一)感知能力提升与地图依赖变化

  1. 感知能力的演进:BEV感知的发展趋势是感知能力不断增强。在静态感知方面,从最初的分割结果,逐步发展为实例化直接输出点列,再到学习拓扑关系,实现更接近高清地图的信息获取,让网络承担更多局部建图的功能,涵盖物理层和逻辑层。动态感知方面,从单纯的3D几何检测,发展到包含tracking、prediction以及输出车辆属性等功能,目前已基本实现相关功能的集成,且由于激光雷达用于动态感知的真值标注相对容易,动态感知的迭代效率较高 。 

    BEV感知与智驾方案-下|盖世大学堂舱驾、行泊一体系列知识讲解

  2. 地图依赖的变化:自动驾驶经历了从重感知轻地图到无图化的发展过程。早期,城区高阶辅助驾驶多依赖高清地图,其具有高精度和丰富的车道信息,但存在成本高、鲜度低和覆盖率不足等问题。轻地图方案如百度的SD Pro Map和高德的HQ Map,在保证一定精度的同时,减少了几何信息,以拓扑信息为主,降低了地图的复杂度和成本。未来的趋势是进一步减少对地图的依赖,甚至仅依靠导航地图来估计周围关系,这对感知能力提出了更高的要求 。

(二)面向planning的网络发展与端到端训练

  1. 面向planning的网络改进:传统的感知决策规划在工程划分上存在信息不匹配问题,难以满足真实世界复杂场景的需求,且无法兼顾规控的安全、效率和舒适性。端到端网络通过数据驱动的方式提升自动驾驶性能上限,将动态、静态物体等信息从object级别转换为feature级别传递给planning,使梯度能够回传,以优化规划效果。例如,地平线提出的UniAD工作,将多个模块通过Transformer串联起来,但在量产部署时面临模型过重的问题 。

    BEV感知与智驾方案-下|盖世大学堂舱驾、行泊一体系列知识讲解

  2. 端到端训练的探索:参考ChatGPT的训练方式,自动驾驶端到端模型的训练可分为几个阶段。首先,利用大量与驾驶相关或相似场景的视频数据进行预训练,通过预测下一帧视频来捕捉视频中的细节信息,学习底层规律。然后,采用强化学习或仿生学习的方法,使用打分网络和策略网络进行训练,根据反馈结果对模型进行微调。在训练过程中,若车队数据量足够大,测试环节将成为瓶颈,此时可借助仿真方法进行训练,包括开环仿真和闭环仿真,以提高模型性能,减少对实际路测的依赖 。

*版权声明:本文为盖世汽车原创文章,如欲转载请遵守 转载说明 相关规定。违反转载说明者,盖世汽车将依法追究其法律责任!

本文地址:https://auto.gasgoo.com/news/202502/17I70418658C108.shtml

文章标签: 自动驾驶
 
0

好文章,需要你的鼓励

微信扫一扫分享该文章