• 采购项目
  • 配套企业库
  • 销量查询
  • 盖世汽车社区
  • 盖世大学堂
  • 盖亚系统
  • 盖世汽车APP
  • 2025第六届软件定义汽车论坛暨AUTOSAR中国日
  • 2025第五届中国汽车人机交互与体验设计创新大会
  • 2025第三届具身智能产业发展论坛
  • 2025第五届汽车计算大会
  • 2025第三届AI定义汽车论坛
  • 走进上汽提质增效&创新驱动论坛暨
  • 2025第三届中国汽车及零部件出海高峰论坛
  • 第八届上海-斯图加特汽车及动力系统国际研讨会
  • 2025第四届中国车联网安全大会
当前位置:首页 > 行业 > 正文

基础设施软件2.0-下|盖世大学堂舱驾、行泊一体系列知识讲解

盖世汽车 谢雨欣 2025-02-14 10:30:17

数据闭环的快速周转和低成本是提升模型性能的关键,而4D标签技术在定位和建图上的应用,以及端到端方法的逐步迭代,如从3W点1.0到3.0,进一步突出了技术进步的重要性。车端后处理算法的转变,即算法向云平台迁移,成为增值标注方案的一部分,显示了自动驾驶技术的发展趋势。

一、纯视觉自动标注总结与趋势分析

在自动驾驶领域,对于感知相关的AI产品而言,模型的迭代效率和成本是核心竞争力所在。其关键在于用于更新模型的数据成本与效率,以及数据闭环的运转速度和成本。4D Label在本质上与定位和建图密切相关,特别是静态标注环节,高精度、高稳定性的定位建图是4D Label的重要基础。 

基础设施软件2.0-下|盖世大学堂舱驾、行泊一体系列知识讲解

端到端技术在自动驾驶领域呈现出逐步发展的趋势。从早期的Sense+Rule模式,发展到BEV技术,将空间融合应用于网络,再到将planning等功能融入网络的3.0阶段,技术不断迭代升级。在这一趋势下,车端后处理算法逐渐从车辆终端迁移到云端,成为真值标注方案的一部分,其作用不可忽视。此外,数据合成和仿真系统在自动驾驶算法构建中的重要性日益凸显,尤其在算法测试环节,发挥着关键作用。

二、数据仿真技术详解(一)仿真技术概述与感知仿真特点

数据仿真在自动驾驶算法开发中占据重要地位,其涵盖数字孪生概念,主要包含两个关键模块:一是Real2Sim,即利用真实数据进行数字化重建,生成仿真场景;二是Sim2Real,将仿真数据渲染成真实数据。

与以往主要集中在感知、规划或规控层面的仿真不同,感知仿真需要高度的图像真实感,因为它主要为数据生成服务。然而,目前业界现有的传感器和仿真系统在满足感知仿真需求方面存在一定局限性,如腾讯的游戏引擎等,其生成的场景真实感与感知需求仍有差距,场景库也较为受限。当前,从真实数据重建、合成到场景渲染的方式,因能最大程度保留场景真实感,被认为是较具潜力的方向。

感知仿真涉及多方面内容,包括场景库构建、传感器仿真等。传感器仿真难度较大,传统方式需对每个传感器的物理参数进行仿真,工作量巨大且困难。因此,一些新方法如基于NeRF的技术,尝试越过传感器仿真环节,直接实现真实感重现,或通过文本控制生成相关场景数据,展现出较大的应用潜力。 

基础设施软件2.0-下|盖世大学堂舱驾、行泊一体系列知识讲解

(二)仿真数据生成流程与应用

Real2Sim阶段,首先对采集的数据进行场景素材库重建,包括静态高精地图重建、静态场景纹理重建、自车轨迹重建以及动态要素(如车辆模型、行为轨迹)重建等。完成场景库重建后,进行场景合成,可对场景中的元素进行替换和调整,如更换车辆及其行为轨迹,同时添加气象要素等。在此基础上,便可生成4D真值数据,为后续仿真提供数据支持. 

Sim2Real阶段,传统方法涉及传感器仿真、车辆动力学仿真、交通参与者行为仿真、气象仿真和场景渲染等多个环节,最终生成用于算法验证、极端场景生成和模型测试的数据。在算法验证方面,利用仿真数据可快速验证新算法,避免了使用物理数据时需改装车辆和长时间采集数据的繁琐过程;在极端场景生成方面,能够生成如高速公路上出现宠物等难以采集的长尾数据;在模型测试方面,由于可获取场景中每个模块的数据,可对感知算法、定位算法、决策规划算法等进行单环节或端到端测试。

(三)仿真数据对模型性能的影响

业界一直在探索何种仿真数据能够有效替代真实数据提升模型性能,并进行了大量验证实验。以光流标注为例,实验表明数据分布对仿真数据提升模型性能具有显著影响。直接将仿真光流数据输入网络,模型性能提升6%;调整仿真数据光流的分布,使其接近真实数据光流的分布后,模型预测精度提升了18.5% 。 

基础设施软件2.0-下|盖世大学堂舱驾、行泊一体系列知识讲解

此外,相机内外参一致性、标注误差以及场景分布等因素也会影响仿真数据对模型性能的提升效果。通过对仿真数据添加与人工标注相似的误差扰动,调整仿真数据的场景分布使其与真实数据一致,均能进一步提升模型性能。由此可见,生成仿真数据时,数据分布接近真实数据比单纯追求逼真程度更为重要。

(四)4D Label与仿真的关联及仿真技术新进展

4D Label在进行4D重建过程中,收集的静态和动态重建数据可作为场景库素材,为仿真器提供丰富资源。基于这些素材,能够生成帧数据并进行仿真测试。然而,当前的场景合成在仿真过程中存在一定缺陷,并非闭环仿真,无法模拟车辆间的博弈规避行为,这对更高级的仿真器提出了需求。 

基础设施软件2.0-下|盖世大学堂舱驾、行泊一体系列知识讲解

在仿真技术新进展方面,NeRF和3DGS是较为突出的技术。二者都擅长新视角合成,3DGS效率相对较高,而NeRF训练效率较低。NeRF基于多层感知器,通过给定相机参数和位置信息,恢复密度和颜色值,沿射线采样并加权得到像素颜色,在真实感渲染方面表现出色。UniSim仿真框架基于NeRF,对动态物体单独建模,将场景划分为多个MLP进行重建,具备场景编辑和合成能力。Stress surf则利用激光雷达将场景变换成符号距离场,增加几何约束,解决了NeRF在几何重建方面的不足。虽然NeRF目前更适合内插视角合成,在处理未出现过的视角时效果不佳,但通过结合激光雷达点云约束或对场景进行分解等方式,其应用范围正在不断拓展。

三、数据合成的应用案例

(一)解决跨车泛化性问题

3D感知任务中,当传感器安装位置发生变化时,模型泛化性问题突出,这是目前自动驾驶量产中的痛点。特斯拉采用Rectify方式对图像进行校正,但该方法仅能处理相机纯旋转的情况,无法应对相机高度变化。 

基础设施软件2.0-下|盖世大学堂舱驾、行泊一体系列知识讲解

利用深度模型生成的depth数据可有效解决这一问题。尽管深度模型生成的depth图尺度可能不准确,但能保证图像真实感。通过对已有相机高度数据进行变换,结合真值随相机变换角度的调整,可生成新的训练数据,使模型在无需采集新车辆数据的情况下,就能适配新的车辆,且对depth图精度要求不高,经实践验证该方法有效。

(二)生成罕见场景数据

针对一些难以采集的罕见场景数据,如车辆翻车的2D检测任务,可采用数据合成的方式。通过选择合适的图像库和背景图片,对车辆进行透视变换和图像编辑,将其合成到背景中,可生成相关训练数据。经验证,这种方式能够提升ap 10个点 ,有效提高模型对罕见场景的检测性能。 

基础设施软件2.0-下|盖世大学堂舱驾、行泊一体系列知识讲解

此外,对于锥筒等物体的仿真,可采用增强现实的方法。获取clip的3D相机位置和锥筒的3D模型,将锥筒放置在3D空间中,利用透视变化效果自动调整尺度,无需人工干预。通过对比发现,基于真实背景合成的数据,其真实感明显高于游戏引擎生成的数据。

四、4D交互式标注工具(一)标注工具的必要性与功能

在自动驾驶数据标注过程中,尽管自动重建和预刷技术不断发展,但从感知角度来看,人工质检在现阶段仍难以完全替代。只有当高质量数据量远超有误差的数据量,且模型能够自动处理数据偏差,同时实时闭环测试结果也支持这一情况时,人工质检才可能被去除。目前,动态物体标注已通过量产验证,无需人工质检,但静态物体标注仍需依赖标注工具。

4D交互式标注工具具备多种功能,在地图标注工具的基础上,增加了3D可视化结果显示功能,并支持将结果实时投影到不同视角的图像上,方便查看对齐效果。此外,该工具还实现了3D与2D标注的实时联动,即调整3D标注时,2D标注能实时响应,反之亦然。这些功能为标注人员提供了便利,有助于提高标注的准确性和效率。

(二)标注工具的开发与应用

由于早期业界缺乏满足4D标注需求的工具,且现有工具存在适配性问题,部分公司选择自行开发标注工具。虽然开发此类工具涉及如OpenGL、WebGL等技术,具有一定技术门槛,但开发成本并不高。随着4D标注技术的逐渐成熟,未来也可考虑采用外界的标注工具。 

基础设施软件2.0-下|盖世大学堂舱驾、行泊一体系列知识讲解

目前,国外如scale点AI、国内如总数智能等公司均有相关标注工具,但在数据安全性和工具成熟度方面,各有优劣。4D交互式标注工具在实际应用中表现出色,通过标注一个路口的数据,可自动为几十到几百个经过该路口的数据片段提供高精度真值标注。同时,利用重定位技术,还能为夜晚、极端天气等极端场景提供原本难以标注的数据,大大提升了真值的生产效率和精度。

五、数据闭环的重要性与实现(一)量产中的数据难题

数据闭环是自动驾驶AI感知的关键环节,特斯拉在这方面表现突出,其端的方案领先业界,很大程度上得益于数据的采集和存储。在自动驾驶量产过程中,面临诸多数据相关的难题。 

基础设施软件2.0-下|盖世大学堂舱驾、行泊一体系列知识讲解

数据量庞大且回传压力大,如日测试里程若达到2000万公里,数据存储成本极高,特别是BEV数据,因其视角多、激光雷达点云数据量大,PB级别的存储费用高昂。标注复杂且成本高,不同场景下的标注需求多样,如不同城市的红绿灯样式各异,给标注工作带来困难。测试成本高,包括车辆成本和时间成本,测试100万里程需要耗费大量时间和资源。

(二)数据闭环的关键模块

数据闭环旨在解决上述量产中的痛点问题,主要包含数据挖掘、标注工具、仿真和模型优化等关键模块。 

车端数据挖掘通过影子模式等方式,抓取关键数据,减少数据回传量。例如,通过设定特定规则,如传感器数据不一致、检测结果异常等,触发数据回传,避免大量无效数据的传输。数据回传后,利用端侧挖掘机制,针对异常情况快速建立训练集,数据来源包括采集数据和历史数据。 

标注工具需具备高度自动化功能,以降低标注成本和提高效率。通过优化标注流程和采用先进技术,减少人工干预,提高标注的准确性和速度。利用仿真手段构建数据集,生成难以采集的场景数据,如极端天气、罕见交通状况等,为模型训练提供丰富的数据支持。最后,对模型进行优化和评测,并通过OTA升级实现模型的持续改进,在注册数据集的同时进行评测,确保模型性能不断提升。

(三)数据挖掘的方法

云端数据挖掘通过多种方式实现,如以图搜图、以文字搜图、以视频搜视频等。在数据入库时打标签,以便根据图像、文字或视频信息快速检索相关数据集。利用工况大模型和基于4D重建的规则,可挖掘特定场景的数据,如通过设定十字路口相关的轨迹规则,获取十字路口的数据。随着技术发展,未来有望实现通过文字描述自动生成训练集,进一步解决数据获取难题。 

基础设施软件2.0-下|盖世大学堂舱驾、行泊一体系列知识讲解

车端数据挖掘采用多种触发模式,包括基于规则和基于learning的方式。通过判断传感器之间、算法之间以及人机之间的一致性,如雷达与相机感知不一致、不同相机重叠视野内感知不一致等,以及特定场景(如紧急减速、罕见大弯等),触发数据回传。此外,还可通过在车端部署检索模型,实现实时主动式数据挖掘,提高数据挖掘效率 。

*版权声明:本文为盖世汽车原创文章,如欲转载请遵守 转载说明 相关规定。违反转载说明者,盖世汽车将依法追究其法律责任!

本文地址:https://auto.gasgoo.com/news/202502/14I70418455C108.shtml

文章标签: 自动驾驶
 
0

好文章,需要你的鼓励

微信扫一扫分享该文章