一天训练950年驾驶经验,苹果让自动驾驶自己“修仙”。
苹果于机器学习研究页揭秘自动驾驶新进展,一日之内累积950年驾驶智慧,仿佛让汽车踏上“修仙”之旅。
这篇论文的突破性贡献在于它创造性地推出了一款名为GIGAFLOW的全新大规模自博弈强化学习架构,并有力证实其能高效培育出既通用又具备高度稳定性的驾驶方案。 从数据层面来看,借助这一革命性的自监督训练机制,仅仅十天便能累积16亿公里的模拟里程,这相当于人类驾驶者9500年的行驶经验。换算到单日,则意味着每天可模拟出1.6亿公里的行程与950年的驾驶智慧。 更引人瞩目的是,这样的训练成本极为经济,每百万公里的模拟费用不到5美元(约36.1元人民币),并且全程无需依赖真实世界的数据采集。 此番研究的发布,无疑昭示着苹果虽已挥手告别电动汽车制造领域,但对汽车行业的热情与探索并未因此熄灭。或许在不久的将来,苹果会在自动驾驶技术的舞台上,再度祭出令人瞠目的创新之作。 回溯苹果的汽车制造之旅,其始于2008年乔布斯亲自挂帅的“泰坦计划”。历经数次战略转型、团队重构与领导层的更迭,苹果的目标逐渐由全自动驾驶车辆向技术深耕偏移。然而,由于战略定位模糊与执行层面的乏力,苹果始终未能拿出令人信服的产品。 直至2024年初,苹果终于宣布终止电动汽车开发项目。据媒体披露,该项目已至少吞噬了苹果100亿美元(约721亿元人民币)的资金。这一决定不仅令人扼腕,也触动了马斯克、雷军等科技界大佬的深切感慨。
GIGAFLOW——自博弈训练设计的新星 它以高效获取训练经验为核心,构建了一个专为自博弈而生的高度并行化模拟器与强化学习架构。GIGAFLOW致力于通过虚拟手段,模拟出覆盖数十亿公里的驾驶场景,培育出兼容并蓄、应对自如的驾驶策略,摆脱了对真实数据的依赖。其并行处理能力惊人,8块GPU即可驱动3.84万虚拟环境同频共振,每小时催生4.4亿次状态更迭,这一速率,足以比拟42载真实驾驶岁月的积淀。
值得一提的是GIGAFLOW的模拟环境设计简洁,但通过大规模自博弈的方式弥补了其设计上的简化。
GIGAFLOW系统采纳了8幅基础地图,各图车道绵延4至40公里不等。这些地图经由随机化处理,如缩放与镜像翻转,衍生出多样变体,交织成总长136公里的道路迷宫。在这片虚拟“疆域”里,智能体自随机起点启程,穿梭其间,历经多个中转站,向随机散布的终点进发。
从交互决策的视角审视,这一环境中智能体(涵盖车辆与行人等)的最大共存数量为150,它们遵循同一策略框架,却能在不同参数条件下展现出多姿多彩的行为面貌,诸如激进型驾驶与合规型驾驶等。 在训练历程中,智能体凭借自我对弈的方式,逐步精通了繁复的驾驶技巧。 这些技巧囊括了在拥堵路段执行“拉链式”并线、环岛内的协调行进、狭窄空间中的多点掉头,以及在遭遇事故或路障时的路径重规划。 尤为值得一提的是,所有这些精妙技巧均是在无预设剧本或人类示范的情形下,通过自我对弈自然而然浮现而出的。
GIGAFLOW在单节点上展现了惊人的能力,能够模拟3.84万个并行环境,并借助GPU加速的物理计算和动态状态压缩技术,显著减少了内存消耗与通信成本。就训练资源配置而言,GIGAFLOW的完整训练流程需2000GPU小时,耗时约10天,总计算量高达2.3×10^19FLOP,涵盖16亿公里的训练数据。参考AWS p4d实例(每节点8 GPU)的定价,整个训练过程的成本约为4.8万美元,即人民币34.56万元,这一价格相较于同类强化学习方案,展现出极高的性价比。
除了依赖人类数据进行模仿学习所带来的高昂标注成本外,GIGAFLOW巧妙规避了此项费用。其利用优势过滤技术,通过动态阈值智能剔除低质样本,使反向传播计算量锐减约80%。更令人称奇的是,所有交通参与者,无论是车辆还是行人,均共享同一策略网络,从而有效避免了多模型训练的庞大开销。。
此外,GIGAFLOW采用了一种创新手段,即通过预先离线处理地图的栅格特征,诸如车道布局与交通信号位置,来减轻实时计算的负担。尽管如此,GIGAFLOW仍面临成本方面的掣肘,特别是对高性能8 GPU节点的依赖,存在实施难度。要想确保这一策略的稳健性,需历经超过15亿公里的训练里程,短期训练难以达成预期效果。加之车辆动态特性和奖励函数的即时随机化处理,还会额外增加约15%的计算压力。可以说,GIGAFLOW为自动驾驶训练指明了前行方向,但距离实现“颠覆性”飞跃尚有距离。
能力超越基准
未来仍有改进空间
在基准测试舞台上,GIGAFLOW策略展现出了非凡的零样本泛化实力,这一能力在三大自动驾驶领域的标杆测试中得到了有力证明:CARLA、nuPlan与Waymax。CARLA侧重于工匠级驾驶场景的设计,考量长途驾驶的稳定性;nuPlan则依据真实驾驶记录,检验短途驾驶的敏锐度;而Waymax,借助Waymo Open Motion Dataset塑造的模拟天地,挑战复杂路况下的驾驶智慧。
测试结果揭晓,GIGAFLOW策略在各项基准测试中均力压专为基准设计的专家模型,彰显卓越的零样本泛化实力。即便未经任何基准特定微调,其表现仍超越那些精心优化的模型。于CARLA模拟环境中,GIGAFLOW策略灵活应对行人突发穿行、拥堵路口等复杂路况,展现出非凡的应对能力。
在nuPlan与Waymax的基准测评里,GIGAFLOW策略彰显出流畅且可靠的驾驶表现。深入分析揭示,该策略在维持长时间驾驶稳定性上同样出类拔萃。在减少动态干扰、提升操控频次的环境下,智能体平均行驶1750万公里才遭遇一次事故,相比之下,美国人类驾驶者的平均事故率则为每82.9万公里便发生一次。
除此之外,研究者们对GIGAFLOW策略的行为特质进行了深刻的剖析,它具备前瞻性的决策智慧,能依据未来潜在情境(诸如150米外的道路障碍)灵活调整驾驶动作;同时,其驾驶风格多变,通过调整参数配置,策略能轻松切换从保守至激进的多种模式;在涉及多车协同的复杂局面(例如车流交汇)中,策略同样展现出灵动且流畅的反应。 然而,即便在这一领域取得了显著成就,项目团队依然面临诸多待解之题。诚然,该策略减少了对手动数据搜集的依赖,能孕育多样化的驾驶表现,但其研究边界依旧清晰可见。 首要问题在于,纯模拟环境下的训练策略尚未在现实道路上经受检验,其真实应用效果尚属未知。 再者,研究预设感知系统无瑕,但在真实情境中,传感器误差与环境变量的不确定性或许会对策略性能造成显著冲击。 最后,尽管自博弈展现了出色的泛化潜力,但如何将其与人类数据驱动的模仿学习巧妙融合,仍是未来探索的重要课题。
本文地址:https://auto.gasgoo.com/news/202502/26I70419399C601.shtml
联系邮箱:info@gasgoo.com
求职应聘:021-39197800-8035
简历投递:zhaopin@gasgoo.com
客服微信:gasgoo12 (豆豆)
新闻热线:021-39586122
商务合作:021-39586681
市场合作:021-39197800-8032
研究院项目咨询:021-39197921