当前位置：首页 > 国际 > 正文

韩国中央大学开发出“元强化”机器学习算法可提高车辆吞吐量

盖世汽车刘丽婷 2022-11-15 21:12:26

盖世汽车讯无论现代车辆变得多么先进，包括自动驾驶车辆，使用传统的交通信号技术来控制车辆流量还是会造成道路拥堵。但人工智能（AI）和机器学习的最新进展显示出在优化交通信号控制方面的前景，可以缓解城市地区的道路拥挤状况。

据外媒报道，韩国中央大学（Chung-Ang University）的研究人员正在试验使用强化学习（RL）算法来解决非平稳交通信号控制问题。该算法根据交通状况的分类自动定制“奖励功能”。

RL在机器学习领域使用“试错法”的问题解决方法进行代理训练。RL是三种基本机器学习范式之一，另外还有监督学习和无监督学习。它是机器学习的一个领域，专注于智能代理（交通灯）应如何在环境中采取行动以最大化奖励，即车辆在城市交通场景中不间断行驶。使用RL的目标是最大化总奖励。

基本上，机器学习算法的奖励功能是一种激励，使用奖励和惩罚告诉代理什么是正确的，什么是错误的。但通常RL算法必须牺牲即时奖励（一些驾驶员可能会被卡在红灯处）以最大化总奖励（改善交通流量）。

现有的交通信号依赖于“基于规则的控制器”（红色表示停止，绿色表示行进）。目标是在交通畅通的情况下减少车辆延误，并在道路拥堵期间最大限度地提高车辆吞吐量。

此类次优交通信号控制器会给人们的生活造成影响，尤其是是在经常面对拥堵和延误的城市地区。而具有固定状态时间的传统交通信号灯不能很好地缓解交通拥堵。

此外，现有的交通信号控制器无法适应全天不断变化和随机的交通模式。尽管人工交通管制员可能比固定管制员表现更好，但他们一次也只能管理几个十字路口。

研究人员面临的最大挑战之一是在非静止环境中实施RL，即车辆随机穿过十字路口。当前的研究探索了RL算法作为缓解交通问题的一种可能解决方案。然而由于交通环境的动态特性，RL算法并不总能获得最佳结果。

为了更好地解决这个问题，研究人员开发了“元强化学习模型（meta-RL model）”，以根据交通环境调整其目标。据中央大学的研究人员称，元强化学习算法覆盖面广，性能优于现有的替代算法。

元强化学习机器学习模型的两个主要目标是在高峰时段最大限度地提高车辆通过十字路口的吞吐量，并在高峰时段最大限度地减少延误。由Keemin Sohn教授领导的研究人员开发出深度、Q网络（EDQN）结合的，并基于上下文的扩展元强化学习模型，用于交通信号控制。

以下是元强化学习模型的工作原理。首先，它使用表示整体环境条件的潜在变量来确定流量是“饱和”还是“不饱和”。基于当前的交通流量，该模型要么最大化吞吐量，要么最小化延迟，类似于人工控制器。该模型通过实施交通信号周期（动作）来执行此操作。

该行动由提供“奖励”控制。该奖励函数设置为+1或-1，对应的是处理交通方面相对于前一个红绿灯间隔的更好或更差的性能。此外，EDQN还充当解码器，共同控制多个十字路口的交通信号。

韩国中央大学土木与环境工程学院教授Sohn解释说：“现有研究已经设计出基于交叉路口几何形状、交通信号相位或交通状况的元强化学习算法。该算法在检测交通状态、对交通状况进行分类以及相应地分配信号相位方面可以自主工作。”

研究人员使用Vissim 21.0对元强化学习算法进行训练和测试，Vissim 21.0是工程师用来模拟真实世界交通状况的商业交通模拟器。

该团队在首尔西南部建立了一个由15个十字路口组成的交通网络，作为真实世界的测试环境。经过元训练后，该强化学习模型可以在不调整参数的情况下适应新任务。

这些实验表明，元强化学习模型可以在没有任何明确交通信息的情况下切换控制任务，此外，它还可以根据交通状况的饱和度来区分奖励。

研究团队发现，基于EDQN的元强化学习模型优于现有的交通信号控制算法。然而，研究人员强调需要一种更精确的算法，以考虑城市地区交叉路口的不同饱和度水平。

本文地址：https://auto.gasgoo.com/news/202211/15I70321506C101.shtml

文章标签：前瞻技术

好文章，需要你的鼓励

微信扫一扫分享该文章

24小时热文

作为采购商，我可以：