[摘要] 强化学习的发展推动了自动驾驶决策技术的进步,智能决策技术已成为自动驾驶领域高度关注的要 点问题。本文以强化学习算法发展为主线,综述该算法在单车自动驾驶决策领域的深入应用。对强化学习传统算 法、经典算法和前沿算法从基本原理和理论建模等方面进行归纳总结与对比分析。针对不同场景的自动驾驶决策 方法分类,分析环境状态可观测性对建模的影响,重点阐述了不同层次强化学习典型算法的应用技术路线,并对自 动驾驶决策方法提出研究展望,以期为自动驾驶决策方案研究提供有益参考。
关键词:自动驾驶;决策算法;强化学习;前沿发展
自动驾驶技术作为汽车产业未来转型升级的重 要方向[1],在缓解交通拥堵、提高交通安全性、降低 能耗等方面具有巨大潜能。随着自动驾驶车辆在局 部道路测试中的快速部署,自动驾驶车辆和人类驾驶车辆之间相互影响的混合交通场景正成为一种新 常态[2]。决策技术作为自动驾驶车辆智能、高效完 成各项行驶任务的核心体现,需要有效应对复杂环 境信息不确定性带来的挑战,以满足车辆安全性、经 济性和乘车舒适性等需求。因此,复杂交通场景下 的智能决策技术已成为自动驾驶智能化的重要 标签。
现阶段,自动驾驶的决策技术多采用基于规则(rule-based)的分解式方案,主要应用于稀疏交通工况[3],面对复杂的交通环境,依据现有预测模型难以 编写出涵盖所有交通场景与行为的全部决策方案。
强化学习(reinforcement learning,RL)领域的进步极 大推动了自动驾驶决策技术的发展。RL基于马尔 科夫过程(Markov decision process,MDP)采用闭环学习的形式,利用回报函数作为激励,采用探索试错 的方法自主迭代学习[4],逐步改善决策能力。基于RL的自动驾驶决策技术具有较好的自主决策能力,能够依据有效的回报函数(安全性、舒适性等)指导相应的驾驶行为。RL凭借对高维信息较好的提取能力,通过不断探索学习从复杂的交通场景中抽象 出最优策略的隐藏映射,可较好应对场景特征难以 显性表达的难题和减缓不确定性的影响,在自动驾 驶决策领域具有巨大的应用潜力。
学者们基于RL算法在自动驾驶决策领域开展 了诸多研究,在驾驶模拟器Carla、Torcs、Prescan等 仿真环境中展现出RL算法强大的优越性和灵活性, 涵盖L3-L5级自动驾驶的车道保持、跟驰、换道、交 叉口通行等驾驶任务。RL可以通过处理非结构化数据,利用高维度感知信息学习实现数据驱动的决 策映射,即端到端方案[5]。端到端方案与分解式方 案相比,具有框架简洁、环感信息无损输入等优 点[6],在自动驾驶决策领域得到广泛应用。但是端 到端方案存在可解释性低、迁移性不强等缺点[7-8], 尤其面临交互式驾驶场景的复杂性和不确定性,实 现完全自主决策仍然是一个非常具有挑战性的 问题。
现阶段的学者们和车企普遍专注于单车智能决策的解决方案,本文中以RL算法发展为主线,梳理 RL算法演变、分类、主要思想及在单车智能决策领 域的应用;归纳了RL前沿发展,以逆强化学习、分层强化学习、混合策略等算法为例着重分析其在决策领域的应用;总结分析了RL在自动驾驶决策应用的不足,并提出了研究展望。