本系列博客包括6个专栏,分别为:《自动驾驶技术概览》、《自动驾驶汽车平台技术基础》、《自动驾驶汽车定位技术》、《自动驾驶汽车环境感知》、《自动驾驶汽车决策与控制》、《自动驾驶系统设计及应用》。
此专栏是关于《自动驾驶系统设计及应用》书籍的笔记.
6.决策与控制技术概述
6.1 设计目标
- 行为决策与控制系统的目标:使自动驾驶汽车像熟练的驾驶员一样产生安全、合理的驾驶行为;
- 设计准则:
- 良好的系统实时性;
- 安全性最高优先级(车辆具备防碰撞、紧急避障、故障检测等功能);
- 合理的行车效率优先级;
- 结合用户需求的决策能力(用户对全局路径变更、安全和效率优先级变更);
- 乘员舒适性(车辆转向稳定性、平顺性等);
- 对于适用于城市道路和高速公路工况的行为决策系统,设计准则还包括:
- 右侧车道通行优先;
- 保持车道优先;
- 速度限制;
- 交通标志及交通信号灯限制等;
6.2 系统分类
自动驾驶行为决策系统主要有:基于规则和基于学习算法两大类;
- 基于规则的行为决策:即将自动驾驶车辆的行为进行划分,根据行驶规则、知识、经验、交通法规等建立行为规则库,根据不同的环境信息划分车辆状态,按照规则逻辑确定车辆行为的方法;其代表方法为有限状态机法,代表应用有智能先锋Ⅱ、红旗CA7460、Boss、Junior、Odin、Talos、Bertha等;
- 基于学习算法的行为决策:即通过对环境样本进行自主学习,由数据驱动建立行为规则库,利用不同的学习方法与网络结构,根据不同的环境信息直接进行行为匹配,输出决策行为的方法;以深度学习的相关方法及决策树等各类机器学习为代表;代表应用有英伟达(NVIDIA)、Intel、Comma.ai、Mobileye、百度、Waymo、特斯拉等;
两类行为决策系统说明:
-
基于规则的决策控制系统
-
基于规则的行为决策方法中最具代表性的是有限状态机法;
-
有限状态机是一种离散输入、输出系统的数学模型;由有限个状态组成,当前状态接收事件,并产生相应的动作,引起状态的转移;
-
状态、事件、转移、动作是有限状态机的4大要素;有限状态机的核心在于状态分解,根据状态分解的连接逻辑,将其分为串联式、并联式、混联式三种体系架构;
-
串联式结构:其子状态按照串联式结构连接,状态转移大多为单向,不构成环路;
-
并联式结构:各子状态输入、输出呈现多节点连接结构,根据不同输入信息,可直接进入不同子状态进行处理并提供输出;
-
混联式结构:子状态中既存在串联递阶,又存在并联连接;
-
麻省理工学院的Talos无人车决策系统总体采用串联式结构,如下图所示:
- 串联式结构优点:逻辑明确,规划推理能力强,问题求解精度高;
- 串联式结构缺点:对复杂问题的适应性差,某子状态故障时,会导致整个决策链瘫痪;
- 串联式结构适用于某一工况的具体处理,擅长任务的层级推理与细分解决;
-
国防科技大学研发的红旗CA7460行为决策控制系统采用并联结构,如下图所示:
- 该系统适用于高速公路工况,其决策系统划分为自由追踪行车道、自由追踪超车道、由行车道换入超车道、由超车道换入行车道等模式;
- 并联式结构将每一种工况单独划分成模块进行处理,整个系统可快速、灵活地对输入进行响应;
- 在复杂工况下, 由于遍历状态较多,导致算法机构庞大,及状态间的划分与状态冲突的解决是难点;
- 并联式结构优点:具备场景遍历广度优势,易于实现复杂的功能组合,具有较好的模块性与拓展性;
- 并联式结构缺点:系统不具备时序性,缺乏场景遍历的深度,决策易忽略细微环境变化,状态划分灰色地带难以处理,从而导致决策错误;
-
卡耐基-梅隆大学与福特公司研发的Boss自动驾驶车决策系统采用层级式混联结构,如下图所示:
- 系统顶层基于场景行为划分,底层基于自车行为划分;三个顶层行为及其底层行为分别为:车道保持(车道选择、场景实时报告、距离保持器、行为发生器等)、路口处理(优先级估计、转移管理等)、指定位姿;
-
基于学习算法决策控制系统
- 根据原理不同主要可分为:深度学习相关的决策与基于决策树等机器学习理论的决策方法;
- NVIDIA无人车决策系统训练模型如下图所示:
- NVIDIA无人驾驶车辆系统架构采用端到端卷积神经网络进行决策处理,使决策系统大幅简化;系统直接输入由摄像头获得的各帧图像,经由神经网络决策后直接输出车辆目标方向盘转角;
- 图像输入到卷积神经网络(Convolutional Neural Networks,CNN)计算转向控制命令,将预测的转向控制命令与理想的控制命令比较,然后调整CNN模型的权值使得预测值尽可能接近理想值;权值调整由机器学习的反向传播算法完成,训练完成后,模型可以利用中心的单个摄像头数据生成转向控制命令;
- 百度端到端系统实现了对车辆的纵向和横向控制:纵向控制采用堆叠卷积长短期记忆(Long Short Term Memory,LSTM)深度学习模型,提取帧序列图像中的时空特征信息,实现特征到纵向控制指令的映射;横向控制采用CNN深度学习模型,从单幅前摄像头的图像直接计算横向控制的曲率;
-
基于规则和基于学习算法的行为决策技术的对比
- 基于规则的行为决策系统的优点:
- 算法逻辑清晰、可解释性强、稳定性强、便于建模;
- 系统运行对处理器性能要求不高;
- 模型可调整性强;
- 可拓展性强,通过状态机的分层可以实现较为复杂的组合功能;
- 在功能场景的广度遍历上存在优势;
- 基于规则的行为决策系统的缺点:
- 由于状态切割划分条件导致车辆行为不连贯;
- 行为规则库触发条件易重叠从而造成系统失效;
- 有限状态机难以完全覆盖车辆可能遇到的所有工况,通常会忽略可能导致决策是错误的环境细节;
- 场景深度遍历不足导致系统决策正确率难以提升,对复杂工况处理及算法性能的提升存在瓶颈;
- 基于学习算法的行为决策系统的优点:
- 具备场景遍历深度的优势,针对某一细分场景,通过大数据系统更容易覆盖全部工况;
- 利用网络结构可简化决策算法规模;
- 部分机器具备自学习性能,机器能够自行提炼环境特征和决策属性,便于系统优化迭代;
- 不必遍历各种工况,通过数据的训练完善模型,模型正确率可随数据的完备得以提升;
- 基于学习算法的行为决策系统的缺点:
- 算法决策结果可解释性差,模型修正难度大;
- 学习算法不具备场景遍历广度优势,不同场景所需采用的学习模型可能完全不同;
- 机器学习需要大量试验数据作为学习样本;
- 决策效果依赖于数据质量,样本不足、数据质量差、网络结构不合理等会导致过学习、欠学习等问题;