【摘要】针对传统自动紧急制动策略制动减速度波动大、制动过程乘坐舒适性及弯道制动安全难以保障的问题,提出
一种基于深度强化学习的汽车自动紧急制动策略。建立了包括纵向、横向及横摆运动的3自由度车辆模型,根据碰撞预警时间设计奖励函数,应用深度确定性策略梯度算法设计了基于深度强化学习的自动紧急制动策略,开展了直道行驶工况与弯道行驶工况仿真测试。结果表明,所提出的策略具有很好的收敛性,在满足中国新车评价规程(C-NCAP )的直道行驶安全性要求的同时,提高了紧急制动时的乘坐舒适性,且实现了汽车弯道行驶的自动紧急制动,提高了弯道行驶安全性。
主题词:高级驾驶辅助系统自动紧急制动深度强化学习制动安全性乘坐舒适性
中图分类号:U461.1
文献标识码:A DOI:10.19620/jki.1000-3703.20201026
Vehicle Automatic Emergency Braking Strategy Based on Deep
Reinforcement Learning
Huang Shuwei,He Shaowei,Jin Zhilin
(State Key Laboratory of Mechanics and Control of Mechanical Structures,Nanjing University of Aeronautics and Astronautics,Nanjing 210016)【Abstract 】To deal with the large fluctuation of the deceleration speed of the traditional automatic emergency braking strategy,the difficulty to ensure ride comfort during the braking process and the braking safety at curves,this paper proposes an automatic emergency braking strategy with deep reinforcement learning.A 3-degree-of-freedom vehicle model including longitudinal,transverse and yaw motion is established,a reward function is designed according to the collision warning time,and an automatic emergency braking strategy based on deep reinforcement learning is designed by using the
deep deterministic policy gradient algorithm.The driving condition on straight road and the curve is simulated.The results indicate that the proposed strategy has good convergence,meets the straight road safety requirements of the C-NCAP test regulations,and improves the ride comfort of the vehicle during the emergency braking on the straight road.Moreover,the
automatic emergency brake is implemented on curves to improve driving safety on the curve.
Key words:ADAS,Automatic emergency braking,Deep reinforcement learning,Breaking
safety,Ride comfort
黄舒伟
何少炜
金智林
(南京航空航天大学,机械结构力学及控制国家重点实验室,南京210016)
*基金项目:国家自然科学基金项目(51775269)。
通讯作者:金智林(1978—),副教授,博士,研究方向为车辆系统动力学与控制,****************** 。
基于深度强化学习的汽车自动紧急制动策略*
汽车技术·Automobile Technology
【引用格式】黄舒伟,何少炜,金智林.基于深度强化学习的汽车自动紧急制动策略[J].汽车技术,2021(5):9-15.
HUANG S W,HE S W,JIN Z L.Vehicle Automatic Emergency Braking Strategy Based on Deep Reinforc
ement Learning[J].Automobile Technology,2021(5):9-15.
1前言
汽车自动紧急制动(Automatic Emergency Braking ,AEB )系统作为一种新型主动安全技术,可以在驾驶员制动不及时的情况下对车辆进行自动制动,避免碰撞事
故的发生。
当前,AEB 系统的控制策略一般基于安全距离和安
全时间对车辆的碰撞风险进行评估[1-2],其中基于碰撞时间(Time To Collision ,TTC )的纵向避撞算法性能较好,使用广泛[3]。兰凤崇等[4]通过构建分层控制实现自动紧急制动,上层控制器基于设定的TTC 阈值选取分级制动减速度,下层控制器对制动力进行控制,能够有效避免碰撞,但由于制动减速度为有限的离散值,不能很好地适应变化的工况,且制动过程的加速度波动较大,
·AEB 控制策略技术专题·
舒适性较差。刘树伟[5]使用模糊控制策略对制动压力进行控制,使制动减速度变化平缓,在一定程度上提高了制动过程的舒适性。杨为等[6]基于碰撞风险评估与车辆状态设计模糊控制制动策略,输出的制动
减速度在一定范围内平稳变化,较定值分级制动策略舒适性更好,但制动减速度的变化范围仍然较小。通过设计制动规则的方式难以实现制动减速度在自动紧急制动过程中的连续变化,故考虑制动减速度的连续变化是AEB 系统制动策略设计中的重要问题。
强化学习是以目标为导向的学习工具,在学习过程中,智能体通过与环境的交互来学习更符合长期回报的策略
[7-8]
。谷歌团队提出深度确定性策略梯度(Deep
Deterministic Policy Gradient ,DDPG )算法,实现强化学
习在连续动作空间决策与控制中的应用[9]
,随后,越来越多的研究将强化学习应用于智能驾驶技术。其中,徐国艳[10]等在DDPG 算法基础上增大样本空间,进行无人车避障学习,在TORCS 平台进行避障效果仿真。Zhu [11]
和Zhou [12]运用深度强化学习构建自动驾驶跟车系统,提高了智能车在交叉路口的行驶效率、燃油经济性和安全性。An [13]提出结合深度强化学习和车辆通信的变道系统,在不需要车辆动力学模型的情况下实现了直线驾驶和避撞动作的学习。
本文将深度强化学习应用在自动紧急制动系统制动策略的设计中,得到的制动策略可以根据车辆安全状态的改变实时调整期望制动加速度,实现对制动过程的更精细控制,提高乘坐舒适性。
2AEB 系统结构及动力学模型
本文构建的AEB 仿真系统结构如图1所示,系统由强化学习制动决策模块、制动执行模块、主车动力学模型、前车运动学模型和奖励函数5个部分组成。强化学习制动决策模块基于两车信息和奖励函数输出的奖励值进行制动策略学习,输出期望减速度,经制动执行模块转化为制动力作用于主车动力学模型,实现车辆自动紧急制动。
图1AEB 仿真系统结构
为了降低动力学模型的复杂度,且不影响模型准确性,作出如下假设:以前轮转角作为模型的输入;将车辆简化为单轨模型;忽略车辆侧倾、垂向和俯仰运动。
将动力学模型简化为具有纵向、侧向和横摆运动的3自由度模型,如图2所示,动力学方程为:
m ()v x -v y ω=F x f cos δ-F y f sin δ+F x r m ()v y +v x ω=F x f sin δ+F y f cos δ+F y r I z ω
=l f ()F x f sin δ+F y f cos δ-l r F y r (1)
式中,m 为车辆质量;v x 、v y 分别为车辆纵向与横向速度;F x f 、F x r 分别为前、后轮切向力;F y f =k 1α1、F y r =k 2α2分别为前、后轮横向力;k 1、k 2分别为前、后轮侧偏刚度;α1、α2分别为前、后轮侧偏角;δ为前轮转角;I z 为车辆绕z 轴的转动惯量;ω为车辆横摆角速度;l f 、l r 分别为质心与前、后
轴的距离。
图23自由度动力学模型
α1、α2与车辆运动参数有关:
ìíî
ï
ïα1=δ-ξ
α2
=β-l r ωv x
(2)
式中,β=v x /v y 为质心侧偏角;ξ=β+l f ω/v y 为前轮速度与x 轴的夹角。
车辆在紧急制动过程中发动机不提供扭矩,动力学模型的输入变量为制动力,则前、后轮纵向力为:
ìí
î
ïï
ïïF x f
=F bf -l f l f +l r mgf
F x r =F br
-l f l f +l r
mgf (3)
式中,F bf 、F br 分别为前、后轮制动力;g 为重力加速度;f 为滚动阻力系数。制动执行机构进行期望制动力的分配,前、后车轮
制动力分别为:
ìí
î
ïïïïF bf =l f l f +l
r ma
μF br =l r l f +l r ma μ
(4)
式中,a μ为期望制动减速度。
3制动策略
3.1
状态量及动作量设计
为了设计和验证自动紧急制动策略,使用MATLAB
强化学习制动决策模块
主车动力学模型
前车运动学模型
制动力
位置、速度、加速度
制动执行模块
期望制动
减速度制动策略演员网络
长期回报
当前策略
制动策略
评论家网络奖励值奖励函数
相对距离、相对速度、主车速度、主车减速度
两车相对信息计算
位置
速度
F F αω
l l F v v
v βO
αδ
ξ
x F y
的驾驶场景设计器(Driving Scenario Designer )构建AEB 仿真场景,在Simulink 中搭建强化学习自动紧急制动策略,感知模块选用Simulink 环境提供的标准信息,如图3所示,感知的状态量包括主车速度v e 、主车加速度a e 、主车与前车的相对距离d r 和相对速度v r ,其中:v r =v f -v e (5)
式中,v f 为前车速度。
图3AEB 测试场景示意
状态量可表示为:
S t =[d r ,v r ,v e ,a e ]
T
(6)
制动决策模块根据状态量S t 和当前学习到的制动
策略μAEB ,决定输出期望制动减速度a μ,减速度被限制在0~9m/s 2
范围内,动作量可表示为:
A t =a μ
(7)
3.2
奖励函数
奖励函数决定了制动决策模块的制动策略。奖励计算模块根据每一时刻的状态量计算奖励值输出至决策模块,引导决策模块学习规则制定者需要的制动策略。奖励函数为:
R t =ìíîï
ï
ïï
ïïd r ||v r +0.1-||v e ||a e +0.1+r d ()5m <d r <8m,||v e <0.1m/s d r
||v r
+0.1-||v e ||a e +0.1(其他)(8)
式中,r d 为主车制动至停止时与前车距离的奖励值。
奖励函数计算了当前时刻碰撞时间与主车以当前
减速度制动停止时间的差值,为防止出现分母为0,奖励值趋于无穷大的情况,统一在分母中加0.1。初始条件下,主车速度大于前车速度,且制动减速度较小,该部分奖励值为负,随着制动减速度的增大,主车速度下降,该部分奖励值逐渐增大,当主车速度降至小于前车速度后,该部分奖励值仍随主车速度的下降而增大,引导制动策略使主车制动至停止。若主车在距离前车5~8m 的区间内停止,则附加高额的奖励值r d 。经试验,取r d =200可以使制动策略在该区间内使车辆制动至停止。
3.3
强化学习算法
为在连续动作空间输出期望制动加速度,强化学习算法选用深度确定性策略梯度DDPG 算法。DDPG 算法在演员评论家(Actor-Critic )网络框架的基础上,基于深
度Q 网络的经验回放和目标网络结构对确定性策略梯度算法进行了改进[14]。
自动紧急制动策略强化学习算法如图4所示。在每个仿真时刻,演员网络依据当前状态S t 输出动作量A t 到AEB 仿真环境,同时演员网络与评论家网络进行参数的迭代更新。演员网络与评论家网络都包含独立的评估网络与目标网络,以解决单一神经网络的训练过程不稳定问题。演员网络与评论家网络分别表征制动策略与制动价值函数。制动策略依据制动状态输出期望制动减速度a μ,制动价值函数计算出给定状态及采取的制动动作下的长期回报。在演员网络和评论家网络更新的过程中,首先计算提取出每份经验预估回报U k :
U k =R k +λQ ′AEB ()
S k +1,μ′AEB ()S k +1(9)
式中,S k 、S k +1、R k 分别为提取的第k 组经验的初始状态、下一时刻状态和奖励;λ为折损系数,代表制动策略学习过程中长期价值所占的比重;
Q ′AEB 为目标网络制动状态价值函数;μ′AEB 为目标网络制动策略。
图4自动紧急制动策略强化学习算法
随后,评论家网络的求解器使用式(10)计算制动价值函数与预估回报的偏差L ,并运用梯度下降算法朝着偏差L 减小的方向更新评估网络制动价值函数的参数θQ
AEB :
L =1
N ∑()S k
,A k
,R k
,S
k +1
∈E
æèöøU k -Q ABE ()
S k ,A k |θQ
AEB 2
(10)
式中,Q AEB 为网络制动价值评估函数;N 为提取经验的份数;E 为从经验回放池中提取出的多组用于训练的状态量与对应奖励的集合。
演员网络的求解器使用式(11)计算平均长期回报q a ,并运用梯度下降算法朝着q a 梯度下降最快方向更新评估网络制动策略参数θμ
AEB :
q a =-1
N ∑()S k
,A k
,R k
,S
k +1
∈E
Q ABE æèö
øS k ,μABE ()
S k |θμ
AEB (11)
目标网络的参数值则是在完成了一个最小数据集的训练后,使用缓慢更新(Soft Update )算法进行更新:
d a v v 随机噪声
AEB 仿真环境期望制动减速度
t 时刻制动策略μ′()S 演员网络
求解器
更新制动策略参数θ评估网络制动策略μQ ()
S ,A |θ更新价值函数参数θ求解器评论家网络
评估网络制
动价值函数Q 更新制动策略参数θ更新价值函数参数θ目标网络制动价值函数Q ′目标网络制
动策略
μ′μ′()
S |θ新的车辆状态和获得的奖励保存在当前状态采取动
作对应的状态与奖励
A []a S []
d ,v ,v ,a R
()S ,A ,R ,S
经验回放池
提取N 份经验,命名为E
N ×()
S ,A ,R ,S
f soft-update ì
í
î
ï
ï
θQ′AEB=τθQ AEB+()1-τθQ′AEB
θμ′AEB=τθμAEB+()1-τθμ′AEB(12)
式中,θQ′AEB为目标网络制动价值函数的参数;θμ′AEB为目标网络制动策略参数;τ为学习率。
3.4神经网络结构
激活函数选用线性整流(Rectified Linear Unit,ReLU)激活函数与双曲正切激活函数:
f ReLU(x)=max(0,x)(13)
tanh x=e x-e-x
e x+e-x(14)
评论家网络的结构如图5所示,具有2个输入与1个输出。演员网络结构如图6所示,为单输入单输出的神经网络,用以表达制动策略。选用Adam求解器进行优化求解,强化学习的训练参数如表1所示。
图5评论家网络结构
图6演员网络结构
表1训练参数
4实例仿真分析
为验证自动紧急制动策略的控制效果,参考中国新车评价规程(C-NCAP)测试规则[15],通过改变两车的初始位置、初速度和初始制动减速度,设计了前车静止、前车慢行、前车减速3种直线工况。主车动力学模型参数如表2所示。
参考文献[4]中的分级制动策略,设计传统分级制动AEB制动策略与强化学习AEB制动策略的对比测试方案。碰撞时间t TTC、制动预警时间t fcw和各级制动时间t b n的计算公式为:
t TTC=d r/|v r|(15)
t fcw=||v e a fcw+t react(16)
t b n=||v e a b n,n=1,2,3(17)式中,a fcw=4m/s2为驾驶员制动预警减速度;t react=1.2s为驾驶员反应时间;a b1=3.8m/s2、a b2=5.3m/s2、a b3=9.8m/s2分别为第1级、第2级、第3级制动减速度。
表2车辆参数
t b1<t TTC≤t fcw时,传统AEB制动策略开始介入,采取第1级制动减速度a b1;t b2<t TTC≤t b1时,传统AEB制动策略采用第2级制动减速度a b2;t TTC≤t b2时,传统AEB制动策略采用第3级制动减速度a b3。
4.1直线行驶工况
直线行驶前车静止工况两车初始距离为24m,前车静止,主车以30km/h速度行驶。实例仿真得到强化学习各回合奖励如图7所示,初始学习阶段,制动策略的奖励经历了振荡下降,10个回合后,奖励大幅上升,并稳定在0附近,制动决策模块获得奖励较高的策略,且实现收敛。
图7前车静止工况强化学习奖励
图8所示为前车静止工况的主车制动减速度、两车相对距离及相对速度仿真结果。从图8中可以看出,前车静止时,强化学习AEB与传统AEB系统都能有效制动,车辆停止时与前车的距离都在8m左右。传统AEB 制动策略在t TTC<t fcw后开始介入,采用第1级制动减速度制动至车辆停止。强化学习AEB系统的制动策略是使汽车紧急制动
参数
评论家网络学习率评论家网络正则化因子演员网络学习率
演员网络与评论家网络
梯度阈值
演员网络正则化因子
取值
0.001
0.00001
0.0001
1
0.00001
参数
采样周期T s/s
折损系数λ
神经网络最小训
练数据集数量/个
最大回合数/个
随机噪声方差
取值
0.1
0.99
64
100
0.6
状态量S输入全连接层
ReLU激活函数层全连接层
动作量A输入
全连接层叠加
ReLU激活函数层
全连接层
ReLU激活函数层
全连接层
长期估计回报
状态量
S
输入全
ReLU
激活
函数
ReLU
激活
函数
ReLU
激活
函数
tanh
激活
函数
动作量A
参数
m/kg
I z/kg∙m2
l f/m
l r/m
取值
1575
2875
1.2
1.6
参数
k1/N∙rad-1
k2/N∙rad-1
f
g/m∙s-2
取值
19000
33000
0.02
9.8
020*********
回合数/个
1000
-1000
-2000
-3000
-4000
-5000
各回合奖励
平均奖励
各回合长期估计回报
用较小的制动力长时间制动,保持一定的制动减速度,车速变化均匀,具有更好的舒适性。
(a )主车制动减速度
(b )相对速度
(c )相对距离
图8
直道行驶前车静止工况仿真结果
直道行驶前车慢行工况下,两车初始距离15m ,前车以20km/h 速度行驶,主车以30km/h 速度行驶,仿真结果如图9所示。由图9a 可见,由于存在噪声引起的随机性探索,学习过程的奖励存在一定波动,但总体上策略收敛。传统分级制动AEB 系统在2s 后才开始制动,两车最小距离小于5m ,而强化学习AEB 系统在两车相距较远时即以小制动减速度进行制动,随着两车距离的减小,制动减速度逐渐增大,保持两车相对距离大于7.5m ,将两车最小距离控制在更安全的范围内,并且制动减速度的增长是连续的,速度的变化也更平缓,制动
过程舒适性更好。强化学习AEB 系统的制动减速度在最初2s 出现了小幅振荡,这是制动策略学习过程中加入的随机噪声带来的随机性探索造成的。若想减小振荡,可以减小随机噪声方差或在奖励函数中加入对制动
减速度变化率的惩罚项。
(a )强化学习奖励
(b )主车制动减速度
(c )相对速度
(d )相对距离
图9
直道行驶前车慢行工况仿真结果
直道行驶前车减速工况下,两车初始距离为40m ,主车与前车初速度均为50km/h ,前车以4m/s 2的减速度制动至停止结束,仿真结果如图10所示。由图10可知:制动策略实现了收敛;强化学习AEB 和传统AEB 系统都能使主车完全停止,保持两车5m 以上安全距离;强化学习AEB 系统的制动减速度更小,但制动持续时间长,速度的变化更为平缓。仿真结果表明,强化学习
1
2
345
时间/s
43210
制动减速度/m ·s -2
强化学习AEB 传统AEB
1
23
4
5
时间/s
20
-2-4-6-8-10相对速度/m ·s -1
强化学习AEB
传统AEB
1
23
4
5
时间/s
403020100
相对距离/m
强化学习AEB
传统AEB
020
406080100
回合数/个
10000
-1000-2000-3000-4000-5000
-6000
奖励值各回合奖励平均奖励
各回合长期估计回报
2
4
68
时间/s
43210
制动减速度/m ·s -2
强化学习AEB 传统AEB
2
468
时间/s
6420
-2-4相对速度/m ·s -1
强化学习AEB
传统AEB
2
4
68
时间/s
302520151050
相对距离/m 强化学习AEB 传统AEB