章军辉,郭晓满,王静贤,付宗杰,刘禹希
(1.常熟理工学院 电气与自动化工程学院,江苏 苏州 215500;2.无锡物联网创新中心有限公司,江苏 无锡 214029;3.江苏省物联网创新中心昆山分中心,江苏 苏州 215347)
在当下无人驾驶发展尚未成熟、商业化落地难度较大的情况下,未来可能呈现人机共驾、有人-无人驾驶车辆共存的交通局面,因而对人机共驾问题的研究受到了汽车制造商及相关科研机构的广泛关注[1-2].
人机共驾是指驾驶人与智能系统同时在环,共同享有对车辆的驾驶控制权,人机一体化协同完成驾驶任务[2].人机共驾研讨的核心问题是对驾驶控制权交接方式及驾驶控制权动态分配过程的定性定量描述[3-5].当人与机并行控制车辆时,驾驶人与智能系统的驾驶控制权随场景转移的分配机制变得十分关键[6-8].若在车辆驾驶控制权切换过程中发生冲突,则很可能会导致车辆失控的严重后果.
目前,大部分车道保持系统(lane keeping assist system,LKAS)都是将前轮转角或转向力矩作为控制量,未考虑驾驶人在环或将驾驶人操作视为外界扰动[9-10].LKAS 与驾驶人在转向任务中都拥有独立的控制方式,容易引发控制权上的冲突,需要对二者进行协调控制.根据驾驶人与智能系统同时在环与否,将人机协同控制方式概括如下.1)智能辅助驾驶.2)特定场景下的驾驶控制权切换,如基于驾驶人生理特征与心理状态的切换准则研究[11]、基于驾驶意图、驾驶风格及驾驶能力裕度的切换准则研究[12]、综合考虑人-车-路的切换准则研究[13].3)共驾过程中的驾驶控制权动态分配,即通过合理设计权值分配策略来综合协调控制效果,但如何设计适宜的权值及明确介入准则缺少足够的理论支撑[14-15].现有研究更多的是在权值分配与跟踪精度之间寻求折中设计,优先保证横向偏差、横摆角偏差(方位偏差)、横向加速度等控制目标,这样容易导致智能系统对驾驶人操作过度干预的现象.
在变道决策、交叉口决策、超车决策等场景应用中,驾驶人与智能系统的输入是并行的,具有冗余与博弈的特征[2].与模糊控制[10]、LPVH∞[16]理论相比,博弈论是研究多个决策主体相互对抗与冲突时如何获得各自最佳策略的理论,能够更好地描述共驾过程中驾驶人与智能系统之间的交互行为,在车辆安全性、动力性、路面附着情况等约束条件下,让驾驶人与智能系统协同高效完成操作任务,达到纳什均衡(Nash equilibrium),实现全局优化控制的目标[17-18].为了减少共驾过程中的人机冲突,本文研究基于非合作博弈的人机共驾控制策略.对车道保持共享控制问题进行数学描述.基于非合作博弈理论,设计控制权博弈模型.基于MPC框架,将共驾型LKAS前轮转角决策问题转化成带约束的在线二次规划问题.设计不同的驾驶状态,利用驾驶人在环的集成仿真环境,对该控制算法与控制策略进行验证与探讨.
1.1.1 状态空间方程 针对驾驶人与智能系统共同控制车辆转向,构建共驾型LKAS 模型,并作如下约束.
1)当车辆速度变化较小时,常纵向速度假设是近似成立的.
2)忽略车辆的侧倾与俯仰运动.
3)考虑到车辆质心随载荷、轮胎、路面等扰动因素而发生变化,工程应用时以车辆后轴中点作为参考点.
如图1 所示,XOY 表示惯性坐标系,xoy 表示车身坐标系,基于线性二自由度汽车模型,采用一阶微分方程对该车路参考模型进行数学描述[19].
图1 车路参考模型Fig.1 Vehicle-road reference model
式中:dy为车身坐标系下车辆质心与车道中心线之间的横向位移,vy为车身坐标系下的横向速度,vx为车身坐标系下的纵向速度,vy与 vx的合成速度为质心速度,φ为横摆角,ωr为横摆角速度,Cf为前轮的侧偏刚度,Cr为后轮的侧偏刚度,a为前轴与车辆质心之间的距离,b为后轴与车辆质心之间的距离,δf为前轮转角,Iz为绕z 轴的转动惯量.
以x=[dy,vy,φ,ωr]T为状态向量,y=[dy,φ]T为模型预测输出,u1为驾驶人的控制输入,u2为智能系统的控制输入,建立连续状态空间方程:
式中:各系数矩阵满足
以Ts为采样周期,对式(2)进行离散化处理,得到离散状态空间方程:
式中:各系数矩阵满足
1.1.2 多步预测模型 令当前时刻为k,预测时域为[k,k+p-1],控制时域为[k,k+c-1],其中c ≤ p.由式(3)逐步迭代整理得到
控制层的协同互补是人机共驾领域关注的焦点.人机并行控制具有双环并行的控制结构,驾驶人与智能系统的输入具有冗余与博弈的特征[2].基于非合作博弈理论[20-21],设计基于非合作博弈的模型预测控制(non-cooperative game based model predictive control,NCG-MPC)算法,以提高双驾双控系统的友好性.
2.1.1 非合作人机共驾策略 如图2 所示,在非合作人机共驾策略中,根据环境感知、车辆模型规划出车辆运动可行域,按照车道偏离程度[6]将车辆运动可行域划分成安全域、过渡域、预警域、危险域.根据驾驶人模型、车辆模型得到驾驶人的期望轨迹,通过车辆运动可行域与驾驶人期望轨迹进行危险态势估计.权重 w1、w2分别为驾驶人与智能系统的驾驶参与度,满足 w1+w2=1.
图2 非合作人机共驾策略Fig.2 Non-cooperative driver-automation shared control strategy
非合作人机共驾策略的作用是根据危险态势估计模型来综合协调驾驶人与智能系统的驾驶参与度,能够较好地兼顾驾乘舒适性与行驶安全性,保证驾驶人时刻在环.当车辆处于安全域或过渡域前期时,在保证一定的横向运动控制精度的前提下,给予驾驶人足够的控制权裕度,以提升驾驶人的舒适体验.当因驾驶人误操作、走神、疲劳等而导致车辆进入预警域或危险域时,该策略会逐步将驾驶控制权从驾驶人移交给智能系统.
2.1.2 控制权博弈模型 定义预瞄偏移距离(preview offset distance,POD)为车辆在预瞄点处偏移车道中心线的距离.根据JTG B01-2014 公路工程技术标准可知,我国高速公路车道的宽度为3.75 m,轿车宽度约为1.6~1.8 m.基于POD 距离,将车辆运动可行域划分成以下区域:1)安全域[0,0.35] m,驾驶人占主导权;2)过渡域(0.35,0.6] m,逐渐提高智能系统的控制权值;3)预警域(0.5,∞)m,启动分级预警[22];4)危险域(0.6,∞)m,智能系统快速接管驾驶控制权.
为了提高驾驶人的主观感受度及其对智能系统的信任感,宜尽量减少驾驶人控制权重低于0.5 的情况[6].此外,考虑到驾驶人对线性函数的接受度较佳,设计控制权博弈模型,如图3 所示.图中,POD 距离dPOD是时间的函数.
图3 控制权博弈模型Fig.3 Game-theoretical model of control authority
驾驶人控制权的数学描述如下:
式中:w1(dPOD)为驾驶人控制权函数.
2.2.1 代价函数 车道保持的任务是使车辆横向位置应尽可能逼近期望路径,为了保证控制效果,控制输入宜尽可能小.在非合作人机共驾策略中,包含2 个决策者(即系统有2 个控制输入):驾驶人、智能系统.这2 个决策者都期望自身在实现控制目标时所花费的成本最小,构造代价函数如下:
在代价函数中,第1 项体现了对期望轨迹的跟踪能力,第2 项反映了对控制平稳性的要求.式中:
y1,des(k)、y2,des(k)分别为驾驶人与智能系统的局部期望轨迹;r1(k)、r2(k)分别为相应的控制输入的加权系数;q1(k)、q2(k)分别为相应的状态加权矩阵,也称为置信度矩阵,用来动态调整驾驶人与智能系统之间的驾驶参与度;λ1(k)、λ2(k)影响相应规划轨迹的超调特性[20].
基于图3 所示的控制权博弈模型,当车辆进入危险域时,通过逐步下调 w1(k)与上调 w2(k),增加智能系统规划路径的置信度,进而确保行驶安全性.当车辆进入安全域时,通过逐步上调 w1(k)与下调 w2(k),提高驾驶人的控制权裕度,改善驾驶舒适性.通过合理调整驾驶人与智能系统的驾驶参与度,能够较好地实现驾驶人与智能系统之间驾驶控制权的平稳交接.
2.2.2 约束条件及松弛化处理 考虑到车辆自身的物理限制及实际应用场景,对由控制输入、系统状态所构成的控制器工作域进行边界约束:
式中:u1,min、u2,min为控制下界,u1,max、u2,max为控制上界,dy,min、φmin为输出下界,dy,max、φmax为输出上界.
将式(8)所示的硬约束条件所构成的约束空间称为求解可行域.在MPC 有限时域滚动优化过程中,可能会出现求解可行域内无可行解的问题.采用松弛因子对硬约束条件进行松弛化处理,以扩展求解可行域[19],保证可行解存在.
2.2.3 算法演变 为了防止因引入松弛因子而导致对控制器工作域的边界约束作用失效,在代价函数中增加正则化项,以惩罚松弛因子扩展工作域边界的能力,从而在硬约束问题求解可行性与工作域边界的松弛程度之间寻求平衡[19].根据式(6)、(7)与(9),重构代价函数如下.
式中:C1、C2为常数项,
其中,
将共驾型LKAS 算法设计问题转化为线性不等式约束的二次规划(quadratic programming,QP)问题.对于每一个参与者来说,非合作博弈的均衡解,即纳什均衡,可以通过求解QP 问题得到.在滚动优化求解过程中,选取向量解的第1 个数值作为下一步的输入,如此重复,实现滚动在线控制.
为了验证控制算法与控制策略的有效性,基于Matlab/Simulink 及CarSim 集成环境,搭建驾驶人在环的共驾型LKAS 模型.整车动力学参数见表1,驾驶群体特性参数[22]见表2,试验台架如图4所示.基于笔者等[22]的研究,将驾驶人的驾驶状态划分为正常驾驶状态、激进驾驶状态、疲劳驾驶状态,不同驾驶状态下驾驶人对侧偏的敏感程度不一样,即局部期望路径 y1,des(k)不一样,智能系统的局部期望路径一直是车道中心线.对比控制方法采用MPC 控制,将驾驶人输入与智能系统输入的线性加权组合作为MPC 控制器的输入,假设驾驶人控制权重为0.5.
表1 整车动力学参数Tab.1 Vehicular dynamics parameters
表2 驾驶状态特性参数Tab.2 Parameters of driving state characteristics
图4 驾驶人在环试验台架Fig.4 Driver-in-loop experimental platform
如图5 所示,针对不同的驾驶状态,分别对人驾与共驾模式下的横向位移进行仿真对比.大约在第25 s 时刻,开始转向操作.与人驾模式相比,NCG-MPC 共驾模式能够有效地提高路径的跟踪精度,尤其是对疲劳驾驶状态下因误操作而导致的异常侧偏具有较明显的抑制作用.MPC 共驾模式相当于驾驶人和一个优秀的驾驶助理按照平等控制权共同操控车辆,跟踪效果好,响应快.如图6(c)所示,驾驶人的驾驶控制权是逐步移交给智能系统的,即智能系统的介入有一定的延时,导致NCG-MPC 共驾的侧偏相对较大.这种固定权重分配会影响到驾驶人的主观感受[6],即友好性相对不足.
图5 不同驾驶状态下的横向位移对比Fig.5 Comparison of lateral displacements under different driving states
图6 不同驾驶状态下驾驶人控制权的对比Fig.6 Comparison of control authority under different driving states
如图6 所示,针对不同的驾驶状态,分别对驾驶人控制权进行仿真对比.与正常驾驶状态相比,激进驾驶状态下由于驾驶人的应急反应较快,对侧偏的敏感度较高,能够将侧偏位移控制在±0.4 m 范围内(见图5(b)),所以能够一直掌握较高的驾驶控制权.在疲劳驾驶状态下,当侧偏过大时,利用设计的控制权博弈模型,能够及时将驾驶控制权移交给智能系统,此时智能驾驶系统占绝对主导权.当侧偏变小时,智能系统将驾驶控制权逐步归还给驾驶人,即针对不同的驾驶状态,该控制权博弈模型具有较好的适应能力.
如图7 所示,针对不同的驾驶状态,分别对NCG-MPC 共驾模式下驾驶人、智能系统及共驾的方向盘转角δw进行仿真对比.在0~25 s 过程中,CarSim 直道并非严格直线,故该过程中智能系统会有一定的输入.由于该过程中的侧偏很小,控制权博弈模型给智能系统分配的输入权重很小甚至为0,这样使得合成输入接近于0.在疲劳驾驶状态下,当驾驶人方向盘转向过大时,在控制权博弈模型的作用下智能驾驶系统将会及时介入,快速接管方向盘以纠正车辆的偏离行为,有效提高了车辆横向控制的抗扰动能力.
图7 不同驾驶状态下方向盘转角的对比Fig.7 Comparison of steering wheel angles under different driving states
(1)基于MPC 模型预测控制框架提出共驾型LKAS 控制算法,采用二次型性能指标及线性不等式约束的形式,将前轮转角决策问题转化成带约束的在线二次规划问题.
(2)基于非合作博弈理论设计非合作人机共驾策略,以提高驾驶人与智能系统双驾双控过程中的友好性.按照车道偏离程度,将车辆运动可行域划分成安全域、过渡域、预警域、危险域,综合车辆运动可行域与驾驶人期望轨迹进行危险态势估计.采用POD 距离对驾驶人与智能系统的置信度矩阵进行更新,以实现驾驶人与智能系统之间驾驶控制权的平稳交接,在保证驾驶人时刻在环的同时,能够有效避免因交接突兀而影响驾乘舒适性的不足.
(3)为了提高驾驶人的主观感受度及其对智能系统的信任感,设计控制权博弈模型.在保证一定的横向运动控制精度的前提下,给予驾驶人足够的控制权裕度,以满足驾驶人的主观感受.