林俊亭,闵晓琴,王海斌,梁化典
(1.兰州交通大学自动化与电气工程学院,兰州 730070;2.中航电测仪器股份有限公司,西安 710119)
现有的列车运行控制系统(简称列控系统)为列车正常运行提供安全性保障,但由于列控系统在运行过程中受到人为、环境和技术等多种因素的影响,使得列车在运营过程中的碰撞风险无法完全避免.对策论适用于分析对策对象在运动状态下的矛盾与冲突问题,满足轨道交通运营中列车与列车安全间隔控制及碰撞防护的需求,因此,可通过利用微分对策理论方法实现对列车运行过程中的安全性分析,但微分对策问题具有明显的非线性特征,且对策初值影响求解结果,目前常用的思路是利用数字迭代求解[1],这在一定程度上阻碍了微分对策方法的应用.将神经网络(neural networks,NN)引入微分对策问题对于简化微分对策的计算过程极为有效,利用神经网络方法得出局中人各自的最优途径,从而合成系统最优解.关于微分对策理论与自适应神经网络的研究中,文献[2]将运行列车视为具有自主意识的“智能体”,利用定性微分对策方法实现列车碰撞防护方法的分析与计算,并提出列车运行避碰策略;文献[3]提出一种自适应神经网络的控制方法,实现了对未知动力学非线性系统的精确和鲁棒控制;文献[4]针对多目标对策场景,提出了一种基于信息不完全状态下的微分对策制导方法;文献[5]所设计的基于神经网络算法的微分对策状态观测器,可评估不确定非线性微分对策系统模型;文献[6]研究了具有不对称信息和信号显示的二人零和微分博弈值的存在性,并根据方向导数和微分对策得到了支付函数的表征;文献[7]提出一种基于多组并行深度Q网络的连续空间追逃博弈算法,以解决维数灾难不足以及离散动作集自学习复杂问题.结合以上研究,本文将神经网络与微分对策理论相结合,解决应用微分对策分析列车避碰时所面临的双边极值求解难题,从而为微分对策在轨道交通领域中的列车避碰策略研究及应用提供理论参考.
微分对策理论根据分类条件可以分为不同类型的对策方法,且随着该理论的不断成熟与发展,针对对策环境的不同,微分对策方法发展衍生出各自对应的解析过程[8].本文考虑二人离散微分对策问题,其通用解法描述如下:
其中:x(k)表示系统在 k时刻的对策系统状态;u(k),v(k)表示二人微分对策系统中k时刻的对策双方的控制量.此时对策双方的对策函数可表示为
其中:k=0,1,…,N-1;λ为协态向量,满足
终端条件为
此时,对策双方最优策略满足:
从上述的推导过程可以看出:在利用微分对策理论求解有关最优解问题时,由于局中人针对不同的对策环境均有各自的策略;因此,求解Hamiltonian函数的过程中边值问题极为重要,且针对局中人不同的初始运行条件有不同的计算方法和过程,求解过程较为复杂且繁琐[9],故本文采用神经网络结合微分对策计算方法,解决上述遇到的问题.
目前常用的神经网络自适应控制方法可分为模型参考自适应控制和自校正控制[10].对于上述所提到的两种控制方案,针对其结构不同又可以分为直接型和间接型,结构分别如图1~4所示.其中:NNI表示网络辨识器(neural network identifier),而NNC表示网络控制器(neural network controller).
图1 神经网络模型参考直接自适应控制Fig.1 Neural network model reference direct adaptive control
本文所采用的自适应神经网络控制器是基于微分对策理论所得到的Hamiltonian函数,图5表示为自适应神经网络控制器的一般性结构.由图5可知,该控制器主要由3个神经网络以及对策系统方程构成:神经网络的作用是求解微分对策计算过程中遇到的双边极值问题;对策系统表达式为微分对策理论对分析对象的初始状态运动方程推理所得.3个神经网络模块中,UNN(k)和 VNN(k)为系统控制网络,λNN(k+1)为系统协态神经网络[11].
图2 神经网络模型参考间接自适应控制Fig.2 Neural network model reference indirect adaptive control
图3 神经网络直接自校正控制Fig.3 Neural network direct self-adjusting control
图4 神经网络间接自校正控制Fig.4 Neural network indirect self-adjusting control
分析图5所示的自适应评判神经网络结构图可知:λNN(k+1)所代表的模块为协态网络,该模块通过完成对式(4)的学习从而求解协态向量λ;UNN(k)和VNN(k)为控制策略网络,求解控制变量u和v;λ(k+1)将 λNN(k+1)与UNN(k),VNN(k)互相连接起来,协态网络的输出可用于实现控制网络的校正过程[12].
图5 自适应神经网络结构Fig.5 Self-adaption neural network structure
定义前行列车F和追踪列车B分别以速度vf和vb在各自轨道运行,假设追踪列车B和前行列车F在某一时刻的运动位置关系图如图6所示,选取前行列车F的速度方向为x轴正方向.
图6 两车的运动位置关系图Fig.6 Relationship diagram of the movement position of the two trains
设两车之间的相对坐标轴分别为x轴和y轴,令af,ab分别为两车的法向加速度,定义x=xf-xb和y=yf-yb为两列车相对位移,θ和β分别为追踪列车B和前行列车F速度与x坐标轴正方向的夹角,此时β=af=0.本文各变量采用无量纲规范化形式:
则追踪列车B和前行列车F之间的运动学方程可表示为:
将式(12)所表达的运动学方程离散化,可表示为:
其中:ts为采样周期.双方通过调整和选择各自最优
其中:γ为任意向量.此时,定义Hamiltonian函数表达式为
可得:
在Simulink模块中构建神经网络模型时,可以根据需求选择具体库中的模块,组成神经网络模型并调整相关的参数[13].操作过程可描述为:在Simulink工具中,找到 Neural Network Blockset库中的 netsum,tansig,purelin和dotprod等模块,以及MathOperations库中Sum模块,Sinks库中的Out1模块,Sources库中的In1模块和Constant模块,构建一个4层神经网络,如图7所示,其中:常数1.140 0和1.520 0为网络的阈值;其余常量模块为层与层之间的连接权值[14].
本文选择3种列车运行情形进行分析,分别为不考虑列车车身长度影响的同轨道直线追踪、考虑列车车身长度为L=0.12 km的两列车直线追踪以及非直线列车追踪运行情况.具体分析情况如下:
情形1:考虑同轨道直线追踪问题,前行列车速度vf保持不变,追踪列车速度为vb,两车相距x0,按照实际情况分析.前行列车F和追踪列车B在同一轨道直线运行,如果vb>vf,假设轨道不限长度,无论二者之间间隔多远,此时,经过追逐时间t,追踪列车B总能捕获前行列车F,使得追尾发生.假设vb初始值为0,且最高速度为180 km/h,vf=90 km/h保持不变,此时根据微分对策理论分析,由于追踪列车B的目的是调整自身策略,尽可能的使得碰撞发生,故追踪列车B此时唯一的策略是增加自身列车速度,即为在速度持续增加的情况下追赶前行列车F,由于普速列车加速度不能过大,此时取追踪列车B的加速度值为0.6 m/s2,取两车之间的距离为x0=1 km.
为验证神经网络控制器输出结果的正确性,对上述追尾事故进行理论分析和数据计算.根据上述可知,碰撞发生过程分为2个阶段:
1)追踪列车B匀变速直线运行,前行列车F匀速运行.当追踪列车B速度达到180 km/h时,所用时间t1=83.3 s,追踪列车B和前行列车F运行的距离Lf=Lb=2.083 km,但是x0=1 km,此时,经过时间t1后,两车之间的距离为1 km,阶段1完成;
2)追踪列车B和前行列车F均匀速运行.此时vb=180 km/h,vf=90 km/h,此时,经过时间 t2(t2=50 s)两列车发生碰撞.
综上所述,当追踪列车B和前行列车F保持直线追踪时,由于前行列车F始终保持匀速直线运行,追踪列车B通过加速逐渐缩短两车之间的运行距离,并最终使得追尾事故发生.仿真结果如图8(a)所示,其中:虚线表示数据分析计算结果仿真图;实线表示自适应控制器仿真输出结果.由图8(a)可知:整个过程的数学推导过程所得到的结果和由自适应控制器仿真所得到的结果曲线基本重合,可进一步验证仿真结果的正确性.
情形2:考虑更为复杂的直线列车运行状况,对于列车避碰分析,也应该考虑车身长度问题,因为在列车避碰分析中将列车视为一个单独的质点不够全面和有效.令车身长度L=0.12 km,即当前行列车F的车尾位置与追踪列车B车头位置之间的距离等于或者小于车身长度L时,视为碰撞发生.此时,设两车速度初值为vf=vb=90 km/h,两车初始位置距离x0=2 km,利用自适应神经网络模型求解列车运行曲线,如图8(b)所示.由图8(b)可知:前行列车F和追踪列车B将通过改变自身车速以达到微分对策理论中Hamiltonian函数中各自最优解目的.当列车运行时长为115.65 s时,前行列车F的车尾与追踪列车B的车头之间的距离缩短至L,即表示碰撞发生.
情形3:针对非直线列车追踪运行情况,假如两列车不在同一轨道追踪运行.令两列车之间的初始距离为2 km,初始速度均为270 km/h,前行列车F匀速运动,追踪列车B自动调整速度,两车变为同轨道直线追踪问题,则经过时间t=106.67 s后碰撞发生.列车位置变化曲线如图8(c)所示,图中曲线为追踪列车B的位置曲线图,而根据图6所表示的列车运动位置图可知,前行列车F的运行方向始终沿着x轴正方向,两车的相遇点为追踪列车B的运行曲线与x轴相交点,此时碰撞发生.
图8 列车追踪运行仿真结果Fig.8 Sim ulation results of train tracking operation
通过对上述3种情况的仿真分析可知:对于一般情况下的列车运行场景,利用自适应神经网络方法所得到的运动学分析结果与理论计算相符,同时也可以在一定程度上简化计算过程.
基于微分对策理论研究列车之间的碰撞防护问题时,由于模型各异会导致分析不同类型的对策问题时产生不同的对策函数,造成直接求解对策函数的双边极值难度大.本文利用自适应评判神经网络建立微分对策问题与神经网络之间的直接联系,避免了直接求解复杂的双边极值问题.主要结论如下:
1)利用微分对策理论建立两追踪列车之间的追逃对策模型,将微分对策求解时遇到的双边极值问题转化为神经网络的学习问题,自适应神经网络能有效解决微分对策在分析列车避碰时的双边极值问题.
2)在Simulink中搭建了自适应神经网络模型,对3种列车运行场景进行实验验证.利用自适应神经网络方法所得到的运动学分析结果与理论计算相符,且训练后神经网络双边最优控制器对初始条件和测量噪声具有较强鲁棒性.
因此,利用自适应神经网络控制器求解微分对策理论更为简洁和有效,也为后续微分对策分析更为复杂的列车运行情况提供可借鉴的方法和思路,同时为不同情况下快速合理地分析列车碰撞防护提供了一定的理论支撑.