刘泽石 李思凝 张金鹏 张晓峰 程昊宇
摘 要: 针对存在异步切换的飞行器控制器设计问题,提出基于深度强化学习的智能鲁棒控制算法。首先,针对飞行器的非线性动力学模型,基于雅克比线性化方法,建立了飞行器的大包线切换系统模型。考虑网络传输丢包引起的异步切换现象,建立控制器和子系统的异步动态模型,在此基础上,设计了鲁棒控制器。基于平均驻留时间方法和多Lyapunov函数方法,分析了系统的稳定性,给出了保证系统稳定且具有给定干扰抑制指标的充分条件。通过线性矩阵不等式给出了控制器的求解方法。进一步,基于深度强化学习对得到的控制器进行优化,在保证系统稳定性和鲁棒性的基础上,提升了系统的动态响应性能。最后,通过仿真验证了所提方法的有效性。
关键词:切换系统;鲁棒控制;智能控制;异步切换;平均驻留时间;深度学习; 飞行器
中图分类号:TJ765.2;V249.1
文献标识码:A
文章编号:1673-5048(2022)05-0035-08
DOI:10.12132/ISSN.1673-5048.2021.0165
0 引 言
切换系统由一系列子系统和子系统之间的切换逻辑组成,是混杂系统的一个重要分支。切换系统能够将复杂的非线性系统转化为一系列线性子系统之间的切换,为复杂高动态非线性系统的建模、分析与控制器设计提供了有效手段。因此,切换系统理论在航空航天、过程控制、机器人控制等领域受到学者的广泛关注。近年来,学者们针对切换系统的建模、稳定性分析[1-3]、控制器设计[4- 6]、滤波器设计[7-8]、故障检测[9]和容错控制[10-11]等方面进行了广泛深入的研究,取得一系列进展。
大包线飞行器的高度和马赫数在飞行包线内快速大范围变化,具有快时变、强非线性等特点,给飞行器的建模和控制器设计带来诸多挑战。切换系统作为连接非线性系统和线性系统的桥梁,为模型突变、参数快时变等问题提供了一种可行的解决方案,近年来,受到国内外学者的广泛关注。文献[12-13]将变体飞行器的连续变形过程建模为一类切换系统,将后掠角的變化等效为飞行器在子系统中的切换。在建立变体飞行器纵向运动的链式平滑切换系统模型基础上,推导了链式平滑系统有限时间有界且具有给定鲁棒性指标的充分条件,以线性矩阵不等式的形式给出了控制器的求解方法。文献[14]将近空间飞行器建模为一系列非线性切换系统,基于反步滑模方法和非线性干扰观测器设计了鲁棒控制器。基于Lyapunov函数方法给出了闭环系统稳定的充分条件,采用变增益控制策略为飞行器不同模态选择合适的增益。文献[15]针对变体飞行器变形过程的控制问题,将切换系统理论与多变量自适应控制理论相结合,提出一种基于切换系统的鲁棒自适应控制器设计方法,对外界的干扰和不确定性进行补偿,基于Lyapunov函数方法分析了系统的稳定性。但是,以上文献均针对理想信息传输情况下的建模和控制器设计问题进行研究,在实际工程应用中,由于网络带宽的限制,信号通过网络进行传输时不可避免地会存在数据包丢失现象,引起系统性能下降,甚至发生失稳。文献[16]考虑测量链路和控制链路同时存在数据包丢失的现象,将丢包建模为Bernoulli随机过程,从而得到存在丢包情况下的飞行器切换系统模型。基于模态依赖平均时间方法和多Lyapunov函数方法,设计了鲁棒控制器,保证系统的稳
定性和鲁棒性。文献[17]针对存在外部扰动和数据包丢失的情况, 基于状态反馈设计了鲁棒控制器,给出了保证飞行器的有限时间稳定且具有给定性能指标的充分条件。
飞行器在飞行包线内快速大包线飞行,飞行环境复杂,受到外界强干扰和强非线性的影响。另一方面,随着飞行任务趋于复杂,飞行性能要求提升,这些都对飞行控制系统的鲁棒性和动态性能提出了更高的要求。高精度、强鲁棒性成为飞行控制系统发展的突出要求。文献[18]考虑存在时滞的飞行器故障检测与容错控制一体化设计问题,针对时滞引起的异步切换现象,基于多Lyapunov-Krarasovskii函数方法和平均驻留时间方法分析了飞行器在异步切换情况下的稳定性和鲁棒性,保证故障情况下系统能够快速有效检测出故障,并对故障进行补偿。文献[19]针对大包线飞行器的控制问题,设计了局部重叠切换控制系统,提升了系统的鲁棒性和动态性能。
随着计算机计算能力的提升,以深度学习、强化学习为代表的机器学习技术引起了学者的广泛关注,在图像识别[20]、目标跟踪[21]、语音识别[22]和导航制导控制系统设计[23-24]等领域取得一系列突出成就,有效提高了智能化水平。文献[25]基于状态反馈设计了控制器,为了提高控制精度,基于深度强化学习算法对控制器参数进行动态调整。文献[26]则基于深度学习和最优控制,将着陆问题转化为两点边值问题,利用深度学习对不同初值下的最优控制序列进行学习和拟合,兼顾了控制的实时性和最优性。
综上所述,为了提高飞行器控制系统的鲁棒性和动态性能,增强其应对环境不确定干扰的能力,本文考虑网络丢包引起的异步切换现象,在建立飞行器切换系统模型的基础上,设计了H∞鲁棒控制器;基于ADT方法和多Lyapunov函数方法分析了系统的稳定性,并给出保证系统具有给定鲁棒性指标的充分条件。进一步,为了提升系统的动态响应性能,基于深度强化学习算法对控制器参数进行优化,有效提升了控制系统的动态性能。
定义系统的丢包率为0.95,最大连续丢包数为5,则由定理3可以得到矩阵U1i, U2i, S1i和S2i,进而由式(33)~(34)可以得到鲁棒控制器的参数值。以得到的鲁棒控制器参数为基准参数,基于DDPG算法对控制器进行优化。深度神经网络均采用全连接的方式连接,其激活函数定义为ReLu,动作网络和评价网络的学习率为0.001,奖励函数的权重系数为λ1=0.8,λ2=0.2,执行机构的饱和值u-a=15°,惩罚值u-p=200,可以得到仿真结果如图3~8所示。图中,“DRobust”表示本文提出
的智能魯棒控制算法, “Robust”代表传统鲁棒控制方法。
图3~4为攻角跟踪信号和跟踪误差,从图中可以看出,经过深度强化学习对鲁棒控制器参数进行优化,在保证闭环系统稳定的前提下,有效减小了系统在切换时刻的跟踪误差和稳态误差,提升了控制系统的闭环响应性能。图5为俯仰角速率响应曲线,从图中可以看出,俯仰角速率没有发生饱和。图6~8分别表示升降舵、副翼和鸭翼响应曲线,从图中可以看出,执行机构的响应曲线没有超过物理限制,能够执行控制系统指令。图9为奖励函数响应曲线,反映了本文提出的深度强化学习算法具有良好的跟踪性能。
综上所述,本文所提的算法能够在传统鲁棒控制方法的基础上,利用DDPG算法提高闭环系统的动态响应性能,兼顾了系统的稳定性、鲁棒性和动态性能。
4 结 论
本文针对飞行器的智能鲁棒控制问题进行研究,基于非线性动力学模型得到面向飞行器大包线飞行的切换系统模型。考虑数据包丢失引起的异步切换现象,设计了智能鲁棒控制器。控制器的设计分鲁棒跟踪控制器和智能控制器两部分。其中,基于多Lyapunov函数方法和平均驻留时间方法保证闭环系统稳定且具有给定的干扰抑制指标,通过线性矩阵不等式给出了鲁棒控制器的求解方法。为了提升控制系统的动态性能和抗干扰能力,基于深度强化学习设计了智能控制器,对内外干扰进行补偿以提升控制器的动态性能。基于actor-critic框架提出DDPG算法,在鲁棒控制器设计的基础上进行优化,有效保证了整个控制器的稳定性、鲁棒性和动态性能。
参考文献:
[1] Wang Z Y, Gao L J, Liu H Y. Stability and Stabilization of Impulsive Switched System with Inappropriate Impulsive Switching Signals under Asynchronous Switching[J]. Nonlinear Analysis: Hybrid Systems, 2021, 39: 100976.
[2] Liu Z, Zhang X F, Lu X D, et al. Stabilization of Positive Switched Delay Systems with All Modes Unstable[J]. Nonlinear Analysis: Hybrid Systems, 2018, 29: 110-120.
[3] Hong S S, Zhang Y. Input/Output-to-State Stability of Impulsive Switched Delay Systems[J]. International Journal of Robust and Nonlinear Control, 2019, 29(17): 6031-6052.
[4] Zheng Y, Wang Y N. Full-Order and Reduced-Order l1 Filtering for Positive Switched Delay Systems under the Improved MADT[J]. Nonlinear Analysis: Hybrid Systems, 2019, 32: 147-156.
[5] Zhong G X, Yang G H. Dynamic Output Feedback Control of Saturated Switched Delay Systems under the PDT Switching[J]. International Journal of Robust and Nonlinear Control, 2017, 27(15): 2567-2588.
[6] Zhu C H, Li X D, Cao J D. Finite-Time H∞ Dynamic Output Feedback Control for Nonlinear Impulsive Switched Systems[J]. Nonlinear Analysis: Hybrid Systems, 2021, 39: 100975.
[7] Park J H, Mathiyalagan K, Sakthivel R. Fault Estimation for Discrete-Time Switched Nonlinear Systems with Discrete and Distributed Delays[J]. International Journal of Robust and Nonlinear Control, 2016, 26(17): 3755-3771.
[8] Liu H Y, Gao L J, Wang Z Y, et al. Asynchronous l2-l∞ Filtering of Discrete-Time Impulsive Switched Systems with Admissible Edge-Dependent Average Dwell Time Switching Signal[J]. International Journal of Systems Science, 2021, 52(8): 1564-1585.
[9] Zhang M, Shi P, Shen C, et al. Static Output Feedback Control of Switched Nonlinear Systems with Actuator Faults[J]. IEEE Transac-tions on Fuzzy Systems, 2020, 28(8): 1600-1609.
[10] Yin Y H, Wang F Y, Liu Z X, et al. Fault-Tolerant Consensus for Switched Multiagent Systems with Input Saturation[J]. International Journal of Robust and Nonlinear Control, 2021, 31(11): 5047-5068.
[11] Wang Y Q, Xu N, Liu Y J, et al. Adaptive Fault-Tolerant Control for Switched Nonlinear Systems Based on Command Filter Technique[J]. Applied Mathematics and Computation, 2021, 392: 125725.
[12] 江未来, 董朝阳, 王通, 等. 变体飞行器平滑切换LPV鲁棒控制[J]. 控制与决策, 2016, 31(1): 66-72.
Jiang Weilai, Dong Chaoyang, Wang Tong, et al. Smooth Switch-ing LPV Robust Control for Morphing Aircraft[J]. Control and Decision, 2016, 31(1): 66-72.(in Chinese)
[13] 王青, 王通, 董朝阳, 等. 变体飞行器链式平滑切换控制[J]. 控制理论与应用, 2015, 32(7): 949-954.
Wang Qing, Wang Tong, Dong Chaoyang, et al. Chained Smooth Switching Control for Morphing Aircraft[J]. Control Theory & Applications, 2015, 32(7): 949-954.(in Chinese)
[14] 路遥, 董朝阳, 王青, 等. 近空间飞行器变增益非线性切换控制器设计[J]. 控制与决策, 2017, 32(4): 613-618.
Lu Yao, Dong Chaoyang, Wang Qing, et al. Variable Gain Nonlinear Switching Controller Design for Near Space Vehicles[J]. Control and Decision, 2017, 32(4): 613-618.(in Chinese)
[15] 梁小辉, 王青, 董朝阳. 基于切换系统的变体飞行器鲁棒自适应控制[J]. 北京航空航天大学学报, 2019, 45(3): 538-545.
Liang Xiaohui, Wang Qing, Dong Chaoyang. Robust Adaptive Control for Morphing Aircraft Based on Switching System[J]. Journal of Beijing University of Aeronautics and Astronautics, 2019, 45(3): 538-545.(in Chinese)
[16] Cheng H Y, Dong C Y, Jiang W L, et al. Non-Fragile Switched H∞ Control for Morphing Aircraft with Asynchronous Switching[J]. Chinese Journal of Aeronautics, 2017, 30(3): 1127-1139.
[17] Cheng H Y, Fu W X, Dong C Y, et al. Asynchronously Finite-Time H∞ Control for Morphing Aircraft[J]. Transactions of the Institute of Measurement and Control, 2018, 40(16): 4330-4344.
[18] 程昊宇, 董朝陽, 江未来, 等. 变体飞行器故障检测与容错控制一体化设计[J]. 兵工学报, 2017, 38(4): 711-721.
Cheng Haoyu, Dong Chaoyang, Jiang Weilai, et al. Integrated Fault Detection and Fault Tolerant Control for Morphing Aircraft[J]. Acta Armamentarii, 2017, 38(4): 711-721.(in Chinese)
[19] Yang H, Guan Y C, Ma Y J, et al. Overlapping-Decomposition-Based Control Design for Switched Full-Envelope Flight[J]. Journal of Guidance, Control, and Dynamics, 2018, 41(12): 2658-2665.
[20] 付哲泉, 李相平, 李尚生, 等. 深度學习在雷达目标高分辨距离像识别中的研究综述[J]. 航空兵器, 2020, 27(3): 37-43.
Fu Zhequan, Li Xiangping, Li Shangsheng, et al. Review of Radar HRRP Target Recognition Based on Deep Learning[J]. Aero Weaponry, 2020, 27(3): 37-43.(in Chinese)
[21] Munjani J, Joshi M. A Non-Conventional Lightweight Auto Regressive Neural Network for Accurate and Energy Efficient Target Tracking in Wireless Sensor Network[J]. ISA Transactions, 2021, 115: 12-31.
[22] 薛艳飞, 毛启容, 张建明. 基于多任务学习的多语言语音情感识别方法[J]. 计算机应用研究, 2021, 38(4): 1069-1073.
Xue Yanfei, Mao Qirong, Zhang Jianming. Multi-Language Speech Emotion Recognition Based on Multi-Task Learning[J]. Application Research of Computers, 2021, 38(4): 1069-1073.(in Chinese)
[23] Li R F, Hu L, Cai L. Adaptive Tracking Control of a Hypersonic Flight Aircraft Using Neural Networks with Reinforcement Synthesis[J]. Aero Weaponry, 2018(6): 3-10.
[24] Gaudet B, Linares R, Furfaro R. Deep Reinforcement Learning for Six Degree-of-Freedom Planetary Landing[J]. Advances in Space Research, 2020, 65(7): 1723-1741.
[25] Xu J, Hou Z M, Wang W, et al. Feedback Deep Deterministic Policy Gradient with Fuzzy Reward for Robotic Multiple Peg-in-Hole Assembly Tasks[J]. IEEE Transactions on Industrial Informatics, 2019, 15(3): 1658-1667.
[26] Sánchez-Sánchez C, Izzo D. Real-Time Optimal Control via Deep Neural Networks: Study on Landing Problems[J]. Journal of Guidance, Control, and Dynamics, 2018, 41(5): 1122-1135.
Intelligent Robust Control for Flight Vehicles with
Asynchronous Switching
Liu Zeshi1*,Li Sining1,Zhang Jinpeng2,Zhang Xiaofeng3, Cheng Haoyu3
(1. Shenyang Aircraft Design Institute, Shenyang 110035, China;2. China Airborne Missile Academy, Luoyang 471009, China;
3. Northwestern Polytechnical University, Xian 710072, China)
Abstract: The problem of intelligent robust controller design for flight vehicles with asynchronous switching is investigated based on deep reinforcement learning. The switched model of flight vehicle in full envelope is established based on Jacobian linearization according to the nonlinear dynamic model. The asynchronous switching caused by packet loss are taken into consideration and the asynchronous dynamic model of controllers and subsystems are introduced. Then the robust controller is provided.
The stability of the system is analyzed, and the sufficient conditions to ensure the stability with prescribed interference suppression index are given based on average dwell time method and multiple Lyapunov functional method. The solutions of controllers are obtained by linear matrix inequality. Moreover, the obtained controller is optimized based on deep reinforcement learning, and the dynamic response performance of the system is improved while ensuring the stability and robustness.
Numerical examples in the end are given to illustrate the effectiveness of the proposed method.
Key words: switching system;robust control;intelligent control;asynchronous switching;average dwell time;deep learning;flight vehicle
收稿日期: 2021-08-27
基金項目:航空科学基金项目(20180153001;201907053001)
作者简介:刘泽石(1989-),男,辽宁沈阳人,硕士研究生,高级工程师。