基于随机森林的飞机长着陆预警方法

2021-06-08 09:34:36孙瑞山李重锋

中国安全生产科学技术 2021年5期

孙瑞山，李重锋,2

(1.中国民航大学民航安全科学研究所，天津 300300；2.中国民航大学经济与管理学院，天津 300300)

0 引言

2020年《中国民航航空安全报告(2019年)》[1]表明：2010—2019年，我国民航一共发生8起冲/偏出跑道事故，且冲/偏出跑道征候数位列总征候数的第3位。长着陆是造成飞机冲出跑道的重要因素，同时会减少跑道的可用比例，增加管制员工作负荷。科学地对长着陆进行预警对于保障着陆阶段的飞行安全具有重要意义。

目前鲜有学者给出飞机长着陆预警方法，相关研究主要探讨长着陆的影响因素。例如，Sun等[2]基于QAR数据和K-W检验分析接地点远超限事件，得出飞机在60.96～15.24 m处的地速和15.24 m处的发动机转速是影响飞机接地点远的显著性因素；王冉等[3]指出飞机在15.24～0 m阶段下降率对长着陆的影响最大，其次是俯仰角、驾驶杆位移和油门杆位移，并建议飞行员在着陆过程中柔和操作驾驶杆和油门，以防止过大的下降率。

从着陆不安全事件预警角度出发，相关研究主要利用QAR数据并基于相关算法提出预警方法。例如，郑磊等[4]利用卷积神经网络给出不同操作模式下飞机的重着陆预警结果；陈思等[5]基于自适应变异粒子群参数寻优方法改进支持向量机分类模型，提出重着陆风险预警模型；汪磊等[6]基于飞行QAR数据和蒙特卡洛模拟方法建立擦机尾风险预测模型。从现有研究看，尚欠缺针对长着陆的预警方法，且现有部分预警算法存在参数调整困难，训练过程复杂、易陷入过拟合等不足。随机森林(Random Forest,RF)可以同时处理连续、离散数据，运行效率高，具有较强的鲁棒性、抗噪声、防止过拟合、参数调整简便等优点。本文将随机森林理论应用至飞机长着陆预警中，利用QAR数据构建1个既能反映实际运行情况，又能达到较高召回率的飞机长着陆预警方法，并结合案例对模型进行验证。

1 随机森林分类器

随机森林分类器(Random Forests for Classifier，RFC)是Breiman[7]提出的集成分类算法。其通过Bootstrap法从训练样本中抽取样本形成不同的训练集，分别训练决策树并投票形成最终结果。RFC算法步骤如下：

1)生成k个决策树。

2)将k个决策树组合成随机森林。

3)将随机森林中所有决策树的分类结果进行投票，投票结果为最终模型的分类结果。分类投票过程如式(1)所示：

(1)

式中：Y为输出变量；H(x)为返回最多票数的Y；k为决策树个数；hi(x)为单个决策树分类模型；I为示性函数。

利用RFC进行飞机长着陆预警有以下3个优点：

1)RFC采用Bagging方法生成训练集，该方法使得原始训练集中有近37%的数据可能未被新训练集所选中，因此这部分数据(OOB数据)可以用来对模型的泛化性能进行估计，简称OOB估计。

2)随着决策树的增加，RFC的泛化误差PE*将趋向于1个上界，也即RFC具有很好的收敛性和防止出现过拟合的能力[8]。

3)RFC在生成决策树的过程中选择部分特征进行构建，可以有效避免大数据运算中可能出现的维度爆炸。

2 长着陆预警输入特征分析

从飞行数据中筛选出影响长着陆的关键特征是对其进行预警的前提。从“人-机-环”角度确定长着陆预警的输入特征。

1)人为因素的影响表现为飞行员在进近着陆阶段对飞机状态的控制，具体体现为下滑阶段对高度和速度的控制[9]；拉平阶段拉杆时机、拉杆速度和拉杆量的把控，应防止出现拉平高、拉平低这2种着陆偏差[10]；平飘阶段操纵杆与油门杆的配合；接地阶段的姿态控制和对地面效应处理等[11]。以上任一环节出现偏差均可能导致飞机长着陆。

2)从飞机的角度出发，相同条件下不同机型的着陆平飘距离存在明显不同。对于同一机型，着陆阶段影响飞机长着陆的参数主要分为3个方面：飞机姿态，包括俯仰角、滚转角；与飞机速度相关的参数，包括地速、下降率、速度比(下降率/地速)、纵向加速度、垂直加速度[12]；飞机着陆质量。

3)从环境角度出发，可能影响飞机长着陆风险的环境因素包括机场标高、大气温度、能见度、风、结冰等。环境因素对长着陆的影响方式包括影响飞行员的判断与操作，例如低能见度可能使飞行员对高度和姿态产生误判，以及影响飞机空气动力学特性和操作特性等，例如高原机场由于空气稀薄造成飞机的着陆平飘距离增加。

综上，选取无线电高度15.24 m处的飞机地速、纵向加速度、垂直加速度、下降率、俯仰角、滚转角、外界大气温度、大气压力、纵向风速、下滑道偏离、着陆质量作为长着陆预警模型的候选输入特征。

3 长着陆随机森林预警模型

3.1 长着陆预警数据构建

着陆过程是指飞机从15.24 m以正常的运动轨迹、速度和正确的配平飞行并在无线电高度约6 m时开始拉平使得飞机平稳接地的过程。其中，典型的拉平操作时间为4～8 s。为保证飞行员有足够的时间做出反应，选取无线电高度15.24 m处作为飞机长着陆预警位置。从飞机历史运营数据库中选取非长着陆样本和长着陆样本数据，提取飞机在无线电高度15.24 m位置的长着陆预警参数的QAR数据，建立长着陆数据集D(x,y)，x,y的取值如式(2)～(3)所示：

(2)

(3)

式中:x为预警参数；GS为地速；LG为纵向加速度；VG为垂直加速度；IVV为下降率；PITCH为俯仰角；ROLL为滚转角；TEM为外界大气温度；PRE为大气压力；LW为纵向风速；GD为下滑道偏离；GW为着陆质量；y为长着陆结果。

3.2 长着陆预警特征筛选

为减少噪声参数对长着陆预警模型性能的影响，需要对模型进行特征筛选。针对RFC，采用基尼指数的平均改变量来衡量特征重要度。模型节点m处的基尼指数GIm计算方法如式(4)所示：

(4)

式中:GIm为模型节点m处的基尼指数；K为类别数，本模型K=2；pmk为节点m中类别k所占的比例。

(5)

(6)

(7)

重要性评分归一化结果VIMj如式(8)所示：

(8)

至此可获得c个特征的特征重要性排序。首先选取重要度最高的参数构成第1组预警参数集合，然后按照重要度依次加入特征构成包含全部预警参数的集合。针对每1组长着陆预警参数集建立RFC并计算OOB误差EOOB，EOOB最小的模型所对应的特征组合为最优长着陆预警参数集。

3.3 长着陆随机森林预警模型参数计算

RFC需要确定2个参数的最优组合，分别是RFC中决策树的数量ntree以及RFC的子树在生成过程中,每个节点从所有特征中选择用于分裂的特征个数ntry。

对于参数ntree，RFC的泛化误差会随着ntree的增加而收敛于1个上界，同时过多的ntree会增加模型的训练时间。首先设定参数ntry为特征数的平方根，然后选取不同组的ntree建立RFC，最后观察各组EOOB的走势确定ntree的值。

对于参数ntry，随机的特征选择使树之间的差异变大，提升模型的容噪能力和泛化能力。本模型在确定ntree的基础上，分组选择最优的ntry使得模型的EOOB最小。

3.4 长着陆随机森林预警模型的训练与验证

Breiman已证明使用OOB估计与使用相同样本容量的测试集的精度一样，即使用OOB估计时，就没有必要再使用测试集[13]。同时计算RFC的预测精确率P、召回率R和综合评价指标F1值，验证模型的可用性。P表示被分为长着陆的样本中实际为长着陆样本的比例，P值越高，模型精确率越好；R表示对长着陆样本的分类正确率，R值越高，模型长着陆预警效果越好；F1为模型综合评价指标，F1越高，则说明试验方法越有效。P，R与F1值的计算公式如式(9)所示：

(9)

式中：P为精确率；R为召回率；F1为综合评价指标；TP为将正类预测为正类数；FP为将负类预测为正类数。

4 案例分析

从某B737-800机队飞行员的历史飞行数据中提取某机场128个历史着陆样本，包含69个长着陆样本和59个非长着陆样本。提取无线电高度15.24 m处的长着陆预警参数数据，建立长着陆风险预警数据集。长着陆超限标准参考波音飞行品质监控[14]轻度超限取值为750 m。假设飞行员按照标准着陆程序进行操作，飞机着陆形态为襟翼30°，选取顶风分量小于10 m/s，顺风分量小于5 m/s的样本记录进行分析。飞机在预警位置的部分数据见表1。原则上RFC算法对数据的单位和量纲并不敏感，所以不需要对整理好的数据进行归一化处理[15]。

表1 QAR原始数据示例

根据式(8)计算出模型特征重要度的顺序为PRE,VG,IVV,LW,TEM,GW,GD,GS,PITCH,LG,ROLL。随后根据特征重要度高低依次组成预警模型参数集训练RFC，结果见表2。

表2 各组预警参数集的EOOB

结果表明由大气压力、垂直加速度、下降率、纵向风速组成新的长着陆预警参数集的EOOB最小，故选取上述4个参数构建新的数据集进行RFC参数寻优、模型训练与验证等环节。

预设参数ntry为特征数的平方根，即ntry=2，设定不同组别的ntree建立RFC，各组EOOB如图1所示，可知ntree=3 000时，模型EOOB趋于稳定。在此基础上，不同ntry取值下模型精度的变化情况如图2所示，可知ntry=4时，模型EOOB最小。故模型最优参数为ntree=3 000，ntry=4。

图1 ntree与EOOB误差之间的关系

图2 ntry与模型EOOB误差的关系

模型训练完成后，模型OOB误差降至13.42%。将预测结果以真实结果进行比对，绘制交叉表见表3，模型长着陆预警错误率为11.59%，说明预警模型具有一定的科学性与有效性。

表3 预警结果与真实结果交叉表

为全面评价模型的性能，计算出模型的预测准确率、召回率和综合评价指标值见表4，进一步验证模型的可靠性。可以看出，基于随机森林分类的飞机长着陆预警模型具有较好的召回率和精确度。

表4 模型结果评价指标

5 结论

1)为科学地对长着陆进行预警，构建基于随机森林分类器的飞机长着陆预警模型，包括模型输入特征的选择、模型参数的确定及模型的评价方法。基于实际QAR数据完成模型的训练与验证，结果表明模型具有较好的长着陆预警能力。

2)基于随机森林构建不安全事件预警模型的方法具有实现简便、准确性高、综合性能强等优势，可拓展应用至其他飞行品质监控项目预警工作，如重着陆等。

3)暂未全面考虑飞行员的操作特征对飞机长着陆预警性能的影响，未来可基于QAR数据挖掘影响长着陆的人为因素，以期提升长着陆预警模型的精度。