基于ARIMA、LS-SVM和BP神经网络组合模型的航空运输飞行事故征候预测

2018-01-24 03:28梁文娟李雪艳
安全与环境工程 2018年1期
关键词:航空公司神经网络事故

梁文娟,李雪艳

(1.中国民航大学飞行技术学院,天津 300300;2.中国民航大学理学院,天津 300300)

中国民航安全记录位列世界先进水平,2010年8月24日至2017年9月期间,中国民航安全形势平稳,未发生特大或重大运输飞行事故,已累计安全飞行5 000多万小时。但是,随着中国民航运行复杂程度的提升和运输量的增长,民航运输飞行事故征候的数量在近几年呈现逐年上升的趋势。如何持续提升安全水平,已经成为中国民航业面临的新问题。

一起飞行事故/事故征候的产生是民航运输系统内部诸多因素共同影响和制约的结果。民航运输系统作为一个复杂的社会技术系统,其各因素间存在错综复杂的逻辑关系。在民航运输飞行领域,针对飞行事故征候预测的基本思路是首先收集、梳理航空企业的历史运行数据、事件、重大运营变化等资料,然后进行统计、分析和建模,最终基于合理的数学模型对目前尚未发生或尚不明确的飞行事故/事故征候进行预测。

2006—2016年我国民航运输飞行事故统计数据表明,航空运输量和飞行事故征候数量这两者之间呈现一定的线性关系,即航空运输量增长,飞行事故征候数量通常会随之增长,但这两者之间却并不完全呈现线性的关系,其中还存在大量非线性的关联。如何准确地预测飞行事故征候数量,从而反映未来一段时期的安全趋势,是航空安全领域亟待解决且具有重大现实意义的问题。对此,本文拟通过建立航空公司运行数据与飞行事故征候数据的时间序列,运用ARIMA模型、LS-SVM模型和BP神经网络模型的组合模型对航空公司运输的飞行事故征候万时率进行综合预测,以为判断航空公司的安全趋势提供数据支持。

1 国内外研究现状

国内外各行业用于预测安全生产事故的时间序列预测方法主要有:灰色预测法[1-2]、差分自回归移动平均模型(Autoregressive Integrated Moving Average,ARIMA)[3]、支持向量机模型(Support Vector Machine,SVM)[4-5]、神经网络模型[6-8]等。

灰色预测法对于分析具有趋势特征的数据效果较好,但飞行事故/事故征候数据除了具有趋势性特征外,还可能呈现波动性、周期性和季节性等特征,其发生往往是多个偶然性因素共同作用所导致的,这类异常的突变是灰色预测法的短板;ARIMA模型是当前较为成熟、具有代表性的时间分析方法,尤其适合于处理线性信息,捕捉数据的线性关系;对于小样本、非线性及高维复杂逻辑问题,SVM模型表现出许多特有的优势,通过运用核函数能够较好地捕获数据的非线性特征;神经网络模型在非线性建模预测方面具有独特的优势,而在人工神经网络中,BP神经网络模型(Back Propagation Neural Network,BPNN)最适合于模拟输入、输出的近似关系,其算法成熟且已应用于多个行业,该模型的特点在于具有容错能力,且对数据质量要求较低,但其缺点是需要大量的训练数据,且依赖建模者的主观经验。

Bates等[9]2001年首发了《组合预测》一书,提出了解决单一模型预测带来的误差大、数据特征获取不全面的问题,同时充分整合多种模型的优点,以获得更高的预测精度。

目前国内外对于民航运输飞行事故征候数据的长期趋势变化、季节性变化、周期性变化和随机波动,各种时序预测方法都有所涉及[10-12],但是绝大多数的预测模型仅仅关注具有线性关联的趋势变化,从而造成飞行事故征候数量随机波动的非线性影响因素无法准确预测,这直接导致预测结果的精度普遍不理想。针对航空企业的安全性分析目前主要有两种思路:一是通过安全审计或安全评估获得航空公司整体的安全状况,但这种符合性评价方法获得的结果因缺乏运行数据的支持,导致输出结果过于宏观,无法给出及时和准确的安全预警[13-14];二是通过提取机载快速存取记录器(QAR)和飞行数据记录器(DFDR)的数据,进行大数据分析,查找超限问题等安全隐患,这对于飞行安全的改善具有非常显著的作用,但其输出结果偏重微观,通常只是针对机队状况、人员飞行技术、超限事件等具体的操作性和技术性问题予以重点关注,缺乏对公司整体安全性的把握。因此,需要一种具有中观视角的方法,能够为航空公司的中高层决策人员预防事故提供可靠的数据支持。

2 数据来源与研究方法

2. 1 数据来源

本研究数据来源于某大型航空企业发布的2008年1月至2016年12月的运营数据,以及2008—2016年的《从统计看民航》、《中国民航航空安全报告》等统计年鉴。鉴于中国民航运输飞行事故样本数量过于稀少,本文将严重事故征候、一般事故征候这两类对航空公司安全状况有重大影响的事件作为预测对象,选择具有代表性的某大型航空企业为研究对象,2008—2016年中国民航运输飞行事故征候数量见表1。

表1 2008—2016年中国民航运输飞行事故征候数量

由表1可见,2008—2016年我国民航运输飞行事故征候数量上升趋势明显。

2. 2 模型理论基础

2.2.1 ARIMA模型

ARIMA模型将预测对象时间序列数据假设为随机序列,通过建立ARIMA模型从时间序列的历史值来预测未来值,其短期预测精度较高。

带有季节性与趋势性的ARIMA模型可以表示为ARIMA(p,d,q)(P,D,Q)S乘积季节模型。该模型有7个参数,其中,p、q分别表示自相关函数(Autocorrelations Function,ACF)和偏自相关函数(Partial Autocorrelations Function,PACF)的阶数;d表示差分次数;P、Q、D分别表示季节性的自相关函数、偏自相关函数的阶数和差分次数;s表示季节性的周期。该模型通常的表达式为

Ф(L)U(LS)dDsY=V(LS)Θ(L)ε

(1)

其中,Ф(L)=1-Ф1L-Ф2L2-…-ФpLp;Θ(L)=1-Θ1L-Θ2L2-…-ΘqLq;U(LS)=1-U1LS-U2L2S-…-UPLPs;V(LS)=1-V1LS-V2L2S-…-VQLQs;ε表示独立扰动或随机误差;Ф(L)dY表示同一周期内不同周期点的相关关系;U(LS)Ds则表示不同周期的同一周期点上的相关关系。

在建模阶段,对序列进行一阶逐期差分后,观察序列的周期性状况,则可以确定d的取值,例如通过n阶差分后,若周期性状况基本消除,则可确定d=n;同理,季节性差分也是用同样的方法确定D的取值。识别参数p、q的取值,通过观察差分后序列的 ACF图和PACF图来确定。参数P、Q的取值高阶的情况较少,可采取从低阶到高阶逐个进行尝试的办法,并结合Ljung-Box方法检验以及拟合优度统计量(平稳的R2)等参数进行综合判断,从中选择相对最优模型。

2.2.2 LS-SVM模型

最小二乘支持向量机(Least Squares Support Vector Machine,LS-SVM)模型是在SVM方法的基础上进行优化,通过对线性方程组求解,合理简化了问题,这样的处理方法可以明显提高模型的运行效率。非线性模型的构建需要足够的测试数据,通过非线性映射可将数据映射到高维的特征空间中,从而进行线性回归。而通过运用核函数避免了模式升维可能导致的“维数灾难”,即通过运用一个非敏感性损耗函数,非线性支持向量回归机的解即可通过如下方程求出:

maxa,a*W(a,a*)n=

(1)

其约束条件为

0≤ai≤C(i=1,2,…,n)

(2)

(3)

式中:SVs为训练样本空间。

2.2.3 BP神经网络模型

BP神经网络的计算过程包括:工作信号正向传递子过程和误差信号反向传递子过程。在BP神经网络中,单个样本有m个输入,有n个输出,在输入层(I)和输出层(O)之间通常还有若干个隐含层(H)。BP神经网络模型是通过沿着相对误差平方和的最快速下降方向,反复修正权值和阀值,使得误差函数值达到最小。误差函数的表达式如下:

E(ω,b)=12∑n-1j=0(dj-yj)2

(4)

式中:dj为输出结果;yj为实际值。

2. 3 组合模型建模步骤

组合模型建模分为以下步骤:

(1) 建立ARIMA模型,并纳入航空公司运营指标,从多个模型综合分析拟合优度统计量和显著性,确定最优模型Y1=f(x)。

(2) 利用LS-SVM算法,通过交叉验证法来确定模型最优参数,即Y2=s(x)。

(3) 利用BP神经网络算法,通过训练来确定模型最优参数,即Y3=n(x)。

(4) 基于DS证据理论[15-16],确定各模型权重系数ai,建立综合航空运输飞行事故征候万时率预测模型Y=a1Y1+a2Y2+a3Y3。

2. 4 自变量筛选

由于影响航空公司运行安全的因素众多,包括运输量、盈利能力、人机比例、航空器数量、利用率、维保能力、航油价格、货币汇率等,因此对航空公司运输的飞行事故征候万时率进行时间序列分析,将主要考虑各种因子对其脆弱性的影响。航空运输飞行事故/事故征候的脆弱性主要源自于人员、设备和运行环境的影响,利用散点图分析、相关系数分析、共线性分析,并考虑指标间的相关性,筛选出与航空运输飞行事故万时率关联度较强的运营指标,详见表2。

表2 航空企业运营指标

3 应用实例与分析

3. 1 数据预处理

本文的研究对象选取国内某大型航空公司,其运营时间已经超过30年,对该航空公司运输的月度飞行事故征候万时率作时序图(见图1),发现其总

图1 2008—2016年某航空公司运输的月度飞行事故征候万时率时序图Fig.1 Time sequence diagram of incidents per 10000 flight hours of an airlines during 2008—2016

体呈缓慢上升趋势,并有较大的波动。其中,2008—2012年该航空公司运输的飞行事故征候万时率较低,在序列前期若干月度飞行事故征候万时率为0;2013—2016年该航空公司万时率波动幅度增大,且整体呈现上升趋势;2013年4月、9月、2014年5月该航空公司飞行事故征候万时率出现了大幅度增长,2015年7月至2016年12月飞行事故征候万时率出现了较长时间大幅度上升趋势,且振幅较大,整个序列的方差差别明显。建模过程中,将该航空公司2008年1月至2016年12月的数据作为训练数据,将2017年1~3月的数据作为验证数据,对该航空公司万时率进行了预测。

为了分离出季节性因素,改进序列的稳定性,对数据进行了季节性分解,见图2。

图2 2008—2016年某航空公司运输的月度飞行事故征候万时率(去除季节性因素)时序图Fig.2 Time sequence diagram of incident rate per ten thousand hours (the seasonal factors removed) during 2008—2016

图3为分解所产生的季节性因素时序图,其表现出极为明显的季节性特征,即可确定s=12。

图3 2008—2016年某航空公司运输的月度飞行事故征候万时率季节性因素时序图Fig.3 Time sequence diagram of the seasonal factors of incidents per 10000 flight hours during 2008—2016

3. 2 ARIMA模型识别

通过分析残差的自相关函数(ACF)和偏自相关函数(PACF)图(见图4)可知,当残差的ACF滞后值lag=12时,残差的ACF和PACF均未呈现出截尾性,且自相关系数不为0,即先设定q=1、Q=1;当残差的PACF滞后值lag=12时,偏自相关系数不为0,即先设定p=1、P=1。

图4 残差的自相关函数(ACF)和偏自相关函数(PACF)图Fig.4 ACF and PACF of residual

以Y1为因变量,表2中的7项指标为自变量,应用SPSS 20软件从低阶开始依次计算各种阶数的模型,最优模型确定为ARIMA(1,1,1)(1,1,1)12。

ARIMA(1,1,1)(1,1,1)12模型统计量见表3。

表3 ARIMA(1,1,1)(1,1,1)12模型统计量

由表3残差白噪声检验结果显示:其残差序列的自相关函数和偏自相关函数均在可信区间内,Ljung-Box统计量值为21.98,显著性p为0.079,即差异无统计学意义,故拒绝原假设,可认为残差序列呈白噪声,该序列为随机序列;平稳的R2为0.689,正态化的BIC为-2.56,表明拟合模型较为理想,可用于预测分析。

ARIMA(1,1,1)(1,1,1)12模型的t检验结果见表4。

由表4可见,该模型通过了t检验。

表4 ARIMA(1,1,1)(1,1,1)12模型t检验结果

3. 3 LS-SVM模型识别

LS-SVM模型的精度取决于特征空间向量和核函数。核函数经分析后将选择径向基核函数,即

至2013年,飞机数据库已经较广泛地应用于飞机设计中,计算机辅助设计也已基本实现,但是飞机产品的公差设计仍不能实现数字化,还需人工查找有关国家标准设计手册以及某些飞机公差设计手册。贾小勐和郭长虹发现了这一领域的空白,使用VC++和 Access软件,开发了国家标准公差、配合和飞机公差数据库。该数据库能够自动查找公差与配合,可以通过计算机简便、迅速、精确地设计和验证飞机公差,为计算机辅助公差的设计打下了技术基础[6]。

K(xi,x)=exp-‖x-xi‖2σ2

(4)

对应SVM为径向基函数分类器,通过多次试验将参数定为:C=10,核函数参数σ=0.000 1,这些参数使LS-SVM模型的泛化性较强。

为了避免出现计算饱和的情况,对偏差数据进行归一化,并依次预测训练样本得到2017年1月至3月的预测值。

3. 4 BP神经网络模型识别

BP神经网络模型输入层将万时率的年度与月度作为因子,表2中的7项指标作为协变量;隐含层考虑到样本的规模和协变量数量设定为1层;输出层因变量设定为飞行事故征候万时率。激活函数设为恒等,错误函数设为平方和。训练样本分配为:训练统计量83个、测试9个、保持19个。BP神经网络模型统计量见表5。

表5 BP神经网络模型统计量

3. 5 组合模型预测

根据各模型的相对误差(见表6),得到2007年1~3月3种预测模型对应的权重,见表7。

表6 3种模型飞行事故征候万时率预测值与实际值的比较

表7 3种预测模型对应的权重

由表7可见,ARIMA+LS-SVM+BPNN组合模型(以下简称组合模型)为:Y=0.126 8×Y1+0.083 0×Y2+ 0.793 6×Y3。

图5为利用组合模型对2008—2016年某航空公司飞行事故征侯万年率的拟合结果。

图5 2008—2016年某航空公司运输的月度飞行事故征候万时率拟合值Fig.5 The fitted values of incidents per 10000 flight hours during 2008—2016

由图5可见,组合模型拟合结果的总体趋势与实际情况大部分吻合,且各月的飞行事故征候万时率拟合值均包含在实际值95%的置信区间范围之内。

此外,组合模型拟合值的最大绝对误差为0.57(2014年5月),2016年9月、2009年3月的绝对误差也较大,最小绝对误差小于0.01(包括2009年12月等13个数据点),拟合值在拐点处误差较大,表明组合模型能够反映出该航空公司月度安全状态的真实波动;而序列末尾的拟合值与实际值具有较好的重合度,表明组合模型的预测精度较高。

3. 6 预测结果分析与讨论

3.6.1 组合模型预测结果分析

图6为利用组合模型对2017年1~3月某航空公司运输飞行事故征候万时率的预测值与实际值的比较。

图6 2017年1~3月某航空公司飞行事故征候万时率的预测值与实际值Fig.6 Real actual and predicted values during Jan.2017~Mar.2017

由图6可见,2017年1~3月该航空公司运输的飞行事故征候万时率将出现快速上升,安全生产形势恶化明显;组合模型的预测值与实际值变化趋势完全一致,且预测精度相对于单一模型有极大的提升。预测结果显示:该组合模型能够准确地反映航空公司安全态势的动态变化,可对航空公司的安全状态进行短期预测。

在模型预测误差方面,组合模型明显优于各单一模型,表明组合模型的预测精度优于单一模型,且更接近实际值。但是组合模型的预测值与实际值仍存在一定的误差,模型的精确度仍有提高的空间。

3.6.2 讨 论

本文采用某航空公司2008—2016年的运营数据用于建模,2017年1~3月的数据作为检验数据,利用组合模型拟合了该航空公司运输的飞行事故征候序列的总体趋势变化、季节性周期变化及随机波动干扰等因素对序列平稳性造成的影响,提取了序列的线性和非线性特征。时间序列预测的准确性很大程度上取决于历史数据的质量和数量,越接近预测时间点的历史数据对于预测结果的影响越大,这一点在模型预测中已经得到了充分的反映。飞行事故征候万时率的时间序列数列由于受到各种偶然因素的影响,彼此之间存在内在的关联关系,实际上航空公司运输的飞行事故征候万时率一般有着明显的周期变化,如果不考虑这些因素的影响,做出的预测往往不准确。

组合模型利用证据理论进行融合,有效地弥补了各单一模型在数据特征提取和误差修正方面的不足。如图6的结果显示,应用组合模型对某航空公司运输的飞行事故征候万时率进行预测的精度,相对于单一模型有了大幅度的提高。

4 结论与展望

本文以某大型航空公司的近十年历史运营数据和飞行事故征候事件数据为依据,建立了飞行事故征候万时率预测组合模型,并进行了实例验证,得到如下结论:

(1) 组合模型通过历史数据的线性和非线性特征的共同提取,经模型参数估计与诊断检验以及实证检验发现:其预测结果可为航空企业中高层决策人员预防事故提供可靠的数据支持。

(2) 组合模型纳入了运营数据等因素对飞行事故征候万时率的影响,修正了单一模型的误差。结果表明:通过大样本的训练,组合模型能够明显提高飞行事故征候万时率预测的精度。组合模型的短期预测能够准确地反映飞行事故征候万时率的变化趋势,预测精度较高,但由于影响航空安全的因素复杂多变,目前预测值的可接受范围约为3个时序间隔,即3个月。

(3) 组合模型还需要进一步改进和提升。本文仅通过历史数据去预测未来的状况,但当同一时间点发生多次事故征候时,将形成离群值,会导致模型的预测精度下降。因此,从航空企业的预测实际需求出发,若预测周期的精度能够达到6~12个月,且能将安全与企业的年度发展计划结合得更加紧密,将有利于企业制定完备的预防方案和赢得更多的准备时间,从而减少飞行事故征候的发生。

[1] 甘旭升,端木京顺,卢永祥.灰色均生函数模型及其在航空装备事故预测中的应用[J].中国安全科学学报,2010,20(6):40-44.

[2] 凤四海,李枣,贺元骅.基于灰色关联法的飞机火灾事故统计分析与启示[J].安全与环境工程,2017,24(3):138-143.

[3] 程明,梁文娟.民航安全状况与社会经济指标关联分析[J].中国安全生产科学技术,2016,12(1):158-162.

[4] 冷信风,赖祖龙.基于GIS和PSO-SVM模型的文山州石漠化风险评估[J].安全与环境工程,2014,21(4):19-24.

[5] 丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10.

[6] 王志军,郭忠平,李勇.基于神经网络的安全评价指标重要度判定方法及应用[J].中国安全科学学报,2005,15(12):21-24.

[7] 刘杰,杨鹏,吕文生,等.城市空气质量的BP和RBF人工神经网络建模及分类评价[J].安全与环境工程,2014,21(6):129-134.

[8] 汪送,王瑛,李超.BP神经网络在航空机务人员本质安全程度评价中的应用[J].中国安全生产科学技术,2010,6(6):35-39.

[9] Bates J M,Granger C W J.The Combination of Forecasts[J].OperationalResearchQuarterly,1969,20:451-468.

[10]Greenberg R,Cook S C,Harris D.A civil aviation safety assessment model using a Bayesian belief network (BBN)[J].AeronauticalJournal,2016,109(1101):557-568.

[11]程明,梁文娟.MLR和ARIMA模型在民航安全业绩预测中的应用[J].中国安全科学学报,2016,26(2):25-30.

[12]Mcfadden K L,Hosmane B S.Operations safety:An assessment of a commercial aviation safety program[J].JournalofOperationsManagement,2001,19(5):579-591.

[13]中国民用航空总局安全办公室.航空公司安全评估系统[R].北京:中国民用航空总局安全办公室,2000:21-35.

[14]民航总局飞行标准司.航空运输监察系统(ATOS)[Z].民航总局飞行标准司,译.北京,2000:59-88.

[15]Dempster A P.The Dempster-Shafer calculus for statisticians[J].InternationalJournalofApproximateReasoning,2008,48(2):365-377.

[16]刘晓光,胡学钢.D-S证据理论在决策支持系统中的应用[J].计算机系统应用,2010,19(10):112-116.

猜你喜欢
航空公司神经网络事故
基于递归模糊神经网络的风电平滑控制策略
航空公司的低成本战略及其实施对策探讨
学中文
IATA上调2021年航空公司净亏损预测
神经网络抑制无线通信干扰探究
废弃泄漏事故
基于神经网络的中小学生情感分析
小恍惚 大事故
基于Q-Learning算法和神经网络的飞艇控制
航空公司客票直销的现状与分析