贡英杰 刘君强 黄 亮
(南京航空航天大学民航学院 南京 210016)
基于随机集贝叶斯网的航班延误分析*
贡英杰 刘君强 黄 亮
(南京航空航天大学民航学院 南京 210016)
针对鲜有研究的航空联盟对航班延误的影响以及航空联盟与延误成因的组合关系,基于贝叶斯网络原理和随机集理论,分别在完整样本和仅有统计信息的情况下对航空公司的航班运行情况进行贝叶斯建模.通过对加入航空联盟前后的延误情况进行对比分析、敏感性分析及与其他影响航班延误的关键因素进行组合分析,指出基于随机集贝叶斯建模的方法能为延误分析提供支持;加入航空联盟后,航班延误的整体情况得到改善;相对其他不可控的影响因素,航空联盟、航空公司自身因素的组合改善能有效地减少延误.
航空联盟;航班延误;贝叶斯网络;随机集理论
航班延误的客观原因可以分为航空公司自身原因、空管原因、流量控制、天气原因等,从近5年的民航统计公报来看,航空公司原因的占比一直处于前三的位置.
许多针对航班延误的研究是对延误成因进行分析及预测,并量化考量这些因素对其带来的影响.徐涛等[1-3]通过贝叶斯方法建立了不同的航班延误预测与波及的模型,对航班延误情况进行概率性预测,体现了其有效性;杨秀云等[4]基于动态排队模型依据航班运行流程对航班延误进行了仿真,得出各关键影响因素对航班延误影响大小;Rutner等[5]以繁忙机场为研究对象,认为有限的跑道容量是制约航班延误的主要因素,改良跑道运作策略能增加容量并减少航班延误;Schaefer等[6]对机场航班延误波及进行了建模,模拟了天气原因带来的影响;Wong等[7]建立了出发和到达延误模型来研究航班延误的传播方式、恢复措施以及个人因素的影响;Malone等[8]通过建立网络模型对枢纽机场航班延误的复杂现象进行分解学习,并计算了各个机场带来的延误情况;这些研究都关注了航班延误的影响因素及传播方式,并对不同延误因素进行了分析学习.
目前的文献鲜有航空公司加入航空联盟后对其航班延误的影响分析,同时多数研究都在航班延误的因素相互独立且不同时发生的基础上进行[9].这两方面的主要难点在于航班延误和航空联盟之间影响关系不够清晰,分析两者之间的相关性以及组合原因的影响所需的实际数据也很难直接获取.贝叶斯网络在概率推理上是一种行之有效的方法,而随机集理论能够处理一些不确定或者不精确的信息,可以充分利用统计信息,解决缺少样本数据的问题.将运用贝叶斯网络方法,并结合随机集理论,以航班延误情况为分析点对航空联盟与航班延误之间的关系做出分析,并与航班延误的客观原因的影响进行组合分析.
1.1 贝叶斯网络
贝叶斯网络的图形是一个有向无圈图.图中一个节点表示一类随机变量,节点间的关系用有向弧表示,通过各节点之间的条件概率计算,将各个条件概率作为节点之间的强度链接关系构建网络.在d-分隔和条件独立性假设的前提下,一个变量集U={X1,X2,…,Xn}的概率分布可以表示为
(1)
获取观测证据E后,可以根据贝叶斯定理来更新事件的后验概率,即由下式求得
(2)
贝叶斯网的建立主要为两个方面的内容,模型结构学习和参数学习.网络结构可以简单的以专家经验进行构建;而参数估计把模型参数θ视作随机变量,用先验概率分布来表示关于θ的先验知识,观测到完整数据后,再对其后验概率分布进行计算.
1.2 随机集方法下的贝叶斯网
随机集是指取值为集合的随机元,是概率论中随机变量(或随机向量)概念的推广.设(Ω,F,P)是一个概率空间,F是Ω上的σ代数,P为概率测度,(Θ,βΘ)是一个可测空间,βΘ是Θ上的σ代数,则称映射X:Ω→2Θ为随机集,表示为[10]
X={Ai,Mi},∀i,1≤i≤2n
(3)
样本数据较少或缺失时,经典贝叶斯网络无法直接通过样本学习获取网络参数.这种情况下,EM算法、随机抽样算法等都可以进行近似的参数学习,其中EM算法可能陷入局部最优的情况,而随机抽样算法在精度方面需要大量的抽样次数.基于随机集理论对贝叶斯网的条件概率表进行近似计算,需要明确节点之间的对应关系,以及各个节点的统计参数,而对有标记样本数量没有要求.并且在节点不多的情况下,相比其他两个方法,计算量更小[11].
将航班延误时间和延误因素节点之间看作是汇连关系,则延误因素节点和延误时间节点之间的关系可以用一个函数ζ=f(ξ),ξ=(ξ1,ξ2,…,ξn)来表示,ξi是第i个因素节点的参数,ξi为随机变量,则ζ也是随机变量.则由ζ=f(ξ)的相互关系以及随机集的单调性原理可以得到随机集的像,由式(3)的表达方式表示为{Rn,p}.基于随机集的扩张原理,则可以求得变量的上下概率分布[12],该分布包含了变量的分布函数,则最终需要的条件概率见式(4).
基于随机集方法的贝叶斯网络的基本思想在于通过随机集的方法来获取网络参数中的条件概率表,只需要一定的统计样本参数,而不需要大量的有标记样本,其建立步骤如下.
步骤1数据预处理,获取样本的统计信息,确定贝叶斯网的拓扑结构和节点状态,根节点先验概率计算可以直接由统计或者先验经验获得.
步骤4基于区间数学的基本公式,由ζ=f(ξ)计算得到ζ对应An的像的值区间Rn=f(An),以及对应的概率赋值p=∑{Mn|Rn=f(An)}.
步骤5基于步骤3得到的像及其相应概率赋值可以构造随机变量ζ的数据包络.则贝叶斯网络中对应节点的离散区间[a,b)所需的概率可以由式(5)计算.计算得到的概率区间随着划分的细化可以越来越精确,当达到所需的精度时,则可以用数值来替代.
步骤6判断是否获取了所有需要的条件概率,若没有则重复步骤2~5,否则就根据贝叶斯公式计算得到完整的条件概率表,即完整的贝叶斯网络参数.
进行组合分析时,只需要给出相应影响因素的状态证据,即可由式(2)得到相应的后验概率进行相应的分析;当组合较少时,也可以直接计算相应条件概率的近似区间进行分析.
2.1 基于样本的模型构建
以国内某枢纽机场2011年的航班运行数据作为样本,选取其中部分国内主要航空公司(东航、南航、国航、海航、厦航、天航、首航、川航、上航、深航、山航)的正班离港航班数据,共计22.5万条.对样本进行预处理,航班日期划分为冬春航季和夏秋航季;计划时间进行离散化处理,分为00:00-08:00,08:00-11:00,11:00-15:00,15:00-21:00,21:00-24:00五个时间段;计算每个航班的延误时间,延误时间=实际时间-计划时间,延误时间小于零则代表航班提前起飞(或到达),延误标识由延误时间决定,离港航班延误30 min以上记为延误航班;根据航班运行的日期和所属航空公司来界定是否加入航空联盟,例如东航在6月21日前的航班视为未加入,之后的视为加入,所有航班数据有11.6万条被标记为加入航空联盟的航班.
航班数据之间的依赖关系比较明显,可以直接根据相应逻辑关系建立网络模型,并通过直接的样本计算获取了各节点的条件概率表.得到图1的简化模型,可以更直观地看出航空联盟对同一个航空公司航班运行的影响.
2.2 基于随机集的模型构建
此节构建的贝叶斯网络加入了航班延误因素节点,选取航空公司、流量控制、天气、军事活动、旅客以及航空联盟作为航班延误的关键因素数据.由于样本数据中缺少航班延误的具体原因,所以根据随机集理论近似求得节点间的条件概率.
图1 基于样本数据的贝叶斯网
表1 随机变量军事活动以及航空联盟基本概率赋值表
表2为根据步骤3~4计算每个焦元的区间以及概率赋值,并计算相应的Rn,p,得到延误时间分布区间及其概率赋值.
表2 航班延误时间区间及概率赋值
图2是由表2的得到的概率赋值所构造的延误时间的上下概率分布.根据航班延误时间将对应的延误状态等级分为{正常,轻微延误,一般延误,严重延误}={[0,30),[30,60),[60,120),[120,+∞)},则由式(5)得到相应概率区间为
p(正常)=[0.099,0.213)
p(轻微延误)=[0.106,0.314)
p(一般延误)=[0.212,0.347)
p(严重延误)=[0.334,0.374)
图2 航班延误时间的上下概率折线图
当随机变量的区间划分得越多时,得到上下概率分布的区间就越小,也更贴近真实的概率分布曲线,但同时也会带来计算量的增大.将随机变量划分成30个区间时,同样基于该方法可以计算得到如下近似结果.
p(正常)=[0.166,0.173)≈0.17
p(轻微延误)=[0.185,0.196)≈0.19
p(一般延误)=[0.267,0.286)≈0.28
p(严重延误)=[0.355,0.365)≈0.36
此时得到的结果为发生军事活动影响的条件下,未加入航空联盟的航班发生不同延误状况的条件概率.同理可以计算得到其他条件下的延误分布概率,根节点基本事件的发生概率可以由专家经验或统计数据得到,根据航班延误的定义可以构造延误时间与延误的条件概率表,最终得到图3的贝叶斯网络.
图3 基于随机集方法的贝叶斯网
将图1和图3的模型进行对比,以延误时间节点计算其均方根误差(RMSE)
式中:xm1,i,xm2,i分别为两个模型中航班延误时间分布节点的对应概率,计算得到的结果说明分别由两种方法得到的贝叶斯网络在总体分布上很接近,基于随机集方法得到的贝叶斯网络与由实际运行的样本数据得到的网络参数基本一致.
3.1 加入联盟前后对比分析
图4为2011年东航、南航及该机场总体延误情况,通过统计数据分析航空联盟的影响.南航在2007年加入天合联盟,其每个月的总体延误概率上始终处于机场整体延误概率的下方,优于机场整体情况;东航在6月21日加入航空联盟,对比前半年和后半年东航和机场整体的后验延误概率情况,前6个月延误概率在整体延误概率的折线附近上下移动,两者基本持平,后6个月的延误概率处于整体折线的下方较多,略优于机场整体延误概率.通过与机场整体延误情况的对比,可以看出:在东方航空加入航空联盟,天合联盟与该机场建立合作伙伴关系后,东航在2011年下半年的航班产生延误的概率上相比前半年有了一定的改善.
图4 2011年南航、东航、机场整体延误概率图
由图1可得加入航空联盟之前和之后的航班延误的条件概率,将航空联盟也视为航班延误的一个影响节点.基于样本数据可以与航季以及计划起飞时间之间的影响进行对比,二值变量如航季、航空联盟和延误率节点,可以直接比较对最终延误概率的影响.联盟的影响由P(delay|alliance=Y)-P(delay|alliance=N), 航季的影响由P(delay|season=ws)-P(delay|season=sa)计算可得,结果可知,加入航空联盟之后的航班与未加入的航班延误仅相差13%,而不同航季之间的航班延误率相差了23.8%,这说明航空联盟这一属性的影响比航季的影响小.对于有多个取值的节点,可以计算三个节点对航班延误时间节点的互信息[13]来进行比较,见表3.
表3 节点间互信息计算表
表3中变量与延误时间的互信息所占比重越大,表明影响越显著.模型中三个父节点对航班延误时间产生的影响由大到小依次为航班时段、航季和航空联盟.航空联盟相对于航季和航班的计划时间的影响略显薄弱,但是考虑到航季和航班时段这些航班计划中基本属于固定信息,是否加入航空联盟是航空公司的策略之一,可以作为航空公司改善航班延误的一种手段.
3.2 航空联盟与主要航班延误成因的组合分析
对于影响航班延误的外在原因,需要将航空联盟与航班延误成因因素进行组合分析.
图5将旅客,天气,流量控制,航空公司,军事活动和航空联盟分别记为因素A,B,C,D,E,F.依次组合,根据贝叶斯条件概率的计算可以得到加入航空联盟前后不同原因下发生航班延误的条件概率.加入航空联盟之后,同时发生了A,B,C三个因素的情况下,航班产生延误的概率比未加入航空公司时仅发生A,B两个因素的概率低10%.相同的组合因素发生时,加入航空联盟后发生航班延误的条件概率总是小于未加入航空联盟.当所有因素都发生时,得到的结果很接近,但是考虑到每个影响因素自身发生的概率并不高,多个因素组合发生的概率相当低,也就失去了其实际意义.由此可以得出,当多个航班延误原因同时发生时,加入航空联盟可以有效地减少航班延误发生的概率.
图5 各因素组合时的延误概率变化
表4为在加入航空联盟并改善某一因素之后,由模型计算得到的航班延误概率.航空公司加入航空联盟,并在航空公司自身因素上进行改善时(表中D+F),航班延误概率为图中最低的0.383.考虑到实际进行改善所需的经济成本,只考虑两两组合改善的情况,得出的结果是航空公司和航空联盟的组合能得到航班延误的条件概率最低.另外,在实际运行中,模型所分析的五个因素中军事活动和天气属于不可控因素,流量控制因素也存在着一定程度的不可控,旅客和航空公司自身属于较为可控的因素,因此加入航空联盟也可以成为航空公司改善航班运行的一种手段.要想以最小的调整换取最大的航班延误改善,建议航空公司在加入航空联盟的基础上,对航空公司自身因素进行改进.
表4 各因素与航空联盟组合改善的延误概率
研究表明,基于贝叶斯概率统计和随机集的基本理论,可以基于样本的统计数据和随机变量之间的函数关系建立相应的贝叶斯网络模型,得到的模型与基于完整样本数据的模型之间误差较小,能够地反映加入航空联盟前后航空公司航班的整体延误情况.结合不同的模型数据分析,对比加入联盟前后的延误概率数据,并对航班运行时的内在属性行了敏感性分析,可以发现加入航空联盟能对航空公司的航班延误产生较为明显的改善.同时,研究结果也可以为航空公司的航班延误改进提供决策依据,考虑实际进行改善措施需要的经济成本以及实际可操作性而言,只对其中两个因素进行组合改善时,加入航空联盟并对航空公司自身改善是最有效的手段.
[1] 徐涛,丁建立,王建东,等.基于贝叶斯网络的航班延误与波及分析模型[J].系统仿真学报,2009,21(15):4818-4822.
[2] 曹卫东,丁建立,刘玉洁.基于贝叶斯网络的航班离港延误预警分析[J].计算机应用研究,2008,25(11):3388-3390.14
[3] 丁建立,赵键涛,曹卫东,等.基于动态贝叶斯网的航班延误传递分析[J].计算机工程与设计,2015(12):3312-3316.
[4] 杨秀云,王军,何建宝.航班延误关键影响因素及影响程度识别-基于动态排队模型的分析[J].统计与信息论坛,2014,29(4):88-95.
[5] RUTNER S M, WHITAKER J. Alternatives for reducing delays at the United States' busiest airports[J]. Transportation Journal, 1997,36(3):18-25.
[6] SCHAEFER L, MILLNER D. Flight delay propagation analysis with the detailed policy assessment tool[C]. Proceedings of the 2001 IEEE Systems, Man, and Cybernetics Conference,USA, 2001.
[7] WONG J T, TSAI S C. A survival model for flight delay propagation[J]. Journal of Air Transport Management, 2012,23(7):5-11.
[8] PYRGIOTIS N, MALONE K M, ODONI A. Modelling delay propagation within an airport network[J]. Transportation Research Part C Emerging Technologies, 2013,27(2):60-75.
[9] 张连文.贝叶斯网引论[M].北京:科学出版社,2006.
[10] 兰旭辉,熊家军,陈劲松,等.基于随机集的多源信息表示方法[J].数据采集与处理,2012(S1):24-27.
[11] 徐晓滨.不确定性信息处理的随机集方法及在系统可靠性评估与故障诊断中的应用[D].上海:上海海事大学,2009.
[12] 赵亮.基于随机集理论的QMU关键技术研究[D].北京:中国工程物理研究院,2016.
[13] 梁吉业,冯晨娇,宋鹏.大数据相关分析综述[J].计算机学报,2016(1):1-18.
Flight Delay Analysis Based on Random Set Bayesian Network
GONGYingjieLIUJunqiangHUANGLiang
(CollegeofCivilAviation,NanjingUniversityofAeronauticsandAstronautics,Nanjing210016,China)
In order to evaluate the impacts of airline alliances on flight delays and the combined effects of alliances with different factors which were barely investigated, according to Bayesian network and random set theory, the Bayesian models of flight delay analysis were separately built based on abundant samples and only statistics. Throughout the research, the extent of flight delays before and after joining the alliance was compared and their sensitivity was analyzed, as well as the combination of other key factors. The results indicate that the proposed method can strongly support the delay analyse and decision. The flight delay status tends to improve after joining the alliance. The combined improvements of the alliance and airlines can effectively ameliorate the impacts of flight delays relative to other uncontrollable factors.
airline alliance; flight delay; bayesian network; random set theory
TP391
10.3963/j.issn.2095-3844.2017.05.026
2017-08-04
贡英杰(1993—):男,硕士生,主要研究领域为民航交通信息工程及控制
*国家自然科学基金与民航联合基金项目资助(U1533128)