摘 要随之全球社会经济的发展,航空业已经在国民经济活动中起到越来越大的作用,航班准确率一直是整个机场服务品质的重要标准之一,如何提升机场运行效率解决航班延误问题,也成为目前民航业的重点研究课题。为了改善航班延误问题,提高航班保障能力,本文从功能设计和技术实现两方面介绍了基于大数据的航班延误管理系统的建设方案,重点研究系统的功能设计、技术架构、数据架构和业务模型,为国内机场同类系统建设提供借鉴。
【关键词】大数据 航班延误
1 背景概述
航班延误问题是目前制约国内民航服务质量的焦点问题,航班正常性工作已成为民航业内的重中之重,不仅关乎民生,更是关乎民航整体运行品质。
为了提高民航资源(空域、跑道、航班)运行效率,各空管局和机场相继建设了CDM/A-CDM系统来协调空域流量资源和机场跑道资源,解决航班正点率低的问题。但航班延误是一个非常复杂的系统性问题,航班飞行保障是个需要各方紧密协作的活动,涉及空管、机场和航空公司三方各种非正常性因素的起因和叠加,除了天气、军事活动等不可控因素外,空域流量限制、航班计划编排、航路时刻通行等多重因素交织,不是简单通过A-CDM系统就能彻底解决问题,需要深入分析和研究清楚各机场的延误特点和规律,找准瓶颈和痛点,才能针对性采取措施,从源头上解决航班延误问题。
因此我们需要充分运用大数据技术加强对航班正常性的分析工作,通过业务梳理和数据建模,从航班编排、空域协同、机场协同、航班保障等各个方面发现航班延误关键症结,从而对现有的资源条件、保障情况和A-CDM系统的协同机制提出更加基础、更趋完善的解决方案,为提高航班正常性提供智能支撑。
2 基于大数据的航班延误管理系统功能设计
2.1 总体目标
航班延误管理系统是一个典型的行业大数据分析系统,核心技术是航班运行业务建模和智能数据挖掘算法技术,依托强大的智能算法组件,以航班正常性为基准,通过民航生态值管理,對航班运行的海量历史数据和实时数据按照业务模型进行挖掘分析处理,监测分析机场航班延误的特点和规律,以可视化的形式,全面、深刻、细致、准确地还原影响航班延误的各种因素及其相互作用关系,为从航班编排计划、容量分配、机位分配等源头和根本上解决或缓解航班延误问题提供切实可行的路径。
2.2 主要功能模块
基于大数据的航班延误管理系统的功能模块以延误检测、原因分析、优化建议为主线,实现航班延误监测、运行数据统计分析,并进一步预测运行趋势,提供优化和决策依据。主要包括:生态值管理、延误情况分析、延误原因症结分析、航班优化、运行报表等模块。
2.2.1 生态值管理
包括机场航班的降落、滑入、停靠、除冰、地服、登机、上/撤轮档、滑出、起飞、机位置机、机位使用、安检、陆测交通等资源运行管理的正常性值的计算与管理。
2.2.2 航班延误情况分析
该模块主要针对小延误航班、大面积航班延误、延误航班、航线延误情况进行分析,具体如下:
(1)“小延误航班分析”:指延误时间在五分钟之内的航班,该类型航班特点是可以通过合并席位加快过站进度等措施消除延误,从而增加航班正常率;
(2)“大面积航班延误分析”:研究分析旅客积压人数与大面积延误航班分布的关系,对大面积航班延误进行预警与预测,并预测大面积航班延误造成的经济损失;
(3)“延误航班”分析:机场延误航班中包括始发航班延误和非始发航班延误,始发航班延误对后续航班的正常率具有明显影响,所以延误航班分析将重点对始发航班的延误率走势、始发航班延误波及程度进行分析;
(4)“航线延误分析”:对航线延误情况进行分析,涉及各个航线排名、各个航线正常率、每个航线上正常率最低的航班、各个航线上延误的架次等数据,从而找到正常率极低的航线,以便采取有效的措施,提升航线正常率。
2.2.3 航班延误原因症结分析
对延误原因进行清单管理,按照来源因素可以单列出的延误原因清单包括:不可抗拒因素(天气、军演、对方机场)、空管因素(空中流量控制、近进容量控制、跑道容量控制)、航司保障因素(飞机起降、滑行、飞机准备、除冰、检修、饮食、其他)、机场管理服务因素(计划推出、放行、机位容量、机位置机、安检)、地面服务因素(监护、清洁、加油、客梯车、摆渡车、陆测交通)、旅客因素(迟到)等。
实际航班延误的原因是很复杂的,各种延误因素之间会传导和相互影响,可能是一种或几种原因(因素)造成的,或者上一个航班延误或前一个航班保障服务节点延误传导过来的。而每个节点延误都与管理或执行主体的行为或制度密切相关,该模块对航班延误进行关联分析,针对每类延误原因,分析造成原因的主体对象、操作行为和管理制度,例如可能是航班编排计划不合理、停机位分配不合理、机场放行时间ACOBT不合理、滑入滑出次序/线路不合理、起飞等待不合理等等各种会产生资源冲突的原因。
2.2.4 航班优化分析
航班优化是一个比较系统和复杂的问题,系统性主要体现在优化不是着力于一个点而是覆盖整个面,包括航班时刻编排、停机位选择、飞机推出与滑入等。该模块针对航班延误原因症结分析的结果,通过大数据模型和算法,提供航班优化的建议,例如航班时刻编排的削峰填谷、停机位使用效率的优先选择等,以帮助机场提高航班正点率。
3 系统技术实现
3.1 技术架构
基于大数据的航班延误管理系统采用分布式架构搭建,总体架构如图1所示。
整个系统包括数据源层、数据采集层、数据存储层、服务引擎层、应用层以及展示互动层等六个重要组成部分,对各部分的简述如下:
3.1.1 数据源层
基于大数据构建航班延误管理系统所需的相关数据源主要包括空管数据(航班计划、流量容量、起降指令等);航司数据(航班运行计划和保障数据等);机场服务数据(机位分配、上撤轮挡、推出放行、值机安检数据等);其他数据(天气、陆测交通数据等)。
3.1.2 数据采集层
通过建立WebService数据接口,从现有的机场A-CDM系统、空管CDM系统等现有业务信息系统中采集源数据,并利用ETL数据抽取工具对航班延误相关数据进行抽取、清洗转换和加载,生成可用于航班延误各种主题分析的数据集合。
3.1.3 数据存储层
数据存储层采用分布式的结构,使用主流的Hadoop、Spark和Storm三大分布式计算系统相结合的架构来实现。其中Hadoop负责离线的复杂的大数据处理,Spark负责离线的快速的大数据处理,Storm负责在线的实时的大数据处理。而在Hadoop中,yarn负责协调并管理底层资源和调度作业的运行,hdfs负责分布式存储,hive负责大数据的清洗、处理和计算,hbase负责大数据的实时查询。最后,经过大数据处理后的分析数据和业务数据被存储在Mysql中,可以为这些数据的查询提供快速响应。
3.1.4 服务引擎层
该层建立航班数据分析的引擎服务对延误数据体进行分析挖掘,主要功能包括查询服务、OLAP引擎、业务模型库、预警预测、数据挖掘算法服务和业务模型库等。
3.1.5 数据应用层
基于航班延误机理研究,开发分析应用模块,主要包括:生态值分析模块、延误情况分析模块、延误原因分析模块、延误症结分析模块等。
3.1.6 展示互动层
该层是将应用层的模型结果进行可视化展现,既提供传统的饼状图、柱状图、折线图及数据表结合等展现形式,还提供大数据分析展现方式包括决策树、地图分布、驾驶舱、仪表盘、全景视图和多维立方体等。
3.2 数据架构
建立支持分布式航班延误监测与分析的数据资源体系,实现航班延误监测与分析数据的采集、加工、存储和管理,数据架构如图2所示。
数据架构采用从数据源、数据类型、指标体系到数据主题、数据模型、元数据的架构进行管理,具体如下:
3.2.1 数据源
数据源主要来自:
(1)空管数据:包括航班计划审批数据、流量容量数据、起降指令数据等;
(2)航司数据:包括航班运行计划、航班保障数据;
(3)机场服务数据:包括机位分配、加油、除冰、上撤轮挡、推出放行、安检等数据;
(4)其他相关数据:包括天气、陆测交通数据等信息。
3.2.2 数据类型
主要分为结构化数据和非结构化数据、实时数据和非实时数据,具体来说可分为文件流型数据、事件型数据、周期型数据以及图片、视频等多媒体型数据。
3.2.3 指标体系
根据业务主题来划分不同的指标体系,例如空管指标体系、航班运行与保障指标体系、机场管理服务指标体系、航班延误指标体系、延误原因指标体系等。
3.2.4 数据主题
根据不同的应用目的,将数据分为不同的主题,例如航班运行数据、保障数据、延误数据、延误原因数据、延误症结数据等。
3.2.5 数据模型
为了满足不同的分析场景,利用数据处理、统计分析和数据挖掘等算法构建不同的数据模型。
3.2.6 元数据
关于数据的数据,用于对数据进行描述和数据编目,形成数据的资源目录体系,便于管理。
3.3 业务建模
业务建模包括生态值模型设计、延误情况统计分析模型、延误原因分析模型、延误原因症结分析模型等内容。
3.3.1 生态值模型设计
生态值指的是资源在正常条件下运行的数值,由于各种干扰和意外因素影响,资源实际运行值往往会偏离正常值。民航生态值包括航班的降落、滑入、停靠、除冰、地服、登机、上/撤轮档、滑出、起飞、机位置机、机位使用、安检、陆测交通等资源运行生态值,生态值计算符合统一的均值方差标准模型。建立生态值模型的目的是为了计算资源当前运行的正常性范围,为量化监测和分析资源运行的非正常性提供基准依据。
3.3.2 延误情况统计分析模型
航班延误情况分析的目的是了解当前机场航班延误波及的资源范围、程度、分布和趋势情况,包括按时间、航线、航空公司、航班、机场、停机位分析航班延误率、延误时间程度分布,总结延误规律,为延误原因分析和解决延误问题提供途径依据,该模型需要体现对延误情况分析的全覆盖、分层次、分时段、分级别等特征,如图3所示。
3.3.3 延误原因分析模型
分析航班延误原因的目的是为了了解各种因素对航班延误的影响范围、影响特点和影响程度,对各种航班延误来源因素进行定量考量和分类排序,为减少或消除来源因素对航班延误的影响提供途径依据。该模型支持按时间、航线、航空公司、航班、机场、停机位统计分析航班延误的各种原因分布,对于每类原因,统计航班延误的次数、延误程度情况、影响范围。
3.3.4 延误原因症结分析模型
延误原因症结分析需要建立原因关联航班节点模型、航班节点延误关联模型、延误原因制度关联模型等三个基础模型。其中原因关联航班节点模型如图4所示,用以解决延误原因是如何施加到航班节点上的问题;航班节点延误关联模型用以解决时间延误是如何在各航班节点之间传导的问题;延误原因制度关联模型用以解决延误操作是哪个主体的哪个行为产生的,该行为依据了哪个管理制度,这为通过改进制度和操作办法来减少延误提供了技术支持。如图4所示。
3.3.5 航班优化模型
航班优化主要体现在航班时刻编排、停机位、飞机滑入滑出方面的优化,因为经济原因大多数航班都集中在“黄金时刻”,这就造成了航班编排时刻不合理。在一天中某个时段航线特别拥挤,导致航班的正常性降低。对航班时刻的优化方案采用削峰填谷的方式,可以在降低经济效益最低的基础上最大程度地提高航班正常率。对于机场停机位与飞机推出方面的优化也有助于提高航班正常性。
4 总结
将大数据技术运用于航班延误管理,有助于分析清楚导致机场航班延误的各种原因及责任主体,为从源头上解决航班延误问题提供了方案依据,建立基于大数据的航班延误管理系统对于促进空管、航空公司、机场三大运行主体的协调运行,减少航班延误,提高机场资源利用率,提升旅客服务质量等方面具有重要作用。
参考文献
[1]Tom White.Hadoop权威指南:大数据的存储与分析[M].北京:清华大学出版社,2017.
[2]冯思轶,胡晓芸,李沁.基于CDM的航班综合信息应用平台研究[A].上海空港,2014.
[3]施瓦茨,扎伊采夫,特卡琴科.高性能MySQL[M].北京:电子工业出版社,2017.
作者简介
冯思轶,碩士学位。工程师,主要从事机场信息集成系统的运行管理工作。
作者单位
上海机场(集团)有限公司虹桥国际机场公司 上海市 200335