吴龙波
摘 要:航班管制数据的统计分析是优化空中交通管理运行的基础,而空管大數据平台为统计分析提供了强大的计算能力,文章在此平台基础上进行了航班运行统计主题数据仓库的设计,并灵活应用数列求和思想解决了航班统计中的航迹串线难题。
关键词:大数据平台;数据仓库;数列;航迹串线
中图分类号:TP311 文献标志码:A 文章编号:2095-2945(2020)25-0020-02
Abstract: The statistical analysis of flight control data is the basis of optimizing the operation of air traffic management, and the big data platform of air traffic control provides powerful computing power for statistical analysis. On the basis of this platform, this paper designs the thematic data warehouse of flight operation statistics, and flexibly applies the idea of summation of sequence of number to solve the problem of track alignment in flight statistics.
Keywords: big data platform; data warehouse; sequence of number; track crossover
引言
航班管制数据统计是空管运行管理的核心和基础,从现场战术层面一直到全局战略层面都迫切需要全面、准确、实时的数据统计分析结果作为业务支撑。但随着航班量的不断提高和科技的发展,空管业务需求日新月异,给航班运行统计业务带来以下难题:
海量航班航迹数据与传统数据处理架构的矛盾激化,例如传统数据库无法满足航迹数据的批量串线处理的性能需求。
统计分析维度[1]设置粗糙,难以应对管制灵活查询统计的需求。例如目前航班高峰流量的运行统计仍旧停留在按自然天(或自然小时)的时间粒度。
缺乏基于统一的基础数据模型和航班航迹运行统计模型的主题数据仓库,导致用户需求变更时,往往需要重新采集和分析数据,造成重复劳动。
另一方面,大数据及相关应用研发工作已成为民航业内今后的重点战略方向,阿里云研发的航空大脑在北京首都机场成功运用,与航空运输行业知识深度结合,提供了机场停机位分配、班组排班、态势监控等一系列解决方案,充分体现了大数据技术在民航业内的适用性。为适应空管技术发展,解决航迹串线等难题,更好地迎合空管业务的统计分析需求,提升管制数据统计分析效率和准确率,构建基于大数据平台的面向航班运行统计主题的数据仓库极具意义。
1 数据仓库结构设计
基于大数据平台技术[2],本课题计划设计和建设一个面向航班运行统计分析主题的数据仓库,在数据仓库的基础上,实现航班航迹等生产数据的采集、清洗、分层存储、统计、分析以及结果展示。整个系统的应用架构设计如图1所示,模块包括:大数据平台、数据采集模块、数据处理模块、数据服务模块、数据应用模块。
(1)大数据平台。是一个分布式的计算和存储平台,作为整个系统的基础支撑模块,给数据采集、数据处理和数据应用提供基础计算框架和存储支持。
(2)数据采集模块。提供统一的数据采集方案,本课题中主要采集方式为离线,负责生产数据离线采集、脱敏、清洗、转换与存储。
(3)数据处理模块。建立数据仓库模型,通过SQL脚本和JAVA自定义函数[3]实现数据统计分析。
(4)数据服务模块。通过分析型数据库存储结果数据,同时为前台应用提供数据访问接口。
(5)数据应用模块。通过Echarts等前端技术实现前台应用和大屏展示,实现三维航迹展示和二维数据统计图表查询和导出。
2 数据仓库层次设计
以空管当前航班运行统计难点出发,依托大数据平台技术,面向航班运行统计主题数据仓库将建立统一标准的航班轨迹模型,建设中南地区基于航班计划/动态、流控数据和雷达航迹的三层数据仓库。数据仓库设计为三层,按数据治理顺序分为ODS、DWD和DWS,每层含义如下所示。
ODS(OPERATION DATA STORE,业务原始数据存储层):ODS直接存放从业务系统抽取过来的数据,并且结构上与业务系统保持一致;ODS层在业务系统和数据仓库之间形成一个隔离,降低业务系统与数据仓库的耦合性。
DWD(DATA WAREHOUSE DETAIL,数据仓库明细层):ODS层的数据经过清洗、格式转换后进入DWD层;DWD层的数据与数据仓库模型保持一致;DWD的建设以航班航迹模型为基础,是数据仓库建设的重点内容。
DWS(DATA WAREHOUSE SUBJECT,数据仓库主题层):DWS层数据以应用需求为出发点,按应用主题汇集数据,便于实现某一领域内的快速统计分析和结果保存。
3 巧用数列解决航迹串线
在航班运行统计主题数据仓库中,对航迹数据的计算是批量进行的,例如按天统计。在批量计算中,必须解决把同一个航班的航迹进行串线的问题,即对同一个航班的数据进行唯一标识。但同一天的数据中,航班号一致并不代表一定是同一个航班,在本文中,我们定义如果同一个航班号的连续两个航迹的时间差超过60秒(含)则认为这两个航迹属于不同航班。传统辨别航迹串线的算法中,一般通过航班的二次代码或结合航班计划进行串线,但这种方法存在一些问题,例如航班的二次代码并不能在飞行全程保持统一,而航班计划也往往不能囊括所有的航班,不可避免会导致航迹数据中有小部分航班无法关联计划ID。
为解决传统算法的弊端,本文在航迹串线中仅使用最可靠的两个数据航班号以及航迹时间,我们假设某1天的航迹数据按航班号和航迹时间升序保存在表1中,该表有5个字段,包括航班号、航迹时间、时间序列、增量标识以及串线标识。其中时间序列是把航迹时间转化为整数描述,增量标识是当前记录与上一记录的差值(如果本记录是第一条,则该字段值为0),串线标识是用来鉴别相同航班号的不同航班。
从上表可以看出,尽管航班号都是CLB996,但通过串线标识可以从这个航班号的航迹中识别出两个不同的航班。
4 结束语
本文研究了一个基于大数据平台的面向航班运行统计主题的数据仓库,相比传统模型,能实现快速处理海量数据,并提升统计分析的灵活性,在此仓库上创新性使用数列思量来深入论证了空管业务中的航迹串线算法,证明了航班主题数据仓库解决当前空管统计业务重难点问题的能力。
参考文献:
[1][美]Ralph Kimball,[美] Margy Ross.大数据应用与技术丛书·数据仓库工具箱(第3版):维度建模权威指南[M].清华大学出版社,2015.
[2][美]Martin Kleppmann(马丁·科勒普曼).数据密集型应用系统设计[M]. 赵军平,吕云松,耿煜,等,译.机械出版社,2018.
[3]李妹芳.ODPS权威指南:阿里大数据平台应用开发实践[M].人民邮电出版社,2017.