吴 勇
(上海民航新时代机场设计研究院有限公司,上海 200335)
机场大数据平台的设计与应用是智慧民航发展过程中至关重要的部分,《中国民航四型机场建设行动纲要(2020—2035年)》指出,建立以机场运行数据为核心的大数据信息共享平台,覆盖旅客出行全流程、货物运输全链条、运行监控全系统、机场管理全领域[1],综合运用大数据技术,采集、洗练、统计和分析各类旅客服务、生产协同、安全与安保、综合交通、商业管理、能源管理及航空物流数据,实现预测分析、资源优化、场景控制、辅助决策等功能,利用大数据辅助科学决策,推动政府管理理念和行业治理模式革新。目前,大数据信息共享平台在机场建设中的具体应用方式如下:通过在本地私有云上部署机场Hadoop大数据平台,提供大数据处理环境和分布式数据处理功能,以实现对外大容量的数据存储、分析和实时流式数据处理分析功能。考虑到机场基础运行数据每年都以倍数关系增长,Hadoop集群的数据量增长速度更是大于基础运行数据增幅,而机场基建项目的审批流程从项目立项到竣工验收时间漫长,往往遇到因数据增长超过预期,导致项目验收后基础硬件资源利用率过高或已不能满足使用需求的问题。本文以首都机场大数据平台现状为例,分析说明现有大数据应用模式的不足,在此基础上提出一种混合云弹性伸缩架构的机场大数据平台设计方案,通过将机场现有云下数据中心业务逐步迁移至第三方云上,解决运行数据快速增长与基础硬件资源短缺的问题。
首都机场是第一批开展大数据平台建设的国内机场,2008年首都机场开始立项建设机场大数据平台,拟对机场的运行数据、商业数据及能源类数据等进行统一管理。2014年,首都机场智慧运营管理平台建成投产,是国内首个基于Apache Hadoop架构的机场大数据平台,该平台具有通用的spark、stream等开源通用组件,能够支持非结构化数据及流数据的处理[2]。2019年,首都机场启动大数据平台项目的升级建设工作,对现有大数据平台进行升级改造,在原平台基础上增加了面向生产运行、经营管理、旅客服务、安全防范等业务领域的应用支撑平台。
从首都机场大数据平台的建设案例可以看出,由于机场运行数据增长和新增业务应用每隔3~5年就需要重新立项升级扩容现有大数据平台,采用本地私有云的建设模式,每次升级都需对现有基础硬件设施重新扩容,建设周期漫长、初期建设投资高。而采用混合云建设模式将部分业务迁移至第三方云上部署,可以大幅提升大数据平台基础硬件资源处理能力、缩短建设周期、降低建设初期投资费用,同时节约运维成本。
目前国内各大机场陆续开展机场大数据基础平台建设,对机场数据进行资产化管理,通过云计算、人工智能、数字孪生和物联网等创新性信息技术综合运用,实现机场在更多业务场景的创新性应用与服务。
本次机场大数据平台设计方案(如图1所示)基于混合云平台架构提供大数据MapReduce服务(MRS),MRS是一个在基于云上业务部署的高性能并行计算平台,采用湖仓一体化架构,减少数据重复存储,消除数据孤岛,提供数据统一存储、加工、查询、分析的功能,支撑离线数据及实时数据的处理,通过各组件功能,实现对大数据中心能力的基础技术支撑[3]。
图1 混合云架构大数据平台设计方案
2.1.1 混合云平台
混合云是一种混合部署方式,通过VPN或者企业专线,把私有云和公有云有机结合在一起。公有云服务器主要负责处理各企业间的共有业务、存放公共数据、分析计算数据量大但数据安全要求较低的数据[4]。本地重要业务核心数据部署在本地私有云服务器上,既具有私有云的保密性和安全性,也兼备公有云资源丰富和扩展性强的特点。
基于混合云平台的机场大数据平台设计方案可随大数据应用数据业务量的变化弹性扩展,避免业务高峰时期基础计算资源不足,以及业务空闲时期基础资源利用效率低等问题。
2.1.2 Hadoop大数据平台
随着互联网的发展,数据种类越来越多,数据产生的速度越来越快,传统的数据库方案已无法在成本受控的情况解决这些新的大数据问题。为解决以上大数据问题,2004年GoogleApache基金会推出了Hadoop大数据处理的开源解决方案,Hadoop架构是一个开源分布式计算平台,可以通过混合云部署(本地数据中心+第三方云厂商),完成海量数据的处理。
Hadoop大数据平台是一站式大数据管理及开发平台,可以汇聚机场内各类数据形成机场数据资源池。提供HDFS、HBase、Kafka、MapReduce、Spark、Hive等 大 数据组件,数据资源池内数据可进行批、流、交互式多引擎融合分析。
HDFS(Hadoop Distributed File System):适合运行在云平台上的分布式文件系统,可以提供高吞吐量的数据访问,非常适合大规模数据集上的应用;HBase:分布式开源存储系统,面向列数据库;MapReduce:用于大规模并行数据集计算,能自动处理并行数据业务;Kafka:具备分布式发布订阅消息功能,可以提供高可靠海量数据的消息分发服务;Spark:用于大规模数据处理的快速通用分布式的计算框架;Hive:基于Hadoop大数据平台的开源数据仓库工具;提供类似SQL的Hive QL语言操作结构化数据存储服务和基本的数据分析服务;Flink:分布式流对流数据和批数据的处理引擎。
2.1.3 数据仓库
采用大规模并行分析MPP(Massive Parallel Processing)数据库作为数据仓库,它是Shared Nothing架构的分布式并行结构化数据库集群,具备高性能、高可用、高扩展特性,支持行存储与列存储。
采用湖仓一体化方案,提供数据湖、数据仓库、数据集市等多种分析能力,减少数据重复存储,消除数据孤岛。
数据源包含生产类数据、安全类数据、旅客服务类数据、物流信息类数据,实现数据处理、数据仓库、数据治理等功能。
2.1.4 数据采集
2.1.4.1 数据采集方式
完成数据统一采集,具备系统数据接入能力、批量文件接入能力、实时消息接入能力。数据接入类型包括清单级数据、明细级数据、用户级数据、标签数据、指标数据等。
2.1.4.2 实时消息采集
提供流式数据的采集能力。基于智能中心大数据平台数据及服务总线提供的实时流处理工具,提供实时流的设计、开发及实施服务。
对于实时性要求较高的数据,采用实时消息方式接入,保证其可靠性、实时性。消息交互涉及数据发送方、数据接收方。实时消息接入需具备部署简单、易扩展、安全可靠、高效实时等特点。实时消息接入要保证发送方和接收方数据一致性、准确性、实时性;需要具备统计、监控功能,保证双方数据平衡;需具备异常告警功能,发送过程中异常及时告警。
2.1.4.3 批量离线数据采集
基于专业ETL工具,提供离线数据的采集服务,将数据存储于大数据平台。提供包括数据库、文本文件、API接口等数据源的数据离线采集服务。
批量文件接入能力基于FTP(SFTP)传输协议实现文件的交互功能。文件交互涉及数据发送方、数据接收方。批量文件接入对数据提供方提供的数据文件、校验文件进行及时的读取、接收、校验、传输及断点续传,具备传输全过程监控的能力,并保证传输的安全性、准确性和一致性。
2.1.4.4 其他外部数据交换采集
通过机场企业服务总线与机场外联单位之间进行交换获取数据。企业服务总线负责提供API接口服务、数据南北向传输、协议转换、传输路由等功能,通过协议适配,根据实际业务情况,配置相应的数据交换任务,对系统产生的信息资源进行统一采集汇总和传输。
大数据应用服务为机场建立一个数据共享与协同的实时运行数据和历史离线数据的共享转发平台,整合各类旅客服务、生产协同、安全与安保、综合交通、商业管理、能源管理及航空物流数据,统一数据交互格式标准和数据定义,通过技术架构,实现计算、存储、网络和数据等资源的共享,满足机场内部、机场与外部单位间数据交互的需求,促进机场数字化转型[5],辅助机场管理科学决策,推动机场运行管理理念和数据治理模式革新。
2.2.1 可视化业务分析
提供统一的数据展示门户,提供数据图形化展示功能,通过仪表盘、曲线图、柱状图、饼状图、表格等多种图表形式,将旅客服务、生产协同、安全与安保、综合交通、商业管理、能源管理及航空物流数据进行交叉融合和紧密关联,拟定评价指标标准并用直观的可视化图形或文字深度揭示机场运行特性,做到事前预警、事中决策、事后总结。
2.2.2 生产运行分析应用
机场大数据平台提供满足机场特定运行场景运行状态监控需求的数据分析平台,可以对包括航空器、车辆、调度人员运行效率数等实时生产数据进行多维分析建模、下钻关联分析,以页面设计和丰富的图形,实现生产运行的数据可视化展示。对当日实时航班运行情况、放行正常率、始发离港正常率、起飞正常率、值机柜台、安检、登机口、机位等资源的状态、使用率进行综合分析,对机场运行压力实时分析并给出实时评判。
2.2.3 商业管理分析应用
从机场商业的主营航空运输业务角度对支持机场服务和商业收入、经营成本进行分析,在数据管理系统建立的过程中坚持以主营航空运输业务为中心的原则,实现航空主业、整体经营、财务、商业、能源、航班保障服务等领域数据的可视化展示,寻找收入管理短板,为管理者进行投入、产出决策提供科学依据,做好产权和经营性资源价值管理,提升公司整体经营业务水平、资源价值和创新发展能力。
2.2.4 旅客服务分析应用
通过对业务系统的对接、报表采集及在线上报等3种方式实现对进出港旅客服务数据进行统一采集,采集后的数据接入机场大数据平台,获取天气、航路航线、进出港旅客、待值机旅客、已安检旅客、已登机旅客等生产运行数据。针对不同角色提供旅客数据访问权限管理,保障数据的安全性。实时展现进出港旅客量、中转旅客、客流流向分布,内容包括客户投诉反馈、行业测评情况、智慧服务指标、服务监测指标等。
大数据基础软件由本地私有云部分和第三方云服务厂商公有云部分组成。
本地私有云平台配置数据采集和加工VM服务器、分析可视化VM服务器、数据门户VM、综合可视化应用VM服务器和综合可视化代理VM服务器,以及网络传输和业务云存储资源。
本地大数据平台物理服务器采用本地私有云部署,整体可提供Kafka和Flink实时流处理能力50 MB/s,Spark+Hive离线数据处理量50 TB,Hbase数据集市总数据量50 TB、Redis数据缓存能力50 GB。另外,通过VPN或者企业专线接入公有云服务器进行弹性扩展。
为贯彻四型机场建设目标,云计算、大数据、物联网、移动互联、人工智能等创新性信息技术已被广泛地应用于新建和改扩建机场工程建设中,相对于传统的本地大数据平台建设方案,基于混合云架构的大数据平台具备敏捷迭代、快速响应、高扩展等技术优点,有利于机场大数据应用服务的快速部署和弹性扩容,降低建设初期物理硬件资源投资,提升机场融合数据仓库和数据治理能力,为机场数字化转型大数据服务等高阶服务赋能,促进民航业向高质量发展方向转型。
大数据平台在混合云上建设也带来了一系列需要重点研究的问题。首先,考虑到民航行业的特殊性,需确保云上数据安全,防止核心数据泄露。其次,云上、云下都存在海量数据,需确保数据同步及操作的一致性。最后,在保障现有平台稳定运行的前提下,如何将部分现有业务安全迁移到公有云是亟待解决的问题。