大数据在机场综合管理数据库建设中的应用研究

2015-05-30 07:33宋海瑞廖必凯
计算机时代 2015年7期
关键词:数据仓库数据挖掘可视化

宋海瑞 廖必凯

摘  要: 把数据仓库、数据挖掘和可视化等大数据研究的关键技术应用到机场综合管理数据库建设中。利用数据仓库、数据挖掘和可视化等大数据研究的关键技术,实现机场在建设综合管理数据库过程中,各类型海量数据处理、数据仓库建设、数据的分析及价值发现。进而为机场建设综合管理数据库提供了设计方案。

关键词: 大数据; 机场; 数据仓库; 数据挖掘; 可视化

中图分类号:TP392          文献标志码:A     文章编号:1006-8228(2015)07-36-03

Research on the application of Big data in construction of airport management database

Song Hairui, Liao Bikai

(The Second Research Institute of CAAC, Chengdu, Sichuan 610041, China)

Abstract: Applying the key technology of Big data research, i.e. data warehouse, data mining and visualization, etc. in the construction of airport comprehensive management database, use these key technologies to realize the various types of massive data processing, data warehouse building, data analysis and value found. And then, provide the design scheme for the construction of airport comprehensive management database.

Key words: Big data; airport management; data warehouse; data mining; visualization

0 引言

目前,国内大部分机场已建设了各类业务信息系统,这些系统基本能满足机场运行和管理层面的业务需求。如何利用现有的手段和技术水平更好地整合利用这些系统运行多年产生的各类历史业务数据并发掘其潜在价值,进而为机场改进决策,提高服务质量,增加运营收益是大部分国内机场在建设机场综合管理数据库过程中面临的主要问题[1]。当前,大数据技术、数据仓库技术以及数据挖掘技术在很多领域的成熟应用为机场综合管理数据库建设提供了技术支撑和实现途径。

1 大数据综述

大数据是继云计算,物联网之后 IT产业又一次颠覆性的技术革命,对国家治理模式,企业决策,组织和业务流程,以及个人生活方式等都将产生巨大影响。大数据挖掘和应用可创造出超万亿美元的价值,是未来IT领域最大的市场机遇之一。

大数据不是一种新技术,也不是一种新产品,而是一种新现象和新思想,是近来研究的一个技术热点。大数据具有四个主要特点:数据种类繁多、数据体量巨大、价值密度低、处理速度快。因此传统的数据库时代的数据处理方式已经远远不能满足大数据时代的数据处理要求,这就需要用新的数据思维和技术来应对[2]。

大数据技术是一系列收集、存储、管理、处理、分析、共享和可视化技术的集合。适用于大数据的关键技术包括数据分布技术、任务分解技术、数据挖掘技术、数据仓库技术、可视化技术等。数据分布技术和任务分解技术是Hadoop的核心思想。数据挖掘技术是结合统计数据和机器学习,使用数据库管理技术从大型数据集中提取有用信息和知识的技术。数据挖掘的工具及方式包括回归、分类、关联分析、演化分析、聚类分析、序列模式等。大数据研究中典型的数据仓库技术包括Greenplum、Hive、Big Table的分布式数据库系统和HBase的非关系型数据库系统。可视化技术是通过创建图片、图表或动画等展示大数据分析的结果。典型的可视化技术包括标签云及Clustergram技术等。

2 机场运行面临的数据处理的挑战

随着互联网技术的不断发展,数据本身就是资产。云计算为数据资产提供了保管、访问的场所和渠道,但如何盘活数据资产,使其为企业决策乃至个人生活服务,是大数据的核心议题。目前,国内主要机场普遍采用以机场运行数据库为核心的建设模式,该模式以航班信息为主要信息源,以中间件平台为基础,实现信息集成系统、离港系统、航班显示系统、广播系统等生产系统的数据交互以及旅客服务类系统、机场及航站楼的设备设施保障系统的协同运作。基于机场的运行模式,数据产生于航班保障和旅客服务的各个方面,如航班信息数据、业务处理数据、行李数据、旅客服务类数据、设备设施监测数据、物流数据、交通枢纽的运力及车位数据、商业服务数据、财务办公类数据等海量的数据[3]。

在大数据时代,“数据海量、知识匮乏”是大数据时代多数企业的通病。虽然机场在日常运行管理中会产生大量的运营数据,然而大部分机场的运行数据库仅仅实现航班数据的实时处理,无法深入挖掘出隐藏在海量数据背后潜在的价值。因此建立机场综合管理数据库,应用大数据技术实现对机场数据的综合管理以及深入挖掘是十分必要的。

3 构建方案

构建机场综合管理数据仓库涉及海量数据信息,既有大量航班实时运行数据,又有海量的历史数据。数据仓库的建设应该支持机场综合分析管理的各个方面,包括航班运行分析及管理、旅客服务质量分析及管理、设备设施运行效率分析及管理、决策支持分析、规划及招商分析等。经过重新设计的数据仓库可以根据不同的主题设计不同的属性集,从而减少数据处理量,针对不同的主题数据库可以采取粗糙集的属性归约算法删除数据中的冗余信息,得到精简的数据集,然后将决策树所表示的数据集表示为分类规则知识并储存在规则知识库中。系统数据流程为采集各种数据库中的各类数据,重整结构和调整数据后归类存放在数据仓库中,然后由多维分析工具多层次分类成有效信息,与知识库、方法库、模型库、数据挖掘工具有机结合,最后通过可视化工具将分析结果呈现给用户。

4 总体架构

根据机场的特点,综合管理数据仓库,其体系结构如图1所示。从图1中可以看出,数据仓库的总体架构共分五部分:数据源、数据处理、综合管理数据库、数据分析提取以及数据可视化[4]。

4.1 数据源层

在机场航班运行过程中将涉及到多方面的数据源,如航班数据、旅客数据、行李数据、设备设施监控数据、物流数据、行政办公类数据、安全数据、商业数据等等。还涉及到很多外部数据源,如天气数据、空管数据、航空公司数据、商业运行数据、互联网数据等。这些数据源有些是历史数据,有些是实时运行数据,它们存储在不同区域不同部门的异构数据库中。

4.2 数据处理

数据处理是对一个存储区,装载维度表和事实表,为输出到数据集市做好准备。由于数据源数据内容往往交叉,所以需要按照互动性对观测数据进行分类,数据大致分为两类:结构化数据和非结构化数据。同时,由于原始数据中有噪声数据、冗余数据及缺失数据等问题,需要对数据进行处理,通过转换、净化和标准化处理后,数据被重新组织成面向主题的、一致的数据,置入数据仓库之中。

4.3 综合管理数据库

数据仓库实现对预测主题和信息的存储与综合。预测执行完成后的结果存储在数据仓库中,形成决策信息库。如航班运行分析管理,就可以把大量的航班运行数据、设备设施监控数据存入到数据仓库中,和其他已存入数据仓库的数据信息进行综合分析,得出航班保障过程中最优的设备设施运行及管理方案。该方案可根据航班情况按需分配登机桥、通道、照明、空调、扶梯等设备设施,从而提高设备/设施的利用率,降低航班运行保障成本。引入数据集市是因为通过将数据仓库和数据集市分离的方法,可以使数据仓库集中精力解决数据整合和清理等问题,而数据集市则致力于为特定的决策过程提供服务。数据仓库在数据源和直接面对决策支持过程的数据集市之间形成了一个缓冲,数据集市可以面向一个优良的数据仓库来建设,数据源的变化可以不直接影响到数据集市。

4.4 数据分析提取

经过数据处理后的数据可以通过联机分析处理技术(OLAP)来支撑复杂的决策分析过程。联机分析处理基于数据集合中的信息,运用航班运行规律开发相关的模型库、知识库、进行联机数学运算和数据加工处理,并提供灵活、交互式的统计、趋势分析和预测,为机场管理部门提供辅助决策[5]。鉴于机场的特点,可以把数据分类成实时性数据和非实时性数据。通过搭建云计算平台采用MapReduce技术、Hadoop技术对数据进行处理[6]。数据挖掘工具从数据仓库中挖掘的知识形成知识库。知识库是领域知识,用于进行知识推理实现定性分析辅助决策。模型库和方法库为决策问题提供定量分析(模型计算)和辅助决策信息。方法库由预测方法字典和方法算法类库组成。模型库由预测模型字典、模型参数字典和模型存储库组成。OLAP(联机分析处理)与模型库、方法库、知识库进行信息交互,与图形用户界面进行多次对话完成预测分析过程。

4.5 数据可视化

建设数据仓库和对数据进行挖掘的最终目的是让机场管理人员能够方便地使用这一集成的决策支持环境,以获取有价值的信息,从而能对未来航班保障、旅客服务等做出迅捷准确的判断,进而制定相应的对策。因此,界面友好、功能强大的可视化工具也需要被集成到总体架构中。机场综合管理数据库汇总了各种数据源的数据,存储了海量的非结构化数据。数据应用的复杂性不仅体现在数据样本本身,更体现在多源异构和数据的动态交互方面。因此,需要利用人工智能、视觉智能技术等改变数据处理和知识提炼方式,通过辅助图像分析以及人机推理技术,开发面向各种任务的处理快速、可定制的视觉分析软件。通过视觉分析软件的应用,让分布在不同部门的机场用户可以根据具体需求进行数据分析,得到有价值的可视化信息。

5 总结及展望

目前,国内机场特别是大型机场,在运营过程中积累了大量的运营数据,由于过去缺乏有效的技术手段,大量的历史数据并未得到有效利用。大数据技术日趋成熟,因此,机场运营管理数据库建设过程中完全可以利用大数据技术,运用数据挖掘等工具对海量的运营数据进行价值发现,实现机场的业务增值及服务质量提升。如在旅客服务方面,可以改变传统的被动式服务方式,利用大数据技术提前分析掌握旅客需求,使服务前移,为旅客提供个性化的服务;如在航班业务方面,可以利用大数据技术对所保障航班的资源配置、人员配置情况进行深入分析,挖掘保障合约、机型、到场时间与地面服务、资源配置以及人员排班的潜在规律,从而为航班保障计划的优化提供数据支撑;如在应对航班延误等突发情况,可以用大数据对历史航班延误情况进行深入分析,根据不同原因制定有效的应对措施,延误发生时利用大数据技术及时掌握旅客的微博、微信等舆情,从而尽早的启动应急预案。

通过以上分析可知,大数据在机场领域有着良好的应用前景,尤其是国内一些大型机场正在进行综合管理数据库的建设,这也为大数据在机场领域的应用提供了很好的契机。但是,在大数据应用层面,相关研究仍然在很大程度上集中在以“云计算”为核心的大数据相关计算机技术与软件的开发上[7]。如何把大数据研究应用于实际的学科领域,特别是机场领域,目前仍处于理论阶段。由于具体条件的限制,本文只是从总体上对大数据技术在机场综合管理数据库建设过程中的应用进行了探讨和分析,提出了设计方案,为将来大数据在机场的实际应用提供参考。

参考文献:

[1] 孙召利.大数据在民航领域应用的初步研究[J].空运商务,2014.345:

11-15

[2] 卢建昌,樊围国.大数据时代下数据挖掘技术在电力企业中的应用[J].

广东电力,2014.27(9):88-94

[3] 周建忠.机场应用大数据初探[J].交通企业管理,2014.9:68-70

[4] 虞健飞,朱家元,张恒喜.数据仓库设计过程研究[J].计算机工程,

2003.29(19):146-169

[5] 吉根林,赵斌.面向大数据的时空数据挖掘综述[J].南京师大学报(自

然科学版),2014.37(1):1-7

[6] 严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013.23(4):

168-172

[7] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,

2013.50(1):146-169

猜你喜欢
数据仓库数据挖掘可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
探讨人工智能与数据挖掘发展趋势
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
基于数据仓库的住房城乡建设信息系统整合研究
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用