陈静,张敏,王娟
大数据时代空管设备异构数据集成研究
陈静,张敏,王娟
在大数据时代,机场服务由原来被动查询向信息推送、智能推荐的方向发展,这就需要机场在海量的空管数据和其他数据中进行挖掘出有价值的信息,而传统的关系型数据由于其自身的原因不能很好地适应在海量数据条件下进行数据挖掘和知识发现。针对在海量的数据条件下如何进行数据的集成,提出了基于NoSQL的空管异构数据集成模型,该方法能够存储各种结构的空管数据,同时还能够适应分布式存储并达到较好的性能。
大数据;异构数据;非关系型数据库;数据集成;分布式存储
近年来随着我国经济的快速发展,我国航空事业进入一个高速的发展期,经过几十年的建设和发展,我国机场总量初具规模,机场密度逐步提高,现代化程度不断提高。每个航空机场都需要具有通信、导航、监视、内话、气象、情报等设备,每种设备都是来自不同的生产厂家,不同设备所产生的数据的格式也不尽相同。随着机场服务的提高,机场空管设备所服务的对象由原来的飞机转向人时,人所需要的服务是个性化的,所需要的信息也是各种各样,这就包含固定结构、半结构化和无结构的数据。因此在“大数据”时代对航空机场的空管设备的异构数据进行集成具有一定的理论价值和现实意义。
1.1 大数据时代
随着计算机技术的发展,数据正以前所未有的增长速度增长。在云计算、物联网、移动计算等一系列新技术的推动下,虚拟服务、社交网络等新的应用领域不断的刷新人民应用信息的范围和形式,全面基于信息和网络的生产和创新模式,正在将人们带入“第三次工业革命”时代[1]。大数据的概念最早可以追溯到20年前,但在近几年才开始真正被人们所关注,2008年《Nature》推出了名为“Big Data”的专刊[2]。著名咨询公司麦肯锡发表了一篇大数据报告[3]“Big data:the next frontier for innovation,competition,and productivity”。在这篇文章里分析了大数据的影响、应用领域和关键技术等方面。随着各种社会团体对大数据的讨论,各国政府也开始重视大数据,2012年美国政府宣布了每年投资两亿美元的“大数据研究计划(Big Data R&D Initiative)”[4]旨在从海量的复杂的数据中提取知识和有效信息,并服务于金融、医疗、能源等领域。我国政府也开始关注大数据,在 2012年,科技部发布的“‘十二五’国家科技计划信息技术领域2013年度项目征集指南”把大数据排在第一位。
随着大数据的研究的深入,IT界对大数据有了一个较为全面和统一的认识,就是大数据需要满足4个基本特征:规模性(Volume)、高速性(Velocity)、价值性(Value)和多样性(Variety)[5]。
规模性:通过各种设备产生海量的数据,数据的规模庞大。
高速性:数据实时生成,且只有在特定的时间和控件中才有意义,这就要求数据处理的速度快。
价值性:数据的价值密度低,单条或少量的数据并无太多的价值,但对海量的数据进行挖掘,会发现大量有价值的信息。
多样性:指数据类型的多样性,大数据时代海量的数据并无固定的数据格式,这就包括各种结构化、半结构化和非结构的数据。
1.2 空管设备具有大数据特征
经过几十年的发展,我国机场总量初具规模,机场密度逐渐加大,机场服务能力逐渐提高,现代化程度不断加强。随着机场服务能力的快速提高,机场空管设备的数据也具有了“大数据”的特点。
航空机场的空管设备种类繁多,有导航类、通信类、监视类、管制类以及其他一些气象和情报发布系统。每种信息系统都产生相应的信息数据,每天产生的数据达到百GB甚至TB,这就构成了大量的机场空管数据,具有了海量的规模。机场管理信息系统主要包括各种运营调度系统、航班管理系统、信息显示系统、信息监控系统等。而这些系统的不同性质,系统建设的厂家和软件公司各不相同,通常的做法就是每个系统建立自己对应的数据库系统。有多少管理系统就有多少系统数据库。而各个系统之间又是相互独立的,数据结构也各不相同,这就构成了大量的异构数据,具有数据多样性的特点[6]。
同时随着机场管理的逐步提高,机场也建立起自己的办公自动化和旅客信息服务等系统。而旅客对机场的服务要求不再局限与传统的信息查询为主,往往需要在大量实时机场空管数据的基础上进行快速的计算和挖掘,发现能够为旅客进行智能推荐的实时信息,这样机场空管数据具有实时、高速的特点。
在海量的机场数据中需要对大量的数据进行分析才能挖掘出有价值的信息,在针对旅客进行服务推荐时,往往需要了解该旅客的历史出行信息、需要在其大量的历史出行的记录中及其他相关信息进行挖掘分析,得出其出行规律和特点,再进行有针对性的推荐服务,而针对少量甚至单条信息,基本没有进行挖掘和分析的价值,也即是说机场数据具有价值稀疏的特性。
1.3 大数据时代机场建设面临的问题
进入大数据时代,旅客的出行不只满足于传统机场的信息提示等服务。机场需要根据旅客的行为信息,发掘客户潜在的需求,为旅客提供更智能的出行解决方案,同时也为机场进行决策提供支持服务。这就需要机场根据航班信息、气象信息、旅客个人信息以及机场调度信息等海量的数据进行数据挖掘,为旅客提供智能服务。机场在进行海量数据挖掘和分析的时候主要面临着两个主要的问题。
一个是数据集成的问题,大数据时代机场的监控系统、资源调度系统、生产营运系统、航班信息显示系统等众多系统产生了大量的数据,虽然这些数据大部分为结构化的数据,但如何对这些数据进行集成,统一的进行资源的调配,统一监管,就需要对这些异构数据源进行整合。以机场航管设备信息系统为例,机场主要的航管设备有数据语音系统、AWFS系统、气象数据库系统、管理生产运行管理信息系统、GPS系统、航行情报发布系统、航管自动化系统、仪表着陆设备、二次雷达(SSR)设备、一次雷达(PSR)设备、场面监视雷达、VHF收发信机设备等众多设备。这些设备体现了三多的特点,设备类型多、设备厂商多和设备型号多,而每种设备所产生的数据格式都是互不相同的。传统的关系型数据库很难建立一个合适的模型能够完全满足这么多异构数据的建模需要。同时关系型数据库很难适应在大数据时代对海量数据进行知识挖掘,知识发现,进而为用户提供决策支持服务。
二是数据存储的问题,在大数据时代机场众多的信息系统产生了海量的数据,这些数据实时的到达,通常航空设备数据需要长期保存,长期运行下来,每个机场所处理的数据将达到TB的级别时。单个服务器的存储已经很难存储如此海量的数据,只能采用分布式的架构进行存储,而关系型数据库由于其设计的原因很难适应分布式架构的扩展。同时关系型数据库是需要在系统建立前确定好数据模式,对数据进行建模,但随着用户需求的迅速改变,很难提前预知用户需求并且建议一个万能模式来应对不断变化的用户需求。关系数据已经不能很好的适应这种数据量大,数据结构不固定的要求。
2.1 NoSQL技术及其特点
NoSQL是Not only SQL的缩写,泛指非关系型数据库。与关系型数据库对比,NoSQL对比有着许多的不同点,其中最大的不同是NoSQL不使用SQL语言作为查询语言,数据存储也不像关系型数据那样需要有事先设定好表模式。
在机场中的各个系统中需要根据实时的位置、参数、用户个性化信息来实时的生成动态界面,并对用户提供动态的服务信息,所以数据库的并发负载非常高,在高峰时段每秒可能达到上万次甚至更多的读写请求。传统关系型数据在处理上万次的SQL查询请求还能应付,而对于上万次的SQL写数据请求,磁盘I/O已经无法承受。同时由于机场空中管制系统的数据量的增大,单机服务器无论是在处理能力还是存储能力都很难满足机场信息系统的要求,必须对添加服务器和存储设备来满足需求,而传统关系型数据库由于其事物一致性的要求很难进行横向的扩展,无法通过添加更多的服务节点和存储来扩展其性能和负载能力。
NoSQL数据库种类繁多,但都能去掉关系型数据库的关系特性,能够很好的进行扩展,非常容易的实现支撑数据从TB到PB级的过渡。采用分布式架构,能够满足机场海量空管数据的存储和处理的要求。NoSQL还有非常良好的读写性能,能够满足海量数据的频繁读写请求,能够满足机场各种个性化服务的请求。同时NoSQL还无须为存储的数据建立字段,可以自定义数据格式,能够随时随地的添加数据字段,这样系统在建设之初就无需考虑数据库表结构的设计,把时间花在系统的开发应用上,在系统实施之后还能够很好的兼容其他字段,进行系统功能的升级和扩展。
2.2 基于NoSQL的数据集成方法
为了解决空管数据异构的问题,从实现的角度出发,提出基于NoSQL的空管异构数据集成模型。采用基于NoSQL数据库来进行空管异构数据的存储。解决了异构数据的存储问题。基于NoSQL的空管异构数据集成模型如图1所示:
Research on Heterogeneous Data Integration of Air Traffic Control Equipment in The Big Data Age
Chen Jing, Zhang Min, Wang Juan
(Xi'an Fanyi University, Xi’an, Shaanxi 710105, China)
In the era of big data, the airport service develops from the original passive query to the information pushing and intelligent recommendation which need valuable information to be mined in the vast amount of air traffic control data and other data. However, the traditional relational data can not adapt to the data mining and knowledge discovery under the circumstance of massive data due to its own reasons. In order to solve the problem, an integrated model of air traffic control based on NoSQL is proposed. The model can store all kinds of heterogeneous data ,simultaneously. The model architecture can achieve very good performance in the distributed memory architecture.
Big Data; Heterogeneous Data; NoSQL Data Integration; Distribute Storage
TP311
A
1007-757X(2016)09-0044-02
陈 静(1986-),女,陕西、西安翻译学院,助教、硕士,研究方向:信息处理,西安 710105张 敏(1980-),女。内蒙古、西安翻译学院,讲师、硕士,研究方向:信息处理、信息检索,西安 710105王 娟(1980-),女,山东、西安翻译学院,讲师、硕士,研究方向:信息处理,西安 710105