高红旭,康永,郭芃
(中国电子科技集团公司第二十研究所,西安 710068)
大数据作为当今一个很热门的话题,越来越多的得到国家和企业届的广泛关注。大数据在发现规律和预测未来两个方面展现的核心竞争力使得大数据正在转变成一种资源与一种生产要素渗透至各个领域。大数据具有的善于聚合信息并有效利用数据的能力将会带来层出不穷的创新,从某种意义上说大数据技术代表着一种生产力,这预示着人类已经进入了大数据时代。
美国率先开始布局大数据产业并投资2亿美元启动“大数据研究和发展计划”,美国的大数据产业已经创造了巨大的价值;欧盟及日韩紧随其后,相应的战略举措也已出台;我国大数据得到了政府的高度重视,大数据产业发展前景广阔,预计我国大数据潜在市场规模未来有望达到2万亿人民币。大数据已经被认为是“未来的新石油与矿产”,数据规模及运用数据的能力将成为综合国力的重要组成部分。
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。
大数据的特性非常丰富,包含:规模性、高速性、多样性、价值型、准确性、有效性、可见性、真实性、可溯性等,目前主流采用“4V”模型来对大数据进行分析。“4V”的主要特征如表1所示:
表1 大数据4V特点列表
大数据技术真正面临的已不仅是数据量大的问题,而最重要的是现实对大数据进行的分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,因此大数据的分析方法在大数据领域显得尤为重要,已成为决定最终信息是否有价值的决定性因素。大数据分析普遍存在的方法如图1所示。
大数据数据处理的三大原则:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法确实有很多,主流的处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。
1.3.1 采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。如何在这些数据库之间进行负载均衡和分片是采集的难点。
1.3.2 导入和预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
图1 大数据分析方法
1.3.3 统计和分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
1.3.4 数据挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。现在大型大数据解决方案的提供商主要采用Hadoop平台,Hadoop是一个由Apache基金会所开发分布式系统基础架构。 Hadoop 是以一种成熟、可靠、高效、可伸缩的方式处理问题的。Hadoop的结构图如图2所示。
图2 Hadoop结构图
HDFS:是 Hadoop的分布式文件系统,具有高可靠、高扩展、高效性和高容错等特性。HDFS提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,这样可以流的形式访问文件系统中的数据。
MapReduce是用于并行处理大数据集的软件框架。基于MapReduce写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的式并行处理上 TB级别的数据集。MapReduce极大地方便了编程人员将自己的程序运行在分布式系统上。
HBase是一个分布式的基于列存储的非关系型数据库(NOSQL)。HBase的查询效率很高,主要由于查询和展示结果。HBase通过组织起节点内所有机器的内存,提供一个超大的内存 Hash表,它需要组织自己的数据结构,包括磁盘和内存中的。
Hive是分布式的数据仓库工具。主要用来并行分布式处理大量数据。它可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
Zookeeper:分布式锁设施,提供类似 Google Chubby 的功能,由 Facebook贡献。
Avro:新的数据序列化格式与传输工具,将逐步取代 Hadoop 原有的IPC机制。
Pig:大数据分析平台,为用户提供多种接口。
Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。
HCatalog:是面向 Apache Hadoop 框架的一个数据表管理层。它提供了数据表抽象功能,可支持在 Apache Hadoop 框架中将数据作为一系列数据表进行处理。
大数据已经在各行各业引发各类创新模式。随着大数据的发展,行业渐进融合,大数据给人们生活带来翻天覆地的变化。大数据技术进步将极大地惠及人们生活的方方面面,在家有智能管家帮助你生活更美好;外出购物,商家会根据你的消费习惯将购物信息通过无线互联网推送给你;外出就餐,车载语音助手会帮你挑选餐厅并告诉你即时的周边情况和停车状况。衣食住行的便利将无处不在。迄今为止,大数据提升了电子政务和政府社会治理的效率、大数据提高了医疗服务质量、大数据使美国的交通更加便利、大数据提升了教育质量得到、大数据预警了经济危机、大数据有力的支撑了风险管理效率。大数据技术在民航空管监控领域中也发挥了不可替代的作用。
根据民航总局“十二五”规划文件中“提高空管设备运行管理水平,加快值班和运行管理系统建设,完善空管设备运行监控系统,健全空管设备维护维修体系。”的具体要求,中国电子科技集团公司第二十研究所研发了一套专业的“民航空管设备大数据信息化分析管理应用平台”产品,该平台已广泛应用于各空管局与空管分局的空管设备集中监控系统。该平台可接入的空管设备有数据语音系统、WAFS系统、气象数据库系统、管理生产运行管理信息系统、GPS系统、航行情报发布系统、办公系统、自动转报系统、航管自动化系统、全向信标/测距仪(DVOR/DME)设备、仪表着陆设备、二次雷达(SSR)设备、一次雷达(PSR)设备、场面监视雷达、VHF收发信机设备、内话系统设备状况/语音交换系统、气象自动观测系统设备和空管通信网络综合监控系统等,同时还包括设备运行的动力、环境、安全防范等动环监控。
到2020全国空管设备数量将达到数十万台套,各种设备的运行维护参数又极为庞大,长期运行下来,每一个设备的数据将达到TB级别,全国总数据将达到EB级别,对于这么庞大数据的存储与分析将成为一个新的挑战。“民航空管设备大数据信息化分析管理应用平台”中大数据技术的引入,有效的解决这一难题。
“民航空管设备大数据信息化分析管理应用平台”主要用于民航(空管、机场)领域,该平台由空管设备采集系统、数据组网传输系统、大数据分布式存储、综合数据信息化管理系统四部分组成。总体架构如图3。
在不影响空管设备正常运行和现行本机监控的前提下,设备采集系统采用目前先进、成熟的设备接入、采集、通信等监控技术,实现对目前民航通信、导航、监视、气象、情报等设备运行状态的实时采集;数据组网传输系统通过空管ATM网络的建设,构成了台站、地方、区域、全国四级空管设备集中监控网络体系;大数据分布式存储系统利用Hadoop平台构建了可动态调配的分布式存储结构,并采用NOSQL数据库进行海量数据的存储;综合数据信息化管理系统利用空管设备大量参数数据进行分析处理,为用户提供设备实时告警、设备故障诊断、设备备件管理、历史回放、状态统计、运行状态趋势分析、现行设备性能总体分析等一系列功能,并且实现监控、维护、管理等多部门之间的工作流转,实现整个空管系统设备的自动化管理。并可以为空管部门提供现有机场或航路服务保障能力评估。同时可以通过专家系统,进行设备远程分析指导和维护。
图3 平台架构图
该平台中采用了主流的Hadoop平台架构,使用HDFS作为分布式文件系统,HBase作为分布式NoSQL列数据库,Hive作为处理数据仓库,并使用 MapReduce进行并行计算。该平台具有实时监控、专家系统、数据挖掘和趋势分析等功能,本系统能够自动接收各空管设备采集接收单元监测的实时数据,分别以图形、WebGIS和表格等多种展现形式展现,并提供实时告警与历史查询,通过分析引擎,根据事先规定好的的模型进行数据挖掘与分析,分析空管设备运行趋势和关联性,同时对维修单位提供专家系统服务。在空管设备出现故障时在WebGIS地图上直观震撼的方式闪烁报警加以提示。系统还提供了设备状态历史查询、仿真界面、连接拓扑、历史回放、状态统计等功能,同时该系统还为部分空管设备国产化提供了大量宝贵的数据支持。图4为某国际机场的空管设备运行状况显示。
图4 某国际机场空管设备运行状况图
专家系统模块主要是通过空管设备领域大量数据挖掘产生的知识以及这个领域专家的经验相结合,利用具有专家推理方法的计算机模型,模仿人类专家的知识和解决问题的方法来处理设备故障排查以及维修等问题。同时该模块还具有自学习功能,可将新的故障现象记录并转换为知识进行存储。
该模块可以回放设备故障前一天的设备运行参数与状态信息,通过该设备故障时的参数指示,结合专家系统中优化决策树,判断出该设备故障描述、故障原因以及专家意见。例如THALES厂家的DME设备监控器出现问题,设备进行了告警提示,通过对设备参数的判断专家系统给出故障描述与故障原因分析,最后给出专家意见为“通过更换双机监控器K1649中的U7、U8集成模块,下滑发射机电池工作时面板预警指示灯亮,设备预警功能正常”,如图5所示。
图5 专家系统
趋势分析模块通过对大数据的分析发现新的信息与知识,从而为进行数据建模,根据对过去同种设备运行性能的分析了解来进行未来性能趋势的预测,主要针对时间变化的对象进行规律或趋势挖掘,例如对某国际机场-NM7033西航向设备输出功率分析趋势,该设备之前的历史数据与飞行器数量分布、温湿度数据、NM7033发射信号强度等多组数据进行COLS-BSVR算法计算,得出了未来一周该设备的输出功率趋势。
随着大数据技术在空管集中监控系统中的应用,有效解决了空管部门管理落后、维修保障难度大费用高等多方面问题,显著提高空管运行管理水平和安全保障能力,从而为民航飞行安全提供全面保障,有利于保障国家和人民生命财产安全,保障经济建设、保障和谐社会的发展。
大数据已经深耕于政府、互联网、电信、金融、IT等领域并创造了巨大的经济价值,欧美等发达国家更是把数据资产上升到国家信息战略高度。作为全球大数据产业的重要组成,中国大数据潜在市场规模未来有望达到2万亿人民币。数据产业的发展对于我国全面建成工业化、信息化、城镇化、农业现代化的发展的起着至关重要的作用。大数据技术的应用对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策都具有非常重要的意义。
[1]Tom White.Hadoop:The Definitive Guide [M].The US:OReilly Media,Inc,2009.
[2]JoyK1.Massive data visualization:a survey[C],Moeller T,Hamann B,Russeleds RD,2009:285-302.
[3]曹强,黄建忠,万继光,谢长生.海量网络存储系统原理与设计[M].武汉:华中科技大学出版社,2010,196-198.
[4]刘琨,李爱菊,董龙江.基于 Hadoop的海量数据存储的研究及实现[J].微计算机信息,2011,27(7):220-221.
[5]黄晓云.基于 HDFS 的海量数据存储服务系统研究[D].大连海事大学,2010.