大数据技术在移民搬迁信息化中的应用

2014-07-18 11:53关阿鹏范广晖
西安邮电大学学报 2014年3期
关键词:陕南数据量结构化

刘 军, 鱼 滨, 关阿鹏, 范广晖

(1. 陕西省国土资源厅 陕西陕南移民搬迁工程有限公司, 陕西 西安 710075;2.西安电子科技大学 计算机学院, 陕西 西安 710126;3.陕西通信信息技术有限公司, 陕西 西安 710075;4.西北大学 信息科学与技术学院, 陕西 西安 710127)

大数据技术在移民搬迁信息化中的应用

刘 军1, 鱼 滨2, 关阿鹏3, 范广晖4

(1. 陕西省国土资源厅 陕西陕南移民搬迁工程有限公司, 陕西 西安 710075;2.西安电子科技大学 计算机学院, 陕西 西安 710126;3.陕西通信信息技术有限公司, 陕西 西安 710075;4.西北大学 信息科学与技术学院, 陕西 西安 710127)

运用大数据技术对陕南移民搬迁信息化系统中的数据进行管理、分析,简述大数据的基本特点与关键技术、数据采集技术、分布式存储技术、并行化处理技术和海量数据挖掘技术。根据信息化系统的体系框架,对大数据技术在陕南移民信息化系统中的应用进行探讨,分析大数据技术的应用价值,阐述政府在大数据技术上投入的重要性。

大数据;移民搬迁;数据管理

大数据浪潮正冲击着人们的视野,越来越多的互联网企业都投入到大数据产业的研究中,IBM、Google、微软已研究开发出相关大数据处理产品,一些电商、社交平台也正在充分利用他们手上掌握的用户数据来挖掘其内在联系,实现效益持续增加。IBM日本公司的经济指标预测系统,从互联网新闻中搜索影响制造业的480项经济数据,计算出采纳经理人指数PMI预测值[1]。阿里公司根据淘宝网上的交易情况筛选出财务健康和诚信企业,不需要担保贷款,已放贷300多亿元,坏账率仅0.3%[1]。2013年,美国政府也开始行动投资“大数据研究计划”,将大数据提升到国家发展战略上来[1]。

2011年,陕西省委省政府为改善陕南群众生活条件,消除贫困、修复生态、保障建设,促进经济持续发展,提出了陕南移民搬迁的总体规划。此次搬迁工程规模宏大,搬迁的总人数超过陕南三市总人数的1/4,共60余万户,240余万人;搬迁建筑面积达1.034 23亿m2,移民搬迁投资共需1 109.4亿元[2]。移民搬迁工程时间跨度长、工程数据繁杂,导致整个工程的组织管理工作异常繁重。移民搬迁信息化系统除了需要具备采集、整理、存储大量移民对象、安置区、安置工程项目、安置资金使用等相关的基本信息,还需具备处理GIS空间数据、结构化常规数据、非结构化文档、图像类数据的能力,最后还需提供多角度查询、多模式统计分析、多门类报表生成和移民信息公开等主要功能,需要处理大量的数据。所以,大数据技术在陕南移民搬迁信息化系统中的应用是非常必要的。

1 大数据

1.1 什么是大数据

随着计算机、互联网全面深入人们的生活,信息、数据呈现井喷式的增长,尤其近年来,移动互联网、社交网络、电子商务的迅速发展也极大地促进了这种疯狂式的数据增长,“大数据”概念应运而生。大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯[3]。大数据特征:(1) Volume——数据量大,至少PB级别以上;(2)Variety——除结构化数据外,还包括大量非结构化数据;(3)Value——数据量大,但有价值的数据量少;(4)Velocity——数据处理速度高,且实时性要求高。

1.2 大数据关键技术

大数据关键技术主要包括数据采集技术、分布式存储技术、并行化处理技术、海量数据挖掘技术。数据采集主要通过收集互联网、传感器上的信息来获取大量数据;分布式存储技术的框架包括云计算、bigTable、Google的GFS[4]和Hadoop的HDFS[5]等;目前最出色的并行处理技术是MapReduce[6];海量数据挖掘技术在普通数据挖掘算法的基础上,需要开发、研究出新的算法,目前Hive[7]、 Mahout[8]等算法适合对数据仓库、海量数据进行挖掘。

2 大数据与移民信息化系统的关系

2.1 移民信息化系统的数据特征

移民信息化数据来源广泛,具有以下特征。

(1)数据来源类型众多

为确保移民搬迁前、中、后不同阶段的信息收集及服务,移民信息化系统设定收集的数据来自各个方面及城市基础信息库。如人口、地理、房产、经济、交通等基本运行状态数据。这其中包括各类结构化数据及众多非结构化数据,人口信息和温湿度、气体浓度传感器产生的是结构化数据,交通监控摄像头产生的是非结构化数据。

(2)数据量巨大

移民信息化系统的数据收集具有持续化、数据增长几何化、数据来源不断扩大化等特征,数据量日益增长。传统的数据处理技术已无法满足这种复杂数据的处理要求,而大数据技术正是为满足这样的数据处理要求应运而生的。

(3)数据实时产生、实时更新

移民信息化系统中的数据是实时采集、实时更新的,因此能确保当前系统中的数据是最新的。

2.2 大数据贯穿移民信息化系统各部分

移民信息化技术的总体架构为:云计算平台层,数据存储与应用层,数据采集展现层。其中,数据存储与应用层分为数据共享中心管理、数据交换管理、平台监控功能,辅助决策分析。数据中心采用数据仓库技术,通过数据挖掘,实现陕南移民搬迁数据辅助决策分析的功能。数据交换通过服务总线和数据服务提供的各种适配器,将移民对象管理,安置项目建设,资金管理等不同子系统的数据按照不同的资源形态(FTP、WebService、Database)通过数据交换技术存储到共享数据中心的数据仓库中,如图1所示。

在系统的数据采集层,运用海量数据搜集工具采集移民搬迁的各类数据;将基础平台层搭建成云计算分布式环境,为大数据技术提供最基本的物理平台支持;在数据存储层及数据应用层,采用Hadoop的HDFS存储技术存储各类非结构化数据,采用海量挖掘算法对各类数据进行挖掘分析,在城市规划、房屋建设、项目资金、地理环境监测等方面提供决策支撑。

图1 移民信息化系统技术架构

3 大数据技术在移民信息化系统中的应用

3.1 数据采集技术

在移民信息化系统的建设中,需要采集很多数据,以便及时掌握移民搬迁各项工程的进展情况。这种数据的采集面更广,数据量更大,对数据准确性和严谨性要求更高。这就需要思考如何更便捷、准确地获取数据,整合数据,实现数据利用的最大化。

政府实际上已经掌握大量的移民搬迁数据,可以考虑实现移民信息化系统与其他信息管理系统的数据共享。如在人口信息采集方面,就可以与陕西省四库之一的“人口库”对接;地理信息数据,可以与陕西省“地理信息数据库”对接。由于政府行业的特殊性,要最大程度地实现数据共享和资源整合会面临很多困难,不仅需要从技术层面上实现多种类型数据的有效融合,还需要协调政府各部门间的工作。涉及到数据安全的,还应配合政府相关单位,做好数据审查和保密工作。

在数据采集方面,可以借助移动终端进行实时采集,统一录入。利用温度传感器采集地质灾害信息,雨量传感器、GPS、相机等设备,采集地质灾害区的地貌特征、地理坐标等信息;采用扫描仪、高拍仪等工具以电子化方式记录移民搬迁的相关文件资料。

3.2 数据存储技术

移民信息化系统中的数据体量大,表长度过长,数据类型众多,包含了大量文档、图片、视频等非结构化数据,无法存储到结构化数据库中,同时,移民人口信息一旦录入到系统中后,更新较少,主要侧重于信息检索。分布式文件存储技术能够按照相应规则对数据进行分类分区存储,读操作大于写操作能力,分布式存储方式也便于日后按照标签、索引方式检索信息[9],有效提高了数据查询效率。分布式文件系统如GFS、HDFS的数据分块功能、追加更新方式实现了对其的高效存储需求。此外,分布式存储方式只需将足够多的廉价服务器互联,减少了企业、政府的硬件成本投入。

3.3 数据处理技术

在后期对移民数据库中的数据进行统计分析时,效率是非常重要的。传统的方法分析TB级的数据需要几个小时甚至几天,而云计算的并行处理技术的运用,数据分析变得十分快捷。目前主流的并行式处理技术是谷歌于2004 年提出的应用于大规模集群进行大规模数据处理的并行计算的MapReduce模型,将Map命令发送到数据所在的各个节点上执行,执行获得的中间文件写在本地服务器上,本地写操作减少了传送中间文件数据对网络带宽的需求和时间;执行Reduce操作时,主数据服务器将Reduce命令发送到中间文件所在的节点执行,进一步减少了数据在网络上的传输时间和对网络带宽的要求。此外,MapReduce模型具有很好的容错性,当一个数据节点发生故障或者突然宕机时,MapReduce会将正在执行的程序动态迁移到另外一个工作节点上进行。

MapReduce适合对数据的批处理分析,对于数据的实时处理分析,需要借助另外的计算模型Dremel,Dremel通过结合列存储和多层次的查询数,能够实现短时间内的海量数据分析[10],有利于提高政府应对突发事件的能力。

3.4 基于数据挖掘分析的决策技术

移民信息数据库中的数据不只起到记录的作用,还需对数据进行深度挖掘。分布式数据挖掘技术提供了发掘数据内在关联性的工具,云计算平台、分布式数据存储、并行处理技术加上海量数据挖掘算法组成了数据处理的一整套系统。

数据挖掘可以对人口信息进行科学监测和评估。陕南地区农民工外出务工人数多,人员流动性强,基于对移民信息的科学分析,可以明确当地的人口结构,预测未来的人口发展趋势,对基础医疗设施的配备、教育资源的优化配置起到辅助决策作用。

推测出陕南地区地质灾害发生的概率可以有效实现避灾避险。大数据的实时数据分析能力满足了陕南山区的地理数据处理要求,实现了大规模综合数据分析能力,从而提高预防地质灾害的能力,对移民城镇选址、移民城镇规划同样具有指导意义。

移民资金信息量大,审计困难,基于大数据的快速计算能力,可以准确掌握各项目的资金需求,及时发现资金的使用问题。另外,通过对已建设项目的资金使用情况进行分析,可以预测新建项目的资金需求,有效做好资金预算和配比。

4 应用结果分析

经过几个月的工程实践,在移民信息系统中采用大数据技术是可行的。主要的应用效果有以下几方面:(1)系统的数据处理能力大大增强。分布式并行数据处理技术能极大的降低数据查询、处理的时效,提高数据的实时分析能力,加强政府对应急事件的响应能力。(2)系统的伸缩性大大增强。系统采用分布式存储方案,可根据日后的数据量情况,弹性增加数据服务器的数量,有效解决数据量增长带来的问题。(3)系统的可靠性增加。采用动态迁移处理技术,可有效解决软硬件故障带来的影响。(4)系统的成本有所降低。采用廉价的服务器组成并联网络,对服务器的配置要求较低,可有效降低因购买高额服务器带来的成本。

5 结 语

大数据技术在陕南移民搬迁过程中的具体应用,解决了移民搬迁相关数据存储、共享、处理等基础性问题,适应了统一管理、分布存储、按需汇聚、关联分析等应用需求。

[1] 李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012(9):8-15.

[2] 张国栋,李玲,谭静池.陕南移民搬迁调查报告[EB/OL].(2013-08-22). http://www.sei.gov.cn/ShowArticle2008.asp?ArticleID=232893

[3] 王鹏.大数据成功预测美国大选[EB/OL].(2014-02-25).http://www.thebigdata.cn/YeJieDongTai/8443.html

[4] Ghemawat S, Gobioff H, Leung P T. The Google file system[C]//Proceedings of the 19 ACM Symposium on Operating Systems Principles. NY ACM Press, October. 2003:29-43.

[5] Apache Hadoop. Hadoop[EB/OL].(2009-03-06)[2014-03-14].http//hadoop apache org/.

[6] Dean J, Ghemawat S. Map Reduce. Simplied data processing on large clusters[C]//OSDI04: Proceedings of the 6 Symposium on Operating System Design and Implementation. New York: ACM Press,2004:137-150.

[7] Hive Apache. Apache Hive[EB/OL].(2014-02-28)[2014-03-14]. http://en.wikipedia.rog/wiki/Apache_Hive.

[8] Mahout Apache.Apache Mahout[EB/OL].(2009-10-12) [2014-03-14].http://www.ibm.com/developerworks/ cn/java/j-mahout/.

[9] 邬贺铨.大数据时代的机遇与挑战[J].中国科技奖励,2013(4):47-49.

[10] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

[责任编辑:汪湘]

Application of big data in immigrant relocation information system

LIU Jun1, YU Bin2, GUAN Apeng3, FAN Guanghui4

(1. Southern Shaanxi Migration Relocating Co.Ltd, Department of Land and Resources of Shaanxi Province, Xi’an 710075, China; 2. School of Computer Science and Technology, Xidian University, Xi’an 710126, China; 3. Shaanxi Communication and Technology Co.Ltd, Xi’an 710075, China; 4.School of Inpormation and Technology, Northwest University, Xi’an 710127, China)

Big data technology is used in this paper for data management and analysis in the immigrant relocation information system of southern part of shaanxi province. Basic characteristics of big data and the key technology are sketched, including data collection technology, distributed storage, parallel processing technology and high-volume data mining technology. According to the framework of information system, a preliminary discussion of the application of big data in the information system is presented. The application value of big data technology and analyzed and the importance of government spending on big data technology is explained.

big data, migration, data management

10.13682/j.issn.2095-6533.2014.03.023

2014-01-14

刘军(1969-),男,博士研究生,工程师,从事区域经济与水资源管理研究。E-mail: 603889717@qq.com 鱼滨(1964-),男,博士,教授,从事软件工程研究。E-mail: yubin@mail.xidian.edu.cn

TP311

A

2095-6533(2014)03-0112-04

猜你喜欢
陕南数据量结构化
基于大数据量的初至层析成像算法优化
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
高刷新率不容易显示器需求与接口标准带宽
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
宽带信号采集与大数据量传输系统设计与研究
党建地图·陕南
陕南民歌生态文化特征与创新研究
陕南柑橘老果园改造关键技术