杨学军++夏正清
作者简介:(1971—),男,工程师,主要从事测量工程、地理信息系统等相关工作与研究。
摘要:当前,我省正全面推进各行业的大数据系统建设,旨在打造西南地区大数据中心。本文在此背景下,探讨了我省测绘地理信息大数据的现状,简要阐述了我省测绘地理信息大数据建设的目标和原则,并概略讲述了测绘地理信息大数据系统的设计目标进行阐述,对该系统的逻辑架构进行了讨论。通过建设本省测绘地理信息大数据系统,可为全省综合大数据库系统的建设提供技术积累和数据积累;也使我省测绘地理信息数据这一重要“金矿”得到充分的挖掘与应用,从而也带动了我省测绘地理信息产业的跨越式发展。
关键字:测绘地理信息 大数据 系统设计 大数据系统
中图分类号: P208 文献标识码:A文章编号:1672-3791(2015)01(c)0000-00
2014年3月1日在北京中关村举行的贵州· 北京大数据产业推介会上,贵州省省长陈敏尔说到:“大数据是大产业、大红利、大变革、大机遇,贵州省委、省政府高度重视大数据发展,将大数据作为全省产业转型升级的战略重点之一,促进就业增长、形成新的经济增长极”[1]。中国移动、中国联通和中国电信将投资150亿元在贵安新区建立云计算基地,总规模将超过10万个机柜、200万台服务器[2]。在这样一个机遇与挑战并存的时代下,作为测绘地理信息产业如何在大数据产业中发挥效益是当代测绘人应该思考一个重要内容。
测绘地理信息部门提供了用于各种工程建设的基础资料,如1:5万及1:1万基础地理信息数据、大比例尺地形图;今年全省又在开展地理国情普查,这项工作将产生更多的数据,如覆盖全省的0.5米分辨率卫星影像、部分地区0.2米航空影像、各行业的专题数据等。如何充分利用和挖掘这些数据是测绘地理信息部门未来发展的关键,今后测绘地理信息部门将在不断更新现有数据的基础上,加强大数据的开发与应用。
1 测绘地理信息大数据现状
1.1 大数据概念
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过现有主流软件工具在合理时间内达到收集、管理、处理,并整理为帮助决策层提供积极的信息[3]。
1.2 测绘地理信息大数据来源
对于测绘地理信息大数据有以下三种来源:互联网、物联网、各种测绘成果。
互联网数据主要来自于数字城市项目中公众服务平台产生的各种数据,如日志、留言、图片标注等非结构化的数据;
物联网主要来自于具有信息采集功能的电子设备所产生的数据,如CORS(连续运行卫星定位服务综合系统)系统提供的定位数据、遥感卫星提供的影像数据、测量机器人或各类监测设备提供的监测数据,物联网产生的数据可以是非结构化的、也可以使半结构化的,其数据量庞大、且其价值密度低,如何存储和快速处理这些数据是目前面临的挑战;
各种测绘成果主要指基础测绘成果和其它测绘成果。基础测绘成果为1:5万和1:1万的3D产品(即DOM、DEM、DLG),这是测绘地理信息管理部门最为重要,也是较难获取的数据,这些数据大都为结构化的数据,随着更新周期的频繁其数据量也在不断增大。贵州省现有6000余幅1万图幅和400余幅5万图幅,按照每幅3D产品数据量平均200MB来计算,现有基础测绘资料也有1.3TB。其它测绘成果包括如大比例尺地形图、地理国情普查数据、地籍图等。
随着测绘技术手段不断创新,利用高分辨率航片生产不同比例尺的基础测绘成果已称为必然,但这伴随而来的是海量航片数据的存储与快速加工,这将是测绘地理信息大数据的有一重要来源,也势必会带动我省测绘地理信息大数据产业的发展。
1.3 测绘地理信息大数据的特征[3][4]
测绘地理信息大数据和其它大数据一样,除具有数据量大、数据类型复杂、数据种类多等共有特性外,与其它大数据最本质的区别就是其具有空间信息,而其它大数据仅有属性信息,数据的处理就没有测绘地理信息大数据那么复杂。
1.3.1 数据量大(Volume)
通过1.2中的分析可以看出,测绘地理信息大数据既有栅格数据、也有矢量数据、还有多媒体数据,特别是定期或不定期的航拍形成的高分辨率航空影像,目前1000KM2的数据量就可达1TB。如定期更新,历史数据与现有数据共同存储,数据量将可达PB、甚至EB级别。
1.3.2 数据多样化(Variety)
有以关系型数据库存储的数据,此类数据在大数据类型中定义为结构化数据,如全国第二次土地调查数据库、全国矿业权核查数据库、全国地理国情普查数据库等;有半结构化的数据,如CORS系统产生数据、基于位置的服务(LBS)产生的数据、各类监测传感器传回的数据等;有非结构化的数据,如原始航空影像、在公众服务系统中产生的日志、文字等。
1.3.3 数据高速更新(Velocity)
作为卫星影像获取平台,QuickBird可1-6天就可更新当前地点的影像,WorldView2为1-3天;作为航空影像获取平台,可根据用户需求,数小时就可更新;数据高速更新的同时势必带动数据的高速处理,这将与传统的数据挖掘技术有本质不同。
1.3.4 低密度(Veracity)
在大量的数据中,有价值的信息是很少的,这些有用信息是通过分析处理才能发现的,虽然价值密度低,但其体检的价值极高,如用卫片进行土地执法,一景数百平方公里的影像中仅能提供几平方公里或更少的图斑数据。
1.4 我省测绘地理信息大数据现状
随着数字城市在我省陆续开始建设,CORS系统的稳步推进,地理国情普查及监测项目的开展,基础测绘的定期更新,全省高分辨率航空影像的覆盖,测绘地理信息大数据在我省已经称为重要的大数据组成部分。
现在我省测绘地理管理部门面临最大的困难就是日益增长的数据量与数据处理及应用速度跟不上的矛盾,一方面全省每天都有新的数据产生,另一方面我们还在使用几年前的数据。这就是我省如今测绘地理信息大数据的现状,建设本省测绘地理信息大数据系统既符合行业发展需求,也符合省政府将贵州省打造为全国数据中心的战略目标。
2 测绘地理信息大数据系统设计
2.1 概念
测绘地理信息大数据系统就是将所有测绘地理信息大数据聚集起来,加以综合分析和处理,挖掘出对大众及政府关注的有价值信息,以供人们了解过去与现在,并能预测未来变化趋势的系统。主要由以下几个部分组成:大数据、集群计算机、分布式数据库、分布式文件系统、高速网络、用户。
2.2 与现有系统的关系
现有系统指不同大数据系统的系统,如OA办公系统、各种管理系统、公众服务平台等。
大数据系统与现有系统的关系有:
1、协同关系
现有系统为大数据系统提供结构化、半结构化和非结构化的数据,没有这些数据的支撑,大数据系统就是个空壳。
2、依赖关系
现有系统目前对某个小领域内的数据还算得心应手,但对大数据确是无力应对,所以现有系统需要大数据系统的支持,以最大效益化地挖掘和利用各种数据。
3、并列关系
就目前而言,现有系统提供了大数据所需的各种数据,大数据基于这些数据进行了有用信息的提取,两者是并列关系,同时并存。
2.3 系统设计目标和原则[3]
2.3.1 系统设计目标
1、可以存储海量数据
存储海量数据主要有三个方面的内容:首先是系统能够存储随着时间变化不断增长的数据;其次为系统能够存储各种不同结构、不同格式的数据;最后系统应具有灵活性,即既可以存储单个很小的数据,也可以存储单个很大的数据。
2、可以进行高速处理
系统要保证数据量激增而不影响其处理速度,仍能够满足用户对请求的响应速度。
3、可快速开发出并行服务
系统应提供并行服务的开发框架,让开发人员能依此框架快速开发出面向大数据的程序代码。
4、可运行在计算机集群上
这是系统的重要目标,为了节约成本,提高效率,系统可以安装并运行在廉价的计算机上,并有管理协调数百万台计算机集群工作的功能。
5、有强大的空间数据处理能力
这是测绘地理信息大数据系统的独有特征,系统能充分利用位置数据、路径数据、属性数据在三维空间进行分析,以为用户提供意想不到的信息。
2.3.2 系统建设原则
1、实用性
实用性体现在以下几个方面:一是系统既可以满足几个节点构成的小规模集群,也可以满足上百万个节点组成的大规模集群;二是系统必须支持多种协议格式,允许用户基于这些协议与系统进行交互;三是系统在一个节点上安装后,可以快速将其复制到多个节点上。
2、可靠性
当核心节点出现故障时,系统能快速切换到备份节点;当计算节点出现故障,相应的任务会自动分发到邻近节点上继续处理,而不会对数据造成任何损失。
3、安全性
数据是整个系统的核心,安全性主要体现在两个方面,一是节点故障不能造成数据破坏和损失;二是数据自生的防护,系统应有超强的防火墙,避免数据被非法获取。
4、可扩展性
系统应支持热插拔,主控节点可随时感知节点的增加和减少,并做出重新分发任务的工作;节点的增加和减少应不影响系统的可靠性和安全性。
5、完整性
系统应具有数据采集、存储、管理、分析、显示等全生命周期的子系统,能让用户基于该系统完成其应用,而不在借助别的任何软件或系统。
3 测绘地理信息大数据系统架构
系统架构的总体思想是“分层分域,主从模式”,具体的架构逻辑图见图1。
图1 测绘地理信息大数据系统逻辑架构图
Fig1. Surveying and mapping geographic information data system logic structure diagram
3.1 外部系统层
该层主要由现有系统组成,该层可为数据处理层提供数据输入,也可使用数据处理层中的数据处理子系统处理大数据并使用数据显示子系统显示其处理结果。
3.2 数据处理层
数据处理层作为大数据处理系统的窗口,可喻为大数据系统的感官系统,既能接收外部系统层提供的各种数据并显示,也能接收数据分系层中对大数据进行分析挖掘后的数据并显示。数据采集系统完成将结构化数据、半结构化数据和非结构化数据的采集,并以分布式文件管理方式和分布式数据库管理方式进行存储;数据处理系统主要完成数据格式转换、坐标系统转换等简单数据处理,以提供统一的大数据处理服务,如需更多的数据处理功能,可将数据传入数据分析层中进行处理;数据显示系统将数据处理系统的结果以页面方式提供给外部系统层。
3.3 数据分析层
数据分析层是大数据处理的核心部分,可喻为大数据系统的大脑,它主要完成大数据的分析挖掘任务,提供结果数据给数据显示系统以便进行结果输出。数据管理系统旨在完成结构化数据的各种分析和挖掘任务;数据分析系统主要完成半结构化和非结构化数据的分析和挖掘任务;数据计算系统完成网络分析、空间分析、位置分析等高级分析功能。
3.4 运维管理层
该层是大数据系统的中枢神经,负责大数据系统各项任务的分配与协作,保证数据的可靠性、安全性与完整性。作业节点子系统是对作业的任务进行调度分配和运行状态的管理;名称节点子系统提供目录和文件的元数据管理,是分布式文件系统读写的统一入口;数据库几点子系统是分布式数据库系统读写的统一入口;备份节点子系统实现数据的自动备份与相关日志的生成;统一系统节点子系统提供各种共享信息的统一协同服务,从而避免数据共享冲突引起的数据不一致。
4 结论
当前,我省正在大力发展大数据产业,测绘地理信息行业也将作为全省大数据中的一小朵云纳入到全省大数据的建设中,但是为了更加及时、更加有效地使用测绘地理信息现有的大数据,建设全省测绘地理信息大数据系统是有必要的,与全省综合大数据系统的建设并不相悖,相反可起到试验田的作用,以此可帮助建设全省综合大数据库系统提供技术积累和数据积累;另一方面,也使我省测绘地理信息数据这一重要“金矿”得到充分的挖掘与应用,从而也带动了我省测绘地理信息产业的跨越式发展。
参考文献:
[1] 中国日报贵州记者站. 贵州力争成为全国大数据中心,中国日报,2014.3.3,
http://www.chinadaily.com.cn/dfpd/gz/bwzg/2014-03/03/content_17317898.htm
[2] 吕慎. 大数据 看贵州,光明日报,2014.3.1 07版
[3] 大数据技术全解 基础、设计、开发与实践[M].北京:电子工业出版社,2014
[4] 尤文辰、徐跃通等.浅析GIS大数据[J].电脑知识与技术,2013(9):5399-5402
[5] 乔朝飞.大数据及其对测绘地理信息工作的启示[J].测绘通报,2013(1):107-109
[6] 林媛媛、林川等.浅谈大数据时代下的GIS发展[J].江西测绘,2013(3):15-16