袁存忠,邓淑丹
(福建省基础地理信息中心,福建 福州 350003)
地理信息大数据探讨
袁存忠,邓淑丹
(福建省基础地理信息中心,福建 福州 350003)
随着信息化程度的不断提高及云计算与物联网技术的兴起,数据量飞速增长,全球进入大数据时代。本文从大数据发展与特征入手,阐述了地理信息大数据的特征,介绍了地理信息大数据环境下的地理信息云平台建设思路,探索了地理信息大数据的挖掘应用。
地理信息;大数据;云平台
随着计算机技术全面融入社会生活,信息爆炸已经积累到了引发变革的程度[1]。它不仅使世界充斥着比以往更多的信息,其增长速度也在加快。
20世纪90年代,数据仓库之父Bill Inmon对信息数据赋予了新的特性,即Big Data,随后大数据名词在全球蔓延。2008年,Science专刊指出大数据时代已到来[2],EMC与美国工程院院士Eric也抛出了Big Data概念;政府层面上,2012年3月29日,美国奥巴马宣布每年投资两亿美元进行大数据研究[3-4],同日我国科技部发布的《十二五国家科技计划信息技术领域2013年度备选项目征集指南》把大数据研究列在先进技术研究首位,2014年,“大数据”首次进入我国政府工作报告,2015年我国政府工作报告明确提出推动大数据发展,设立400亿元新兴产业创业投资引导基金,为产业创新加油助力。从百姓搜索热点看,依据百度与google的检索数据,大数据的名称从2008年在全球传播,2013年在我国的检索热度陡然增加。
借用百度百科、维基百科等搜索引擎网站的定义:大数据或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内获取、处理成帮助政府决策、企业经营决策的资讯。
大数据具有大量化(volume)、多样化(variety)、快速化(velocity)、价值化(value)4个特征[5],只有具备这些特点的数据,才能称之为大数据。大量化,数据量达PB、ZB,据统计,将2013年全球一年产生的数据印刷成书,可覆盖美国52次,刻录成光盘,堆成五堆,每堆均能延伸至月球[6];数据结构多样,包括文本、机器数据、视频等多样化的数据;速度化方面,人类产生的数据量正呈指数级增长,大约每两年翻一番[7],意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,该增速将保持持续至2020年,这也要求数据处理分析效率极高;价值化方面,通过对大量相关数据的分析,可预测未来的发展趋势。
随着地理信息资源的获取手段越来越多,且获取效率高,数据产生速度快,地理信息资源也进入大数据时代,并具备多样化、体量大、快速化、价值高等特性。
1. 数据多样化
随着测绘技术、移动互联网络、传感网、物联网和智能移动终端的飞速发展,地理信息数据来源越来越多,包括通过人工、机器、人机交互等手段获取的多样化地理信息数据,如全外业测绘生产的DLG、DEM,天绘、天链、天拓、遥感等系列卫星获取的遥感影像数据,数字摄影测量形成的DOM、DEM数据,倾斜摄影获得的点云数据及处理形成的城市三维模型数据,车载移动激光扫描获取的点云数据、街景数据、DLG、DEM、城市三维模型数据,无人机、风筝、气球拍摄的影像数据,定位车、手机、手表、鞋等各类移动设备实时产生的位置信息,能见度、温度、湿度等传感器获取的传感数据,摄像头获取的实时视频数据等。
2. 数据体量大
多样化的数据获取手段带来了地理信息资源数据量的爆炸。负责我省地理信息数据资料管理的福建省基础地理信息中心2014年地理信息数据的数据量达24 TB,是2013年的2~3倍。在全国范围内,覆盖全国的1∶5万DLG达250 GB、1∶5万DOM达10 TB,覆盖全国的1∶1万DLG约5.3 TB、1∶1万DOM约350 TB,覆盖全国一次的0.5 m分辨率影像数据量约65 TB,加上多波段、多时相、多产品、历史数据、中间数据、重叠区等数据量更大,GNSS一个基准站1 s采样率1 d的数据大约是50~80 MB,以全国3000个基准站计算,则总数据规模为180~240 GB[8]。在全球范围内,联合国全球地理信息管理(UN-GGIM)估计,全球每天会产生2503万字节的数据,其中显著的部分是位置感知[9]。
3. 数据快速化
获取速度上,我国中高分辨率的影像数据获取接近实时,高分二号同一地区重复采集周期为4 d,资源三号同一地区重复采集周期为5 d,传感器与移动设备获取数据的周期为实时;处理速度上,需响应“以秒甚至毫秒计的流数据”;时效性方面,数据的时效性可按分钟计,如实时路况数据的时效性达10 min。
4. 数据价值高
地理信息数据蕴藏着丰富的价值,据《大数据市场:2012~2018年全球形势、发展趋势预测》预测,在个人地理信息方面,大数据将为服务商带来超过1000亿美元的收入,为用户带来超过7000亿美元的价值。
5. 与传统地理信息的比较
结合以上特征分析,地理信息大数据与传统的地理信息数据相比,发生了很大的变化,见表1。定位不同,从主要服务政府部门转变为服务大众;驱动性上,除完成政府下达的地理信息数据采集任务外,还增加了自发地理信息(volunteer geographical information,VGI)采集,一种新型的基于网络的大众协同地理位置测量和地理信息采集[10];地理信息数据的生产者从政府部门、企事业单位、具有测绘资质的公司,转变为每个人都是地理信息数据的采集者;数据量从MB、GB到TB、PB的转变;部分数据更新频率达到了实时;质量方面,之前地理信息数据成果需通过具有资质的单位质检,才能投入使用,质量要求非常高,但在大数据环境里,面对如此快速化、体量大的数据,传统的质检方法已不能满足要求,必须通过计算机系统对地理信息数据进行质量控制,质量控制也没有之前严格;地理信息大数据大多没有元数据信息,而传统地理信息数据拥有非常完整的元数据信息。
表1 地理信息大数据与传统地理信息数据比较
地理信息大数据已为实现价值奠定了基础,而数据处理分析能力是达到智慧的关键,因此,数据处理分析能力至关重要。针对地理信息大数据的特性,要实现大数据到智慧的转变,需采用云存储技术、关系与非关系型数据库存储巨量数据,通过人工智能与云计算技术,按照一定的规则对可信度低、未质检的数据进行抽取,清洗、转换形成可用的地理信息数据,利用统计分析、数据挖掘技术来预测、洞察未来发展情况,而这一切可通过地理信息云平台实现。
地理信息云平台的定位不仅是支持桌面端与Web端应用,为企业内部与政府内部服务的平台,还是服务型的、跨部门的、服务大众的云平台。
地理信息云平台需集成各类趋势化的技术与数据。数据管理方面支持3D数据、公共地理框架数据、点云、街景、实时位置及感知数据,支持的数据格式包括非关系型数据库格式,关系型数据库格式,表格、图片等文件格式,互联网社会媒体信息,传感网络设备传输的流数据,支持地理信息数据服务的接入。在功能方面,除具备传统支持可视化查询、编辑、分析、共享交换、应用开发功能外,还具备在线的地理信息关联触发与地理信息围栏筛选的能力,其处理结果可为系列消息、通信信息、邮件、地图成果,预测结果等;在使用上,用户可基于各类终端访问地理信息云平台,并基于云平台订阅相关数据与功能,便可得到满意的结果,无需关心数据在哪,如何处理,真正开启全新的用户体验。
百度大数据产品使地理信息大数据应用广为人知,百度迁徙图是通过统计分析数亿百度手机用户迁徙轨迹数据形成的,其直观地反映了人口迁徙情况,为交通部门进行春运交通调度提供指导,“百度天眼”可实时“嗅探”飞机运行状态,为百姓出行规划提供指导。
地理信息云平台实现各类资源的共享交换,使地理信息应用从推动应用转变为利用相关信息挖掘应用,为政府、企业、社会公众的决策提供服务。地理信息大数据还可应用于地理信息数据更新、城市信息挖掘、公共安全管理、交通出行、环保监测、卫生防疫等领域。
1) 地理信息数据更新应用。对用户在微博、微信中分享的海量位置信息进行聚合、筛选后,更新地名地址、兴趣点数据,借助人口与车辆的流动数据更新道路,确保地理信息数据资料的鲜活性。
2) 城市人文信息挖掘应用。灯光直接反映着城市工业化水平、城镇化水平、人口集中分布情况[11],利用遥感卫星夜间影像可以获取各城市的经济要素。如利用夜光的减少情况,可评估居民大规模迁徙与战争情况;通过经济统计数据、夜光影像、人口分布图、土地覆盖类型数据等,获得格网化的GDP数据,可使政府精准掌握经济区域发展情况。
3) 公安应急应用。对于开放式的广场,公安部门很难掌控人口聚集程度,难以给出科学的人口流量控制措施,极易出现踩踏事件。因此可借助手机热点大数据计算出每平方米聚集的人口数量,结合手机热点的流动趋势,判断每平方米人口聚集量的变化趋势,从而及时做出相应的应急措施,避免因人口超负荷聚集带来的伤亡。
4) 交通出行规划应用。百姓出行大多会根据实时路况数据,避开拥堵路段,选择宽松路段行驶,而宽松路段则因车流量快速聚集变成新的拥堵路段,因此导航系统可结合大量历史拥堵的变化情况,基于当前车辆行驶的趋势性,如路口车辆左转、前行等趋势性数据,分析出合理的路线告知用户,避免从一个拥堵路段进入另一个拥堵路段。
5) 环保领域的雾霾监测应用。对污染企业分布信息、风向走势、道路分布、交通流量、人群轨迹等大量的数据信息进行汇集、处理分析,可制作可视化的雾霾分布图及雾霾变化趋势图,从而为政府部门提前应对雾霾天气、开展环境整治等方面提供指导。
6) 卫生领域,可判断流感蔓延情况。对用户在百度、搜搜等搜索引擎网站输入的咳嗽、发烧等热点检索信息,可分析流感疫情的蔓延情况,为政府部门应对快速蔓延的流感病提供第一手资料。
随着地理信息数据的获取手段越来越多,地理信息数据逐步进入大数据时代。在地理信息大数据环境里,用户无需发愁地理信息数据资源的覆盖性与现势性,而更关注于数据如何组织管理,如何获取可靠的数据,也不再担心地理信息数据资源无处可用,更专注于通过相关信息挖掘应用,更好地服务于政府、企事业单位、社会公众。然而,大数据时代个人隐私面临严峻挑战[12],如何防止私人信息泄密是值得研究的问题。我们将积极拥抱地理信息大数据,开发地理信息云平台,深入挖掘数据宝藏,促进地理信息产业跨越发展。
[1] 朱金莉.大数据时代对传统新闻媒体的颠覆与嬗变[J].学术论坛,2015,38(1):152-155.
[2] GRAHAM-ROWE D,GOLDSTON D,DOCTOROW C,et al.Big Data:Science in the Petabyte Era[J].Nature,2008(455):7209.
[3] 乔朝飞.大数据及其对测绘地理信息工作的启示[J].测绘通报,2013(1):107-108.
[4] 王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.
[5] 曹磊,陈薇娜,缪其浩,等.大数据:数字世界的智慧基因[N].文汇报,2011-11-08(11).
[6] 维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
[7] IDC预测:全球数据每两年翻一番[N].计算机世界,2011-07-04(35).
[8] 刘经南.大数据时代的泛在测绘与位置服务[EB/OL].2013-09-24[2015-09-30].http:∥news.3snews.net/2013/0924/27016.html.
[9] 3S新闻周刊.大数据未来在于空间关联分析[EB/OL].2013-07-16[2016-01-08].http:∥news.3snews.net/2013/exclusive_0716/25600.html.
[10] GOODCHILD M F.Citizens as Sensors:The World of Volunteered Geography[J].GeoJournal,2007,69(4):211-221.
[11] 曹丽琴,李平湘,张良培.基于DMSP/OLS夜间灯光数据的城市人口估算——以湖北省各县市为例[J].遥感信息,2009(1):83-87.
[12] 刘雅辉,张铁赢,靳小龙,等.大数据时代的个人隐私保护[J].计算机研究与发展,2015,52(1):229-247.
Discussion of Geographic Information Big Data
YUAN Cunzhong,DENG Shudan
2016-01-29
袁存忠(1969—),男,硕士,教授级高级工程师,主要从事空间数据库、地理信息工程应用研究工作。E-mail:437309477@163.com
邓淑丹。E-mail:dengshu917@163.com
袁存忠,邓淑丹.地理信息大数据探讨[J].测绘通报,2016(12):105-107.
10.13474/j.cnki.11-2246.2016.0412.
P208
B
0494-0911(2016)12-0105-03