褚俊秀,徐敬海
(1.南京工业大学 测绘科学与技术学院,江苏 南京 210009)
地震灾情位置微博抓取与展示
褚俊秀1,徐敬海1
(1.南京工业大学 测绘科学与技术学院,江苏 南京 210009)
探索了一种地震灾情位置微博的抓取与展示方法。通过分析位置微博在地震灾情获取中的作用,建立了位置微博地震灾情抓取框架。基于新浪微博SDK,实现了有效位置微博的抓取;在顾及地震灾情专题属性的基础上,对抓取的微博进行分级。以云南省昭通市鲁甸地震为例,实现了灾情的提取与严重程度的图示化展示。
地震灾害;灾情提取;位置微博;灾情展示
地震灾害具有突发性和不可预测性,与洪水、台风等气象灾害相比,防御难度更大,除了灾害直接造成的损害,往往还产生广泛的次生灾害。为了降低地震发生后的经济损失、减弱社会影响,迅速及时的救援工作尤为关键。作为地震应急救援的前提,及时获取灾情信息就显得尤为重要[1]。如何才能提取到有效且应急的地震灾情是个关键性的议题[2-4]。研究人员对地震灾情的获取开展了大量的研究,其中以遥感技术为代表的空间信息技术得到了广泛应用,并取得了好的效果[5]。但遥感技术通常是灾区影像的呈现,对震后人员死亡、震感范围、次生灾害分布等地震应急救援急需的灾情获取困难。随着微博、微信、人人网等Web2.0社交平台的兴起,用户以自身感兴趣的形式自发贡献数据及资讯,这些海量数据中充满着丰富的灾情信息,如能得到合理应用将能有效补充现有方法的不足。最大限度地利用微博数据服务于专题地理信息的获取也是地理信息领域研究热点之一[6-7]。
从地理学视角对微博展开的研究还不够充分。运用微博用户自带地理属性来研究地震灾情,为地理社交网络的贯通提供了可行性,能够快速形成更为有价值的地震严重度分布专题图来指导救灾实践,也为大数据时代如何利用大数据的优势将自发地理信息有效地应用于数据获取开辟了新的途径。
位置微博,即带有位置信息的微博,为经纬度信息的反映,民众发送的微博数据经过处理后在微博电子地图上配准标注[6]。经纬度坐标需通过定位来实现,微博的数据汇集通过网友使用互联网设备来实现,主要有网页微博、PC客户端“微博桌面”和手机客户端“新浪微博”,两个客户端用户在发送微博时都能获取到位置,不过也取决于用户自愿。微博在PC客户端采用的是用户IP所在的地理位置,非固定IP只能定位到所在城市,精度并不高;在移动客户端采用的是GPS定位原理,运用空间距离后方交会的方法,以确定用户发送微博的热点位置,其精准程度主要依赖于GPS卫星定位的精度。
本文探索了地震灾情位置微博的抓取方法,即采用地理标定策略。以地震灾害为例,地理标定获取策略的好处是便于以地震发生后时间空间的动态变化情况来预测地震的宏观震中区域(极震区)、震灾的严重性分布、民众的态度及反应等,以可视化的方式更好地反映震灾的时空属性,提供更为及时的救灾指导。
震后72 h被救灾界称为“黄金72小时”,此时间内受地震埋压被救出的成活率较高,因此首先要选取的时间段为从发震后起算3 d。提取到存储备用的原始数据后,对数据进行统一的规约处理,以作震灾评估。经地理标定的微博位置点是离散的,但分布上有规律,在专题图上就能得到灾情分布模式和严重度趋势,总体的灾情微博抓取框架如图1所示。
首先是参数的输入,在系统中输入地震震级和震中信息之后,根据地震烈度衰减关系,结合纸质媒体和网络媒体的报道,判定地震影响区域的最小边界矩形;接着运用粗网格+细网格的格网索引模式进行提取操作。其选择依据为:对人口/居民点疏密度、地貌形态等多个因子进行综合考虑,确定格网索引的密度,划分为网络。根据历年地震发生频率、规模,结合微博的普及程度调研发现,数据来源中以村为单元行政区域的微博几近于无,因此确定单元行政区域级别为乡镇,即行政区域级别只取省、市、县和乡镇(自顶层至基层)4级。
图1 众源位置微博灾情目标处理框架
本文基于新浪微博开放平台的SDK开发,为了实现用户与第三方网站之间的安全链接访问,采用OAuth 2.0认证标准,结合要用到的API,位置微博灾情数据提取的具体过程如图2所示。
图2 位置微博灾情数据抓取的实现流程
针对待提取的数据,确定主要使用的接口为位置服务接口、评论接口和关系接口。针对提取目标最关键的是获取某个位置周边动态的函数place/nearby_ timeline。本文需要从地震发生后同一时间段发布的海量微博中抽取信息点,然后以统一的形式集成,再用结构化形式进行存储,以json格式返回的字符串组合成为CSV文件,如图3所示。json是一种轻量级的数据交换格式,既易于阅读和编写,也易于机器解析和生成,这些特性使得json成为理想的数据交换语言。至此,抓取的数据已完成从非结构化到结构化的转换。
图3 抓取到的灾情位置微博(CSV格式)
经过第一阶段的微博数据抓取,入库的是地震后3 d内震区受影响区域的数据,这些数据按照统一的二维表形式分字段存储。由于数据中存在冗余、无关和记录不完整的情况,因此还不能直接应用于地震灾情展示,首先需要进行数据规约处理,再基于分类检索库匹配词典,对规约处理后的数据进行灾情信息等级评估。
为了给急需了解灾区背景资料的用户提供第一手资料,对灾区的影响范围做出快速估计,需要对处理后的位置微博地震灾情离散点进行地理标定可视化展示。将位置微博以一定的分类分级符号表达,从而使得用户能够直观地了解地震灾情严重度的空间分布和定性、定量特征。通过专题图的方式将数据图形可视化,利于将位置微博数据中难以发现的灾情分布模式和严重度趋势通过符号化直观地体现在地图上。
3.1 位置微博数据规约处理
规约化处理的步骤主要为去噪、去重、分词和索引。去噪和去重又合称为数据清洗,通过筛查检测数据集中存在的错误和不一致,并找到与地震灾情分析无关的数据,利用人工或自动化工具将它们剔除或改正,以提升数据质量。
数据规约处理的结果是位置微博地震灾情分类检索表。构造这个表的目的是为了罗列经过分词的基于微博社会化网络词汇的地震灾情分类索引。它融合了灾情汇报的网络特征,并结合地震专业术语,引入人的情绪以及对地震的反应、表情等。微博的表情多样,反映了微博发送人的心境,是重要的灾情反馈手段。
3.2 地震灾情信息等级评估
基于微博地震灾情的分类检索库匹配词典,运用微博文本情感分析的方式,从可利用的社会化网络灾情的5个维度来考察,综合最新版本中国地震烈度表[8],对提取到的社会化地震灾情进行程度及微博内容的进一步细分归纳,给定打分,如表1所示。
表1 微博内容的地震灾情信息等级评估
本文以发生在2014-08-03 16:30云南省昭通市鲁甸县(北纬27.1°,东经103.3°)的6.5级地震为例证。在震级-烈度衰减关系的支持下,通过选定范围,对云南省下辖的8个县,四川省下辖的4个县,贵州省下辖的2个县进行微博挖掘,提取地震发生后3 d内的地震位置微博,得到了60 069条原始微博,经过信息抽取和数据清洗,得到1 616条。
利用现有的分词模型进行数据规约处理和分级,并对这些数据进行有效整合、分析,将与本次地震相关度高的灾情数据入库。由于对抓取位置微博地震灾情数据进行分级时利用的专题属性信息的大小及性质不同,用符号大小反映地震灾害影响域,用颜色深浅显示灾害影响程度,形成灾情严重度评价的聚集圈,如图4所示,其中底图来源于天地图“http∶//map. tianditu.com/map/index.html”。
图4 基于位置微博的鲁甸地震灾情展示图
在社会化网络时代的背景下,微博等新媒介为地震灾情的提取提供了新的方法与视角。本文展示了一种地震灾情位置微博抓取方法;介绍了位置微博的概念,提出位置微博地震灾情提取框架;详细论述了基于位置API的位置微博抓取方法;最后以鲁甸地震为例,展示了位置微博地震灾情提取的应用,并对灾情提取结果进行了分析与探讨,验证了位置微博灾情提取框架的可行性及有效性。
[1] 帅向华,姜立新,成小平.利用WebGIS实现地震灾害信息数据的管理[J].自然灾害学报,2013,12(4)∶111-114
[2] 聂高众,安基文,邓砚.地震应急灾情服务进展[J].地震地质,2012,34(4)∶783-789
[3] 徐敬海,聂高众.城市地震应急处置方案技术研究[J].地震地质,2014,36(1)∶197-202
[4] 赵晓丽,李家存,屈新原,等.地震及其次生灾害灾情专题图制图模板研究[J].地理空间信息,2011,9(3)∶153-155
[5] WU H, CHENG Z P, SHI W Z. An Object-based Image Analysis for Building Seismic Vulnerability Assessment Using High Resolution Remote Sensing Imagery [J]. Natural Hazards, 2014, 71(1)∶151-174
[6] 王波,席广亮,张浩,等.基于微博用户关系的网络信息地理研究∶以新浪微博为例[J].地理研究,2013,32(2)∶381-389
[7] 胡庆武,王明,李清泉.利用位置签到数据探索城市热点与商圈[J].测绘学报,2014,43(3)∶315-319
[8] GB/T 17742-2008.中国地震烈度表[S].
P208
B
1672-4623(2016)05-0038-03
10.3969/j.issn.1672-4623.2016.05.012
褚俊秀,硕士,研究方向为GIS在空间大数据地震灾情挖掘方面的应用。
2015-03-23。
项目来源:国家科技支撑计划资助项目(2012BAK15B06);空间信息智能感知与服务深圳市重点实验室(深圳大学)开放基金资助项目(201404)。