胡素平 帅向华
1)中国地震局地震预测研究所,北京 100036
2)中国地震台网中心,北京 1000451
震后快速、动态地获取准确的灾情信息是地震应急工作的关键。目前,我国地震灾情信息主要有:现场调查、电话上报、短信上报、遥感四种获取手段,还不能满足地震应急实际工作需要,亟需研究一些新的方法为地震应急工作的信息源进行补充。通常破坏性地震发生后,部分民众和媒体作为地震事件的目击者和直接参与者,对地震事件的把握比较准确,可以向政府提供大量的灾情信息。伴随着互联网的迅速发展和广泛普及,尤其在 Web2.0应用模式下,越来越多的人借助于互联网平台进行信息的获取与共享。每当破坏性地震发生,互联网上都会有大量的地震灾情信息进行传播,这些信息实时更新、不断累积、类型多样。就日本大地震来说,网络媒体就成为本次地震灾情信息获取的一个重要渠道。
基于互联网的灾情获取方法国内外已有相关研究。美国USGS基于网络的社区烈度调查系统,通过互联网平台,依据修订的麦氏烈度表不同烈度的判别指标,以电子问卷的形式调查地震有感范围区网民对地震的感知情况,最后通过汇总和统计,给出以邮政编码为统计单元的社区烈度结果(李岩峰等,2009)。国内基于网络的山东地震灾情收集分析处理系统,借助网络资源,把人们对地震的感觉、看到建筑物震害程度、以及地表破坏和生命线破坏现象迅速地收集、处理和分析,快速验证和修正地震应急指挥技术系统(帅向华等,2009a;2009b)基于地震应急数据库给出的地震影响和灾情评估结果(董翔等,2007)。目前已有的互联网灾情获取是通过网民上报的方式进行的,信息源得不到保证。本文研究主动地去获取互联网上海量的地震灾情信息,建立网络地震灾情信息智能处理模型,将互联网上非结构化的灾情信息转化成结构化的灾情信息,并研究地震烈度的判定方法,建立网络地震灾情信息与地震烈度之间的关系,破坏性地震发生之后,可以快速、实时地为地震应急工作提供地震灾情信息和地震烈度信息。
地震灾害发生后,首先需掌握灾害的详细情况,如地震的基本情况、人员伤亡、生命线工程破坏情况、发生次生灾害的情况及灾害的分布情况等,为地震应急提供依据。震后来自灾区的灾情信息种类繁多,综合地震应急工作的实际需要,本文获取的网络地震灾情信息主要有九类(表1)。
表1 网络地震灾情信息类别Table 1 Types of internet earthquake hazard information
本文从地震灾情信息的互联网抓取关键词定义、互联网来源、互联网获取的时间三个方面,对地震灾情信息互联网抓取进行研究。首先,地震灾情信息获取的准确性与关键词定义是否恰当直接相关,关键词定义越详细,抓取的灾情信息越精确。依据各类灾情信息的定义以及在互联网上的描述信息,本文定义的互联网抓取关键词包括两部分内容:一部分是地震要素,这类关键词随着地震的不同而变化;另一部分是地震灾情信息的描述关键词,这类关键词是通用的,适应于每个地震(表2)。
表2 地震灾情信息互联网抓取关键词Table 2 Key words of acquiring internet earthquake hazard information
续表
其次,从互联网上收集历史地震灾情信息,按时间和来源进行统计分析发现,灾情信息主要集中在国内官方媒体和门户网站、行业地震网、社区论坛;震情信息、人员伤亡、经济损失信息主要集中在震后一个月,有感信息主要集中在震后1天,房屋破坏、交通中断、通信中断、断水断电、次生灾害,集中在震后10天。依据《地震灾情应急评估规范》(征求意见稿),特别重大地震灾害不超过10天,重大地震灾害不超过7天,其他地震灾害不超过3天。综上所述,本文定义了灾情信息的互联网来源(表3)和互联网获取的时间(表4)。
表3 地震灾情信息的互联网来源Table 3 Sources of acquiring internet earthquake hazard information
表4 不同震级区间的地震互联网获取灾情信息时间Table 4 Time periods of acquiring internet earthquake hazard information for different magnitude interval
如何把互联网上非结构化的灾情信息转化成便于管理和利用的结构化灾情信息,是网络地震灾情信息智能处理模型研究的关键问题。首先,需要从灾情信息中提取出地名信息,便于灾情的追踪和空间定位;其次,需要对灾情信息进行分类,便于灾情的应用。本文对地名提取和灾情分类进行了重点研究,地名提取是通过确定不同震级地震地名提取的范围,建立震中地名库,通过震中地名库去匹配互联网上获取的灾情信息,从而提取出灾情信息中包含的地名信息;灾情分类是通过构建地震灾情信息分类模型词典来对网络灾情信息进行分类。
地名提取是指以全国地名库为基础,从互联网上的灾情信息中提取出灾情信息中包含的地名信息,包括地名名称及其地理坐标。全国地名库较大,若进行全库匹配,效率较低。且每次地震发生后,破坏范围有限。所以,只需要获取破坏范围内的地名信息,建立震中范围的地名库,进行灾情信息的地名提取。
2.1.1 地名提取范围
地名提取范围是指破坏性地震发生后,能完全包含实际地震烈度为6度及以上区的地名信息,包括地震烈度取值级别及各级烈度区的空间取值半径和最低行政区划级别,其中,地震烈度取值级别是指6度到宏观震中烈度之间的各级地震烈度值;空间取值半径是指各级烈度区的地名坐标与震中坐标的空间距离;最低行政区划级别是指各级烈度区地名取值的最低行政区划级别;实际取值是指取最低级别以上的行政区划级别。
本文通过对历史震例的统计分析,确定不同震级区间的地震的地名取值范围。历史震例的选取原则主要有:剔除没有进行现场调查的震例或调查不够详细的震例;剔除在中国边境、海域发生的地震;剔除震群型震例;剔除有较多的地震烈度异常区的震例;剔除最大地震烈度小于6度的震例;剔除震级相同或相近的震例中数据偏差较大的震例。依据此原则,从《中国大陆地震灾害损失评估汇编(1990—2010)》(中国地震局监测预报司,1996;2001;2010)中,选取符合条件的震例有68个(表5)。
依据选取的历史震例,选择各震级区间地震烈度6度及以上地区长半轴最大的震例,来定义该震级区间的地震烈度取值级别及空间取值半径,地震烈度取值级别为6度到该震例最大烈度之间的各级烈度,空间取值半径为震例的长半轴长度。
对互联网上历史地震的灾情信息分析发现,数据来源的最低行政区划级别主要是镇级,以村为单位的数据极少,综合目前互联网在中国的普及程度,本文选取最小的行政区划级别为镇级,即本文的行政区划级别只取市、县、镇三级。行政区划级别的定义结合震级的大小和烈度大小进行综合考虑,地震烈度为Ⅷ度、Ⅸ度、Ⅹ度、Ⅺ度地区,最低行政区划级别取到镇级;震级在6级及以上的地震,地震烈度为Ⅶ度的地区,最低行政区划级别取市,Ⅵ度地区最低行政区划级别取县;震级在6级以下5级及以上的地震,地震烈度为Ⅶ度的地区,最低行政区划级别取镇级,Ⅵ度地区最低行政区划级别取县;震级在5级以下的地震,地震烈度为Ⅵ度区的最低行政区划级别取镇级(注:表5中镇指的是镇级行政区划,包括乡)。
表5 不同震级区间各级烈度区的空间取值半径(单位:km)和最低行政区划级别Table 5 Radius and the lowest administrative level for different magnitude and intensity
续表
2.1.2 地名提取方法
破坏性地震发生之后,很快就能得到震级大小、震中坐标。根据震级大小确定地名提取范围,根据地名提取范围从全国地名库中进行提名提取。以2012年5月28号滦县4.8级地震为例说明。震级为4.8,从表5中查找出震级区间在4.0—4.9之间的地名提取范围为:地震烈度取值范围为6度,6度区的空间取值半径为9km,最低行政区划级别为镇。
根据两点经纬度坐标计算两点距离的公式为:Distance (X1, Y1, X2, Y2)=sqrt ([(Y2–Y1)×PI×R×cos(((X1+X2)/2)×PI/180)/180]2+[(X2–X1)×PI×R/180]2),其中,PI是地球圆周率;R是地球半径。
设震中坐标为(X中,Y中),镇地名库的坐标为(X镇,Y镇),县地名库坐标为(X县,Y县),市地名坐标为(X市,Y市),则该震例的震中地名库满足的条件有,市地名库:Distance(X中,Y中,X市,Y市)≤9km;县地名库:Distance(X中,Y中,X县,Y县)≤9km;镇地名库:Distance(X中,Y中,X镇,Y镇)≤9km。依据建立的震中地名库,对互联网上获取的灾情信息进行地名的匹配,从中提取出包含的地名信息。
收集历史震例的网络地震灾情信息,依据各类灾情信息的定义,提取各类地震灾情信息的描述性关键词汇,形成分类模型字典,并以此为依据对网络地震灾情信息进行自动分类。
表6 网络地震灾情信息分类模型字典Table 6 Classification and dictionary of internet earthquake hazard information
续表
地震烈度作为地震应急工作的基础数据之一,快速得到较为准确的地震烈度信息对地震应急工作很重要。从互联网上获取的非结构化的灾情信息,经过智能处理转化成结构化的灾情信息,其中分类后的九类信息中的有感信息、房屋破坏信息和次生灾害信息,可以用作地震烈度判定的数据基础。
汶川地震是发生在中国中部的特别重大地震灾害,互联网上历史灾情数据非常丰富,本文以汶川地震的网络灾情信息为基础,进行地震烈度判定研究。依据《中国地震烈度表(GB/T 17742—2008)》(中华人民共和国国家标准,2008)和《地震现场工作,第三部分:调查规范(GB/T 18208.3—2011)》(中华人民共和国国家标准,2011),提取历史网络灾情信息中各级烈度区关于烈度的描述性词汇,建立地震烈度语料库,再从地震烈度语料库中提取地震烈度的描述性词汇,并赋予相应的地震烈度权值。通过这种方法建立网络地震灾情信息与地震烈度之间的定量关系来判断地震烈度。
3.1.1 提取汶川地震各级地震烈度区的地名
将矢量化的汶川地震现场烈度调查图和全国地名库进行叠置分析,获取各级烈度区的地名(表7)。地震烈度为Ⅵ度、Ⅶ度、Ⅷ度、Ⅸ度的地区,行政区划级别取市和县;地震烈度为Ⅹ度、Ⅺ度区,行政区划级别取市。为了扩大数据源,提取了地震烈度小于Ⅵ度的地区的部分地名,这些地区在互联网上的灾情信息较多。
表7 汶川地震各级烈度区包含的地名Table 7 Place names within the different Wenchuan earthquake intensity areas
3.1.2 构建地震烈度语料库
对汶川地震各级烈度区包含的地名的网络灾情信息(有感信息、房屋破坏、次生灾害)按地震烈度进行汇总分析,依据中国地震烈度标准和地震现场调查规范,提取每条灾情信息对应的烈度描述词汇,构建地震烈度语料库(表8)。
表8 构建的部分地震烈度语料库Table 8 Part of terminology for seismic intensity description
对地震烈度语料库中的烈度描述词汇进行汇总分类,依据中国地震烈度标准,给每一个烈度描述词汇赋一个地震烈度权值,烈度权值为0,表示无感,其他数字表示相应的烈度值,建立地震烈度判定字典(表9)。地震烈度判定字典主要由五大类组成:人的感觉、器物反应、房屋破坏情况、其他灾害,其中人的感觉、器物反应、房屋破坏情况、地质灾害的类别选择主要依据是中国地震烈度标准和地震烈度现场调查表,其他灾害中的烈度描述词汇主要来源地震烈度语料库,在构建地震烈度语料库过程中,发现在高烈度地区有一部分词汇出现频率很高,可以用来作为地震烈度判定的依据之一。
表9 地震烈度判定字典Table 9 Dictionary of seismic intensity description
依据地震烈度判定词典,从网络地震灾情信息中提取地震烈度描述词汇和每个烈度描述词汇的烈度权值,若一条灾情信息中有多个烈度描述词汇,对烈度描述词汇对应的烈度权值进行取平均值计算,计算结果按四舍五入取整处理。同一地区的烈度判定值若有多个,取其平均值,结果按四舍五入取整处理。本文收集了汶川地震震后24小时的12982条灾情数据,其中,带有地名信息和烈度描述信息的数据有1204条,一共有112个地名来源。并依据地震烈度判定字典,对震后24小时的112个地区地震烈度进行判定,并将判定的地震烈度点和汶川地震现场调查烈度图进行了对比(图1),从图1可以看出,各地震烈度判定点与现场调查的烈度基本上是一致的。
图1 汶川地震震后24小时地震烈度点Fig. 1 Locations of the sites for intensity determination 24 hours after Wenchuan earthquake
近几年破坏性地震灾害频发,社会民众对地震的切身感受越来越真切,并且随着互联网的迅速发展和普及,越来越多的民众会通过互联网去发布自己了解到的地震信息,各网络媒体也会及时地进行地震相关的专题报道。每当地震发生,互联网上很快就有大量的地震信息,这些信息可为地震应急救援工作提供信息支持。本文通过对互联网上历史地震灾情信息进行研究,建立网络地震灾情信息智能处理模型,将互联网上非结构化的、杂乱的灾情信息转化成结构化的、有序的灾情信息,并通过网络地震灾情信息进行地震烈度的快速判定,快速判定的地震烈度信息可以与基于经验公式计算的等震线图和美国USGS的ShakeMap震动图进行对比和修正。
毕竟,互联网上信息的汇集是无序而杂乱的,信息源很多,每个信息源的数据结构和描述都不统一,灾情信息智能处理模型很难把互联网上所有的灾情信息考虑进去。此外地震烈度的判定带有很强的主观性,影响因素很多,互联网上关于地震烈度的描述性语言非常不标准,本文研究的基于网络地震灾情信息判断地震烈度的方法,忽略了很多的影响因素。本文的研究更多的是进行一些探索性的工作,为下一步进行深入的研究打下基础。
董翔,肖兰喜,杜宪宋等,2007. 基于网络的山东地震灾情收集分析处理系统. 华北地震科学,25(3):6—10.
李岩峰,王东明,李民等,2009. 基于网络的地震灾情信息时-空分布规律及启示. 国际地震动态,(12):28—33.
帅向华,姜立新,王栋梁,2009a. 国家地震应急软件系统研究. 自然灾害学报,18(3):99—105.
帅向华,2009b. 国家地震应急指挥技术系统. 北京:地震出版社.
中华人民共和国国家标准,2008. 中国地震烈度表(GB/T 17742-2008).北京:地震出版社.
中华人民共和国国家标准,2011. 地震现场工作,第三部分:调查规范(GB/T 18208.3-2011).北京:地震出版社.
中国地震局监测预报司,1996. 中国大陆地震灾害损失评估汇编(1990—1995).北京:地震出版社.
中国地震局监测预报司,2001. 中国大陆地震灾害损失评估汇编(1996—2000).北京:地震出版社.
中国地震局监测预报司,2010. 中国大陆地震灾害损失评估汇编(2001—2005).北京:地震出版社.
中国地震局监测预报司. 中国大陆地震灾害损失评估汇编(2006—2010).北京:地震出版社,出版时间未定.