基于语义模板的地震应急态势图自动标绘技术
破坏性地震发生后,大量的地震应急信息汇集并传播,在传统的地震应急处置模式中,地震应急信息的传播大多为信息简报等文本形式。这类信息大多只有文字描述,无法以直观、形象的图形化方式表达灾情震情信息。随着GIS技术在地震应急中应用的不断深入,近些年,基于GIS的地震应急态势标绘技术(也称为电子沙盘)得到了较快发展,能够采用图形符号在地图上标绘各类地震应急信息,作为文本信息简报的补充,有利于阅读者快速理解材料,获知各类信息的空间分布及关联性,从而充分了解地震应急态势,做出正确的应急指挥命令。徐敬海等(2011)结合地震应急的特点,论述了标绘元素的符号化表达和显示;刘浩等(2013)论述了标绘框架设计和应急救援语义的标绘表达;王悦等(2010)从软件应用的角度,论述了地震应急态势标绘系统的功能设计与实现过程。然而,目前的地震应急态势标绘技术与系统一般以人工标绘为主,通常需人工阅读、理解文字材料,还需考虑文本信息与空间信息、应急态势信息与标绘符号的对应关系等,存在实时性差,耗费较多人力等问题。基于自然语言处理的自动标绘技术是态势图标绘的一个发展方向,目前此类技术较多研究和应用于军事领域,(胡斌等,2005;杨健等,2006;姜文志等,2007)从自动标绘关键的信息抽取、文本信息空间化等方面做了介绍。在地震应急领域,帅向华等(2013)对自动标绘关键的地震应急文本信息结构化、空间化技术进行了探讨。本文结合地震应急文本信息的特点,基于自然语言处理概念,研究语义模板填充技术,并以此为手段,探讨地震应急救援灾情信息的自动标绘方法,为地震应急标绘时效性的提高提供有力支持。
基于语义模板的地震应急态势图自动标绘技术利用中文信息抽取的概念,完成地震应急文本信息的结构化和空间化,并与标绘模型匹配,实现地震应急文本信息在地图上的自动标绘。图1给出了地震应急态势图自动标绘模型。
(1)以网络,公文文本,短信获取的地震应急文本信息为资料,对其分析,预处理形成地震应急专有词典、地名词典和指代词典;其中地震应急专有词典用于后续的文本结构化处理,地名词典和指代词典用于文本信息的空间化处理。
(2)结合预处理的结果,对地震应急原始文本进行结构化处理(包括中文分词,词性标注,语义标注、语义模板填充等)。此阶段,中文分词将一串连续汉字序列按照一定的规范重新组合成词语序列。词性标注可根据句子的上下文信息给句中的每个词语确定一个最为合适的词性标记,以便于语义标注的实现。语义标注可根据句子的句法结构和句中每个实词的词义推导出能够反映这个句子意义的某种形式的结构化表示(程显毅等,2010)。而语义模板定义了地震应急事件描述及文本匹配规则,可与原始地震应急文本信息匹配、抽取,形成结构化文本。
(3)对结构化信息中所包含的地名、中文实体名进行空间化处理。
空间化处理阶段,把结构化处理后文本信息中包含的中文地名、中文实体名做空间定位处理,以建立文本信息与空间位置的关联关系。尽可能多的把包含空间信息的本文与空间位置关联决定了地图标绘信息的丰富度与准确度。
(4)最终的信息表达阶段,结构化文本映射为标绘符号,并与标绘模板进行匹配,调用标绘组件的绘图接口,实现地震应急文本的自动标绘。根据地震应急需求,综合运用点、线、面等形式来表达灾情要素、救灾行动、指挥调度等内容。目前,自动态势标绘技术中标绘多集中于静态化的表达。因此,还需对时态发展的地震应急信息赋予动态化显示。
图1 基于语义模板的地震应急态势图自动标绘模型
文本结构化技术与计算机实现
文本结构化技术本质上属于中文信息抽取技术。中文信息抽取方法按照抽取原理分为四类。(1)基于自然语言处理方式的信息抽取。此类抽取方法利用子句结构建立语法和语义的抽取规则实现信息抽取。(2)基于规则的信息抽取。依赖于人们手工建立抽取模式,而这些规则较难保证具有整体的系统性和逻辑性。(3)基于统计模型的信息抽取。目前基于机器学习的方法是主要的研究热点,但面临无法快速获取大规模标注语料的困难。(4)基于认知模型的信息抽取(程显毅等,2010)。
基于地震应急领域词汇量相对较少,文本句法结构较为固定的特点,本文采取第一与第二种方法相结合的方式实现原始文本的结构化。即采用自然语言处理方式对原始文本进行中文分词、语义标注、中文命名识别等,再基于预定义的语义模板及匹配规则进行信息抽取。
使用LTP-Cloud语言云平台对原始文本进行中文分词、语义标注等处理。
目前的基于自然语言处理概念的文本处理软件较多。本文利用实际文本进行验证对比,选用LTP-Cloud语言云平台作为中文分词和词性标注工具,LTP-Cloud语言云平台提供了包括分词、词性标注、依存句法分析、命名实体识别、语义标注在内的丰富高效的自然语言处理服务。并支持添加自定义词典,增强语义分析的可靠性和准确性。
如图2所示,以文本“截至24日12点30分,甘肃岷县地震共造成45人遇难。”为例,展示LTP-Cloud处理后的词性标注与语句结构。其中TMP代表时间词,ADV代表附加词, A0 通常表示动作的施事,A1通常表示动作的影响等。
预定义语义模板及匹配规则
按照地震应急事件特点及文本描述习惯,把地震应急事件分成震情信息、灾情信息、应急处置信息四大类二十几小类,并按照事件分类构建语义模板和匹配规则。语义模板定义了地震应急信息的事件类型、主体、客体、主要行为,发生的时间、地点和其他特定属性等。表1以“人员死亡”事件为例,展示了语义模板的定义及匹配规则的编写。
表1 “人员死亡”事件语义模板及匹配规则
其中tmp表示时间词,loc表示地名词,mbar表示数量词。在规则中每一对大括号“{……}”表示一个节点, 大括号前面的数字表示待抽取信息的编号, 带有编号的为待提取内容,与语义模板中数字相对应。例如编号为2限制输出为地名词,对应语义模板中的地点属性。节点中的“|”表示或的关系, 即节点中的词有一个匹配成功则此节点匹配成功。如果某一段文本匹配了整个规则,并满足输出节点的限制,则认为匹配成功, 输出该事件;如果该段文本不能完全匹配规则, 则匹配失败(梁晗等,2006)。文本信息结构化的准确率和识别率取决于匹配规则编写的全面性。因此同一地震应急事件的匹配规则需根据地震应急行业用语习惯,编写多条,以最大程度与文本信息匹配。
模板匹配与信息提取
上述带有结构信息的语句经合并与过滤后,简化形成如下结构:
{TMP},{LOC}{地震/n}{造成}{45/m人/n}{遇难/v},关键字“遇难”与事件类型“人员死亡”匹配,检索“人员死亡”事件的预定义语义模板匹配规则,经正则表达式等文本匹配技术进行对比,与上文语义模板中定义的匹配规则1完全匹配,并按照信息提取标示及对应信息,形成结构化信息。模板匹配后的结构化信息如图2下半部分所示。
文本信息的空间化
包含空间位置的文本信息的分类
地震应急原始文本中直接或间接包含空间位置信息的词主要有4类:
图2 文本信息结构化流程图
图3 文本信息的空间化流程
第1类:具体行政名称,行政区域名,如“芦山县太平镇”。
第2类:自然地理名称和人文地理名称等,如山、河、湖、海岛等自然地理名称,也包含名胜古迹、纪念地、水库、桥梁、电站等名称。
第3类:间接包含地理位置的中文机构名。如位于芦山县隆兴乡的“芦山县龙门中心卫生医院”。如果按照第一类词来处理,只能定位到芦山县,而不能定位到芦山县隆兴乡。
第4类:包含地理信息的特殊指代名词。如“震中”,“极灾区”等,这类词语根据地震的不同,代表的地理位置不同。
目前地震领域空间化技术或软件系统一般还停留在第1类文本信息空间化,分析已有地震应急文本资料可知,空间信息除包含在第1类中,还可包含在第2、3、4类文本信息中。
文本信息空间化步骤
文本信息空间化包括识别包含空间信息的文本和文本向地理坐标转换两个步骤。
空间文本信息识别:包含空间信息的文本识别由前述LTP-Cloud语言云平台处理完成,识别并标示出了原始文本中的地名及中文机构名。
文本信息地理转换:文本信息向地理坐标的转换属于地理编码的范畴,地理编码是指将中文地址或地名描述转换为地球表面上相应的位置。一般分为正向地理编码和反向地理编码两种方式,分别表示中文地址或地名描述与空间地理坐标之间的双向转换过程(杨丽,2013)。本文所提及的文本信息空间转换属于正向地理编码,即通过输入一个中文地名地址信息来获得对应的地理坐标。
地理编码的大致流程为:创建标准地址数据库,对标准地址数据库中的标准地址进行解析和中文分词,创建地址索引;然后将待匹配的地址数据在地址索引中进行地址匹配,从而完成地址的查询与检索。
本文利用地理编码、位置检索等互联网公众服务等技术,实现上文提及的前三类包含空间位置关系词的空间定位,处理流程如图3所示。
利用地理编码或互联网地图Place检索服务解析中文地名。解析后的中文地名坐标可能存在两种情况:1 包含多个重名地名,根据地震震级与含行政区界的地理底图确定的有效范围,按距离远近进行重名地名的筛选。2中文地名无法正常检索到经纬度坐标。则以上一级地名进行重新检索。例如“芦山县太平镇卫生院”未检索到经纬度坐标,则返回地理编码和Place检索服务以“芦山县太平镇”重新检索。最终形成以经纬度形式表示的空间位置信息。
图4 地震应急文本自动标绘效果
结构化信息的地图表达
应急文本信息的地图表达实质是自然语言到地图图形的表示。地图图形是地图的语言,它既能表示态势标绘符号的形状、位置、结构和大小信息,也表示了实体的类型、等级以及其他数量和质量特征(苏科华等,2009)。本文面向地震应急分析与展示的实际需求,综合运用各类标绘单元来表达地震灾区范围内各类灾情、震情、应急处置信息等内容。关键的步骤有:
(1)建立应急信息事件到图形的映射,目的是建立应急事件与图形的对应关系,其中应急事件与图形的对应关系一般为一对一的关系,但是事件模板的其他属性决定了图形的一些视觉参量(如大小、色相、方位、纹理等) 比如,地震造成人员死亡的事件模板中,包含死亡人数的属性,根据人员死亡人数的由少到多,地图图形以及备注文本的颜色依次用淡红、红、暗红表示;
(2)空间语义的表达。事件模板中的地点属性决定了图形在地图上的显示位置;
(3)动态标绘。除了用静态图形标示应急事件和信息外,还可用动态标绘来表达应急事件的过程性信息。例如图形的移动,可用来表达救援队行动路线。图形的缩放或闪烁,可用来表示震后交通管制区域范围。图形的变形,可用来示意表示堰塞湖形成后的河水蔓延等。图4为文本“鲁甸县龙门山镇死亡45人”的自动标绘效果,经人工简单调整后,可达到实际应用效果。
基于语义模板的地震应急态势图自动标绘实现了传统的手工标绘作业向自动或半自动作业的转换,有助于提高标绘效率。本文提出的自动标绘技术方案已进行了初步验证,但还需继续完善语义模板和匹配规则,以提高文本信息的识别率与转换率。本文中提到的地震应急文本信息结构化和空间化技术也可用于地震应急的其他领域,如利用网络媒体快速获取灾情时,可从互联网抓取内容中识别并提取灾情、震情相关的文本信息,并自动按照预定义的语义模板进行格式化和空间关联。
10.3969/j.issn.1001- 8972.2016.18.031