张 萌, 陈佳惠, 孙然然, 李晓璐, 朱广宇*
(1.北京交通大学, 北京市城市交通信息智能感知与服务工程技术研究中心, 北京 100044; 2.北京交通大学, 综合交通运输大数据应用技术交通运输行业重点实验室, 北京 100044)
城市轨道交通安全事件是对历史的城市轨道交通突发安全事故的真实记述,详细地描述了突发事故的发生、发展过程,并包含了大量客观事物及其状态变化信息[1]。城市轨道交通安全事件案例是指在事件发生之后,城轨交通的运营管理相关部门对所发生的事件进行整理所形成的文档。合理地利用安全事件案例,会对辅助应急决策的制定产生积极的作用。目前,中国轨道交通运营商存储了大量的安全事故案例,但大多以自由化或半自由化文本的形式存储在数据库中,使用率较低。为了有效地利用安全事件案例,应将安全事件构成要素进行结构化表示,所以需对安全事件案例进行信息抽取。
信息抽取是利用自然语言处理等方法对文本进行分析,提取用户需要的实体、关系和事件,然后通过结构化处理将信息抽取结果以固定格式输出[2]。而对安全事件案例进行信息抽取,则是对安全事件构成要素的信息进行提取。目前,主要有两种信息抽取方法:基于规则的信息抽取方法和基于统计的信息抽取方法[3]。基于规则的信息抽取方法具有较高的准确率,但手工编写抽取规则的过程复杂耗时,目前已被应用到许多领域。余晨等[4]使用基于规则的信息抽取方法对海事信息进行抽取,将海事事故转化为结构化的数据,为安全水平评估和风险措施的有效性验证提供了高效的数据支撑。丁晟春等[5]使用基于规则的信息抽取方法对动物卫生事件舆情信息进行抽取,为观察中外动物卫生动态和提高监测人员的工作效率提供思路。熊志斌等[6]使用基于规则的信息抽取方法对网页中的旅游突发事件信息进行抽取,有利于监管部门把握事故社会舆情。与基于规则的信息抽取方法相比,基于统计的信息抽取方法不依赖于所抽取信息的内容和格式,但是需要大量的标注语料,否则会出现严重的数据稀疏性问题[7]。肖晓霞[8]使用条件随机场(conditional random field,CRF)、隐马尔可夫模型(hidden Markov model,HMM)等对中医临床病例文本进行症状术语提取,可对症状数据进行规范化、标准化的管理。李中仁[9]使用CRF模型对人物信息进行抽取,为设计人物情报可视化分析系统提供数据支持。两种抽取方法各有优劣,综合考虑城市轨道交通安全事件案例内容的专业性、规律性与实验案例的数量,选择使用基于规则的信息抽取方法对安全事件案例进行信息抽取。
如何将信息抽取结果进行简明、高效的结构化表示同样为信息抽取领域的研究热点。近年来,基于知识元的信息表达方法引起了研究人员的关注。知识元这一概念由美国情报学家弗拉基米尔在20世纪70年代末提出,是不能分割的最小的独立知识单位,具有独立性、完整性、链接性、可组合性、可认知性和不可再分性等特点[10]。王延章[11]将知识元应用在模型领域,提出了共性知识元模型,对现实世界中的各种客观事物进行抽象表示。在应急领域中,已取得一些研究成果。王宁等[12]基于共性知识元理论将突发事件以知识元为基础进行表示和存储,并提出了基于应急知识元体系的应急案例存储模式。刘佳琪[13]基于共性知识元模型理论,对应急案例进行信息抽取及结构化表示,并提出了基于知识元的应急案例相似度计算方法。陈湧[2]基于共性知识元模型理论,提出了基于事件知识元和承灾体知识元的突发事件案例表示方法,实现了以信息抽取结果为检索依据的突发事件案例检索。
目前,针对城市轨道交通安全事件案例的信息抽取及表示方法研究均较少。于浩恬等[14]对城市轨道交通安全事件发展阶段进行划分,并基于知识元理论对事件信息进行结构化表示,但安全事件信息的处理依赖于人工整理,效率低下。王莉[15]使用基于规则的信息抽取方法对城市轨道交通施工事故案例进行信息抽取,并基于知识元理论对案例信息进行统一表示与存储,但仅对一种城轨安全事件类型进行分析,使用的抽取规则及案例表示方法不具有泛用性。综上所述,现提出一种城市轨道交通安全事件的信息抽取方法和共性知识元表示模型,实现了安全事件的半自动化信息抽取及其结果的结构化表示,以期为突发事故时的应急决策制定提供高效的数据支撑。
对大量的城市轨道交通安全事件案例进行阅读与分析后,发现城市轨道交通安全事件案例文本的表达方式具有较强的规律性,描述城市轨道交通安全事件的关键信息有时间、地点、事故类型、原因和影响。上述关键信息的常见表达方式如下。
(1)时间:安全事件发生的时间,通常包括年、月、日,如“1994年4月28日”。
(2)地点:安全事件发生的地点,常用表达方式包括国家、城市、线路、站点,如“韩国大邱”“北京地铁机场线”。
(3)事故类型:安全事件的事故类型,包括火灾、爆炸、毒气、踩踏、设备故障、列车脱轨、列车相撞、信号故障、自然灾害和施工事故。
(4)原因:造成安全事件的原因,表达方法多样,常见的表达方法有“由……引起”“由……造成”等。
(5)影响:安全事件造成的影响,包括人员伤、亡数量和对地铁线路运营造成的影响,如“造成21人死亡”“全线停运2 h”等。
通过分析城市轨道交通安全事件案例内容的规律性,可将其用共性知识元模型进行简明的结构化表示。
共性知识元模型由王延章[11]提出,由对象知识元模型Km、属性知识元模型Ka和关系知识元模型Kr组成。将共性知识元模型引入应急管理领域,可得到应急案例知识元表示模型C,由致灾因子知识元模型H、承灾体知识元模型L和孕灾环境知识元模型E组成[16],即
C=(H,L,E)
(1)
致灾因子知识元模型H是对安全事件发生或发展起推动作用的因素;承灾体知识元模型L是致灾因子作用的对象及其具体属性;孕灾环境知识元模型E是灾害发生、发展时所处环境的集合。
上述共性知识元模型侧重于直观表示出事故的原因及发生时的环境,不能直接表示事故的结果及造成的影响。如要将城市轨道交通安全事件案例应用于城市轨道交通应急决策管理中,除事故的原因与发生环境外,城市轨道交通安全事件案例的事故类型、事件结果和事件影响同样对制定应急决策有着重要辅助作用。而且,由于城市轨道交通安全事件案例的复杂性和多样性,也存在着承灾体知识元模型中描述的致灾因子作用的对象及其具体属性很难获得的问题。
综上所述,为了更好地将共性知识元模型应用于城市轨道交通安全事件案例,对现有共性知识元模型进行改进,改进后的城市轨道交通安全事件案例的共性知识元模型CURRT表示为
CURRT=(H,E,R)
(2)
H=(anthropic factor;natural factor)
(3)
E=(naturalf environment:weather;
social environment:local,time)
(4)
R=(type,casualties,property loss)
(5)
致灾因子知识元模型H可细分为自然致灾因子和人为致灾因子;孕灾环境知识元模型E为突发事件案例发生发展时所处的环境因素的集合,包含自然环境和社会环境,如地点、时间、天气条件等;灾害结果知识元模型R为突发事件案例后果的集合,包括事故类型、人员伤亡、财产损失等。
使用的案例是通过网络爬虫得到的自由文本,在作为实验数据使用前,需进行相应的预处理,包括去除多余换行符和空格符、将大写数字转换为阿拉伯数字等。案例处理好后需存在TXT文件中方便程序进行调用。
使用Python语言,通过基于规则的信息抽取方法对安全事件案例进行抽取,使用的正则表达式符号及其功能描述如表1所示。抽取规则的构建步骤如下。
表1 正则表达式规则元字符及其功能描述
(1)对城市轨道交通安全事件案例进行分词及词性标注。
(2)分析待抽取案例的句子的特点,总结出相应知识元属性的抽取规则。
(3)根据抽取规则编写正则表达式。
(4)检验编写的正则表达式,在实例验证中不断完善知识元属性的抽取规则。
通过上述步骤构建的部分知识元属性的抽取规则示例如下:
(1)时间:d{4}年d{1,2}月d{1,2}日|d{4}年d{1,2}月d{1,2}号|d{1,2}月d{1,2}日|d{1,2}日d{1,2}时d{1,2}分| |d{1,2}点d{1,2}分……
(2)伤亡人数:d{1,5}人.{1,30}?受伤|造成d{1,5}人死亡|造成d{1,5}人受伤|致使d{1,5}人死亡|致使d{1,5}人受伤……
(3)影响:约.{1,20}出行/v受到/v.{1,10}?影响| .{1,7}?地铁/n.{1,20}?停运/v……
城市轨道交通安全事件案例的信息抽取主要分为文本预处理、词库构建、分词及词性标注、信息抽取4个步骤。如图1所示。
图1 城市轨道交通安全事件案例抽取的技术流程Fig.1 The technical process of case extraction of urban rail transit safety incidents
(1)文本预处理。城市轨道交通安全事件案例为网络爬虫获得的自由文本,在进行信息抽取前需要进行文本预处理,包括去除多余换行符和空格符、将大写数字转换为阿拉伯数字等。案例处理好后需储存在TXT中方便程序进行调用。
(2)词库构建。使用Jieba分词,其自带词库难以识别轨道交通的专业词汇,将会造成分词及词性标注的错误,故需要将轨道交通的专业词汇及其词性加入到用户自定义词典中,同自带词库共同构成城市轨道交通安全事件案例词库。
(3)分词及词性标注。使用步骤(2)中构建的Jieba词库对安全事件案例文本进行分词和词性标注。
(4)信息抽取。使用2.2构建的信息抽取规则对安全案例信息进行抽取。
信息抽取的评价指标包括准确率A、召回率R及F[17]。公式为
(1)
(2)
(3)
下面以1个城市轨道交通安全事件案例为例说明信息抽取的过程及其结果的知识元表示。
3.1.1 文本预处理
对城市轨道交通安全事件案例去除多余空格符和换行符,并将大写数字转换为阿拉伯数字,最后将处理好的案例储存在TXT中。处理好的案例文本如图2所示。
图2 城市轨道交通安全事件案例文本预处理Fig.2 Text preprocessing of urban rail transit safety incident cases
3.1.2 词库构建
将轨道交通的专业词汇及其词性加入到用户自定义词典中,同自带词库共同构成城市轨道交通安全事件案例词库。用户自定义词典示例如图3所示。
图3 城市轨道交通安全事件用户自定义词典构建Fig.3 Construction of user-defined dictionary of urban rail transit safety incident
3.1.3 分词及词性标注
示例文本分词结果及其对应词性标注如下。
1995年4月28日,韩国大邱市mmmmmmxnsnsn地铁在施工时,因碰坏煤气管道发生煤气npvnnxpvnvn泄漏而发生爆炸火灾,结果当场103人死亡vcnnxnsmnv,230人受伤。xmnvx
3.1.4 信息抽取
使用2.2构建的信息抽取规则对安全案例信息进行抽取。示例安全案例的信息抽取结果为
地点:韩国(ns)大邱(ns)
时间:1995年4月28日
影响:103人死亡, 230人受伤
原因:施工/vn时/n,/x因/p碰坏/v煤气管道/n发生/v煤气/n泄漏/v而/c发生爆炸
类型:爆炸
根据1.2构建的城市轨道交通安全事件案例的共性知识元模型表示,示例安全案例的共性知识元表示为
Ccase=(Hcase,Ecase,Rcase);
Hcase=(anthropic factor:施工时,因碰坏煤气管道发生煤气泄漏而发生爆炸);
Ecase=(local:韩国大邱;time:1995年4月28日);
Rcase=(type:爆炸;Casualties:103人死亡, 230人受伤)。
文中使用的案例是通过网络爬虫得到的自由文本,共107篇。得到的抽取结果如表2所示。
表2 抽取结果
由表2的抽取结果分别对3种知识元属性抽取结果进行分析。
(1)致灾因子知识元模型H的召回率较低,主要原因是本文使用的城市轨道交通安全事件案例多为自由文本,部分文本没有对事故原因进行描述。同时,文本描述语言的高自由度也导致部分案例的原因没有明显的触发词,造成抽取规则中定义的原因触发词在文本中没有出现。因此,致灾因子知识元的召回率仅为54.21%,准确率72.50%也有待提高。
(2)孕灾环境知识元模型E中,地点知识元抽取结果的召回率较低,仅为67.29%。主要是因为在构建抽取规则时考虑到中外城轨线路名称众多,所以选择了利用词性进行事故地点的提取,在对待抽取文本中的地点信息进行分析后,构建的抽取规则为.{1,20}?/ns{1,20}.*?/n,即地名+名词,但同时也会抽取出其他错误信息,如合肥/ns警方/n,所以总体准确率为71.29%,也需进一步提高。时间知识元的准确率和召回率均较高,均为93.46%,召回率未能达到100%主要是因为有部分案例对事故发生时间仅用“当地时间X点”进行描述,造成无法直接获取时间信息。
(3)灾害结果知识元模型R中,影响知识元抽取结果的召回率为78.50%,主要是因为部分案例未对事故造成后果进行描述,但返回结果的准确率较高,达到了88.42%。事故类型知识元召回率为86.92%,部分案例未有结果返回的主要原因为案例描述中没有明显的触发词;但返回结果的准确率较高,达到了96.88%。
对城市轨道交通安全事件案例进行了定义,并提出了一种城市轨道交通安全事件案例的共性知识元模型表示,最后通过基于规则的信息抽取方法对城市轨道交通安全事件案例进行抽取,最终将城市轨道交通安全事件案例转化为用共性知识元模型表示的结构化数据。通过抽取实验对抽取规则的可行性及准确性进行检验,结果表明本方法在对城市轨道交通突发事件案例的抽取中,孕灾环境知识元和灾害结果知识元的正确率及召回率较高;致灾因子知识元的正确率及召回率需进一步提高,通过分析,主要原因为文本自由度过高导致的未触发抽取规则中定义的触发词,同时表达方式的多样化也导致抽取规则不能涵盖所有表达方式。在后续研究中,将对抽取规则进行进一步改进,以提高信息抽取结果的准确率。