齐小谦,贾 菲,冯士妥,关珍博,谭永坤
(1.中国电子科技集团公司第五十四研究所,河北 石家庄050081;2.陆军航空兵研究所,北京 101121)
基于自然语言解析的应急处置预案构建方法研究
齐小谦1,贾 菲2,冯士妥1,关珍博1,谭永坤1
(1.中国电子科技集团公司第五十四研究所,河北 石家庄050081;2.陆军航空兵研究所,北京 101121)
为提高应急处置决策的时效性和准确性,快速构建应急处置预案,从应急处置文书的自然语言解析入手,提出了基于本体的应急处置领域知识表达模型,分析研究了借助本体模型来形成应急处置预案的构建方法,从语义层面实现了相关知识的共享和重用。结合应急处置行动的语义推理过程,说明应急处置预案的形成与调整能够适应复杂情况变化。该技术已应用于应急指挥信息系统,提升了系统的使用效率。
应急处置预案;信息抽取;语义推理;关联分析
应急处置预案制定是应急处置决策过程的关键环节,是反映事件情况、明确保障任务、组织任务行动、选择行动目标、表达处置决心的主要手段[1]。制定有效、可行的应急处置预案是应急指挥信息系统中一项繁重的信息化作业,传统的工作模式需花费作业人员大量时间和精力,极易造成使用瓶颈并延误行动进程。提高决策筹划的时效性和准确性是提升应急处置能力的重要方法[2]。本文提出使用自然语言处理技术,研究任务分解、行动规划等业务流程的语义分析与推理,实现应急处置预案的快速构建,缩短从任务提出到行动方案生成的时间,向快捷高效的应用模式进行积极探索和转变。
在自然语言解析方面,国内有不少针对汉语描述的分析研究,主要集中在词与词的关系分析方面,强调概念与概念之间、概念中属性与属性之间的关系,构建一个应用领域的知识资源[3]。同西方语言相比,汉语的自然语言理解和关联推理具有更高难度,深层次研究与应用仍有较大提升空间,在应急处置决策领域内属于一个新的应用方向。
在应急指挥信息系统中,制定一项应急处置预案主要涵盖情况分析、任务分解、行动规划和方案综合等几部分。本文提出以应急处置构想等专用文书为素材,采用自然语言解析技术获取应急处置任务、行动时间和行动方法等关键信息,为执行人员快速理解应急处置意图和调整部署提供先机条件,继而转化为应急处置行动,极大节省人工时间和精力,以适应决策筹划对时间、数据和环境的敏感性要求[4]。
应急处置文书解析包括语义分析和语义推理两部分。语义分析主要完成自然语言描述的词法分析和句法分析,将由人来阅读、理解信息的过程转变为由计算机自动抽取信息的过程。语义推理是在语义分析基础之上,进一步通过表达规则与推理规则的关联映射,推理得到形式化的行动过程和指挥命令等深层语义描述[5]。基于自然语言解析的应急处置预案构建是以应急处置构想文书为基础数据,结合应急处置决策领域的专业知识建立语义知识本体库,对处置任务、应急行动等关键信息进行深层次、精细化语义分析和推理,支持构建应急处置预案,实现从数据到知识以及从数据到决策的精确指挥,总体流程设计如图1所示[6]。
图1 应急处置预案构建总体流程
本体(Ontology)是共享概念模型的形式化规范说明,具有优良的层次结构、较好的信息组织能力以及知识表达能力[7]。基于本体的知识表达方法能够保证在共享过程中对于知识理解的一致性和唯一性,并且能够全面表达知识间的复杂语义关系[8]。
本体具有概念、关系、属性、公理以及实例等基本元素,能够系统化、规范化地表示领域知识。根据应急处置决策的特点,借鉴各种本体研究成果,设计了领域本体的层次模型(如图2所示),包括基础本体层、应用本体层和领域子本体层3个层次知识表示结构[9]。
图2 应急处置决策领域本体结构模型
基础本体包括概念、关系、约束、公理、函数和实例等基本元素,可以对整个应急处置预案进行分词描述,包括平台、人员、设施和地名等元数据[10]。
应用本体是对基础本体的细化,主要对一些常用知识和关系加以描述,包括时间、空间、使命和行动等。
领域子本体是对应用本体的形式化表达,描述各子领域的关系和公理信息,完成应急处置决策领域知识系统化建模。
应急处置预案属于应急处置决策领域结构模型中的应用本体,可进行如下描述:
AABP_Ontology:= AABPRelations,AABP_Functions,AABP_ Axioms,AABP_Instances> AABP_Concepts表示该本体模型中概念集合,主要包括使命任务、参与力量、行动过程、时间描述、空间描述以及资源和环境等。 AABP_Relations表示概念间关系的集合,主要归纳为等级关系、属性关系、等同关系、相关关系、引用关系和论述关系等。 AABP_Functions表示函数的集合,包括常用的正则表达式和相似度计算等。 AABP_Axioms表示公理的集合,是进行逻辑推理和规律判断的基础,将上述3类应用进行有机组合,形成新的知识或得到判断结论。 AABP_Instances表示概念实例的集合,实例代表元素,是概念的具体表现,种类较多,主要涉及以下内容: ① 使命本体包含抢险救灾、反恐维稳和安保警戒等; ② 行动本体包含机降运输、边境巡逻和搜索营救等; ③ 状态本体包含情况说明、影响程度和变化状态等; ④ 资源本体包含平台(直升机、车辆和快艇等)和设施(机场、仓库、工事、港口、发电厂、水坝和核电站等); ⑤ 时间本体包含天文时间、作战时间、相对时间和时间步长等内容; ⑥ 空间本体包括区域范围、地理位置(经度、纬度和高程)以及作战半径。 应急处置预案应用本体建立了应急处置决策领域形式化共享概念模型,为文书解析提供了语义分析基础。 针对常用应急处置文书特定的文本格式,利用概念间关系和规律准则等,进行浅层次、局部的语法分析,得到描述中关于时间、空间、使命及行动过程等信息,生成浅层语义分析结果[11]。 应急处置文书文档结构严谨清晰,关于处置任务和情况变化等描述均有明确体现。每个部分由一个带序号标题以及若干自然段组成,每个自然段包含1个或多个完整句子,每一个句子表述一个要求,其中包含若干关键信息,例如行动名称和资源数量等。为获取指定信息,分析过程通常可以是面向结果、浅层的或部分的。在词法分析阶段,采用语义直接标注;在句法分析阶段,需通过现有的知识库,找出代表指定信息的词汇和短语等语言结构,而不需清楚每一个语句的完整句法结构。具体处理步骤如下: ① 段落分析。针对应急处置文书格式严谨的特点,每一个段落可以表达一项完整的含义,信息提取以段落为基本单位。为获取当前情况、划分行动目标范围、分解应急处置任务、规划任务行动,进行有针对性的语段分解。结合应急处置文书的行文特点进行语段、语句划分,单句段落层次编号和去除无关文本的处理,尽量将文本转化为有完整语意的中文单句序列。 ② 文本分词。采用基于正则表达式匹配技术,以应急处置文书中的处置任务、行动规划、配属装备、行动目标和区域范围等信息为主题进行正则匹配,得到文本分词结果。 正则表达式由本体中的词典和规则动态解析生成。正则匹配是指将文书中的语句与转换规则库的句型逐项进行配对,如果配对成功则视为解析成功。解析规则分为中间规则和终止规则,通过规则迭代,结合专业词典内容,最终生成正则表达式[12]。采用迭代算法进行规则迭代,对文书内容进行独立语句的循环解析操作,根据已构建的匹配规则进行搜索,一旦扫描到某条转换规则可匹配当前的独立语句,可将语句中匹配该转换规则产生的文本内容替换成规则内容项的符号化表示,将词典中相应词汇与规则进行链接替换,直至得到最终的形式化语义表示即可[13],规则迭代流程如图3所示。 图3 文本分词规则迭代流程 ③ 语义标注。应急处置文书有着严格的用词规范,语义标注通过给词加上语义类别标签,将原文的内容抽象到一个较高层次,更加适合表达常用应急处置远的形式化语义信息[14]。根据本体概念间关系,分词标注策略包括上下位关系、同义关系、反义关系、值-属性关系、实体-值关系和相关关系等。例如,用上位词表明其下位词的语义类别,只需要从文本上下位语义中发现上位词,“直升机”、“巡逻车”等的上位词是“平台”,“机场”或“港口”的上位词是“设施”,只要在下位词出现的地方标上对应的上位词即可形成一种基本的语义单元[15]。 本体在知识结构表示方面有明显优势,但是这仍然不能满足应急处置决策专业应用需求。因为大多数的专业知识,是本体无法全面表述的,这些知识内容一般存储在非结构文本中。为了在结构化的应用本体和非结构化的知识内容之间建立联系,需要进行更深层的语义关联[16]。 在应急处置决策领域知识本体基础上,对常用文书的分词语义进行递归合并,使之成为有完整意义的事件表达。调阅系统标准字典表等语义库的词汇以及相关计划标准,提取出专用关键词,形成关联分析表如表1所示。通过对事件进行关键词映射,形成事件类之间的概念关系,实现语义推理,如图4所示,推理结果可以对人工制订的计划方案进行验证、修订和增补[17]。 表1 关联分析表 图4 文书语义推理流程 在常用应急处置文书中,特定保障力量部署及应急处置行动的表述,一般都有特定含义的字符串与之相对应[18]。基于已规划的关键词知识库,在分词和短语识别的基础上进行扫描及相关规则匹配,识别有关联关系的语义块,对行动过程所发生的事件参数进行描述,如巡视、机降和救援等参数,然后通过将时间和地点的信息与之关联,将一个行动过程本体表达成事件、地点和时间的模式,从而能够监视关键事件以及相关实体的状态,支持对不同的事件快速触发不同的决策。语义推理过程如图5所示。 图5 应急处置行动语义推理 应急处置行动的关联分析可按照以下规则处理[19]: 应急处置行动:={ 起始时间<时间、时间基准>、涉及地点<地理位置>,力量编组<力量部署、保障机构、保障平台>,参与者<力量部署、目标对象>,内容<文字描述>……}。 应急处置文书信息解析完成之后,对候选素材信息的应用范围进行匹配,完成对有效信息的加工与选择,生成规定格式的应急处置预案。其中,对于除应急任务行动外各项内容(如情况通报、任务说明等素材),将得到的各种语义资源按照应急处置决策模板要求进行提取,可直接填充方案中对应的数据节点[20]。 对于应急处置行动过程的素材筛选,应考虑行动事件中不可避免的时序关系,需解决业务流程化关系中存在的冲突,利于快速调整应用处置行动计划。本研究采用前置约束和后置约束的策略,根据各项行动预期要求以及资源状态进行约束自动匹配。当某个行动的前置约束满足时,会自动选择该行动节点有效,而后置约束则是当处理完毕该节点后,考虑对其他事件状态和资源状态的影响情况,动态修正各行动节点的预计状态,甚至对分支节点进行动态调整(包括分支合并和变异出新的分支),使我方应急处置行动的调整能够快速适应复杂情况变化。 本文主要针对常用应急处置预案的特点和应用,研究基于本体的应急处置决策知识表达和语义推理,借助本体模型完成应急处置预案的构建,从语义层面实现了相关知识的共享和重用,技术成果已应用在某型应急指挥系统并取得良好使用效果。后续仍需对每个处理环节进行持续研究,包括如何提取有价值的关联信息,如何更加合理、灵活地保留其语义信息和表示,以及如何有效结合非语义数据来满足更广泛的应急处置决策业务需求。 [1] 谢宝陵,刘侃,汤超君.作战文书关键信息抽取方法[J].计算机与数字工程,2014(11):2 142-2 145. [2] 沈永玲,洪波.北约情报监视和侦察互操作体系研究[J].无线电工程,2014,44(11):7-10. [3] 陈勇.一种目标行为序列模式的数据挖掘方法[J].无线电通信技术,2015,41(2):79-81. [4] 田聚波.面向图形作业的协同指挥系统设计与实现[J].无线电通信技术,2016,42(2):92-95. [5] 李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003(10):1-5. [6] 霍永华,昌汉明,曹毅.一种基于多约束关系的任务分解方法[J].无线电通信技术,2016,42(1) :35-37. [7] 张宇.本体映射的集成和语义挖掘研究[J].无线电工程,2012,42(8):1-4. [8] 马雨萌,刘凤红,黄金霞.STKOS 中领域本体模型框架研究[J].图书情报工作,2015(3):119-125. [9] 张素香.信息抽取中关键技术的研究[D].北京:北京邮电大学,2007. [10] 张星,马建红,肖国玺.基于本体的科学效应知识表达和语义推理[J].计算机工程与设计,2015(7):1 992-1 996. [11] 倪明,赵玉林.作战方案快速生成技术[J].指挥信息系统与技术,2014(6):78-81. [12] 张凌宇,姜廷慈,陈淑鑫.一种基于参考本体的多本体映射方法[J].四川大学学报(工程科学版),2016,48(5):114-123. [13] 周红彬.基于可扩展架构的系统住址技术研究[J].无线电工程,2014,44(12):63-65. [14] 岳磊,马亚平,徐俊强.面向语义的作战命令形式化描述及本体构建[J].指挥控制与仿真,2012,34(1):11-14.[15] 郝旭东,刘道伟,王永明.探索性分析在作战实验中的应用[J].指挥控制与仿真,2014,26(4):118-120. [16] 刘伯崇.中文领域本体自动构建理论与应用研究[M].杭州:杭州大学出版社,2015. [17] 吕刚,郑诚,胡春玲.基于概念分类的多本体映射方法研究[J].计算机应用研究,2011(9):3 335-3 337. [18] 田维,郭剑毅,余正涛.结合FCA与Jena的领域本体半自动构建方法研究[J].计算机工程与科学,2013,35(3):115-120. [19] 宋巍,张宇,刘挺.基于检索历史上下文的个性化查询重构技术研究[J].中文信息学报,2010,24(3):144-152. [20] 代晓宇.基于本体的教学资源语义检索应用研究[D].哈尔滨:哈尔滨工程大学,2012. Research on Establishment Method of Emergency Response Plan Using Natural Language Processing QI Xiao-qian1,JIA Fei2,FENG Shi-tuo1,GUAN Zhen-Bo1,TAN Yong-kun1 (1.The54thResearchInstituteofCETC,ShijiazhuangHebei050081,China;2.PLAArmyAviationResearchInstitute,Beijing101121,China) In order to improve the real-time performance and accuracy of emergency response decision,a method of automatically establishment emergency response plan based on the ontology is proposed in this paper.Starting from the natural language analysis of the operational texts,this paper proposes a knowledge representation model in the field of emergency response based on the ontology,and studies a method of establishment emergency response plan,which can realize the sharing and reusing of the relevant knowledge.Combining with the semantic reasoning process of emergency response action,it is verified that the emergency response plan established by using proposed method can adapt to the change of situation.In addition,the proposed method has been applied to the emergency decision system,improving system efficiency and accuracy. contingency plan;information extraction;semantic reasoning;related analysis 10.3969/j.issn.1003-3106.2017.07.09 齐小谦,贾菲,冯士妥,等.基于自然语言解析的应急处置预案构建方法研究[J].无线电工程,2017,47(7):38-41,50.[QI Xiaoqian,JIA Fei,FENG Shituo,et al.Research on Establishment Method of Emergency Response Plan Using Natural Language Processing[J].Radio Engineering,2017,47(7):38-41,50.] 2016-11-01 海洋公益性行业科研专项基金资助项目(201505002)。 TN95 A 1003-3106(2017)07-0038-04 齐小谦 男,(1979—),高级工程师。主要研究方向:指挥控制与决策支持技术。 贾 菲 女,(1981—),工程师。主要研究方向:指挥信息系统。3 文书语义分析
4 文书语义推理
5 应急处置预案生成
6 结束语