刘彤 魏静 倪维健 陈思源
摘 要:传统基于统计的命名实体识别方法存在需要大量人工标注的缺陷,导致识别准确率较低。为了提升识别效果,提出一种基于条件随机场的半监督学习方法(S-CRF)对命名实体进行识别。该方法将实体识别看作序列标注问题,对少量数据进行人工标注并构建实体集,通过K-means聚类算法选取有代表性的未标注数据文本进行自动标注,采用条件随机场对语料进行训练测试。选取中文应急预案文档进行实验,该方法在各个标签上的识别效果分别达到93.52%、93.04%、95.81%。实验结果表明,该方法优于传统规则方法,能有效提高应急预案命名实体的识别效果。
关键词:应急预案;命名实体识别;条件随机场;半监督学习
DOI:10. 11907/rjdk. 192096
中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2020)003-0035-04
Entity Identification Based on Semi-supervised Learning and CRF
LIU Tong, WEI Jing, NI Wei-jian, CHEN Si-yuan
(College of Computer Science and Engineering,Shandong University of Science and Technology,Qingdao 266590,China)
Abstract:The traditional statistical-based named entity recognition method requires large number of manual labeling defects, resulting in low recognition accuracy. In order to improve the recognition effect, we propose a method of conditional random field semi-supervised learning method (S-CRF) to identify and extract named entities. This method regards the entity recognition as the sequence labeling problem, manually label small amounts of data and constructed entity set. The K-means clustering algorithm is used to select representative unlabeled data texts for automatic labeling, and the conditional random field is used to sequence the corpus. The Chinese emergency plan document was selected for experiment. The accuracy of the B, M, and O labels reached 93.52%, 93.04% and 95.81%, respectively. The experimental results show that the method is superior to the traditional rules method and can effectively improve the identification effect of named entity of the contingency plan.
Key Words: emergency plan; named entity identification; conditional random field; semi-supervised learning
0 引言
現代社会中出现的各种突发事件通常具有规模大、复杂度高等特征,各级政府和单位需要设置合理的机构应对突发事件。因此,各省都制定了多种类型且精准的应急预案体系。自然语言作为一个应急预案文档的主要组成成分,其包含命名实体和非命名实体,其中命名实体是指人名、地名、机构名等专有名词及其它名称实体(时间、日期等)[1]。命名实体识别是指对这些词进行识别、整理归类与分析。命名实体识别是NLP处理领域的问题,在机器翻译和信息检索抽取等方面应用广泛,能否正确识别命名实体决定着信息抽取效率[1]。目前,国内外针对命名实体识别的研究方法主要有传统识别方法和神经网络方法,对诸多领域的命名实体识别研究已较为成熟,并且取得了较好效果,但对中文应急预案文本方面的研究较少。因此,对中文应急预案文本进行命名实体识别,提取出其中的组织机构名,对于后续组织间关系效率研究具有一定的实际意义。
本文选择中文应急预案文本为实例展开研究,采用提出的基于半监督学习与传统规则的条件随机场(CRF)方法提取组织机构,将中文命名实体识别任务分为两步:首先通过NLPIR汉语系统进行分词,在分词基础上人工标注命名实体,获得少量标注数据;其次考虑到机构名在文本中出现的频率与上下文语境不同,导致识别出的组织机构名不准确,因此在提取的基础上用命名实体词表对未标注文本进行自动标注,并采用条件随机场模型(CRF)进行训练测试。实验结果表明,本文方法引入自动标注后,对机构名识别的准确率高于传统基于条件随机场的方法,可有效提升识别效果。
1 相关工作
1995年11月,第六届 MUC会议(MUC-6,the Sixth Message Understanding Conferences)上首次提出命名实体识别任务。命名实体识别主要是对文中的地名、人名、机构名等进行识别,目前用于命名实体识别的方法主要有基于规则的方法、基于统计机器学习的方法与基于深度学习的方法。如Collins等[2]提出DL-CoTrain 方法,该方法首先定义规则集Decision List,然后通过对该集合进行无监督训练获得更多规则,其对人名、地名与机构名的分类准确率均达到91%; Cucerzan等[3]基于知识数据库与手动注释语料库成本,提出用Bootstrapping 自动进行规则生成的方法;朱颢东等[1]提出一种将规则与统计相结合的中文微博命名实体识别方法,该方法首先利用微博主题标签对数据进行筛选,选择适当的特征模板,然后利用CRF进行实体识别,有效提高了实体识别效果;孙静等[4]首先利用词典对文本进行词性标注,获得初始标注语料,然后利用CRFs进行反复训练,使最终识别准确率提高了1.88%~2.26%;邬伦等[5]将地名构成与使用特征融入到条件随机场方法中,通过引入语言学知识,将地名识别问题转化为序列标注问题,使地名识别召回率、准确率和F值分别达到92.69%、96.37%和94.67%,有效提高了识别效果;彭嘉毅等[6]提出一种基于字符特征、双向长短时记忆网络(Bi-LSTM)与条件随机场(CRF)的信息安全领域命名实体识别方法,该方法无需人工提取特征,而是利用CRF对神经网络模型标注的序列进行约束,有效提高了识别准确率。基于以上分析,命名实体识别方法已应用十分广泛,因此本文考虑到应急预案组织机构名种类繁杂,以及上下文语义和机构名全称与简称,提出一种基于条件随机场的半监督学习方法(S-CRF)对机构名进行识别与提取。
2 条件随机场模型介绍
JohnLafferty 等在2001年首次提出一种判别式概率—条件随机场模型(Conditional Random Fields,CRF),该模型已被应用于实体识别、信息抽取等相关领域。
在应急预案命名实体识别任务中,设[P(y|x)]为线性条件随机场模型,则在给定观察序列x={x1,x2,…,xi}和预测序列y={y1,y2, …,yi}条件下定义为以下形式:
式(1)中,[tk]、[sl]為自定义特征模板函数,[λk]、[ul]为学习得到的参数,即特征权值。式(2)中的Z(x)为归一化函数,使所有可能序列标注和为1。本文采用开源条件随机场工具包CRF++0.58,在寻找特征后可以自动生成特征函数。
3 命名实体识别
本文将从应急预案中抽取组织机构的过程抽象化为序列标注问题,即对文本中的组织机构附以相应标签,根据标签提取出各个组织机构。序列标注问题采用传统条件随机场(Conditional Random Fields,CRF)监督属性实体识别方法。
3.1 文本序列标注
本文采用常用的BMO三标注法对组织机构进行标注,B表示当前组织机构的开始;M表示当前组织机构的延续和结束;O表示任意非实体。图1为一个文本标注实例,各标签具体含义如表1所示。
3.2 基于半监督学习的CRF模型
对于传统监督学习,训练数据模型需要大量已标注数据,由于文本数量大且类型繁多,人工标注时间成本有限,因此需要从众多未标注文本中选择代表性的文本进行自动标注。如王新建等[7]采用随机选取的方法获取所需的自动标注文本集,但随机选取的方法容易使选出的样本不具有代表性,使得最终的准确率较低。因此,本文在已有研究基础上采用K-means聚类算法对未标注文本进行划分。该算法思想是先采用K-means聚类算法对未标注文本进行聚类,将其分成不同类型的集合,最后从不同类型集合中选取有代表性的文本进行自动标注,获得自动标注文本集。该算法流程如图2所示。
基于以上算法对不同类型文本中经常出现的组织机构进行自动标注,以图1所示的文本标注为例,“市应急委员会办公室”和“市信息办”是在各市区常设的组织机构,在很多应急预案文本中都会出现。已标注实体在一定程度上能反映未标注文本中出现的实体信息,但由于实体所在文本位置中的上下文语义不同,可能导致无法识别,从而使最终准确率较低。基于以上分析,对文本进行自动预标注步骤如下:
Step 1:构建实体词表。根据人工标注结果构建实体词表。
Step 2:对应急预案文本进行预处理。
Step 3:自动预标注。利用构建的实体词表对未标注文本进行处理,如果文本中的实体出现在实体词表中,则直接被标注为相应实体标签。
Step 4:重复Step 3,直到所有未标注文本全部自动标注完毕。
3.3 特征模板选取
特征模板是对自然语言文本结构与规律的表示,对组织机构进行标注后,需要设计合理的特征模板以生成训练语料库。每个应急预案中组织机构名存在的语义环境不同,因此在定义条件随机场特征模板时,要考虑上下文特征与词性特征。上下文特征是指将当前词位置前n个词与后n个词融合的信息,词性特征是指将实体词所在当前位置前后词词性融合的信息。文本标注实例如表2所示。
根据表2的文本标注实例,考虑到上下文语义和词性特征,设置特征模板如下:
# Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U05:%x[-1,0]/%x[0,0]
U07:%x[0,0]/%x[1,0]
U08:%x[-1,1]/%x[0,1]/%x[1,1]
U09:%x[0,1]/%x[1,1]/%x[2,1]
U10: %x[-1,1]/%x[0,1]
U11: %x[0,1]/%x[1,1]
U12: %x[-1,1]
U13: %x[0,1]
…
4 实验部分
4.1 实验数据
本文选择中文应急预案文本为实例展开研究,爬取各省人民政府网站中的应急预案文本共902篇作为实验数据。针对各省不同类型的预案选取50篇文档,对文本实体进行人工标注,采用K-means聚类算法[9]进行聚类后,选取100篇有代表性的未标注文本进行自动标注,并赋予相应标签,然后用条件随机场模型进行训练测试,并从标注文档中随机选取20篇文档作为测试数据用于模型评价。
4.2 应急预案文档规范化
中文应急预案文本命名实体识别的困难之处主要是预案类型多,包含的实体名比较繁杂,实体所在位置前后语义也会对识别造成干扰。因此,对文本作进一步规范化处理是十分必要的,如去除文本中的干扰符号。由于文本的多样化,其包含许多标点符号和其它语言文本(如:市、县(市、区)抗震救灾指挥部等构成),这些标点符号在实体识别过程中会造成一定干扰,因此可以直接删除。
4.3 对比实验
为了验证本文方法的有效性,分别对本文提出的实体识别方法(S-CRF)、传统条件随机场模型(CRF)与基于规则(RULL)的方法进行对比分析。
(1) S-CRF方法:人工标注50篇文档与自动标注100篇文档构成训练实体模型。
(2) 传统条件随机场模型(CRF):人工随机标注50篇文档进行CRF模型训练。
(3) 基于规则(RULL)的方法:通过制定相应规则对机构名进行识别。
实验中采用准确率(Precision)、召回率(Re-call)与F值评价识别效果,各方法识别结果分别如表3-表5所示。
从表中可以看出,在只利用条件随机场模型与基于规则进行命名实体识别的情况下,准确率、召回率和F值都较低,而在加入自动标注和条件随机场模型识别的情况下,准确率和召回率都得到了提升。上述3个实验结果表明,本文提出的实体识别方法(S-CRF)能够提高识别效果。
5 结语
本文提出采用基于条件随机场的半监督学习方法(S-CRF)提取中文应急预案组织机构名,将该任务视为序列标注问题,利用少量标注文本对未标注文本进行自动标注,并将其应用于中文应急预案组织机构识别中,对收集的数据进行规范化处理。综合考虑组织机构词性特征和上下文语义特征,为条件随机场构建合适的特征模板和训练语料,采用自动标注弥补了传统命名实体识别需要大量人工标注数据的缺陷。通过对比实验表明,该方法能有效提高应急预案命名实体识别效果。然而,本文研究还有待完善,下一步研究工作应根据实际应用进一步优化识别算法,将多模型融合与本文提出方法结合应用到命名实体识别中,从而提高识别准确率,同时还可将该方法应用到人名、地名识别中。
参考文献:
[1]朱颢东,杨立志,丁温雪,等. 基于主题标签和 CRF的中文微博命名实体识别[J]. 华中师范大学学报(自然科学版),2018,52(3):316-321.
[2]COLLINS M, SINGER Y. Unsupervised models for named entity classification[C]. Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, 1999: 100-110.
[3]CUCERZAN S,YAROWSKY D. Language independent named entity recognition combining morphological and contextual evidence[C]. Proceedings of the 1999 Joint SIGDAT Conference on EMNLP and VLC, 1999: 90-99.
[4]孫静,李军辉,周国栋. 基于条件随机场的无监督中文词性标注[J]. 计算机应用与软件,2011,28(4):21-23,46.
[5]邬伦,刘磊,李浩然,等. 基于条件随机场的中文地名识别方法[J]. 武汉大学学报(信息科学版),2017, 42(2):150-156.
[6]彭嘉毅,方勇,黄城,等. 基于深度主动学习的信息安全领域命名实体识别研究[J]. 四川大学学报(自然科学版),2019,56(3):457-462.
[7]王新建,罗光舂,秦科,等. —种基于SVM和主动学习的图像检索方法[J]. 计算机应用研究,2016(12):3836-3838,3846.
[8]姚明海, 陈志浩. 基于深度主动学习的磁片表面缺陷检测[J]. 计算机测量与控制, 2018(9):29-33.
[9]CSDN. K-means[EB/OL]. https://blog.csdn.net/zengxiantao1994/article/details/73441922.
[10]孙镇,王惠临. 命名实体识别研究进展综述[J]. 数据分析与知识发现,2010,26(6):42-47.
[11]CHADI H,SHADY E. Arabic named entity recognition via deep co-learning[J]. Artificial Intelligence Review,2019,52 (1):197-215.
[12]闫海磊,施水才. 一种面向时政新闻的命名实体识别方法[J]. 北京信息科技大学学报,2018,33(6):23-43.
[13]房辉,汤文兵,桂海霞,等. 基于众包标注的中文微博命名实体识别[J]. 计算机应用与软件,2019,36(3):255-270.
[14]张海楠,伍大勇,刘悦,等. 基于深度神经网络的中文命名实体识别[J]. 中文信息学报,2017,31(4): 28-35.
[15]杨飘,董文永. 基于BERT嵌入的中文命名实体识别方法[J]. 计算机工程:1-7[2019-11-02]. https://doi.org/10.19678/j.issn. 1000-3428.0054272.
[16]张应成,杨洋,蒋瑞,等. 基于BiLSTM-CRF的商情实体识别模型[J]. 计算机工程,2019,45(5):308-314.
[17]武惠,吕立,于碧辉. 基于迁移学习和 BiLSTM-CRF 的中文命名实体识别[J]. 小型微型计算机系统,2019,40(6):1142-1147.
[18]陈鹏. 基于多核融合的中文领域实体关系抽取研究[D]. 昆明:昆明理工大学,2014.
[19]唐钊. 条件随机场模型在中文人名识别中的研究与实现[J]. 现代计算机,2012,14(7):3-7.
(责任编辑:黄 健)
收稿日期:2019-08-02
基金项目:国家自然科学基金项目(71704096,61602278);青岛市社科规划项目(QDSKL1801122)
作者简介:刘彤(1982-),女,博士,山东科技大学计算机科学与工程学院副教授、硕士生导师,研究方向为数据挖掘、人工智能;魏静(1991-),女,山东科技大学计算机科学与工程学院硕士研究生,研究方向为智能信息处理、信息挖掘;倪维健(1981-),男,博士,山东科技大学计算机科学与工程学院副教授、硕士生导师,研究方向为文本挖掘、过程挖掘;陈思源(1993-),女,山东科技大学计算机科学与工程学院硕士研究生,研究方向为智能信息处理。本文通讯作者:倪维健。