中文命名实体识别方法研究

2019-05-24 14:12刘璟
电脑知识与技术 2019年9期
关键词:自然语言处理

刘璟

摘要:针对命名实体识别不具备良好的领域自适应性,大多研究对象是某个领域的命名实体识别,本文分析了当下流行的条件随机场模型、隐马尔科夫模型和最大熵模型的优劣对比,最后采用条件随机场与规则相结合,以词特征、词性特征作为特征模板训练模型结合规则提取命名实体,实验结果表明本文的方法能有效提高命名实体识别的准确率。

关键词:中文实体识别;条件随机场;自然语言处理

中图分类号:TP393 文献标识码:A

文章编号:1009-3044(2019)09-0179-02

Abstract:Named entity recognition does not have good domain adaptability,Most of the research object is a field named entity recognition.This paper analyses the advantages and disadvantages of the current popular Conditional Random Field model, Hidden Markov model and Maximum Entropy model.Finally, Conditional Random Fields and rules are combined to extract named entities by using word features and part-of-speech features as feature template training models. The experimental results show that the proposed method can effectively improve the accuracy of named entity recognition.

Key words:Chinese Name Entity Recognition, Conditional Random Field, Natural Language Processing

引言

命名实体识别主要是人名、地名、机构名或某领域的专有名词的识别。命名实体识别是信息提取、句法分析、问答系统等应用领域的重要基础工具,在自然语言处理技术中占有重要位置。

命名实体识别现在主要有两种方法,一种是基于规则的方法,一种是基于统计的方法。文献[1]使用条件随机场进行内蒙古地名识别,引入词汇特征、指示词特征、特征词特征和词性特征;文献[2]将词表示方法作为CRF和SVM的特征进行监督学习;文献[3][4]使用条件随机场提取网络文本的命名实体,文献[5]提出词边界识别命名实体。基于规则的命名实体识别覆盖不全,可移植性差,对不同领域专有名词的识别正确率低。机器学习方法比较依赖训练语料的好坏,需要选择好的特征才能得到高的正确率。本文选取词特征、词性特征作为特征模板,采用条件随机场与规则相结合提取命名实体。

1 条件随机场

1.1 条件随机场

2 统计模型比较和条件随机场的优势

隐马尔科夫模型(hidden Markov model,HMM)[8][9]:隐马尔科夫模型是关于时序的概率模型,描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,再由各个状态序列生成观测随机序列的过程。隐马尔科夫模型有三个重要因素分别是初始状态、状态的转移和预测序列的概率分布,在隐马尔科夫模型中观察序列的元素是独立的。其模型特点决定了隐马尔科夫模型无法融合复杂的特征,不适用于复杂、交互性强的数据。最大熵模型(Maximum Entropy Model):是一种分类模型,用户可以自己定义特征模板,但是特征之间无法建立关系且计算代价大,数据稀疏。条件随机场模型:条件随机场模型:可用于标注问题,在语音识别、NLP、生物信息和模式识别等领域被实践证明是有效的算法。条件随机场可以使用复杂的自定义特征,可以建立特征之间的联系,对比前面两个模型,它可以更有效利用上下文信息,性能更优,提取命名实体更加准确。

3 条件随机场命名实体识别

3.1 基本特征模板

当前词是否为一个命名实体和前一个词和后一个词是有很大的关系。

通过实验发现词性和当前词是否为命名实体有很大关系,名词极大可能是命名实体,动词不可能是命名实体。所以我们定义了词性模板。

3.2 统计与规则结合

条件随机场提取的命名实体结果会受到分词结果的影响,通过前面训练一个效率高、通用性强的模型,将提取的命名实体结果通过规则进行一遍校正能更大提高命名实体识别的准确率。在本地构建常用命名实体词典,词典中包含常用姓、常见人名、常见地名、常见组织名等。

4 实验结果分析

本文采用正确率P、召回率R和F值作为评价指标来验证方法对中文命名实体抽取的有效性。采用人民日报的语料库,选取较好的语料作为训练集,得到实验结果如下:

5 结论及下一步工作

本文提出一种条件随机场和规则相结合的命名实体识别方法,定义了词特征和词性特征模板,结合规则对命名实体进行校正,取得较好的结果。但是条件随机场的特征不够丰富,没有对其他特征进行深入的分析和研究,后续将通过实验分析命名实体识别的特征选择。

参考文献:

[1]吴金星,丽丽,杨振新. CRF和词典相结合的蒙古地名识别研究[J]. 计算机工程与科学, 2016, 38(5): 1047-1051.

[2]李丽双, 何红磊, 刘珊珊,等. 基于词表示方法的生物医学命名实体识别[J]. 小型微型计算机系统, 2016, 37(2):302-305.

[3]朱颢东, 杨立志, 丁温雪. 基于主题标签和CRF的中文微博命名实体识别[J]. 华中师范大学学报(自然科学版),2018,52(3): 317-319.

[4]郑秋生, 刘守喜. 基于CRF的互联网文本命名实体识别研究[J]. 中原工程学报, 2016,27(1):71-73.

[5]姚霖, 刘轶, 李鑫鑫.词边界字向量的中文命名实体识别[J]. 智能系统学报[J]. 2016,11(1):38-40.

[6]Lafferty J, Mccallum A, Pereira F, et al. Probabilistic Models for Segmenting and Labeling Sequence Data[J]. Proc.international Conf.on Machine Learning, 2002, 53(2): 282-289.

[7]Sha F, Pereira F. Shallow Parsing with Conditional Random Fields[C]. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics

[8]Rabiner L, Juang B. An Introduction to Hidden Markov Models[J]. IEEE Assp Magazine,1986(3): 4-16.

[9]Rabiner L. A Tutorial on Hidden Markov Models and Selected Applications in Speech

【通聯编辑:唐一东】

猜你喜欢
自然语言处理
基于LSTM自动编码机的短文本聚类方法
自然语言处理与司法案例
基于组合分类算法的源代码注释质量评估方法
词向量的语义学规范化