敬 星
(贵州师范大学 大数据与计算机科学学院,贵州 贵阳 550001)
基于词向量与CRF的命名实体识别研究
敬 星
(贵州师范大学 大数据与计算机科学学院,贵州 贵阳 550001)
文章提出了一种基于词向量与CRF中文命名实体。核心观点为:命名实体识别任务本质上为序列标注任务。常见的序列标注模型有HMM,MEMM,CRF。HMM模型是对转移概率和表现概率建立模型。MEMM模型为将转移概率与表现概率构建为联合概率,统计为条件概率。MEMM经常为局部最优,原因是MEMM归一在部分。CRF模型计算了整体概率,当归一时,顾及信息在整体的出现,所以避免了MEMM标记偏移的出现。
CRF 标注;转移概率;条件概率
在统计自然语言处理领域,经常要面对的是序列标注问题:根据观察值序列来确定其状态序列。例如在词性标注任务中,需要对每个词标注其词性。在这里,词就是观察值,而词性就是观察值的状态。一个观察值可能有多个状态,这个状态是隐藏在观察值下面不可见的。如何对整个观察值序列进行建模,来求出最佳的观察值序列,是统计自然语言处理经常要面对的一个决策问题。
在本文的命名实体识别实验中,笔者将文本内容采用单字分割的方法。结合前人的研究成果,基于单个字的识别效果拥有很多的好处。第一,对文本内容的处理方便,只需要把文本进行字符分割就行。第二,实验效果好,在命名实体识别系统中[1],将使用采用单个字的模型。采用词的模型与采用类的模型进行了对比。把采用字的模型整体性能比另外两种方法好。最后,可以防止不正确的分词造成的错误。在实际的实验过程中,采用B(开始),I(中间),E(结束),N(空),对每个处理字符进行表述,所以对人名、地名、机构名识别的任务定义了10种字符串的集合,L={BPER,I-PER,E-PER ,B-LOC ,I-LOC,E-LOC,B-ORG,I-ORG,E-ORG,N}。对于每个字符串的含义为:中文人名起始,中文人名中间,中文人名末,中文地名起始,中文地名中间,中文地名末,中文机构名起始,中文机构名中间,中文机构名末,空。
例如下面的一句话,“巴菲特是美国的慈善家”,依据前文描述笔者把它分割为原始字符,打标队列:“巴……B-PER, 菲……I-PER,特……E-PER,是……O,美……B-LOC,国……E-LOC,的……O,慈……O,善……O,家……O。”此时的输入序列为:
X={巴,菲,特,是,美,国,的,慈,善,家}
对应的标注序列为:
把人民日报1998年的文本资料通过上述方法处理就能得到可使用的训练文本,文本由原始字符,打标队列{i(x),j(y)}组成。
2.1 函数集合
函数集合在条件随机场中作为一个关键的概念。笔者先通过训练文本获得函数fj=(yi-1,yi,x,i),接着再给不同的函数相应的权重。fj=(yi-1,yi,x,i)为状态与转移函数相结合的表达。该函数只有两个函数值,为0或1。为了构建该函数的需要,笔者先定义原始文本上观察特征b(x,i)的集合。该函数如公式1表示。
公式中b(x,i)代表实际值,出现某种情况是1,其余是0。
公式中wi="b"代表i的实际值是“b”,如果获得了所有i位置的实际值的b(x,i),就能得到模型的函数集。对于i位置的实际值,在具体应用中会给合适的窗口。
2.2 条件随机场的特征模板
特征模板是用来配置特征的。在CRF中,使用的特征函数是已知的,模型训练的参数只是各特征的权重。因此你配置的是特征的位置关系,在训练预料中出现的符合这个位置的,成为一个特征。根据你的特征模板,CRF++从训练语料中得到了好多特征函数,然后训练得到各特征函数的权重。
每个模板都只考虑一种因素。
Y[-3,1],Y[-1,0],Y[1,1],Y[1,0],Y[-2,1],在括号内的首个数字代表窗口位置,末位数字代表特征种类。
2.3 确认模型参数
获得CRF模型分为两个阶段,首先获取特征函数集,最后确认模型里面的参数。
确认模型参数本质上就是获取λ,λ是相应特征函数的权重,极大似然估计(MLE)通过似然函数获取λ。
2.4 参数估计的训练算法
本文实验使用L-BFGS算法[2]进行模型训练。
如GIS和IIS的迭代梯度算法为经典学习算法[3]。CRF模型符合最大熵原理,所以迭代梯度算法能够适用CRF模型训练,然而采用了L-BFGS算法,基于该算法获取CRF模型比传统方法迅速,并且比变化斜率方法效果更好[4]。
词向量是深度学习的产物,它包含了丰富的句法、语义特征,同时由于词向量的连续性,使得它能够在原本离散的无关联的词与词之间建立关系,更重要的是,在产生词向量时,可以使用各种领域的语料来一起训练,因而,词向量具有领域独立性,所以将词向量特征使用到模型训练中,可以让模型具有更强适用性。
4.1 原始文本来源
该实验选择1998年1月《人民日报》公开文本用作原始数据。把该文本划分为训练文本和测试测试,其文本长度比例为4∶1。训练文本的句子数目共21 569。
4.2 工具的选择
word2vec 是一个使用比较广泛的开源的词向量生成工具包,它可以将输入的分好词的文本中的词语转换成向量的形式。条件随机场的训练和测试使用CRF++。CRF++可用于各种自然语言处理的问题,如命名实体识别、信息抽取、文本分块等等。
4.3 实验结果
实验结果如表1所示,其中P,R,F分别表示精确率,召回率和F值。
表1 实验结果数据
通过实验发现,使用条件随机场进行命名实体识别实验时准确率较高,但召回率比较低,认为是条件随机场模型对训练数据产生了一定程度的过拟合造成的。
[1]郭家清.基于条件随机场的命名实体识别研究 [D].沈阳:沈阳航空工业学院,2007.
[2]WALLACH H. Conditional Random Field: An Introduction[D]. University of Pennsylvaania CIS Technical Report MS-CIS-04-21,2004 .
[3]ANDREWB A. Maximum Entrop Approach to Natural Language Processing[J].Computation Linguistics,1996(1):39-72.
[4]JAYNES E T.Information Theory and Statistical Mechanics[J].Physics Reviews,1957(106):620-630.
Research on named entity recognition based on word vector and CRF
Jing Xing
(Data and Computer Science College of Guizhou Normal University, Guiyang 550001, China)
In this paper, a Chinese named entity based on word vector and CRF is proposed. The key point of this paper is: named entity recognition task is essentially a sequence tagging task. Common sequence annotation models includes HMM, MEMM, CRF. HMM model is a model of the transition probability and performance probability. The MEMM model is a model for the transition probability and the performance probability. The MEMM model is to construct the transition probability and the probability of expression as the joint probability, which is statistics of the conditional probability. Often MEMM is the local optimum, for MEMM is part normalization. CRF model calculated the overall probability, when normalization, taking into account the emergence of information in the whole, so avoid the emergence of MEMM mark offset.
CRF annotation; transition probability; conditional probability
敬星(1990— ),男,四川南部,硕士;研究方向:自然语言处理。