侯垚 国防大学政治学院军事信息与网络舆论系
隐马尔科夫模型对于文本数据处理的应用
侯垚 国防大学政治学院军事信息与网络舆论系
一阶隐马尔科夫模型有两个假设:①马尔科夫假设,即某特定状态只与其前一个状态有关;②输出独立性假设,一个输出某观察值的概率只与产生该观察值的状态有关,而与其他任何状态和任何观察值无关。
马尔科夫模型 文本数据处理
运用马尔科夫模型在中文分词中时,需要确定模型的参数值具体指代什么含义。文献[1]指出,在汉语词性标注时,可以将输入词的序列作为观测值序列,将词性序列作为状态转移序列,该问题可以转化为,已知词语的字符串,求出最优的词性标注序列(解码问题)。在参数的训练中,初始状态的概率分布矩阵可以用统计的方法求得,而状态转移矩阵可用词性转移次数与词性出现总数的比值求得,发射概率矩阵也可用输出词频数与词性频数的比值来确定。对于一个分词模型来说其设计思路流程大体分为如下几步[2]:
①带切分句子;②生成解的空间集合(即候选的切分集);③在解空间中求最优解(解决切分歧义);④切分结果。
文献[2]分析了基于中文分词的一阶隐马尔科夫模型和在生语料库中的算法,并建立了基于HMM模型进行中文分词的仿真系统。文献[3]在进行词语切分时对HMM进行改进,将经过初步切分的兼类词串和未登录词串的词汇单独抽取出来,利用Viterbi算法求得某一词串的最大概率。
在对词语进行切分时,由于分词词典样本并不能将所有词语都包容在内,会造成通用的词语粗切分将一些专业术语切分成孤立的、没有意义的若干个字词。比如“有限自动状态机”一词会被切分为“有限”、“自动”、“状态”、“机”4个完全失去原始含义的孤立字词。文献[4]通过建立双层隐马尔科夫模型,从中文语法的构成角度上来识别专业术语,比如在“名词”+“动词”后面会出现一个完整的名词语义单元并被视为一个整体。其底层为上文所提到的词性标注序列的问题,上层模型以其为基础,以粗切分的词性标注序列为输入观测序列,而输出的则是文本的最佳边界标记序列,边界的起点代表一个未登录词的开始,终点代表结束,有利于提高未登录词的识别率。
而隐马尔科夫模型在词性标注中存在的问题主要有:①为了达到较高的准确率,需要的训练语料较多。②隐马尔科夫模型并没有较好的结合语言学的知识。这些仍有待提高。
文献[5]综合考虑机构名的结构和上下文文本信息,采取人工辅助和机器学习相结合的方法对金融领域的机构命名实体进行识别。文献[6]使用Viterbi算法,对切分的结果进行角色标注成为角色序列,并在此基础上进行字符串和机构名称的识别,具有较高的准确率。文献[7]针对机构命名实体识别的难点,使用HMM对原文分词进行词性标注,使用Viterbi算法来对最有可能的词性进行选择。考虑其所分析的京剧领域机构命名实体的特征,建立特征词库来定制符合机构名称的识别规则,从而实现对原文命名实体的识别工作。
在词义标注的应用领域,1988年Church等首先设计出基于词语出现与转移概率的隐马尔科夫英文标注器,随后Schvtze、Scott和Sang-Zoo等人提出了各式的改进的隐马尔科夫模型[8];文献[9]对传统隐马尔科夫模型对于词性标注的应用予以分析与改进,不同学者也提出了改进的模型[10][11]。
文献[12]提出了利用统计手段来对词语进行语义倾向判断的方法,即把语义倾向判别看做一个褒贬的分类问题,将文本数据处理的方法应用到语义倾向性判别研究中。其状态值为褒义(支持)、贬义(反对)和中性(中立)三种,可能的观测值数目取权重较高的一部分词语即可,减少了处理庞大词语数量的压力。
原有的隐马尔科夫模型在进行中文文本的数据处理时,根据自身模型的局限,只能使用其临近的词语,使结果不够优化。文献[13]提出了基于语义格改进的模型,将隐含的状态值表示为词义,将观察值的数目表示为一个句子中所包含的单词数目。然而在不少情况下被标注的语义常常是是由需要标注的词语和其距离较远得此共同决定,为了解决这一问题,在原有隐马尔科夫模型基础上引入了格关系[14](一种研究句子核心谓词与周围体词的方法),提高了中文词义的标注性能。文献[15]使HMM模型在应用时,既使一个词(观察值)出现的概率与它的词性有关,也与之前的观察值有关。文献[16]把观察值对状态的影响也考虑其中,在原有HMM的基础上,增加了从前一观察值到后一状态的转移矩阵,提出了基于特征的词汇标注模型,由于观察值(词语数)众多,所以将多个词对应一类特征集,这样既保证了一定的精确度又减小了概率转移矩阵的大小。文献[17]对传统隐马尔可夫模型进行改进,通过对参数进行修改,使其不仅依赖当前状态的上文信息还将下文信息加入到模型当中,一定程度上克服了传统HMM的不足之处。同时使用了线性插值平滑算法,有效地解决了数据比较稀疏的问题,也提高了一定的未登录词汇的识别率。文献[18]改进分词方法,使用双向最大匹配进行预处理,对于有歧义的切分词选择概率最大值,使用隐马尔科夫模型来识别新词,用“词首”、“词中”、“词尾”和“单独成词”对单词进行状态标记,有效地减少了歧义,提高了切分的正确率。文献[19]在对隐马尔科夫模型进行改进时,在保证了传统隐马尔科夫模型具有前向依赖性的基础上,增加了后一个状态对观察值的影响,即一个观察值由相邻两个状态决定,一个状态也具有两个观察值。采取了既考虑正序又考虑逆序的解码模型,综合双序,使抗干扰性得到增强,解码更加精确。
在对隐马尔科夫模型算法的改进方面:维特比算法的概率值是若干个概率的乘积,为避免计算机进行过多的浮点运算,会将概率扩大若干倍,但是这样处理后,即对若干概率进行乘法运算后,可能导致乘法结果向上溢出,文献[20]对维特比算法进行了改进,将该结果取对数,将乘法运算转换为加法,缩小了乘积的值域,使结果更精确。文献[28]在建立发射概率矩阵时,将卡方统计和TFIDF方法引入到其中,建立出特征词的语义相关性的反映,有利于保证文本分类过程更加稳定的运行。文献[21]利用短语构成的特征,采用滑动窗口算法,避免了HMM中传统的前向算法和后向算法的较高的计算量。
在如隐马尔可夫模型这种统计标注方法时,在求每一个观察值序列对应的最佳词性标注序列时,不仅要考虑上下文的影响,也可以计算二元或三元概率参数使结果更为优化。目前的条件下,训练语料较为充足且具有人工标注,并且统计模型的鲁棒性较好,使得统计方法成为较为主流的词性标注方法。
[1]赵红丹,王希杰.基于隐马尔科夫模型的词性标注[J].安阳师范学院学报, 2010(5):9
[2]李家福,张亚非.一种基于概率模型的分词系统[J].系统仿真学报,2002, 14(5):544-546.
[3]梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005, 31(10):177-179.
[4]岑咏华,韩哲,季培培.基于隐马尔科夫模型的中文术语识别研究[J].现代图书情报技术, 2008(12):54-58.
[5]Chan T,Vese L.Active Contours Without Edges[J].IEEETransactions on Image Processing, 2001, 10(2):266-277.
[6]杨勇,马志明,徐春.LCV模型在医学图像分割中的应用[J].计算机工程,2010, 36(10):184-186.
[7]乐娟,赵玺.基于HMM的京剧机构命名实体识别算法[J].计算机工程,2013, 39(6):266-271.
[8]袁里驰.基于改进的隐马尔科夫模型的词性标注方法[J].中南大学学报:自然科学版,2012, 43(8):3053-3057.
[9]魏欧,吴健.基于统计的汉语词性标注方法的分析与改进[J].软件学报,2000,11(4):473-480.
[10]梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005, 31(10):177-179.
[11]屈刚, 陆汝占.一个改进的汉语词性标注系统[J].上海交通大学学报,2003, 37(6):897-900.
[12]Turney P D, Littman M L.Measuring praise and criticism: Inference of semantic orientation from association[J].Acm Transactions on Information Systems, 2003, 21(4):315-346.