基于统计语言模型的无导词义消歧

2015-03-16 13:00陈浩

电脑知识与技术 2015年1期

陈浩

摘要：词义消歧在自然语言处理中一直是一个难点问题，同时，也是很多领域都需要解决的一个重要环节。本文介绍了一种基于统计语言模型和统计方法相结合的有导词义消歧模型，详细讲解了统计语言模型原理；通过实验发现，在有限的标注语言条件下，语言模型确实可以提高词义消歧的性能。由此得出，统计语言模型在词义消歧的中具有良好的应用前景。

关键词：语言模型；hownet；无导方法

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2015）01-0178-03

An Unsupervised Approach To Word Sense Disambiguation Based on Language Model

CHEN Hao

（Department of computer Science，Guangdong University of Finace and Economics， Huashang College， Guangzhou 510000，China）

Abstract： Word sense disambiguation is a difficult problem in many fields of natural language processing，eg.machine translation，information retrieval.This paper firstly introduces a language model which is conbining statistics method，and then discusses the advantage of the language model.Accordingly ，the language model has the good application foreground in Wsd.

Key words： language model； hownet； an unsupervised approach

随着计算科学技术的飞速发展，自然语言处理希望机器能像人一样能理解自然语言，并且代替人类去做很多人类无法从事的工作，从而提高工作效率，词义消歧就是自然处理中一个很重要的问题，攻克这一难题对于自然语言处理以及机器翻译等都有很重大的意义。

许多学者对词义消歧进行了研究，十九世纪八十年代中期，Lesk[1] 利用词典中的词义或者成为义项来进行词义的消除歧义。他通过计算上下文词语的覆盖度，选择覆盖度了较大的作为正确的义项。尽管结果不是很理想，但是也开创了自然语言中词义消歧的先河。到了十九世纪初，语言学家Yarow sky[2]通过把文章的不同主题进行分类，歧义词语在在不同主题的文章中的含义不同，通过这种方法来确定歧义词语的含义，取得不错的效果。[3]十九世纪末期，Wordnet进入词义消歧领域，通过计算上下文词语的语言环境来确定词语的含义。[4]进入二十世纪以后，逐渐出现了一些基于实例的词义消除歧义的方法，通过实例可以指导判断歧义词义的词义。还可以采用词义搭配关系，上下文语法知识等，测试中也取得了不错的消歧效果。

本文提出了一种运用统计语言模型来解决词义消歧问题。在保持统计语言模型优点的基础上，该文提出方法的主要特点在于：

1）把多义词放到统计语言模型里去进行无指导消歧的方法；

2）使用聚类的方法对多义词的周围词义聚类

3）通过抽取术语，可以提高上下文词义的实用性。

本文以下内容安排如下：第2节对知网进行描述；第3节介绍无导消歧的过程，其中3.1节介绍基于统计语言模型的学习方法， 3.2介绍术语的抽取方法；3.3介绍上下文语言模型表示；第4节通过一些具体的词语的例子来检测消歧的效果；第5节分析本文提出的方法的优势和可能存在需要进一步的研究的问题。

1 《知网》[5]的介绍

《知网》是用义原来对每一个词语进行描述和定义的，义原可以理解为词语的一个解释，我们进行词义消歧的目的就是要确定多义词在具体语境中属于哪一种意思。我们以动词“打”

为例，打是一个多义词，它有多种含义，我们在进行词义消歧的时候可以确定它是哪个义原

在知网中，它的一般记录格式是：No= W_C= G_C= ，E_C= ，其中No=是编号，W_C=是多义词，G_C=是词性，是动词，名词还是形容词等，最后一个E_C=是举例，比如打毛衣，中的打就是编织的意思，而如果打仗中的打可理解为击，敲，攻击的意思。根据上下文的特点，我们可以确定在特定语境里多义词的义原。

2 基于统计语言模型的无导学习方法[6]

2.1 统计语言模型

统计语言模型是用统计的方法对语言信号进行排序的一种模型，如果在一篇文章中有n个词，分别是word1，word2，…wordn，统计语言模型就要统计出这个序列在文章中出现的概率g（word），g（word）可以用下面这个公式表示（1）：

G（word）=g（word1）*g（word2|word1）g（word3|word1word2）…

g（wordn|word1word2…wordn-1）

我们可以通过估计wordn前面出现的所有词来估计wordn出现的概率，为了减少计算量，我们采用计算wordn前面n-1个词来简化这个计算

G（word）=g（word1）*g（word2|word1）*g（word3|word1word2）…

g（wordi|word1word2…wordi-1）

我们可以采用三元模型或者二元模型来进行计算，如果在三元模型中，只是与前面两个词语有关，其中条件概率g（wordi|word1word2…wordi-1）可以在大規模语料中估计，如果语言片段出现概率大，就可能是符合条件的义项，把这个模型运用到词义消歧中去，可以取得良好的效果。

2.2 抽取術语[7]

我们在构造义项矩阵的时候要确定一个m的值，我们认为通过抽取术语的方法可以得到一些价值更大的术语，从而提高词义消歧的效果。而在普通的词义消除歧义的过程中，一些虚词占据了很大的比例，从而会影响或者降低消除歧义的效果。

通过使用一些术语抽取的方法，先确定种子，然后扩展开去，在一个大型数据库中，假设有一个字符串abcd，ni_f（b，c）

那么字符bc出现的次数-1，设立经验值5，2.5

在确定种子的基础上进行扩展，这样可以得到3—6字的准术语。

我们通过3条规则来最后确定术语，符合下面规则的不是术语：1）字串在种子下面；2）频率相同的种子；3）当ni值比自己大，且2个字串个数相差为1的时候。

2.3待消除歧义词语上下文的语言模型表示

如果取多义词上下文+—3-5的上下文范围： c-5，c-4，c-3，c-2，c-1 polysemous-word， c+1，c+2，c+3， c+4，c+5，.同样也需要映射到统计语言模型中，其表示如下Vpolysemous-word=〈cterm-1，cterm-2，cterm-3，…，cterm-n〉，当term-i出现在多义词的上下文中时，也就是term-i∈{ c-5，c-4，c-3，c-2，c-1，c+1，c+2，c+3，c+4，c+5， }，可以对当n=3，n=4，n=5时候分别进行打分，得分高的就是n的取值。

3 试验及其结果

3.1 以Hownet为词典的实验

我们设计了一个算法：

[第一步：在一个语料库中提取多义词其左右上下文为5的词语；

第二步：用语言模型来进行分析消歧词的效果；

第三步：应用不同阶数的语言模型对多义词语进行消除歧义；

第四步：根据上下文对多义词进行打分，分数高的为正确的义项。

3.2实验结论

我们以《词林》中的几个多义词做比较。

本文提出的方法在原来的基础上有一定的改进，改进的原因在于：

1）在本文提出的方法中，我们采用了统计语言模型来进行消歧；

2）通过借鉴属于抽取的方法可以使用多义词的上下文更加准确，从而提高效率。

4 结论与讨论

本文提出了一种基于语言模型的无指导的词义消歧方法，该方法在基于术语抽取的基础上，使用了基于统计的语言模型的方法，最后的实验表明，该模型可以显著的提高消歧性能。

通过实验表明，采用无指导的词义消歧的方法，在统计语言模型下可以帮助提高词义消歧的性能。未来的工作，我们主要从三个方面去进行。

1）更高的提高术语抽取的质量，因为这样可以提高词义消歧的性能。

2）待消歧的词语上下文的更多地数据集的特征可以发掘出更多的消歧的知识。

3）优化其他的无指导消歧义的模型，如向量空间模型，测试各种无指导消歧模型的消歧效果。

参考文献：

[1] Michael E Lesk Automated Sense Disambiguation Using Machine-readable Dictionaries How To tell a Pine Cone from an Ice Cream Cone[A].In Proceedings of the SIGDOC Conference[C].Association for Computing Machinery New York，1986：24-26

[2] David Yarowsky Word-sense disambiguation using statistical models of Rogets categories on large corpora[A].In COLING[C].Nantes，1992：545-460.

[3] Eneko Agirre Rigau Geman A proposal for word sense disambiguation using conceptual Distance[A].Proceedings of the 1st Inernational Conference on Recent Advances in Natural Language Processing[C]. Bulgarin 1995.

[5] 董振东，董强（2000）.“知网” [EB/OL].http：//keenage.com.

[6] 基于语言模型的有监督词义消歧模型优化研究[J].中文信息学报，2014，28（1）：19-25.

[7] 刘建舟，何婷婷，刘晓华.基于开放式语料汉语术语的自动抽取[C].第十二届东方语言信息处理国际会议论文，2003（8）：43-49

[8] LI Juan-zi. The research on Chinese word sense disambiguation [Ph.D.Thesis][C] Beijing： Tsinghua University，1999 （in Chinese）.

电脑知识与技术2015年1期

电脑知识与技术的其它文章: EFSA模型在入侵检测中的应用与研究; 基于网络环境的协同教育研究; 无线自组网定向时分MAC协议仿真实现与性能分析; 物联网中的RFID技术及物联网的构建; MapReduce异构环境下调度优化综述; 基于混合编程的航空公司机组调度实现技术研究