摘要:针对传统的词义消歧方法不能对短小的用户查询词进行词义消歧,提出了一种基于语义关系图的词义消歧方法,利用改进的PageRank算法计算语义关系图中的各词义节点权重,选择权重较大的词义作为消歧后的查询词词义。实验结果验证了该方法的有效性。
关键词:词义消歧;本体;PageRank算法;语义;权重
中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2013)07-1548-03
词汇的多义性在自然语言中普遍存在,词义消歧是指根据词汇所处的语境来确定词汇的具体含义。词义消歧在信息检索、机器翻译、文本分类等自然语言处理领域有着重要的理论研究和广泛的实践应用。根据词义消歧过程中是否利用已标注词义的训练文本集可将词义消歧方法分为有监督词义消歧和无监督词义消歧两大类[1]。有监督词义消歧通过对训练语料库进行词义标注,采用机器学习的方法来判定待消歧的新实例词义,这种方法具有较高的消歧准确度,但对训练语料库的词汇标注量依赖较强,且标注文本集费时费力,不易获得。无监督词义消歧则直接从原始数据集或知识词典中判定新实例的词义,随着语义词典的不断完善,基于知识的无监督词义消歧成为近年来的研究热点[2]。
在信息检索中,当用户使用较多的查询词描述查询需求或各查询词围绕同一个主题时,已有的这些方法能够取得较好的查询词义消歧效果,但当用户查询词较少或各查询词的主题关联性较小时,这些方法并不能很好的获得查询词的词义,为了解决当用户查询词短小时较为准确的获得用户查询词义的问题,该文提出了一种基于语义关系图的查询词义消歧方法。该方法以待消歧词及其上下文词汇在WordNet中的所有词义为节点,以WordNet中的连接关系为边构造语义关系图,并应用改进的PageRank算法得到语义关系图中各词义节点的权值,则待消歧词义中权值最高的节点词义即为该消歧词的词义。
1 相关知识
正文内容。WordNet是由普林斯顿大学设计的一个基于认知语言学的在线英语词典[3]。WordNet按照单词的意义将其组成一个“单词的网络”,具有相同词义的词条形成同义词集。每个同义词集代表一个潜在的概念,同义词集之间通过各种语义关系进行互联。WordNet用词频来表示同义词集所代表的词义在训练集中出现的频率。另外,WordNet还将词性相同的同义词集按照上下位关系组织成层次结构的形式,其中名词部分的层次结构占了大约80%的比重。WordNet是完全免费的资源,其数据库及相应的软件工具可以自由下载使用。
PageRank算法[4]是一个基于图论的算法,在Google搜索引擎中被采用进行页面重要性的判断。从页面A导向页面B的鏈接被看作是A对B的支持投票,则页面的PageRank值取决于页面获得的投票数和投票者的重要性值。设G=(V,E)是一个具有节点集V和边集E的有向图,E是V×V上的子集,那么节点Vi的PageRank值定义如下:
其中,
PageRank算法对于任意分配的图节点的初始PageRank值,循环进行节点PageRank值的计算,直到图中节点的PageRank值全部收敛为止。
2 基于语义关系图的词义消歧方法
消歧算法描述:
输入:待消歧的多义词
输出:歧义词消歧后的词义
步骤1:根据WordNet中的定义,构造以待消歧词词义和上下文词汇词义为节点,以WordNet中的语义关系为边的关系图G;
步骤2:运用改进的PageRank算法计算关系图G中的节点权重;
步骤3:选取待消歧词义各节点中权值最高的节点词义做为消歧后的词义。
2.1 构造语义关系图G
对于用户的查询请求,文中采用隐式反馈技术自动获取初次检索结果的相关文档,提取这些文档中的实词做为查询词的消歧上下文。以待消歧词和上下文词汇在WordNet中的所有词义做为关系图G的节点,以WordNet中定义的语义关系做为词义节点间的无向连接边,语义关系的强度做为连接边的权重,根据语义关系在WordNet中的强度,文中对G中的连接边权重进行了重新定义。当两个词义节点间具有超过一种的语义关系连接边时,选取这些语义关系中最大的强度做为两词义节点边的权重,由此构造出的无向边加权图即为消歧的语义关系图G。
2.2 利用改进的PageRank算法进行词义消歧
原始的PageRank算法适用于边权重相同的有向图,因此对于构造好的语义关系图G来说,需要对PageRank算法进行适当的修改。在改进的PageRank算法中,当节点N1与节点N2具有连接边时,则认为N1对N2具有关联投票,根据投票边的权值和与节点相连接的边数来判定节点的重要性值。此外,投票节点的重要性越高,则该节点所投票的节点就越重要,因此,语义关系图G中节点的重要性值有连接边数、连接节点的重要性值和连接边的权值三者来决定。节点Vi的PageRank值可形式化地表示为:
[Pr(Vi)=(1-d)+d×j∈link(Vi)Pr(Vj)×wjik∈link(Vj)wjk] (2)
其中,
初始时语义关系图G中的节点任意分配一个PageRank值,利用改进的PageRank算法对图G中的各节点迭代计算其PageRank值,直至各节点的PageRank值收敛。从消歧词的所有词义节点中选取PageRank值最高的词义节点作为其消歧后的词义,即:
[SGT(w,C)={Si|?Sk∈w,Pr(Si)≥Pr(Sk)}] (3)
若消歧词的最高词义节点不止一个时,可以认为这些词义比较接近,将保留多个词义作为消歧词的词义。
3 实验
3.1 实验数据
采用Senseval-3 Lexical sample task 数据集对文中提出的基于语义关系图的词义消歧方法进行测试与评估,Senseval-3 Lexical sample task 数据集是一个普遍采用的标准测试集,许多已有的词义消歧方法都采用此测试数据集进行评估[5]。该数据集是一个英语词汇实例测试集,由57个多义词组成,平均每個多义词具有6个词义,每个词义大约有140个训练实例和70个测试实例。采用消歧率作为实验的评测标准。
3.2 实验结果及分析
采用基于语义关系图的消歧方法对Senseval-3 Lexical sample task 数据集中的名词性多义词进行消歧的结果如表1所示。
从实验结果可以看出,大部分词汇取得了较好的消歧效果。这是因为基于查询词及其上下文构造的语义关系图全面反映了查询词的词义信息,改进的PageRank算法有效利用了语义关系图的连接结构信息,较为准确的计算出了查询词各词义节点的重要性值,从而取得较好的查询词消歧效果。
为了验证本文算法的优越性,文中对其它一些基于WordNet词典进行词义消歧的方法在相同数据集上进行了重建,主要包括:①Lesk消歧算法:该方法利用歧义词在WordNet中的定义与歧义词所在上下文词汇的重叠度进行消歧;②Jiang消歧算法:该方法根据WordNet中所定义的概念层次结构信息,结合词汇路径和词汇信息含量进行消歧;③Concept Density消歧算法:该算法主要基于WordNet中的概念密度进行消歧;④Domvec消歧算法:该算法主要基于WordNet Domains领域扩展库构造领域向量进行消歧。各算法的实验对比结果如表2所示。
从表中的实验对比结果可以看出,该文提出的基于语义关系图的词义消歧方法比其它方法具有一定的优越性,验证了本文算法的有效性。
4 总结
本文采用隐式反馈技术选取相关文档中的名词作为查询词的消歧上下文,利用WordNet本体的结构特征构造了语义关系图作为词义消歧的基础,基于改进的PageRank算法计算语义关系图中各词义节点的重要性值,实验结果表明,该方法具有较好的消歧效果。但在实际的信息检索中,该文的方法能否取得较好的应用效果将是我们下一步研究的重点。
参考文献:
[1] 于林林,魏琦,宋丽芳.基于多种方法相融合的词义消歧方法[J],电脑知识与技术,2010,6(33):95154-9516.
[2] 王瑞琴,孔繁胜.无监督词义消歧研究[J].软件学报,2009,20 (8):2138-2152.
[3] 何文垒,刘功申.基于语义密度的名词消歧算法[J].计算机科学,2012,6(39):194-197.
[4] 李永亮,黄曙光,鲍蕾.一种基于PageRank算法和知网的词义消歧方法[J].计算机应用与软件,2011,28 (5):213-215.
[5] 罗俊丽,李慧娜,路凯.基于词义消歧的语义查询扩展研究[J],微电子学与计算机,2012,29 (1):71-75.