陆国泉+彭琳+庞雪
摘要:以《同义词词林》为基础,结合云南种子植物特有属领域知识补充了《同义词词林》中该领域的词语,并提出了一种基于同义词词林的词语相似度改进算法。经过测试对比,在植物检索领域该计算方法比一般的基于同义词词林的词语相似度算法更加准确,而且召回率得到了明显提升,更适用于云南种子植物特有属领域信息的检索。
关键词:同义词词林;词语相似度算法;云南;种子植物;特有属
中图分类号:Q949;G354.4 文献标识码:A 文章编号:0439-8114(2017)07-1356-03
DOI:10.14088/j.cnki.issn0439-8114.2017.07.040
Research on Algorithm for Calculating Word Similarity in the Field of Endemic Genera of Seed Plants in Yunnan
LU Guo-quan,PENG Lin,PANG Xue
(Key Laboratory of Agricultural Information Technology in Yunnan,Yunnan Agricultural University,Kunming 650201,China)
Abstract:An improved word similarity algorithm put forward based on cilin combined with the knowledge of the endemic genera of seed plants in Yunnan supplement the words about this field. Experiment results illustrate that this improved algorithm for calculating word similarity based on “cilin” is more precise than general algorithm for calculating word similarity based on “cilin” and recall has been significantly improved. Therefore,this improved algorithm is more suitable for the semantic retrieval system in the field of endemic genera of seed plants in Yunnan.
Key words:cilin;algorithm for calculating word similarity;Yunnan;seed plants;endemic genera
词语语义相似度来源于计算机语言学等领域,它可以度量术语、词汇、概念之间的相似程度,被看作概念在分类上的相似程度[1]。词语语义相似度的计算在语义检索、自动问答、文本聚类等应用中起着重要作用[2-4]。传统的检索方式仍基于关键字匹配和倒排索引[5],几乎没有任何语义功能。通常,传统检索方式不能理解用户的查询意图,一旦用户输入不准确的查询词就会得到许多不相关的结果。将词语语义相似度计算引入检索系统后,检索系统便具备了语义功能,就算用户输入模糊的查询词,检索系统也能检索出用户所关心的信息。
目前,对于词语语义相似度的计算方法主要集中在以下几方面:①基于統计的方法,假设语义词语相似的词语之间具有相同的上下文关系,以上下文信息的概率分布作为依据,利用词语之间的相关性来计算词语相似度[6];②基于本体的方法,依据领域内专家建立的领域本体,利用该领域知识的语义树来计算词语间距离词语的相似度[7];③基于语义词典的方法,利用语言专家编撰好的语义词典进行语义相似度计算。
由于基于同义词典的词语相似度算法具有实现简单、高效、直观、易于理解且不需要训练的特点,因此基于同义词词典的词语相似度算法在各个领域得到了广泛的应用[8]。但是目前还存在以下问题:①词典的词条更新不及时。由于基于同义词典的词语相似度的计算依赖于语义词典,而编撰词典通常需要多名顶级语言专家共同完成,网络时代的知识爆炸使得词典滞后于新兴词语的出现。②领域内的专业词汇收录不全。每个领域有不同的专业知识和词语,语言专家作为语言领域的专家,在编撰语义词典的时候很难将所有专业领域内的词语囊括其中。
面向云南种子植物特有属领域的语义检索能最大限度地集成和利用各类云南种子植物特有属相关信息资源,快速、完整、智能地提供各种信息服务,这已成为研究和保护云南特有种子植物的新需求。目前,在这个领域没有专业的语义词典,并且没有较好的词语相似度算法,从而导致了云南种子植物特有属领域语义检索精度不高、扩展性不强等问题。
针对上述问题,本研究协同植物学领域的研究人员完善了《同义词词林》并在此基础上提出了一种改进词语相似度的算法,并对该算法进行了试验。
1 材料与方法
1.1 同义词词林结构
在国外通常采用WordNet作为语义词典来计算词语相似度,而在国内由于中文本身的特点以及起步相对较晚,在这方面的研究较少。本研究采用的词典是由哈尔滨工业大学梅家驹教授等主编的《同义词词林》[9]。该词典参照多部电子词典资源,并按照人民日报语料库中词语的出现频率在第一版的基础上剔除了14 706个罕用词和非常用词。为了获得进一步的性能,该词典结合多方面相关资源将词典词条扩充到了77 343条,基本能满足本研究的需求。《同义词词林》按照树状的层次结构把所有收录的词语组织在一起,编码相同的词语要么词义相同,要么具有很强的相关性[9]。该词典采用八位五级编码,前七位表示该词条所处的位置而第八位的“=”、“#”、“@”分别表示同义词、相关词以及只有本身一个词。具体的编码规则如表1所示。
1.2 同义词典的词条补充
将同义词词林的词语相似度计算方法应用于云南种子植物特有属领域语义检索,由于这部通用的语义词典在本领域内的应用存在一定的局限,故本研究结合该领域知识对《同义词词林》进行补充和调整。该词典是TXT格式的文本,因此进行调整后并不影响系统的运行。如酸竹属是云南种子植物特有属的一个属,酸竹属下还有粉酸竹、酸竹、毛花酸竹、福建酸竹、黎竹等品种。由于《同义词词林》并没有收录这些词语,因此本研究结合词典知识和云南种子植物特有属在《同义词词林》中补充了125个同义词集合,共计246条词语。如在词典增加编号“Bh08A54=”来表示词语集合:粉酸竹、酸竹、毛花酸竹、福建酸竹、黎竹。因此当用户想要了解“酸竹属”的知识时,只要输入编号“Bh08A54=”中任何一条词语就能检索出相应的知识。
1.3 改进的词语相似度算法
《同义词词林》词典不仅词条丰富而且具有良好的编码规则,所以可以根据词语编码计算出两个词语间的相似度Sim(W1,W2),Sim(W1,W2)取值范围为[0,1],1代表同义词,0代表不相关,Sim(W1,W2)越靠近1则表示W1,W2相似度越高。本研究在《同义词词林》编码规则的基础上结合特有属领域知识的特点提出了如下公式来度量相似度:
Sim(W1,W2)=1-■■×■(1)
式中,i表示第i级编码,k表示第i级编码之差的绝对值,n表示第i级编码较大值。当最后一位编码为“=”时,不同编码的词语按照公式(1)计算相似度,相同编码词语的相似度为1。由于本领域的知识在词林中主要呈现同类的特点,而不等的情况出现相对较少,如:编号为“Bh12B03#”,其词语集合为“稻苗、稻秧、禾苗、种苗等”。很明显,这些词语是相关的。因此当最后一位编码为“#”时,本研究根据用户需求分为以下两种情况:当用户只关心查询词本身不关心其同类时,若词语的编码相同,其相似度设置为0;当用户关心查询词同类事物时,若词语的编码相同,其相似度设置为1。不同编码词语按公式(1)计算,所得结果为词语相似度。当最后一位编码位为“@”时,表示自我封闭,没有同义词,因此设置相似度为0。如Sim[种子(Bh13B01=),种仁(Bh13B02=)]=1-(1/32)×(sqrt(02-01)/02)=0.977 903。
1.4 试验设计
1.4.1 试验一 随机选取10对在云南种子植物特有属领域知识中常见的词语进行相似度计算,分别使用本研究提出的方法与目前以文献[10]为代表的基于同义词典的词语相似度通用计算方法进行相似度计算。
1.4.2 试验二 试验数据:110篇关于福建酸竹的文献,17篇关于黎竹的文献,19篇关于粉酸竹的文献,35篇关于毛花酸竹的文献,245篇关于酸竹的文献以及768篇关于计算机领域的文献作为噪声集。
试验步骤:在试验一的基础上分别使用上述两种不同的方法获取查询词语的扩展词集合,然后将扩展词集合作为新的查询词在lucene全文检索框架中进行检索,最后对结果进行评价,试验流程如图1所示。
评价标准:精度表示检出文献中相关文献的比例,计算公式为P=■。其中P表示精度,R表示相关文献,A表示检出文献。召回率表示相关文献被检出的比例。计算公式为r=■。其中r表示召回率[11]。F值综合考量了精度和召回率[10],只有当精度和召回率都较高时才具有较高的值,计算公式为F=■。
2 结果与分析
2.1 试验一结果
由表2可知,使用本研究方法计算云南种子植物特有属领域知识词语相似度的效果与人工测试出来的主观结果没有明显出入,同时在本领域内的词语相似度更加准确。可以看出,本研究所提出的词语相似度计算方法,相对于一般的基于同义词词林的词语相似度计算方法的优点:①没有引入人工参数,使得结果更加客观;②一般的计算方法把第一级编码不同的词语相似度统一定义为0.1,有些笼统,而本研究的方法则考虑了这个问题;③本研究考虑了将用户的查询需求分成两个接口,当用户选择精确检索时,进入后将最后一位编码为“#”,且编码相同的词语的相似度定为0的接口;当用户希望再扩大其检索范围时,则进入后将这对词语的相似度定为1的接口。而一般的计算方法过于笼统,只是将最后一位编码为“#”,且编码相同的词语统一定义为0.5,显然不能满足用户需求。
2.2 試验二结果
由表3可知,使用本研究计算方法的召回率比使用通用计算方法的召回率有了明显的提升,说明使用本研究方法可以提升查询词扩展的性能。同时使用本研究计算方法的F值也得到了明显提升,说明本研究计算方法比一般通用计算方法具有更好的检索性能。
3 小结
针对云南种子植物特有属领域语义检索缺乏性能良好的词语相似度算法的问题,本研究提出的算法在云南种子植物特有属领域语义检索中更加接近人类思维,可以很好地解决查询词扩展不准确及检索结果打分不合理等问题,并且直观明了、容易实现。但本研究提出的词语相似度计算方法也存在不足,《同义词词林》作为一本通用的语义词典,对于专业领域的应用尚存在一定的局限性。在后读研究中,将补充完善领域内的词条,再提出更加优化的且适用面更广的词语相似度计算方法来提高检索的精度。
参考文献:
[1] 李 文,孙 新,张常有,等.一种本体概念的语义相似度计算方法[J].自动化学报,2012,38(2):229-235.
[2] 刘亚军,徐 易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报,2004,34(5):609-612.
[3] 颜 伟,荀恩东.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):712-716.
[4] 焦芬芬.基于概念和语义相似度的文本聚类算法[J].计算机工程与应用,2012,48(18):136-141.
[5] 吴 秦,白玉昭,梁久祯.一种基于语义词典的局部查询扩展方法[J].南京大学学报(自然科学),2014,50(4):526-533.
[6] 李 慧.词语相似度算法研究综述[J].现代情报,2015,35(4):172-177.
[7] 孙海霞,钱 庆,成 颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010(1):51-56.
[8] LI F,ZHU X H,CHEN H H,et al.An improved Chinese word semantic similarity algorithm based on Cilin[J].Journal of Information & Computation Science,2015,12(10):3799-3807.
[9] 梅家驹,竺一鸣,高蕴琦,等.同义词词林[J].第二版.上海:上海辞书出版社,1996.
[10] 田久乐,赵 蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报(信息科学版),2010,28(6):602-608.
[11] RICARDO B Y,BERTHIER R N.现代信息检索[M].第二版.北京:机械工业出版社,2012.