摘 要:语义相似性度量在信息检索和自然语言处理领域中起到重要的作用,本文分析了传统语义相似性度量的方法,针对现实领域本体中WEB搜索引擎检索信息的方式,提出了一种基于WEB的领域本体语义相似性度量方法,通过对该方法的理论验证和分析,所提出的方法可以有效的提高语义相似性的计算精度。
关键词:领域本体;语义;相似性
DOI:10.16640/j.cnki.37-1222/t.2018.15.192
1 引言
随着信息技术的发展,领域本体(Domain Ontology)在信息检索和人工智能中的研究已经成为热门课题。语义度量是目前广泛使用的语义实体,如语言单位、概念甚至语义特征的实例,语义相似性分析覆盖广泛的应用领域,通过对语义的数据挖掘,可以进行数据的分析、分类、知识提取、文本处理、基于本体的信息检索等。语义度量可以用解决很多应用领域中存在的问题。通过设计的算法,可以应用到自然语言处理、知识工程、语义Web和链接数据中。因此词语间的语义相似度研究一直是信息检索和自然语言处理的重要部分。实体之间的语义相似性并不是一层不变的,经常是随着新生事物的产生和时间的推移而变化。新词语不断的被创造,并赋予新的含义。比如,现在流行的小米,大家经常习惯性把它和移动手机联系在一起,而这个小米并不是我们原有粮食本体词语库中的,而是新兴手机品牌的代名词。采用手工的方式在本体库中来增加这些词语难度大、工作量大。能否利用搜索引擎自动的分析和识别本体语义的相似性是学者一直研究的课题。
2 问题分析
在互联网中有大量的文档信息,同时这些信息也在不断的增长,对其中的每个文档进行单独的分析是很难的,搜索引擎为海量信息搜索提供了高效的接口。利用搜索引擎查询词语信息的时候,会产生具有查询词语的页面数量和具有词语信息的数据源。例如,通过百度搜索引擎查询“小米”和“移动手机”的页面数是63500000和62400000,而查询“小米手机”时,返回的页面有32300000,是“小米”和“移动手机”页面数量的50%,通过上述数据可以看出,我们在搜索“小米”的时候,有50%的几率是属于手机本体,50%的几率属于粮食本体。采用这种方法,只是使用了页面计数作为衡量两个词语的相似性,这样的方式很简单,但是不够全面。首先,在进行页面计数分析的时候忽略了页面中词语的位置,即使是这两个词语同时出现在一个页面中,而实际上是不相关的两个本体中的词语内容;其次,一个具有多含义的词语可能具有多种表示方法,比如,搜索“牛肉”词语,结果计数页面可能包含了牛肉的做法、牛肉的描述、牛肉的销售商店等页面的数量。同时也要考虑到网络的规模和噪声,部分词语可能会随意的出现在某些页面上,因此在进行语义相似性分析的时候是一个比较复杂的过程。因此,我们需要通过所有信息来衡量对给定词语之间的相似性,本文针对此类问题提出了一种考虑页面计数和上下文的相似性分析方法,从而克服上述问题。
3 建立模型
假定給定两个词语,分别定义为A1和A2,然后建立模型来分析A1和A2之间的语义相似性。如果A1和A2具有高度相似性,比如是同义词或近义词等,则定义相似性接近1;如果A1和A2在语义上不具有相似性,则定义其相似性的值接近于0。然后我们通过搜索引擎来查找A1和A2,通过其返回的页面数量来构造模型。然而,通过返回的页面数量来分析词语之间的相似性是不全面的,因为页面的相似度分析方法,容易产生噪音和存在不可靠因素,在这个过程中没有考虑到词语与上下文之间的关系,过多的是从词语的单一性出发的,词语在不同的段落中、在不同的语境中所表示的含义是不同的。因此,我们在分析语义相似性的时候,还要充分考虑到词语所处的上下文关系,把上下文的相关信息一并作为分析相似性的组成部分,使用代码片段覆盖查询词的局部上下文。
虽然在分析时使用上下文关系对相似性判断具有较高的效率,但仍然还有两个问题需要解决:首先,包含词语的句子可能是一个孤立的句子;其次,搜索引擎可能通过选择这个句子中的不同的关键词语作为查询项目,这样就有可能产生个多的结果返回页面,而导致分析的结果不够准确。因此,我们借助于WEB片段在句子中抽取和词语相关的关键字进行查询,利用这些词语来模拟自然语言中的信息,然后进行查询,这样返回的结果页面更加准确。
在利用WEB搜索的时候,在对有些词语不能确定的时候,可以利用查询的通配符来代替某些词语关键字,利用“*”操作符匹配网页中的一个词语,因此,我们的通配符查询检索可以使用“*”通配符代替部分词语,我们试图使用通配符查询来近似两个词的本地上下文,比如使用“福特*越野”等这样的信息。
4 结论
文章中提出了一个利用页面计数和上下文关系来计算两个词之间语义相似度的度量方法,通过对该方法的理论验证和分析,该方法可以有效的提高语义相似度的计算精度。
参考文献:
[1]刘锋.一种优化的基于领域本体语义距离的概念相似度计算模型研究 [J].曲阜师范大学学报,2015(10).
[2]刘锋.一种改进的基于层次结构的网格任务调度优化模型研究与设计[J].曲阜师范大学学报,2017,43(04).
[3]郭维威.基于扩展知识空间的计算机自适应测试方法的研究与实施[J].计算机产品与流通,2017(08).
注:本文系2014年黑龙江省教育厅科学技术研究项目“基于领域本体的语义web智能搜索模型的研究”的阶段成果,项目编号:12543050。
作者简介:郭维威(1978-),女,硕士,副教授,研究方向:软件开发和数据库。