袁 辉 李延香
(1.陕西工业职业技术学院,陕西咸阳 712000;2.咸阳师范学院信息工程学院,陕西咸阳 712000)
目前短查询法是最为常用的知识库搜索方法,不过在进行检索过程中,由于用户输入的关键词带有一定歧义性,再加上文档权重设置上的影响,很容易造成搜索结果无法完全满足人们信息检索需求。作为一种技术手段,查询扩展是解决这一问题的有效途径。基于初始查询基础上的查询扩展采取有效措施将相关词添加入其中,从而为判断文档相关性提供更多的信息服务。语义扩展查询的基本原理就是将原始查询映射至概念,并通过相关技术对查询语义及与之相关联的语义实施提取,进而得到更高精准度的查询语义,并对知识库中的文档进行与之相对应的检索。包括全局分析、局部分析、基于关联规则和用户查询日志的查询扩展等在内的几种方法是当下普遍使用的查询扩展法。其中全文分析的对象为整个文献集,该方法的系统计算量较为繁重,对海量信息进行检索时不适合采用该方法。局部分析法则对初检文档有相当高的依赖性,初检文档与原查询的相关度会对检索效果起决定性作用。词间关联规则质量的高低则会直接影响到基于关联规则的查询扩展结果的高低。大量用户查询日志的存在是实现基于用户日志的查询扩展的不可或缺的重要条件。本文从知识库语义扩展搜索和相关度分析这两方面为出发点,提出了一种新的语义扩展搜索方法,即基于本体的知识库语义WEB扩展搜索方法。
扩展查询条件、映射本体知识库以及相关度分析是构建本文所设计的本体知识库扩展搜索模型的主要三个部分。具体步骤是:首先,对用户输入查询条件进行采集并通过领域知识词典对其进行扩展;其次,通过关键字匹配法完将扩展查询条件向知识库本体实例进行映射;再次,对映射后的本体实例实施相关度分析;最后将扩展查询结果反馈给用户。下面就模型重点部分进行详细说明。
语义扩展查询必须建立在完成领域知识词典的构建基础上,与此同时,在领域专家的大力配合下构建起本体知识库。
(1)本体的定义
本体在计算机领域中的定义有好多种,其中“基于组建相关领域词语的基本术语及其相互关系基础上对其进行优化整合,以便能够对词语派生规则进行规定的定义[3]”能够获得大家普遍认同。
本体的表示主要包括个体、类、属性和关系这四个部分。其中个体指的是具体的实例,对知识的抽象概念说明指的是类,个体或类的特征指的是属性,个体或类之间的关联则为关系。
(2)本体构建方法
本体构建步骤主要分为三部分:第一,获得与领域相关的知识实体,同时构建起知识链;第二,对知识链进行概念化以及对现有本体进行整合并编码等是建立本体结构化的重要环节,这些环节都是通过中间表达集合实现的;第三,开展本体评估工作。
语义知识词典在包括机器翻译和词义消岐等在内的多个领域有着较为广泛的应用,它的出现能够使计算机对自然语言有着更为深入的理解,同时也是实现计算机智能化的物质保障。
(2)领域知识词典的构建
作为语义知识词典的子集,领域知识词典的构建有着重要意义。在一些特定领域,语义知识词典无法全部满足其需求,基于此,必须针对特定领域知识构建起与其相对应的词典空间。
构建领域知识词典必须以领域专家的参与为前提,通过全局分析法对与领域有关的词进行抽取。构建领域知识词典的具体步骤为:首先通过全局分析法的关键字分离、语义相关词义集检索及领域不相关同义词集剪这三个环节对领域文档中的词或词组进行相关分析和处理,其次对处理后的词或词组间的关联程度进行相关计算;最后以语义知识词典网状结构为基础,完成领域语义词典的创建任务。
扩展查询的实质就是将与用户查询相关联的词添加到原始查询中,形成比原始查询更长更精准的的查询,从而提高查询效率。其计算方法为:
(1)对用户输入的查询条件进行接收,并对其进行句法分析和句法语义关联分析。
(2)提取语义关键字的同时将听用词去除,以便消除歧义,从而获得集合
(3)按照语义关联规则对获得的集合U进行处理,并通过领域知识词典完成同义词的扩展任务即f(U)=V′,可获得集合存在着集合,其中g(ui,vi,j)是用来对ui和vi,j之间的相关度进行计算,β为阈值。V为扩展后的查询条件集合。
(1)相关度的定义
相关度指的是两个对象间存在的关联程度[8],其计算公式为:
在上述公式中,S(PCi,TCj)代表的含义为概念PCi和TCj的相关度,[0,1]是其值域;α代表的含义为可调节参数;dis代表的含义是整数,采取以下策略进行取值:
1)当PCi=TCj时,则dis取值为0,此时S(PCi,TCj)的值为1;
2)当PCi≠TCj,则dis的取值为,当dis=∞的条件下,则S(PCi,TCj) = 0 ,其中wp代表的是路径权值;
3)P代表PCi的特征集合,T代表TCj的特征集合,当(P∩T)≠φ的条件下,则可使dis的取值为1,此时相关度的计算公式为:
在上式中,λ所代表的含义为非公共特征的相对重要程度。
(2)相关度分析算法
在进行相关度分析计算过程中,同时加入扩展查询和映射相关度尤为重要。用户输入查询条件与扩展查询条件间的关联程度即为扩展查询相关度;扩展查询条件向本体实例进行映射的关联程度则用映射相关度来表示[5]。其计算方法为:
在上式中,S(ui,vi.j)代表的含义为ui和vi.j之间存在的语义相关联程度。
2)采用最短距离算法在语义知识词典的网状结构中,由ui点为出发点,通过有限步数到达vi,j点,在此过程中,路径的权值叠加和可用dis=u∑→vwp进行计算,通过公式(1)可知S(u,v)= α 。为确保扩展i具i,j有较高的合理性,对各个查询条ii,jdis+α件的相关度作出如下要求:S(ui,vi,j)≥β,其中β代表的是阈值,其取值为0≤ β ≤1[6]。
3)将扩展查询条件集合V向本体知识库f(vi,j)=Ti,j中进行映射后可得到本体实例集合,即Ti,j={ti,jk1≤i,j,k≤n} 。
4)通过对各个本体实例集的交集进行计算可得T1,j∩T2,j∩…∩Ti−1,j∩Ti,j=T′ ,T′ ={ti′,jk(h)1≤i,j,k,h≤n},其中实例ti′,jk属于h个互异本体实例集共同拥有。
5)对各个本体实例的综合相关度进行计算,其计算公式为:
在上式中,Q(vi,j,ti,j,k)指的是用来对vi,j映射到ti,j,k的相关度进行计算的函数;µ,δ代表的含义为可变系数;h应大于等于1。
采用Java编程语言对博物馆知识库系统进行构建,Protege3.1.1为本体构建工具;SQLServer2000为本文进行实验所采用的数据库;运用Jena2.6.2对本体进行相关操作;支持中文的知网是本次试验过程中所使用的语义知识词典。博物馆领域知识本体的创建工作是在领域专家的参与下完成的。
本次实验内容主要涉及到博物馆知识库的9个方面。其中公式(4)中各参数取值为 :µ = 0 .005,δ =0.4,β =0.9。表一为用户输入“中国”和“兵马俑”这两个关键词组后所得到的查询结果片段。
表1 实验数据片断
通过实验可知,本文所提出的语义扩展搜索方法能够使查全率和查准率获得大幅提升。
为有效提升检索效率,满足人们信息检索需求,笔者结合语义网本体技术和查询扩展技术提出了一种新的检索手段。该方法中所运用的领域知识词典以及对扩展查询和映射相关度的计算能够确保搜索查全率和查准率。但由于各权值的设定会对相关度计算结果造成一定影响,所以还应继续进行完善。
[1]ShihCW,ChenMinyen,ChuHuichuan.EnhancementofDomain OntologyConstructionUsingaCrystallizingApproach[J].ExpertSystemswithApplications,2011,38(6):7544-7557.
[2]RahmanMM,AntaniSK,ThomaGR.AQueryExpansionFramewor kinImageRetrievalDomainBasedonLocalandGlobalAnaly sis[J].InformationProcessingandManagement,2011,47(5):676-691.
[3]施雅贤,李璞,肖宝.面向旅游领域的语义查询扩展方法[J].计算机工程 ,2010,(36)(18):43-45.
[4]白如江,于晓繁,王效岳.国内外主要本体库比较分析研究[J].现代图书情报技术,2011,1(7):3-13.