白彦霞
摘要:通过关键词匹配返回的检索结果无法满足用户需求。为了解决该问题,提出一种基于贝叶斯网络的语义检索模型,该检索能够从语义层面上获得较高的查准率,为用户提供更满意的检索结果。
Abstract: The retrieval results can be returned by keyword matching, which makes the retrieval results can't satisfy user's demand. In order to solve this problem, a semantic retrieval model based on Bayesian network is proposed, which can get high precision from the semantic level,and provide users with more satisfactory retrieval results.
关键词:贝叶斯网络;关键词;语义检索
Key words: Bayesian network;keyword;semantic retrieval
中图分类号:TP391.3 文献标识码:A 文章编号:1006-4311(2018)25-0141-02
0 引言
随着信息技术的蓬勃发展,网络资源成指数级增长,人们已经越来越习惯于在网络上检索自己所需要的各类文档资源。对于文档的浏览和检索,传统的信息检索技术只是以关键词的简单匹配作为主要手段,语义层面的具体分析无法实现。同时,检索的文档信息形式比较单一,未考虑文档之外的信息关系,使得检索效率低下。如果将检索术语的同义词、近义词、高度相关词等考虑进来,必然提高查全率和查准率,因为包含这些词语的文档在一定程度上也与用户的查询意图有关。特别是对于刚刚进入某个研究领域的人员,由于知识有限,对相关知识的认识不够全面,总是希望能从一篇本领域的文档中找到与之类似的文档,这些文档间的近似关系、关联关系等就需要在检索的过程中被考虑进来,引导用户沿着感兴趣的文档找到相似或相关的文档,从而帮助用户快速检索到目标文档。
贝叶斯网络也被称为信度网络,具有非常灵活的拓扑结构,通过节点来表示术语之间的条件关系和语义关系,为实现语义检索奠定了基础。本文以贝叶斯网为基础,结合简单贝叶斯网络检索模型关键词精确匹配的优点和两层节点的贝叶斯网络检索模型语义扩展的优点,提出了一个基于贝叶斯网络的综合语义检索模型,该模型实现了语义检索,使信息检索趋于智能化。
1 模型拓扑结构
图1为基于贝叶斯网络的综合语义检索模型的拓扑结构,整个网络分为左右两部分。右侧实线框内为简单贝叶斯网络检索模型,由两个子网组成:术语子网和文档子网。文档子网由N个文档节点构成,DSj表示文档,也表示与其相关的变量和节点。左侧虚线框内为两层节点的贝叶斯网络检索模型,该网络是对简单贝叶斯网络检索模型的扩展,也包括两个子网,其中文档子网与右侧网络中的文档子网完全一样,只是文档用DEj表示,DEj也表示与其相关的变量和节点。DSj和DEj是同一个文档Dj的不同表示。左右两部分网络最大的区别在于术语子网,在两层术语节点的贝叶斯网络中,复制原始术语层T中的每个术语节点Ti得到术语节点T′i,形成一个新术语层T′,因此两层节点的贝叶斯网络检索模型的变量集合 。T′中的术语变量T′i也是二进制的随机变量,取值集合为 , 和 分别表示“术语T′i不相关”、“术语T′i相关”。 是N篇文档组成的集合。
连接两个术语层的有向弧的指向:①任意术语T′i与其本身Ti之间存在由T′i指向Ti的弧;②若术语Ti与Tj互为同义词,则存在由T′i指向Tj的弧和由T′j指向Ti的弧。因此,术语节点Ti∈T的父节点集Pa(Ti)合由术语节点T′i及Ti的同义词节点T′j组成。利用同义词扩展术语子网,加入模拟术语节点间直接关系的弧,这样就可以检索到那些与查询术语语义相同或相似的文档,以此提高检索性能。
新模型的最下面一层是复合的文档层,其中任何一个文档节点Dj的父节点都是由DEj和DSj组成,也就是说通过最终的文档层将整个网络左右两部分进行归并,进一步提高检索性能。
2 概率分布
在两层术语节点的贝叶斯网络检索中,对于任意根术语节点T′i的相关边缘概率[1] 定义为 (M表示测试集合中的术语总数),不相关的概率[1]则可以表示为 。已知Ti为任意非根术语节点,Pa(Ti)中每个术语变量取值(相关或不相关)后的一个组合表示为pa(Ti),则利用一般正则模型的概率函数[2]可以得到如下表达式:
其中,vij为权重,用来反应查询术语 对术语Ti的影响力度, 表示只将Pa(Ti)中取值为相关的术语的权重加起来。术语Ti如果有多个父节点,权重vij的定义如(2)式所示:
Ti如果只有一个父节点T′i,权重vij=0。公式(2)中 为Ti的父节点个数,?茁为调节权重影响力度的参数。该定义可以很好的区分不同同义词对查询术语的影响力度。
文档层D中的文档节点DSj和DEj的条件概率 和 的计算与简单贝叶斯网络检索模型中概率计算相同。
3 推理和检索机制
查询Q是由用户所提供的初始查询,对于简单贝叶斯网络检索模型,最终计算出每篇文档DSj与查询Q的相关度 [2];对于两层节点的贝叶斯网络检索模型,最终计算出每篇文档DEj与查询Q 的相关度 。基于新模型的检索过程,最终要计算出每篇文档Dj与查询Q的相关度, 由 和 共同决定,即新模型的检索结果是对两层节点的贝叶斯网络检索模型和简单贝叶斯网络检索模型的检索结果的归并。
在简单贝叶斯网络检索模型中,不包含查询术语Q的文档,即使满足用户的檢索需求,但是其相关度 的值一般都非常小,所以这类文档一般不会提供给用户;与之相反,包含查询术语Q中的部分或全部术语的文档,其相关度 的值一般都比较大,从理论上讲一般可以满足用户的检索需求。此外,如果文档中包含查询Q的同义词、近义词或相关词,这类文档与用户的检索需要也具有一定的关联。所以要按照 和 综合之后的相关度对文档排序,将相关度大于某个值的文档进行递减排序,最终呈现给用户。
用戶把查询Q提交给检索系统时,检索过程开始,检索过程的执行过程主要是归并简单模型的检索过程和两层术语节点模型的检索过程。其相应的检索推理过程如下:
①利用一般正则模型的概率函数[1]估计两层术语节点的贝叶斯网络中术语层T中任意术语Ti的后验概率 :
因为术语层中的术语相互边缘独立,所以 时,则(3)式中的 ,否则 。注意,对于只有一个父节点 的术语Ti而言 ,若 ,由(3)式可得 ,否则 。若术语Ti有多个父节点,vij用公式(2)代替,则 为:
公式(4)考虑了Ti的所有父节点对其产生的影响。
②计算文档DEj的最终后验概率 :
③基于以上推理并利用一般正则模型的概率函数[1]对文档Dj的最终后验概率 估计如下:
其中,usj和uEj为衡量文档DSj和DEj分别在查询Q作用下对Dj相关度影响程度的权重,定义为
④按照文档相关度进行排序,将相关度大于某个值的文档提交给用户,完成检索过程。
4 结束语
语义检索是未来信息检索领域的一个发展趋势。本文将贝叶斯网络和语义相结合,提出基于贝叶斯网络的语义检索模型,该模型能够根据词语的含义检索到与用户需求相关的文档,扩大了检索的范围,且查全率和查准率方面都得到了提高,实现了智能语义检索,检索性能更加优越。
参考文献:
[1]LUIS M. DE CAMPOS, JUAN M. FERNANDEZ-LUNA, JUAN F. HUETE. The BNR model: foundations and performance of a Bayesian network-based retrieval model [J]. International Journal of Approximate Reasoning. 2003, 34(2-3): 265-285.
[2]SILVIA ACID, LUIS M. DE CAMPOS, JUAN M. FERNANDEZ-LUNA, et al. An information retrieval model based on simple Bayesian networks [J]. International Journal of Intelligent Systems. 2003, 18(2): 251-265.