基于概念扩展的文献检索系统的设计与实现

2015-09-27 06:48丁泉勋戴哲明姜鑫
现代计算机 2015年28期
关键词:百科引擎检索

丁泉勋,戴哲明,姜鑫

(中国电子科技集团公司第三十二研究所,上海 200233)

基于概念扩展的文献检索系统的设计与实现

文献检索;检索优化;概念网络;概念相似度;概念扩展;系统设计

0 引言

文献检索系统能够根据用户信息需求,快速定位文献,提高文献获取效率,因此伴随着文献数量量爆发式增长,文献检索系统的重要性不断提高。文献检索系统的是基于关键词进行检索的,一个常规的检索流程是:用户首先将检索需求转化为为一组关键词输入检索系统;接着信息检索系统将输入的关键词组与文献集合里的每一篇文献进行相关度计算;最后检索系统按照每篇文献的相关度由高到低排序,返回检索结果。在这个流程中,文献需求到关键词的转化至关重要,这决定了检索结果能否覆盖到检索需求。从检索需求中提取的关键词往往只有其外在的表现形式,而非全部概念,因此,本文在传统的文献检索的基础上,引入概念扩展功能,通过多次和用户交互,帮助用户提炼检索需求中的概念,丰富关键词组,进而提高检索效果。

1 体系结构

基于概念扩展的文献检索系统主要由文献采集代理、检索引擎、概念引擎这三部分构成,如图1所示。其工作思想主要是:文献采集代理对文献服务器中的文献进行自动采集和内容获取,将获取的内容发送到检索引擎,由检索引擎的索引模块完成对内容的分析和索引;对于用户的检索请求,将同时由检索引擎和概念引擎进行处理,检索引擎将根据用户输入的关键词,按照相关度排序返回检索到的文献,而概念引擎将根据关键词,从概念库中查询出相关的概念,反馈给用户,使用户能够以这些概念作为关键词再次查询,从而进一步满足用户的检索需求。

图1 基于概念扩展的文献检索系统体系结构图

2 概念扩展[1]

概念扩展是通过将关键词和概念库中的概念进行概念匹配实现的,因此概念库是实现概念扩展的基础。在基于概念扩展的文献检索系统中,概念库的实现形式是概念网络。

2.1概念网络构建

概念网络是一个带标识的有向图,其中节点表示概念,有向边表示概念之间的关系概念与概念之间的关系一共有三种:子类、实例、属性。本文选用军事领域来构建概念网络,如图2所示:枪具有扳机、枪管、枪托这几个属性;自动步枪、手枪是枪的子类;自动步枪有AK47、M4,手枪有54式这些实例。

图2 枪械概念网络示意图

构建领域的概念网络是一个复杂的工作,通常需要有检验的领域专家利用专门的工具进行构建。在基于概念扩展的文献检索系统中,利用在线百科网页这一知识来源实现了自动化构建概念网络。本文选取的百科网页是百度百科,百度百科的知识具有权威性和全面性,且能够动态更新,同时,百度百科的网页结构清晰,方便概念和概念间关系的抽取。概念网络的自动构建流程如下:网页获取和预处理、概念抽取、概念关系抽取、形式化表示,生成概念网络,其体系结构如图3所示。

2.2概念网络形似度计算

基于构建完成的概念网络,概念引擎通过计算关键词和概念库中概念的相似度,完成对关键词的概念扩展。概念间的相似度有严格的数学定义[2]:

用sim(x,y)表示两个概念x、y之间的相似度值,形式上,相似度计算应当满足以下条件:

(1)语义相似度的值为[0,1]区间中的一个实数,即sim(x,y)∈[0,1];

(2)如果两个概念对象是完全相似的,则语义相似度值为1,即sim(x,y)=1时当且仅当x=y;

(3)如果两个概念对象之间没有任何共同特征或者概念对象之间相互独立,那么其语义相似度值为0,即sim(x,y)=0;

(4)相似关系满足对称性,即sim(x,y)=sim(y,x)。

图3 概念网络的自动构建流程

在计算概念相似度时,综合考虑计算代价和实际应用效果,本文采用了基于权重的最短路径法[3]进行计算。该算法是一种基于距离的语义相似度计算方法,它扩展了最短路径法[4],考虑了概念的位置信息(所在深度和所处区域的密度)和边所表征的关联强度,通过将组成两个概念词连通路径的各个边的权值相加,而不是简单统计两个概念词间边的数量,来计算两个概念词的距离。基于权重的概念相似度计算方法如式(1)所示:

其中,N1和N2分别表示概念x,y与最近公共父节点概念c之间的距离,H表示c到根节点的最短距离。

2.3概念扩展

用户在进行关键词检索时,检索引擎会根据关键词对文献库中的文献进行相似度分析,反馈给用户最相似的若干文献;同时概念引擎会通过2.2中算法根据计算出的相似度值从高到低对与关键词相似的概念进行排序并反馈给用户。例如关键词是“枪”,系统会在文献库中检索与枪相关的文献,并进行相似度计算和排序;同时,根据关键词计算最相似的概念并取前5个,用户将得到关键词扩展的概念分别为“步枪”、“手枪”、“自动步枪”、“AK47”,和“M4”,用户能够利用这些概念进一步提炼自己的检索需求,经过多次迭代交互,最终找到自己所需要的文献。

3 结语

本文对基于概念扩展的文献检索系统的设计和实现进行简单介绍。针对特定的领域,该系统以百科网页为数据源,采用自动化的方式构建了概念网络库。基于概念网络库,该系统以概念扩展的方式,在用户利用关键词检索的同时,通过将相似概念反馈给用户,最大程度的帮助用户提炼自己的检索需求,提高用户的检索体验。

[1]李蕾.基于语义网络的概念检索研究与实现[J]1情报学报,2000(5):525-5311.

[2]韩欣,秦帆.基于概念语义树的语义相似度计算方法研究[J].Computer Knowledge and Technology.June 2011:3809-3810.

[3]Wu Z,Palmer M.Verb Semantics and Lexical Selection[C].In:Proceedings of the 32nd Annual Meeting of the Associations for Computational Linguistics,1994:133-138.

[4]An Information-Theoretic Definition of Similarity[EB/OL].[2007-12-20].http://www.cs.ualberta.ca/lindek/papers/sim.pdf

Literature Retrieval;Retrieval Optimization;Concept Network;Concept Similarity;Concept Extension;System Design

Design and Implementation of a Literature Retrieval System Based on Concept Extension

DING Quan-xun,DAI Zhe-ming,JIANG Xin
(The 32nd Research Institute of China Electronics Technology Group Corporation,Shanghai 200233)

1007-1423(2015)28-0052-03

10.3969/j.issn.1007-1423.2015.28.013

丁泉勋,戴哲明,姜鑫

(中国电子科技集团公司第三十二研究所,上海200233)

丁泉勋(1987-),男,江苏泰州人,工程师,研究方向为智能信息检索

戴哲明(1978-),男,浙江富阳人,硕士,高级工程师,研究方向为软件工程

姜鑫(1987-),男,江苏淮安人,硕士,工程师,研究方向为信息检索

2015-09-08

2015-09-22

在文献检索系统中,检索需求通过关键词来描述,关键词对检索需求的覆盖程度决定了检索结果能否满足检索需求。为了改善检索需求的提炼过程,提高关键词对检索需求的覆盖程度,描述一种基于概念扩展的文献检索系统的设计与实现。与传统的文献检索系统相比,该系统具备关键词概念扩展的能力,该系统能够基于百科网页自动构建概念网络,通过概念相似度计算从概念网络中选择与关键词最相近的概念进行关键词的概念扩展,以此来改善检索需求的提炼、提高对检索需求的覆盖,从而达到优化检索体验的目的。

In the literature retrieval system,the retrieval requirement is described by keyword,and the coverage of the retrieval requirement will de-termine whether the retrieval results can meet the needs of the search.In order to improve the extraction process and the coverage of re-trieval requirement,designs and implements a literature retrieval system based on concept extension.Compared with the traditional litera-ture retrieval system,the system has the ability to expand the keywords by using concept network.Aiming to improve the extraction pro-cess,the coverage of retrieval requirement as well as optimizing retrieval experience,the system can automatically construct the concept network based on the encyclopedias web page,extends keywords by selecting the concepts from concept network which are the most simi-lar to the keywords.

猜你喜欢
百科引擎检索
新海珠,新引擎,新活力!
乐乐“画”百科
三生 三大引擎齐发力
蓝谷: “涉蓝”新引擎
专利检索中“语义”的表现
探索百科
超有趣的互动百科
国际标准检索
国际标准检索
One Engine Left只剩下一个引擎