张兰芳 年梅 李芳
摘 要: 借助计算机和因特网,信息查询进入了快速发展的网络化联机检索阶段,搜索引擎的出现更是将信息查询推向了智能化发展时代。文章以信息查询发展为主线,分类总结了关键词查询扩展和概念语义查询扩展的发展过程,并对支撑概念语义查询扩展的概念语义结构和大规模语料库的发展情况做了详细的阐述,为概念语义查询扩展方向的研究做了一些基础工作。
关键词: 信息检索; 查询扩展; 概念语义; 语料库
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2015)11-08-04
Abstract: With the aid of the computer and the Internet, information query entered the rapid development of online retrieval stage, and the occurrences of search engines push the information inquiry into the era of intelligent development. This paper mainly summarizes the development process of keyword query expansion and concept semantic query expansion. The paper described the development of concept semantic structure and large-scale corpus which supported concept semantic query expansion in detail. It has done some basic work for the research of semantic query expansion direction.
Key words: information retrieval; query expansion; semantic concept; corpus
0 引言
信息查询是在储存信息的仓库中比较和选择符合查询者需求的信息标识。它隶属于图书情报学,自从有了人类就有了信息查找的历史。伴随着经济、文化、社会的快速发展,二十世纪五十年代信息查询从手工方式进入到计算机检索时代。经历了脱机、联机检索后,信息查询进入了快速发展的网络化联机检索阶段。因特网将全球的信息资源联接起来成为世界上最大的信息仓库,www搜索引擎将搜索范围从文本扩大到网页、图片、音视频等多种文件。信息检索技术大力促进了信息资源的相互利用和科技进步,它是一门交叉、复合型的学科,主要包括数据库管理(Database Management)、机器学习(Machine Learning)、人工智能(Artificial Intelligence)、自然语言处理(Natural Language Processing)等学科知识[1]。
1 查询扩展
人们在查询问题时所输入的查询关键词往往会有很多种不同的表达方式,很多时候同一个概念在不同情况下会表示不同的意思,或不同的概念在特定的情况下会表示相同的意思。由于这种表达方式的不同会导致与查询关键词相关的文档不能被检索出来,降低检索系统的查全率和查准率。基于这种原因,查询扩展技术应运而生。
查询扩展技术是利用多种学科知识将与初始查询相关的术语添加到原查询中组成新的意义更加全面准确的查询序列,降低自然语言的模糊性和查询歧义性,提高了检索结果的查全率和查准率[2]。
目前,按照扩展词的来源不同主要有基于全局分析、基于局部分析、基于关联规则、基于用户查询日志和基于概念语义的查询扩展技术。
1.1 关键词查询扩展
全局分析是较早出现的较实用的查询扩展方法。1971年,Spacrk Jones首次提出了词的聚类算法,试图通过对全局词语的共现来对词进行聚类,并用聚类对查询进行扩展,Rocchio利用向量空间模型,使用相关反馈算法并应用于SMART系统[3],获得较好的检索效果。1976年,Spark Jones与Robertson提出了概率模型[3],其关键是计算每个查询词在相关文档和不相文档中的分布状况。二十世纪八十年代末,S.T.Dumais、M.W.Berry等人基于VSM理论框架,提出了潜在语义索引(Latent Semantic Indexing,LSI)的信息检索模型,它是经典向量空间模型的一种改进,其关键是索引项-文档矩阵的奇异值分解计算[4]。
早在1965年Rocchio提出了相关反馈法[5],这是一种加入用户判断提高检索效果的查询扩展技术。1977年Atter和Fraenkel首次提出了局部分析的重要思想[6]。目前较流行的局部分析方法主要是局部反馈(local feedback),也称伪相关反馈(pseudo feedback),是在相关反馈(relevance feedback)的基础上发展起来的[7-8]。该方法主要利用查询时返回的top-N支持文档来扩展原始查询语句。但是这些查询扩展方法的效果并不稳定。Xu和Croft又提出了局部上下文分析方法(Local Context Analysis,LSA),这是一种将全局分析中的Phrasefinder技术应用到局部分析的折中方法,但是这种方法仍然高度依赖于初次检索结果,有可能会将大量与查询无关的词加入新查询序列而导致检索精度降低。
综合以上这几种查询扩展方法,全局分析的优势是可以最大限度地探求词间关系,并在叙词表建立之后可以高效地进行查询扩展,但是在文档集合非常大时,建立、维护全局的词间关系叙词表就会消耗大量的时间和空间。局部分析查询扩展技术中,目前较流行的是局部反馈,它是在相关反馈的基础上发展起来的[9-10]。相关反馈根据用户对首次检索结果的判断选取扩展词进行二次查询,局部反馈解决了相关反馈必须与用户进行交互的问题,它将首次查询的Top-N文档作为相关文档,以此为依据进行查询扩展,所以我们也把它称为伪相关反馈查询扩展,但是这种查询扩展中Top-N文档的选取容易引起初始查询的漂移,其查询效果并不稳定。
随着自然语言处理、文本挖掘、知识表示及推理等研究工作的推进,学者们在传统方法的基础上对查询扩展做了更进一步的研究和改进,提出了新的查询扩展方法。如:Yahia和Jaoua在2001年[11]提出了基于关联规则挖掘的查询扩展研究,崔航、文继荣等人在2003年提出的基于用户查询日志的查询扩展研究[12],His-Ching Lin的基于模糊规则和用户反馈的查询扩展研究[13]。
1.2 概念语义查询扩展
概念语义查询扩展是在概念语义空间或大规模语料库的基础上对原查询进行扩展的查询技术[14]。
目前,基于概念语义的查询扩展检索研究正逐渐成为信息检索领域的研究热点。国外较著名的项目有Swoogle、KIM平台、FINDUR系统, Swoogle借助Google等通用搜索引擎为其搜索博客、新闻种子、数字图书馆、版权元数据、软件配置和词典(如WordNet)等语义数据,其目的是推动语义网数据的获取[15]。国内中科院计算所诸葛海等提出的知识网络通过采用新的计算模式和新的资源组织与管理模型,能有效地辅助用户进行资源的查询、获取和共享等工作[16]。董振东先生公开的中文知识库《知网》为构建领域本体与领域知识做好了基础支撑工作。
概念语义查询扩展的方法主要分为两类,一类是基于概念语义关系/概念语义结构的方法,另一类是基于大规模语料库的方法[5]。目前,学者们主要是根据概念间的各种关系,利用一定的技术,构建概念知识库、概念语义网络、概念语义词典或概念语义树等概念语义空间,把原查询看作一系列的概念(而不是一系列字符串),从建好的概念语义结构中提取查询语义及语义关联关系,实现语义概念扩展[5]。
2 概念语义结构
概念自身及其相互关系的结构化描述,称为概念语义结构,也有学者称其为概念空间(Concept Space)。概念语义结构分为通用型和领域相关型。通用型的概念结构应用面广,但构造困难;领域相关型的概念结构专用性强,构造相对容易。概念语义结构的建立通常依靠手工方式,也可以借助机器学习机制自动生成[17]。
目前,概念语义结构的表现形式主要有概念分类树(概念描述的分层组织结构)、领域本体(ontology)、叙词表(Thesaurus)、概念语义网络[17]。
2.1 概念分类树
概念分类树是一种形式比较简单的概念结构,它只根据“上、下位”关系对概念进行层次化组织。分类树体系中每一个概念只和它的最小上位(父亲节点),以及它的最大下位(儿子节点)相连。通常,概念分类树的建立是通过决定每一个概念在这个体系中的位置来手工实现。概念分类树也可以通过使用特殊的概念标引技术自动构建,如Woods等人在Sun Microsystems所做的一项工作[18]。
2.2 领域本体(Ontology)
本体是反映领域内概念及概念关系的集合,关系本身也可以看作是概念,用以反映概念间的约束和联系[19]。从形式上讲,本体是领域内概念种类及其关系的词汇表,它以精确的形式语言、句法和明确的定义来阐述概念关系,从而形式化为领域内各种事物之间交换信息的共同语言,它的目的是精确地表示那些隐含的信息,使得它们可以被软件系统重用和共享[20]。1998年Studer提出“本体是共享概念模型的明确形式化规范说明”[20],它包括概念模型(Conceptualization)、明确(Explicit)、形式化(Format)、共享(Share)四个方面[20]。
2.3 叙词表(Thesaurus)
叙词表指词库(Treasury of Words)的引用[21],又称主题词表,它是一种语义词典,由术语及术语之间的各种关系组成,能反映某学科领域的语义相关概念[17]。叙词表可以引导用户在结构化的受控词表中选择规范的相关词语即标引词,来表达自己想要查询的内容,方便用户更好的利用那些和他相关的词语的基本语义[17]。叙词表使用受控词表(Controlled Vocabulary)标引文本和检索,对概念标引的规范化、噪声去除、标引词的语义理解、概念层面的检索等方面都非常有用[17]。由于有大量的专业术语,所以叙词表在专业领域的文献标引和检索中具有非常重要的意义。
2.4 概念语义网络
第一个在计算机上模拟实现语义网络的学者是Robert F. Simmons,他基于LISP概念词典生成了第一个语义网络计算机程序,是WordNet、Protégé类型的领域知识系统的先驱[22]。后来,Shapiro 和Sowa等人在计算机系统上实现了具有实用价值的语义网络系统,正式确立了语义网络作为计算机科学一个独立分支的地位[22]。
目前,基于概念语义网络的查询扩展正在成为信息检索的主要手段。国外的概念语义网研究主要有:普林斯顿大学的学者们设计出的基于认知语言学的英语词典WordNet[23],它是一个覆盖范围宽广的英语词汇语义网,也称“单词的网络”;斯坦福大学提出的Protégé[24]可以构建管理概念层级,继承序列和概念属性,并提供属性取值范围约束,一致性验证的查询搜索等功能;HP提出的Jena是一个基于Java的开源项目,提供了面向RDF和OWL的API,并提供了推理子系统和SPARQL查询子系统,能提供开放推理机接口框架[22];Open Source提出的Semantic Media Wiki让用户在输入词条释文时可以通过特殊的标记输入词条之间的语义关系[22];斯担福大学的Infomap search engine,通过选用不同的训练语料,测试生成的概念语义网络对查询效果的影响,并在此基础上,利用医学相关语料和双语词典生成一个概念网络,建立医学文档检索的示范应用[25],还有W3C提出的Semantic Web等研究项目。
国内较典型的相关研究有:中科院计算机语言信息中心董振东先生提出的知网(HowNet),它是一个以汉语和英语的词语所代表的概念为描述对象,揭示概念与概念之间及概念所具有的属性之间的基本内容的常识知识库[26];哈工大梅家驹等人编纂的《同义词词林》包含了一个词语的同义词和一定数量的同类词即广义的相关词,《哈工大信息检索研究室同义词词林扩展版》扩展了《同义词词林》,使其含有更加丰富的语义信息;中国科学院计算技术研究所用共现分析以及hopfield网络概念空间,实现了基于概念空间的扩展检索[27];北京邮电大学针对计算机及其应用领域,手工创建了一个含有500多个概念节点,包括一个分类体系和近300种概念相关关系的语义网络,初步实现了特定领域的概念检索[28];中国科学技术大学和中国科学院计算技术研究所联合研究开发的基于概念语义空间的联想检索系统,通过共现分析建立概念语义空间,并借助于大型语义词典《知网》,为用户提供了一个智能检索接口[29];上海交大对Semantic Media Wiki进行了扩展提出了EachWiki,利用AJAX技术实现识别链接,提供链接推荐、分类推荐、属性推荐等编辑辅助功能,进一步帮助作者创作内容[30]。
3 大规模语料库
基于大规模语料库的查询扩展是目前大数据时代的研究热点,因特网就是一个庞大的语料库,在这个真实的语料库中,利用数据挖掘、人工智能、自然语言处理等技术结合用户的查询意图能采集到符合用户需求的信息,还可以利用因特网构建各种主题的专业语料库,为查询扩展提供更精准的检索服务。
在国外,语料库的研究和建设始于二十世纪七十年代,主要有Brown、LOB、COBUILD、LONGMAN、BNC、ICE等[31]。汉语语料库的建设开始于八十年代,现有的大规模语料库有国家现代汉语语料库[32]、台湾中研院平衡语料库[33]、中港台汉语语料库[34]、北京大学和富士通公司共同制作的《人民日报》语料库[35]等。语料库的建设分为语料的收集、预处理、标注规范的制定、质量监控等方面。一般采用的方法是花费大量的人力、物力和财力,集中专业人员搜集、整理和加工语料,最终构建成熟语料库。目前在语料库的内容、表达方式、组织结构和具体应用方面已经有了较好的研究成果[36-37],但是在高效建设大规模语料库方面的研究还有待进一步提高。现在的研究主要集中在半自动化语料库的构建方面,大多需要人工参与,自动化水平较低。利用因特网构建大规模语库是目前研究的发展趋势,主要研究思路是构建一个基于网络的信息处理平台为语料库建设提供计算和存储能力,利于网络技术使用多台计算机从Web网页上快速获取大量的生语料,结合自然语言处理技术对生语料进行预处理,转化成熟语料,同时为用户提供语料的访问[38]。
4 结束语
基于网络的信息检索服务为人们提供了有用的平台,在此平台上利用已构建概念语义结构和大规模语料库可以为人们提供更全面、贴心、多元的查询及推荐服务。如何高效利用网络大数据提供的信息开展语义扩展查询需要数据挖掘、人工智能、网络技术、机器学习、自然语言处理等多学科知识的综合支撑,这将是信息检索领域未来长期挑战的课题。
参考文献(References):
[1] 杨海南.基于语义词典和局部分析的查询扩展研究[D].武汉
理工大学硕士学位论文,2010.11:5-15
[2] 黄名选,严小卫,张师超.查询扩展技术进展与展望[J].计算机
应用与研究,2007.24(11):1-4
[3] S. E. Roberton and K. Spark Jones. Relevance weighting
of search terms. Journal of the American Society for Information Sciences,1976.27(3):129-146
[4] 李新友.信息检索中的查询扩展技术研究[D].广西师范大学
硕士学位论文,2010.4:16-25
[5] 黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相
关反馈查询扩展[J].软件学报,2009.20(7):1854-1865
[6] Attar R, Fraenkel AS. Local feedback in full-text retrieval
systems. Journal of the ACM,1977.24(3):397-417
[7] Buckley C, Salton G, Allan J, Singhal A. Automatic query
expansion using SMART. Technical Report, TREC-3,1995:69-80
[8] Ricardo B-Y, Berthier R-N. Modern Information
Retrieval. England: Pearson Education Limited,1999.
[9] Buckley C, Salton G, Allan J, Singhal A. Automatic query
expansion using SMART. Technical Report, TREC-3,1995:69-80
[10] Ricardo B-Y, Berthier R-N. Modern Information
Retrieval. England: Pearson Education Limited,1999.
[11] Yahia SBen, Jaoua A.Discovering knowledge from fuzzy
concept lattice[J]. Studies in Fuzziness and soft computing, Physica Verlay, Heidel-berg,2005.3(68):167-190
[12] 崔航,文继荣,李敏强.基于用户日志的查询扩展统计模型[J].
软件学报,2003.14(9):1594-1599
[13] Hsi-Ching Lin, Li-Hui Wang, Shyi-Ming Chen. Query
expansion for document retrieval Based on fuzzy rules and user relevance feedback techniques. In ExPert Systems with Applications 31,2006:397-405
[14] 王磊,黄广君.结合概念语义空间的语义扩展技术研究[J].计
算机工程与应用,2012.48(35):106-109
[15] 胡川洌.基于本体的教学资源语义检索研究[D].重庆大学,
201:1-2
[16] Zhuge H. The knowledge grid[M]. New Jersey: World
Scientific Publishing,2004.
[17] 胡熠.面向信息检索的文本内容分析[D]博士学位论文,上海
交通大学,2007.11
[18] Woods, W.A., "Conceptual Indexing : a better way to
organize knowledge." Technical Report SMLI TR-97-
61, Sun Microsystems Laboratories, MountainView,CA,April.1997.
[19] 罗建利.基于用户兴趣模型的概念查询扩展研究[D].扬州大
学,2005.
[20] R. Studer, V.R. Benjamins and D.Fensel. Knowledge
engineering:Principles and methods[J]. Data&Knowledge Engineering,1998.25:161-197
[21] D.J.Foskett. Thesaurus. "Readings in Information Retrieval".
Morgan Kaufmann Publishers,Inc,1997:111-134
[22] 代唐印.基于语义网络的知识协作关键技术研究[D].复旦大
学博士学位论文,2009.4
[23] WordNet:[EB/OL]. http:// wordnet.Princeton.edu
[24] The Protégé Ontology Editor and Knowledge
Acquisition System[EB/OL].http://protégé.stanford.edu/
[25] Information mapping project[EB/OL].(2003).[2013-
06-01].http://www-csli.stanford.edu/semlab/infomap.html.
[26] 董振东,董强.知网[OL].http://www.keenage.com,2013.12
[27] 郑毅,吴斌,史忠植.基于概念空间的文本检索系统[J].计算
机工程与应用,2002.38(12):67-69
[28] 李蕾,王楠,钟义信.基于语义网络的概念检索研究与实现[J].
情报学报,2000,19(5):525-531
[29] 李源,何清,史忠植.基于概念语义空间的联想检索[J].北京
科技大学学报,2001.23(6):577-580
[30] Huajie Zhang, LinYun Fu, Haofen Wang, Haiping Zhu,
Yang Wang, and Yong Yu, EachWiki: Suggest to Be an Easy-To_Edit Wiki Interface for Everyone, Semantic Web Challenge,2007.
[31] Graeme K. An Introduction to Corpus Linguistics[M].外语
教学与研究出版社,2000:84
[32] 刘连元.现代汉语语料库研制[J].语言文字应用,1996.3:
2-9
[33] http://www.sinica.edu.tw/SinicaCorpus/ [DB/OL].
[34] 胡百华,李行得,汤志祥.香港的语料库和相关研究概况[J].
语言文字应用,1997.2:49-54
[35] http://www. icl. pku. edu. cn/icl_groups/ corpustagging.
asp [DB/OL].
[36] Cohn J M, Garrod D J, Rutenbar R A, et al. Analog
Device-level Layout Automation[M]. Boston, USA: Kluwer Academic Publishers,1994.
[37] Lampaert K, Gielen G, Sansen W. Analog Layout
Generation for Performance and Manufacturability[M]. Boston, USA: Kluwer Academic Publishers,1999.
[38] 李培峰,朱巧明,钱培德.基于Web的大规模语料库的构建[J].
计算机工程,2008.34(7):41-46