司莉 贾欢
摘 要 论文探讨了跨语言信息检索中语义关联的5种方法技术,包括同义及近义关系推荐、概念中间语言、非翻译方法、术语抽取技术、多语本体,并探究各种方法技术的适用性。以上方法技术通过实现查询词与检索文档在概念层次上的匹配,实现跨语言信息检索中的语义关联,为后期跨语言信息检索系统构建中的语义关联实现提供借鉴。
关键词 跨语言信息检索 语义关联 本体 主题图
分类号 G254.90
DOI 10.16810/j.cnki.1672-514X.2016.06.010
Abstract This paper discusses 5 kinds of methods and techniques about cross-language information retrieval, including synonymous relationship recommendation, concept of intermediate language, untranslated method, term extraction technology, and multilingual ontology. Their applicabilities are also explored. These methods and techniques can implement semantic relevance in cross-language information retrieval by matching queries and retrieve documents on the conceptual level, so as to provide reference for semantic association implementation in cross language information retrieval system.
Keywords Cross-language information retrieval. Semantic association. Ontology. Topic maps.
0 引言
语义关联是语义数据模型中实体之间二维关系的知识表示形式,即实体之间的复杂关系[1]。互联网用户与信息资源的多语言化、互联网信息资源的语义化是目前互联网发展的明显趋势[2]。用户使用母语或熟悉的语言检索出不同语种相关信息的跨语言信息检索应运而生。在语义关联方面,传统的信息检索多使用查询词与文档相匹配方法检索用户所需结果,因用户使用查询词相对自由,以及语言中存在一词多义、一义多词等现象,使得此种字符级匹配的检索方法容易漏检或检出冗余信息。“世界科学跨语言检索平台WorldWideScience”[3]虽能够实现多语言信息检索功能,但其仍是通过检索式与文献之间的关键词匹配完成检索,语义关联体现仍不充分。通过语义关联便于系统理解用户的检索用途,有助于用户快速定位并利用相关知识,提高信息的检索效率。本文主要从方法和技术角度出发,探讨跨语言信息检索中的语义关联的实现。
1 跨语言信息检索中的语义关联方法及技术
当前,实现跨语言信息检索中语义关联的方法和技术主要有同义及近义关系推荐、概念中间语言、非翻译方法、术语抽取技术、多语本体。
1.1 同义及近义关系推荐
同义及近义关系推荐方法能帮助用户扩展与提问式有语义关系的同义词及近义词,提高查全率。如在跨语言信息检索中常用的语言转换策略——提问式检索中,先将源语言的提问式翻译为目标语言,再在目标语言文档中进行检索,返回给用户的检索结果是目标语言。在提问式检索中,用户输入的检索词较短,可能会遗漏相同意义或相近意义的关键词,导致查全率不高。系统后台可将多语种的同义词或近义词关联起来,如以英汉对齐词典为知识库、以等值翻译词对为知识表示形式,对中文术语和英文翻译进行双向推导(利用多部英汉翻译词典,首先选择中文术语C作为入口词,推导出C的英语翻译为E,再将E翻译成中文C1,完成第一次同义推导;之后将C1翻译成英文E1,再将E1翻译为中文C2,完成第二次推导),统计中文词的出现频率,对C2的权值进行统计,计算出C1的权值,按权值的高低排序,推算出C的同义词C1[4],再将同义词翻译为目标语言进行查询,具体步骤如图1所示。
1.2 概念中间语言
概念中间语言有助于不同语种之间的映射,从而实现不同语种词汇之间的语义关联。其主要用于不能直接进行翻译的语种。一般选择应用广泛的英语作为概念中间语言。概念中间语言能确保各种语言的文献和提问式在概念层次进行匹配[5]。在此,以Cindor为例说明使用概念中间语言实现跨语言概念匹配的过程。Cindor系统支持英语、法语、西班牙语、德语、意大利语、日语6种语言。将每个概念用一个同义词群synset来表示,将其他语言的词汇链接到表示他们所表达的概念对应的synset编号上,方便概念之间的匹配,如若法语为母语,选择法语检索词“F”,系统将“F”与中间语言英语进行匹配,找到对应的英文词汇“E”,“E”的编号为“N”,之后可以检索出编号为“N”的其他语种词汇,再在各个目标文档中进行检索,返回相关信息,完成跨语言信息检索[6]。如图2所示。
1.3 非翻译方法
非翻译方法是指不对查询语言或目标语言进行翻译就能实现跨语言信息检索。基于偏最小二乘理论的中间语义的跨语言信息检索方法就是一种非翻译方法[7]。其不对查询或者目标文献进行翻译,而是通过建立两种语言的平行语料库,将两种语言都投影到一个更小的语义空间,并建立好对应的中间语义对,实现语义关联,此种方法避免了对查询语言或目标语言进行翻译过程中导致的语义偏离。针对两种以上的语言,亦可通过这种方法实现多语言之间的跨语言信息检索,如构建中法跨语言信息检索模型,其实现过程是在中英平行语料库和蒙特利尔大学提供的英法平行语料库基础上,先对双语语料库的文档进行分析建模,建立了中英、英法跨语言信息检索模型,并利用英语作为过渡语言,实现了中法跨语言信息检索模型的构建[8]。
1.4 术语抽取技术
多语术语抽取可实现不同语种概念之间的匹配,实现跨语言信息检索中的语义关联。目前,可通过构建语料库实现双语术语抽取。语料库是指由大量经过整理的文本形成的具有既定格式与标记的文本集[7]。基于语料库的方法主要为基于平行语料库和可比语料库两种方法[2]。第一种,利用平行语料库进行双语核心术语抽取。将专业领域文档的关键词作为候选核心术语,利用中文和英文的专业领域分类语料,通过关键词抽取、术语度计算等关键技术,分别进行中文和英文的核心术语的识别;接着,以中英文专业领域平行语料为基础,利用双语对齐技术,自动生成中英文对照的双语核心术语列表,实现中英双语核心术语对的抽取[9]。第二种,利用可比语料库抽取中英双语术语对,在给定的主题领域下,选取中英文专业语料,从中分别获取中英文关键词,根据词语共现统计获取该主题领域的其他相关关键词;以这些关键词作为查询入口,通过学术搜索引擎从网络获取候选可比语料;对可比语料进行定量评估,以剔除不符合要求的语料,最终得到特定主题领域的可比语料库,实现中英双语术语对的抽取[10]。
1.5 多语本体
本体能够很好地描述概念的内涵及概念间关系,具有良好的概念层次结构和对逻辑推理的支持。多语本体是本体在不同语种中的具体表现形式,利用多语本体构建领域知识,能减少不同语言转换过程中的语义损失和曲解[11]。在多语本体库构建中,引入了同义词规范,使各语种的概念之间能够相互对照[12]。多语本体将源语言与目标语言的对应实例统一在本体概念下,当用户用源语言输入一个查询式,系统在源语言本体库中找到其对应的概念,然后映射到目标语言本体库,找出对应的实例反馈给用户。在此过程中,对查询表达和检索对象进行语义标注是利用多语本体实现语义关联的重要环节[6]。以下是使用查询表达和检索对象进行语义标注的过程。(1)在查询表达的语义标注中,采用遍历的方法,将查询用词与源语言本体库中对应的本体术语以及相关的概念术语建立映射,再通过源语言本体库与目标语言本体库已建立的概念映射关系,最终将查询用词转换为目标语言概念术语。(2)在检索对象的语义标注中,从目标文档中抽取特征词汇,根据词汇的统计词频或者文档创建者赋予的标志,为每个特征词赋权值,以表示它们在检索中的重要程度。通过本体库的查询,查看本体中的每个术语的每一种语义,看其是否存在于已抽取出的特征词汇中,从而把文档(带有权值信息)作为该领域本体的一个实例与领域本体关联起来。
此外,主题图属于一种简单的本体,在揭示语词概念之间的语义关系和多语言支持方面具有优越性[13]。它是一种用于描述信息资源知识结构的元数据格式,可以定位某一知识概念所在的资源位置,也可以表示知识概念间的相互联系。主题图克服了简单字符级匹配的缺陷,能够实现语义检索。主要由主题、资源实体及关联性三部分组成[14]。夏立新和王忠义提出基于主题图的跨语言检索模型[13],其实现语义关联的过程为:先通过分别提取中文信息资源和英文信息资源中的元数据,在主题图模板和规则文档的支持下生成中文主题图和英文主题图,将中文主题图翻译为汉英双语主题图,将汉英双语主题图与中文主题图合并,对合并后的主题图中未经翻译的汉语主题进行翻译,最终生成综合的汉英双语主题图,实现使用中文或英文任一语种的提问式检索,均可获得两种语言的相关信息。
2 语义关联方法技术的适用性
笔者对实现跨语言信息检索中语义关联的5种方法和技术的适用性进行了分析,如表1所示。
在跨语言信息检索语义关联实现的过程中,以上方法和技术并非完全独立,可互相结合或与其他技术结合使用。如可考虑将概念中间语言与本体技术、非翻译方法与平行语料库、术语抽取技术与词共现技术相结合实现跨语言信息检索中的语义关联。(1)将概念中间语言与本体技术相结合。基于本体的跨语言信息检索的关键技术是多语本体库的相互映射,映射的关键在于利用中间语言来规范多语本体库中的概念,使源语言与目标语言内涵表达一致,并根据含义建立多语映射。如Cindor系统采用中间语言翻译技术来实现跨语言检索,以多语本体作为其跨语言转化的核心机制[5]。(2)非翻译方法与平行语料库相结合。基于偏最小二乘理论的中间语义的跨语言信息检索属于非翻译方法,其是通过建立好的中英文平行语料库,将两种语言都投影到一个更小的语义空间中,并建立好对应的中间语义对。利用对应的中间语义对,在这个中间语义空间中计算查询和文档直接的相似度,实现CLIR。(3)术语抽取技术与词共现技术相结合。在使用可比语料库进行双语术语对抽取时,需要使用到词语共现技术,用于获取领域内相关的关键词。
3 结语
本文探讨了跨语言信息检索中语义关联的方法和技术,以及这些方法技术的适用性。主要包括如下5种方法技术:同义及近义关系推荐、概念中间语言、非翻译方法、术语抽取技术、多语本体。同义及近义关系推荐方法能帮助用户扩展与提问式有语义关系的同义词及近义词;概念中间语言通过选择英语作为中间语言完成不同语种之间的映射,实现不同语种词汇之间的语义关联;非翻译方法(指基于偏最小二乘理论的中间语义的跨语言信息检索方法)通过建立各语言的平行语料库,将各语言都投影到一个更小的语义空间,并建立好对应的中间语义对,实现语义关联;多语术语抽取通过平行语料库与可比语料库抽取不同语种的核心术语对;多语本体将源语言查询词映射到源语言本体中,再通过源语言本体与目标语言本体的映射关系,查找出与查询词对应的目标语言概念。以上方法技术不局限于传统检索中字符级的匹配,而是提升到概念匹配的层次,将这些方法技术应用到跨语言信息检索系统中,能更好地实现跨语言信息检索中的语义关联。
参考文献:
[ 1 ] 郑清照.基于Linked Open Data的语义关联发现及其应用[D].杭州:浙江大学,2010.
[ 2 ] 章成志,王惠临.面向数字图书馆应用的多语言领域本体学习研究[J].图书情报工作,2011,55(2):11-15,94.
[ 3 ] World Wide Science[EB/OL].[2015-01-15].http://wo-
rldwidescience.org/.
[ 4 ] 宋培彦,李静静,赵星.跨语言术语同义关系推荐方法及其实证[J].现代图书情报技术,2013(5):40-45.
[ 5 ] 吴丹.本体驱动的跨语言信息检索研究[J].现代图书情报技术,2006(5):22-26,85.
[ 6 ] 吴丹,王惠临.本体在跨语言信息检索中的应用机制研究[J].图书情报工作,2006,50(9):10-13.
[ 7 ] 黄国斌,王明文,叶浩.一种新的基于中间语义的跨语言信息检索模型[J].中文信息学报,2009(2):77-82.
[ 8 ] 邹小芳.基于潜在中间语义的多语言信息检索研究[D].南昌:江西师范大学,2009.
[ 9 ] 章成志,王惠临.基于专业领域平行语料的双语核心术语抽取研究[C]//北京语言大学.中国计算机语言学研究前沿进展(2007-2009).第十届全国计算语言学学术会议,2009.358-363.
[10] 康小丽,章成志.用于双语术语抽取的专业领域中英文可比语料库构建[J].现代图书情报技术,2012(2):28-33.
[11] 郝嘉树,王惠临,刘耀.基于本体的跨语言信息检索模型和关键技术研究[J].情报科学,2009(2):271-275.
[12] 刘伟成,孙吉红.多语言本体构建及其在跨语言信息检索中的应用[J].武汉科技大学学报(社会科学版),2008,10(4):73-76,98.
[13] 夏立新,王忠义.基于主题图的英汉跨语言检索模型构建[J].图书情报工作,2008,52(11):70-74.
[14] 艾丹祥,张玉峰.利用主题图建立概念知识库[J].图书情报知识,2003(2):48-50,53.