体裁在信息检索中的应用

2012-04-29 00:44李晓昀阳小华万亚平余颖马家宇刘志明蒋辉
计算机时代 2012年5期
关键词:匹配信息检索任务

李晓昀 阳小华 万亚平 余颖 马家宇 刘志明 蒋辉

摘要: 体裁是信息检索中重要的上下文因素之一。文章阐述了体裁的含义,重点说明了数字体裁的含义、识别与描述,介绍了体裁在信息检索中的应用现状,并分析了体裁在应用中所面临的识别、标注等问题;同时指出在未来发展中,体裁作为检索目标与文档目标的表现方式之一,应独立于内容与用户当前任务进行单独匹配。为将体裁作为独立维度应用于检索系统以提高返回结果相关度,引入DCG作为评价指标。实验结果表明,该方法能有效提高检索效果。

关键词: 体裁; 信息检索; 上下文; 匹配; 任务

中图分类号:TP391.1文献标志码:A 文章编号:1006-8228(2012)05-29-03

Application of Genre in Information Retrieval

Li Xiaoyun, Yang Xiaohua, Wan Yaping, Yu Ying, Ma Jiayu, Liu Zhiming, Jiang Hui

(College of Computer Science and Technology, University of South China, Hengyang, Hunan 421001, China)

Abstract: Genre is one of the most important contextual factors in the context-driven information retrieval. The notion of genre was introduced in this paper, especially digital genre in cyber space. Expatiated current research works on the identification, description of genre, and its application in information retrieval. Furthermore, concluded some problems existed in current research, including automatic identification and annotation of genre, and proposed that genre can be used to reflect both search goal and document intent, and then serves as an unattached dimension, besides the topic dimension, to match the purpose between the information need and documents. The experimental results demonstrated the potential of genre to improve information retrieval.

Key words: genre; information retrieval; context; match; task

0 引言

中国互联网络发展状况统计报告[1]显示,超过76%的网民选择使用以搜索引擎为代表的信息检索系统搜索网络资源。近年来,如何提高信息检索质量一直是信息检索领域的研究热点。信息检索是一个复杂且多变的过程,不同上下文情境会让用户产生不同的信息需求。在过去数十年中,信息检索的发展经历了一个从以系统为中心,到以用户为中心,再到目前基于上下文检索的过程[2]。2005年信息检索领域顶级会议SIGIR专设的IRiX讨论组分析了信息检索中的各类上下文因素,2006年欧洲信息检索大会(ECIR)强调上下文是影响检索质量的关键,其他多个国际会议,如IIiX(2006至今)、Context-Based IR(CIR,2005, 2007)、Adaptive IR(AIR,2006, 2008)以及CIRSE(2009,2010)等亦专门讨论了上下文信息检索技术(Contextual IR,CIR)。 由此可见,上下文驱动的信息检索已成为目前的研究热点。

美国学者Ingwersen将信息检索中各类上下文因素归为七种[3]:文档内部特征、文档之间关系、用户与信息检索系统的交互信息、用户信息、其他用户对文档的评价、推荐等信息、当前相关社会信息及历史信息。在众多上下文因素中,体裁既能反映文档内部特征、又可作为用户对文档的标注,已成为信息检索中的重要上下文因素之一。本文对信息空间中体裁的含义、识别与描述,信息检索领域中体裁的应用现状、发展趋势与所面临的问题进行了分析,并用实验验证了体裁对于提高信息检索质量的作用。

1 体裁的含义

体裁是指在文学、电影、音乐、艺术等领域,描述作品表现形式的一种名称。例如,文学作品有诗歌、散文、小说、戏剧等体裁;电影有动作、喜剧、悬疑等体裁;音乐有轻音乐、民谣、爵士、摇滚等体裁。为便于叙述,本文将文学、电影、音乐、艺术等领域中各类作品统称为文档。

每一种体裁都有一套相对稳定的特征,能够反映出某一类文档特定的风格、内容及形式。其中,风格描述出文档的结构特征,内容表达出文档的主题,形式则指明了内容的编排方式。英国语言学家Swales[4]认为文档体裁是由一组具有共同交际目的的事件组成,交际目的则决定了该文档相应的组织结构及修辞手法。

体裁具有相对性,体裁之间无法划出一道绝对界限。如一封简报可能包含文章、社论及事件表等体裁。电影《功夫熊猫》则融入喜剧、动作、动画、冒险、家庭五种体裁元素,其中任一单一体裁都无法完全描述出该电影的体裁。

体裁的形成与当时社会环境和上下文情境相关。美国学者Yoshioka等[5]指出体裁反映的不是文档内容,而是作为上下文的一种载体来反映文档的目的、内容、人物、时间、地点、组织方式及语言特点等信息。由此可见,文档体裁所蕴含的信息远远大于内容所能表达的,这为赛博空间中数字体裁的识别与描述奠定了基础。

2 体裁的识别与描述

文档体裁的识别与描述一直是一项复杂而具有挑战性的工作。首先,体裁在很大程度上是人类思维的抽象归纳,研究者自身知识的局限性使得对体裁的认知亦受到限制。美国学者Rosso[6]指出无论是体裁的定义者还是使用者都必须具有共同的体裁认知。例如,对“食谱”这种体裁的认知就是知道食谱是描述烹饪食物的过程与方法。目前,体裁的识别主要基于文档的内容和结构特点,归纳为以下四种:①字面特点,如一些能够表达特定功能或体裁的词汇、标点符号以及句子或文档的长度等;②语言结构特点,如说话方式、短语或句子的类型等;③显示特点,即一篇文档显示的方式,如标志类型、图形元素或一些网页标签等;④其他特点,如网页集的地址特征、文档描述、关键词等。

其次,体裁与上下文情境密切相关。美国学者Crowston和Kwasnik[7]指出,同一文档的体裁在特定情境下可能不同。例如,一封信可能是人与人之间的交往方式,在法庭上可能是一份证据,在商场上可能作为一种协议,在收藏领域则可能是一件古董或是一件艺术作品。同样,用户信息需求的体裁在不同情境下亦可能不同,例如,一个大学教师在搜索与教学相关的资源时,所需文档的体裁可能是教学计划、教学日历、课件、教学笔记等。而同一教师在搜索与科研相关的资源时,则需要学术论文、研究报告、会议征文等。

再者,体裁是动态演变的,这使得全面、准确、有效地概括和描述繁杂的体裁极其困难。例如,塞万提斯在写作《唐吉可德》时,由于当时的特定历史环境,旧骑士文学无法满足读者要求,因此,他在作品中融入了传奇、小说、传记、叙事诗、悲喜剧等体裁元素。随着网络的发展,Web文档比任何一种传统类型文档更复杂,难以用某一特定体裁来界定一篇文档。英国学者Santini对网页体裁做了大量研究[8],指出网页是一类复杂、多变的文档,一个网页可能不仅限于某一简单、传统体裁,也可能是多种体裁的组合,亦可能没有体裁。针对网络环境中这些新特征,已有许多学者针对Web体裁做了大量研究。瑞典学者Ihlström和Åkesson[9]通过对网络在线报纸的分析,提出了一个四元组<内容,形式,功能,位置>来描述这种新媒介的体裁。

3 体裁在信息检索中的应用现状

信息检索领域中,用户检索目标和文档写作目标的推测一直是研究热点。在推测文档目标方面,目前的主要方法有,分析文档内部词语特征,分析作者在写作过程中对文档的编辑、修改等行为,分析文档表示模型的主题相关性,或是挖掘文档作者的隐性知识来推断作者写作目标[11]。这些研究在一定程度上改进了文档描述模型来推测文档目标,但本质上都是对文档及其相关上下文内容进行分析。事实上,文档分类要么依据内容或主题,要么依据体裁。例如,对学术文献的分类,从内容角度分为“计算机”,“语言学”,“经济学”等,从体裁角度则分为“论文”,“研究报告”,“市场调查表”等。与内容相比,文档体裁包含大量上下文信息,因此,目前有许多研究正是利用体裁来改善信息检索效果。

依据各类上下文推测出的查询目标和文档目标,主要应用在查询扩展、检索结果过滤、目标独立匹配等方面。近年来,以查询目标与文档目标直接进行匹配逐渐成为趋势。体裁天生就可用来表达文档的交际目标。Rosso[6]指出,文档体裁能表达出内容所不能、亦不会表达的信息。由此可见,体裁对于特定场景下判断文档与用户检索意图的相关性具有关键作用。2007年TGSE研讨会(Towards Genre-Enabled Search Engines)专门对利用体裁改进搜索引擎质量进行了讨论。在该研讨会上,许多研究者也使用了体裁来过滤搜索引擎返回结果。Vidulin[10]分析了使用主题查询词所获得的返回结果的准确率,又分析了既用主题查询词又用体裁来进行检索所获得的返回结果的准确率,两种方法的比较结果表明用体裁来过滤返回结果能较大提高搜索引擎查准率。Freund[2]详细分析了软件工程师的各项工作任务及所需文档体裁之间关系,并基于这种关系,针对用户当前任务对检索结果进行重新排序,结果表明利用任务与体裁的关系能有效提高查准率。

4 问题分析与发展趋势

利用体裁改善各类信息服务质量已成为信息检索领域一个重要研究方向。体裁分析不仅仅是对文档表层表现形式的分析,也是对文档深层逻辑结构的解释。在分析体裁时,既要检查文档结构中的社会与认知因素,又要揭露出实现文档交际目标及逻辑结构的特殊形式,这使得体裁分析具有一定难度。因此,虽然目前对文档体裁的相关研究已经取得一定成果,但仍然存在严峻的挑战:

⑴ 由于体裁依赖于文档内部特征,如词句、文档长度、说话方式、短语或句子类型、图形元素或网页标签等,体裁识别主要依靠人工方式进行标注[2,6,10],且要求体裁标注者与体裁使用者具有共同的与体裁相关的知识,这使得目前只能应用在特定小范围内,难以推广。Rosso[6]表明基于内容识别出体裁应用在信息检索中的效果并不理想。因此,由系统自动推理、识别文档体裁的研究已迫在眉睫。

⑵ 文档按体裁自动分类这个课题,交叉于传统修辞学与计算语言学之间, 需要有较深语言学基础及计算语言学理论功底,这使得文档体裁的自动识别具有一定难度。

信息检索系统中,与文档目标对应的是用户检索目标。然而,用户检索目标要么是隐含在检索主题中,要么是隐含在当前的工作任务中,均未能显式地以体裁的形式表示出来,这使得检索目标与文档目标的表示形式不一致,给匹配算法带来了很大困难。因此,用以体裁的形式独立地将文档目标及检索目标表达出来,独立于内容维度进行匹配,已成为当前信息检索研究领域中的一个热点。

5 实验验证

为验证以体裁将文档目标及用户检索目标独立表达出来进行匹配的效果,我们进行了初步实验。首先是构造测试集。分别以“汽车 销售”、“汽车 购买”、“汽车 价格”、“汽车 新能源”、“汽车 保险”、“汽车 设计”、“汽车 游戏”、“汽车 保养”、“汽车 维修”、“汽车 展览”、“汽车 比赛”为检索词,通过Google下载了每组关键词返回结果的Top-50篇文档,构建了共包含471篇有效文档的测试集。其次,采用中科院汉语词法分析系统对文档进行分词,并进一步通过人工修改及标注,获得每篇文档的内容及体裁描述模型。测试集体裁包括“表”、“图片”、“条款”、“合同”、“报告”、“公告”、“报道”、“通知”、“广告”、“讨论”、“评论”、“说明手册”、“攻略”、“规则”、“论文”、“案例”、“文章”、“简介”、“简讯”、“摘要”、“排行榜”等。然后,要求测试者采用两组关键词在测试集中检索,并对返回的Top-10结果进行打分:2分表示文档非常相关,1分表示一般,0分表示不相关。最后,实验结果采用衡量搜索引擎质量指标的Discounted Cumulative Gain (DCG)进行分析。该方法以两个假设为基础:①相关度越高的文档在返回结果页面中排在越前面越好;②对文档相关度进行评价时,越排在返回列表前面的文档的评价分数越高。具体参考文献[12],在此不再赘述。

实验分为两步。第一步用与内容相关的词作为检索词,第二步用内容和体裁同时进行检索,体裁作为目标维度进行匹配,详见文献[11]。作为初步实验,在匹配算法中,内容与体裁的权值视为相等。当测试集文档排序未变时,以Google原始排序为准。首先,以“汽车 销售”为主题检索词,以“报告”为体裁检索词,实验结果如图1所示。图中,Ideal DCG为当返回结果为最佳排序时的DCG值;normalized DCG(nDCG)是对DCG值进行归一化处理后的值。

图1不带体裁及带体裁的检索结果比较图

对本组检索词的Top-10返回结果的分析表明,使用体裁将检索目标独立表示出来,并与文档目标体裁进行单独匹配,在返回列表中相关度更高的信息资源的排名更靠前,这有效提高了返回结果与检索目标的相关度。在本组数据中,增加体裁信息进行检索后,将衡量搜索引擎质量指标的nDCG值提高了21.8%。

我们对其他10组关键词及相应检索目标体裁进行了同样的实验分析,实验结果如图2所示。图2第一列为检索词,先以不带括号中的体裁进行检索,再将体裁加入进行第二步检索,其结果分别列于第二列、第三列。

图2一组不带体裁及带体裁的检索结果比较图

实验结果表明,加入体裁信息进行检索能将检索效果提高71%。其中,以“汽车 游戏”为检索词搜索时,Google的Top-50返回结果中体裁为“攻略”的文档较少,且只在Top-10中出现在第九位。因此,当预期目标体裁为“攻略”时,nDCG值提高了约134%。实验表明,相对于只用内容维度的检索词,用体裁单独将用户检索目标与文档目标表达出来,并进行独立匹配,能够有效提高检索效果。

6 结束语

本文对体裁的含义、识别、描述及其在信息检索领域中应用现状和所面临的问题进行了详细阐述与分析。同时,为了验证不带体裁及带体裁的信息检索效果,我们进行了一系列实验。结果证明,与只有内容维度的检索相比,体裁能够将检索目标及文档目标以统一形式表示出来,并且能够作为独立维度被匹配,可以大大提高返回结果的相关度,从而改善用户体验。在后续研究中,我们将对文档(尤其是Web文档)体裁的自动识别及描述进行深入研究,并对如何从用户工作任务中识别出检索目标体裁进行研究。本文的研究成果对于第四代信息检索技术的建立有一定的意义,同时为语言学的体裁分析研究提供了新的视野和方法。

参考文献:

[1] 中国互联网络发展状况统计报告[J].中国互联网络信息中

心,2011.7.

[2] Luanne S. Freund. Exploiting task-document relations in support

of information retrieval in the workplace[D].Doctoral dissertation, University of Toronto.2008.

[3] Ingwersen P. A Context-Driven Integrated Framework for

Research on Interactive IR[C]. LIDA Conference, June 25-30 2008,126(6):44~50

[4] Askehave I., Nielsen A.E. Digital genres: a challenge to traditional

genre theory[J]. Information Technology & People. 2005.18(2):120~141

[5] Yoshioka, T., Herman, G., Yates, J., Orlikowski, W. J. Genre

taxonomy: a knowledge repository of communicative actions. ACM Transactions on Information Systems. 2001.19(4): 431~456

[6] Mark A. Rosso. User-Based Identification of Web Genres[J].

ASIS&T. 2008.59(7):1053~1072

[7] Crowston K., Kwasnik B. A Framework for Creating a Facetted

Classification for Genres: Addressing Issues of Multidimensionality. Proc. 37th International Conference on System Sciences. Hawaii, USA. 2004.

[8] Santini M. Characterizing Genres of Web Pages: Genre Hybridism

and Individualization[C]. Proc. 40th Hawaii International Conference on System Science.2007.

[9] Ihlström C., Åkesson M. Genre Characteristics:a Front Page

Analysis of 85 Swedish Online Newspapers[C]. Proc. 37th International Conference on System Sciences. Hawaii, USA. January,2004.

[10] Vidulin V., Luštrek M., Gams M. Using Genres to Improve Search

Engines. Proc. International Workshop "Towards Genre-Enabled Search Engines:The Impact of NLP". Borovets, Bulgaria. September,2007.

[11] 阳小华, 马家宇, 刘志明等. 基于隐性知识的信息检索多维匹配模

型[C].第八届全国搜索引擎和网上信息挖掘学术研讨会.成都,四川.2010.

[12] Xiaoyun Li, Ying Yu, Xiaohua Yang, et al. Personalized

Recommendation Based on Desktop Context[C]. Springer, Lecture Notes in Electrical Engineering, Recent Advances in Computer Science and Information Engineering. 2012, Volume 124, pp.383~388

猜你喜欢
匹配信息检索任务
中职学生职业性向测评维度与就业岗位匹配研究
基于新型双频匹配电路的双频低噪声放大器设计
任务型教学模式应用于会计英语词汇教学的有效性研究
明确“任务” 文中有“我”
当代教育工作者的任务——教会学生做人
工程车辆柴油机与液力变矩器的功率匹配及优化分析
教学秘书在高职教学管理与实施中的作用及任务
气质类型在档案工作中的应用
医学期刊编辑中文献信息检索的应用
基于神经网络的个性化信息检索模型研究