网络标签的检索效率分析

2012-02-16 04:12张军雄
图书馆学刊 2012年5期
关键词:标引网络资源检索

张军雄

(广东海洋大学图书馆,广东 湛江 524088)

张军雄 男,1972年生。本科学历,副研究馆员。研究方向:数字化图书馆。

1 引言

网络时代,Tag不再是新鲜事物,在新闻、博客、论坛、视频网站中都可以看到Tag的身影。Tag是Web2.0技术发展的产物之一,它具有信息分类和信息传播的功能。Tag的出现为信息处理提供了一种新的分类手段,使信息分类工作由专业化走向社会化,由规范化走向自由化。由此引起了人们对Tag的关注和重视,许多专业人士从各个方面对Tag展开研究,从而使Tag在信息组织领域、网络传播领域扮演着越来越重要的角色,对其检索效率的研究愈显迫切。

2 Tag概述

Tag作为一种网络分类方式,也称为开放式分类或大众分类,是一种对网络日志进行个性化整理的民间分类方式,具有平面化、社会化、人性化以及随意性、聚合性、自适应性等特点。它是一种灵活、开放的分类方式,是用户为自己的文章、图片、音频、视频等一系列文件所定义的一个或多个描述。因此Tag可用来组织个人网络信息资源,如果不同的用户使用同样的Tag来描述、组织相关内容的信息资源,则可将这些信息资源进行聚合。同样,对于同一内容或者具有相关性的内容,用户用来描述、组织这些内容的Tag可以进行汇聚。[1]大众分类法为信息组织工具的设计提供了一种新的视角,将组织资源的权力由权威、专业人员转交给大众用户,一方面应对网络资源的海量、异构、分布式和高动态等特征,另一方面真实反映用户的词汇,充分发挥用户在信息检索系统中的作用,以满足用户的个性化需求。[2]

随着Tag应用范围的扩展,其数量激增,形成了网络“标签云”,使Tag的性质也随之发生变化,演化成聚合信息、聚合人群、分享信息的工具。海量的信息被自由分类到不同的Tag中,为了查找自己感兴趣的东西,就需要通过检索来实现,Tag也就因此具备了检索功能。由于网络Tag是不受规则控制的分类产物,因此其检索效率并没有得到事先保障,对其检索效率的研究也相对滞后。但作为网络环境下一种新的信息组织方式,我们有必要对其检索效率进行探讨和研究,使其与传统的信息组织方式相得益彰,使信息组织更加多样化和简单化,使网络资源得到更好的组织与应用。

3 Tag标引的特性分析

3.1 Tag标引的优势

3.1.1 Tag的选词灵活,网民可以任意选词,且词汇处于动态变化之中,能及时吸纳各种新名词,反映用户的观点和最新网络资源,在网络环境下,比主题词标引显得更加灵活有效。

3.1.2 用户可以自主控制专指度,必要时可选取专指性较强的语词来作为Tag。标引的专指性较高,有利于更深入准确地揭示文献内容,为提高查准率创造条件。

3.1.3 网络上的新事物、新名词较多,Tag可以弥补词表收词量不足和更新不及时等缺点,能及时使用新名词术语标引与新概念有关的文献,还能对图片、视频等信息进行标引,更加符合用户的实际需要。

3.1.4 Tag的时效性强,能够及时反映网络流行资讯,还可对新事物、新技术、新概念进行标引,有利于实现对信息资源的快速聚合,体现网络时代的便捷性,为用户检索提供方便。

3.1.5 Tag简单易用,有利于网络资源的推广,使网络资源的建设和使用大众化。因此用户不需要进行检索技能培训就能够快速适应,从而使网络信息得到最大化共享。

3.2 Tag标引的缺点

3.2.1 Tag中存在大量同义词,致使同一主题下的文献较分散,容易造成漏检,从而降低了检全率。

3.2.2 汉语中的一词多义现象不可避免,用户在选取Tag时一般不会对这种语词加以限定或说明,容易产生歧义,导致在检索某种主题文献时把该词其他含义的主题文献一并检索出来,从而造成误检。

3.2.3 Tag中的语词是平面关系,关联性能差,词间关系不明确,无法清晰表达概念之间的关系,不利于扩检或缩检。

3.2.4 用户选词存在模糊性和不确定性,语义表达不准确,造成概念表达出现交叉模糊现象,无形中增加了检索难度。

3.2.5 在Tag标引和检索过程中,标引用户和检索用户在分词上可能存在不一致,导致词组处理困难,检索难度加大。尤其是有些用户喜欢使用专指度高或不常用的词组作为Tag,这就更加影响检索的准确性。

4 Tag的检索效率分析

4.1 Tag的检索属性分析

4.1.1 Tag是一种分类系统

Tag是用户根据自己的需要自由选择词汇对网络资源进行标注而产生的,每添加一个词汇即为对资源添加一个Tag,每个Tag相当于用户对资源的一个分类,资源根据不同的Tag被组织到不同的分类之下,所有用户的资源存在于一个共享的平台上,相同的Tag还能够聚合不同用户相同分类下的资源,是一种普通人运用自由定义关键字的方式进行协作分类的活动。[3]

传统的分类法是由专业人员利用规范化词表进行分类,而自由分类法则由网民利用自由词进行分类,不需要专业分类技术,自由选择关键词,不受词表控制。它的分类由社会大众完成,适用于网络海量数据的处理,对新学科、新事物具有很强的兼容性,而且信息分类的成本低、效率高。缺点是分类质量参差不齐,分类目录散乱。因为Tag不遵循传统的树状分类规律,而是一种平面化的分类体系,这种分类体系在网络信息急剧增长的今天,具有无限的发展潜力。

4.1.2 Tag是一种自由信息组织技术

Tag是用户为了方便选用自由词作为自己的Tag,对网络信息资源的内容进行描述和揭示,而不需要遵循任何规则的分类方法。用户根据自己的需要,用个性化语言来标记网络资源,而后通过互联网用户的大量交换以及相关的内容匹配实现信息的社会化传播。其实Tag的出现,就是把网络信息组织的工作由专业人员转向了社会大众,使海量信息的组织变得简单便捷,不需要专业队伍,也不需要专业规则,使网络信息资源的加工成本大大降低。

4.1.3 Tag是自由词

Tag就是一个个用于标识网络信息的词汇,这些词汇都是由网民自己选取的,或选取于文章,或来源于文章之外,只要作者认为这些词汇能概括自己的信息内容即可,不需要遵守任何规则,可以随心所欲地发挥。因此Tag实际上就是自由词,具有自由词的属性和特征,即具有随意性、弹性大、标引简单,但同时也不可避免地造成标引数据的不一致性,使信息组织散乱,不利于文献集中。

4.2 Tag检索效率的影响因素

检索效率是每个检索系统都需要考虑的重要因素,其评价指标包括检全率、检准率、检索的便捷性、响应速度以及检索成本等,其中,检全率和检准率是最重要的指标。Tag作为一种网络资源分类方式,其检索效率受以下因素影响。

4.2.1 选词过于随意,标引不够准确

由于网民的文化知识水平参差不齐,因此Tag不像科技文献中的关键词那样通过认真筛选,能够准确表达文献主题。有些Tag的概念表述不明确,与文章内容的相符程度不高,这就会给检索活动带来困难,容易造成漏检或误检。

4.2.2 专指性太强,使用词组过多

网络上有些Tag使用了过多的词组来标注,使Tag的专指性很高,表面上看起来有利于提高检准率,但由于专指度过高,使概念相同或相似的文献不能集中在同一个Tag下,被分散于多处,用同一个Tag进行检索时,就会漏检一些文献,从而影响了检全率。另外,过高的专指度也未必能提高检准率,由于几个Tag都是词组,表达的概念范围非常狭窄,若用同义词进行检索,也无法将该文献检索出来。同时有些Tag所选的词组不能准确表达文献的主题内容,检索更加困难。

4.2.3 分类等级不明显

Tag本身具有分类功能,但Tag分类不同于传统的分类法,没有严格的等级关系。由于Tag生成的不确定性,导致分类体系较为凌乱,没有系统的分类组织,Tag的归类处于分散状态,不利于进行族性检索。如果从分类角度来检索相关文献,就容易造成漏检,同时还会检出一些不相关的主题,造成误检。

4.2.4 Tag的数量

一般来说,采用3~8个关键词能较好地表达文章内容,而网络上的一些文章所用Tag过少,仅用一两个词来表达,难以准确概括文章内容,导致检准率低。如果Tag语词太多,除非每个词都选得比较准确,否则不但没有起到准确表达文章主题的作用,反而造成干扰,增加了检索噪音,从而增加了检索的难度,影响检索效率。

4.2.5 分类稳定性差

Tag不是按照传统的学科来进行分类,而是按照专题来分,而有些专题是不固定的,随时可能发生变化,为检索带来困难。以新浪博客为例,如文化、生活、产经等栏目是固定的,而有些栏目是根据新闻事件的需要临时设置的,事件过后专题就被取消了,与之相关的文章也就难以检索了。

4.2.6 不同的专题

网站上不同的专题聚集了不同的人群,他们的文化层次、思维方式各不相同,因此,不同专题的人群选取Tag的结果也不尽相同。有些专题的Tag比较准确严谨,有些则较为随意。而各专题涉及内容的范围也各有差异,也会对Tag的选取造成不同的影响。有些专题内容比较单一,Tag选取就比较简单,有些专题涉及的内容较广,Tag选取的难度就高一点。另外,有些网民为了提高自身的关注度和点击率,在选取Tag时标新立异,采用一些容易吸引眼球的词汇,而这些词汇并不能准确表达文章的内容,导致检索效率下降。

除此之外,检索响应时间随着系统的升级而不断加快,网站界面越来越友好,算法越来越科学,检索的便捷性较好,响应时间较短。而检索成本则因用户而异,对于专业检索的用户来说,由于对检索结果的要求高,因此感觉检索成本较高;而对于普通用户来说,由于对检索结果的要求不高,而Tag检索操作简单,易于使用,故感觉检索成本较低。

5 Tag的发展前景分析

随着网络资源的不断丰富,Tag的使用越来越广泛,将成为一种有效的网络信息资源分类工具。Tag应用技术将不断进步,网民的Tag水平也会越来越高。而要提高Tag的检索效率,关键在于加强Tag的后台控制技术,比如对同义词、多义词进行合并或指引,并加强词间关联。另外,对网民使用Tag的技术和习惯进行适当指引和帮助,也是非常必要的。目前,国内外越来越多的人从资源描述、协同技术、排序技术、聚类分析等对Tag进行了深入研究,这将促进Tag技术的不断进步,也将促使Tag检索效率的不断提高。

[1]徐忆南.近年来Tag分类问题研究述略与展望[J].内蒙古民族大学学报,2010(11).

[2]隆捷.基于Tag的互联网自由分类法研究[D].北京大学,2007.

[3]梁桂英,李记旭.Folksonomy 初探[J].图书馆杂志,2006(4).

[4]张立彬.基于Tag的个性化信息服务新方式[J].情报科学,2008(10).

[5]鞠福琴,等.从自由分类法看网络信息的分类组织[J].情报探索,2008(5).

[6]程慧荣,等.国外基于大众标注系统的Tag研究[J].图书情报工作,2009(1).

[7]马狄伦,吴丹.自由分类法的社会效应分析[J].图书馆学研究,2009(12).

[8]颜瑜.网络信息检索效率分析[J].科技情报开发与经济,2009(5).

[9]朱咫渝.通俗分类的发展与应用[J].情报资料工作,2008(3).

[10]Hsu Ming-Hung,Chen Hsin-His.Efficient and Effective Prediction of Social Tags to Enhance Web Search.Journal of the American Society for Information Science and Technology,2011(62).

[11]Trattner Christoph,Helic Denis,Strohmaier Markus.On the Construction of Efficiently Navigable Tag Clouds Using Knowledge from Structured Web Content.Journal of Universal Computer Science,2011(17).

猜你喜欢
标引网络资源检索
知识组织理论下图书馆网络资源发现服务体系优化研究
基于SDN的分片网络资源编排系统设计
档案主题标引与分类标引的比较分析
日本网络资源存档项目实践研究
大数据时代数字资源的主题标引研究
专利检索中“语义”的表现
关于关键词标引的要求
关于关键词标引的要求
运用优质网络资源 促进数学课堂优化
国际标准检索