WorldCat热门标签的调查与分析

2012-04-29 00:44黄如花任其翔
图书与情报 2012年5期

黄如花 任其翔

摘 要:WorldCat热门标签在信息组织的科学性、规范性以及引导用户信息发现的实用性上有提高空间。文章对WorldCat热门标签的内容按主题与质量进行统计分析,将其与BibSonomy、Flickr和豆瓣热门标签的功能从质量控制、排序方式、浏览模式与内容显示等四方面进行比较,进而从了解用户的标注行为、加强标签的质量控制及扩展热门标签的功能等三方面提出了WorldCat热门标签的优化建议。

关键词:WorldCat 热门标签 社会标签 信息组织

中图分类号: G250.73文献标识码: A 文章编号: 1003-6938(2012)05-0007-04

热门标签是一种Web2.0环境下新的信息组织与信息发现工具,它按照一定的标签统计规则,将社会标签进行分类排序后向用户进行展示。2009年,OCLC调查发现“用户希望书目记录能够包含更多的主题信息以辅助其信息查找” [1],进而在WorldCat中提供了热门标签。但在实际使用中,由于标签内容的质量控制与筛选机制不完善,加上缺少对热门标签内容与功能的调查研究,它在信息组织的科学性、规范性以及引导用户信息发现的实用性上有待提高。本文拟对WorldCat热门标签的内容按主题与质量进行统计分析,并通过与其它网站热门标签的功能比较,对其提出优化建议。

1 WorldCat热门标签内容的统计分析

笔者自2011年3月11日至2012年5月15日对WorldCat热门标签进行调查,并获得了76个标签。下文将对其内容按主题与质量进行统计分析。

1.1 标签内容的主题分析

Golder和Huberman在关于社会标签用户行为分析的研究中将标签分为识别主题内容、关于内容载体、确定是谁创建、用于分类提炼、确定内容特色、用于自我参考和用户任务组织等7个主题类型[2],本文参考了该方法,对获得的Worldcat标签内容按主题分类(见表1)。

[类型\&含义\&数量\&百分比

(%)\&揭示资源主题\&揭示包括所属学科、所述人物等方面信息资源主题的标签\&24\&31.6\&描述资源实体\&资源物理形态的描述、格式、作者信息等MARC信息的标签\&19\&25.0\&说明资源拥有者\&涉及资源拥有者,包括集体或个人拥有者、潜在拥有者等的标签\&10\&13.2\&评论资源特点与质量\&表达观点与内容评论的标签\&4\&5.3\&用于个人参考\&仅对描述者具有参考意义的标签\&10\&13.2\&表达用户行为\&与表达用户任务行为相关的标签\&7\&9.2\&非英文标签\&采用除英文外的语言标注的标签\&2\&2.6\&][表1 WorldCat热门标签内容的主题分布]

统计发现:关于“揭示资源主题”与“描述资源实体”的标签分别有24个和19个,共占标签总数的56.6%。超过一半的标签内容关注信息资源本身,说明热门标签对信息分类有积极作用,且可基本满足信息组织与信息发现的功能要求。

“说明资源拥有者”的标签共有10个,占总数的13.2%。这类标签在WorldCat中发挥了资源定位的作用,对于其他用户亦有参考价值。

“评论资源特点与质量”、“用于个人参考”以及“表达用户行为”的标签共占标签总数的27.7%。它们仅对标注者或者特定人群具有参考意义,作为热门标签出现时,不能很好地发挥信息组织与信息发现功能。

WorldCat是一个以英文资源为主的网站,用户在标注标签时大多采用英文形式,故非英文标签在WorldCat热门标签中仅有2个,占总数的2.6%。

可见,描述信息资源本身的标签占热门标签的大部分,说明通过热门标签来引导用户发现信息是可行的。而部分标签内容并不能帮助用户查找与获取信息的现状,又说明其有优化的必要性。

1.2 标签内容的质量分析

标签的质量主要考察与《美国国会图书馆主题词表(The Library of Congress Subject Headings, 简称LCSH)》主题词的关系。下文将利用LCSH对热门标签进行细分,具体标准参考Kipp对标签与受控词表之间关系的分类[3]。因标签的质量还受到如拼写正误、缩写词的使用与文字是否规范等因素的影响,故本文将WorldCat热门标签内容按质量分为8类(见表2)。

[类型\&含义\&数量\&百分比

(%)\&与LCSH主题词相同\&与LCSH主题词相同的热门标签\&23\&30.3\&与LCSH主题词具有“用代关系”\&热门标签中与LCSH主题词属于“用代关系”的非规范标引词\&5\&6.6\&相关标签\&本身具有明确的概念但是却并不匹配LCSH主题词的热门标签\&4\&5.3\&与LCSH主题词具有“属分关系”\&出现在LCSH中属于上位词与下位词的热门标签\&5\&6.6\&缩写词\&以缩写形式出现而又不属于LCSH主题词的热门标签\&11\&14.5\&不规范的标签\&超过三个单词但又不是复合词的热门标签\&5\&6.6\&拼写错误\&拼写错误的热门标签\&4\&5.3\&其它标签\&不属于以上七类的热门标签\&19\&25.0\&][表2 Worldcat热门标签内容的质量分布]

统计发现:WorldCat热门标签中“与LCSH主题词相同”的标签共有23个,占总数的30.3%,说明其标签内容的质量较高。与LCSH主题词有“用代关系”与“属分关系”的标签分别有5个,共占总数的13.2%。考虑到社会标签的个性化与自由化特点,该统计结果说明WorldCat热门标签基本达到了信息组织与信息发现的目标。

“相关标签”共有4个,占总数的5.3%。这类标签对于信息分类具有补充作用,且可为对相关信息资源感兴趣的用户提供引导。如标签“satirical non-fiction”在内涵上比LCSH主题词“non-fiction”更加专深。

“缩写词”标签共有11个,占总数的14.5%。有国外研究者认为缩写词类型的标签不利于对用户信息发现与分类[3]。虽然WorldCat热门标签中部分“缩写词”标签(如“bf2010”与“bcu-new”)的内容未被社会公认,的确对用户信息发现无帮助。但像“hci”(human computer interaction/interface)这类标签是已被计算机领域认可的缩写词,它们简化了热门标签的内容显示。

“不规范的标签”与“拼写错误的标签”分别有5个和4个,共占总数的11.9%。这两类标签不能有效引导用户发现信息。并且利用这两类标签来组织信息没有必要,其结果对用户亦无实际帮助。

其它标签在调查中共有19个,占了总数的25.0%。这19个标签具体可细分为时间相关标签、非英文标签、表明拥有者的标签和表示用户行为的标签。

2 WorldCat热门标签与其他网站热门标签的比较

BibSonomy与Flickr较早采用了热门标签这一信息组织与信息发现工具,其内容排列组织相对成熟且各具特点。而中文网络社区豆瓣按标签属性展示热门标签的理念很有借鉴意义。因此,为对WorldCat热门标签提出有效的优化建议,笔者将其与Bibsonomy、Flickr、豆瓣3个网站的热门标签进行比较。

2.1 标签质量控制的比较

热门标签是对社会标签的展示,网站是否在用户标注时采取必要的质量控制与提供合理的标注建议,直接影响热门标签内容的质量。本文从大小写限制、标签拼写提示以及帮助信息等7个方面对标签质量控制方式进行了比较(见表3)。

比较结果说明,4个网站在标签质量控制上均有待提高。与另外3个网站相比,WorldCat在标签质量控制上做得较好,其通过符号限制、标签长度限制以及帮助信息规范了用户标注行为。豆瓣标签的质量控制有待完善,其仅提供了“什么是标签”的帮助信息。Flickr是调查中唯一对标签内容的大小写进行控制的网站,它将所有标签内容都自动转化为小写形式,规范了标签显示。BibSonomy则主要通过标签拼写提示与规范标签提示控制标签质量。为用户标注提供单词拼写与规范标签提示,不仅能够节约用户标签时间,还能提高用户标签的质量。

[网站

比较项目\&WorldCat\&BibSonomy\&Flickr\&豆瓣\&大小写限制\&无\&无\&有,限小写\&无\&标签拼写提示\&无\&有\&无\&无\&规范标签提示\&无\&有\&无\&无\&不同语种转换\&无\&无\&无\&无\&符号限制\&有,能用5种\&无\&有,但无说明\&无\&标签长度限制\&有,75个\&无\&无\&无\&帮助信息\&有\&有\&无\&有\&][表3 WorldCat与其它网站标签的质量控制比较]

2.2 标签排序方式的比较

BibSonomy、Flickr和豆瓣均按字顺排列标签。其具体规则如下,BibSonomy按照“数字—英文—非英文”的顺序,Flickr按照字母顺序,豆瓣按照“数字—英文—汉字”的顺序。针对不同的标签热门程度,这3个网站以标签云图表明。

WorldCat只采用了标签云图表现各标签的热门程度,在标签的排序上并未采用特定方式。该处理方式不利于用户快速查找热门标签的具体内容,降低了其功能的实用性。

2.3 标签浏览模式的比较

标签浏览模式指网站针对用户的不同浏览需求与使用偏好,对标签内容进行的单一或多样化展示模式。笔者调查发现,另外3个网站均提供了多样化的浏览模式,而WorldCat热门标签仅提供了标签云图这一种浏览模式。

Flickr的热门标签按照统计时间的不同提供了3类热门标签,分别是“在过去24小时内最热门标签”、“过去一周内最热门标签”以及“一直以来最热门的标签”。BibSonomy的热门标签则采用了按字母顺序(alpha)和标签热度(freq)两种浏览模式,并在此基础上按云图(cloud)和列表(list)进行展示。豆瓣对热门标签采用了分类浏览与所有热门标签两种浏览模式。在分类浏览模式下,豆瓣先对标签属性进行分类,然后将各个标签按照标注频率归入各大类。

WorldCat热门标签的浏览功能不如另外3个网站。单一的浏览模式局限了用户对于热门标签的查找,不能满足用户多样化的信息需求以及个性化的使用偏好。

2.4 标签内容显示的比较

在标签内容显示上,WorldCat、Flickr均以体积、字体以及颜色深浅来显示热门标签。对于标引频次差别不大的标签,用户不能直观了解其热门程度的差异。在这种标签内容显示的基础上,豆瓣和BibSonomy在每个热门标签后面都显示了具体被标注的频次,用户可以准确地了解各标签的热门程度。

3 WorldCat热门标签的优化建议

3.1 了解用户的标注行为

有学者研究发现“大众标注中,用户对于标签的选择还会受到从众心理、其他用户标注行为与社会共识的影响,往往使用‘热度最高的词去标注目标,也就是俗语中的‘人云亦云” [4]。热门标签除了引导用户发现信息外,还会对其标注行为产生影响。为避免出现用户参考热门标签中错误或者不规范的标签,从而造成“人云亦云”甚至是“以讹传讹”的后果,WorldCat在设计热门标签功能以及规范标签质量上需要有对用户、对信息负责的态度与认识。

WorldCat可以通过两种方式来了解用户的标注行为。一方面,WorldCat可以开展关于标签质量控制与热门标签功能需求的用户调查,通过调查总结出用户关于热门标签的需求,进而对其功能进行针对性设计。另一方面,WorldCat可从现有热门标签数据中,总结出用户的标注偏好以及不同类型标签的利用情况,再适当调整其内容与功能,使之更能满足用户需求。

3.2 加强标签的质量控制

热门标签作为WorldCat提供的信息组织与信息发现工具,内容质量将直接影响其功能的实现。结合上文对其标签内容的质量分析与质量控制的调查,WorldCat可通过两种措施加强标签的质量。

(1)增加用户标注提示。WorldCat在用户对信息进行标签时仅提示“标签需用逗号隔开”,使得用户在标注时处于不受控的状态。在用户添加标签时,WorldCat应给用户“拼写提示”或者“规范标签提示”。如Google搜索引擎,当用户输入检索词时,往往只需输入一部分,用户便可在下拉列表中看到提示词。WorldCat的标签系统可以借鉴这一用户提示机制,利用相关技术对用户可能输入的标签进行预测,并将规范标签提示给用户。此外,当用户输入的标签内容与其质量控制政策相抵触时,系统应将错误内容向用户标明,并给出正确提示。

(2)为用户标注提供多种选择。用户添加标签时,给用户提供规范标签作为参考或提供规范词表进行查阅,可引导用户在标注时选择更规范的标签内容。WorldCat在用户标注系统中,提供相关LCSH主题词信息或者标签推荐信息让用户选择,能够提高其标签内容的质量。

Brain Matthews等人就将知识组织系统引入到用户标签界面中,并且发现这一机制提高了社会标签在信息组织与信息检索中的质量,同时还提高了用户在主题标引方面的准确性[5]。WorldCat可将待标注资源的标签云、相关主题词、标签提示及标签内容等4类信息的多语种表达以树形列表显示在标签界面中,为用户标注提供更多参考。

3.3 扩展热门标签的功能

(1)多维度展示热门标签。社会标签的合理应用能够“为用户提供更多的可理解的信息获取路径”[6]。目前WorldCat热门标签仅用无序的标签云图进行展示,不能满足用户对热门标签个性化的浏览需求。它可以采取多维度展示的方法,提供按不同分类标准整合的热门标签。

除标签云图外,WorldCat热门标签可参考Flickr对标签内容按时间范围展示的理念。这不仅可以解决目前标签排列无序的问题,而且可以解决热门标签因更新缓慢而无法及时反映用户关注热点的问题。

此外,WorldCat热门标签还可先按标签的功能(如表示信息主题的、时间相关的标签等)进行分类,再展示各个类目下的热门标签,使之更加全面实用。

(2)让热门标签更加融入网站。目前WorldCat仅在其主页上显示热门标签,使得用户每次想要了解其具体内容时需要再次返回主页进行浏览。建议WorldCat将热门标签以一个工具条的形式嵌入到每个页面空白处,使用户在浏览网页时可以通过点击热门标签方便的浏览与查找。如BibSonomy就将 “busy tags”工具条嵌入到网站中,让用户更加便捷地使用热门标签。

(3)增加热门标签组配检索的功能。目前WorldCat用户仅能选择单一标签内容进行信息检索,当用户想要对多个感兴趣的标签内容进行浏览与查找则需要重复多次。WorldCat热门标签可以增加让用户利用标签内容进行组配检索的功能。这样不仅能够节约用户时间,还能让用户通过热门标签检索到的信息资源更加全面准确。其可借鉴书签分享网站Delicious提供的标签联合检索功能,用户在Delicious中仅需点击选择多个感兴趣的标签,便能够检索到包含这些标签的具体资源。

4 结语

社会化网络环境下,面对不断变化与提高的用户需求,图书馆界有必要对信息组织方法进行优化与创新。WorldCat将热门标签作为新的信息组织与信息发现工具投入使用是一个有益的尝试,能够为信息组织方法的研究提供新的视角,并将对整个图书馆界起示范作用。希望本文针对WorldCat提出的建议能为相关机构的热门标签优化或者其它信息组织方法的创新提供参考,推动适应社会化网络环境的信息组织方法在图书馆界的应用。

参考文献:

[1]OCLC.Online Catalogs: What Users and Librarians Want[EB/OL].[2012-05-15].http://www.oclc.org/reports/onlinecatalogs/fullreport.pdf.

[2]Golder,S.,Huberman, B.,Usage patterns of collaborative tagging systems[J].Journal of Information Science,2006,32(2):198-208.

[3]Kipp, M. Complementary or Discrete Contexts in Online Indexing: A Comparison of User, Creator and Intermediary Keywords[EB/OL].[2012-05-15].http://eprints.rcl

is.org/bitstream/10760/10397/1/mkipp-cais2006slides.pdf.

[4]查先进,吕彬.知识共享视角下的大众标注行为研究——基于标签的实证分析[J].图书馆论坛, 2010, 30(6):76-81.

[5]Matthews, B. Jones C. Puzon, B. An evaluation of enhancing social tagging with a knowledge organization system[J]. Aslib Proceedings:New Information Perspectives,2010, 65(4/5): 447-465.

[6]Larson, K. Mining Social Tagging Data for Enhanced Subject Access for Readers and Researchers[J].The Jour

nal of Academic Librarianship, 2009, 35(6): 574-582.

作者简介:黄如花(1968—),女,武汉大学信息资源研究中心教授,博士生导师;任其翔(1989—),男,武汉大学信息管理学院2011级硕士研究生。