社会化标签特性及研究进展综述

2013-12-23 04:16徐志玮郑建瑜中山大学图书馆广东广州510275
图书馆建设 2013年5期
关键词:分类法信息检索社会化

徐志玮 郑建瑜(中山大学图书馆 广东 广州 510275)

用户本位(user-centered)理念正在改变图书馆本位的分类工作:标签嵌入图书馆系统以拓宽分类检索;编目工作将目光瞄准图书馆以外的更大空间,如网络用户将信息资源的分类融入传统图书馆分类中的尝试;大众分类法(Folksonomy)成为信息组织的新选择,同时出现了 “社会编目(Social Cataloging)”、“社会元数据(Social Metadata)”和“标签园艺(Tag Gardening)” 等新术语。

作为大众分类法的基本要素,标签的歧义性、同义性、模糊性和平面性被认为是标签的主要特性,对信息检索质量具有很大的影响。为此,笔者分别于2012年5月15日和2012年10月8日,以科学引文索引(Science Citation Index Expanded,简称SCI)和社会科学引文索引(Social Science Citation Index Expanded,简称SSCI)为依据, 以“Folksonomy”、“Social Tagging”、“Collaborative Tagging”、“Social Classification”、“Web of Science”为主题, 以“Information Science Library Science” 为检索范围, 以“Article”和“Review”为文献类型检索得出英文文献;以CNKI(中国知网)为数据来源检索得出中文文献。笔者对所得文献进行浏览和总结,最后以标签的平面性、宽泛性、个性化、社会性和动态性等5个特性进行综述。

1 标签的平面性

目前,社会化标签的研究热点依然是标签平面性的层次化改善,主要包括两方面内容:与传统信息组织模式的比较和融合,与本体、语义网等信息技术的整合研究。由于篇幅有限,而且传统信息组织与图书馆的联系更加紧密,所以本文仅对标签和传统信息组织的比较和融合进行综述研究。

标签和主题词表之间存在很大的差异,标签可以弥补主题词表在信息检索中的不足。与美国国会图书馆主题词(Library of Congress Subject Headings,简称LCSH)、美国医学主题词表(Medical Subject Headings,简称MeSH)等传统图书馆主题词表的比较分析是研究论文最常用的方法,研究表明,最简单、直观的方法是从流行的社会标注系统选取小样本,进行手工比较[1-3],也有学者利用支持向量机、文本分类法和Upper Tag Ontology等信息技术[5-7]对标注者和专家使用的词语进行比较。例如,Lee等人采用大样本数据的挖掘,将收集到的1 975 538篇论文、50 832个用户、394 126个唯一标签与MeSH进行比较,重合度仅为3%[4]。

除此以外,将标签与国家信息标准组织 (National Information Standards Organization,简称NISO)标准、国际十进制分类法(Universal Decimal Classification,简称UDC)和在线词表等进行比较可知,标签基本符合信息组织标准,这为标签和传统信息组织的融合提供了理论依据。Kome对Delicious网站的标签进行NISO层次化研究发现,大量标签都表现出在ANSI/NISO(American National Standards Institute/National Information Standards Organization,美国国家标准学会/国家信息标准组织)和ALCTL(Association for Library Collections and Technical Services,美国图书馆学会的图书馆馆藏和技术服务协会)分类法中的层级关系[8]。Spiteri利用NISO制定的针对受控词汇的6个标准对Delicious、Furl和Technorati3个网站最近30天的标签进行分析发现,Folksonomy可以增加OPAC(Online Public Access Catalogue,联机公共目录查询系统)在信息的储存、组织和管理方面的价值,并且标签都非常接近NISO标准[9]。Sauperl收集了Amazon、 LibraryThing、Delicious和43Things网站上的标签发现,Folksonomy中有80%的标签可以归类到UDC的9个类别中,尤其是UDC的Topic、Genre、Form、Medium、Audience、Time、Place等类别与Folksonomy标签最匹配[10]。Min等人认为,利用Wordnet工具可以把标签进行层次化处理,他们利用Flickr数据进行验证,表明标签和Wordnet的融合能很好地揭示标签之间的语义关系[11]。Kolbitsh开发了WordFlickr,提出了基于使用语义术语数据库WordNet来扩展查询标签的方法,当用户向WordFlickr提交检索时,可以选择以哪种类型的关系扩充他们的原始检索[12]。

2 标签的宽泛性

用户选择的标签能否准确描述资源所包含的内容将会影响其检索质量。研究表明,用户往往选择有宽泛意义的词语作为标签,而这样的标签不能有效地描述一个具体的信息资源[13]。对社会标签系统与搜索引擎、网络字典进行信息检索查准(全)率的比较实验,结果表明,搜索引擎的检索效果是最好的,社会标签系统其次;在搜索新闻等大类方面,标签检索质量更好;而当搜索某个具体的网站或者某个简短而实际的问题时,社会标签系统表现很差[13-14]。对中文标签进行研究也同样发现,用户会使用简单、概括性的中文词汇的频次远远高于具体性词汇(如新闻、素材这类词成为高频词),从频率分布图来看,这些集中在图形头部的高频词并无实际意义,而真正显示用户个性差异的是图形尾部的中低频词[15]。Park以信息觅食理论(Information Foraging Theory)研究了标签的宽泛性为信息检索带来的优势,她认为,对具体信息的标签搜寻不会取得有效的结果,标签的优势在于探索和意外发现未知的信息,具有启发性作用,标签更适合浏览(Browsing)而不是查询(Searching)[16]。

3 标签的个性化

标签的个人倾向(Personal tendency)很严重[17-18],标注者有自我检索、记忆、评论或者只是为了获得关注等标注目的,而且标注者选择标签依赖于个人对标签的爱好、对技术的熟悉程度、个人的兴趣和知识认知程度等,也可能依赖于用户在其他标签系统所获得的经验,因此标签消费者和标注者不能共享相同的标签,简单地说,标签只是一个个体的方式,而不是为检索准备的。标签的content reuse(内容复用)和shared interest(共享兴趣)标准都很低[19],而用户增加新标签的速度远远高于内容复用的速度,大部分用户之间的共享是孤立而非共享的,这必将影响推荐系统的有效性。

根据标签词义的特点,标签被分为主观和客观标签[20-21],客观标签对信息检索更加有效,而主观标签由于代表标注者的个人意愿,在检索中往往被忽略。Khasfariyati等人利用测量查全率和查准率的标准F-measue值把标签分为“主观/高水准”、“客观/高水准”、“主观/低水准”和“客观/低水准”4种,选择了Delicious提供的8个热门标签(见表1)进行分析发现,主观和客观标签一样重要,如“interesting”和“funny”等主观标签的F-measure值很高,这些标签反映了所标注文档的特有属性,可以帮助用户对文档进行判断[6]。

表1 8个Delicious的热门标签分类

4 标签的社会性

标签是个人在社会化环境下共享的产物,目前对标签的社会性研究还停留在表象上,研究成果不多。崔景昌提到,用户能够在网络社区中共享个人使用的标签,因此标签、信息及用户相互之间就联结起来,构成由标签和信息组成的社会网络[22]。魏建良等人指出,标注是对用户标签的行为的描述,当多个用户对多个对象添加标签时,标签就具有了社会性,也就成了社会化标签[23]。标签的个性化和社会化是相辅相成的关系[24],如图1表明,标注者根据自己的喜好对资源进行知识管理,在共享的社会化环境下,丰富信息内容和知识创造;而通过社会化网络和知识共享,可以对个人用户提供个性化推荐,获取个人知识信息。

图1 标签的个性化和社会化的关系图

首次从社会学角度详细阐述标签社会性特性的论文发表在2011年的《Journal of Documentation》[25],作者从知识社会学、认识论和信息科学3个跨学科领域的视角出发,依据经典范畴理论(Classical Theory)以及后现代社会学和人类学方法,对大众分类法和传统分类法进行了比较。作者认为,传统树形的知识分类法(Taxonomy)是一个对自然类(natural kinds)的客观性、结构性和受控性的分类;大众分类法则明显是对一个社会环境下主观和个体的分类,这揭示了科学实用主义不再是一个“简单”的结构,而是一个多元化结构。此外,作者从社会学角度探讨了传统分类法和标签的大众分类法融合的可行性,认为两者不仅可以平行存在,而且还可以混合存在。

5 标签的动态性

描述网络资源的标签数量是随时变化的,标签的频次分布、语言、语义、标注者的人数等的变化形成了标签的动态性。对标签动态性进行研究,了解标签的分布规律,可以提高推荐系统的准确性,也能为信息检索算法提供理论依据。

传统受控词汇对资源的描述权重基本是平等的,而在大众分类法中,某些标签会比其他标签更加流行,权重更大,标签的频次遵循幂律分布规律。并且,随着标签数量的增加,新标签增加的规律呈现Heap分布规律[26],标签还存在Cold-Start现象,即越是新增加的标签关注度越低[4]。最近由于大数据的流行,对标签动态性的研究也开始使用大样本,如利用UTO(Upper Tag Ontology,上位标签本体)的爬行软件工具收割Delicious、Flickr、YouTube3个网站2003—2008年的标签数据[27],共得到5 759 755个目标。以这些目标为实验数据,Lin Nan等人通过自己构建的一个基于时间计时变量的动态标签成长模型,按照3个不同算法,对宏观标签成长、微观标签成长和标注者活动的动态性分别进行了研究。结果表明,从宏观角度的研究来看,3个系统遵循指数小于1的幂律分布规律,从微观角度的研究来看,遵循相似幂律分布规律;标签数达到某个规模后,新标签的成长呈现了Heap分布规律;对标注者活动的轨迹进行研究发现,早期标注者的活动非常嘈杂,当标签数量达到流行规模的数量后,标签的增长轨迹趋于稳定。同时,利用TTR-LDA模型可以研究社会性词语(标签)对话题浮现的演变轨迹,笔者分析了2005—2008年Delicious的1 000多个流行资源的标注者——话题——链接——标签的分布轨迹发现,一个大的话题会随着时间演变成几个子话题。

6 结 语

笔者对标签的5个特性进行了相关研究进展的综述,标签的独有特性给信息检索带来了困难,但也为图书馆带来了契机,这可以拓宽传统信息组织的模式,拉近与用户的距离。从综述也能看出,国内的相关研究还不够,大部分实证研究选取的都是国外网站和美国的主题词表,笔者认为我国需要加强这方面的研究。

[1]Bartley P. Book Tagging on LibraryThing: How, Why, and What are in the Tags?[J]. Proceedings of the American Society for Information Science and Technology,2009, 46 (1):1-22.

[2]Xia Lin, Beaudoin J E, Desai K,et al. Exploring Characteristics of Social Classification[EB/OL].[2012-06-14].http://journals.lib.washington.edu/index.php/acro/article/download/12491/10990.

[3]Yi K, Chan L. Linking Folksonomy to Library of Congress Subject Headings: An Exploratory Study[J]. Journal of Documentation,2009,65(6):872-900.

[4]Lee D H, Schleyer T. Social Tagging is no Substitute for Controlled Indexing: A Comparison of Medical Subject Headings and CiteULike Tags Assigned to 231,388 Papers[J]. Journal of the American Society for Information Science and Technology,2012,63 (9):1747-1757.

[5]Sun A, Suryanto M A, Liu Y. Blog Classification Using Tags: An Empirical Study[J].Lecture Notes in Computer Science, 2007,4822:307-316.

[6]Khasfariyati R, Goh D H, Alton Y K,et al. Social Tags for Resource Discovery: A Comparison Between Machine Learning and User-Centric Approaches[J]. Journal of Information Science, 2011,37(4):391-404.

[7]Ding Y, Jacob E K, Zhang Z, et al. Perspectives on Social Tagging[J]. Journal of the American Society for Information Science and Technology, 2009(12): 2388-2401.

[8]Kome S H. Hierarchical Subject Relationships in Folksonomies[EB/OL].[2012-05-23] .http://etd.ils.unc.edu/dspace/bitstream/1901/238/1/samkome.pdf.

[9]Spiteri L F. The Structure and Form of Folksonomy Tags: The Road to the Public Library Catalog[J].Information Technology and Libraries, 2007(3): 459-467.

[10]Sauperl A. UDC and Folksonomies[J]. Knowledge Organization, 2010,37(4):307-317.

[11]Min Q X, Uddin M N, Jo G S.The WordNet Based Semantic Relationship Between Tags in Folksonomies[J].The 2nd International Conference on Computer and Automation Engineering(ICCAE),2010(2):815-819.

[12]Kolbitsch J. WordFlickr: A Solution to the Vocabulary Problem in Social Tagging Systems[EB/OL].[2012-05-10].http://i-know.tugraz.at/wp-content/uploads/2008/11/9_wordflickr.pdf.

[13]Morrison J P. Tagging and Searching: Search Retrieval Effectivenss of Folksonomies on the World Wide Web[J]. Information Processing and Management 2008,44(4): 1562-1579.

[14]Brooks C H, Montanez N. Improved Annotation of the Blogosphere Via Autotagging and Hierarchical Clustering[C].15th International Conference on World Wide Web. New York: ACM, 2006:625-632.[15]贾君枝, 王东元,王永芳. 基于 Delicious 中文标签特征分析[J]. 情报科学, 2010,28(10):1565-1568.

[16]Park H. A Conceptual Framework to Study Folksonomic Interaction[J].Knowledge Organization, 2011,38(6):515-529.

[17]Golder S, Huberman B A.The Structure of Collaborative Tagging Systems[EB/OL].[2012-05-23].http://arxiv.org/ftp/cs/papers/0508/0508082.pdf.

[18]Goh D H, Chua A, Lee C S,et al. Resource Discovery Through Social Tagging: A Classification and Content Analytic Approach[J]. Online Information Review, 2009(3): 568-583.

[19]Santos-Neto E, Ripeanu M, Iamnitchi A. Content Reuse and Interest Sharing in Tagging Communities [EB/OL].[2012-05-23].http://arxiv.org/abs/0711.4142.

[20]Golder S A, Huberman B A. Usage Patterns of Collaborative Tagging Systems[J].Journal of Information Science,2006,32(2):198-208.

[21]Kipp M E. Exploring the Context of User, Creator and Intermediate Tagging[EB/OL]. [2012-05-23]. http://www.bibsonomy.org/bibtex/2904d826cdf2349f8b6ec802eddd6d0c4/dbenz.

[22]崔景昌,刘德洪.自由分类法的社会性及其利用[J]. 图书情报工作,2007,51(2): 41-43,138.

[23]魏建良,朱庆华.社会化标注理论研究综述[J].中国图书馆学报,2009,35(11):88-96.

[24]Lee Baozhen, Ge Shilun. Personalisation and Sociability of Open Knowledge Management Based on Social Tagging[J].Online Information Review,2010(4):618-625.

[25]Keshet Y. Classification Systems in the Light of Sociology of Knowledge[J]. Journal of Documentation, 2011(1):144-158.

[26]Serrano M A,Flammini A,Menczer F. Modeling Statistical Properties of Written Text[J]. PLoS ONE, 2009,4(4):1-8.

[27]Lin Nan, Li Daifeng, Ding Ying, et al. The Dynamic Features of Delicious,Flickr,and YouTube[J]. Journal of the American Society for Information Science and Technology,2012,63(1):139-162.

猜你喜欢
分类法信息检索社会化
企业退休人员移交社会化管理的探讨
牵手校外,坚持少先队社会化
高职院校图书馆开设信息检索课的必要性探讨
分类法在高中化学中的应用
行政权社会化之生成动因阐释
网络环境下数字图书馆信息检索发展
基于神经网络的个性化信息检索模型研究
高校学生体育组织社会化及路径分析
基于贝叶斯分类法的股票选择模型的研究
ABC分类法在介入耗材库存管理中的应用