国外基于社会标注的信息标引与检索研究进展

2012-02-15 15:13:41深圳大学图书馆广东深圳518060
图书馆建设 2012年4期
关键词:标引信息检索检索

余 春 (深圳大学图书馆 广东 深圳 518060)

标签是Web2.0时代信息揭示、组织的新应用。其类似于关键词,可以用来描述信息资源(尤其是网络信息资源)的性质、范围、对象类型、用途、类别等特征,以达到分类、检索和共享信息资源的目的。标注则是对用户添加标签的行为的描述[1]。当多个用户个体的标注行为被汇集在一起,标注即具有了社会性,可称之为社会标注。

社会标注在网络中的应用越来越广泛,它为信息资源的标引、组织、检索提供了一种全新的自由、开放、共享的模式。近几年,社会标注与信息标引、检索成为学术界研究的热点。本文将从基于社会标注的信息标引及基于社会标注的信息检索等方面综述国外相关研究的进展。

1 基于社会标注的信息标引研究

1.1 社会标注的标引性能

标签是社会标注的直接产物,它能对信息资源的内容、形式特征等进行标记、揭示,并且能根据这些标记提供信息查询,因此社会标注具备标引功能。Macgregor等学者通过传统的受控词表评价社会标注的信息标引效能发现,社会标注系统具有优秀的交互性与社会性,能成功地吸引用户参与信息管理,基于社会标注的信息标引方式将与传统的以受控词表标引的方式并存,各自适用于不同的信息环境:非正式的和正式的[2]。

Thomas等人分别从图书馆的OPAC(Online Public Access Catalogue,联机公共查询目录)和LibraryThing中抽取相同的10本图书,通过将图书的标签与它们对应的LCSH(Library of Congress Subject Headings,美国国会图书馆主题词表)中的主题词进行比较,定量分析了标签与LCSH主题词的相似程度,证明社会标注确实成功地补充了编目员提供的主题词,为资源标引提供了另一种途径[3]。他们指出,结合了LCSH与标签的复合型目录能产生更丰富的元数据,图书馆应尽力将其提供给用户[3]。

1.2 从语言学角度研究标签的使用

社会标注的信息标引功能是通过标签实现的。标签是信息用户表达其对信息资源的理解、概括、评论而采用的自然词语。因此,研究标签的语言学特征有助于对基于社会标注的信息标引方式的理解,进而有利于信息的组织、查询、管理。目前对标签的语言学特征的研究主要包括词汇分析及语义分析两方面。

1.2.1 从词汇学角度分析社会标注

Spiteri利用统计学的方法分析标签的词性、使用频率及分布等特征发现,标签中居于主导地位的用词是名词,并且是单个的术语,大都使用公认的拼写形式[4]。对大多数资源来说,标签的使用频率分布与幂律分布趋于相同,少数高频词占据了标签总频次的大部分比例[5]。此外,用户的标注中还存在着名词的单复数形式不一致,缩写词、缩略语滥用,单词拼写错误等现象[4],影响了社会标注的信息标引效用。

1.2.2 从语义学角度研究社会标注

社会标注允许用户利用自然语言自由创建、自由使用标签来描述、概括信息资源,致使社会标注中存在着无法克服的同义、歧义标签的现象,导致标签呈发散性且缺乏等级层次,不利于信息的揭示、组织、检索及共享。针对这一问题,目前主要是从语义学的角度研究如何确定标签的数据结构与语义策略,以减少社会标注混乱的现象。Passant和Laublet提出,利用MOAT(Meaning of a Tag,标签的含义)这一语义网架构,使Web2.0的内容生产者以机器可读的方式赋予标签内容含义[6]。Meo等人通过研究利用两个分等级的结构及相关算法将语义相关的标签组层级化[7]。Kim HL等人提出语义标签模型[8],用来明确地显示标签的数据结构、语义及标签之间的相互关系。Alba等人运用经典的遗传算法、CHC(Cross generation Heterogeneous recombination Cataclysmic mutation,跨世代异物种重组大变异)算法和模拟退火算法(Simulated Annealing),根据文本中语词使用的语境来消除标注中自然语言的歧义[9]。

此外,不少研究者还致力于应用本体来研究社会标注的语义。例如,Gruber分析了本体与标签的截然不同的角色,提出了标签本体的模型,以此完善标签的语义匹配,实现知识共享[10]。此外,SCOT(Social Semantic Cloud of Tags,标签社会语义)本体[11]、UTO(Upper Tag Ontology,顶层标签本体)[12]对社会标注数据的结构、语义的描述功能也进入学者的研究视野。Kim H L等学者则为现有标签本体的比较提出了评判标准,并据此讨论了标签本体的优劣之处[13]。

1.3 基于社会标注的信息标引方式研究

1.3.1 自动标注

社会标注已成为网络资源组织的主要方式,但是海量的信息资源要全靠手工标注是不可能的。为了提高社会标注的覆盖率,使之更好地标引、组织信息资源,研究者们将目光投向自动标注。Yang Yang等人提出先找到与当前图像数据集相似的文档,依据这些文档的标签设定当前图像的候选标签,然后运用加权关联规则挖掘法从候选标签中筛选出最终的标签集[14]。Yang Hsin Chang提出运用自组织映射算法将网页聚类,即可利用这些类之间的关系和每一类的主题来自动标注网页[15]。Kim J W通过对博客的内容分析提出,利用CDIP(a collection-driven,yet individualitypreserving tagging system,集体驱动但又保持了个性的标注系统)为博客自动标注[16]。

1.3.2 标签推荐

在用户进行标注时,系统自动向其推荐标签是提高社会标注的一致性、覆盖率的有效方式。研究者主要从提高推荐精确度的方法和推荐自动化的方式这两方面展开研究。标签推荐是将其他用户对于同一资源所使用过的标签,经过运算处理后推荐给用户。为了提高推荐的精确度,研究者提出了协作过滤法[17],即针对个体用户的偏好建立排序模型[18],结合视觉相似性与标签共现统计的方式[19],使用潜在语义分析和张量维数约简方法[20]。

系统自动推荐标签是提高标注效率的有力途径。Yang Song等人从机器学习的视角,提出了以文档为中心、基于图像的方式和基于原型的方式自动推荐标签[21]。Song Yong等人建立了实时自动推荐标签的技术架构[22]。 Sevil等人提出在用户上传相片时,系统利用视觉相似度比较候选标签的权重,然后筛选出权重高的标签推荐给用户[23]。

1.4 标注者的标注行为研究

社会标注的主体是标注者,通过他们的标注活动才能完成对信息资源的标引。因此,对标注者的标注动机、标签的选择、标注习惯等特征进行研究,有助于研究者发现基于社会标注的信息标引规律,从而更好地设计标注系统,更有效地组织、管理信息。Angus等人通过研究Flickr中的大学群组的成员使用标签的一般形式发现,群组的成员倾向于选择有利于系统的所有使用者的方式,而不是仅仅选择有利于创建者个人的方式进行标注[24]。Fu等人探讨了标签选择中的社会影响作用[25],Bar-Ilan等人分析了在对图像进行标注时,标注对象的背景信息及他人的相互影响所产生的效用[26]。这些研究都得出了相似的结论:社会影响可能导致标注结果的集中、一致,“集体的智慧”可以帮助标注对象理解要标注的信息资源。

2 基于社会标注的信息检索研究

社会标注的信息标引的目的是使用户能检索、发现和共享信息资源。如何提高基于社会标注的信息检索的性能已成为研究热点。

2.1 社会标注系统在信息检索中的功用

McDonnell等人探讨了在网络搜索中社会标注这一“集体智慧”的价值与力量,提出了“社会搜索”的新概念及其分类体系[27]。Morrison将社会书签网站的标签与搜索引擎和主题目录进行信息检索性能的比较发现,利用社会书签网站的标签进行检索的效果令人惊讶,如果能运用更好的查询处理方式,则可以进一步提高它的信息检索性能[28]。

2.2 基于社会标注的信息检索技巧研究

2.2.1 利用语义技术加强基于社会标注的信息检索

社会标注是用户对信息资源内容、形式等的描述、概括,带有很强的语义性,用户可以从社会标注中挖掘出语义信息,利用它理解内容的语义,实现更高效率的检索。

Abel等人介绍了利用TagMe!系统、通过上下文认知语义的途径来改进标注系统中的个性化信息检索[29]。Kim H H探讨了运用同义的和词汇共现的标签查询扩展方式进行视频搜索[30]。Ungrangsi等人介绍了SemFlickr,它可以加强Flickr中的检索[31]。SemFlickr的检索原理是从语义网中检索得到相关的本体,从那些本体中获取检索词,并且提取检索词之间的本体关系以确定检索到的标签的权重,以此进行检索结果排序。

2.2.2 标签与LCSH相结合,促进信息检索。

社会标注的自由性、开放性造成了标签用词的不规范(如缩写词滥用、名词的单复数形式不一致、同义词和歧义词多、概念模糊),降低了基于社会标注的信息检索的效率。于是业界考虑将标签与受控词表相结合,以提高标签的规范性、集中性。目前的研究多是从标签与LCSH相结合的角度进行的。例如,Yi探讨了以语义相似的方式为社会标签推算相关的LCSH主题词[32];Yi和Chan以单词匹配法为基础,讨论了标签与LCSH的映射方法及用LCSH给标签排序带来的优势[33];Steele则观察了社会标注及其在图书馆在线目录中的使用情况,分析了诸如LCSH的受控词表的优缺点及社会标注如何帮助LCSH进行信息检索等方面的问题[34]。

2.2.3 检索相似度排序

社会标签是用户对信息资源具有语义的描述,可以作为检索相似度排序的依据。通过衡量标签的相似度并对其排序,可实现资源的相关度排序,从而提高信息检索的质量。学术界已经提出了多种计算方法和模型来评价标签相似性。Li Xirong等人提出,通过对视觉相似的邻域累积投票的算法可得到标签相似性,从而实现社会图像检索[35]。随机游走的方法[36]、概率技术[7]都被用于判断标签的相似度。

2.2.4 检索词的选择与确定

检索词是表达用户信息需求和检索课题内容的基本单元,也是与有关数据库、有关网络资源进行匹配运算的基本单元,检索词选择恰当与否直接影响检索的效果。社会标注是“集体智慧”的自由凝聚,对同一资源有大量不同的标签加以描述,而即使同样的标签所表达的语义也并不相同,指向的资源也各异。因此,以标签作为检索词时,对它的选择和确定是影响检索效率的重要因素。Peters 和Stock提出去掉某一具体文档中分布于长尾的所有标签,利用在标签分布中位于长尾起始部分的权力标签(power tags)来形成检索词[37]。Clements等人研究了个性化和平滑技术对增加检索词长度的作用[38],结果显示,与采用TFIDF(Term Frequency-Inverse Document Frequency,词频-反文档频率)权重这些基于使用频率的内容排序方式相比,个性化和平滑的技术让用户使用更少的检索词就能发现同等相关的内容。

2.2.5 标签云对信息检索的影响

标签云是对标签的集成及可视化描述。在标签云中,标签一般是独立的词汇,通常按字母顺序排列,其重要程度(使用量)通过改变字体大小或颜色来表示。利用标签云可灵活地依照字序或热门程度来检索标签,而大多数标签本身就是直接指向一系列相关资源条目的超级链接,因此标签云对信息检索及资源的重要性评估具有积极的作用。Park等人提出,标签云是标签的集合,它在多媒体信息检索中具有很大的应用潜力,他们提出了通过合并标签相似性的信息来计算标签云之间的相似度的方法[39]。Sinclair 与Cardew-Hall通过对关于用户在什么情况下选择标签云或传统的检索界面来查询信息的实验发现,在查找特定的专门信息时,用户多选择传统的检索界面,而当查询任务是较普通的信息时,用户则愿意选择使用标签云[40]。Bateman等人研究了标签云的何种视觉属性能吸引用户的注意,以影响用户发现标签的便利性[41]。

3 未来研究方向

3.1 寻求自由与规范化、自动化的和谐

自出现伊始,社会标注最吸引用户的便是其自由的特性:自由参与、自由使用、自由表达。但也由此造成了社会标注固有的一些缺陷:标签拼写不规范甚至错误,同义、歧义、语法关系糊涂,权重表达缺失等[42],这些缺陷都影响了社会标注的信息标引、检索功能的发挥。于是业界开始探寻对社会标注的规范化、自动化,例如,规范标签的拼写;按本体的思想规范标签,将标签结构化、组合化;自动为资源添加标签。这些研究在一定程度上加强了社会标注对信息资源的标引、检索,但是值得注意的是,规范化的同时也意味着自由乐趣的减少,在社会标注规范化、自动化的研究中,要注意保护社会标注自由的特性,寻求自由与规范的和谐,既要提高社会标注的信息标引、检索的质量,又要让用户充分享受自由标注的乐趣。

3.2 标签降噪

社会标注中的语义、语法表达及拼写的不规范等缺陷都会给标签制造一些噪声,这就需要研究降低、去除标签噪声的方法,以提高社会标注的信息标引、检索的准确性、全面性。目前的研究对语法关系模糊、权重表达缺失的关注较少,未来应该予以积极探讨。当前消除标签歧义的方法主要有数据挖掘、统计分析以及采用知识组织工具、控制机制和可视化组件等,其中前两种方法属于单纯的定量方法,不需要用户参与判断,因此具有较好的应用前景,研究者需要探索更有效的挖掘方法和数学模型,扩大实验规模,以提高通过数据挖掘、统计分析消除标签歧义的准确性及效率[43]。

另外,在目前的社会标注系统中,存在大量恶意、无用的垃圾标签,干扰了其对信息资源的揭示、检索和共享。目前的研究对此涉及尚少,而且不少社会标注系统是采用手工方式识别、删除垃圾标签。因此,对垃圾标签的表现形式、制造者的心理与行为研究以及对其自动识别与自动删除的研究应是未来发展方向之一。

3.3 标签序化、层级化

由于社会标注具有自由性,用户使用的标签可能是杂乱无章、无序的。社会标注对资源进行的自下而上、由用户主导的分类,呈现出一种平面式的结构,标签之间是平等的关系,无上下位类的层次关系。标签的无序性、层次缺乏性将导致社会标注无法很好地揭示标签之间复杂的关系,不能很好地组织知识信息,阻碍其信息检索功能的发挥。虽然针对这些问题,研究者都已展开探索,提出利用标签云、标签概念空间等方法解决标签序化问题[44],利用与受控词表的关联、映射获得标签层级[33],利用标签隐含的概念为标签建立层次[45],但是这些方法都存在局限性,难以与社会标注的标引、检索有效地融合。因此,如何为社会标注建立合适的层级结构、如何使标签有序化,也是未来研究的发展方向。

3.4 基于社会标注的语义检索

语义检索是指检索工作不再拘泥于用户所输入的检索词与信息资源的字面本身,而是通过提取其中的语义信息并对其进行推理、匹配等处理,更准确地向用户返回最符合其信息需求的检索结果。这是近年来得到迅速发展的一种高级检索方式。社会标注是用户对资源的描述、概括,带有很强的语义性。应用本体的思想构建标签本体,从中提取语义信息,实现基于社会标注的语义检索将是未来研究的前沿及热点问题。

4 结 语

社会标注出现的时间并不长,但它却以独特的自由性吸引用户参与其中,织就了一个联系用户、资源、标签的信息网络,为信息资源的标引、组织、检索提供了全新的自由、开放、共享的模式。不少研究者对基于社会标注的信息标引、检索进行研究,取得了一系列成果。但总的来说,这些研究还处于探索阶段,研究对象往往局限于个别社会标注系统,研究成果多为试验性的,要将其产业化应用,仍需要大量的后续研究。

[1]魏建良,朱庆华.社会化标注理论研究综述[J].中国图书馆学报,2009(6):88-96.

[2]Macgregor G, McCulloch E.Collaborative Tagging as a Knowledge Organisation and Resource Discovery Tool[J].Library Review,2006(5):291-300.

[3]Thomas M, Caudle D M, Schmitz C M.To Tag or Not to Tag?[J].Library Hi-Tech, 2009 (3):411-434.

[4]Spiteri L F.The Structure and Form of Folksonomy Tags: The Road to the Public Library Catalog[J].Information Technology and Libraries,2007 (3):13-25.

[5]Robu V, Halpin H, Shepherd H.Emergence of Consensus and Shared Vocabularies in Collaborative Tagging Systems[EB/OL].[2011-10-10].http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.161.7359.

[6]Passant A, Laublet P.Meaning of a Tag: A Collaborative Approach to Bridge the Gap Between Tagging and Linked Data[EB/OL].[2011-03-25].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.142.6915&rep=rep1&type=pdf.

[7]Meo P D, Quattrone G, Ursino D.Exploitation of Semantic Relationships and Hierarchical Data Structures to Support a User in His Annotation and Browsing Activities in Folksonomies[J].Information Systems, 2009(6):511-535.

[8]Kim H L, Decker S, Breslin J G.Representing and Sharing Folksonomies with Semantics[J].Journal of Information Science,2010 (1):57-72.

[9]Alba E, Luque G, Araujo L.Natural Language Tagging with Genetic Algorithms[J].Information Processing Letters, 2006 (5):173-182.

[10]Gruber T.Ontology of Folksonomy: A Mash-up of Apples and Oranges[J].International Journal on Semantic Web and Information Systems,2007 (1):1-11.

[11]Kim H L, Yang S-K, Song S-J, et al.Tag Mediated Society with SCOT Ontology[EB/OL].[2011-03-24].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.142.7977&rep=rep1&type=pdf.

[12]Ding Ying, Jacob E K, Fried M, et al.Upper Tag Ontology for Integrating Social Tagging Data[J].Journal of the American Society for Information Science and Technology, 2010 (3):505-521.

[13]Kim H L, Scerri S, Breslin J G, et al.The State of the Art in Tag Ontologies: A Semantic Model for Tagging and Folksonomies[EB/OL].[2011-03-28].http://dl.acm.org/citation.cfm?id=1503431.

[14]Yang Yang, Huang Zi, Shen Hengtao, et al.Mining Multi-Tag Association for Image Tagging[J].World Wide Web-Internet and Web Information Systems, 2011 (2):133-156.

[15]Yang H C.Automatic Generation of Semantically Enriched Web Pages by a Text Mining Approach[J].Expert Systems with Applications, 2009 (6):9709-9718.

[16]Kim J W, Candan K S, Tatemura J.Organization and Tagging of Blog and News Entries Based on Content Reuse[J].Journal of Signal Processing Systems for Signal Image and Video Technology, 2010(3): 407-421.

[17]Kim H N, Ji A T, Ha I, et al.Collaborative Filtering Based on Collaborative Tagging for Enhancing the Quality of Recommendation[J].Electronic Commerce Research and Applications, 2010 (1):73-83.

[18]Wang Jun, Clements M, Yang Jie, et al.Personalization of Tagging Systems[J].Information Processing & Management, 2010(1):58-70.

[19]Lee S H, Neve W D, Ro Y M.Tag Refinement in an Image Folksonomy Using Visual Similarity and Tag Co-Occurrence[J].Signal Processing-Image Communication, 2010 (10):761-773.

[20]Symeonidis P, Nanopoulos A, Manolopoulos Y.A Unified Framework for Providing Recommendations in Social Tagging Systems Based on Ternary Semantic Snalysis[J].IEEE Transactions on Knowledge and Data Engineering, 2010 (2):179-192.

[21]Yang Song, Zhang Lu, Giles C L.Automatic Tag Recommendation Algorithms for Social Recommender Systems[EB/OL].[2011-10-10].http://research.microsoft.com/apps/pubs/default.aspx?id=79896.

[22]Song Yong, Zhuang Ziming, Li Huajing, et al.Real-Time Automatic Tag Recommendation[EB/OL].[2011-03-26].http://www.cse.psu.edu/~huali/pdf/sigir.pdf.

[23]Sevil S G, Kucuktunc O, Duygulu P, et al.Automatic Tag Expansion Using Visual Similarity for Photo Sharing Websites[J].Multimedia Tools and Applications, 2010 (1):81-99.

[24]Angus E, Thelwall M, Stuart D.General Patterns of Tag Usage Among University Groups in Flickr[J].Online Information Review, 2008(1):89-101.

[25]Fu W T, Kannampallil T, Kang R, et al.Semantic Imitation in Social Tagging[J].ACM Transactions on Computer-Human Interaction,2010(3):1-37.

[26]Bar-Ilan J, Zhitomirsky-Geffet M, Miller Y, et al.The Effects of Background Information and Social Interaction on Image Tagging[J].Journal of the American Society for Information Science and Technology, 2010 (5):940-951.

[27]McDonnell M, Shiri A.Social Search: a Taxonomy of, and a User-Centred Approach to, Social Web Search[J].Program-Electronic Library and Information Systems, 2011 (1):6-28.

[28]Morrison P J.Tagging of and Searching: Search Retrieval Effectiveness Folksonomies on the World Wide Web[J].Information Processing & Management, 2008 (4):1562-1579.

[29]Abel F, Baldoni M, Baroglio C, et al.Leveraging Search and Content Exploration by Exploiting Context in Folksonomy Systems[J].New Review of Hypermedia and Multimedia, 2010(1-2):33-70.

[30]Kim H H.Toward Video Semantic Search Based on a Structured Folksonomy[J].Journal of the American Society for Information Science and Technology, 2011 (3): 478-492.

[31]Ungrangsi R, Anutariya C, Wuwongse V.Enhancing Folksonomy:Based Content Retrieval with Semantic Web Technology[J].International Journal on Semantic Web and Information Systems,2010(1):19-38.

[32]Yi K.A Semantic Similarity Approach to Predicting Library of Congress Subject Headings for Social Tags[J].Journal of the American Society for Information Science and Technology, 2010(8): 1658-1672.

[33]Yi K, Chan L M.Linking Folksonomy to Library of Congress Subject Headings: an Exploratory Study[J].Journal of Documentation, 2009(6):872-900.

[34]Steele T.The New Cooperative Cataloging[J].Library Hi-Tech, 2009(1):68-77.

[35]Li Xirong, Snoek G M, Marcel W.Learning Tag Relevance by Neighbor Voting for Social Image Retrieval[EB/OL].[2011-03-26].http:// staff.science.uva.nl/~xirong/pub/MIR08.pdf.

[36]Cui Jianwei, Liu Hongyan, He Jun, et al.TagClus: A Random Walk:Based Method for Tag Clustering[J].Knowledge and Information Systems, 2011(2):193-225.

[37]Peters I, Stock W G.''Power Tags'' in Information Retrieval[J].Library Hi-Tech, 2010(1):81-93.

[38]Clements M, De Vries A P, Reinders M J T.The Influence of Personalization on Tag Query Length in Social Media Search[J].Information Processing & Management, 2010(4):403-412.

[39]Park J H, Choi B C, Kim K.A Vector Space Approach to Tag Cloud Similarity Ranking[J].Information Processing Letters, 2010(12-13):489-496.

[40]Sinclair J, Cardew-Hall M.The Folksonomy Tag Cloud: When Is It Useful?[J].Journal of Information Science, 2008(1):15-29.

[41]Bateman S, Gutwin C, Nacenta M.Seeing Things in the Clouds:The Effect of Visual Features on Tag Cloud Selections [EB/OL].[2011-03-27].http://dl.acm.org/citation.cfm?id=1379130.

[42]靳延安, 李瑞轩, 文坤梅,等.社会标注及其在信息检索中的应用研究综述[J].中文信息学报,2010 (4):52-62.

[43]窦玉萌.基于网络协作标注的标签消歧方法述评[J].现代图书情报技术,2010(3): 27-32.

[44]易 明, 邓卫华.基于标签的个性化信息推荐研究综述[J].情报理论与实践,2011 (3):126 -128.

[45]Hak L K, Suk H H, Hong G K.FCA:Based Approach for Mining Contextualized Folkso-Nomy[G]// ACM Symposium on Applied Computing (SAC 2007).New York: ACM, 2007:1340-1345.

猜你喜欢
标引信息检索检索
2019年第4-6期便捷检索目录
档案主题标引与分类标引的比较分析
本刊对来稿中关键词标引的要求
医学期刊编辑中文献信息检索的应用
新闻传播(2016年18期)2016-07-19 10:12:06
专利检索中“语义”的表现
专利代理(2016年1期)2016-05-17 06:14:36
本刊对来稿中关键词标引的要求
基于神经网络的个性化信息检索模型研究
教学型大学《信息检索》公选课的设计与实施
河南科技(2014年11期)2014-02-27 14:10:19
本刊对来稿中关键词标引的要求
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例
图书馆界(2013年5期)2013-03-11 18:50:29