范忆慧
(广东海洋大学图书馆,广东湛江 524088)
网络标签是一种互联网内容组织方式,它帮助人们轻松地描述和分类内容,以便于检索和分享。标签(Tag)是自由分类法Folksonomy的具体表现形式,是用户赋予特定信息资源的标识,用于描述资源的主题、类型、功能等多种特征,代表用户对资源的理解和偏好,是实现信息资源组织和共享的基础[1]。标签以人为信息传递和交换为核心,实现了由机器与人到人与人的传播方式的改变,开创了互联网信息传播的新阶段。目前,标签已成为网络常见的应用方式,提供标签的网站越来越受欢迎。
因特网上的海量信息资源存在2种不同的使用模式[2]:一种是传统的由信息资源、元数据、用户三元素组成的元数据使用模式;另一种是由信息资源、网络标签、用户三元素组成的网络标签使用模式。元数据、标签都是对网络信息资源进行描述,以便于管理和方便用户对数字资源的使用。
1)来源不同。元数据来源于专业人员,网络标签来源于用户。
2)原理不同。元数据按着严格的专业条件给予,有预设的结构模式,不能随意更改。网络标签则是用户根据个人喜好自由给予,没有预设的结构模式,在应用中不断进行优化。
3)用户性质不同。元数据中的用户仅仅是使用者而非建设汇聚者,操作和维修成本高。标签的用户既是建设者又是使用者,用户在应用与建设“数字资源”与“Tag标签”的过程中,相互之间能不断建立社会联系。
Folksonomy是因Web2.0而流行起来的信息组织方式,它是一个创造词,由folk和tax onomy组合而来,称为“自由分类法”,也叫“大众分类法”、“社会分类法”、“草根分类法”等[3]。网络标签是Folksonomy形成和使用的基础,也是 Folksonomy词汇体系的基本构成单元。用户按个体需求对信息资源自由添加标签,该行为是在一个社会化的环境中进行,这个环境是开放和共享的。“自由分类法”最早提出者、美国互联网专家Thomas Vander Wal认为,Folksonomy的形成受2方面因素的影响:用户个人的网络信息组织需求与网络环境的社会化。
将豆瓣图书标签中热门标签截取2行(局部),如图1所示。
图1 截取标签实例
由图1可以看出,标签之间用空格隔开,由大小不同的标题词构成。标签的语法构成可以是单词,也可以是单个汉字、短语和句子等。标签字号有大小之分,字体越大说明这个标签的使用频率越高。在图1中,“村上春树”等是使用频率最高的标签。
用户根据个人喜好、认知和需求将书名划分为不同粒度的标签。例如:书名《魔卡少女樱》就可以切分为“魔卡”、“少女樱”、“魔卡少女樱”等不同的标签,可以是名词、形容词、动词、介词等,词性不限。还可以从图书隐含的意义、类型特征给予标签。如《魔卡少女樱》豆瓣成员常用的标签(共181个)中用户标签频率高的前8个是:“CLAMP”(953)、“漫画”(712)、“魔卡少女樱”(459)、“日本漫画”(332)、“少女漫画”(223)、“日本”(199)、“经典”(120)、“小樱”(108)。
网络标签服务Delicious的创始人、谷歌工程师Joshua Schachter在1998年提出了网络标签概念,对各种网络信息资源进行标注,它包括存在于互联网中的各种类型的信息资源,如图书、文章、网页、文献、博客、图片、视频、音频等信息资源。
个人用户通过为网络资源添加标签,可以方便日后的查看、检索和使用,从而实现个人信息资源的组织和管理。每个公众用户都可以看到其他人组织和管理的信息资源,从而实现了资源的共享。标签就是由用户在这类系统中以协作标注的方式共建信息共享空间的概念表述。
网络标签具有的特性:① 随意性。标签是人的一种随心所欲的行为,只要能方便地找到它,用户就可以随意地用任何词来标记它。②多样性。Tag和关键词不一样,与目录、主题词也不相同。Tag是一种私人标注,是建立在用户对内容的自身理解之上的,不一定专指主题,可以是内容和时间或者同文章主题没有联系的词汇,能从多个维度来揭示网络信息资源内容。③自由性。可随遇随存,组织自由,收藏自由,创建组群自由。④ 动态性。任何人在应用网络标签后,他人立刻可以看到这些标签,还可以增加或修改,是网络用户相互作用的结果。常用标签按字顺形成标签总图(Tag cloud),标签处于动态变化中。标签的动态性表现为生命周期和生命活力。生命周期是标签进入到退出系统之间的过程。生命活力的大小与标签所承载信息的质量和价值相关。通过标签总图反映出网络资源和用户需求的变化情况。⑤实效性。用户通过少量标签就能很好地聚合某一时间、某些人关注的某些“焦点”和“热点”问题。⑥ 社会性。其核心价值在于“共享”。Tag可实现朋友间、家人间、共同兴趣群组间的网络收藏与分享,用RSS方式订阅感兴趣对应的资料,发现志同道合者及他们的标签。⑦平行性。各标签之间是一种平行关系,属于扁平化的组织,但可根据相关性,将经常一起出现的标签关联起来。⑧模糊性。标签提供多个分类揭示途径。由个别的介词、助词等组成的不常用的标签、大量的同意义标签都不具有明显的意义,对信息资源的有效标引和检索不清晰。即使点击率高的可以突出显示,但也难免被浩如烟海的信息所淹没。⑨垃圾标签。一些使用频率特别高等标签中会出现一些毫无关系的垃圾资源条目,影响整个资源服务系统的运作[4]。
网络标签的优点:①不受地域限制,将资料存放在网络而非本地电脑上。② 可进行标识,以方便查找;③可在索引中指代原件;④ 可以提供关联度;⑤ 可进行分面标引;⑥ 可体现集体智慧。标签已成为注解和组织包括博客在内的各类网络信息资源的重要工具。标签信息自由创建使用是其最大的优点,但无形中又导致标准的质量下降。
网络标签的主要缺点是歧义多、同义多、单复数滥用以及专指度不够。
国外网络标签应用较著名的网站有“Delicious Bibsonom Flickr Simpy”;国内较著名的有“天天网摘”(www.365key.com)、“新浪博客”、“书签”(www.younote.com)、“博采中国”(blogmark.blogchina.com)、“碧海银沙书签”(bookmark.yinsha.com)等。国内的网络标签服务多出现在博客上。新浪、搜狐等为主流博客服务商,允许用户以网络标签形式来组织自己发表的文章,并且利用这些标签提供网站导航服务。
国外几乎所有提供博客服务的图书馆都在博客中嵌入了Tag技术。如美国普林斯顿大学图书馆、美国威斯康辛大学、NewRegent University Library、美国密歇根州大学图书馆等。中国大陆前100名高校图书馆中绝大多数都应用了一种图书馆2.0技术和服务,只有厦门大学图书馆和上海大学图书馆在多项技术和服务上有所尝试。标签依附于网站的灵活运用,不仅可发挥标签揭示隐含内容或信息、分类的作用,还将实现对资源聚合、协同与推荐等功能的充分利用[5]。
个性化信息服务是指针对不同用户的不同特点制定不同策略、不同内容和模式的服务。① 满足用户的个体信息需求,根据用户要求提供服务;②分析不同用户使用习惯、个性需求,为其提供可能需要的信息服务;③为用户提供展示自我、宣传个性的窗口;④针对不同用户提供不同的服务形式和内容。
网络标签是新时代网络用户的便捷工具,更为服务者和研究者提供了宝贵的数字资源 。①对信息使用者来说网络标签能够帮助用户方便、低成本地管理文档,降低学习和迁移的成本。②对提供信息服务的网站来说可吸引更多的用户,便于浏览检索、了解用户的兴趣和视角以及增加个性化的服务。③对网络数据挖掘者来说网络标签数据集是重要的研究资源,多数通过人工取得,其成本低,数量庞大,内容紧跟时代潮流。可以用来计算文档之间的相似度来提高检索的效果,通过分析用户需求发现用户兴趣,从而提供快捷有效的信息资源推荐服务。
梅葛是楚雄地区说中部方言的彝族(主要是罗罗颇、里颇支系)民歌,上世纪50年代云南掀起民族民间文学整理热潮时,梅葛就曾多次被整理,并在1959年正式出版。这次整理,与60多年前不同,不仅工作深入程度有很大差别,而且时代语境和学术范式也有很大不同。这次整理,完成的是“非遗”时代一个堪称典范的“唱本”,而不再只是对“史诗”文本的一次模仿。
网络标签主要有2种标注方法:①手工标注,广泛应用于网页、博客、图像资源的标注;② 自动标注,用于语义网中资源和资源关系的标注。用户完成文章的撰写时,往往被要求自由选择一些简短的词对文章进行标注。自由标注会产生一义多词或者一词多义等问题。如允许用户不依赖于某个受控的词汇表,根据喜好自由对网络信息资源进行标注,则可能使信息呈现发散性而不利于其组织和检索。为此可为用户推荐标签,以提供标注的准确性和收敛性。标签推荐是网络标签服务的重要部分。标签推荐系统的出现进一步减少了用户负担。根据用户之前的标签自动给出标签建议,用户可简单选择或直接使用,减少了标注的时间和动作,帮助吸引其他用户使用标签。图书馆可以利用Tag技术深度发现和发掘图书馆的信息资源,有针对性地进行个性化信息服务。
个性化信息服务按对象可分为科技用户的 、企业用户的、政府机构的、公众用户的、领导决策参考用户的个性化信息服务;按信息资源定制类型可分为我的数据库(my databases)、我的参考书架(my reference shelves)、我的网络连接(my internet links)、我的搜索引擎(my internet search)等。按推送方式可分为频道的、网页的、邮件的个性化信息服务。按用户描述文件存放的位置可分为基于服务器端的、基于代理的、基于客户端的个性化信息服务。按服务模式可分为个性化定制的、特色增值的、个性化推荐的服务模式[6-9]。
个性化信息推介服务是指信息检索或网站系统动态地为用户提供观看内容或浏览建议,概括和分析用户上网浏览、检索、访问行为,从而产生用户兴趣表达、用户聚类、频繁项集、生产关联规则等信息,将无序文档进行个性化排序、语义排序、推荐列表排序等有序化组织,向用户推荐有组织的检索结果、相关内容或用户感兴趣的页面,主动为用户导航[10-13]。
1)用户兴趣搜集。分显性和隐性收集2种方式。显性收集方式包括相关反馈技术中的兴趣学习、预测算法以及用户交互和示例的信息抽取技术。隐性收集方式主要包括基于内容的用户兴趣提取和基于用户查询行为的数据挖掘,包括链接点击次数、用户在线浏览时间、用户复制和下载内容行为等。
2)用户兴趣模型表示。任何人使用网络标签后,其他人立刻可看到这些标签,还可增加或修改标签。常用标签按顺序形成标签总图,即为标签云(Tag cloud)。每个标签云的面积代表热门程度,面积越大表示该标签越热门,使用频率越高。标签云图反映了标签的权重。用户使用Tag的共现频次建立用户Tag网络,然后依据社会网络中的凝聚子群分析,对标签进行聚类,进而映射到相应的知识集合,完成对单个用户的知识聚类。对所有用户的知识子类进行聚类时,依据知识子类与标签云之间的相似性,可使聚类结果形成不同的相似主题。标签使用量呈“幂律分布”特征:排序在前的使用量大,大量的标签处于“长尾”区域。
3)根据用户兴趣的自适应推荐。推荐的基本思想是将用户的查询结果作为用户的初始特征描述,然后根据这个特征描述利用标准信息检索找出一组最相关的Web页面,并将这些页面推荐给用户。用户浏览评分后反馈到系统中,系统对用户特征描述进行自动更新。推荐的目的主要包括:①简化标注程序,方便用户使用,从而增加社会标签系统的可用性和黏性。② 提高标签的质量,减少错拼、歧义等情况,提高标签在信息资源组织、检索、利用和发现方面的作用。③改变标签空间的结构,使得标签空间更快地稳定和收敛,进而涌现语义。根据不同的技术和内容推荐可分为基于内容的推荐、基于协同过滤的推荐、基于关联规则的推荐、基于用户统计信息的推荐、基于效率的推荐、基于知识的推荐等。
图书馆可利用Tag技术深度挖掘读者在使用电子资源和纸质资源中的需求趋向,为图书馆资源建设提供重要的参考。传统的学科导航在很多高校都有应用,但不同程度地存在学科覆盖率低、更新慢、错误多、学科导航数据库深度不够等问题。学科馆员可根据本校的重点学科信息,分类创建初始标签信息,然后由被授权的、对学科知识有较深了解的读者(教师、科研人员、研究生等)利用他们的相关学科知识进一步开发标签信息,也可自行创建新的标签,进而实现重点学科信息分类整合和共建共享,对学科知识库进行良好导航。建立可覆盖国内外本学科领域权威的专业信息资源的导航系统,通过互联网这个信息共享平台实现学科信息资源的共建、共享。为满足大规模标注网络资源的需要,图书馆可定期向用户推送其感兴趣的相关资源,在系统后台自动或者半自动标注网络资源,在前台对用户进行社会标注的推荐,从而提高标注普及率,解决数据的稀疏性。相对于用户的探究与学习,标签系统起到促进作用,而用户可以发现一些新的平时难以检索到的资源,这就是网络标签的价值所在。
[1]孙红莺,次仁拉珍,叶鹰.基于标签的数字图书馆个性化信息检索[J].杭州师范大学学报:自然科学版,2008,7(5):387-391.
[2]庄秀丽.”tag标签”互联应用[EB/OL].[2011-05-24].http://www:docin.com/search.do2007-5-13.
[3]李静.Folksonomy的网络性质研究与应用[J].情报科学,2009,27(10):1483-1486.
[4]郭健峰.Tag在图书馆知识管理中的应用研究[J].价值工程,2011(7):321-322.
[5]刘磊,刘嘉,穆丽娜.国内外高校图书馆2.0应用调查对比分析[J].图书馆理论与实践,2009(11):25-27.
[6]潘梅.用户信息空间自构建——网络书签[J].图书馆学刊,2006(6):123-125.
[7]查先进,吕彬.知识共享视角下的大众标注行为研究[J].图书馆论坛,2010(12):76-80.
[8]司宪策.基于内容的社会标签推介与分析研究[D].北京:清华大学,2009.
[9]王松林.网络资源知识组织的工具[J].山东图书馆学刊,2011(4):9-13.
[10]蔡志宏.Folksonomy在企业知识管理中的应用研究[D].上海:华东师范大学,2009.
[11]易明,曹高辉.基于Tag的知识主题网构建与Web知识推送研究[J].中国图书馆学报,2011(4):4-12.
[12]颜端武,王日芬.信息获取与用户服务[J].北京:科学出版社,2010:219-225.
[13]靳延安,李瑞轩,文坤梅.社会标注及其在信息检索中的应用研究综述[J].中文信息学报,2010,24(4):52-62.