基于用户视角的标签研究综述

2020-05-06 09:12余广艳

科技资讯 2020年5期

关键词：标签

余广艳

摘要：根据基于标签的用户标注行为研究，在各数据库中进行了调研，并从研究的对象、方向以及研究特点等方面进行了梳理分类，归纳出了用户标注动机研究，用户标注行为研究，标注结果及其与受控词表的比较研究以及其扩展方向的国内外研究现状与发展的前景，侧重从研究现状上发现研究的优势以及不足之处，同时结合豆瓣网等图书分享网站的标签模式进行总结，并且进一步挖掘基于标签的用户标注行为模式研究的发展前景，展望下一步研究方向。

关键词：标签用户标注行为大众标注标注行为模式

进入计算机时代，数字形式的标注随之出现，使得标注的功能已经不仅仅局限于满足阅读者个人的需求[1]。于是，在很多分享网站上都增添了标签这一功能。

该文在于对各数据库的与标签标注相关的文献进行调研，从研究的对象、方向以及研究特点等方面进行了梳理分类，归纳出了基于标签的用户标注行为模式研究以及其扩展方向的国内外研究现状以及发展的前景，侧重从研究现状上发现研究的优势以及不足之处，同时结合豆瓣网等图书分享网站的标签模式进行总结，并展望下一步的研究方向。

1 文献调研概述

笔者以“用户标签”“用户标注”“大众标注行为”“大众分类”等为主题词在CNKI数据库中进行了调研。从CNKI中，笔者发现用“用户标签”为主题词查找到的有274条文献检索结果，“用户标注”为主题词有222条检索结果，“大众标注行为”为主题词有46条，“大众分类”为主题词有143条检索结果。初步确定了文献的大致范围后，笔者粗读这些篇名符合要求的文献，进行了简单的分类，然后精读，确定了文献的大致分类，这时共有31篇文献。

根据这样获得的文献，笔者分析出，现有的研究大多着重于用户标注行为、标注行为动机、大众标注、标签质量、标签应用、标签推荐、发展预测等。

2 用户标注动机研究

关于用户标注的动机，国内外的研究者们展开了不同角度的分析研究。目前主要有下列几种研究模式。

一是基于理论模型开展的，如冯齐利用MOA模型（动机—机会—能力模型），对用户的社会化标注行为的动机、机会、能力进行了分析，阐释了由于标注动机以及标注者能力的差异造成的标注结果的差异。

二是基于内容分析法开展的实证分析，如王娜等[2]对网络用户大众标注行为的动机进行抽样调查与分析，发现网络用户标注行为的动机多种多样;用户标注动机会受网站类型、资源类型、标签便利性、用户素养等因素的影响，其中标签便利性对标注动机的影响最为显著。

三是基于理论研究分析开展的总结分类研究分析，如Shilad 指出标注行为普遍来说可以支持5种任务：自我表达、组织行为、学习、寻找与决策支持。此外，Golder等确定了标签的7种功能。

3 用户标注行为研究

同样，对于用户标注这一具体行为，研究者们也展开了丰富的试验和探索。主要在以下两个方向进行研究。

一是基于社会网络对标注过程进行研究。章成志等以腾讯微博为研究对象，得到微博用户标签和用户所发微博内容具有一定程度的关联。在基于Flickr（图片分享网站）的研究中，Cameron Marlow随机挑选了10名用户，对其标签集容量的增长进行分析，同时，也研究了用户之间的标签词汇的重叠问题。

二是研究用户标注的影响因素。Binkowski认为，用户在标注具有复杂内容的网站时，社会认同的效果非常显著。Shilad发现新MovieLens用户比老用户（推出标注服务之前的用户）更愿意共享标注成果，并且标签数量在持续增长。

4 标注结果及其与受控词表的比较研究

在标签标注逐渐发展的现实中，其标注的结果与质量研究随着发展越来越多。目前主要有以下几种研究模式。

一是研究现状调查的综述评价性研究。如吴方枝[3]针对flickr網站用户标签的不规范问题，提出了质量控制对策，国外学者围绕大众标注中标签的研究主要集中研究在标签的概念、优缺点、可视化、相关度处理以及标注性能的改进措施等方面。此外，熊回香等[4]总结了标签与本体相结合的相关研究，对利用在线词表对标签进行规范控制和推荐标签与本体间的映射、构建标签本体等方面对两者的结合进行了概述。

二是基于实证调查开展的。如Cameron Marlow的研究。David R Millen在研究Dogear系统时发现超过80%的书签只含有3个以下的标签，同时，通过调查访问发现用户对于该系统的基于标签的资源导航功能持正面态度。Lund[5]研究Connotea发现用户的标签集容量分布服从幂律分布。

三是基于理论方法体系开展的研究。如Farooq在总结了早前的研究成果后发现提出了一个具有6种衡量指标的体系去描述CiteULike系统中的用户标注行为。

四是基于发展探索性研究。如邱君瑞研究表示，在网络环境下，受控词表的功能将发生很大的变化，未来的受控词表将更多地用于检索，较少用于标引。

与标注相比，受控词表作为一种对知识加以组织整理，以便后续进行检索的手段，随着情报检索由手工检索发展到计算机检索和Inetrnet的普及带来的终端用户的大量增加，受控主题词表的弊端日益暴露出来，自然语言（如相关词）的优势正在渐渐地显现。

5 豆瓣图书标签研究现状

我的研究方向是基于标签的用户标注行为模式研究—以豆瓣图书标签为例。同样的我对关于豆瓣网的标签研究进行了调研研究。

一是基于现状问题的探索性研究，如熊回香等结合豆瓣网这一典型的Web2.0网站，简要介绍了豆瓣网的信息组织模式。此外，羌丽等对豆瓣网图书的大众标注进行调查和分析，在此基础上结合实例，将豆瓣网图书的大众标注与传统的主题标引进行比较，并有针对性地提出一些规范性意见和措施。

二是基于算法的研究，如熊回香还通过选取豆瓣读书上的实例数据，在对标签进行层次聚类的基础上，以中文语义词典“知网”为语料资源，探讨了标签概念空间与领域本体间的映射机制。

6 分析评价

6.1 存在问题

在研究时，存在着很多考虑问题不全面的问题。

如用户标注行为方面，标签使用“零门槛”，激发了用户的广泛参与，促使了标签的流行。而用户文化层次、知识背景上的差异必然导致标签质量的优劣混杂。

由标签形成的系统本质上是一个自然语言检索系统。作为一种完全非受控的自然语言标引，自由标签必然存在着自然语言固有的语义模糊、同音异义、一义多词、同义词等弊病必然会导致查准率和查全率的普遍低下，大大削弱了标签系统的优势和潜能。

有关标签的所有问题，究其根源归于：标注行为过于自由，标签的质量不高，标签的组织方式平面化。有研究表明，标签用户容易受已有标签的影响，因此，用户有被推荐和引导的可能。

此外，从目前的研究可以看出标签质量的评估还存在缺乏系统化的研究等问题，目前的标签质量评估研究仅是基于标签本身，尚未针对不同的应用场合、不同的标签类型、不同的标注对象类型不同用户标注动机等情况进行相应的研究。在进行标签质量评估时应根据以上不同情形，进行有针对性的评估研究，以适应不同应用的需求。

6.2 发展前景

通过文献调研，对基于标签的用户标注行为以及扩展方向的研究进行分析之后，我发现，越来越多的研究开始着重于用户标注行为、大众行为、组织模式、标签的应用等方向，这让我感受到用户标注的研究将更多地放在标签于人的应用上，这也符合了人本社会，信息管理作用于人并服务于人的这一特点。相信，更多的研究在原有研究的经验教训之上，会有更好的研究成果。

7 结语

通过回顾国内外相关研究工作可以看到，至今，基于标签的用户标注行为研究正在不断地完善，从用户标注行为，到用户标注动机研究，用户标注行为研究，标注结果及其与受控词表的比较研究等，越来越多的学者对此进行着探索研究，而基于标签的用户标注行为模式研究依旧处于空缺狀态。为了更好地研究用户标注行为，为标签提供更合适的使用保障，越来越多的学者将继续对用户标注行为进行研究探索，以便标签为用户提供更好的服务。

参考文献

[1] 孟连生，黄国彬，常唯.标注及其演化研究[J].图书情报工作，2008，52（1）：5-8，76.

[2] 王娜，马云飞.网络环境下大众标注行为动机的调查与分析[J].图书情报工作，2013，57（23）：100-107.

[3] 吴方枝.Flickr网站用户标签的质量控制对策[J].图书馆学研究，2012（11）：26-28.

[4] 熊回香，邓敏，郭思源.国外社会化标注系统中标签与本体结合研究综述[J].情报杂志，2013，32（8）：136-141.

[5] Lund B，Hammond T，Flack M，et al.Social bookmarking tools （II）[J].D-Lib magazine，2005，11（4）：1.