开放知识社区用户分类研究*——以中文维基百科为例

2016-10-13 20:13陈耀华杨现民
现代教育技术 2016年6期
关键词:领域专家贡献者维基百科

陈耀华 杨现民



开放知识社区用户分类研究*——以中文维基百科为例

陈耀华1杨现民2

(1.北京师范大学远程教育研究中心,北京 100875;2.江苏师范大学智慧教育学院,江苏徐州221116)

开放知识社区既是知识创新与分享的重要聚集地,又是智慧的策源地。在开放知识社区中,用户是内容的分享者、创建者和智慧的提供者,对用户的类型加以区分和研究,可促进人们在开放知识社区中发挥更加积极的作用,更好地促进知识的分享、创新与智慧生成。文章采用数据挖掘等研究方法,深入研究用户分类,研究不同类型用户之间的协作模式,基于对大量数据的分析将用户分为领导者、领域专家、词条贡献者、词条维护者、边缘用户等5种类型,并提出资源进化中的用户协作模式。

开放知识社区;用户分类;维基百科;资源进化;知识创新

一问题的提出

随着Web 2.0技术及其带来的开放共享理念的普及,开放知识社区应运而生并迅速发展壮大,它已成为信息时代知识创新与分享的重要聚集地,在学习型社会构建中的作用愈发突出[1],成为终身学习信息资源建设的重要组成部分[2][3]。在人类由信息社会走向智慧社会、教育由教育信息化走向智慧教育的新时代[4],开放知识社区将成为智慧的策源地。对开放知识社区中的用户进行研究,成为近几年图书情报界、管理学界、教育技术界、远程教育界等学界研究的新热点。学界对网络知识社区服务中的用户持续使用行为影响[5]、用户参与虚拟社区中产品创新的影响因素[6]、专业虚拟社区用户忠诚度[7]、知识社区用户关系及其对知识共享行为[8]、虚拟社区用户知识隐藏行为[9]、虚拟知识社区用户知识贡献行为等进行了研究[10],研究呈现出不断向纵深发展的趋势。用户的行为受各种因素影响,导致不同类型的用户有其不同的行为方式。因此,有必要对用户的类型加以区分,针对不同用户类型进行优化施策,以促进人们在开放知识社区中发挥更加积极的作用,更好地促进知识的分享、创新与智慧生成。

二研究设计

1 研究对象

本研究在广泛调研和论证的基础上,选择了世界上用户量最大、最具影响力的开放知识社区的典型代表——维基百科作为研究样本。维基百科是由280多种语言编写的网络百科全书式的开放知识社区,截至2015年11月1日,所有语言的独立运作版本共3700万个条目,总登记用户超过5900万人,总编辑次数超过21亿次。为了使所分析的研究能对我国的开放知识社区有更广泛的借鉴意义,本研究选择中文维基百科作为研究对象进行深入研究。

2 数据来源

维基基金会大约每隔3周对属下所有语言版本维基百科的数据下载备份,形成一个时间点的归档(下载地址为http://download.wikipedia.com/zhwiki/)。备份的目的除了用于灾难恢复,更重要的是为所有有志于参与维基百科学术研究的个人和团体提供数据支持;备份的内容除了所有条目的内容,还包括页面链接的列表以及图片元数据等内容。维基基金会提供了不同时段的pages-meta-history备份(提供所有页面的所有历史版本,适合于学术研究),随着建设的不断延续,备份数据量越发庞大,最近的备份数据量在未压缩的情况下达到140Gb。利用这些信息可以得到所有用户协同行为的量化属性值,这为分析用户行为并分类奠定了良好的基础。

3 数据过滤

本研究所探讨的开放知识社区用户,应是具有建设行为并努力为社区的发展贡献力量的用户。但是,由于维基百科社区的开放性,难免鱼龙混杂,也会出现一些危害社区发展、给学术研究造成困难的情形。因此文章在进行统计分析时,首先将维基百科社区中的以下5类用户剔除[11]:被封禁的用户、傀儡用户、用户名不规范的用户、机器人用户及匿名用户。此外,在所有的内容条目中,有一些条目也不适于纳入研究范畴,需要从数据集中剔除,主要包括重定向页面、消歧页和列表页。

三基于贡献的维基百科协同用户分类

用户对每个词条进化的平均贡献,反映了用户对词条的投入程度及其所发挥的作用,是区分不同用户类型的重要依据,而其贡献取决于用户自身的知识水平和将知识转化为符合维基百科标准的资源内容的兴趣与能力。

对中文维基百科数据转储文件的page数据表进行处理,在去除了重定向页面、消歧页和列表页之后,共得到743432个词条页面,所有用户都围绕这些词条开展协同建设。社区中共有注册用户192345人,共协同完成了13156445次编辑,平均每个用户进行了68.4次编辑,平均每个词条有17.7次编辑(仅计算注册用户对词条的编辑)。

对清洗出的数据进行处理,将用户在同一词条的编辑贡献累加,可以得到该用户为该词条进化所做的贡献;将用户所有编辑词条的贡献量累加,则可以得到用户为整个社区资源进化所做的贡献。由于用户对词条的编辑可能既有增加,也有删减,所以用户贡献有可能为负值,即用户对该词条的编辑以删减内容为主。

图1 用户的平均贡献量分布表

图1显示了每个贡献度区间内的用户数量,可以看到贡献度的分布明显可以分为几个部分:在[0.9, 0.5]区间(即贡献50%~90%的区间),可以看出用户分布非常均匀,几乎每个区间的用户数量差别不是很大;在[0.5, 0.1]区间,用户数量开始稳步提升;在[0.1, -0.1]区间,用户数量暴涨,在这个区间的用户数达到了总用户数的69%,随后用户数量迅速减少。

不同区间的用户,其行为特点也有所差异。对于平均贡献大于0.5的用户来说,这意味着一个词条中有超过一半的内容是由该用户贡献的,该用户为该词条的主导者。这类用户除了亲自编写内容外,往往还会负责引领词条的进化方向、规划内容的结构等,是词条建设的积极组织者和带头人。对于平均贡献在0.1~0.5这个区间的用户来说,他们尽管在词条协同进化中不占主导地位,却是整个协同进化过程中不可或缺的中坚力量——毕竟,词条建设“带头人”的群体只占总用户数量的6.6%,面对数量如此众多的词条,仅靠这一小部分“带头人”是无法完成的。平均贡献在0.1~0.5这个区间用户是前一类用户积极的追随者和稳定的协作者,按照词条编辑的预定目标,最大程度地贡献自己的力量。另一类用户是整个用户群体的低端用户,他们的平均贡献不超过0.1。这意味着他们在词条编辑过程中所起的作用微不足道,但是这个数量庞大的群体却是社区存在的坚实基础。

图2 用户参与词条数量分布表(≤10)

用户参与编辑的词条数量,往往反映用户的参与和活跃程度。用户越是活跃,越是积极参与,那么该用户所涉及的词条也就越多。与用户的平均贡献类似,用户参与编辑的词条数量分布也是极不均衡。绝大部分用户在其加入社区的整个周期内只参与了一两个词条的协同编辑。图2显示了参与词条数量在10以内的用户分布。

由统计数据得知,只参与了一个词条编写的用户数量高达100029人,占总用户数的52%,即有超过一半的用户处于极度不活跃的状态。编辑词条数在5个以下的用户数共计157411人,占总用户数的81.83%。这一部分用户可以视为社区中的不活跃人群,是社区沉默者,社区流失的成员大部分来自于这个群体。从用户的分布数量看,编辑词条数量在1~5之间的用户数量从100029人急剧减少,随后人数呈缓慢下降趋势。图3进一步显示了较活跃用户(词条数量大于6)的数量分布。

图3显示用户数量先是显著下降,当到达51~60这个区间段后开始平缓下降。可以认为从这个区间段开始,用户表现出了非常显著和活跃的协同建设行为。当一个用户参与词条的数量超过50,可认为该用户已经完全熟悉并掌握了社区的基本规则,并以积极的态度参与社区词条的协同建设。尽管他们可能不具有很多的专业知识,不能引领每一个词条的发展方向,但是他们尽可能地发挥自身的优势,为社区做出自己的贡献。在这类用户中还存在一些“超人”用户:有21个用户参与词条数量超过10000,其中参与建设词条最多的用户竟参与建设了33264个词条。正是这类活跃用户的努力,繁荣了整个社区。第三类用户是处于上述两类用户之间的“中间用户”。这类用户逐渐从不活跃的状态向活跃的状态转变,开始有意识地寻找一些自己关心或是感兴趣的词条,试图从中发现可以贡献自身知识的机会。由于人数上的优势(约为活跃用户的4倍),这类用户也是社区繁荣的支撑力量。

图3 用户参与词条数量分布(>6)

通过以上分类分析,可以得出适用于分析用户协作贡献行为及其特征的分类法,进而所有的用户按照分类法都会分到一个恰当的类别中,分类的结果如表1所示。

表1 用户分类结果

初始的分类结果形成9个类,并且不同类间用户数量差别非常大。由于本研究的目的是考察不同类型的用户参与社区资源协同建设的动机因素,因此形成的用户分类应该具备两个特点:①分类之间的界限明显,分类应该突出本类别用户的明显特点;②分类应该与时间关联较小。由于用户加入社区的时间有先后,因此用户特征会随时间变化,从一种类型的用户转变为另一种类型的用户。如果分类本身与时间的关联度很高,则意味着该类别的用户转换速度非常快,该分类很可能只是用户的过渡状态,而用户的真实行为特征并不一定与分类特征相符合。

基于以上特点要求,故要相应地合并一些分类。合并的依据是将人数较少的分类合并到相似的分类中,并将区分度不够明显的分类合并为一类。经过进一步分析数据,表1中分类2和分类3的界限并不明显,分类2的用户平均贡献度同分类3非常接近,参与编辑词条的数量仅略高于分类3,同时分类2的用户数量非常少,故将分类2和分类3合并;对于分类4、分类5及分类6,这三类用户有着相似的用户平均贡献度,参与的词条数量多少与加入社区的时间长短有较大关系,即经过一段时间后会有相当一部分用户从“低级”的分类向“高级”的分类转化,因此将分类4、分类5及分类6合并;基于同样的原因,将分类7和分类8合并。最终,将维基百科的协同用户划分为5个类别:领导者、领域专家、词条贡献者、词条维护者、边缘用户。

四不同类型用户贡献及行为的进一步分析

1 领导者的贡献及行为分析

在知识社区中,“领导者”是所有类别中人数最少的,但却是最投入的群体。领导者共参与了135269个词条的编写,平均每个人参与了647个词条。该类用户的另外一个特点是参与的词条贡献均值很高,但是贡献的方差很大。在参与的所有词条中对41.7%的词条贡献度超过80%,几乎达到了单个“领导者”独立编写词条的程度;与之相对的有39.2%的词条领导者用户的贡献度不足10%。通过进一步分析发现,领导者用户还同时兼有维护者的特征,但领导者用户所做的维护工作与维护者所做的维护工作略有不同——领导者用户不是以消除文字错误、更新信息等为目的,而是以纠正其他用户错误的或不适当的行为为目的。由于维基百科对用户参与的要求较高,除了必须有一定的独立撰写能力、遵从维基百科的编写规范,还必须熟悉编写系统和标记语言的用法。对于没有经验的用户来说很容易犯错,领导者用户于是承担着引导用户的责任,希望用户能在参与编辑的过程中不断提升自身的水平。

2 领域专家的贡献及行为分析

领域专家拥有和领导者类似的平均词条贡献,但是其参与词条的数量要少得多。领域专家共有11869人,参与了26873个词条的编写,平均每个人参与不到2.3个词条。与领导者不同,领域专家的词条贡献离散程度要小得多,说明该类用户的协作模式非常稳定。每参与一个词条,就尽全力将其做好,而对于其它词条则完全不予理睬。

领域专家用户和领导者用户都属于能够主导词条进化方向的用户。同时有领导者和领域专家参与编写的词条共计1251个,只占领域专家参与词条总数的4.7%,占领导者参与词条的比例更是微不足道。这说明这两类用户彼此之间很少发生协作行为,但并不意味着这两类用户是特立独行的。事实上,在有领域专家和领导者参与的词条中,参与协作的用户数量平均为136人/词条,远远高于社区的均值48人/词条。尽管这两类用户掌控了词条的编辑工作,但是似乎“独裁”并未影响用户的参与程度,反倒是由于这两类用户的积极投入,给其他用户带来了更多的参与机会去丰富词条的内容并提升词条的质量。

3 词条贡献者的贡献及行为分析

词条贡献者是所有用户中参与范围最广的群体,共参与了698188个词条的编写,占整个维基百科词条数量的93%,平均每个用户参与编写18.6个词条。巨大的参与数量意味着该类用户与其他几类用户都具有较强的联系。其中,词条贡献者与领导者协作参与了93511个词条,占领导者参与总量的69.1%;与领域专家协作参与了19673个词条,占领域专家参与总量的73.2%。说明词条贡献者积极地参与了这两类用户领导的词条的编写工作。另外,尽管领导者和领域专家都是维基百科社区的优质用户,但是其参与的词条总数只占社区中词条总数的21.6%。社区的精英并不能完成所有的工作,还必须要依靠那些热心的普通用户配合。

4 维护者的贡献及行为分析

维护者也是一个广泛参与资源协作建设的群体。该类用户共参与了536759个词条的编写,约占词条总量的72.2%,平均每个用户参与编辑26.2个词条。维护者与词条贡献者具有类似的特征,同以上3类用户的联系也非常紧密。其中,维护者与领导者共同参与了75561个词条,占领导者参与总量的55.9%;与领域专家共同参与了19251个词条,占领域专家参与总量的71.6%;与词条贡献者共同参与了489191个词条,占贡献者参与总量的70.1%。由此可见,维护者与社区中前3类用户的协作关系明显。

5 边缘用户的贡献及行为分析

边缘用户是人数最多的一类用户,但只参与了126092个词条的编写,平均每人参与的词条为1.03个,是所有类型用户中对词条贡献最少的。边缘用户与其他类用户的协作呈现两极分化的特征:与领导者共同参与了18031个词条,占领导者参与总量的13.3%;与领域专家共同参与了4407个词条,占领域专家参与总量的16.4%。而与之相对的,与词条贡献者共同参与了123948个词条,占边缘用户参与总量的98.3%;与维护者共同参与了119787个词条,占边缘用户参与总量的95.0%。可见,边缘用户几乎所有的协作行为都是与词条贡献者和维护者之间发生的,而与领导者和领域专家的协作非常少。

五优化建议

从以上5类用户之间协作的交集可以看出,社区中主要存在两种形式的协同:一种是以领导者或者领域专家为主导,词条贡献者和维护者参与辅助性工作,最终完成词条建设的协同;另一种是参与词条建设的用户中没有真正的主导者,而是由多个词条贡献者和维护者通力合作,利用集体的力量共同完成建设的协同。不同类型的用户通过不同的协同模式为社区贡献力量,最终才造就了维基百科的繁荣和成功。基于此,建议我国在未来建设开放知识社区时,增设三项措施:一是增设类似传统媒体的把关人制度,请相关领域的专家对所擅长的条目内容进行完善性把关;二是对以上5类用户设置不同的权限,以保障条目内容始终维持高质量的水平;三是制定针对以上5种用户的激励措施,以保障开放知识社区的可持续发展。

参考文献:

[1]杨现民.开放知识社区中学习资源进化现状与问题分析——以学习元平台为例[J].中国电化教育,2015,(11):45-53.

[2]陈琳,王矗,陈耀华.终身学习信息资源建设的战略意义与模式创新[J].现代远程教育研究,2012,(4):41-46.

[3]陈琳,陈耀华.以信息化带动教育现代化路径探析[J].教育研究,2013,(11):114-118.

[4]陈琳,陈耀华,张虹,等.教育信息化走向智慧教育论[J].现代教育技术,2015,(12):12-18.

[5]高灵,胡昌平.网络知识社区服务中的用户持续使用行为影响分析[J].现代情报,2014,(1):14-17.

[6]钱坤,孙锐.用户参与虚拟社区中产品创新的影响因素研究——扎根理论研究方法的运用[J].科技管理研究,2014,(6):5-10.

[7]谷斌,徐菁.基于知识共享的专业虚拟社区用户忠诚度挖掘[J].情报科学,2015,(1):105-110.

[8]胡昌平,万莉.虚拟知识社区用户关系及其对知识共享行为的影响[J].情报理论与实践,2015,(6):71-76.

[9]甘文波,沈校亮.虚拟社区用户知识隐藏行为影响因素研究[J].情报杂志,2015,(11):168-174.

[10]万莉,程慧平.虚拟知识社区用户知识贡献行为影响因素研究——贡献者和潜水者比较[J].情报理论与实践,2015,(12):93-97.

[11]Greenstein S, Zhu F. Is Wikipedia biased? [J]. The American Economic Review, 2012,(3):343-348.

编辑:小西

Research on the Classification of Users in Open Knowledge Community——A Case Study of Chinese Wikipedia

CHEN Yao-hua1YANG Xian-min2

Open knowledge communities are becoming important gathering places for knowledge innovation and sharing. In the open knowledge communities, users are the creators and participators of content and also the providers of wisdom. Classifying the type of users would help people play a more positive role in the open knowledge communities, and improve the innovation, sharing of knowledge and generation of wisdom more preferably. This paper researcher the users classification and the collaboration mode between different types of users employing the methods of data mining. On the basis of analyzing massive data, users were divided into five categories such as leaders, domain experts, article contributors, article maintainers and marginal users and the collaboration mode between users was put forward in the evolution of resources.

open knowledge community; users classification; Wikipedia; resource evolution; knowledge innovation

G40-057

A

1009—8097(2016)06—0047—07

10.3969/j.issn.1009-8097.2016.06.007

本文为国家社会科学基金教育学青年课题“开放环境下学习资源进化机制设计与应用研究”(项目编号:CCA130134)的阶段性研究成果。

陈耀华,在读博士,研究方向为知识进化、智慧教育,邮箱为chenyaohwa@126.com。

2016年4月5日

猜你喜欢
领域专家贡献者维基百科
良好睡眠,健康同行
维基百科青年
从“学习者”到“贡献者”:中国管理学发展的路径
“‘一国两制’杰出贡献者”国家荣誉称号
现当代文化贡献者——布赫贺希格
社交网络中领域专家发现模型研究
一种交互式事件常识知识的获取方法
基于科技文献库的领域专家群发现及其推荐方法
APP
IBM的监视