李亚平,曹 润,童 露,梁 循,倪志豪
(中国人民大学 信息学院,北京 100872)
腾讯微博的内容生成模式分析
李亚平,曹 润,童 露,梁 循,倪志豪
(中国人民大学 信息学院,北京 100872)
随着Web 2.0 时代网络技术的快速发展,社交类网站用户大规模增加。该文选取腾讯微博近两万名用户,抓取了他们所有的微博数据,对腾讯微博的用户内容生成模式进行分析和研究。我们从微博用户贡献分析、基于时间的用户活跃度分析以及微博影响三个角度出发,对微博的数量、微博的原创与转发、微博发布的周模式与日模式、微博转发影响力以及对影响微博转发的因素进行研究。总结出微博用户内容生成的一些特点,如用户内容贡献呈现一种“90-10”规则,不同类型的用户有着不同的“微博风格”,微博用户每日微博发布数有着明显的周模式与日模式等。相关分析结论对于进一步深化研究微博的用户内容生成模式具有一定参考意义。
微博;用户内容生成;模式分析
Web 2.0 时代网络技术的不断进步,使得社交类网站出现了快速发展。如Facebook,MySpace, 人人网,天涯社区等,这些社交网络已经吸引了相当数量的参与者,他们贡献互联网上的各种内容,通常被称为用户生成内容(UGC User Content Generation)[1]。而近几年来伴随3G技术发展,手机上网功能逐步完善,社交网站中的微博类网站更是出现了“井喷”式的发展。
用户是这些社交网站与社区论坛的基本元素。根据目的的不同,现有的在线社交网站可以被分成两类,面向网络关系的社交网站与面向知识共享的社交网站[2]。前者如Facebook与人人网,更加强调从网络的观点出发,社交关系是这些社交网站的基础,这类网站中的内容分析主要是在朋友之间的。后者如博客网站、百度知道、优酷视频等,重点更在于知识或是内容的分享。这些网络不是被潜在的社交关系所驱动的,相反,这些网络通过用户基于分享内容上共同的兴趣构成。而微博兼具以上两类社交网站的共同特性,微博既是一个网络的社交平台,同时十分注重知识分享,兼具媒体的特性[3],因此对其进行用户内容生成模式研究具有更加重要的意义。
国外学者主要以Twitter为平台进行微博相关的研究工作,其中包括三个方面的研究: 第一,针对Twitter平台所形成的人际网络进行网络拓扑结构分析;第二,针对Twitter上的话题及信息扩散研究;第三,针对Twitter用户影响力的研究。Haewoon等定量地研究了Twitter整个网络平台及在上面的信息扩散,从Twitter整体来做研究,细分了很多维度如网络拓扑结构、话题、转发网络、用户影响力等等,比较简明扼要地去论证Twitter拥有媒体属性[3]。Meeyoung提出了粉丝影响力、转发影响力、点名影响力三种类型的用户影响力,并对比研究了这三种研究方法用户影响力排名的不同结果。发现受欢迎的用户,即有很多粉丝的用户在转发和回复上不一定有很高的影响力[4]。Jianshu Wen等采用LDA算法来实现TOPIC的抽取,构建了一个TwitterRank算法,通过衡量话题相似度来构建用户关系网络,评估微博系统中用户的影响力[5]。
伴随新浪微博、腾讯微博、网易微博等近两年“井喷”式的发展,国内学者也对其进行了很多相关研究。有学者对于2010年中国微博研究总体情况进行了回顾和分析,认为对微博的研究已经成为中国新媒体传播研究领域的热点话题之一[6]。余伟介绍了微博的功能特点与应用价值,利用本体的方式来描述微博,并设计了一个基于微博的用户行为分析模型[7]。高承实等进行了微博舆情监控的研究,结合信息空间模型构建了微博舆情的三维空间,运用Delphi法和层次分析法来确定各项指标的权重,最终建立微博舆情监测指标体系[8]。基于微博内容的情感分析也引起了一些学者的关注,他们或是提出了基于中文微博的情感分布语言模型[9],或是对不同的情感分析方法进行了深入研究,包括表情符号的规则方法、情感词典的规则方法和基于SVM的层次结构的多策略方法,实验表明基于SVM的层次结构多策略方法效果最好[10]。DCCI互联网数据中心发布微博蓝皮书,发现微博用户量整体趋向饱和稳定态势,并开始大规模向移动端迁移[11]。通过对腾讯微博和新浪微博的对比研究,李燕萍发现转发数和评论数、粉丝数、关注数和博文数两两之间都有一定的正相关性[12]。Lei Guo等人研究了社交网站的用户内容贡献模式。作者将研究重点放在三类最受欢迎的面向知识分享的社交网站,包括博客系统、社交书签分享网站、知识问答社交网站,研究发现在以上三类网站用户的表现有很强的日模式与周模式[2]。
这些存在的研究主要侧重于用户如何连接在一起和网络如何形成,社会网络图形如何演变,或是代表用户与社区发现。对于有着两类社交网站共同特点及自己特性的微博,对其用户生成内容相关方面的研究并不是很多,因此,本文的研究具有很重要的实践意义。
本文实验利用腾讯微博的API接口随机抓取了17 232名用户自注册之日起至2012年3月28日的所有微博,共计10 995 827条微博。数据库中每条微博的数据格式如表1所示。
表1 数据库中每条微博的数据格式
腾讯将所有的微博分为七种: 1-原创,2-转发,3-私信,4-回复,5-空回,6-提及,7-评论。其中原创与转发类微博超过总数的92%,本文重点针对此两类微博进行研究。
除此之外,本文部分实验还涉及到用户的性别、是否为认证用户等基本信息。总体可将所有的信息细分为四类: 用户基本信息(用户名、性别、是否vip认证用户)、用户行为信息(发布微博时间、发布端口、微博类型)、微博基本信息(微博内容)、微博扩散信息(被转发次数、被点评次数、来源id)
本文从用户发布微博的数量以及微博的长度两个方面分析微博用户的内容贡献情况。
4.1 微博的数量
图1中横轴每个点代表一个用户(只显示部分用户名),纵轴表示该用户所发布的微博总数;曲线显示了微博总数累计值。结果显示80%的微博只来自于7.59%的用户,而15.94%的用户发布了90%的微博。
图1 微博用户发布微博数
4.1.1 原创型微博与转发型微博数量的对比分析
原创和转发分别代表微博中的信息制造和信息传播,可以看到在腾讯微博中原创微博与转发微博几乎各自占据了“半壁江山”,说明发表观点与传递信息在微博中有着几乎同等的重要地位。原创以及转发占总体的92.21%,占绝大多数,且转发数远远大于评论的数量,这与微博中转发过程常常伴随着评论的特性有关。在对转发类型的微博内容进一步处理后,我们发现纯粹的转发行为(即转发的同时未作出任何评价)只占总体的12.83%。
图2 不同类型微博分布
转发有助于扩散某个话题,回复代表用户开始就某一话题进行讨论,可以衡量用户对此话题的黏度,图2显示了微博具有较大的扩散性。
4.1.2 用户原创与转发行为分析
分析用户的转发行为,人均转发微博次数240.58次。多数人转发次数较少,49.37%的用户转发次数小于23次,70%的用户转发次数少于114。极少人有大量的转发行为,转发行为超过 1 000次的用户占总体的8.623%,转发次数超过 4 000的仅占总体的1.44%。但转发次数超过 1 000次的用户其累计转发次数占总体的68.55%,超过4 000的用户累计转发次数占总体的26.10%,长尾效应较Zi Yang等[13]在twitter中观察到的更为显著。
以转发次数为x轴,转发次数大于x的用户数为y轴,得到图3。曲线呈幂律分布,斜率为-0.644,拟合度R2为0.718 5。
图3 用户转发行为分布
图4 用户转发与非转发行为对比
观察用户的转发行为和原创行为,图4中纵轴表示用户转发的微博数,横轴表示用户发布的原创型微博,并做移动平均线。可以看到,总体来说,用户转发微博的行为明显多于原创。移动平均线在x、y坐标均小于1 000的象限内位于上方,而在两坐标轴均大于1 000的象限内则位于下方。即在用户使用微博初期,原创行为明显占优势,而随着对微博使用行为的增加,转发行为逐渐占据上风。
用户在微博中所充当的角色随着使用的持续,逐渐从发言者转向传播者。
4.2 微博长度分析
在对微博长度分析时,对类型为转发的微博的Origtext字段做处理,删除其中的被转发内容(‘//@’后的内容属于其转发的内容)后使用。所有的微博内容的平均字符长度为40.06,在分别对男女、微博类型进行细分后,结果如表2: 就微博类型来看,用户所发原创微博长度均明显大于转发微博,说明原创型微博通常包含更大的原始信息量。就用户类型来看,男性用户发送微博的字数略高于女性用户,VIP用户所发微博平均长度为53.65,是非VIP用户所发微博长度的1.6倍。
其中女性用户原创微博字数比男性高很多,且女性用户原创微博的字数是转发的近4倍,而男性用户原创微博的字数是转发微博的字数的3.45倍,显示性别对“微博风格”会产生比较大的影响,例如女性可能更倾向于详细地描述一个事件或一种物品,而对转发的内容简短地发表意见,而男性用户倾向于相对简短地叙述。
VIP用户是最为“勤劳”内容贡献用户,平均微博字数为53.65,远远高于其他类型的用户,其原创微博的平均字数高达81.71,可以看作VIP用户的原创微博中包含更大的信息量。
不同类型的用户在贡献的内容上具有各自的特征。
表2 不同类型用户原创与转发微博字数
实验从腾讯微博的发展趋势、微博发布的周模式与日模式两个方向来进行基于时间的微博用户活跃度分析。
5.1 腾讯微博发展趋势
图5展示了实验随机抓取的腾讯微博的17 232名用户从腾讯微博开通之日(2010.3.28)至笔者抓取之日每日的发布微博数,可以看出曲线呈现一种波动上升的趋势,说明微博已经历过起步期、成长期,进入并正处在快速发展期。
5.2 微博发布的周模式与日模式
图6展示了从图5中截取的部分的曲线形态,表示从2011.10.1到2011.12.30的时间段内,每天所发微博数,可以看出微博用户每日微博发布数有着明显的周期规律,周期长度大致为七天。而每周中的峰值基本分布在周四,谷底基本分布在周末。其中周期内的微博数分布大多为双峰分布,偶有单峰、三峰。
图7表示不同类型微博发布数在一周中的分布。从图7中可以看到对所有微博,总体没有很大的起伏变化,周末所发微博数最少;周三所发微博数最多。原创型微博的一周内每日发布起伏较大,而转发微博一周内的每日发布数则较为平均,只显现出平日略高于周末的规律。为了更深入了解其中规律,实验继续对一日中每小时的微博数做详细地分析。
图7 不同类型微博发布数的星期分布
实验对原创微博、转发微博和所有微博按照时间轴展开,分别进行了分析,将每小时的微博数绘成条形图,同时统计每周同一小时新发布的微博。然后将整个追踪时间中每小时的发布微博数整合统计,并进行了归一化处理。图8上半部分显示了每周的原创微博、转发微博和所有微博分别的发布百分比。相对于转发型微博,原创型微博在平日里每小时的发布数高于周日每小时的发布数的情况更加明显,且在原创型微博中,平日每天的每小时微博发布数基本都呈现出双峰分布,周末只有一个发布高峰。以前学者的相关研究中显示对于博客类网站,在平日里每小时的发布数于周日每小时的发布数较为相似。博客是一种日常的网络日志或日记写作,所以博客中每天的用户活动不会在一个星期内的不同天急剧改变[2]。而微博的发布更加随意简单,会很好地融入用户的日常生活中,因此显现出一种与用户日常作息时间十分相关的分布。
图8的底部模块进一步显示了微博发布的每日模式,以类似每周模式的方式计算。对三种分类,发布高峰时间持续很长,两个最高峰在10时与22时,发布高峰时段可以涵盖一天中的三分之二,低峰期在凌晨3~5时处,整张图可以很明显地分作两个部分,以8时和4%为分界线。这与博客的高峰时间大约只是在23时有着很大差别[2]。与博客相比,微博发布的便捷性使得其发布的高峰期跨度大大扩展,证明了微博随时随地记录人们生活的特性。
图8 每日发布微博数的星期分布归一化结果
图9 微博转发数的分布
实验从微博转发分析、微博转发影响力分析以及影响微博转发的三个因素研究微博的影响。
6.1 微博转发次数分析
除原创和转发类型外的微博其转发数量与回复数量基本为0。故下文只考虑原创和转发的微博。
微博转发数count取值从最小值0(5 638 724条)到最大值2 097 150(1条),自count=2 105开始,大于此值的任一转发次数对应的微博数目均为个位数,即对于某一大于2 105的数字,有小于10条的微博其转发数等于此值。只有极少数的微博被转发的次数很大,而绝大多数的微博其转发数较小。
微博转发次数的均值为67.544 8。表3显示了不同类型的微博转发数的比较,表中第三列表示包含某种多媒体的微博其平均转发量与不含此类内容微博的平均转发量的比值,不包含多媒体信息的微博的平均转发量远远低于包含多媒体信息的微博的平均转发量, 其中不包含图片的微博平均转发数最低,包含音乐的微博转发数均值高达456.759 7。说明包含多媒体的微博携带的信息量更大,带来了更大的转发量,更容易造成较大的影响,而不同的多媒体对用户的吸引力也存在着差距。
表3 不同微博类型的微博转发数
转发次数为0~599次的微博占总体的98.62%,转发次数为0~49次的占总体的91.03 %,说明大部分的微博没有被转发,没能造成传播影响,但极少数的微博被极大地转发,造成了很大的影响力。转发次数为0的占58.787 8%,在去除0后,我们得到以下曲线,其中横轴表示微博的转发次数,纵轴显示了微博数,该曲线符合幂律分布,斜率为-1.007,拟合度R2为-0.990 7。
图10 微博转发次数的分布
6.2 微博转发影响力分析
对于微博的影响力,我们有这样的直观感受: 微博在令阅读者留下印象时才会对个体造成影响,而对某一微博的印象中往往蕴含的各种情绪会促使阅读者对微博进行转发和评论。基于这一认知,实验假设没有被转发的微博没有造成转发影响,以微博被转发的累计次数作为衡量该微博影响力的依据。以样本中所有微博被转发的次数的累加和作为总体,那么某条微博被转发的次数占总体的百分比可以形容为该条微博在其中的影响力。
通过分析微博的转发次数,并与其微博用户关联,显示所有转发数(count)大于357的微博其转发量的累计值占总体的80% ,仅来自1 367名(7.93%)用户,即8%的用户贡献了80%的微博影响力。被转发次数超过93的所有微博其转发量累计占总体的90%,来自2 124名(12.32%)用户,显示10%左右的用户贡献了90%的微博影响力,具体见图11。
图11 微博转发影响力
我们进一步区分微博类型进行分析(见图12),对于原创型微博: count>695的微博的累计转发量占据总转发量的80%,来自965名(5.60%)用户。count>217的微博的累计转发量占据总转发量90%, 来自1 402名(8.13%)用户。对于转发型微博: count>60的微博累计转发量占总转发量的80.1%,来自 1 633名(9.48%)用户。count>29的微博累计转发量占总转发量的90.1%,来自2 009名(11.66%)用户。转发型微博的转发影响可以形象地表述为原微博扩散的再次爆发节点,其扩散的能力是低于原微博的。原创聚集现象更加明显,更加少量的活跃用户贡献了更多的影响力。
6.3 微博转发影响因素分析
6.3.1 对含有‘@’的微博分析
在微博输入框中,包括原创、转发与评论的微博,在‘@’后需要加上其他用户的微博用户名,就可以将这消息通知别人,这是微博中的一种重要的互动交流方式。
实验将含有‘@’各种类型微博提取出来,做出表4的分析。
从表4可以看出原创微博中,约有8.71%的微博中含有‘@’字符,其中以“@某用户”为句首的有10.13%,与twitter数据中36%包含“@”且其中86%以“@某用户”作为句首的情况有很大不同;同时原创微博中包含‘#’(话题标签)的微博占16.69%,远大于Danah等[14]发现的5%。包含‘@’字符可以说明此条微博的目的是为了与熟人交流,而使用‘#’则是在与陌生人讨论,腾讯微博中与熟人的交流的倾向更少,且语言习惯也有明显不同。
表4 不同微博类型的微博转发数
包含‘@’字符代表着用户的转发行为其目的更多的是希望与好友间形成讨论,我们发现对于非VIP用户来说,含有‘@’微博得到的转发和评论均显著大于不含的微博。但对VIP用户则完全相反。前者从结果上验证了我们的假设,而后者的出现可能是由于民众对明星用户的转发动机的特殊造成的,这需要我们后续实验的验证。
图12 原创、转发型微博转发影响力
6.3.2 微博内容的重要程度
微博的内容同样会影响其被转发的情况。热门话题往往在一段时间内会被很多人频繁地讨论,相关内容会在微博中出现很多次;而小众的内容则只在少数人的微博中有所展现。因此我们可以认为某微博其内容的重要程度可以从包含的字段在所有微博中出现的频率之和来衡量。基于这样的认知,我们利用TF-IDF来衡量一个微博其内容的重要程度:
图13 内容重要程度对转发的影响
其中n(t,m)表示词语t在微博m中出现的次数,n(t,M)表示整个微博数据集M中包含t的微博数目,|M|指微博数据集中所包含微博的总数。我们对不同的重要程度的微博对比其被转发与被忽略(未被转发)的情况进行分析。
由图13可以看到,微博被转发的情况在TF-IDF值为40时达到一个小高峰,随后下降,至110处有一次波动。此后随着TF-IDF值的增长,被转发的概率缓慢增长,至400左右基本稳定。TF-IDF值大于500的微博仅有极少数,并没有明显的统计价值,被转发的比率总体来说较大,但取值并不稳定,不对其进行讨论。
结果与Zi Yang等人[13]的研究结果比,同样具有两次波峰。较为不同的是,Zi Yang等人的研究结果中,所有转发的比值均小于0.6,而本文中则220后突破0.6,比率值稳定在0.75以下。
本文选取腾讯微博17 232名用户,共计10 995 827条微博,分析研究微博的用户内容生成模式。我们总结出微博用户内容生成的一些特点:
(1) “90-10”规则: 相较于其他社交网站中大多遵从的“80-20”规则,微博显示出了一种用户内容生成更明显的聚集性,表现出一种“90-10”规律,更加少量的活跃用户贡献了更多地内容,如15.94%的用户发布了90%的微博;更加集中的某一部分微博造成了更大的影响力,原创型微博的总转发影响力的90%来自8.13%名用户,转发型微博11.66%的用户贡献了90%的微博转发影响力。
(2) 先原创后转发: 随着对微博使用程度的加深,用户使用微博的主要行为逐渐从发布原创微博转向转发微博。身份从发言者逐渐转为传播者。
(3) 从微博长度的角度来看,不同类型用户有明显的差异,女性用户其原创微博与转发微博的长度差异更明显,VIP用户所发微博平均长度是非VIP用户所发微博长度的1.5倍等。
(4) 微博用户每日微博发布数有着明显的周模式与日模式,微博发布的高峰期跨度远远大于博客类网站,也显示出微博发布的便利性,与日常生活的融合性。 (5) 包含多媒体的微博携带的信息量更大,带来了更大的转发量,更容易造成较大的影响。
用户内容生成分析在基于微博的研究中有极其重要的价值,同时随着微博用户大规模增加,微博内容的影响也不断扩大,微博的用户内容生成分析对了解信息分享型的社会网络的本质规律有着极大的意义。在今后的工作中,我们将会收集更加全面更具代表性的数据,对数据进行更深层次的分析,挖掘出更有效的用户行为模式,以优化相关研究结果。
[1] F Bell. The rise of user-generated content. http://www.entrepreneur.com/technology/managingtechnology/web20columnistfrankbell/article183432.html, 2007.
[2] Lei Guo, Enhua Tan, Songqing Chen, et al. Analyzing Patterns of User Content Generation in Online[C]//Social Networks KDD’09, Paris, France, 2009: 495-503.
[3] Haewoon Kwak, Changhyun Lee, Hosung Park,et al. What is Twitter, a Social Network or a News Media? [C]//ACM, Raleigh, North Carolina, USA, 2010: 799-806.
[4] Meeyoung Cha,Hamed Haddadi, Fabr′icio Benevenuto, et al. Measuring User Influence in Twitter: The Million Follower Fallacy[J].Artificial Intelligence, 2010,146(1):10-17.
[5] Jianshu Weng, Ee-Peng Lim, Jing Jiang, et al. TwitterRank:Finding Topic-sensitive Influential Twitterers[C]//WSDM’10,February4-6,New York City, New York,USA
[6] 王晓兰. 2010年中国微博客研究综述[J].国际新闻界,2011, 24(1):24-27.
[7] 余伟. 基于本体的微博客用户行为模型研究[J].广东技术师范学院学报,2010,27(2):27-30.
[8] 高承实,荣星,陈越. 微博舆情监测指标体系研究[J].情报杂志,2011,30 (9):66-70.
[9] 谢丽星,周明,孙茂松. 基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,26(1):73-82.
[10] 杨亮,林原,林鸿飞. 基于情感分布的微博热点事件发现[J].中文信息学报,2012,26(1):84-90.
[11] 2012中国微博微博蓝皮书[R].DCCI互联网数据中心,2012年9月.
[12] 李燕萍. 微博比较研究[J].情报杂志,2012,31(3):77-83.
[13] Zi Yang, Jingyi Guo, Keke Cai, et al. Understanding Retweeting Behaviors in Social Networks[C]//CIKM’10,October 26-30, Toronto, Ontario, Canada.
[14] Danah boyd, Scott Golder, Gilad Lotan, Tweet,Tweet,Retweet: Conversational Aspects of Retweeting on Twitter[C]//Proceeding of the 43rd Hawaii International Conference on System Sciences, 2010.
Analyzing Patterns of User Content Generation in Tencent Microblogging
LI Yaping, CAO Run, TONG Lu, LIANG Xun, NI Zhihao
(Information School of RenMin University of China, Beijing 100872, China)
With the rapid development of network technology in Web2.0 age, the amount of social network website users has increased sharply. This paper colllects near 20 thousands users of Tencent Microblogging with their Microbloggings, and analyzes the patterns of user Content Generation of Tencent Microblogging. From perspectives of Microblogging content contribution, user activity over time and Microblogging influence, we examine the amount of Microblogging, ratio of original and repost content, number of content text, the weekly and daily patterns of Microblogging release, the repost number of Microblogging, the repost influence of Microblogging and the Microblogging contain ‘@’. Our analysis shows observations scuh as the users’ content contribution have “90-10”rule, different type of users have different “Microblogging style”, and users’ posting behavior exhibits strong daily and weekly patterns.
Microblogging; User Content Generation; Pattern Analysis
李亚平(1989—),硕士研究生,主要研究领域为社会计算。E⁃mail:snap008@126.com曹润(1988—),硕士,主要研究领域为社会计算,数据挖掘。E⁃mail:caorun2008@163.com童露(1990—),硕士,主要研究领域为数据挖掘。E⁃mail:tongluruc@gmail.com
1003-0077(2015)03-0130-10
2012-05-02 定稿日期: 2014-08-29
国家自然科学基金(70871001,71271211);北京市自然科学基金(4132067);中国人民大学科学研究基金(中央高校基本科研业务费专项资金)
TP391
A