微博名人粉丝群体的特征差异及其影响

2020-09-22 09:18江一帅
关键词:水军均值影响力

江一帅,王 澎

(杭州师范大学阿里巴巴商学院,浙江 杭州 311121)

随着移动互联网的深入发展,以微信,qq空间为代表,越来越多社交工具的不断涌现,早年红极一时的新浪微博出现了普通用户退潮.与此同时,受益于微博本身的开放性,出于个人宣传的初衷,名人及其粉丝群体逐渐成为微博社交网络中越来越主导的部分.基于此的微博营销也成为各路名人实现个人影响力变现的一种重要途径.

微博营销所带来的经济利益也使得它成为网络水军肆虐的新阵地.各路明星或是网络名人依托公关公司,利用大批傀儡账号推高其微博的各项数据,以获得表面数据的虚假繁荣,借此来提高其声势.以水军的密集交互形成的虚假热点也是微博营销的重要手段之一.正是因为微博虚假信息的弥漫,使得微博网络水军的识别研究成为微博研究的一个重要课题.通过微博用户的“粉丝数”、“关注数”等基本特征一直是区分水军的重要手段[1-3];李涛等人[4]更是利用事件参与度、二阶关联性、关系紧密度和引导工具使用率这 4 个新特征获得了更高的识别率.另一方面通过粉丝之间的关系网络来识别水军也是一个重要研究方向[5-6].叶施仁等[7]从单个水军种子为起点扩展粉丝关系,用Fast Unfolding算法进行社区检测来发现水军集团;陶永才等人[8]通过获取用户的全部粉丝信息,从中挖掘凝聚子群,结合用户的社会网络关系,提出一种基于用户粉丝聚类现象的水军检测模型.

如果说水军识别是为了剥离虚假数据,那么影响力的研究则是为了更好地衡量现有数据.虽然现有的影响力研究[9-10]多少考虑了水军的影响,但被忽略的一点是,刻意提高微博互动数据量(点赞、转发、评论)的行为,不仅属于虚假的水军账号,同时也广泛存在于真实的明星粉丝群体.很多狂热的粉丝群体通常有自己的组织,并且从维护明星个人“面子”的角度出发,自发地在各个平台刷数据,形成了愈演愈烈的所谓“粉丝控评”现象[11-12].这种行为产生的效果很多时候远大于水军,使得用微博数据来衡量其真实的影响力变得愈发不可信.

从图1中可以看到相比华晨宇,当红演员赵丽颖的平均评论量仅其五分之一不到,这显然和两人的真实影响力是不匹配的.另一方面,一般认为关注此明星的粉丝量越大,其微博的平均转发量必然也越大,但是从图1可以看到,关系显然并不是这么简单,而且随着粉丝量的增加,这种比例的差异越来越大.图1充分反映出粉丝群体特性差异巨大.

图1 名人的粉丝量与其微博平均评论数的散点图Fig.1 The scatter chart of the number of some celebrities’ fans and the average number of comments on their blogs

这些极高的互动数据很可能是其“死忠粉”和网络水军合力的结果.因此仅仅识别水军,要么会导致误杀了很多真实的粉丝,要么就无法真正区分所有虚假数据.在本文的研究里,希望通过对比研究各名人粉丝的群体特征,来展现刻意行为对数据的真实影响.我们首先通过爬虫获取了若干名人微博内活跃粉丝的特征及其行为记录,着重研究了点赞、评论、转发3类互动数据与粉丝特征之间的关系,并基于此对不同类别粉丝群进行聚类分析,并通过对不同类别粉丝群的行为分析,发现若干有趣的现象,对于真实影响力的衡量具有重要意义.

1 数据说明

通过新浪微博的API获取了180位各个方面的名人微博互动数据,包括其最近所发的部分微博,并且从这些微博下抽样提取了对其转发、评论、点赞的粉丝用户行为记录以及这些粉丝基本资料.总计5308条微博下的1432998个转发者,2361913个评论者,2136245个点赞者的基本信息(未去除重复用户).这180位名人中,粉丝数最小的用户有487605位,最大的为125287237,由于我们这里主要选择的是微博头部用户数据,而头部用户数量有限,这里的样本已经包含了相当数量的一部分头部用户.

2 微博活跃度与粉丝群体特征的关系

我们的微博数据大致包含3个方面的信息:一个是博主的特征信息,这包括粉丝数(被关注)、关注数、等级(主要由博主的注册时间和活跃度决定)、性别等等;一个是博主微博里参与了互动(点赞、评论、转发)的粉丝特征信息,维度和博主的是一样的;最后就是这些粉丝的微博互动记录,互动行为包含了点赞、评论、转发3个方面.我们不仅考虑了上述行为的均值,并且还把行为后续被再次点赞、评论、转发的次数作为重要的考察特征.由于粉丝数或是关注数不同用户差异非常大,我们都取中位数来表示,而其他数据比如等级(通常是1到7级)差异不大,仍然使用均值.各个特征的特征矩阵具体计算见表1.

表1 部分特征计算说明Tab.1 The description of some features

图2展示的是提取的所有博主36个特征之间相关系数的可视化.图中每个色块对应两个特征之间的相关系数,颜色越白说明特征向量之间越是正相关;颜色越黑说明特征之间越是负相关.这里最重要的特征就是表示微博互动活跃程度的平均点赞数、平均评论数、平均转发数.首先我们看到这3个量和博主的粉丝数虽然是正相关,但并不明显,反而和“评论被评论的均值”以及“评论被点赞的均值”有最强的相关性.一个评论被再次评论通常意味着粉丝双方都是有关联的,这和有组织的团体粉丝特性非常符合.“所有点赞者的平均点赞数”等特征反映了粉丝在微博里的重复行为特征,我们可以看到这些忠实粉丝的重复行为很大程度推高了互动数据.另一方面,表示粉丝群体本身影响力的“转发者关注数中值”,“转发者粉丝中值”,“转发者等级均值”则与活跃度相关量呈现很强的反向变化;更有意思的是,我们发现“评论中的男性比例”越高微博的活跃程度越低,这充分体现出推高微博互动数据的主要来源于狂热的女性粉丝团体.

图2 所有博主特征向量的相关系数矩阵图Fig.2 The correlation coefficient matrix of all bloggers’ feature vectors

“点赞者粉丝中值”、“转发者粉丝中值”、“转发者关注中值”3个特征反映了粉丝群体本身的影响力.可以看到,男性比例高的粉丝群体会有更高的影响力.而高影响力的群体看起来不那么愿意去评论与转发(与“评论者的勋章数均值”负相关),更不会在同一微博下多次评论(与“所有评论者的平均评论数”等特征负相关).此影响力也和“评论的评论数的均值”呈现负相关,这说明高影响力的群体内部互动的倾向是不明显的.这从另外一个角度也说明对微博互动数据影响巨大的“死忠粉”群体的特性.

3 粉丝群体特征的聚类分析

可以看到,互动数据大小和粉丝群体特征及其行为有着很强的关联性,一个微博互动数据高并不一定代表其真实影响力高,更多是说明其粉丝群体特征不同.我们认为,可以把微博粉丝群体分为两类,一类是高活跃粉丝群体,这类群体支撑下的微博评论转发均值会很高;另一类是低活跃粉丝群体,有这样群体的微博评论转发均值会低很多,但这样的群体影响力并不弱.

因此,基于上面的特征矩阵,通过K-Means聚类方法,我们对不同的微博进行了聚类分析.K-Means算法是一种广泛使用的聚类算法.假定输入样本为S=X1,X2,……,Xm,则算法步骤为:

1.人为给定k个类别,并随机初始化k个聚类中心;

2.对于每个样本的Xi,将其中标记为距离聚类中心最近的类别,即

3.将每个聚类中心更新为隶属该类别所有样本的均值

4.重复第2步和第3步,直到聚类中心变化小于某阈值或者迭代次数达到设定值.

这里我们设定k=2,如图3所示,列举了5个特征两两组合的散点图,其中每个点对应于某个名人的微博,其颜色的不同对应于不同的分类;对角线处的分布图为两种分类下各微博特征分布.可以看到我们的聚类效果非常明显.其中一类的“平均转发数”、“评论被点赞的均值”等表征微博活跃程度的数据相对于另外一类都处于非常低的水平,这显然证实了我们的观点.表2—表4更详细地展示了两种分类主要特征的中位数(以避免因为个别微博数据太高而造成统计误差).从表1的微博基本特征可以看到,两类微博的粉丝数差距并不大,但是平均点赞与评论却相差数十倍,而平均转发的甚至则超过100倍.

图3 聚类后的部分结果展示图Fig.3 The partial results after clustering

表2 微博基本特征表Tab.2 The features of microblog

表4 粉丝行为特征表Tab.4 The features of behavior of fans

通过表3粉丝群体特征表可以看到,高活跃粉丝群体本身的粉丝数与关注都偏低,虽然这个群体通常存在很强的互粉.从这个角度来看,我们可以猜测这个群体非常封闭.而此群体更强的活跃性可以通过其博文数量和勋章数看出;高认证比例则显示出其对待微博更刻意的态度,或许粉丝团内部本身对其就有要求;在我们的数据中,女性粉丝占比接近80%,而在高活跃粉丝群体中能看到更高的女性比例.

表3 粉丝群体特征表Tab.3 The features of fans

在表4粉丝的行为特征表中,更高的“评论者的平均评论数”显示出活跃粉丝群体极强的忠诚度.相比低活跃群体,超出10倍“评论被点赞均值”充分显示这个群体是多么不吝啬自己的点击.低活跃群体转发之后更高的被评论与被点赞值,则进一步显示出其更强的影响力.

4 总结

通过上面的研究,可以知道赵丽颖和华晨宇两位微博名人,为什么前者粉丝数遥遥领先,有着更广泛的影响,但是点赞评论数据却远远落后了.显然高活跃的粉丝群体的“控评”行为决定了这样的差异,特别是赵丽颖的粉丝明显会有更多的男性,根据我们的研究,其粉丝群体相对低的活跃度也可想而知.

研究发现常见的水军识别算法依赖的特征在识别这种粉丝群体中是失效的.例如,在基于关系网络的水军识别中,有研究者[4,7,13]认为真实用户之间的关系网有更高的簇系数而水军彼此独立;在基于行为的水军识别研究中也假设水军之间是缺乏互动的[3,14].然而,本文通过“所有评论者的平均评论数”,“所有点赞者的平均点赞数”等特征研究发现,高活跃度用户彼此之间有比一般用户更强的互动行为,而这部分用户正是“粉丝控评”行为的主体.我们认为要评估这种行为对数据的扭曲,需要重新考虑现有的识别算法.

粉丝间的高频互动很可能是维持粉丝高活跃度的一个重要原因,而另一方面粉丝本人的兴趣显然也是非常重要的一环.有研究认为水军用户因为服务于任务而使得其完全不存在个人兴趣,正常用户的兴趣会相对集中[15].而我们认为高活跃粉丝的兴趣很可能和水军完全相反,是非常单一,甚至比一般用户更单一.粉丝间的网络效应很可能加强了这种兴趣的集中度,这将是理解“粉丝控评”这种集体行为的重要思路.

毫无疑问,高活跃粉丝群体中多少都会有水军的存在,明星雇佣水军提升数据已经是很普遍的现象.但是仅仅通过水军识别来剔除虚假数据,对于还原其真实影响力是远远不够的.从高活跃粉丝的特性:高的交互性、低的群体粉丝数、极高的活跃性.可以看到,这样的群体产生的影响基本只在群体内部回响.低活跃粉丝群体的传播力显然更加真实和广泛.从这个角度看,高活跃粉丝可以说是一种另类的网络水军,识别这种粉丝群,并重新评估其群里产生的数据质量显然对于指导微博营销有着重要的价值,同时也将是我们未来研究的方向.

猜你喜欢
水军均值影响力
“超前点评”折射“水军”控评乱象
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
天才影响力
浅谈均值不等式的应用
网络水军
均值不等式的小应用
黄艳:最深远的影响力
50 SHADES OF ONLINE LIT
3.15消协三十年十大影响力事件