宋峰森 陈 洁 刘尊礼 顾 程
(1.上海交通大学 安泰经济与管理学院,上海 200030;2.上海工程技术大学 管理学院,上海 201620;3.上海微趣网络科技公司,上海 200010)
随着中国移动互联网的迅速发展,包括微博在内的各种社交媒体不仅打破了信息传播的空间限制,也逐渐在社会上形成了覆盖广泛的自媒体网络。目前,以微博为代表的社交媒体每时每刻都在产生内容丰富、意见多元的信息,并通过社交网络的浏览、关注、留言、分享等行为持续进行着内容的快速分发,直接影响舆论导向。聚集了庞大用户群体的社交媒体平台之上,每天的信息生产、浏览、关注等行为都在产生巨量的行为数据,如果能通过及时对行为数据的挖掘分析,对社交媒体网络中的高影响度信息进行及时识别,并予以有针对性的干预和管理,将对舆情监管部门治理负面信息传播和控管非法信息流散等工作产生巨大意义。
本研究认为有必要设计一个以微博信息辨识度为基础、排除信息影响力受时间衰减因素干扰的计算方法,以构建全面、及时、有效反映社交媒体网络信息影响力的排序列表。基于以上分析,本研究以微博信息作为对象,参考目前常见的网页排名算法提出以社交评级作为评估标准,通过对微博用户的权重计算,结合时间因素综合形成新的信息影响力排名算法,从动态评估视角构建了更能反映互联网社交媒体实际影响力状况的微博动态影响力指数。
国内外有关社交媒体影响力的研究集中于关注Twitter、微博用户,以及此类社交媒体上所发布的信息的影响力。
社交媒体用户影响力的研究强调对社会媒体使用者整体使用行为的分析,将其信息浏览、分享等行为作为整体考察使用者的影响力,强调使用者个体层面的影响力。影响力的评定方法主要包括网页排名方法、用户行为权值法等。网页排名本应用于搜索时的网页排名,而将其应用于用户排名时,网页近似于一个用户,微博中用户与用户的链接可以看作网页与网页之间的超链接,研究者基于网页排名的方法计算微博用户的影响力。该方法在谷歌公司开发的网页排名算法大数据的研究中也得到了广泛应用,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。网页排名将对页面的链接看成投票,实现了将链接价值概念作为排名因素,从而获取页面排名,排名越高其影响力也就越高,谷歌搜索结果的相关性的质量也会得以提高。网页排名计算的原理是计算一个网页节点的入链数量,以此作为评估该网页重要性的指标。在此算法之下,指向该网页的链接数量越多,该网页的排名就越高。网页排名算法考虑的是该网页与其他网页之间的链接关系,如果网页间的链接关系替换为社交媒体用户之间的关注关系,那么就可以依据该算法,计算出活跃用户或信息的社交评级排名,也即该用户和信息在传播中的权重。
Weng等则对网页排名方法进行了发展,他们将话题相似性的分析纳入用户影响力分析之中,针对每一用户分析了其在社交媒体上的影响力。用户行为权值法则是将涉及微博使用者的粉丝数量、其所发布信息被转发及被评论数作为其影响力的评价标准。Cha等介绍了跟随、转推和提及三种不同指标下最具影响力的类型的特点,并采用Spearman等级相关系数两两比较进行排名,得出了微博用户影响力的评价。Ye和Wu同时使用了Spearman及Kendall Tau等级相关系数分析了Twitter用户的影响力。陈浩则将网页排名与用户权值评定法相结合,提出了UserRank的微博影响力排名算法。他认为微博用户影响力源于其自身的影响力与追随者贡献的影响力,因此将用户微博转发率、评论率、用户认证情况、追随者质量等因素同时纳入用户影响力评价模型中,通过条件的不断迭代最后得到微博用户的影响力。原福永等则从链接分析与用户行为分析两个角度衡量了微博的影响力,建构了微博用户的用户影响力指数模型。
除以上两种方法外,国内也有学者通过因子分析或主成分分析的方法,将影响微博用户影响力的因素归纳成几个维度,从而确定相应用户微博使用的侧重点。如赵阿敏和曹桂全在以往微博影响力评价指标的基础上,将指标分为单元传播与多元传播指标,运用因子分析的方法,提取反馈因子、互动因子及公开因子,进而发现影响微博用户影响力的主要因素,从而进一步确定各慈善组织微博使用方面的侧重点。郝晓玲和陈轶杰采用主成分分析方法,探讨了形成企业微博影响力的主要因素。郝晓玲、杜沁怡和黄海量采用同样的方法,发现受众广度、微博受关注度、微博价值度及好友圈价值度是影响企业家微博用户影响力的主要因素。
社交媒体信息影响力的确定方法在某种程度上与社交媒体用户影响力的研究有些类似,只是信息影响力的研究更多的是强调社交媒体用户所发布信息的影响力,如该信息受到关注的人数、获得评论的人数等。网页排名方法同样可以被应用于信息影响力的评价之中,将每条信息作为一个分析单元,得出该信息的影响力排名。基于网页排名法的信息影响力研究包括:Cui等将人人网所发布的帖子的点击量作为帖子影响力的评价指标;Agarwal等利用博文的引用数、评论数、新颖程度和内容长度评价博主帖子的影响力;孙国梓、仇呈燕和李华康综合考虑了群体对信息的关注度以及信息的扩散模式,从微博信息入手,以线性加权模型为基础,提出了结合评论数、转发数并引入地域分布信息的微博影响力量化模型,并对微博信息的影响力展开了全局与局部分析。
Ye和Wu同样对信息的跟随、转推和提及三个指标进行了分析,将Spearman及Kendall Tau等级相关系数引入微博信息影响力的评价中,他们指出回复数的稳定性最高,并且最适合作为微博信息影响力的评价标准。原福永等同时将用户粉丝数、微博信息的转发数及评论数纳入对微博用户影响力及每条微博信息影响力的评价之中。
从以上分析可以看出,社交媒体影响力的有关研究涉及用户和信息影响力两个角度,并且研究者关注更多的是用户影响力的研究。微博用户及信息影响力的评价方式在某种程度上具有一定的相似性,如基于网页排名方法进行改进、结合用户使用行为权值等方法均可用于影响力分析。然而,以上微博影响力的评价均基于某一时点的数据反馈结果,该方法用于微博用户影响力的评价更为合适,因为用户影响力应具有一段时间的稳定性。微博信息影响力虽可以用上述方法进行评价,但实际生活中,微博信息浏览时往往更多依据时间顺序,并不是根据各信息的影响力向浏览者进行信息展示。
本研究将社交评级的等级范围设定为从0到10,0级意味着该用户在信息传播中基本没有影响力,7~10级意味着该用户受关注度非常高,也会对信息传播产生重大影响。某个社交媒体用户经过计算后的级别越高,说明由该用户传播的信息或者该用户加入传播的信息将会产生广泛的影响。在运用社交评级进行用户影响力权重计算时,不仅计算该用户的被关注数量,也将关注该用户的其他用户权重也纳入考察范围,被高社交评级值的用户关注也会提升该用户的社交评级值。因此,一个用户的社交评级值是由关注他/她的其他用户的社交评级值综合决定的。具体的计算方法是:开始计算时,会赋予每个社交媒体用户或信息相同的重要性得分,之后在数亿条用户历史行为数据的基础上,不断进行递归计算,持续修正每个用户和信息的社交评级得分,直到数值稳定为止,此时就可以得到社交媒体用户或信息稳定的社交评级值。该社交评级算法可以持续地评估各个社交媒体用户的传播影响力,而且该计算过程排除了用户特征和信息主题对传播的影响,能够比较纯粹地考察社交媒体用户和信息的影响力权重。
基于社交媒体用户及信息影响力的权重值,也就是社交评级值,对社交媒体平台上信息的实时影响力的测量就可以相对量化地开展。需要注意的是,由于信息传播影响度会随着时间变化而削弱或增强,该信息对社会舆论的影响事实上是一个动态变化的过程。因此本研究认为,评估一条信息的影响力,不仅需要测量其在传播周期内触达了多少用户从而获得了多大的最终影响力,也即静态影响力;同时也需要测量信息在其传播周期内不同时点上传递到的用户数量,也即实时动态影响力。静态影响力的价值仅在于,某些特定舆论已经产生影响后评估其传播效果以及回溯其扩散过程。而一条信息发出后,如果其发送者或参与传播者的影响力足够大,该信息的扩散速度将非常快,对网络舆论氛围和社会生活将产生难以估计的影响。因此,从实用角度出发测量动态影响力的价值更高,如果能在短时间内准确评估新出现的信息的影响力,以及及时跟踪评估某个信息在特定时刻的传播速度和传播范围,对舆情管理部门及时锁定特定信息、快速聚焦重大舆情事件、积极干预负面消息、规范信息传播内容、避免对社会日常运行产生重大负面影响有着非同寻常的意义。
本研究首先构建信息传播过程中的实时影响力指数,在此需要将信息随时间变化而产生的信息影响衰减也纳入指数计算中。本研究评估一条社交媒体信息发出后的实时影响,主要考虑三个参数:①单位时间内参与信息传播的用户数增量,即当次测量与上一次测量时相比的转发用户数,用以衡量该信息的扩散速度;②每个转发时间节点的社交评级权重,用以衡量该信息传播的影响力增量;③发布时间与现在的时间差,用以调节该信息随时间变化而产生的影响力衰减。根据以上三个参数,本研究构建了信息实时影响力指数,计算公式如下:
其中,Isr即该信息的实时影响力指数,Isr-1为上一个时间节点计算所得指数,Ts为本次测量采样时间,Ts-1为上次测量采样时间,T0为该信息的初始发布时间,Wt为两次测量之间的第t个转发用户的影响力权重。可以看出,实时影响力指数的计算基础是各个社交媒体用户的社交评级值,也即用户在社交媒体平台上的影响力权重。以该公式为工具,将社交媒体平台上实时产生的信息转发数据代入计算,就可以得到某一条信息在某段时间内的实时影响力数值,该数值就代表了其在该时间节点上的受关注程度。该数值越高,说明这条信息的受众越多、影响力越大,该信息后续可能被继续转发,持续放大影响力的可能性就越高。如果该数值超过一定阈值,此时网络舆情监管部门就需要及时分析是否需要采取措施进行干预。
静态影响力测量的是某一条信息在传播周期内触达的所有用户数量及产生的相应社会影响。一般而言网络环境下的信息衰减期为7天,本研究将测量时点选择在信息发布之后的7天后。由于静态影响力无需考虑时间衰减因素,因此本研究将动态影响力公式中的时间衰减因素剔除,得到的即静态影响力指数计算公式,公式如下:
新浪微博和腾讯微博是目前中国汇聚用户量最大的两个微博平台,两个平台的月活跃用户达到3.76亿。在微博平台上大量用户以相互关注、单方面的关注或被关注的方式形成虚拟社交网络,每个微博用户遂成为一个信息传播节点。每天微博平台上的用户通过发布信息、转载信息、信息再加工的方式进行交流,由于信息容量短(140字以内)、转发机制便捷(只需@即可)、与粉丝能有效进行情感交流等因素,微博平台上信息发送和传播具有信息量大、发送快、影响大、覆盖面广、社会动员能力强等特点。正是由于微博这一传播特性,使其在导正社会舆论、向社会大众传播正确信息方面能发挥重要的作用。研究微博的信息影响力排名机制,有效识别高影响力信息,无论在学术层面还是在管理层面都有巨大价值。
由于动态影响力指数的实践价值远大于静态影响力指数,因此本研究的案例分析以实时影响力指数为考察重点。本研究截取2016年4月19日新浪微博的热门排行作为对象,探讨微博信息实时动态影响力,即考虑信息实时动态的排序,测试排序是否越靠前其影响力越大。
截取2016年4月19日10:30的新浪热门排行榜,可以看到,排行榜的前三名均是娱乐明星发布的内容,且发布时间均为4月18日,即前一天的内容,如图1所示。同一时间基于本研究的实时影响力评价算法所得到的影响力最高的前三条微博信息均为最近1小时的新内容,如图2所示。半个小时后,即11点新浪热门排行榜的前三名仍与10点半时相同,如图3所示,可以看到时间并未对新浪微博排名产生影响,新浪热门排行并未将一些实时变化的因素纳入其排名分析算法之中。相比较而言,根据本研究的实时动态影响力算法估算后,11点时微博信息排行的前三名已经有所变化,如图4所示。从图4中可以看到,半个小时过后,图2中排名第三的信息已排到图4中的第一位,图2中排名第2位的信息与图4中第2位信息相同,而图2中排名第一的信息半个小时后则不再是前三位的信息。由此可以看到,将时间因素纳入微博信息影响力评价模型后,能够更为有效地向受众提供更具影响力或受众关注更多的微博信息,这对于舆情监管部门实时分析舆论热点更具实践意义,实时分析信息可以更快、更早地发现负面舆论,及时地对其干预,有助于相关部门采取合适的应对与疏导策略。
图1 10:30时新浪热门排行
图2 10:30时微博实时排行
图3 11:00时新浪热门排行
图4 11:00时微博实时排行
本研究基于以往学者的研究成果,以网页排名算法为基础,并根据社交媒体平台的信息发布和转发特征,设计了测量信息实时影响力指数的算法。该算法综合考虑了社交媒体传播过程中,信息传播的范围、参与传播的用户影响力、时间变化造成的影响力衰减等因素,使得该算法计算所获得的实时影响力数值,可以比较真实地反映某条信息在某一时点的传播影响度。本研究对微博信息数据案例的分析也证实,将信息发布时间和传播时间考虑在内所计算的微博信息实时影响力排名,能够更有效地识别出更受用户关注的信息内容。同时,该算法结合大数据收集和处理技术,实现了在计算机上进行自动化的社交媒体信息影响力实时排名计算和更新,为锁定舆情热点、及时实施信息干预策略提供了有效协助,在目前网络舆情瞬息万变的情况下,有助于提高网络舆情监管部门对社交媒体信息的监管效率。