刘芳芳 张婉婷
摘要:文章在微博用户已分类的基础上,提出一种基于社区内用户当前时间段的影响力计算方法,使得用户影响力计算结果更加客观、科学以及具有应用价值。文章提出一种新的影响力排名算法,对原有pagerank算法进行改进,加入时间和活跃度两个因素计算用户粉丝对用户的影响力贡献值。首先在数据抓取时,只抓取限定时间段内微博数据,确保数据能反应用户最新动态。然后再把用户的活跃度作为PR值计算的一个因子构造PR值计算公式,活跃度越高则粉丝的贡献值越大。除此以外,还对用户自身的影响力进行计算,用戶最终的影响力值等于粉丝贡献值与自身影响力之和。最后通过对新浪微博数据进行采集,将计算结果与传统的pagerank进行比较,该算法能更准确更科学地反应社区内用户当前的影响力排名。
关键词:微博社区;影响力;pagerank
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2019)10-0248-03
开放科学(资源服务)标识码(OSID):
随着互联网技术和信息传播方式的不断发展,微博从初始的社交网络平台逐渐发展成为一种新兴的信息传播媒体,在现实社会网络中拥有巨大的影响力。新浪微博作为国内最大的社交网络平台,通过名人效应吸引了一大批用户,至2017年底,新浪微博月活跃用户数已经达到4亿。经过几年的发展,新浪微博已经积累了巨大的用户量,用户每天在平台上发布新的状态或者新闻事件,用户传播信息的能力等等,吸引了大批的研究者对其进行研究。研究者通过用户公开的信息对其进行分类,也就是社区划分,将相似的人群划分为一个社区,然后再对各个社区挖掘影响力较大的用户。这种基于社区划分的大“V”用户的挖掘,对于商业广告以及社会舆论、新闻传播都有着重要的应用价值。
目前,微博用户影响力的研究已经取得一些成果。张琳等[1]在对用户聚类后,提出一种微博魅力指数即用粉丝数/微博数,简单地计算用户影响力。康书龙[2]从复杂网络学分析用户行为,认为微博用户的活跃度对其关注用户的影响力计算具有重要作用,主要考虑好友转发微博对其影响力的贡献,提出一种改进的pagerank算法,将活跃度作为权值计算用户转发微博的能力作为影响力值。刘玲等[3],提出用户的影响力应该由用户自身的质量指数与用户的间接质量指数构成,用户的自身质量指数即用户微博的转发率、评论率,是否为认证用户等,用户间接质量指数即用户好友对其影响力的贡献值。但现实中,大部分的微博用户行为存在周期性和不稳定性,如果拿所有的原始数据进行分析,得到用户影响力是长时间以来积累的值,不能反映该用户在最近一段时间内的影响力。本文在以上算法的基础上,加上时间因素,采集最近一段时间内的数据对用户自身质量指数算法和间接质量指数的算法进行改进,提出一种新的微博影响力计算方法,实验结果分析表明,该算法更具科学性和准确性。
1 pagerank算法
pagerank算法[4]是一个网页排名算法,基本思想是将网页之间的连接看作是一种投票行为,如果网页a链接到网页b,则认为网页a给网页b投了一票。在微博中,也可以用来描述用户与用户好友之间的相互作用关系。如果用户a转发了用户b的微博,如果用户b是一个影响力非常大的大“V”用户,则用户a的影响力也会得到大幅提升[5]。Weng 等[6]的研究说明,如果将好友对其影响力贡献的总值作为影响力评价公式的唯一指标应用在Twitter上,最后实验的排序结果与经典的 PageRank 算法排序结果总体上一致。但是微博用户中,每个用户的活跃度是不一样的,对于同一个粉丝,用户活跃度越高应该获取到粉丝的影响力贡献值越高,同时还要考虑时间因素,因此需要综合多项指标进行评价。
经典的PageRank算法是通过网页的链接进行分析得到网页的重要度,计算的网页的重要度值称为PR值。一个网页的PR值取决于链接到页面的数量及该被链接的页面的质量和重要度,最后该网页的PR值会被平均分配给它链出的网页。例如,一个网页a指向一个网页b,则网页b的一部分PR值由网页a的PR值除以链出数量,网页a的影响力越大,则对网页b的PR值贡献值越大。PageRank算法的数学公式描述如下,设pi为一个网页,L(pj)为网页pj链出数目,M(pi)链出到pi的网页集合,d为阻尼系数,表示用户在浏览某个页面后以1-d的概率继续浏览某一个链出的页面,以d概率重新选择一个随机页面进行浏览,那么页面pi的PR值可以用以下公式表示:
其中阻尼系数d一般取值为0.15[45],加入阻尼系数是为了保证最后的计算结果总是收敛的。微博中用户之间的关系可以看成一个有向图,用户看成是网络中的网页,好友关系可以看成是网页的链入链出。但是,传统的算法只考虑了链接, 没有考虑网页内容和主题的相关影响,而将PR值均匀地传递给它所链出的页面,因此计算结果不准确。后期很多研究者对算法进行了改进,比如加入时间因素,加入网页的内容因素和主题因素等。
2 微博用户影响力计算模型
本文在基于滑动窗口多标记传播算法[7]对用户进行社区划分后,再针对不同社区的用户分别采集最近一段时间的数据,计算影响力。在微博中[8],用户影响力主要通过发布微博、转发微博、评论、点赞等行为积累而成的,微博社区内的用户之间交互量非常大且活跃。假设,用户A关注了用户B ,则用户B发布的微博就可以被用户A看到,如果用户A转发了用户B的微博则用户B的微博影响力被扩大,等同于用户B的影响力扩大,用户A的影响力越大,则对用户B的影响力贡献值就越大;如果用户A 仅评论了用户B的微博,则用户B的微博仅影响到用户A一人,因此用户B中参与评论的粉丝数量越多,则影响的用户量越大;如果用户A点赞用户B的微博,则影响如同评论。除此以外,用户本身如果为认证用户,则其发表微博更令人信服,因此,从这个角度,认证用户自身的影响力指数高于非认证用户。本文将用户的影响力计算值为自身影响力与粉丝影响力贡献值(间接影响力)之和,具体公式如下:
3 实验分析
本文在微博用户社区划分[7]数据基础上,对标签为“装修 家居 电器 卧室”社区用户数据爬取。首先爬取该社区用户2018年的微博、每条微博被转发的数量和转发的用户id、 每条微博被评论的数量和评论的用户id、每条微博被点赞的数量和点赞用户的id、用户是否为认证用户。对用户的转发用户id、评论用户id、点赞用户id统计并去重,得到的用户id则认为是与该用户有交互的粉丝,本文考虑为有效粉丝。然后再根据有效粉丝的id进行第二层数据爬取,计算这些用户最近一年的微博数量,这些用户所关注的所有用户集合,以计算这些用户的活跃度。
本文针对“装修家居”类的社区3000个用户数据进行分析,并且与传统的pagerank算法按历史累计数据对粉丝影响力平均分配进行计算的结果比较,分别得到不同的影响力评价结果。其中表1和表2分别代表pagerank算法和本文算法得到的影响力PR值,按照本社区的影响力PR排名结果对比。
由于算法不同,基础研究数据不同,因此PR值计算结果不同,但是对所有用户排名结果是有效的。通过两种算法比较可以看出,本文的算法得到的社区内影响力排名较传统的pagerank算法发生了变化。比如用户id为2354950807的用户微博等级为LV43,被誉为2018年十大影响力家居LV,查看其微博的转发量、评论数已经点赞数相对较多。传统pagerank排名第5,本文算法中排名第二,用户2994476004情况也类似于2354950807用户。比如用户id为2143116435的用户总的粉丝数和总的微博量都很大,但是其在最近一年内发布的微博数量只有2070不到微博总数的10%,查看其微博的互动也非常少,本文的算法排名中它的排名后退了2位,用户2517621301情况类似。因为本算法注重最近一段时间内用户的影响力,而不是对历史累计的影响力,同时考虑用户的活跃度,有些用户或许过去影响力比较大,而随着时间的延长,用户发布微博数量越来越少,或者微博质量降低,导致不再吸引用户而影响力降低,该算法能够更加准确客观地反映用户的影响力排名。
4 结语
新浪微博作為国内最大的社交网络平台,其反应的人类的社交行为具有非常实际的代表性,研究微博社区用户影响力对新闻传播、社会舆论监控已经商业广告都有非常重要的意义。本文提出计算微博用户的影响力应该以最近时间段数据为基础,从人类的行为特征来分析,人类的活动具有周期性和不稳定性,因此也把用户发布微博的频率作为用户的活跃度用来构造用户影响力公式。本文把实际参与互动的粉丝作为有效粉丝计算用户自身的影响力和间接影响力,最后通过在新浪微博数据集上进行试验,验证了该算法的有效性。但是目前该算法只能手动爬取用户数据再进行用户影响力计算,还不能实现实时滚动地计算用户的影响力,而且本文在基于社区划分的基础上进行分析,只能对已分好的社区内用户进行排名,用户数数量固定,不能实现自我扩展,因而排名的范围受到一定限制,本文接下来将对这些内容进行研究。
参考文献:
[1] 张琳,谢忠红.基于聚类的微博用户类型与影响力研究[J].情报科学,2016,34(08):57-61.
[2] 康书龙.基于用户行为及关系的社交网络节点影响力评价——以微博研究为例[D].北京邮电大学,2011.
[3] 刘玲,杨长春.一种新的微博社区用户影响力评估算法[J].计算机应用与软件,2017,34(07):212-216.
[4] Matthew Richard,Pedro Domings.Combing link and content information in web scarch[EB/OL].http://www.cse.Lehigh.edu/.
[5] 马俊.基于话题传播的微博用户影响力分析[D].解放军信息工程大学,2013.
[6] Weng J,Lim E P,Jiang J,et al.Twitter Rank: finding top-ic-sensitive influential twitterersC]/ / International Confer-ence on Web Search and Web Data Mining,WSDM 2010,New York,Ny,Usa,February.2010: 261-270.
[7] 刘芳芳,谷瑞军,张婉婷.滑动窗口多标记传播算法在微博用户聚类的应用.内江科技,2018,39(12):42-44.
[8] 马俊,周刚,许斌等.基于个人属性特征的微博用户影响力分析[J].计算机应用研究,2013,30(8):2483-2487.
【通联编辑:梁书】