韩冠宙
(四川大学计算机学院,成都 610065)
微博平台的影响力综述
韩冠宙
(四川大学计算机学院,成都 610065)
近年来随着Web 2.0的日渐普及,微博作为一种重要的社交媒体,以其传播迅速、交互性强等特点,受到广泛的关注。许多学者都对微博中的用户影响力进行研究。对目前社会对影响力的研究进行分析总结,重点阐述基于网络、基于话题层面影响力的模型,分析各种模型的优缺点,并提出未来该领域的研究方向。
影响力;微博;社会网络;数据挖掘
近年来,随着网络技术的革新,在线社交网站也得到了长足的发展,尤其是微博类网站已经成为最流行的社交媒体之一。根据中国互联网络信息中心(CNNIC) 2014年1月发布的中国互联网络发展状况统计报告报告显示,截至2013年12月,我国微博用户规模为2.81亿,网民中微博使用率为45.5%[1]。由此可见,微博用户规模之大,应用之广泛已经成为中国网民的主流应用之一。作为一种新兴的在线社交媒体,微博以其平台多样化、信息传播速度快、交互性强等特点。不仅逐渐成为个人信息获取、情感表达的工具,还成为政府、企业、组织用于信息发布、公关营销的平台。
基于对现实世界的深远影响,对社交网络的挖掘已经成为一个非常有趣的任务[2],而微博就是最活跃的社交网络平台。许多微博信息发表的初始并没有引起相应的关注,而在一些高影响力的用户转发或者评论以后才引起了较大反响。这些高影响力用户的存在是引起信息持续传播和形成更大传播规模的关键因素[3]。他们对于热点话题的形成,信息的传播以及舆论的导向都起着非常重要的作用。因此对于用户影响力的研究,发现高影响力的用户,深入了解信息传播的内在机制吸引了众多学者的兴趣。很多研究表明,高影响力用户对于产品营销,舆情导向等都有很大帮助。
在微博平台中,一些学者试图确定用户的影响力跟哪些因素相关。这些度量方法都将目标放在用户的影响(权威度、可达性)大小等方面。总的来说,微博的影响力可以定义为使得信息传播的有效性和观众参与的程度的一种能力的大小。
微博作为一个便捷的信息分享与交流网络,为社交影响力的研究提供了一个很好的平台。利用粉丝数作为用户影响力大小是一个非常简单流行的度量方法。在一般情况下,一个用户的粉丝数越多,那么他在微博中的影响力就越大,就越受欢迎。这种度量方法是基于这样的假设:用户发布一条微博那么他所有的粉丝都会阅读它。这样用户粉丝越多,那么他的微博传播也就越广泛。然而,这种观点忽略了用户与微博内容进行的交互,也忽略了微博中僵尸粉等情况。
文献[6]根据粉丝数及粉丝网络的PageRank值将用户影响力进行排名,发现这两个排名特别相近。然而,他们根据用户的转发数进行排序,发现所得到的排名不同于前两个排名。结果表明用户微博内容的流行程度与用户粉丝数多少并不呈正比关系。文献[7]也比较了三种不同的度量影响力的方法:粉丝数、被转发数、被提及数。文章发现转发与提及相关性很高,而与粉丝多少并无太大关联。基于这样的实验,他们认为在微博中以粉丝数多少作为度量用户影响力大小的方法并不恰当。
最近,部分学者尝试利用微博中的链接关系来度量用户的影响力大小。例如,一种基于PageRank的扩展方法TunkRank[8],它计算一个用户影响力的方法为:
其中p是用户转发一条微博的概率。TunkRank是根据用户所发微博被转发的期望数来度量一个用户的影响力。然而,这种方法将用户转发所有微博的概率都设为相同的常数,这样是很不合常理的。
文献[9]引入了话题级别的影响力问题。给定一个社交网络以及每个用户的话题分布,问题定义为找到特定主题的子网和子网成员之间在特定主题下的影响力大小。本文提出一个基于因子图理论的TAP模型。模型将用户属性以及网络关系联合建模,并且影响力大小是话题相关的,而影响力的强度是由在特定主题上,文本内容从影响节点到被影响节点“复制”的多少决定。另一个值得注意的工作是由文献[10]提出的TwitterRank方法,首先根据LDA计算一个用户的话题分布,然后构建一个基于用户关注网络的加权有向图,其中边的权重代表两个用户之间的话题相似性。对于每个特定的话题,在这个加权有向图上运行一次PageR-ank算法的变体,进而得到每个话题上用户的影响力大小。TwitterRank有别于PageRank的地方在于其是基于话题随机游走。在特定话题上从一个用户转移到另一个用户的概率大小定义如下:
文献[11]提出使用一组特征来表示微博用户,包括节点及话题特征。文献首先在这一组特征上运行基于概率的聚类算法,然后在输出的类簇内进行排序,最后输出基于特定话题上的影响力排名。这种基于簇的方法相对于基于网络的方法有潜在的优势,因为它不会出现太大的倾斜;更重要的是,它在计算上是可行的并且可以实时捕获微博的动态变化。文献[12]提出一种基于LDA的生成模型FLDA,它将基于微博内容的话题发现与影响力分析放在同一模型,并且同时生成。该模型同时可以发现微博用户关注关系是否是基于内容的。但是模型忽略了微博用户之间的交互信息。
本文首先探讨了社会影响力的定义。然后分析总结了目前社会对微博影响力研究的方法:基于粉丝数、转发数,基于网络,基于话题等方法。根据目前微博影响力研究现状,可以对未来研究做一个推测:如何更准确、高效地发现有影响力的个体。探究用户之间相互影响的机制,基于话题,基于行为以及几种标准相结合的新模型。
[1] 第32次中国互联网络发展状况统计报告[R].北京:中国互联网络信息中心,2014
[2] Kimura M,et al.Extracting Influential Nodes on a Social Network for Information Diffusion[C].Data Mining and Knowledge Discovery, 2010,20:70~97
[3] 袁毅.微博客信息传播结构、路径及其影响因素分析[J].图书情报工作,2011,55(12):26~30
[4] E.Katz,P.Lazarsfeld.Personal Influence:The Part Played by People in the Flow of Mass Communication[J].Free Press,New York, 1955
[5]D.Watts,P.Dodds.Influentials,Networks,and Public Opinion Formation.Journal of Consumer Research[C],2007,34(4):441~458
[6] H.Kwak,C.Lee,H.Park,S.Moon.What is Twitter,a Social Network or a News Media[C].In Proceedings of the 19th International Conference on World Wide Web(WWW),Raleigh,NC,USA,April 2010:591~600
[7] M.Cha,H.Haddadi,F.Benevenuto,K.P.Gummadi.Measuring User Influence in Twitter:The Million Follower Fallacy[C].In Proceedings of the Internatinal AAAI Conference on Weblogs and Social Media(ICWSM),Washing-ton DC,USA,May 2010
[8] Tunkelang,D.,A Twitter Analog to PageRank.http://thenoisychannel.com/2009/01/13/a-twitter-analog-topagerank/,2 July 2012,2009
[9] J.Tang,J.Sun,C.Wang,and Z.Yang.Social Influence Analysis in Large-Scale Networks[C].In Proceedings of the Fifteenth International Conference on Knowledge Discovery and Data Mining(SIGKDD),Paris,France,June~July,2009:807~816
[10] Weng,J.,Lim,E.P.,Jiang,J.,He,Q.,Twitterrank:Finding Topic-Sensitive Influential Twitterers[C].Proceedings of the third ACM International Conference on Web Search and Data Mining,ACM,261~270,2010
[11] A.Pal and S.Counts.Identifying Topical Authorities in Microblogs[C].In Proceedings of the Fourth ACM International Conference on Web Search and Data Mining(WSDM),Hong Kong,February 2011:45~54
[12] Bi,B.,et al.Scalable Topic-Specific Influence Analysis on Microblogs[C],2014
Survey of Microblog Influence
HAN Guan-zhou
(School of Computer Science,Sichuan University,Chengdu 610065)
With the growing popularity of Web 2.0,microblog as an important social media,with its rapid propagation and strong interaction,has been received extensive attention.Many scholars have studied the influence of user in microblog.Discusses the definition of the influence in microblog,and gives a summarize to the current influence analysis,including the network-based model and topic-based model.Analyzes the advantages and disadvantages of each model.Proposes future research trends in the field.
Influence;Microblog;Social Network;Data Mining
1007-1423(2015)02-0042-03
10.3969/j.issn.1007-1423.2015.02.011
韩冠宙(1989-),男,河南新乡人,硕士研究生,研究方向为数据挖掘
2014-12-04
2014-12-18