杨扬,王鸯雨
(1.南京师范大学计算机科学与技术学院,南京 210023;2.南京师范大学教师教育学院,南京 210023)
一种基于用户影响力的社交网络传播代价模型设计
杨扬1,王鸯雨2
(1.南京师范大学计算机科学与技术学院,南京210023;2.南京师范大学教师教育学院,南京210023)
近年来,以微博为代表的社交网络得到迅速普及和发展,已成为广大民众获取信息和发表观点的重要平台,不断影响着人们的生活。由于社交网络具有用户规模庞大、话题更新频繁、信息传播迅速和影响范围广泛等特点,使其研究工作具有很重要的意义。
随着互联网的不断发展,微博由于其快捷、方便等特征不断发展,微博用户不断膨胀,并成为企业营销推广的重要渠道。随着微博的热门,越来越多的商家开始通过微博平台推广自己产品信息。此时,推广方案的可行性与其价值的高低则需要通过建模进行有效的评估。这是一个很有研究价值的问题。
在微博中,用户的影响力直接关系着传播的代价[3];在商业推广时,都希望自己的推广消息能传播的更为广泛,能被更多的人看到,以影响到更多的用户。根据用户的粉丝数,得到发布消息的用户数排名。综合上述两个指标建立社交网络传播代价模型,考量推广方案的效果和价值。
在已有的研究中,都是将粉丝数作为社交网络传播代价的衡量标准;而本文在考虑粉丝数的同时,也考虑到用户的关注数、发微博数,都作为用户影响力的影响因子;与此同时,我们还考虑了发布消息用户数排名前十的用户集合,对其推广价值进行比较,这样得到的结果更优。
综上建立更加完善的社交网络传播代价模型,综合考量社交网络传播代价,并将其应用到商业推广方案的推广价值分析之中。
为了得到社交网络传播代价,我们建立了社交网络传播代价模型,建模过程描述如下:
①根据微博用户的粉丝数、关注数、发微博数,综合衡量微博用户影响力。②根据每位用户的粉丝用户,利用贪心算法和全局算法,找到发布消息的用户数排名的方案。③将微博用户影响力、发布消息的用户数排名结合,建立社交网络传播代价模型,得出代价最小的发布消息用户集合。
本文结合微博数据,说明以下模型的可行性。
2.1PageRark 算法模型
首先,我们利用PageRank算法建模,其算法如下:
PageRank算法是用来衡量网络中节点重要性的经典算法,算法基于网络拓扑图上的链接关系,计算网页的重要程度。算法的表达式为:
图1 PageRank程序
其中,d表示用户在浏览某个页面后继续以(1-d)的概率浏览某一个链出的页面,或者以d的概率重新选择一个随机页面进行浏览。根据上述公式可以看出,如果某网页有较多的链入网页,说明较多的其他网页认为该网页是重要的;如果较高PR值的网页指向某网页,表明重要的网页认为该网页是更重要的,这种“更权威的认为”可以表明该网页的重要性;如果其他网页只有一个链出且指向该网页,那么说明其他网页认为只有该网页是最重要的,所以推荐程度就更大。由此,我们可以基于PageRank算法评价微博用户影响力。这里我们认为节点的重要性与影响力成正相关。
PageRank算法程序如图1。
2.2层次分析法
利用 PASW Statistics 18软件对数据进行主成分分析[5]。
进行数据初始化。通过PASW的数据标准化功能,将采集到的原始数据进行数据标准化。
对标准化之后的数据进行相关性分析,以判断指标之间存在的替代关系.相关系数矩阵如表1所示。
表1 相关系数矩阵
从表1中可以看出,关注数与发微博数的相关度最高,表明用户关注数越多,所发的微博数也越多。而粉丝数与关注数的相关度最低,表明粉丝数与关注数关系并不大。
(3)计算各个主成分的权重如表2所示。
表2 解释的总方差
从表2中可以看出,粉丝数权重为33.805%,关注数权重为33.456%,发微博数权重为32.739%,得:
UI=33.805%×V1+33.456%×V2+32.739%×V3(2)
(其中UI表示用户影响力,V1表示用户粉丝数,V2表示关注数,V3表示用户发微博数)
3.1贪心算法模型
(1)将i个用户按照粉丝数进行降序排列,不妨令第1个用户的粉丝数为n(1)。
(2)按顺序依次往下,若用户b中的粉丝号与之前b-1个用户的粉丝号有重叠,将这些粉丝号删除,得到用户b与之前b-1个用户粉丝号均不同的粉丝号,统计用户b中的粉丝号的数量,得到第b个用户的粉丝数为n(b)。
利用贪心算法,根据给定案例数据可以得出:当用户为2000人时,m=102人;当用户为10000人时,m= 286人。
3.2全局算法模型
(1)将i个用户按照粉丝数进行降序排列,不妨令第1个用户的粉丝数为n(1)。
(2)将第一个用户的粉丝号均赋为0,并在剩余用户中将与第一位用户粉丝号相同的删除,即将其他用户所要删除的粉丝号用其后一位粉丝号赋值,记fens (i,j)=fens(i,j+1),得到新的矩阵。
(3)再将i-1个用户按照粉丝数进行降序排列,记此序列中第一个用户的粉丝数为n(2)。
(4)重复步骤(2)。
利用全局算法,根据给定案例数据可以得出:当用户为2000人时,m=93人;当用户为10000人时,m=243人。
表3
比较贪心算法和全局算法的结果,贪心算法所得的值均大于全局算法的值,分析原因知:由于所得的成员是按照删除前的粉丝数排序截得的成员,该顺序下的成员数并不一定是降序排列,所以所得的值将偏大。可见,全局算法的结果更优。
在已有的研究中,都是将粉丝数作为社交网络传播代价的衡量标准;而我们在考虑粉丝数的同时,将用户的关注数、发微博数综合考虑,综合考虑用户影响力的影响因子,从而更准确地衡量社交网络传播代价。
与此同时,我们还考虑了发布消息用户数排名前十的用户集合,对其推广价值进行比较,这样得到的结果更优。
为计算社交网络传播代价,我们将用户影响力和所有用户都能看到消息的前提下所需发布消息的用户数进行逆序排名进行结合,分别求出发布消息用户数排名前十的用户集合的用户影响力之和,与用户集合的用户成本之和求商。
其中传播代价为value,所有用户都能看到消息的前提下所需发布消息的用户数为num,K用户所对应的影响力为influence(k),k用户成本为cost(k)。
本文提出的社交网络传播代价模型结合微博的用户影响力、发布消息的用户数量排名,建立社交网络传播代价模型,综合各个因素考虑传播代价,从而可以为商业圈可行性推广方案进行价值评估,使其能够以最小的成本得到最优的推广。
[1]MATLAB数值计算.机械工业出版社[M],2010.1.
[2]姜启源.数学模型(第三版)[M].高等教育出版社[M],2003:215-246.
[3]王琛.一种改进的微博用户影响力评价算法.信息工程大学学报[J],2013,14.
[4]严蔚敏,吴伟民.数据结构(C语言版).清华大学出版社[M],2011.5.
[5]刘清,彭赓,吕本富.基于主成分分析法的微博影响力评估方法及实证分析——以“新浪微博”为例.数学的实践与认识[J]. 2014.04
PageRank Algorithm;Analytic Hierarchy Process;Greedy Algorithm;Global Algorithm;Social Network Spread Cost Model
A Social Network Spread Cost Model Based on User Influence
YANG Yang1,WANG Yang-yu2
(1.College of Computer Science and Technology,Nanjing Normal University,Nanjing 210023;2.College of Teacher Education,Nanjing Normal University,Nanjing 210023)
1007-1423(2015)26-0043-04
10.3969/j.issn.1007-1423.2015.26.011
杨扬(1995-),女,安徽安庆人,本科,学生,专业方向为计算机
2015-07-07
2015-08-15
为了对社交网络传播代价进行评估,以微博为例,提出一种社交网络传播代价的评估方法。利用PageRank算法和层次分析法计算微博用户影响力;采用贪心算法和全局算法,得出在所有用户都能看到消息的前提下所需发布的用户数量的排名,并对这两个算法进行比较。综合用户影响力和微博的发布用户数量排名建立社交网络传播代价模型。根据微博数据,对社交网络传播代价进行评估。
PageRank算法;层次分析法;贪心算法;全局算法;社交网络传播代价模型
王鸯雨(1993-),女,浙江台州人,本科,学生,专业方向为数学教育
In order to assess the cost of the social network spread to blog,proposes a method to assess the cost of a social network communication. Based on PageRank algorithm and analytic hierarchy process,calculates the user influence.Uses greedy algorithm and global algorithm,infers the users releasing quantity rank when all users can see it,and compares the two algorithms.Considering the user influence and the user releasing quantity rank,establishes a social network spread cost model,according to the blog data,assesses the cost of the social network spread.