蛛网态微博关系网中有影响力用户的识别研究

2015-05-10 06:21谭思妮陈平华
广东工业大学学报 2015年3期
关键词:关系网蛛网子网

谭思妮,陈平华

(广东工业大学 计算机学院,广东 广州 510006)

蛛网态微博关系网中有影响力用户的识别研究

谭思妮,陈平华

(广东工业大学 计算机学院,广东 广州 510006)

通过分析蛛网态微博关系网的特点,指出识别蛛网态微博关系网中有影响力用户的重要意义.重点探讨微博用户自身属性对用户影响力的作用,结合PageRank算法原理,提出一种蛛网态微博关系网中有影响力用户发现方法 (Influential User Discovering Algorithm,IUDA),并基于新浪微博的真实用户数据将该方法与另外两种方法进行对比实验.结果显示,结合用户本身影响值的IUDA方法可以更高质量地发现蛛网态微博网中有影响力用户,客观反映用户的影响力.

有影响力用户; 微博; 微博关系网; PageRank; 中心性分析

近年来,随着智能移动终端的普及,微博社交网络发展迅速,积聚了大量的用户数据信息,引起了业内学者的广泛关注.CNNIC最新发布的《第33次中国互联网络发展状况统计报告》指出:截至2013年12月,我国微博用户规模为2.81亿.

微博关系网描述了人与人之间通过微博互相关注而建立的相互关系状态,具有多样性的特点,根据微博的传播形态,可以将微博关系网分为放射态微博关系网和蛛网态微博关系网,如图1所示[1].其中,放射态微博关系网具有明显的中心性,由中间向四周发散或由四周向中心聚拢,主要是以企事业单位、名人或明星等的微博为代表,它们本身就具有一定的影响力,吸引了大量的粉丝关注;而蛛网态微博关系网没有明显的特点,用户多以普通大众为主,关注对象多为认识的好友或者是喜欢的微博,由于用户本身的不同,每个用户对人的影响力是不同的.

图1 微博网络传播形态

微博用户影响力主要是指微博用户影响或改变其他微博用户心理和行为的能力,是衡量微博用户重要性的重要指标.用户影响力越大,说明其在微博关系网中受到的关注度越高.

识别微博关系网中有影响力的用户,有助于对微博社交网络本身的研究,例如微博的个性化推荐研究、微博的传播研究等,对于发展新的商业机会,发现社会问题和监控政治舆情也有非常重要的意义.不过,微博关系网具有弱关系特点,其网络用户节点具有明显的异构性[2],这对蛛网态微博关系网中有影响力用户的识别工作带来了一定的挑战.

当前,国内外主要基于Twitter和新浪微博两个热门微博开展了大量的理论和实践研究.研究工作主要集中在对微博用户特征及用户影响力的决定因素的研究[3-5]、对用户影响力的量化衡量[6-7]、对用户影响力排序算法的研究[8-9]、微博好友推荐[10-12]、微博社区的发现[13]等方面.其中,文献[8]针对微博话题中关键人物的识别问题,利用微博信息传播特征分析用户属性,提出了一种基于个人属性特征的用户影响力分析方法——PBF方法.文献[9]考虑用户微博主题相似性,对PageRank算法进行扩展,提出一种衡量Twitter中用户在某一主题内的影响力的算法.

从研究方法来看,当前发现有影响力用户的方法主要有以下几种:

(1) 基于统计学的研究方法,根据用户的单个属性(如用户粉丝数)进行统计性分析,从而找出有影响力用户.但是,由于选取属性单一,往往发现的结果十分粗糙,因而有学者提出对多属性进行统计性分析.文献[14]指出发现有影响力博客是了解博客发展的一种方式,对识别有影响力博主的条件进行分析,指出博主影响力由文章长度、收到回复数、入度数、出度数共同决定,最后提出一个识别有影响力博主的预测模型.

(2) 基于社会网络分析的研究方法,通过分析用户关系,构建用户关系网,衡量网络节点的重要性,从而发现有影响力用户.常见的衡量网络节点重要性的方法有点度中心度、中间中心度、PageRank排名算法及其改进算法等.但是,该类方法偏重于关系,而忽略了节点本身的影响,难免有失准确.文献[15]指出测量社区节点重要性和节点间关系的常用方法有两类:一类是中心性分析,另一类是拓扑链接结构分析.两种方法的共性都是用节点的重要性来量化用户在社交网络中的地位.文献[16]研究了如何识别网络论坛中的核心人物,文章在PageRank算法的基础上,结合用户行为特征和用户间关系网络特征,提出基于多属性的用户影响力排序算法MAR,并分析了用户影响力演化趋势.

(3) 基于聚类分析的方法,通过对用户属性抽取、转换、聚类,从而发现有影响力用户.常见的聚类方法有划分聚类、层次聚类、基于密度的聚类等.但是,该方法计算复杂度大,方法效率比较低.文献[17]研究了用户聚类的个性化推荐改进算法.

本文在分析总结现有研究工作的基础上,采用基于社会网络分析研究方法,重点对蛛网态微博关系网中的有影响力用户的识别进行研究.研究工作主要包括以下两个方面:(1) 蛛网态微博关系网模型的构建;(2) 蛛网态微博网中用户影响力的发现方法——IUDA.

1 蛛网态微博关系网模型的构建

1.1 蛛网态微博关系网的图模型

蛛网态微博关系网具有单向性,用户之间的关注关系没有鲜明的特点,可用如图2所示的简单的有向图G来表示,G=(V,E,P(e)),V表示关系网中的用户集,E表示用户之间的关注边集,P(e)表示所有边上的转移概率集,e表示边集E中的边.P(e)的取值等于用户节点的出度的倒数值,表示该用户节点对其关注节点的影响系数.如图2中用户A关注了用户B、C、D,那么对应的关注边AB、AC、AD上面的P值均等于1/3.

图2 蛛网态微博关系网络的图模型

1.2 蛛网态微博关系网的矩阵模型

蛛网态微博关系网的矩阵表示主要是根据用户之间的关注关系,如果用户A关注用户B,则在用户A对应的矩阵行和用户B对应的矩阵列交叉的位置上标注1,图2的关系图对应的关联矩阵为

另外根据关系图中的转移概率,可以得到关系图对应的转移概率矩阵.图2的关系图对应的转移概率矩阵为

2 IUDA方法的提出

2.1 节点本身特性度量

对微博关系网中每个用户节点本身来说,其影响力是各不相同的.在某个特定的蛛网态微博关系网中,假设:

(1) 如果一个用户A被关注的次数越多(也就是其粉丝越多),那么这个用户能够影响的用户就越多,其影响力越大;

(2) 如果一个用户自身越有影响力,那么被他关注的用户影响力大的可能性增加.

再探索用户节点本身属性对用户影响力的作用.在微博关系网中,用户节点存在入链和出链.入链节点表示用户的粉丝,通常入链数越多,说明这个用户越具有吸引力,其影响力就越大;出链节点表示用户的关注对象,通常出链数越多能在一定程度上反应用户的粘附力,但对于用户的影响力却可能产生一定的阻力,人们会认为这类用户更多的是想从关系网的其他用户那里获取信息.此外,微博作为一个信息分享平台,用户自身发布的微博数目与长度对用户影响力也有一定的作用.一个用户发布的微博越多,表明用户越喜欢分享信息,参与互动,自然能够吸引更多的用户的关注,影响力自然也就得到了提升.

设用户的入链数为λ,出链数为ε,发布的微博数为θ,本文设定用户节点α的本身影响值UR(α)按如下公式计算.

UR(α)=wiλ-woε+wtθ,

(1)

其中,UR表示用户的影响值,wi,wo,wt分别表示入链、出链及微博数对用户影响力的决定权重.

2.2 IUDA方法

PageRank算法是Google用来标识网页重要性的一种方法,它是通过计算网页的PR值表示网页的重要程度.根据微博用户关系网同网页链接网的共通性,本文将该算法衍生应用到蛛网态微博关系网中,帮助有影响力用户的发现,再结合节点本身的度量,提出一种衍生排序算法——有影响力用户发现算法(Influential User Discovering Algorithm,IUDA).

在PageRank算法中,算法考虑到网页质量对页面质量的影响,在每一次迭代计算过程中算法将网页的PR值平分到所有出链上,每个页面新的PR值就是从所有入链得到的PR值的总和.该算法具有收敛性,即不论初始值如何选取,这种算法都将能够保证网页排名的估计值能够收敛.类似的,可以定义用户的UPR值为

(2)

式中UPR(A)表示用户A的IUR值,L(A)表示用户A的出链总数,N表示用户总数,q是阻尼系数,一般取q为0.85.

仔细分析PageRank算法,笔者发现,其主要是通过用户的入链数与相关矩阵来决定概率转移矩阵,然后用概率转移矩阵进行幂法迭代计算得出最终结果.根据2.1节的分析,用户节点自身的属性对用户影响力具有一定的决定作用,其影响值用式(1)计算得到.对某一蛛网态微博关系网中的用户的IUR值进行归一化处理,得到用户的影响力权重w(α).

(3)

其中,max表示取蛛网态微博关系网中所有用户的UR的最大值,u可取所有用户.

改进方法IUDA中,计算最终用户的影响力值由UPR值和影响力权重w共同决定,对用户的影响力为

IUR[u]=w[u]·UPR[u]T,

(4)

其中 IUR[u]表示蛛网态微博关系网中所有用户的IUR值,w[u]表示所有用户的影响力权重值,UPR[u]表示所有用户的UPR值.

最后对计算得到的IUR值进行排序,挑选出有影响力用户.

IUID=maxN(IRU[u]),

(5)

其中,IUID表示最有影响力用户,maxN表示取所有用户IRU值最大的那个用户,u表示关系网中的所有用户.

3 实验结果及分析

3.1 实验数据来源

本文以新浪微博作为研究数据来源.通过微博采集器软件在某个连续时段抓取了5 000条微博用户信息,选择了其中的1 000条用户数据,共712条关注数据,模拟了一个小型的微博关系网.获取的用户信息包括用户基本属性信息,如用户ID、用户昵称、性别、是否认证、个人简介、所在地、真实姓名、关注数、粉丝数、微博数、当前等级、标签.以及用户关系信息.

3.2 蛛网态微博关系网的构建

借助UCINET社会网络分析软件的可视化组件NetDraw对实验数据中的1 000条数据,共731条关系进行可视化分析,如图3所示.

图3 1 000个微博用户构建的微博关系网络图

由图3可以看出微博关系网呈现出明显的“小世界性”.用户之间的关系在距离为1的路径范围内,呈现放射状;在单个的独立小世界中,呈蛛网态.在蛛网态微博关系网中,用户根据自己的兴趣爱好对其他用户进行关注,其关系没有固定的规律可循,无法像放射态微博关系网一样快速定位有影响力用户.

3.3 实验结果及比较分析

为了便于观察实验结果,本文选择了图3中两个蛛网态微博关系网进行有影响力用户的发现研究.分别采用中心性分析方法、PageRank算法及本文所提出的IUDA方法对上述两个网络中的用户进行分析.

点度中心性分析是中心性分析方法中常用的一种.点度中心度(Centrality)[18]指的是在一个网络图中与某个节点直接相连的节点个数,个数多说明与他人的联系紧密.它可以体现节点在网络中的权利地位及影响分布,中心度越高的节点越处于核心地位,影响力也越大.图4是利用可视化软件NetDraw对A、B两个子网的用户数据进行点度中心度的中心性分析后的可视化结果,对其中度为1的节点进行剪枝操作.从图4中可以看出,A子网中除了166用户,其余用户的中心度相似;B子网中7号用户的中心度最大.

图4 A、B子网的中心性分析可视化

分别采用PageRank和IUDA方法分析.使用IUDA方法时,首先采用式(1)计算用户UR值,式中的各权重参数值取值均介于[0,1],通过采用控制变量法,以0.1为变化距离来确定各参数的值,实验取值分别是wi=0.9,wo=0.1,wt=0.6.接着分别用式(2)迭代计算用户的UPR值,用式(3)计算用户影响力权重值,最后得出用户的IUR值.两种方法的实验结果对比如图5~6所示,表1中降序列出了部分用户号对应的PR值和IUR值.

图5 子网A中用户的影响力对比

表1 子网A、B用户(部分)的PR值和IUR值(倒序排列)

Tab.1 PR/IUR of the users in subnetAandB

子网PageRank算法IUDA方法子网PageRank算法IUDA方法用户号PR值用户号IUR值用户号PR值用户号IUR值A(38次迭代)1490.34931490.0828B(72次迭代)120.1937120.01741500.34931500.0233140.1915140.01161520.03711560.008470.0769170.01061560.03171650.008060.5515230.00921550.03061520.0059330.3947100.0080……………………1650.00801600.0004350.008380.00021660.0075166-(负值)360.0083360.0001

结合中心性分析结果,从图5~6中PR值与IUR值的对比可以看出两种方法在发现蛛网态微博关系网中有影响力的用户总体上是接近的.Page-Rank算法得到的值波动比较大,IUDA方法得到的值波动小,这主要是由于IUDA方法考虑了用户在整个微博关系网中的影响权重.

从表1中两种方法得到部分用户的影响力结果的排序情况,可以看到部分用户变化比较明显.例如子网A中165号用户,用PageRank算法计算得到他的排名是倒数第2个,采用IUDA方法,其排名提升到了第4名.由图4可以看到其入度比较偏小,因而其PR值也相对变小,但是查看该用户的本身属性,其关注数为115,粉丝数为94,微博数为348,和该子网中其他用户相比,其本身在微博网中的影响力是比较大的,IUDA考虑到了这一作用,从而发现了它.再如子网B中17、23、10号用户排名的提升也是同样的道理,然而对于7号用户,PageRank算法得到他的排名为第3,结合图4,其中心性为子网B中最大的,似乎的确影响力偏大,但是到IUDA中,其排行到了第10位.由于其本身属性和前面几位用户相比明显偏低,但入链数量的优势并不明显,因此其在IUDA中排名靠后.

综上所述,IDUA方法在发现蛛网态微博关系网中的有影响力用户的实践中是有效的,同时与中心性分析方法以及原始的PageRank算法相比,其发现的有影响力用户排名更具说服力.

4 结语

发现蛛网态微博网中的有影响力用户具有重要的研究意义.本文基于新浪微博真实数据,对蛛网态微博关系网中有影响力用户的识别进行了研究.首先构建并分析了蛛网态微博关系网.接着基于用户属性度量用户本身影响力,结合PageRank算法,提出了IUDA方法.实验对比说明IUDA方法能够发现蛛网态微博网中的有影响力用户,具有较高的区分度.不过,本文在度量用户UR值时,并没有考虑到用户的微博内容、地理位置等影响因子,但它们在度量用户影响力上也有一定的决定性,相关工作将在进一步的研究中开展.

[1] 刘丽芳.微博客的传播特征与传播效果研究[D].杭州:浙江大学传媒与国际文化学院,2010.

[2] 陈克寒,韩盼盼,吴健.微博客的传播特征与传播效果研究[J].计算机学报,2013,36(2):349-359.

Chen K H, Han P P, Wu J. Study on the characteristics of communication and media effect of micro-blog[J]. Chinese Journal of Computers, 2013, 36(2):349-359.

[3] 吕非非,徐雅斌,李卓,等.面向微博影响力的社交网络特征分析[J].计算机应用,2013,33(12):3359-3362, 3418.

Lü F F, Xu Y B, Li Z, et al. Analysis of characteristics of social networks in terms of microblog impact[J]. Journal of Computer Applications.2013,33(12):3359-3362,3418.

[4] 王晓光.微博客用户行为特征与关系特征实证分析——以“新浪微博”为例[J].图书情报工作,2010(14):66-70.

Wang X G. Empirical analysis on behavior characteristics and relation characteristics of micro-blog users——take “Sina Micro-blog” for example[J]. Library and Information Service, 2010(14):66-70.

[5] Cha M, Haddadi H, Benevenuto F, et al. Measuring user influence in Twitter:the million follower fallacy[C]∥ Proceedings of the Fourth International Conference on Weblogs and Social Media, ICWSM 2010. Washington, DC, USA :[s.n.], 2010.

[6] Aditya Pal, Scott Counts. Identifying topical authorities in microblogs[C]∥Proceedings of the Fourth ACM international conference on Web search and data mining. USA, New York:[s.n.],2011: 45-54.

[7] 何黎,何跃,霍叶青,等.微博用户特征分析和核心用户挖掘[J].情报理论与实践,2011(11):121-125.

He L, He Y, Huo Y Q, et al. Analysis of micro-blog users features and the data mining of core user[J]. Information Studies: Theory & Application,2011(11):121-125.

[8] 马俊,周刚,许斌,等.基于个人属性特征的微博用户影响力分析[J].计算机应用研究,2013,30(8):2483-2487.

Ma J, Zhou G, Xu B, et al. Analysis of user influence in micro-blog based on individual attribute features[J]. Application Research of Computers,2013,30(8):2483- 2487.

[9] Weng J S, Lim E P, Jiang J, et al. Twitterrank: finding topic-sensitive influential twitters[C]∥ACM International Conference on Web Search and Data Mining(WSDM 2010). [S.l.],2010:261-270.

[10] 杨尊琦,张倩楠.基于k-means算法的微博用户推荐功能研究[J].情报杂志,2013,32(8):142-144,131.

Yang Z Q, Zhang Q N. Rearch on attention behavior of microblog users based on K-means cluster analysis[J]. Journal of Information.,2013, 32(8): 142- 144, 131.

[11] 徐志明,李栋,刘挺,等.微博用户的相似性度量及其应用[J].计算机学报,2014,37(1):207-218.

Xu Z M, Li D,Liu T, et al. Measuring similarity between Microblog Users and Its Application [J].Chinese Journal of Computers, 2014,37(1):207-218.

[12] 王朝勇,马海欣,沙朝锋,等.TBPRS:基于信任关系的社交用户推荐系统[J].计算机研究与发展,2012, 49(Sl): 367-371.

Wang C Y, Ma H X, Sha C F, et al. Social people recommendation system based on trust relationship[J]. Jounal of Computer Research and Development,2012, 49(Sl):367-371.

[13] Huang T, Peng D L, Cao L D. Discovering communities with self-adaptive k clustering in microblog data[C]∥2012 Second International Conference on Cloud and Green Computing,[S.l.], 2012:383-390.

[14] Agarwal N, Liu H, Tang L, et al. Identifying the influential bloggers in a community[C]∥Proceedings of the 2008 International Conference on Web Search and Data Mining. New York, USA:[s.n.], 2008:207-218.

[15] 王连喜,蒋盛益,庞观松,等.微博用户关系挖掘研究综述[J].情报杂志,2012,31(12):91-97,57.

Wang L X, Jiang S Y, Pang G S, et al. A literature review of user relationship mining on microblog[J]. Jounal of Intelligence, 2012, 31(12):91-97, 57.

[16] 张玥,张宏莉,张伟哲,等.识别网络论坛中有影响力用户[J].计算机研究与发展,2012,50(10):2195-2205,2013.

Zhang Y, Zhang H L, Zhang W Z, et al. Identifying the influential users in network forum[J]. Journal of Computer Research and Development, 2012,50(10):2195-2205,2013.

[17] 李克潮,凌霄娥.云模型与用户聚类的个性化推荐[J].计算机应用,2013,33(10):2804-2806,2826.

Li K C, Ling X E. Personal recommendation based on cloud model and user clustering[J].Journal of Computer Applications.,2013,33(10):2804-2806,2826.

[18] 刘军.整体网分析讲义——UCINET软件实用指南[M].上海:上海人民出版社,2009.

Identifying the Influential User in the Cobweb State Micro-blog Network

Tan Si-ni, Chen Ping-hua

(School of Computers, Guangdong University of Technology, Guangzhou 510006, China)

Through analyzing the characteristics of the cobweb state micro-blog network, the paper points out the importance of identifying the influential user in the cobweb state micro-blog network. It focuses on the effect of the attributes of micro-blog users itself, combines the principle of PageRank algorithm, and then proposes IUDA(Influential User Discovering Algorithm) in cobweb state micro-blog relationship network to find influential users. Finally, experiments are conducted with the real user data from Sina micro-blog based on this method and are compared with two other methods. The results show that the IUDA method combined with the user itself can find influential users in cobweb state micro-blog network more effectively, and can objectively reflect the user′s influence.

influential users; micro-blog; micro-blog relationships network; PageRank; centrality analysis

2014- 04- 11

广东省教育部产学研结合项目(2012B091000058);广东省专业镇中小微企业服务平台建设项目(2012B040500034)

谭思妮(1990-),女,硕士研究生,主要研究方向为社会网络分析、数据挖掘.

10.3969/j.issn.1007- 7162.2015.03.012

TP311

A

1007-7162(2015)03- 0061- 06

猜你喜欢
关系网蛛网子网
一种简单子网划分方法及教学案例*
蛛网商店
子网划分问题研究及应用
—类非均衡蛛网模型的动态分析与经济预测
为什么蜘蛛不会被蛛网粘住
子网划分的简易方法
科层制与关系网:民国时期世界书局和大东书局的发行管理制度述论
蛛网迷宫
VLSM技术应用——以贺州学院行政办公楼网络为例