王晓明,王 莉,杨敬宗
(太原理工大学 计算机科学与技术学院,太原 山西 030024)
在线社会网络发展迅速,成为当前信息交流和传播的重要渠道,截止到2011年底,仅新浪微博注册用户就已突破3亿大关,用户每日发帖量超过 1亿条,日活跃用户比例为9%。从2011年到2012年,新浪微博用户总量、每日发帖量、日活跃用户总数等同比上年增长了约300%。微博在政府舆情、民众生活、电子商务中占据了越来越重要的地位,成为影响国家安全和民众生活的重要因素。研究微博信息传播网络对理解人类社会组织结构、群体演化特点、信息传播规律等有着重要的应用价值和理论意义[1]。
微博信息传播发生在网络虚拟空间,是网络空间与现实社会空间、个体内因和外因的综合作用结果,微博传播过程是复杂的。另外,微博信息传播过程是一个随时间变化的过程,各种内因和外因也在不断变化,所以,掌握微博传播规律和特征是一项复杂的工程。
本文对不同事件语义的微博传播过程的网络结构特征进行了研究,内容安排为: 第2节简述了微博信息传播网络相关研究现状;第3节给出了信息源及微元结构等定义,并建立了信息传播网络结构属性的量化方法;第4节对数据进行了描述和信息源分布的可视化;第5节在六个不同的微博主题事件上展开实验,论证本文观点,第6节对本文进行了总结和展望。
社会媒体上的信息传播规律问题是当前学术界和企业界的研究热点。Kim等人通过检测内容的再使用情况,调查了微博记录中的信息扩散情况,得出扩散范围与用户的度、粉丝有关[2]。Boyd等人使用一系列的研究案例和实证数据,分析了Tweeter中转发行为与评论作者、评论出处和交流真实性的关系[3]。Huberman等人研究了Twitter用户在朋友网络中的转发行为,得出用户转发的数量更主要是跟好友数有关,而非粉丝数[4]。Jiang Yang 等人以Tweeter用户的社交活动为对象,结合生存分析,构建了一种新的模式来预测信息扩散的速度、规模和范围[5]。Gomez-Rodriguez提出了一种跟踪网络中信息扩散路径和影响范围的方法,并且根据其扩散结构来构建信息传播网络结构[6]。Katsuya Nagata等人构建了多个信息传播网络模型,然后通过数值仿真,运用多个重要的统计学变量来解释信息传播特点[7]。田占伟等人运用复杂网络理论方法,对构建的微博信息传播网络进行基于度、路径统计指标的分析,发现该网络具有集群性、小世界、高度中心化等特征[8]。
当前对微博传播网络结构的分析工作大多是集中在点、边等微观层面,通过对转发数量、转发度、路径等进行统计计算和分析,发现传播过程的网络特征[9-11]缺少中观视图上的特征分析。所以,本文提出了一种新颖的方法分析微博信息传播网络的属性,在中观视图上对传播网络结构进行了研究。主要内容包括两部分: 首先通过基于力矢量布局方法的可视化工具,观察和分析不同事件传播网络结构中的信息源分布特征;然后借鉴生物学的研究方法,在中观层面上设计了微元结构特征,基于微元结构对传播网络特征进行分析,发现有价值的结构特征和演化规律。
信息传播网络用G=(V,E)表示,V是节点集合,V中元素为{V1,V2,…,V|V|},E是边的集合,从节点vi到节点vj的一个有向边E表示为eij(i,j=1,...,|V|),信息源IS定义为:
定义1
其中dout(vi)是节点vi的出度,T是节点的出度阈值,出度大于T的节点被称为信息源。
统计分析微博空间中每一个信息源的影响,需要识别传播网络中信息源产生的子网。子网Gk=(Vk,Ek)是通过信息源vk(1≤k≤|V|)可达的节点组成的网络,定义为:
定义2
Vk={vi|vi≠vk∧directed_path(vk,vi)}(2)
Ek={eij|vi∈Vk∧vj∈Vk}(3)
如果从vk到vi存在有向路径则directed_path(vk,vi)为真。
信息源和它的子网络的关系如图1所示。用星号标识的节点为信息源,用虚线划出的区域为它的子网。从信息源1和信息源2可以看出,两个子网可能包含重叠的区域,但是它们是不同的子网。从信息源2和信息源3可以看出,一个大的子网可能包含另一个较小的子网。
图1 信息源跟它的子网的关系
微博信息传播网络通常庞大且复杂,需要寻求可行的和简化的信息传播网络结构分析方法, 微元结构是对庞大复杂信息传播网络的一种原子划分。基于微元结构的分析方法就是这样一种从中观视角观察网络结构的较可行的方法。
微博空间中,信息传播的方式可概括为信息分散、信息聚集和信息传递,因此可以用包含三个节点和两条有向边的微元形式表示。我们给出如下定义。
定义3微元结构是由三个节点及节点间两条边构成的有向非循环图,表示为Gb=(Vb,Eb),Vb为微元结构的节点集,Eb为微元结构的边集,并且
|Vb|=3, |Eb|=2,Eb∈PE
其中PE表示节点集{v1,v2,v3}所构成的有向边集的幂集。本文对微博传播网络中的三种微元结构进行了分析,分别为:信息分散结构Ss,描述为一个节点发散出两条边到另两个节点(图 2(1));信息聚集结构Sg描述为两个节点各发散出一条边到另一个节点(图 2(2));信息传递结构St,描述为一条边的终点为另一条边的起点(图 2(3))。
图2 三种微元结构
三种微元结构数量分别表示为Ns(Gk),Ng(Gk)和Nt(Gk),相应的计算方法为式(4)~式(6)。
(4)
其中din(vi)是节点vi的入度,dout(vi)是节点vi的出度。在计算Ns(Gk),Ng(Gk)和Nt(Gk)时用节点的出度和入度计算,而不是在网络图中分别统计它们的数量,减少计算的时间和空间复杂度。为了使这三个微元结构的数量之间具有可比性,利用子网Gk中节点的数量Vk标准化这三个值。标准化后信息分散度Ps(Gk)、信息聚集度Pg(Gk)、信息传递度Pt(Gk)分别表示为式(7)~式(9)。
本文实验数据来自WISE 2012竞赛*http://www.wise2012.cs.ucy.ac.cy/challenge.html所提供的新浪微博数据,原数据文件中包含了6个2011年发生的具有代表性的消息事件,每个事件又包括主题消息的转发时间、消息ID、转发此消息用户、被转发的用户、消息事件列表等项目。实验抽取了其中的用户和时间项,表1列出了最终传播网络的基本信息。信息源(IS)的数量依赖于T值的选择,T值越小,信息源的数量越大。当选择T在5到10之间时,产生的信息源的个数在20到40之间。通常网络的规模与用于分析的数据集的主题有关,如果选取的主题不是社会热点或不具有代表性,那么网络规模可能会很小。
表1 信息传播网络的基本属性
微博上的信息传播是由现实中的事件触发的,微博用户每阅读一则事件消息记录, 往往会在个人主页中加上自己对此事件的感受和观点。无数微博用户的行为活动,使信息能够在微博空间中无限化的传播,从而构成一个网络传播结构。微博用户之间的转发、被转发和评论等行为活动则构成了信息传播的路径。网络结构的大小和形状取决于主题事件的内容、微博记录观点的表达和信息的价值。
采用Gephi工具对信息传播网络进行可视化处理,每一个事件的可视化结果如图3所示。网络结构布局采用力矢量布局Fruchterman Reingold算法[12]。图中每个圆点代表一个微博用户,圆点大小对应节点出度大小(出度越大,圆的直径越大,也说明此用户的帖子被转发的次数多,受关注度越高)。
图3 信息传播网络可视化结果
这6个事件基本上都是核心-边缘结构,具有相似的子网结构,都是以一个信息源为中心,其子网呈发散状星型分布。另外,网络结构中也存在一些零星的独立子网。可以看出,这些结构中信息源的聚类系数很高,而整个网络的聚类系数则很低。
这6个事件的信息传播网络结构也存在差异性。事件(2)传播结构中节点和边的分布比较密集,信息源的度比较平均,但明显要大于其他事件的度,这说明“药家鑫事件”引起的关注度范围较广,在可见网络范围内影响较为均衡,影响力较大。事件(1)、(5)、(6)信息源度的取值范围比较分散,有的信息源的度达到了几十,而有的信息源的度还不到10。事件(3)、(4)中,都有几个度非常大的信息源,这类信息源可能代表事件的最先发布者,如某些社会知名人士、官方微博,通常它们的影响力比较大,每当发表对某一事件的观点的时候,就会有很多人回复和转发,这符合微博中的“粉丝团”效应,体现了微博众说纷纭、排队围观的精神。而其余信息源的度差别较小。
相关系数是评估不同项之间关联度的一种常用指标。作为微博传播网络的三种微元结构,对于信息分散、信息聚集、信息传递三种结构间的相关性分析,可以在一定程度上揭示微博传播网络的结构特征。
斯皮尔曼等级相关系数是统计学中的概念[13],通常用希腊字母ρ表示,它是衡量两个变量的依赖性的非参数指标,表达式定义为:
式子中n表示样本的数量,di表示样本之间的等级之差。
表2列出了每个数据集不同微元结构间的平均相关系数ρ。可以看出,出度和信息分散度之间的关联度为0.92,关联度很强,说明节点的出度是信息传播网络中信息分散的一个重要影响因子;出度和信息传递度之间的关联度为0.56,关联度一般;信息分散和信息传递之间的关联度为0.47,关联度也不强;而其他等级序列对之间没有或有相当弱的关联度。因此三种微元结构有着不同的属性特点,在信息传播网络中各自扮演着不同角色。
表2 相关度系数
通过对数据的分析,我们发现信息传播网络结构主要由信息分散结构构成,信息源vk的信息聚集度和信息传递度有时可能等于零,表3列出了信息聚集度或信息传递度为零的信息源数量。信息聚集结构与信息传递结构相比较而言,信息聚集结构产生的概率更大一些。这是因为微博空间中受关注度低的普通用户大量存在,这些群体在转发消息帖子时更倾向于转发来自受关注度高的特殊用户,而不是跟他们粉丝量相仿的普通用户,体现了微博用户的“等级制度”。
表3 Ps(Gk)、Pg(Gk)或Pt(Gk)为零时信息源的数量
信息网络结构演变分析中我们选取了“药家鑫事件”、“日本大地震”和“小米手机发布”三个事件。根据原始数据中的时间记录,将每个微博传播网络分为8个时间片,在不同时间片中提取节点关系数据,然后分别统计不同时间点上的信息分散度Ps(Gk)、信息聚集度Pg(Gk)和信息传递度Pt(Gk)的值,实验结果分布坐标图如图4所示。
图4 信息传播网络结构演变
可以看出,信息分散度有着一定的规律性,随着时间的推移其数量有比较明显的增加,表明微博中用户节点间连接关系建立的数量远远大于新节点增加的数量。也就是说当微博中某些用户提及一个新话题时,其他用户往往会转发关注此评论,建立连接关系,而不是自己以“第一发布人”的方式重新发表话题评论,也说明微博用户都具有一定的惰性。信息分散度量化了用户帖子被关注的程度,它是衡量微博关注度的权威指标,这类的信息源主要代表有社会知名人士、官方网站等“第一发布人”。与信息聚集和传递结构相比,它大量地存在于微博信息传播网络中,是最主要的结构。
信息聚集度的数量在不同的时间片上稍有波动,但总体来看基本趋于稳定。信息聚集度量化了节点参考其他节点信息的程度,即微博用户转发其他用户评论的程度,是微博中比较和分析一些客观信息的重要指标。
信息传递度的分布跟信息聚集度相似,信息传递度量化了一个事件信息在微博中转发的步数。它是一个主观衡量指标,表示了微博用户接受和转发事件信息的主观意愿性。
另外,如果一些转发用户的转发消息中不包含其他额外有价值的信息的话,其他微博用户趋向于忽略它们,而直接连接到原始的信息源。这种情况的出现,就会有大量的信息分散结构代替信息传递结构产生,这也解释了很多信息源传递度为零的原因。总之,微博信息传播网络具有高的信息分散度,低的信息聚集度和信息传递度。
当前对微博传播网络结构的分析主要是在点、边等微观层面,通过转发数量、转发度、路径等进行统计计算和分析,发现传播过程的网络特征中观视图上的特征分析较少。针对这些不足,本文从中观层面提出了一种统计分析信息源特点的新方法,定义了信息源和3个信息传播的微元结构——信息分散结构、信息聚集结构和信息传递结构。对于微博中的6个不同主题事件,可视化分析了信息传播网络的结构,验证了微博用户的群体性。在微元结构关联性研究中,发现三种微元结构属性往往有不同的特点和依赖不同类型的信息源。在信息传播的动态演化特点分析中,研究了三种微元结构度在不同时间片上的分布情况,结果表明信息分散结构数量在整个网络生命周期中所占比例最大。
我们将在下一步工作中对主题事件传播的整个生命周期进行分析,发现不同事件微博传播结构属性的共性规律和差别。
[1] 程学旗, 沈华伟. 社会信息网络中的社区分析[J]. 中国计算机学会通讯, 2011, 12(7): 12-20.
[2] Kim J W, Candan K S, Tatemura J. Efficient overlap and content reuse detection in blogs and online news articles[C]//Proceedings of the 18th international conference on World wide web. ACM, 2009: 81-90.
[3] Boyd D, Golder S, Lotan G. Tweet, tweet, retweet: Conversational aspects of retweeting on twitter[C]//System Sciences (HICSS), 2010 43rd Hawaii International Conference on. IEEE, 2010: 1-10.
[4] Huberman B A, Romero D M, Wu F. Social networks that matter: Twitter under the microscope[J]. arXiv preprint arXiv:0812.1045, 2008.
[5] Yang J, Counts S. Predicting the Speed, Scale, and Range of Information Diffusion in Twitter[J]. ICWSM, 2010, 10: 355-358.
[6] Gomez Rodriguez M, Leskovec J, Krause A. Inferring networks of diffusion and influence[C]//Proceedings of the 16th ACM SIGKDD international conference on knowledge discovery and data mining. ACM, 2010: 1019-1028.
[7] Nagata K, Shirayama S. Method of analyzing the influence of network structure on information diffusion[J]. Physica A: Statistical Mechanics and its Applications, 2012, 391(14): 3783-3791.
[8] 田占伟, 隋玚. 基于复杂网络理论的微博信息传播实证分析[J]. 图书情报工作, 2012, 56(8): 42-46.
[9] Cioffi‐Revilla C. Computational social science[J]. Wiley Interdisciplinary Reviews: Computational Statistics, 2010, 2(3): 259-271.
[10] 窦炳琳, 李澍淞, 张世永. 基于结构的社会网络分析[J]. 计算机学报, 2012, 35(4): 741-753.
[11] 田大芳. 图书情报学期刊互引网络结构分析[J]. 情报杂志, 2009 (6): 48-51.
[12] Fruchterman T M J, Reingold E M. Graph drawing by force—directed placement[J]. Software: Practice and experience, 1991, 21(11): 1129-1164.
[13] Zar J H. Significance testing of the Spearman rank correlation coefficient[J]. Journal of the American Statistical Association, 1972, 67(339): 578-580.