毛艳
(西安文理学院 陕西 西安710065)
幂律(power-law)来自上世纪20年代对于英语单词频率的分析,语言学家发现单词使用的频率和它的使用优先度是一个常数次幂的反比关系。幂律描述的是这样一组数据,其第n个位置的秩(rank)是第1个位置的秩的1/n。对于一个纯幂律分布,第一位与第二位之间的差距要大于第二位与第三位之间的差距,以此类推。幂律的最显著特征就是,等级越高则越不均衡[1]。幂律有两个通俗的定律,一是“长尾”理论,另一个是马太效应。微博宣传的影响力具有很大弹性,与内容质量高度相关。其影响力基于用户现有的被“关注”的数量。用户发布信息的吸引力、新闻性越强,对该用户感兴趣、关注该用户的人数也越多,影响力越大[2]。为了对以微博为代表的新型虚拟社区网络上的信息传播规律进行研究,更好地探讨表达话题和用户两个维度的相互联系和作用,本文采用超网络的研究方法,结合超图的数学理论,建立超网络拓扑结构图,验证了微博讨论数符合幂律的结论。
随着Web2.0的普及和深入,用户的主观能动性在网络信息传播中的重要性大大提升。微博在近几年刚刚兴起,用户数量与日俱增,成为重要的社交平台。
微博,即微型博客(MicroBlog)的简称,是一个基于用户关系信息分享、传播以及获取平台。用户可以通过WEB、WAP等各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。中国互联网络信息中心(CNNIC)于2013年7月17日发布《第32次中国互联网络发展状况统计报告》,报告显示,2013年上半年,中国微博用户从2.02亿增至2.29亿,增长约2 700万人。该《报告》指出,中国互联网的普及率增至44.1%,较2012年增加2.0%。
舆论在虚拟社区的传播属于复杂的社会现象,存在着众多的随机因素,很难完全重现其演进状况。针对其多层次性和社区性,可采用超网络的研究方法,为虚拟社区网络建立由多端子网络组成的超网络模型[3],并以超图理论为基础研究超网络模型的拓扑结构和数值特征。
超大规模的网络系统运行的复杂性较高,超网络模型可用来描述和表示网络之间的相互作用和影响[3]。超网络的构架为研究网络之间的相互作用和影响提供了工具。它可以用一些数学工具对网络上的流量、时间等变量进行定量的分析和计算[4]。
在微博这个网络中,在已生成的超网络中,新加入的一个用户和已有的若干个旧用户通过话题评论或转发生成超边。
1)初始化 :假设初始时超网络有 m0个用户,V1,V2,V3,VM0以及包含这 m0个用户的一条超边 E1={V1,V2,V3…VM0}
2)超边增长:在t时间内,每次进入一个新的用户V,与m(m 3)优先连接:从已有的超网络中的用户按照概率优先选取m个用户,与新加入的用户结合生成超边。每次选取连接的用户 i的概率dH(i)等于用户 i的超度dH(i)与超网络中的已有用户 j的超度 dH(j)总和比,即: 其中 dH(i)等于包含用户 i的超边的个数。经过 t时刻后,超网络中有t+1条超边,m0+t个用户,所有用户的超度总和为 m0+t(m+1)。图1显示了 m0=3,m=2时超网络动态演化的过程。 图1 超网动态演化过程示意图Fig.1 Chematic diagram of super dynamic evolution process 采用以上的增长和优先连接机制所生成的超图,由于每个时间步内生成一个新节点,和网络中已有的m个用户结合生成超边,每条超边中元素的个数皆为 m+1,所以得到的是(m+1)均匀超图。 每个节点的超度为 1,在 t时间步完成后超网络中共包含了 t+1条超边,m0+t个节点。 每个时间步内,新增加的节点与已有的m个节点结合生成一条新的超边。在选择旧节点i的过程中,节点i有1次被选中的概率大致为 其中 dH(i)表示为节点 i的超度。 再令 dH(t)表示在 t时间步结束时节点i的超度,而节点i是在第ti时刻加入网络的,因此,根据连续场理论[5],把 dH(t)看作连续动力学函数,节点i的超度dH(t)应该近似的满足下述动力学方程: 分母求和是在t时刻超网络中所有已有节点的超度的总和,当 m0较小,t较大时我们可得 因此 每个节点加入超网络中时节点的超度的初始值dH(ti)=1,则解上式方程可得 由于超网络中加入超边中的节点是随机选择的,因此节点具有超度dH的概率为 假设在相同的时间间隔,添加新的节点i,则i应该在t个新加入的节点服从均匀分布,即 ti值具有常数的概率密度p(ti)=1/t,从而代入上式得 于是,网络的瞬时超度分布PH(dh,t)为 此超网络模型的超度分布是独立于时间的。说明节点的超度分布和BA网络一样仍然符合幂率分布,可由幂指数的幂函数γ=2+1/m近似描述这个结果。 本文对2013年11月12日18时约60 000条微博话题进行采样,统计这些话题至18日18时的参与讨论的用户数。将统计的数据进行分类汇总,以“讨论数”为纵轴,“话题数”为横轴,建立对数坐标系,程序代码如下: clc; clear; file=’E:course
et6wan.xls’; [data text]=xlsread(file); x=data(:,1); y=data(;.2); loglog(data(;,1),data(:,2),’r*’); hold on; figure(1); title(‘distribution functio’); xlabel(‘讨论数’); ylabel(‘话题数); x=log10(x); y=log10(y); a=polyfit(x,y,1); x=min(x):0.01:max(x); y=polyval(a,x); 用matlab绘出的散点图[6]结果如2所示。 图2 微博话题数与讨论数散点分布图Fig.2 Micro-blog topic numbers and discuss several scatter distribution 用户参与讨论的微博话题数符合幂律分布。在微博的话题数较少的时候,即系统规模不是很大的时候,某一话题被讨论概率与超度的关系并没有明显的优先连接趋势,表现为散乱的点;随着话题数的不断添加,由于在选择加入话题时,仍然遵循按节点的超度优先连接机制,所以对于参与讨论人数较多的话题呈现出一定趋势的优先连接,表现为非线性形式。随着时间的增加(网络规模的增大),超边的度与节点的超度优先连接机制的相关性会变得越来越明显,超边度分布最终趋于幂律,验证了微博话题的讨论人数符合幂律分布。 [1]胡海波,王林.幂律分布研究简史[J].物理,2005,12(1):81-87.HU Hai-Bo,WANG Lin.The research history of the powerlaw distribution[J].Physics,2005,12(1):81-87. [2]喻国明.微博:一种新传播形态的考察——影响力模型和社会性应用[M].北京:人民日报出版社,2011. [3]胡海波,王科,徐玲,等.基于复杂网络理论在线社会网络分析[J].复杂系统与复杂性科学,2008,2(1):57-62.HU Hai-Bo,WANG Ke,Xu Ling,et al.Analysis of online social networks based on complex network theory[J].Complex Systems and Complexity Science,2008,2(1):57-62. [4]王志平,王众托.超网络理论及其应用[M].北京:科学出版社,2008. [5]王建方.超图的理论基础[M].北京:高等教育出版社,2006. [6]卓金武.MATLAB在数学建模中的作用[M].北京:北京航空航天大学出版社,2011.3 研究方法
4 结论