基于复杂网络的微博用户行为特性分析

2013-04-29 00:44:03赵玲张静
现代情报 2013年9期
关键词:复杂网络关注行为

赵玲 张静

〔摘要〕移动互联网的发展为微博的发展提供了更加广阔的发展空间,以复杂网络的基本统计特性为基础,通过抓取新浪微博中的相关数据,对其进行处理分析,详细分析微博用户在信息发布行为、信息发布内容方面的相关特性以及用户的关注行为和评论转发行为进行了详细地分析,认为微博网络是典型的小世界网络,微博网络整体密度较小,呈稀疏状态,但局部密集;微博网络用户的分布呈不均匀的状态,用户在信息发布、分享等方面存在较大的信息不对称性,只有小部分用户拥有较多的信息资源,扮演核心角色,大部分用户在微博中处于边缘地位。这为微博营销和微博舆论引导与消解提供了基础。

〔关键词〕复杂网络;微博用户;行为;小世界特性;关注;非均匀网络

DOI:10.3969/j.issn.1008-0821.2013.09.007

〔中图分类号〕G202〔文献标识码〕A〔文章编号〕1008-0821(2013)09-0035-09

伴随着移动通信技术的不断发展,移动互联网日趋成熟,为微博的发展提供了发展契机。Twitter是产生最早的微博,据Semiocast发布的数据调查数据显示,截至2012年12月,Twitter用户数达到517亿,成为仅次于Facebook的全球第二大社交网站,其中141亿美国用户;2012年6月,Twitter用户一共发布消息1058亿条[1],这个信息量是任何一家媒体,无论是传统媒体还是网络媒体,都无法企及的。目前国内较具代表性的微博主要以门户网站为主,如新浪微博、腾讯微博、人民网微博等,它们依靠网站自身的影响力与巨大的用户群,几乎占据了微博的全部用户,有着较大的影响力。据中国互联网络信息中心发布的最新报告,2012年12月底,我国微博用户规模为309亿,其中手机微博用户规模达到202亿,手机成为微博用户的首选终端,微博逐渐移动化发展[2]。

自2005年Twitter出现后,学术界关于微博行为的研究的不断增加,对于用户行为、用户关系、用户兴趣等都进行了较为深入的研究,也取得了较多成果。麦田(2009)认为,以Twitter为代表的微博信息发布平台能够成功的主要原因有:可迅速发布的内容,可迅速发布的网站结构以及病毒式的信息传播[3]。所以,微博自身的信息传播模式的便利性与快捷性对于用户来说吸引力是极大的。彭兰教授在《微博发展的动力》(2009)中指出,微博的发展除了来自微博形式的自动力外,还有来自微博用户需求的拉动力和微博社会功能的主动力[4]。实践方面,主要研究微博用户行为的动机,以及其对微博用户行为的影响程度,在此基础上对微博用户行为的表现进行预测,以及微博用户行为对兴趣构成和购买行为的影响;理论方面,主要运用相关的理论基础来解释微博用户行为,并通过一些实证研究对用户行为的具体表征进行统计分析。

基于复杂网络和社会网络的理论研究微博是近年来的一个热点,它能够较好的解释微博用户的信息发布、评论、转发等行为所呈现的网络关系,也可以从中挖掘出关键用户,可以较好的反映出用户之间的关系,并对用户行为进行预测。李林红和李荣荣认为,新浪微博社会网络是一个自组织系统,从整体网络、个体网络、小团体、小世界效应构建模型,通过实证研究考虑用户在信息“发布、转发、评论、@、回复”之间的关系,认为微博中存在自组织行为,通常整体的自组织现象弱,局部明显,而且这种关系的形成往往依据用户角度的不同,形成的自组织网的凝聚力也是不同的[5]。易兰丽(2012)利用人类动力学和复杂网络的相关理论,从网络互动的角度出发,对用户的信息发布、转发和评论行为进行统计分析,了解三者之间的关系,并建立用户信息评论模型和兴趣驱动模型,对微博用户的行为做了较详细的分析[6]。

从以上的分析可以看出,研究者主要是通过直观的静态分布的网络形态表现用户在关注、评论和转发方面的特征,大多是从数学和技术方面考虑,较少地考虑社会因素和用户因素。本文以复杂网络的基本统计特性为基础,以新浪微博为例,通过抓取相关数据,对其进行处理分析,对微博用户的关注行为和转发评论行为的网络特性进行分析,提出微博网络是典型的小世界网络;微博网络较为稀疏,但也存在部分密集的社群,即微博群体;微博网络是一个不均匀的网络,在信息传播与分享方面存在较大的信息不对称。

1数据获取与处理

通过新浪微博发布的最新数据报告可知,目前新浪微博的用户已超过4亿,同时在腾讯微博、人民网微博等平台上也拥有大量的用户;但在用户总量、活跃用户数量、微博影响力与代表性方面,新浪微博有着显著的优势。所以本文选取新浪微博中的数据作为研究样本,以期能够较好的反映微博的复杂网络特性,完整地呈现微博用户行为的基本特性。

目前获取微博中的数据有两大主流方式:一是通过新浪微博开放端口,利用API平台获取。这种方式获取较为简洁、方便、高效,便是数据数量有一定的限制;二是网络爬虫。通过设定的URL地址,按照一定的爬行策略抓取信息,这种方式获取的信息数量大且全,但是较为繁琐,且效率低,后期数据处理难度也较大。所以本文通过新浪的API平台抓取数据。

本文采用滚雪球抽样的方法,选中其中一个节点,对其粉丝的信息进行抓取,再对粉丝的粉丝信息抓取,持续若干轮,共获取节点信息65 536个、100万余条用户关系信息、10万条微博信息等。抓取的用户信息内容主要包括:用户ID、昵称、姓名、省、市、地区,个人描述、URL、图像URL、性别、粉丝数、关注数、收藏数、创建时间、是否加V、是否允许定位等用户的基本信息,用户评论信息主要包括:评论ID、评论内容、来源URL、发布方式、发布时间、发布者ID、评论者ID等基本信息。微博内容信息主要包括:内容ID、创建时间、具体内容、来源URL、发布方式、收藏数、发布时间、发布者ID等基本信息。以这种方式获取的微博数据使一些孤立的节点和“僵尸粉”也被囊括其中,使得网络密度可能较稀疏;但在很大程度上反映了微博的整体特性,无论是活跃用户,还是僵尸粉,都是分析数据的组成部分。

在进行实际分析的过程中,为了确保分析的准确性和真实性,剔除无效信息后,对获取的64 961条信息进行基本分析。在数据库中,选取1 021个关注信息,组成关注矩阵,对其关注行为进行分析;提取1123*386的微博评论矩阵和1122*537的微博转发矩阵,对微博用户的评论转发行为进行分析。

2微博用户行为的复杂网络特性

2.1小世界网络特性分析

小世界网络最基本的特征是有较短的平均路径长度和较大的聚类系数。用N表示节点数量,dij表示节点之间的最短距离,那么网络平均路径长度的计算公式如下所示:

L=21N(N-1)∑N-11i=1∑N1j=i+1dij

另外,假设节点i与其他Ki个节点都相连,如果这Ki个节点也相互连接,那么它们之间应该有Ki(Ki-1)/2条边;但这Ki个节点之间实际存的边数只有Ei,那么二者之比即为聚类系数Ci,用公式表示如下:

Ci=2Ei1Ki(Ki-1)

其中Ki是表示节点数量,Ei表示实际的边数,Ci表示节点的聚类系数。由此可知,整个网络的平均聚类系数C可以定义为网络中所有节点聚类系数的平均值,如下所示:

C=11N∑N1i=1Ci

猜你喜欢
复杂网络关注行为
基于图熵聚类的重叠社区发现算法
基于复杂网络理论的通用机场保障网络研究
社区老年人跌倒认知和行为调查与分析
上海医药(2016年20期)2016-11-09 21:22:20
儿童玩具设计要素
反腐败从正人心开始
企业导报(2016年19期)2016-11-05 18:03:20
大学生在新型社交媒体上的行为习惯及引导策略研究
城市群复合交通网络复杂性实证研究
科技视界(2016年20期)2016-09-29 11:19:34
奥朗德“关注”锦江增持雅高
环球时报(2016-06-08)2016-06-08 08:46:10
人类社会生活空间图式演化分析
商情(2016年11期)2016-04-15 22:00:31
美国宗教自由报告“关注”中国
环球时报(2014-07-30)2014-07-30 15:55:26