基于复杂网络的微博话题分析研究

2020-03-05 02:33
技术与市场 2020年2期
关键词:网络结构节点用户

(江苏财会职业学院,江苏 连云港 222061)

0 引言

随着“互联网+”时代的到来,网络信息量与日俱增,微博自2006诞生以来,以其独树一帜的简短性、开放性、动态性信息传播风格,极大地促进了信息传播与共享,尤其在发生一个重大事件或者热点话题后,便会出现与这一事件相关联话题跟踪讨论,使得信息在各用户之间传递,因此,微博平台已逐渐成为人们获取信息的主要来源。

微博文本语言不超过140个字,从语法、语义显示出独特的网络结构,从而形成对话题事件产生各种情绪、观点及意见,微博作为一种新兴的交流媒体,一方面大大促进了人们之间的交流,催生了基于微博平台的营销手段;另外一方面,微博平台已成为许多不良谣言、诽谤等网络暴力的阵地,带来了诸多不良的社会负面影响。

微博用户在线上交流过程中明显表现出强烈的社会特征,各用户在微博网络中的互相关注、交流评价等行为与网络的拓扑结构间存在相互影响[1],微博话题在各用户之间传递影响着微博网络整体发展和形态;反过来,微博的网络演化也影响着用户的个体行为。在信息迅速传播的年代,非常有必要对微博进行深入的研究。

目前,国内外对微博数据的分析主要分为以下几个方面:①对微博用户的研究。②对微博文本语义的研究。③对微博信息传播网络的研究。目前这几个方面,在各个维度和深度上都取得了一定进展,通过对微博数据进行舆论引导、用户兴趣关联推荐等综合应用,从而凸显出微博的媒体价值,由于微博环境的开放性,为网民舆论自由提供了条件,但也有少数不法分子会在平台上散布煽动性言论,因此,运用复杂网络方法挖掘微博话题特征具有一定的实际应用价值。

1 复杂网络及其复杂性

目前复杂网络由学者钱学森给出最为严密的定义:复杂网络即是包含组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络[2]。它被理解为是一种研究复杂系统的手段和方法,已广泛地应用到众多学科之中,解决各系统中的复杂现象问题,无论在理论价值上还是工程应用方面都具有重要的意义。

自然界的大量复杂系统如医学、社会科学、经济学、物流等都可以用网络来描述,复杂网络的复杂性主要体现在网络结构复杂、网络动态进化、边多样性、动力学复杂性、节点多样性等特点。

复杂网络研究的第一步往往是研究复杂网络性质,由图来表示网络性质,抽象的复杂网络是由点集V和边集E组成的图G=(V,E)[3],点集V代表着节点的数量,边集E代表着网络边数的数 ,复杂网络经过多年的发展,在计算机领域得到了关注,根据实际的网络情况,可以将图分为4种类型:加权有向图、加权无向图、无权有向图和无权无向图[4],为了更客观反映网络结构,从多角度描述复杂网络拓扑特性,主要有度分布、平均路径长度、聚类系数等。

刘冰瑶等人[6]通过一种特征降维方法解决微博语义中存在的高维性和稀疏性;李坤[7]在传统的FF模型上,提出基于多维特片的用户决策模型,建立话题传播模型,并分析用户变化对话题传播的影响。田占伟[8]从节点拓扑结构差异、群落结构两个度,分析了微博中信息中传播的规律,构建了微博信息传播过程模型。

复杂网络分析方法无论是在微博文本上还是话题传播方面是都是可行的,在复杂网络的相关参数,如度分布、聚类系数、平均最短路径等方面反映了微博语言的语体特征。该研究不仅拓展了复杂网络方法在语言学领域的应用,而且为基于复杂网络的微博内容挖掘提供了可行途径。

2 微博话题传播特性分析

2.1 微博话题传播

与传统的新闻媒体相比,微博在传播的速度和深度上远比传统媒体来得深远,一些重大新闻事件将微博作为首发源头,对于微博用户来说,了解信息可以选择感兴趣的用户,也可选择感兴趣的微博,由于微博具有发布功能、转发功能、关注功能和评价功能,信息可以通过多种传播途径在用户之间实现消息的互通。

微博的传播特征呈现裂变性、自媒体性、多维特征等性质,一则话题发布后,当转发的用户累积到某个点时候,尤其经过大V及公众人物的发布之后,信息将会达到裂变式传播,从而使传播效率大大提高,因此微博具有裂变性;微博的传播具有自媒体性,信息的分享改变了自上而下的广播模式,以用户节点为核心,实现点对点的传播模式,这种自发传播性决定了每个用户都是消息的传播者和产生者;微博具有多维特性,话题不仅包含语义类信息,更含有发布者的个人情感倾向,有正面评价、负面评价,也有中立观点,正是由于所持观点及情感的不同,才会使话题热度不断升高。

2.2 话题传播模型

“互联网+”时代,随着社交网络的蓬勃发展,为学者研究话题传播提供了海量的实际数据,经过多年的成果积淀,研究者们在话题信息传播模型上取得了突破性的成果,主要有基于网络结构的传播模型、传染病传播模型等。

棚宽8~10m、棚长40~60m、棚高2.3~2.5m。棚架主体宽6~8 cm,可选用竹片或塑钢材料,根据气候条件可做两三层内膜支架,内膜支架间距为15~18 cm。

基于网络结构的传播模型,是指经过信息传播的网络结构与邻居节点之间的交互关系对信息传播过程进行建模[9]。此类模型中根据节点的活动状态又可分为线性阀值模型、独立级联模型,以及在此基础上产生的扩散模型。基于网络结构的传播模型应用在信息影响力扩散、个性化推荐等方面,有着独特的优势,但是在研究过程中缺乏时效性,未能将网络之外的因素考虑在内。

基于传染病传播模型,复杂网络传播动力学中研究最广泛的是流行病传播,因为传染病的传播过程与信息传播过程有很大的相似之处,均伴随着一个起始、传播、爆发和消亡/平息的全过程,在传染病模型中,根据个体所呈现的受感染状态的不同,可分为容易被感染的易感染状态,具有传播性的感染态等,从以上状态的不同,提出不同的传播模型,最经典的概率传播模型有SIR模型和SIS模型,SIR模型适合描述可能再次感染的疾病中,SEIR模型存在一个潜伏特性的E态特征,经过潜伏后,才会出现传染性。传染病模型与消息传播有相通性,但是传染病模型对节点之间的重视不够,然而微博中的传播节点是至关重要的。

2.3 微博话题传播特征分析

微博环境下的用户转发、点赞、评论等信息传播行业产生了大量的数据,为信息传播特征分析提供了良好数据支撑[10]。微博中用户关系存在3种情况,一是关注,二是被关注,三是相互关注,彼此之间的关注可以计算出用户的出度和入度。

2.3.1 数据选取与收集

由于新浪微博对第三平台提供开放的API端口,可以对其网络中的数据进行操作,包括获取用户信息获取接口,微博文本数据获取等。2019年国庆节期间,多部优秀的影视作品上映,本研究以2019年10月1日~10月7日之间,“中国机长”话题下的点赞数大于1 000的微博节点及节点间关系为研究对象,获取的数据包括用户ID、用户名称、关注对象、被关注对象、微博文本、点赞数等,最终获得数据有9 205 100条。

在获得的数据中,共包含了2 001名用户,存在2 041 020条关注关系,以2 001个用户作为节点,并以他们之间的互相关注为连边,构建了微博话题传播过程中的复杂网络。

2.3.2 微博话题网络分析2.3.2.1 度分析

度是描述单个节点属性的最简单又是最重要的概念之一,节点i的度ki可理解为与节点i直接相连的边的数目,在有向网络中,度又可分为出度和入度。

作为网络节点中的微博用户,其度是指与本节点直接相连的节点个数,节点的度可以记为:

(1)

通常微博用户节点度值的大小反映了该用户节点在整个网络中的重要性,图1描述了该话题中用户节点度值的概率分布,反映出节点度值整体上呈幂律分布。度值大于500的用户节点,占的份额并不是很多,说明这些节点比其他度低的节点传播中占有更大的优秀。

图1 节点的度

通过对较大度的节点进行分析,绘制出微博的入度和出度分布图,如图2、图3所示。

图2 各节点出度分布图

图3 各节点入度分布图

从图2和图3中看出,入度最高的前5个节点分别是:张涵予、欧豪、杜江、袁泉、张天爱、李沁,说明影片因这些明星加快了传播速度,因为他们具有强大的粉丝,能够产生口碑效应。出度分布随着度数增加而人数降低的分布规律,与泊松分布较为类似,这些出度较高的用户表现出于他人较强的交流意愿。

2.3.2.2 聚类系数分析

Watts和Strogatz将聚类系数定义为某个节点所在邻居节点之间连边的数据占可能的最大连边数的比例[5],可表示为:

(2)

当C取1时从中获知网络中所有节点是相连的,本微博话题用户样本所得的聚类系数为0.432,说明此网络的集聚性较好。集聚系数越大说明了网络节点中任意用户之间获得某种关联的可能性也就越大。

2.3.2.3 平均路径长度分析

网络中平均路径长度L可定义为任意两个节点之间的平均值,其公式为:

(3)

通过软件计算出微博关注网络的网络直径为8.733,平均路径长度为2.159,说明微博在任意2个用户间进行信息传播,通过2.159个用户关联即可实现信息传播,由此可见,微博用户网络结构在一定程序上利于话题在用户之间共享和传递。

3 结语

通过引入复杂网络分析方法对微博话题的网络结构进行分析,从度分布、聚类系数和平均路径长度3个指标分析了“中国机长”话题下形成的网络结构特点,从结论中可以看出微博用户具有集群性,话题传播路径与用户的信息分享行为紧密相关,因此需要严格把控关键节点的控制,严禁负面言论的产生,引导网络中的意见领袖来提升话题的热度,在技术层面上,需要从信息源、内容、传播路径进行监管,对不同节点发布信息进行限制。在制度上,提高微博中大节点用户自律行为,起到规范和引导的作用。

猜你喜欢
网络结构节点用户
CM节点控制在船舶上的应用
基于AutoCAD的门窗节点图快速构建
概念格的一种并行构造算法
关注用户
基于广义混合图的弱节点对等覆盖网络结构
体系作战信息流转超网络结构优化
关注用户
关注用户
基于互信息的贝叶斯网络结构学习
复杂网络结构比对算法研究进展