◎徐春凤 葛芳酩 吴双双
伴随着互联网和5G的飞速发展,网络和社交媒体已经成为人们生活中越来越重要的部分。随着网络的不断发展,以微博为主的社交媒体平台逐渐成为舆情发展、演变、传播的主要空间。本文基于突发事件的意见领袖评价指标分析通过对爬虫得到的数据进行影响力及活跃度分析,通过分析建立关系图,发现它们之中的联系,以及最终找出最有影响力的人,即意见领袖。本文从影响力和活跃度两方面入手,通过度中心性研究影响力的大小,通过点入度、点出度、绝对中心度和相对中心度衡量活跃度的大小。
借助Python工具,采用关键词搜索的方法对原始微博相关数据进行爬取,爬取的信息包括微博id、用户id、用户昵称、微博正文、转发数、评论数、点赞数、发布时间、被转发微博的id等。对爬取的数据进行预处理。最终得到可以构建网络的节点及属性文件和边文件。
本文将建立有向关系网络(有箭头的边)。例如当一个用户转发了另一个用户的博文时,在转发关系网络中两个用户之间会生成一条单向边,而不是一条双向边。根据微博用户的id1→微博用户的博文id1→其他微博用户转发博文id1生成新的博文id2→转发博文id1的微博用户id2之间的关系构建微博用户id1和微博用户id2转发关系网络。
网络密度即为网络中实际的边数预最大可能边数的比率,它的取值范围在0到1之间,用来衡量一个网络中各个节点之间连接的紧密程度。当网络中实际的边数越接近最大可能边数的时候,该网络的密度就越大;反之,则越小。公式1为:
其中,g表示关系网络中存在的节点数,g(g-1)表示g个节点可能存在的所有不同的线,L代表转发关系网络实际存在的线条数,密度的最终取值范围为[0,1]。网络密度是介于[0,1]之间,越趋向于0,则说明该网络中的联系不紧密,网络内各节点之间的交往不密切,因此核心人物的存在可能性小;相反,越趋向于1,则说明该网络内部互动频繁、联系紧密,核心人物存在的可能性很大,因此,网络中极易出现一个或几个意见领袖,推动整个事件的发展。
意见领袖存在于联系紧密的小团体中,小团体是指关系特别紧密的一小群人。小团体的存在使得意见领袖有了一定的生存环境,小团体是由网络密度进行测量的。从已有学者的意见领袖识别研究中可以发现,他们所选择的样本都是内部讨论较为积极活跃的。因此并不是所有的网络都存在意见领袖,而只有该网络的密度较大时才有可能存在核心人物,即网络的密度成为该网络是否存在意见领袖的衡量指标。
意见领袖是网络传播中的重要角色,是人群中首先或较多接触大众传媒信息,并将经过自己再加工的信息传播给其他人的人。具有影响他人态度的能力,意见领袖介入大众传播,加快了传播速度并扩大了影响力。
本文结合微博意见领袖的定义及特征,并通过对所有关于意见领袖识别指标的分析,可以得出影响力和活跃度2个一级指标、5个二级指标的评价指标体系。具体意见领袖识别指标如表1:
表1 微博意见领袖评价指标体系
(1)影响力指标分析
结合微博空间中意见领袖影响力指标的分析,将影响力指标分解为:度中心性维度。
“意见领袖”是指活跃在人际传播网络中,频繁的为他人提供信息、意见等并能够赢得他人的支持,通过个人的影响力对他人的态度、行为产生一定改变的领袖者,从其定义的基本描述可以看出,影响力是意见领袖基本的能力。意见领袖在网络空间内具有引导舆论走向,推动突发公共问题解决的能力和作用,这都归功于微博意见领袖具有较大的影响力,结合微博空间中意见领袖影响力指标的分析,将影响力指标分解为:度中心性维度。
在转发关系网络中,若某一节点与其所有他节点之间都有直接的联系,则说明该节点在该网络群体中占据中心性的位置,因此用户在微博空间中的位置可以由这一用户与其他用户之间的有联系的点数来描述,即度中心性。
度中心性所表示该节点相连的节点数,即该节点与其他节点之间的联系程度,表现为为某一节点在局部的中心性,能够测量出该节点在网络中的重要程度。公式2为:
CD(i)为用户i的度中心性,表示该节点相连的节点数;aij为事件微博用户矩阵,表示微博用户在事件中的影响力。度中心性越高,说明该用户的影响力越大。
根据公式2可以计算出每个微博用户的度中心性,为了进一步比较微博用户度中心性的高低,将度中心性进行规约化处理,使其介于[0,1]之间。公式3为:
数值越接近于1,代表其度中心性越高,该微博用户在事件的影响力越大;相反,数值越接近于0,代表度中心性越低,该微博用户在事件的影响力越小。
(2)活跃度指标分析
微博用户凭借其在微博空间的影响力是不足以使其成为意见领袖的,然而要想扩大影响力的覆盖面不仅要靠发布大量真实的信息,还要与其他微博用户形成交流互动,在互动的过程中逐渐的影响到人们的观点,改变人们的态度,从而使其他用户成为其忠实的追随者。因此在识别意见领袖的指标上应该充分的考虑到活跃度这一指标,活跃度的具体指标包括:点入度、点出度、绝对中心度、相对中心度四个维度。
点入度
在有向图中,一个点的点入度是以这个顶点为终点的有向边的数量,如图1所示。在此转发关系网络分析中,定义点入度表示某一节点关注其他节点的程度,即转发其他用户的博文数量。个体点入度越大,则说明该用户在群体中转发的信息越多,积极主动与其他用户联系的次数越多,参与话题的主动性和积极性越强,倾向于信息接收者的角色。
用户A的点入度可以用 来表示,则图1中。
图1 点入度关系图
点出度
在有向图中,一个顶点的出度是以这个点为起点的有向边的数量,如图2所示。在此转发关系网络分析中,定义点出度表示的是某一节点受到其他节点关注的程度,具体可以是其他用户对该用户所发博文的转发、评论等行为。若个体点出度越大,则说明其他用户对该用户回复的次数越多,该用户引起的重视越多,该用户在群体中传递的信息越多,倾向于信息发布者的角色。
用户A的点出度可以用C(out)来表示,则图2中C(out)=m。
图2 点出度关系图
绝对中心度
点入度与点出度之和为绝对中心度。某用户的绝对中心度相对于其他用户的绝对中心度越大,说明该用户的接收或传递信息能力越强。
用户A的绝对中心度为:
表示用户A的绝对中心度。
相对中心度
为针对不同规模的网络,可以用相对中心度衡量。某用户的相对中心度越大,说明该用户的影响力越大。
用户A的相对中心度公式为:
为相对中心度,g为网络中用户数量。
网络环境下,意见领袖在突发事件的信息传播过程中发挥了重要的作用。本文的研究主要从利用爬虫工具获取博文开始,获取点赞数,评论数及转发数,在对数据进行清洗和预处理的操作基础上,通过一些公式计算他们之间的关系,通过软件进行网络图、关系模式的的建立,在此基础上,通过分析找出最有影响力的人及其对此次事件的影响。
本文接下来的研究方向:一是:根据本文构建的评价指标的基础上确定各个指标的权值,通过权值计算属性值,找出最有影响力的意见领袖。二是:在词云和词频分析的基础上,将结合分词技术和朴素贝叶斯分类器,进行情感分析建模,得到公共事件中大众的态度和情感值。三是:将舆情的发展阶段和意见领袖相结合,研究大众的情感发展趋势和意见领袖情感趋势之间的异同点,并划分情感类型,将情感分为消极、中立、积极三类情绪。