基于主题互感耦合的微博主题影响力研究

2022-08-10 15:30卢国强杨佩霖
现代情报 2022年8期
关键词:争议性互感主题词

卢国强 黄 微 杨佩霖 孙 悦

(吉林大学商学与管理学院,吉林 长春 130022)

随着社交媒体的快速发展,各种社交平台已经成为公众获取和发布各种舆情相关信息与观点的重要渠道。以微博为首的社交媒体已成为当前舆论传播的重要阵地。微博主题是指微博用户在发表的微博中关注的内容以及所表达出对应的观点和态度。微博用户对不同主题的表达和关注也会直接影响网络舆情的传播速度和规模以及舆情事件的走向。已有研究中对用户关注主题的分析常常基于用户间排斥性交互[1]、偏见吸收[2]、信息积聚[3]、社会加强机制[4-6]作用在单一主题的结果。但是在现实中,用户关注或讨论的主题不是孤立的,这些主题或者是来源于一个或几个主题,或者是这些主题本身就相互重叠。这种主题在父代、子代之间的传递或主题之间的重叠均是主题耦合的表现。主题互感耦合是主题强度变化的直接因素,对用户观点态度的形成也具有重要作用。因此,在理论上基于主题互感耦合对微博主题影响力进行分析,可以描述舆情主题之间的交互关系及相互影响的程度,揭示网络舆情事件的发展态势,继而深入理解微博用户的行为模式,有助于相关部门在舆情发展过程中针对微博主题演化情况开展处置工作,为加强应急管理部门的舆情应对能力提供理论支撑。

微博主题影响力是以微博用户关注的内容和话题为基点,结合自然语言处理、统计分析、机器学习等方法,对微博用户针对某一话题关注程度的变化进行测算,从而揭示某一话题内容在舆情中的影响范围以及影响程度。安璐等通过Word2vec和k-means聚类技术进行微博主题提取,以微博转发、评论和点赞数为测算指标,使用H指数计算微博主题影响力[7],也有基于微博内容、内容质量和微博内容时效性因素的微博主题影响力模型[8]。在相关应用研究中,出现了社交网络影响力最大化以及影响力阻断最大化的研究[9]。已有研究将微博条目外在特征,如转发、评论数量等作为微博主题影响力的关键因素。但一方面与具体问题相关的微博主题内容对于微博条目的影响力具有重要作用;另一方面,微博主题即微博用户关注的内容本身相互之间也存在相互抑制或相互增强的作用力。微博话题内容以及话题之间的相互作用力也是微博主题影响力分析不可忽视的关键因素,同时也有助于理解微博舆情发展的内在逻辑。

目前关于舆情的耦合研究包括舆情跨平台耦合、内、外源动力耦合、舆情主题耦合3个方面。①舆情跨平台耦合是指舆情信息在线下以及线上多个社交平台中交互传播的模式。网络舆情跨平台耦合表现在多个网络社交平台[10]、多层耦合网络[11],如微博与微信的耦合网络[12]、线上线下双层耦合网络[13]等;②对网络舆情内外源动力耦合的研究主要从系统观的角度出发,将致使突发性公共危机事件网络舆情发生演化的作用力分为内源动力与外源动力,并明确内源动力与外源动力对舆情态势演化产生作用的方式[14-15];③在对网络舆情主题耦合的相关研究中,还有多事件超网络的超边耦合算法[16]、网络舆情的原主题层和衍生主题层的耦合网络[17]、主题交叠网络[18]等。德国洪堡大学科学家费边·鲍曼等人近期在物理学国际权威期刊发表论文,对网络舆情中用户观点在多维主题空间中的3种极化态势进行研究[19]。费边·鲍曼的研究目标是基于观点动力学对观点极化的规律进行分析,并且其研究成果与美国科学院院士詹姆斯·德鲁克曼在2012年提出的舆情在宏观上的稳态和微观上的非稳态的脱节的论断[20]具有很强的对应性,可以认为舆情的宏观稳态和微观非稳态在观点动力学维度上得到了更精确的论证。

已有研究较多集中在舆情传播方式以及传播要素之间的耦合,关于主题耦合的研究较少。但主题耦合可以用来解释舆情传播中宏观稳态与微观非稳态的脱节、用户交互嗜同性与观点极化的脱节等现象,是观点动力学和传播动力学的重要基础。下文也将对主题耦合如何解释用户交互嗜同性与观点极化脱节现象进行阐述。本文拟解决以下3个问题:

1)阐述主题互感耦合的内涵、理论意义及现实意义。

2)基于主题互感耦合提出主题影响力的概念,并设计主题影响力的计算模型。

3)通过实证研究证实基于主题互感耦合的主题影响力计算模型的科学性和有效性。

1 主题互感耦合的内涵与意义

1.1 主题互感耦合的理论来源与内涵

系统耦合始源于物理学,在物理学上耦合是指两个实体相互依赖于对方的一个量度。耦合表示两个子系统之间的关联程度。耦合不仅存在于电路和软件工程领域,而且存在于以复杂系统呈现的各类社会系统之中。

已有研究对网络舆情主题的耦合采用“交叠”“overlap”等表达方式。主题耦合与电感耦合的性质极其相似。电感元件也称为自感元件,如果两个或两个以上的线圈中每个线圈所产生的磁通都与另一个线圈相交链,则称这些线圈具有互感(Mutual Induction)。若假定这些线圈是静止的,并且忽略了线圈中的电阻和匝间的分布电容,具有磁耦合的诸线圈就可表示为理想化的耦合电感元件(Coupled Inductor),简称电感耦合。当某一舆情事件或一系列舆情事件发生之后,网民在关注舆情事件本身的同时,经常会存在不同用户具有不同关注点的现象。这些主题一方面由于自身的争议性和敏感性,具有不同的吸引用户参与讨论的性质;另一方面,主题之间存在的内容“重叠”,使得主题之间也存在相互影响的性质。主题自身的争议性、敏感性以及主题之间的相互影响的性质,则对应于电感耦合中电感原件的自感和电感之间的互感。主题耦合与电感耦合的相似不仅可以通过各自的本征特征得以表达,通过已有研究也可见一斑。在费边·鲍曼的研究中,虽然没有明确指出,但用户观点对时间的导数公式与耦合模理论中电感耦合公式高度相似。

1.2 主题互感耦合的意义

在用户交互嗜同性的作用下,用户对舆情事件的讨论会形成关注内容不同或观点态度不同的相对独立的用户群体[21-22]。经典观点动力学理论认为,在充分的用户交互的条件下,用户观点最终会形成单极形态的观点极化[23-25],而后期研究证实观点极化的最终形态包含多种形式[26-28]。然而,不论观点极化的最终形态如何,在理论上从多用户群体到最终的观点极化表象上具有脱节,连接两种形态的正是作为驱动力的用户交互以及作为必要条件的主题互感耦合。仅以用户交互为驱动力无法完全解释从独立多用户群体到观点极化的过程,而主题互感耦合则可以揭示两种现象转化的内在原因。正如费边·鲍曼的研究中所述,以主题组成的坐标系不是正交坐标系,而是倾斜坐标系。用户的交互行为等传播要素都是在此倾斜坐标系中进行。在主题正交坐标系中,用户的交互行为只能形成多个独立的群体,无法达到用户群体融合以及观点极化。而在主题倾斜坐标系中,由相对隔离的用户群体到用户群体的融合便具有了可能性。主题互感耦合是主题组成倾斜坐标系的根本原因。因此,主题互感耦合的研究在理论上具有必要性和重要意义。

另外,主题互感耦合对主题影响力的研究也具有重要意义。主题影响力的表现形式是吸引用户参与讨论的数量,并由此产生的推动事件发展的作用力。本文在充分考虑主题互感耦合基础上,结合已有关于用户影响力研究成果,将微博主题影响力定义为在微博主题本征特质及互感耦合的作用下,以用户数量、用户类型为输入指标的用户影响力在各主题上分布的态势,并由此定义构建微博主题影响力计算模型。

2 微博主题影响力计算模型

安璐为了表达微博主题传播影响力,将微博主题影响力分为“主题出度”“主题差异度”以及相应的“情感出度”“情感转移度”。“主题出度”是指在用户交互网络中,与用户Useri直接相连且共享相同主题的用户数量与直接连接于用户Useri的总用户数量的比值。“主题差异度”是指在用户交互网络中,与用户Useri直接相连且关注不同主题的用户数量与直接连接于用户Useri的总用户数量的比值。“主题出度”与“主题差异度”值的和应为1[29]。因此,可以知道“主题差异度”是参与运算的指标数值,而“主题出度”则代表了用户Useri在用户网络中对于某一主题的传播影响力。结合费边·鲍曼与安璐的研究,本文将微博主题影响力定义为:微博主题影响力是以微博用户关注的内容和话题即微博主题的本征特质为基点,结合自然语言处理、统计分析、机器学习等方法,对微博用户针对某一话题关注程度的变化进行测算,从而揭示某一话题内容在舆情场中的影响范围以及影响程度。基于本文对微博主题影响力的定义,构建微博主题影响力计算模型,如图1所示。

在微博主题影响力计算模型中,首先使用自然语言处理技术(本文选择LDA主题模型)对各时序节点的微博主题进行识别,并使用Word2vec算法区分出表达舆情客体的主题与表达舆情本体的主题,从而过滤出表达舆情本体的主题进行微博主题影响力的计算。微博主题影响力的计算考虑主题本征特质、主题互感耦合以及参与讨论的用户3方面,分别由对应的3个模块实现定量化测算。①其中主题本征特质通过计算语义层面离散度、主题事件类型和是否违反公序良俗来表达内容多样性、主题争议性和主题敏感性,最终得出主题自感系数参与微博主题影响力的计算。语义层面离散度计算使用Word2vec算法实现;②主题互感耦合通过构建主题对称矩阵并使用Word2vec算法得出主题互感系数;③参与讨论用户数量是微博主题影响力的重要参数,其值是结构化数据,通过LDA主题模型中的主题—文档概率分布得出。在具体计算过程中需考虑分布在同一主题上的不同类型用户对微博主题影响不同而对不同类型用户进行权值赋值。

图1 微博主题影响力计算模型

2.1 区分表达舆情客体的微博主题和表达舆情本体的微博主题

王平等在2013年提出,网络舆情形成的要素包括主体、对象、本体和媒体[30]。黄微等探讨了大数据环境下多媒体网络舆情传播的主体、客体、媒体、本体、空间5个要素。网络舆情客体是引发网络舆情的刺激物、网络舆情的指向物,直接导致网络舆情的发生和传播,短时间内能够吸引大量的媒体报道和网民关注,对现实产生影响,持续一定时间。网络舆情本体就是网络舆情信息,是网络舆情主体针对某些议题、现象或事件,在网络空间表达的认知、情绪、态度和意见等具体内容。传播媒介,又称传播的媒体、渠道、信道或手段,是信息从传播者到接受者之间各种传播形式的总称[31]。

将表达舆情客体的微博主题与表达舆情本体的微博主题做出区分的原因在于理论上会有更多的用户集中分布在表达舆情客体的主题上,表现为对舆情事件本身的关注。关注舆情客体微博主题的用户数量,主要由舆情事件影响范围决定,且其仅是舆情风险产生的环境,并非是舆情风险的主要来源。而表达舆情本体的主题则是用户针对舆情客体延伸出的主题内容,并在用户交互的作用下,这些主题对用户观点极化等舆情风险具有显著作用。例如在重大突发事件背景下,关注事件本身的用户数量会比较多,但此部分用户对事件本身的关注不会导致舆情风险。但如果出现救援不力、信息发布不及时等事件,那么用户对这些微博主题的关注则极易产生观点极化并增加舆情风险的可能性。因此,针对表达舆情本体的微博主题影响力进行研究将更有意义。

本文将对各个时序节点进行主题提取,因此如上文所述,在每个时序节点上提取的主题中,应包含一个表达舆情客体的微博主题,并且这些主题在语义上最相近。区分表达舆情客体的微博主题与表达舆情本体的微博主题的方法如图2所示,计算公式如式(1)所示。

图2 区分表达舆情客体的微博主题与表达舆情本体的微博主题计算流程

区分表达舆情客体的微博主题与表达舆情本体首先使用LDA主题模型对各时序节点所有微博条目进行主题识别,之后使用Word2vec算法将主题词进行向量化表达,将相邻时序节点的主题词向量构建对称矩阵。通过循环计算所有相邻时序节点主题词相似度,可以得出各时序节点相似度最高的主题,此一系列主题即为表达舆情客体的主题。观察此一系列相似度最高的相似度值,如果其值变化较大,则说明舆情客体发生变化,反之则未发生变化。

(1)

式(1)中j表示在i时刻抽取j个微博主题,k表示在i+1时刻抽取k个微博主题。

2.2 微博主题自感系数

不同事件类型的微博主题,其主题影响力也将有很大不同。本文将微博主题自感系数定义为由微博主题本征特质而产生的对主题影响力作用的数值。微博主题自感系数来源于微博主题本征特征,主要包括主题争议性、主题敏感性和主题词语义离散性。

主题争议性与主题事件相关,不同事件的主题争议性具有很大不同。例如关于涉及公序良俗的事件,在共同的社会价值观的影响下,全体网民的观点态度高度一致,主题的争议性也非常小。而事实证明关于公共决策[32-33]、民主大选[34]、群体性事件[35]中,尤其是在伦理性话题[36]和气候变化[37]方面,其主题更容易吸引更多用户参与讨论,观点多方向极化更容易形成,主题争议性也将更强。费边·鲍曼为了研究的简洁性,将争议性较大主题的数值自定义为α=3,争议性较小主题的数值自定义为α=(0.1~0.3),并模拟仿真过程中调整α值,对结果进行分析讨论。但在此研究之前,存在大量研究对主题的争议性进行定性或定量的研究。这些研究大部分是关于公共决策[38-39]主题争议性研究。也有针对Twitter上出现的主题的争议性进行计算[40]。Garimella K等以争议性主题包含不同方面且有相反观点以及用户交互过程中的嗜同性理论为基础,将用户关注的主题及用户之间的交互构建成会话图,使用随机游走的算法基于会画图对主题的争议性进行定量计算[41]。

主题的语义离散度是指一个主题中各主题词之间在语义上的欧式距离。虽然一个主题揭示了用户对舆情事件的一个关注点,但一个主题中的主题词并不是完全相同的词或相同语义的不同表达,各主题词之间在语义上存在一定距离。主题词在语义上越接近,主题在语义上涵盖的内容越集中。相反,如果各主题词在语义上距离较大,意味着主题能够表达或涵盖的内容较多,那么吸引用户参与讨论的概率也就越大。因此,主题在语义上的离散度越大,主题的影响力越大。语义相似度计算方法包括余弦相似度、欧式距离、曼哈顿距离、Jaccard相似系数等。由于余弦相似度计算简洁,常用于词向量之间的语义相似度计算。本文使用Word2vec对语料库进行预训练并将主题词向量化,选取余弦相似度用于量化计算主题词之间的相似度。余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将词向量根据坐标值绘制到高维向量空间中。词向量余弦相似度计算如式(2)所示。

(2)

式(2)表示将主题中所有主题词两两计算余弦相似度,各相似度之和即可表达相反比例的主题语义离散度。由于微博主题争议性与主题离散度并无关联关系且对微博主题影响力贡献无差别,所以将两者做线性相加并且权值相同均为1,因此得到微博主题自感系数计算公式为P=α+1/sim。

2.3 微博主题互感系数

微博主题互感系数来源于各个主题之间在内容上的“重叠”。主题中主题词的“重叠”由主题抽取时设定的主题数量及每个主题的主题词数量决定。在对网络舆情进行主题抽取时,主题数越多,对主题的聚类具有越高的细粒度;主题词越多,表达主题内容越全面。但无论使用何种方法进行主题抽取,如果主题数和主题词数过多,都会增加对应的冗余度,反而使概括主题内容的能力下降。使用LDA或Word2vec结合K-means等方法中,都有比较具体的确定最优主题数的算法,LDA通过困惑度值确定,Word2vec结合K-means通过检验新增加的主题与已有主题重复度确定。但最优的主题抽取方法也无法保证主题之间在语义上绝对无交叉。

微博主题之间在内容上的“重叠”,其性质特征与电路中电感原件之间的互感耦合非常相似,受电路中电感原件互感耦合的启发,本文将微博主题之间在内容上的“重叠”称为微博主题的互感耦合。根据观点动力学理论,在嗜同性作用下,关注相同主题或持相同观点态度的用户倾向于进行交互活动。然而由于主题互感耦合的存在,使得关注不同主题的用户增加了在同一空间进行交互的概率。微博主题互感耦合及演化如图3所示。

图3 微博主题互感耦合及演化

微博主题A和微博主题B存在互感耦合部分C,在互感耦合C部分的用户交互行为使得主题A和主题B存在3种可能的演化形态:主题A和主题B逐渐融合,用户关注的内容逐渐趋同,观点态度逐渐趋于一致;主题A和主题B逐渐向两极演化,主题A和主题B在语义上越来越不相关,观点态度的极化也更加明显;互感耦合C部分的用户交互不足,或互感耦合的部分是舆情客体内容,主题A和主题B以及用户对相应主题的观点态度未发生变化。以上3种情况与舆情事件和参与讨论的用户相关且具有随机性。由于微博主题的互感耦合来自于主题之间内容上的“重叠”,因此微博主题互感耦合系数即为计算两主题在语义上的欧式距离,方法与2.3节计算微博主题自感系数类似。首先使用Word2vec对主题词向量化,然后与自感系数计算一个主题内主题词之间相似度之和不同,主题互感系数是将两个主题的主题词循环计算相似度,并将相似度加和。另外,自感系数在数值上与所得相似度之和成反比,互感系数与相似度之和成正比。

2.4 微博主题影响力计算

前文所述微博主题影响力的定义中,强调以用户数量、用户观点态度在各个主题上分布的态势表达微博主题的影响力,说明微博主题内容特征是主题影响力的内在因素,而用户对主题的讨论既是主题影响力的外在因素,也是主题影响力作用的结果。微博主题影响力的性质特征与电路中磁通量的性质特征极其相似,可以借鉴磁通量的特征和计算方法推导出微博主题影响力的计算。磁通量是指通过电感元件的磁感应强度。磁感应强度包括元件自身通电电流结合自感系数产生的能量,也包括与其他元件由互感耦合产生的能量。电路中电感元件不同的连接方式会产生不同的磁感线方向,互感耦合产生的词感线方向与电感元件本身磁感线方向一致,则会使电感元件的磁感应强度增加。反之,则会使电感元件的磁感应强度减小。

在微博主题影响力中,主题Ui吸引用户群体参与讨论,对主题Ui影响力产生了正向影响,参与讨论的用户越多,主题影响力越大。同时主题Uj与主题Ui互感耦合,吸引了一部分关注主题Uj的用户也参与到主题Ui的讨论中去。由图3可知,互感耦合部分用户的交互行为使得主题演变具有随机性。对主题Ui来说,互感耦合部分用户观点态度如果与其他用户一致,则主题影响力则会增加,反之,则会减小。基于以上讨论,本文定义微博主题影响力计算公式如式(3)所示。

(3)

式中ψ表示主题1的影响力,ψ11表示由主题自身产生的影响力,ψ12表示由主题2与主题1互感耦合产生的影响力,f(u)表示不同类型用户参与主题讨论的用户影响力与相应用户数量的乘积,是关于用户类型与用户数量的线性函数,P1表示主题1的自感系数,M12表示主题1与主题2的互感系数,M12=M21。

3 实证研究

本文选择新浪微博热点话题“重庆公交车坠江事件”作为信息源采集数据并建立主题空间,一方面,因为此事件作为早期的由“车闹”引发的公共交通安全事故,造成重大人员伤亡,事发当时引起了广泛的舆论关注与讨论;另一方面,该事件发展过程复杂,从舆情爆发期到衰退期随着事故原因的查明,用户关注内容涵盖打捞救援、公民素质、安全意识、法制建设、媒体报道失实等多维度主题分布,并且关注程度以及不同主题所引发的社会影响均差异较大。根据百度咨询指数显示,“重庆公交车坠江事件”发生在2018年10月28日,11月14日相关舆情进入消亡期。在实际舆情管理与分析中,以小时为单位进行时间序列分割将具有更准确的结果。本文为计算简洁,选择以每天作为时序分割单位,使用集搜客网络爬虫软件以相同方法和数据结构分别采集2018年10月28日—11月14日的新浪微博相关数据,获取包括用户ID、用户名、用户发表博文、发表博文时间、转发评论文本及时间等信息,经过数据清洗等预处理操作后共得到博文及转发评论文本51 151条。

3.1 识别表达舆情客体的微博主题

在重庆公交车坠江事件中,虽然微博用户讨论的主题发生多次语义层面上的演化,但理论上会有一个主题即舆情客体在语义层面未发生变化并且贯穿舆情信息传播周期。识别出表达舆情客体的微博主题并选择除此主题之外的表达舆情本体的主题进行研究,将使微博主题影响力的计算更为准确。主题抽取方法选择LDA模型。选择LDA模型而未选择优化后的LDA模型或其他方法的原因,一方面是LDA模型提取的主题常出现词频较高、对主题内容揭示较弱的主题词,而本文正是通过语义相似度计算将此部分识别出来并剔除,剩余表达舆情本体的主题将具有较为合理的主题词分布。其次是使用LDA模型能够得出主题—文档概率分布,用于后文中参与讨论用户数量的统计。

本文选择使用Word2vec模型训练针对此次事件的语料库,得出的词向量库能够更加准确地反映舆情事件文本特征。使用Word2vec模型可以将语料库中的词,以独热编码(Onehot-code)的形式使用一维向量表示。本文的Word2vec模型使用Skip-gram算法,将词转换为200维向量进行余弦相似度计算。本文使用LDA模型对重庆公交车坠江事件以每天作为时序单元抽取主题,并使用Word2vec计算各主题间的相似度,发现表达舆情客体的微博主题,主题内容及相似度如表1所示。

表1 重庆公交车坠江事件表达舆情客体的微博主题

表1(续)

通过表1发现,各时序节点的主题高度相似,主题之间的主题词有很多也是同一含义的不同表达,基本反映了舆情事件本身内容。虽然个别主题中出现了除舆情客体用户关注的其他内容,但通过实验发现,这部分内容在LDA提取的同一时序节点的其他主题均有揭示。因此,将以上主题作为表达舆情客体的主题并排除在研究之外,不仅不会影响主题的揭示,还会提高分析主题影响力的准确度。经排除表达舆情客体主题后,得出微博主题如表2所示。

表2 各时序节点微博主题的主题—词分布

3.2 “重庆公交车坠江”事件微博主题影响力计算

在2.2、2.3、2.4节阐述了微博主题影响力计算方法,现对主题自感系数、互感系数及参与讨论用户数量的统计分别予以说明。

3.2.1 “重庆公交车坠江事件”主题自感系数计算

计算主题自感系数时,首先需要确定主题的争议性数值。为研究简洁,本文不采用定量化方法对主题争议性进行推导,而是选择与文献[16]相似的方法,根据已有研究演绎推定“重庆公交车坠江”事件的争议性数值。“重庆公交车坠江”事件中,由于政府救援及时、方法科学合理、救援人员尽职奉献,获得网民的一致好评。只有在确定事故原因方面,由事故产生前期网民误认为是红色轿车逆行导致,到交通监控视频公布,确认事故原因不是红色轿车逆行导致,再到最后公交车黑匣子内容公布,找出事故真正原因,期间网民关注内容多次发生变化,但主题争议性一直较小。因此,本文将主题争议性均赋值为0.1,即α=0.1。

主题语义离散度的计算需要使用主题词对称矩阵,对角线值为1,并将矩阵对角线一侧除对角线外其他所有元素的值加和,得出主题语义离散度的倒数。“重庆公交车坠江”事件主题自感系数如表3所示。

表3 “重庆公交车坠江”事件主题自感系数

3.2.2 “重庆公交车坠江事件”主题互感系数计算

对每个时序节点(即每天)进行主题抽取,并去除表达舆情客体的主题后,其余即为每个时序节点上表达舆情本体的主题。如表3所示,28日剩余1个表达舆情本体的主题,不计算互感系数;29日剩余T2、T3两个表达舆情本体的主题,即计算29日T2与T3的互感系数;1日剩余T2、T3、T4 3个表达舆情本体的主题,即计算1日T2、T3、T4彼此之间的互感系数;以此类推。主题互感系数与主题自感系数计算类似,在主题离散度计算中,用主题词之间相似度的倒数表达主题离散度,而在主题互感系数计算中,则将两个主题的所有主题词组合成一个整体,形成对角线为1的对称矩阵,并计算对角线一侧除对角线元素外其他元素数值和。由于加和后的数值较大,因此将数值使用极值归一化进行标准化。互感系数如表4所示。

表4 “重庆公交车坠江”事件主题互感系数

3.2.3 “重庆公交车坠江事件”主题影响力计算

得出微博主题自感系数、互感系数后,结合参与讨论用户数量,根据式(3)可以计算微博主题影响力。参与主题讨论的用户数量可由LDA主题提取时得出的主题—文档分布进行统计。通过主题—文档分布,可得出所有文档在每个主题上的概率分布,概率值最大的主题即为该文档在内容上属于此主题,同时对应文档的发布者即为参与此主题的讨论。普通用户发布多个属于某主题的文档,仅表示该用户持续关注此主题,对主题影响力大小变化的作用效果微小;而如果网络意见领袖用户持续关注同一主题,则会对主题影响力的增大产生重要作用。不同影响力的用户对主题的影响也不同,因此在式(3)中f(u)应为关于用户类型的线性函数,函数表示如式(4)所示。

f(u)=u1(β1a)+u2(β2b)+u3(β3c)

(4)

u1、u2、u3……表示不同用户类型,β1、β2、β3……表示不同类型用户参与某一主题讨论的数量,a、b、c……表示对应用户类型的权值,u1(β1a)表示第一类用户关注某一主题的影响力是关于参与用户数量β1与用户类型权值的积函数。

关于微博用户影响力的研究较多,应用指标体系计算或应用复杂网络结构计算的研究均取得一定成果。安璐等对突发事件情境下高影响力用户进行分析,构建了高影响力识别指标体系,使用标准离差法确定指标权重[42],指标及相应权重值如表5所示。

表5 用户影响力识别特征指标权重

在“重庆公交车坠江”事件中,经过对新浪微博条目观察发现,并不存在权威人士或个体意见领袖对事件本身的解读或讨论,舆情传播过程以官方媒体发布信息以及普通微博用户参与讨论为主,因此本文将用户分为官方媒体,即蓝V认证用户,其他均为普通用户。结合文献[42]研究结果,计算得出官方媒体的平均影响力指数为0.5852,普通用户的平均影响力指数为0.1269。由于舆情事件不存在争议性主题,未发现用户观点态度明显相反的现象,并通过百度AI开放平台情感倾向分析证实用户对各主题不存在明显相反情况。因此,在式(3)中第二部分均选择相加处理。

综合以上研究,计算“重庆公交车坠江”事件各时序节点上各主题(除表达舆情客体的主题)的影响力如表6所示。

4 结果讨论

以主题在语义上的自感特性及互感特性为起点,结合参与主题讨论的用户影响力得出主题影响

表6 “重庆公交车坠江”事件微博主题影响力

力,扩展了以复杂网络为理论基础进行主题影响力分析的研究边界。本文首先实现对主题在语义上离散度的定量计算。主题离散度是主题本征特质的重要方面,离散度越高,吸引更多用户参与讨论、刺激用户延伸出更多讨论内容的概率越大;第二,对同一舆情事件或同一系列舆情事件中的不同主题在内容上的“重叠”部分,即主题互感耦合进行定量计算;第三,以主题以及主题之间在语义上的本征特征和用户在某一主题上的影响力来表达微博主题的影响力。

4.1 实证结果分析

本文的实践意义在于当舆情事件出现以后,用户会由此舆情事件本身延伸出多个讨论的主题,其中甚至可能会出现谣言、高度负面情感等情况。了解各主题的影响力状况有助于促进对舆情发展态势的理解,更加有利于准确掌握舆情潜在风险点。本文以“重庆公交车坠江”事件为例,对微博主题影响力进行计算,得出各时序节点上各主题的影响力。在实验计算中发现,来自主题互感耦合的用户影响力对主题影响力的贡献较大。另外,普通用户对主题影响力的贡献相对官方媒体更大,主要原因是官方媒体发布内容基本属于对舆情客体的报道,而在本文构建的微博主题影响力计算模型中,则不将表达舆情客体的微博主题列在研究范围内。

图4 “重庆公交车坠江”事件微博主题影响力分布图

由图4可以发现,在事件发生之初主题影响力较高。主要原因是事件严重,伤亡人数多,因此引起大量用户关注并参与讨论。结合表3可知,28日事件发生,红色轿车被误认为逆行并且是导致事故发生的原因。29日至30日,随着交通视频公布,证实红色轿车没有逆行并且也不是事故原因。网民用户提出前一日及29日稍早误会女司机的媒体和个人应该做出道歉。随着事件的发展,用户的关注点又快速转移到打捞救援工作上。其间出现影响力较高但持续时间较短的主题,即一名救援队员的父亲是遇难者之一,引起了用户的关注,但影响力持续时间较短暂。在随着公交车黑匣子被打捞并且公布黑匣子内容,网民用户对女乘客的行为进行强烈的抨击,同时也对公交车司机的应对失当持一定反对态度,具体内容集中体现在4日T2主题中。随着事故原因的披露,用户在对事故当事人表达谴责之后,整体主题影响力出现下降趋势。说明此时有一部分用户在知道事故原因之后选择不再关注此事件。而选择继续参与讨论此事件的用户在关注内容上则向更多方向发展,如相关法制建设、公交车围栏、国民素质等方面。其中有关国民素质、素质教育等主题的讨论在10日左右影响力较高。

图4显示“重庆公交车坠江”事件微博主题影响力分布趋势符合信息传播生命周期的规律,即起始期、爆发期、衰退期和平息期。30日、31日是突发事件网络舆情的爆发期,结合表3可知,网络用户主要关注要求新闻媒体对红色轿车女司机道歉以及救援工作开展,尤其关于救援工作的主题影响力最高。由此可判断,此时尽快开展救援工作是应急管理的重点工作,也是防止网络舆情衍生风险、次生风险的关键途径。事实上,当地政府及时开展了科学有效的救援工作,并在救援工作出现了感人事迹,从而将网络用户从要求新闻媒体道歉的关注点转移。最终引导整体突发事件网络舆情平稳进入衰退期和平息期,在信息传播生命周期中未出现网络舆情衍生风险、次生风险,增强了突发事件的社会恢复力。

4.2 研究局限和未来研究方向

本文基于主题在语义上的自感特性和互感特性,提出主题影响力的定义,构建了主题影响力的计算模型。主题影响力计算模型能够反映微博主题吸引用户参与讨论的能力。但是为了研究简洁性,本文构建的计算模型中有个别指标未选择详细计算,而是结合已有研究成果及先验认知直接定义其数值。主要是主题争议性取值以及用户类型细分粒度。第一,本文对主题争议性选择直接赋值,但实际各主题争议性必然不同。第二,在计算用户影响力时,只将用户分为官方媒体和普通用户,分类粒度的不足使得对不同用户真实影响力的揭示不充分。第三,用户类型权值计算以及用户观点态度方向均采取抽样计算。以上3点对主题影响力的计算会产生一定影响。在未来研究中,注重将所有指标的得出均建立在科学合理的计算中,减小数值取值的模糊性,增加主题影响力计算准确度。

5 结 语

本文基于主题在内容上的本征特质和主题之间的互感特性,结合用户参与主题讨论行为,定义了主题影响力的概念。本文创新性提出对表达舆情本体的主题与表达舆情客体的主题进行区分,并通过Word2vec算法设计了具体区分方法。同时基于舆情客体与舆情本体的理论论证了针对舆情本体进行微博主题影响力计算的合理性。在受电路互感耦合的启发下提出主题间互感耦合并设计计算方法,利用主题在语义上的欧式距离表达主题互感程度。最后以主题本征特质、主题互感耦合以及在主题上分布的微博用户数量3个模块为基础,提出主题影响力计算模型,并通过“重庆公交车坠江”事件进行实证分析。基于主题互感耦合对微博主题影响力进行分析,可以描述舆情主题之间的交互关系及相互影响的程度,揭示网络舆情事件的发展态势,继而深入理解微博用户的行为模式,为加强应急管理部门的舆情应对能力提供理论支撑。

猜你喜欢
争议性互感主题词
休闲运动的争议性反思:从时间到生活方式
基于TensorFlow神经网络的MCR-WPT系统负载与互感识别方法
大型接地系统接地阻抗测量的引线互感分析
争议性的产生
例谈《互感和自感》的教学设计
争议性材料在历史课堂中的使用——以抗日战争的教学为例
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
2014年第16卷第1~4期主题词索引
《疑难病杂志》2014年第13卷主题词索引