融合主题聚类与层次分析的涉警舆情意见领袖影响力研究

2023-08-07 08:13罗文华许中华
中国刑警学院学报 2023年3期
关键词:烧烤店领袖舆情

罗文华 许中华

(中国刑事警察学院公安信息技术与情报学院 辽宁 沈阳 110854)

1 引言

2022年6月10日凌晨2点40分许,河北省唐山市某烧烤店发生一起寻衅滋事、暴力殴打他人案件。该事件很快于当日以图片、文字等形式通过微信聊天群传播,后迅速被各大网络媒体平台发布、评论与转载。6月11日随着最后一名逃犯被抓获,河北省公安厅指定唐山烧烤店打人案件由廊坊警方侦查办理,廊坊市公安局广阳分局于6月12日发布案情通报。尽管如此,经过接近两日的发酵,该事件已经在网络上广泛传播开。在6月10日至16日期间,“唐山”的抖音搜索指数平均值达到了8983万,环比增长91784%;“打人”的抖音搜索指数平均值达到了4573万,环比增长了27239%。迅速增长的数据指标彰显了网民对于“6·10”唐山烧烤店打人事件的强烈关注。

“6·10”唐山烧烤店打人事件经过一段时间的发酵之后,舆论将该事件与扫黑除恶紧密关联。大量网民关注受伤女子恢复情况之余,更想探寻涉案人员身后的势力靠山,由此演绎出的不同的版本说法在网络上广泛传播。在这个过程中,以意见领袖为中心的网络社团时而对立,时而协作,很大程度上影响甚至改变了舆情演化方向。因此,准确识别事件发展过程中扮演重要角色的意见领袖,分析其实际作用大小,探索具体影响效果,可以为引导涉警舆情工作提供相当助益。

2 国内外研究现状

2.1 涉警舆情传播与治理研究

侯利敏认为自媒体时代中信息的传播十分复杂,公安机关应对涉警舆情时反应速度较慢、思维方式有待转变等因素导致警媒关系紧张、公信力受损等难题[1]。秦大强在把握网络信息传播新症候等基础上,从治理思路、管控强度、治理模式、警情供给、警媒建设等方面细化对策[2]。王欢以庆安枪击事件为研究样本,通过多次反转的涉警舆情事件,从把握事件触发点、舆情高潮点、舆情反转点以及涉警舆情发展轨迹,为涉警舆情提供了两点治理建议[3]。Gabbidon通过各类文献以及报告从民族、社会阶层和邻里环境等多种因素讨论粉丝对警察看法[4]。Bell通过问卷调查的方式,获取舆论中对于警察的观点看法以及希望警察能够进行改进的地方[5]。

涉警舆情研究尚存在不足之处,如意见领袖影响力难以量化、缺少基于观点主题视角探讨意见领袖对粉丝群体的影响效果。因此本研究尝试实现意见领袖观点影响考量,在量化意见领袖影响力的基础上,根据涉警舆情事件发展的不同阶段具体分析意见领袖的发言对于粉丝观点影响效果如何,为相关部门工作提供助益。

2.2 意见领袖影响力研究

费康月通过选出50位意见领袖,通过社会网络分析的方法来研究其社会网络结构特点,利用关注量、发文量、粉丝量、转评赞数量探索意见领袖的影响力[6]。万钰钰等以突发事件“湖北十堰燃气爆炸”为例,从网络密度、网络中心性、凝聚子群3个维度探讨了意见领袖的传播影响力[7]。王晰巍等通过受认可度、情感联系度和网络传播度3个维度来构建意见领袖节点影响力OLEI指数算法,并提出社交网络中意见领袖节点影响力指数计算及分析模型[8]。Chen采用TCOL-Miner方法从复杂的社会网络中识别意见领袖,通过TCOL-Miner方法来有效的从复杂的社会网络中识别意见领袖[9]。Jain认为社区分类方法是以邻居相似度和聚类系数为重要成分,因此提出了基于社交网络的鲸鱼优化算法来通过利用网络中的各种优化函数测量用户的声誉来识别意见领袖[10]。

意见领袖识别方面的相关算法比较成熟,但仍存在不足。因此本研究尝试从粉丝观点视角审视意见领袖的作用。相关文献采用的问卷调查方法较多,部分文献中的实例不具有阶段性,因此本研究选择比较复杂的涉警舆情事件,更全方面的体现舆情事件全貌。通过涉警舆情演化的不同阶段,强化意见领袖发生时刻与发生内容作用关系分析,以补充完善现有研究的不足。

3 方法介绍

3.1 基于层次分析法构建二级指标评价体系

网络影响力指的是一种可以通过网络改变他人行为或者思想的能力,一般通过利用和效用来产生作用[11]。涉警网络舆情意见领袖通过自身观点输出,获得了大量的曝光度,持不同观点倾向的网民聚集在意见领袖的周围形成网络社团。已有学者通过层次分析法分析多级指标模型[12],因此本研究通过多级递阶层次模型来构建意见领袖识别方法。多级递阶层次模型包含了目标层、准则层、方案层,同时多级递阶层次模型分为三类:完全相关型结构、完全独立型结构、混合型结构,本研究中设计的模型为完全独立型结构[13]。

层次分析法是将问题分解为不同的组成因素并人为地将这些组成因素赋予权重,赋予权重的方法是判断不同因素之间的重要性程度,因此需要引入AHP重要程度描述表[14],判断矩阵中每一个因素代表因素i与因素j相比,因素i的重要性;当i等于j的时候意为同等重要,即为1;偶数介于两个重要程度之间。

二级指标评价体系需要将方案层的指标数据归纳总结出不同的特征,将这些类型视为准则层,即方案层的数据指标为一级指标,准则层的数据特征为二级指标[15]。因此不仅需要计算准则层数据特征间的权重,也需要计算方案层数据指标的权重,将两者线性相乘得出指标综合权重。重要程度描述表可以量化描述指标间的重要性,将量化结果导入AHP权重计算矩阵可以计算出每一个指标的权重。

层次分析法是通过定量分析与定性相结合方式将问题分解成为目标、准则、方案等层次,使用方式是构造指标的判断矩阵,求出最大特征值。但是判断矩阵的阶数过高时可能会构造出难以满足一致性的判断矩阵,因此需要设置一个阈值,当超过了这个阈值时判断矩阵就不能通过一致性检验,需要重新构建,反之实验可以继续进行。因此需要引入一致性检验CI与随机一致性RI这两个指标。当CI等于0 的时候代表有完全的一致性,当CI接近于0的时候代表有比较适合的一致性,因此可以总结出CI值越大不一致性越明显。为了衡量CI的大小还需要引入随机一致性指标RI,根据判断矩阵的维度n和平均随机一致性指标表(表3)可以通过公式CR=CI/RI计算出一致性比率,当一致性比率CR值小于0.1,代表判断矩阵通过一致性检验,否则判断矩阵需要被重新设计[16]。

3.2 基于共现矩阵的聚类分析

TF(Term Frequency)又称特征项频率,指的是词语在文档中出现的频率[17]。IDF(Inverse Document Frequency)又称逆文档频率,某个特征项在某个文本中出现的频率高但是在其他的文本中出现的频率较低,说明该特征项具有较好的区分能力,应该赋予较高的权重[18]。TF-IDF的计算公式中,tf代表特征项j在文本i中的权重,后者则代表特征项在文本中的出现频率,两者相乘即为如下计算公式。

聚类分析采用的是无监督的学习模式,在没有先验条件下对数据进行分类,一定程度上减少了人工分类的主观性。在共词分析中常常需要用到聚类分析这一种统计方法,因为聚类分析能很好地分析目标数据变量之间的关联关系,通过数学模型对数据进行归纳总结[19]。1986年法国学者Callon和Law等出版了第一部关于共词分析法的学术专著[20],对文本中出现的词语进行统计分析、分层聚类,可以揭示出词语间的亲疏关系,从而分析研究主题变化[21]。本研究基于TF-IDF算法计算出数据集中的高频关键词,并根据这些关键词和数据集构建共词共现矩阵,构建共现矩阵可以进行共现分析来探索关键词间的关联关系,通过绘制出共现语义网络来归纳总结出微博用户发文主题偏好。

3.3 基于BTM模型分析评论主题

BTM(Biterm Topic Model)主题模型与LDA主题模型类似,两者都是给一篇文档,指定一个主题的个数,两种模型会自动生成每一个主题的关键词以及一篇新文档各个主题的概率有多少,根据Yan的论文[22],传统如LDA等主题模型在处理如评论、弹幕等短文本时效果不佳。为了解决这一问题,BTM主题模型应运而生。

BTM主题模型图(图2)中M表示整个语料库中所包含的词对数目,K表示主题数目,α与β为狄利克雷分布的超参数,θ表示主题概率分布,Φ表示主题-词对分布,Z表示词对的主题号,两个W则代表词对。

图2 BTM 主题模型

BTM主题模型生成语料库的过程是:第一步,对每个主题z获取主题-词分布θ;第二步,为数据集合获取一个文档-主题分布Φ;第三步,对整个数据集中每一个biterm得出一个主题分布以及两个词语。根据上述流程词对的概率可以由公式(1)计算得出,而产生的BTM语料概率可以由公式(2)得出。

由于意见领袖粉丝评论篇幅通常较短,具有语义稀疏的隐患。本研究通过改进 BTM 主题模型实现生成的语料库能够直接对文本进行建模与推断,进而解决语义稀疏问题[23]。首先,输入粉丝评论分词数据集、迭代次数、主题数目、狄利克雷分布超参数α与β;然后,初始化粉丝评论分词结果,每一次迭代都计算分词结果的条件概率并更新参数;最后,经过n次迭代使得模型趋近于收敛,输出粉丝评论数据集所隐含的文档-词对分布、文档-主题分布。根据文档-主题分布结果判断粉丝评论大概主题分布,再结合主题-关键词分布结果抽取每个主题核心内容,最后根据粉丝评论主题内容总结意见领袖观点对粉丝观点影响效果的差异。

4 实证分析

4.1 数据来源及发展阶段划分

本文基于“6·10”唐山烧烤店打人事件开展实例分析。2022年6月10日凌晨,唐山某烧烤店发生了一起暴力伤人事件,随后该事件在各大网络平台中迅速扩散引起了网民强烈的关注。该事件在网络的传播过程中,逐渐与扫黑除恶联系在了一起,警察也开始逐渐被卷入其中。该事件涉案人员于11日下午被全部抓获,尽管如此,网络上关于“6·10”唐山烧烤店打人事件的讨论仍旧火热。各类不实信息在网络中飞速传播,更有甚者造谣涉案主犯母亲在公安厅任职,一时间网络中甚嚣尘上,相关事件发展始末如表4所示。

本文在微博上选取“唐山烧烤店打人”作为关键词,收集时间段为6月10日(案发)至9月29日(宣判),相关微博近3万条。如图3所示,6月10日与11日案件刚刚发生,抖音相关搜索呈爆发式增长;随后进入一段波动下降时期,除去6月12日涉案人员全部被捕,17日嫌疑人亲属发声以及21日第一次案件进展通报出现了上升趋势,其余时间呈下降趋势;最后在8月29日检察院发布起诉通报及9月23日一审宣判结果引起了小范围上升。舆情发展过程常被分成四个阶段,但是本次事件的潜伏期极短,10日凌晨2时左右事发,下午就登上了各大平台的热搜榜单。因此,本研究将“6·10”唐山烧烤店打人事件划分为爆发期、波动期、衰退期三个阶段进行分析。

图3 “唐山烧烤店打人”事件舆情发展过程

4.2 构建二级指标评价体系

相较于转发、评论、点赞等实时特征,关注、粉丝、发文、认证等相对静态,因此将其分为动态特征与静态特征两类。将静态特征与动态特征视为准则层,7项数据指标视为方案层,对比分析不同层次中指标间重要性关系计算权重结果。

为了能够更加充分地认识微博账户特征之间的重要性关系,笔者通过调查问卷方式咨询了十一名相关领域资深研究人员的意见。本研究将7类指标特征划分为动态特征与静态特征两种类别,静态特征包含关注、粉丝、发文、认证等,动态特征包含转发、评论、点赞等。受访者需要根据个人经验主观地判断静态特征与动态特征、静态特征内部三项指标、动态特征内部四项指标之间的重要性程度。归纳整理咨询结果并依据AHP重要程度描述表(表1)进行量化打分,计算方法为:将重要性程度累加后求出平均分,并将平均分四舍五入取整得出最终重要性程度量化结果,有关结果如表5所示。

表1 AHP 重要程度描述表

表2 AHP 权重计算矩阵

表3 平均随机一致性指标表

表4 “6·10”唐山烧烤店打人事件发展始末

表5 重要性程度判断结果分布情况

从结果可以看出整体上意见领袖动态特征重要于静态特征。在动态特征指标内部,相比于点赞数,转发数的重要性程度介于明显重要与绝对重要之间;相较于评论数,转发数的重要性程度介于略微重要与明显重要之间;相较于点赞数,评论数的重要性程度介于同等重要与略微重要之间。在静态特征指标内部,相较于发文数,关注数的重要性程度介于略微重要与明显重要之间;相较于认证情况,关注数的重要性程度介于明显重要与绝对重要之间;相较于关注数,粉丝数的重要性程度介于同等重要与略微重要之间;相较于发文数,粉丝数的重要性程度介于略微重要与明显重要之间;相较于认证情况,粉丝数的重要性程度介于明显重要与绝对重要之间;相较于认证情况,发文数的重要性程度介于同等重要与略微重要之间。将上述结果与AHP重要程度描述表(表1)、AHP权重计算矩阵(表2)相结合构建各层间的权重计算表,综合计算出7项数据指标间的权重得分。具体结果如表6所示。

表6 各层指标及其权重

对动态特征与静态特征的判断矩阵进行一致性检验,检验结果显示两者CR值均小于0.1,通过一致性检验,检验结果如表6所示。基于本节所述方法计算微博账户影响力评分,结合微博认证信息将评分较高的账户划分为官方机构、新闻媒体、领域专家等类别供后续分析。

4.3 识别意见领袖

识别持有不同观点主题的意见领袖不能仅仅依靠4.2节所构建的二级指标评价体系计算微博账户影响力得分,同时还需要分析识别微博账户文本主题与群体共识间的相似程度。首先需要依据3.2节所述方法根据TF-IDF算法计算出每一个阶段微博数据中的关键词,基于这些关键词对原始数据进行清洗并构建共现矩阵,各个阶段关键词如表7所示。

表7 各阶段TF-IDF 关键词

各阶段的关键词可以反映出热点事件中网民关注焦点,而共现这一方法可以很好地展现这些关键点之间的联系。通过python构建共现矩阵并将数据导入软件COOC13.4.4,绘制出共现语义网络(图4)。在共现语义网络中,节点代表关键词,节点间的边则代表关键词共同出现的情况。节点的大小与边的粗细都具有特定的意义,节点的大小不同代表该关键词在微博数据中出现的次数不同,节点间的边粗细不同代表这些关键词一起出现的频率不同,两者都呈正相关趋势。

图4 各阶段共现语义网络

共现语义网络分析属于网络分析方法,可以有效地处理来自大量账户的文本内容。根据各阶段共现语义网络进行共现词分析、词汇聚类等方法可以归纳总结出这些文本中存在的群体性共识。筛选微博账户影响力评分较高且发文主题与群体性共识相似的微博账户作为意见领袖,归纳总结出不同阶段、不同类型的意见领袖(表8)供后续分析意见领袖影响力效果。

表8 各阶段意见领袖

4.4 意见领袖粉丝主题分析

根据3.3节所述方法将粉丝评论收集、清洗、分词后,经过BTM主题模型分析聚类后得出意见领袖粉丝评论的关键词。根据关键词结果归纳总结意见领袖粉丝的意愿表达以及阶段性主题,以此探索不同类型意见领袖影响力效果的异同,通过表9展示相关结果。

表9 各阶段评论关键词与主题

第一阶段处于事件刚刚发生且急速扩散的时期,本次舆情事件潜伏期太短,迅速进入爆发期。当日上午烧烤店监控视频就已经流传于各大网络平台,警方没能及时反应也成了舆情恶化的诱因。官方机构对烧烤店打人事件进行了初步的报道,报道重心在于烧烤店打人事件本身且立场比较客观。因此粉丝评论的意愿表达多数基于自身朴素的价值观出发,谴责嫌疑人打人、要求严惩嫌疑人等话题。新闻媒体为了赢取更多网民的关注,通过预设议题,邀请法律领域的专家学者从法律角度探讨本次事件打人者可能会被处以何等惩罚,因此粉丝的关注点也开始向定罪量刑方向转移。领域专家深知自身粉丝群体喜好特点,通过转发文章谴责打人者、呼吁保护女性等方式紧紧抓住粉丝群体关注焦点。因此粉丝评论意愿表达紧紧围绕在支持意见领袖、支持保护女性左右。

第二阶段处于案件正在调查但尚未公布立案信息或其他有关通报的时期。而网民急于得知案情侦办进展以及被打女子伤情信息这一期盼与案件侦查发展规律相悖,导致谣言四起,最有代表性的谣言便是四名受伤女子死亡。同时唐山民间更是出现了大量的实名举报视频,一时间舆情发展趋势呈现波动状态。官方机构对女子伤情以及案件侦办进展进行了翔实的报道,因此粉丝评论意愿表达主要集中在严惩嫌疑人、讨论女子伤情等范围。新闻媒体则从接警民警被处理的角度进行报道,与本次舆情事件中声音较大的保护伞等话题有关联,因此粉丝评论意愿表达较为负面,多数在发泄自身的不满。领域专家洞悉社会热点,讨论了唐山医院回应女子伤情措辞不够严谨导致为谣言的诞生培育了土壤。受其引导,粉丝评论意愿表达与意见领袖观点主题关联性较强。

第三阶段处于消散期,随着时间的推移大部分网民转移了对于本次事件的注意力,只有起诉与宣判时热度发生回升。嫌疑人被定罪量刑这一消息令部分得以网民满意,但也有部分网民呼吁严打保护伞、持续关注扫黑除恶。官方机构报道了一审宣判结果,因此粉丝评论意愿表达多集中在严查保护伞、处理有关人员、持续关注扫黑除恶行动等。新闻媒体着重报道了嫌疑人受审内容,并突出强调嫌疑人忏悔,因此粉丝的注意力受其引导也多围绕着嫌疑人忏悔左右。领域专家从社会角度入手,批评嫌疑人后提出了自己的忧虑,因此粉丝在这一议题下进行了激烈的讨论,评论意愿表达较为集中。

5 分析与引导

5.1 意见领袖影响力讨论

在近年来国家大力开展扫黑除恶专项行动背景下,本次事件虽然起因于一场故意伤害案件,但是警方发布第一份警情通报与事件发生相隔时间较长,导致网民开始批评警察的拖延行为。舆情事件中官方机构多采取观望态度,并不急于发声,而是等待事件调查结果再总结评论,着重客观中立的报道打人事件本身。但是网民对此并不满意,因此官方机构型意见领袖粉丝多数是出于朴素的情感与观念表达了自身的诉求,宏观角度官方机构型意见领袖对于网民的影响能力弱于新闻媒体与领域专家。

新闻媒体追求商业价值,迎合网络民粹,通过预设议题、制造噱头以吸引眼球。譬如事件刚刚发生,新闻媒体就邀请法律领域专家对本次事件有关人员的定罪量刑进行探讨,受到影响的网民将关注焦点转移到定罪量刑与法治建设方向。在立案侦查时对被处理的警察进行了报道,受到影响的网民将关注焦点转移到该警察渎职乃至整个警察队伍上。通过预设议题,新闻媒体型意见领袖在舆情事件中对网民的影响效果最强。

领域专家型意见领袖长期在专业领域深入研究,积累了丰富的实践经验,善于提炼观点,分析问题一针见血,紧紧地抓住了本次事件中凸显出的社会问题并加以分析。因此粉丝评论主题呈现两极分化的形式,但基本上围绕在支持与反对两种情况。领域专家型意见领袖擅长总结观点,诱导性不如新闻媒体,但对于网民的影响能力强于官方机构。

5.2 舆情引导建议

在舆情爆发阶段,官方机构需要重视重大突发事件黄金4小时的舆情处置原则,尽管受制于时间导致信息有限,但仍需要及时地回应网民的问题,目的是安抚网民的情绪、避免舆情态势恶化。充分利用大数据、人工智能等技术搜寻网络中可能存在舆情隐患,做好预案。联合新闻媒体与领域专家构建快速反应体系,将正面解释报道尽可能地扩散,争取做到牢牢握住舆论引导的主动权。为遏制不实信息的传播、负面情绪的扩散打好基础,做到民有所问,警有所答。

在舆情波动阶段,官方机构需要在尊重客观事实与办案规律的基础上,将案件的侦办信息进行实时推送,巩固网民对警方的信任。将目标人群进行精准识别划分,收集分析他们的观点疑点,联合新闻媒体与领域专家进行靶向宣传,将正面信息广泛的传播出去。有关部门还需要通过技术手段对网络谣言进行收集阻断,及时对有关谣言进行澄清说明并封禁一些恶意传播谣言的典型账户,为舆情进入衰退期做好铺垫。

在舆情的衰退期,大部分网民的情绪趋近于平稳,对于热点事件的来龙去脉也有了大致的认识,期待处理结果。官方机构需要联合新闻媒体、领域专家将处理结果等正向信息进行广泛的推送。避免网民由于热情消散导致对相关处理结果缺乏了解,进而固化一些诸如“没有处理结果”“自罚三杯”等负面认知,避免政府陷入塔西佗陷阱。同时,网络中可能还会存在一些激进的言论,有关部门仍需做到不拖延、不对抗,做到消解负面情绪、促进形成共识、加速解决矛盾,构造风气清正的网络社会。

6 结语

本研究基于观点主题角度,依据7项数据指标构建多级递阶层次模型计算微博账户影响力,依据共词聚类分析归纳总结群体性共识,两者结合筛选出意见领袖。之后引入BTM主题模型分析粉丝评论主题与意见领袖粉丝主题间的异同以更充分地理解剖析意见领袖影响力作用。对比分析不同发展阶段不同意见领袖观点主题变化以及粉丝观点主题变化,归纳总结变化规律及特点,从发声形式、发声内容与发声时机等层面提出了利用意见领袖导控涉警舆情的方法与建议。

本文的研究仍存在着不足之处。首先,针对主题的聚类分析的研究与应用尚不够深入,本研究仅考虑到网络上不同类型的文本的长短有别,采用了两种不同的主题分析与聚类方法。但是没能对比不同分析与聚类方法的异同与优劣,也没能引入确定最佳主题数目的方法。其次,量化分析意见领袖影响力时有关指标仅仅考虑了七个,尚有提升空间。后续研究会针对现有的不足加以完善。

猜你喜欢
烧烤店领袖舆情
领袖风范
烧烤店暴力打人案,我们该如何看待
咱们的领袖毛泽东
领袖哲学
舆情
舆情
舆情
平民领袖
另类烧烤店
囧版三国之烧烤之行