突发公共安全事件网络舆情演化分析

2021-11-12 13:43孙宗缘马秀峰李奇
河北科技图苑 2021年5期
关键词:文本挖掘演化情感分析

孙宗缘 马秀峰 李奇

摘要:文章以“贵州安顺公交车坠湖”事件为案例,从文本挖掘与情感分析两个视角对突发公共安全事件网络舆情进行演化研究,较为全面地了解舆情事件进展及走向,并在此基础上,提出了针对突发公共安全事件的舆情治理对策与建议,以期为政府或相关部门预测、调控、治理舆情,维护网络环境及社会治安的稳定提供一定的参考与借鉴。

关键词:网络舆情;情感分析;文本挖掘;演化

中图分类号:C912.63;G206文献标识码:A

DOI:10.13897/j.cnki.hbkjty.2021.0083

0引言

当前,以微博为首的网络平台已成为网络舆情产生、演化的主阵地[1]。因微博具有便捷性、互动性、匿名性、网状性等特点,使得网民的观点、情感与态度具有不同以往的传播深度、广度与速度,无疑加深了网络舆情演变的复杂程度。尤其是在突发公共安全事件的背景下,倘若不能及時了解网民所谈论的话题与情绪态度变化,那么有可能会引发更为严重的网络舆情危机。因此,及时、有效地分析突发公共安全事件网络舆情下网民的关注点与情感态度,成为了把控舆情演化、引导舆情发展、维护社会稳定的重要参考手段,对政府或相关部门合理引导、适时控制突发公共安全事件网络舆情具有一定的现实意义。

现如今,已有学者展开相关探索。一是有关网络舆情主题的研究。Frey[2]基于主题监测与演示系统,通过Kmeans将新闻报道组织成为各代表主题的集群,通过时间的变化,发现网络舆情中的主题热点,便于对其进行分析与追踪。钱爱兵[3]通过分析网络舆情的基本问题,设计了基于主题的网络舆情分析模型。Emma[4]通过分析在线用户对媒体报道的评论,发现网民关注的重点,以此提高政府对于网民干预措施的可接受性及有效性。王晰魏[5]对社交网络舆情主题进行了可视化图谱研究,对于舆情监控平台的使用具有重要的理论及现实指导意义。二是关于网络舆情情感的研究。Turney[6]认为文本是携带情感的关键,副词和形容词是判断舆情情感倾向的重要依据。周立柱[7]重点梳理了基于情感词和基于频繁模式挖掘这两类处理思路,总结了情感分析的成就、不足以及面临的挑战。Chen P[8]等通过对微博情感极性的研究,构建出微博情感词典,并用SVM对其进行情感极性的识别,推动了该领域的发展。王英[9]基于情感维内容,分析了“南昌大学自主保洁微博舆情事件”的情感维度状况,以实现网络舆情事件的舆情预警研判。王兰成、张鑫[1011]对我国网络舆情情感研究进行了综述,为未来研究和实践工作提供了一定的参考借鉴。在上述研究的基础上,本文尝试以舆情生命周期为横向维度,从主题挖掘与情感分析两个视角对网络舆情进行纵向演化研究,使得分析结果更具有针对性、全面性;并针对网民情绪做出了细粒化分析,为情感分析提供一个较新的切入视角;另外,本研究构建了“贵州安顺公交车坠湖”事件领域情感词典,能够对当下情感词典做出一定程度的补充。

1研究方法

1.1突发公共安全事件网络舆情主题识别

LDA模型是一个具有三级层次结构的贝叶斯模型[12]。它可以通过计算主题概率分布与词语概率分布来识别大规模语料库中的潜在主题信息,其对于文本长度没有严格的限制,广泛应用于主题识别研究,且具有不错的主题聚类效果[13]。因此,本文利用LDA解析不同阶段内用户评论所产生的语义关联,以得到隐藏在文字背后的舆论主题。

1.2突发公共安全事件网络舆情情感分析方法

1.2.1情感倾向分析

Word2vec是一个三层神经网络结构,它不会因语料库的数量过高而产生维度爆炸问题,且能够考虑词汇的语义特征,借助上下文语境将词语映射到K维向量。另外,研究证实,Word2vec更擅长处理规模较大的语料数据库[14],适用于本次的大规模预料集。Word2vec包括Skip-gram和CBOW两种模型,前者是通过输入当前词去预测输出该词上下文出现的概率,后者相反,且两种模型均实现了分层Softmax或负采样的优化机制。考虑到微博文本语料库中不免出现新兴词语,而分层Softmax优化机制是使用Huffman树进行映射,若碰到这些词语,则Huffman树的路径往往越走越长,无疑会降低训练效率。综合研究情况,本文应用Word2vec中的Skip-Gram模型,并借助负采样优化机制处理词语,通过划分训练集与测试集来测试最优维度,以得到情感模型的输入。长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,它是在循环神经网络的基础上改进而来,因“门”方法的出现,克服了循环神经网络在处理数据时出现的梯度消失缺陷,确保了前后神经单元具有较好的感知能力,其强大的文本分类功能受到了学者的一致肯定[15]。因此,本文基于Word2vecLSTM构造本次研究的情感倾向分类预测模型。

1.2.2情感强度计算规则

一条文本的情感会因程度词、否定词、句型等而表现不同强度,因此,本文考虑分句的情感极性、程度词、否定词和句型计算评论文本的情感得分。首先,本文基于文献《基于情感分析的移动图书馆用户生成内容评价效果研究》构建的4层程度副词权重词表[16],按照知网程度级别词典进行增补,分别将“欠”“稍”“较”“很”“超”“最”所对应的程度副词赋权0.5、0.8、1.0、1.25、1.75、2,详见表1。

其次,结合否定词词典、知网程度级别词与大连理工情感词汇本体词典,计算微博评论文本中的句子情感强度值F(S)。考虑到句型不同,情感词所表达的情感强度也不一致,如:“祝愿平安。”与“祝愿平安!”,后者明显带有更为强烈的情感色彩。因此,文本对不同句型采取不同的情感强度计算规则(表2),得到最终情感强度分值F(S)[17]。

其逻辑是:首先,依据jieba进行切词,将一句话拆分为由词语组合成的List列表。其次,依据构建好的情感词典查询句中词语是否为情感词,若在词典中查询到该情感词,则提取该情感词在大连理工情感词汇本体中的情感极性与情感强度。同时,以该情感词为基准,向前扫描并获取该情感词前是否含有否定词及其个数、程度副词及其应权重等。针对否定词来说,否定词个数为单数则乘-1,为双数则乘1;针对程度副词来说,若发现程度副词则乘以相对应的权重,得到该句子的情感强度值F(S)。若一个评论文本有多个子句,那么将子句情感分值累加并做四舍五入处理。最后,判定评论文本的句型,做相应的规则计算,得到最终的情感强度F(S)。

1.2.3具体情绪类别分析

本文从“词语级别”将网民情绪细粒化。具体而言,以大连理工情感词汇本体(7大类,21小类)为目标词典,将各阶段词汇映射到目标词典中进行匹配;其次,由于不同情感大类中包含的情感词数量各有所异,因此,为清晰的展现网民的具体情绪变化,本文以各生命周期阶段的始末时间为基准,分类整理各阶段情感词汇,并将具体情绪类别归属到相应大类当中。

2研究过程

2.1案例回顾

“贵州安顺公交车坠湖事件”,事发于2020年7月7日,贵州安顺市西秀区一辆公交车在行驶过程中冲出路边护栏,坠入虹山湖中,造成重大人员伤亡的事件。经安顺市公安机关调查取证,被判定为针对不特定人群实施的危害公共安全的个人极端犯罪,是一场极度恶劣的突发性报复社会事件,属于典型的突发公共安全事件。该事件一经发生,便引起了微博用户的广泛关注,产生了心理健康、社会压力、性别歧视等多个社会焦点话题,用户讨论维度较广。这些舆论话题能够高度概括一定的社会关系和矛盾冲突,说明该事件具有较好的分析价值。同时,据知微数据网站统计,共计有人民网、人民日报、央视新闻等168家重要媒体参与报道,该事件影响力高于98%的社会类事件,是非常具有代表性的突发公共社会安全事件。另外,通过知网检索并未发现有关该案例的演化研究,针对该案例的研究有待填补。

2.2数据来源及处理

首先,通过知微数据研究网站获取有关“贵州安顺公交车坠湖”事件的所有原文链接,形成微博地址链接库;其次,利用Python爬取评论文本,共计106 546条,删除重复、空白、表情、特殊符号、图片、网址、广告、其他事件信息等无效或无关文本后得到94 928条数据样本。

2.3Word2vecLSTM模型构建与测试

为确保预训练的数据样本具有一定代表性,本文按照评论量的1/3实施等差抽取(差额为3),并将抽取到的31 642条文本进行人工情感标注。其中负向文本占40.2%,中性文本占25.1%,正向文本占34.7%。因Word2vec的准确率受维度影响[18],为得到最优准确率,本文测试不同维度下Word2vec的模型效果。同时,为防止LSTM模型过度拟合,本文将Size设置为256,Dropout设置为0.2,Dense设置为3。按8:2比例将已标注数据划分为训练集和测试集,发现Word2vecLSTM模型在110维度下准确率较高,混淆矩阵测试结果如表3所示。

以召回率(Recall)、精确率(Precision)、F1(F1-Score)、准确率(Accuracy)验证该模型的有效性。从表4中可以看出,训练集召回率平均值为0.839,精确率平均值为0.842,F1值的平均值为0.84,整体准确率达到了0.854;测试集召回率平均值为0.848,精确率平均值为0.852,F1值的平均值为0.849,整体准确率达到了0.866。因此,本文认为该模型能够适用于此案例的情感倾向分析。

2.4领域情感词典构建

微博评论中包含有较多的新潮词语,如何有效、全面地识别出其情感极性,构建一个较为全面的情感词典就显得极其重要。因此,本文在前述分词、过滤停用词的基础上,构建突发公共安全事件领域情感词典[19]。首先,计算词语频次,剔除出现频次较低的词语,形成中文评论词集Word group1。其次,将知网(Hownet)情感词典、清华大学情感词典、台湾大学情感词典、大连理工情感词典、BosonNLP情感词典以及网络情感词典中的情感词合并构建成评论词集Word group2。汇总Word group1与Word group2得到突发公共安全事件领域情感词典Word group。然后,选取带有强烈情感且出现频次较多的词语作为种子词语,通过SO-PMI程序得到正负向情感词。最后,以大连理工情感词汇本体库为参照,人工筛选、判断与标注情感词。经过多次人工筛查,将构建好的扩展情感词典作为补充放入大连理工情感词典中,得到包含31 012个词语的突发公共安全事件领域情感词典。

2.5生命周期划分

本文依据日均讨论量和生命周期理论,将该事件划分为四个阶段,如图1所示。横轴代表生命周期四个阶段,纵轴代表评论量。7日-8日为爆发期,贵州安顺公交车坠湖事件一经发生,便引起广大网民的广泛关注与讨论;9日-11日为冷却期,网络舆论数量相较于前一阶段急剧减少,但仍处于发酵周期内;12日-13日为二次爆发期,经警方调查该事件系司机蓄意报复社会,引起了网民的激愤;14日-15日为消退期,该事件网络舆情发酵结束。

2.6突发公共安全事件网络舆情文本挖掘分析

2.6.1基于频次的关键词分析

在剔除连词、介词、表达模糊词语后,得到27 776个词语,总计出现494 567次。其中,出现频次在100以上的词语共计700个,仅占词汇总量的2.5%,但其总频次高达339 475,占总频次的68.6%。而出现频次在10以下的词语总数有23 766个,占词汇总量的85.6%,这些词汇出现总频次为55 199,仅占总频次的11.1%。为直观展示词语的分布特征,本文将f定义为关键词C所对应的词频数,将n设为出现频次为f的关键词总数量。分别对f、n取对数,则此时横坐标为log(f),纵坐标为log(n),并对生成的散点图进行线性拟合,如图2所示。

由线性拟合方程可以看出,R2等于0.753,拟合度较高,较为符合齐普夫分布定律。依据普莱斯定律确定出现频次在130、17、43、8以上的关键词分别为爆发期、冷却期、二次爆发期、消退期的高频关键词,依据自身研究内容所需并结合学科经验将出现频次在5以下的词语设置为低频关键词[20]。在此基础上构建高、低频词云图,见图3、图4。

由图3、图4可知,不同阶段内高、低频词云图存在差异,且关键词数量也各有不同,在一定程度上表明网民关注的热点及情感转移趋势。如爆发期内正向关键词数量最多,说明了网民对该突发事故的祈祷、关切心情;而冷却期内主要映射出网民渴求真相的情绪态度;二次爆發期及消退期内网民强烈激愤与理性诉求共振。具体来看,四个高频词云图既相互联系又相互独立,即“司机”“原因”“希望”“生命”等关键词贯穿事件始终;爆发期内的“平安”、冷却期内的“真相”、二次爆发期内的“报复”、消退期内的“社会”等词表明不同时期的网民关注重点。四个低频词云图关联性较低,在一定程度上展示舆情主题的外延,为相关部门控制舆情的扩散与传播提供参考。

2.6.2基于LDA的主题识别分析

为防止主题模型过度拟合,本文用困惑度辅以肘部法则判断最优主题数,不同阶段的困惑度曲线,如图5所示。由肘部法则可以看出,该事件各阶段最优主题数分别为10、6、10、8。通过对比不同阶段主题特征词发现,当主题数目为4时,能够展现该舆情事件在各个阶段的主要研究主题[21]。为更深层次的分析舆论主题与网民情感的联结关系,本文紧接计算各主题情感得分,即将各阶段评论文本根据其内容所包含的关键词匹配到相应主题后,计算从属同一主题评论文本的情感强度均值,如表5所示。

在爆发期,仅有Topic1情感为正,其他主题情感均为负。结合评论文本将Topic1总结为“祈祷公交车内人员平安”、Topic2为“车内载有未成年,不要让悲剧发生”、Topic3是“质疑与猜测肆起,官方需尽快查证真相”、Topic4为“对遇难乘客深表哀痛”。可见,网民高度关注车内情况,且随着救援结果的公布,网民们的悲痛之情逐渐增多。在冷却期,仅有Topic3携有正向情感,结合主题特征词可将其总结为“致敬救人英雄,盼望早日康复”,Topic1为“媒体的委婉话语引起网民的极度不满”、Topic2为“司机是否应该承担责任”、Topic4为“调查事件原因,发布真相公告”。此时,网民期待真相的焦虑心情发生了偏移与突变,部分网民将负面情绪发泄在媒体之上,并催促相关部门尽快调查事实真相。因不明原由,“司机恶意所为”“司机突发疾病”等多种观点导致事故责任界定成为热议话题。二次爆发期阶段,真相的发布使该事件重新掀起评论热潮,各主题情感得分再度下降。相较于前两个阶段,该阶段的主题特征词呈现出显著的不同,负向情感占据了较大空间,网民情绪不再稳定。可将Topic1总结为“蓄意报复社会的人就是惡魔”、Topic2为“做好公交车司机的健康审查工作极为必要”、Topic3为“解决社会不公、做好矛盾处理”、Topic4为“网民对于本不该丧命的乘客深表悲痛”。在消退期,网民评论量急剧下降,而网民负向情感强度依旧强烈。因此,该阶段的4个主题负向情感数值在这一阶段达到了最低谷。此时,可以将该阶段主题归结为:Topic1“政府应加强社会管理工作,预防过激事件发生”、Topic2“人性的扭曲,恶意的报复,致使无辜的乘客遇难”、Topic3“司机恶行不容社会宽恕”、Topic4“关注社会不公,弱者也会反抗”。同时,也有一部分网民在表达对遇害者及其家庭的惋惜与遗憾之情、对司机恶行的痛恶同时,也呼吁政府及相关部门关注弱势群体,落实切实可行的政策,解决社会矛盾。

2.7突发公共安全事件网络舆情情感倾向分析

2.7.1评论文本情感倾向演化分析

图6中横坐标代表“贵州安顺公交车坠湖”事件的生命周期阶段;纵坐标是情感倾向数量的刻度,以此展示不同情感在其所属阶段的比重。

在爆发期内,正向情感比重较高(达49%),负向情感居于第二位,所占比重为33%,中性情感占比最少,仅为18%。其次,从数量上看,中性情感、正向情感、负向情感数量刻度的最高值也均在爆发期出现,且该阶段的网民评论总数量约为其余阶段总和的3倍之多,呈现出较大的不平衡性。在冷却期内,评论数量大幅下滑,其中,正向情感数量下降最多,从整体上说明了网民对于该公共安全突发事件的关注度急剧下降。从各种情感倾向比例上来看,负向情感占比最大,达到了47%;中性情感占比为44%;正向情感占比最少,仅为9%。二次爆发期内各类情感倾向数量均大幅度增长,中性情感数量达到5 169,增幅近乎3.7倍;正向情感数量达到980,增长约3.3倍;负向情感数量增长最为剧烈,其数值高达12 845,是前一阶段的8倍之多。可以看出网民在该阶段大多持负向情感,致使情感倾向分布极不均匀,正向情感与负向情感之间的不平衡性再度拉大。从各类情感倾向占比上来看,负向情感倾向占比最大,高达68%,是该阶段的主导情感倾向;中性情感倾向的文本占比27%;正向情感的文本占比最少,仅为5%。在网络舆情的冷却期内,仅有少量网民参与评论,不论是中性情感、正向情感还是负向情感,其数量刻度均在该阶段进入最低点。中性情感的文本共计178条;正向情感的文本数量最低,仅为13条;负向情感的文本数量在此阶段最多,为408条。

2.7.2评论文本情感强度演化分析

根据情感强度计算规则,得到该事件的用户情感强度时序变化图。同时根据不同情感强度值的大小将情感强度细分为轻度正向(0,5)、一般正向[5,10)、中度正向[10,15)、高度正向[15,20)、极度正向[20,+∞)与轻度负向(0,-5)、一般负向[-5,-10)、中度负向[-10,-15)、高度负向[-15,-20)、极度负向[-20,-∞)10个维度[22],得到不同类别情感强度柱状图,如图7所示。

结合两类图可以看出,爆发期内网民的正面情感强度波动幅度大于负面情感强度波动幅度,且情绪较为平稳,多以一般正向情感类别为主,舆情始发1小时后,正面情感强度攀升至顶峰,高达81 931。自7日18时到8日23时,正向情感总体趋于平缓。负面情感强度时序曲线在7日16时达到最低,为-10017,且在7日19时、23时,7月8日9时多次落入谷底。直至8日12时,负面情感强度曲线才逐渐平缓。相较于爆发期,冷却期的负向情感强度曲线波动幅度略胜于正向情感强度曲线波动幅度,且不同类别的负向情感数量均高于正向情感的数量,说明该阶段以负向情感为主。值得注意的是,不论正向情感强度曲线还是负向情感强度曲线,其峰值都出现在9日11时,且通过观察9日4时-9日18时两条曲线可知,其发展态势大致相似,在一定程度上反映出,此刻出现了网民观点对峙的现象。二次爆发期内,网民的情感出现大的拐点,在12日17时负向情感陡然升高,其波动程度远大于正向情感强度曲线,且“极度”负向情感达到最高值(为1 349),约是“极度”正向情感的10.5倍。这时网民形成了对“司机报复社会行为”强烈谴责的舆论共识,极端负向情绪制造出了更多的舆论压力。在舆情末期,负向情感强度波动幅度依旧大于正向情感波动幅度。

纵观该事件生命周期内的情感强度演变情况发现,爆发期内正向情感强度数量最多,数值最大。随着事件的推进,正向情感强度的数量和数值均呈下降趋势,尤其是在冷却期,正向情感所剩无几。而负向情感则恰恰相反,自爆发期之后,其数量和数值不断增加,并在二次爆发期时达到顶峰。虽然在舆情冷却期,负向情感数量大幅减少,但仍使情感天平严重失衡,整体情感强度分布极为不均,网民有明显的情感偏向行为,与该事件舆情发展趋势大致相符。

2.7.3具体情绪类别演化分析

通过对各生命周期内具体情绪类别进行数理统计,得到图8。其中横坐标代表具体情感类别及其所属大类,纵坐标代表具体情感类别的数量,数据标签代表该具体情绪在相应生命周期阶段所占的比例。

爆發期内,乐、好、哀、恶所占比重较大,PE高达26.3%,“平安”“安全”是该情感大类中的高频词。事故一经发布,瞬间成为极受关注的重大突发事件,网民纷纷表达祈愿平安的情感倾向,该倾向贯穿于事件始终。冷却期内,乐、好、哀、恶四种情绪所占比重最高,其中PH、NN、NE所占比重较大,分别为19.6%、17%、14.4%。该阶段内情绪类别频次远远低于爆发期,但是不同情绪类别比重和爆发期情绪类别比重类似。二次爆发期内,乐、好、哀、惧、恶情感大类的比重最高,该阶段内情绪数量相较于前一阶段有了较大提升,高权重情绪种类也随之增加。但是总体来看,该阶段舆情热度不如事发之时来的强烈。在消退期内,乐、好、哀、恶情感大类的比重最高,而整体数量都呈下降趋势,且情感类别数量最少。从网民整体演化情绪来看,该事件中一直伴有哀伤、祈愿、敬佩、憎恶、害怕的情感,爆发期以哀伤、祈愿为主,冷却期以悲伤、赞扬为主,二次爆发期以憎恶、贬责、恐惧为主,消退期以同情为主。结合事件发展来看,网民的情绪随着事件的推进不断变化,且与热度走势基本相一致,统一中也存在着特殊性。相较而言,司机蓄意报复社会的恶劣行径更加刺激着网民负面情绪爆发,但是在舆论漩涡中仍有理智观点。

3对策建议

突发公共安全事件网络舆情具有突发性、长期潜伏性、灾难性和广泛性等特性,为避免应对策略的空泛性,本文基于已有研究结论和舆情生命周期,提出舆情应对策略,包括干预时机、处理方式、解决办法等。

(1)根据舆情事件性质选择策略。突发公共安全事件分为自然灾害、事故灾难、公共卫生事件、社会安全事件四类,事故灾难在四类当中发生较为频繁。“贵州安顺公交车坠湖”事件属于报复公共社会性事故灾难,因此相关部门首先要采取“公布、疏导”的办法,在事件发生后,及时跟进事件进展,实时传播真相,同时要倾听群众意见。一方面,可避免谣言传播而导致的舆情扩散,另一方面,有助于抚慰民心,维护社会稳定。

(2)监测网民评论内容,把握网民谈论主题。政府或相关部门应该建立网络舆情主题监测与跟进系统,对隐藏在文字背后的深层次语义主题快速研判,观察网民言论聚焦在哪几个舆论主题上,梳理这些不同舆论主题之间的连接脉络。与此同时,要结合情感分析技术,考虑每一个主题的情感正负及情感强度,以采取不同的治理对策。若发现某个舆论主题情感为负,那么应优先对其合理化引导,通过解析话题矛盾,主动回应网民诉求等措施。待到其情感波动降到可控范围之后,便可任之自由发展走向消散;倘若发现某一舆论话题为正向情感,那么应利用好正面话题,扩大正面话题的影响力,以平衡整体舆论环境。

(3)关注情感倾向转折点及情感强度突变时刻,把握舆情发展趋势适时引导。已有研究表明[23],政府干预的过早反而会吸引更多的网民参与到事件讨论中,进而传播舆情,而在潜伏阶段进行干预则会产生较好的效果。就突发公共安全事件来说,及时发布救援信息,披露事实真相会稳定网民情绪,但是干预方式不当反而会激发大众负面情绪。本案例中民众得知司机恶意报复社会后,反而群情激愤,引发舆论的二次爆发。因此,政府应时刻关注舆情动态变化,找准情感倾向转折点与情感强度突变时刻,以灵活、适当的方式介入,既有利于弱化关键阶段的传播负面影响力,也有利于收集舆情数据,针对性地做出应对措施。

(4)依据网民具体情绪色彩变化,侧重优化舆情干预效果。在网民参与舆情时,情绪结构较为复杂,导致舆情风险就越高。网民情绪得不到确切安抚,网民就越渴求政府的介入。因此,相关部门应以网民情绪为着脚点,公开表达政府态度和立场,及时处理舆情矛盾,以此扩大正面情绪的影响力,遏制谣言传播,降低舆情风险。

4结论与展望

本文从文本挖掘与情感分析两个视角对突发公共安全事件网络舆情做出演化研究,具体如下:以“贵州安顺公交车坠湖事件”为例,将舆情生命周期划分为为爆发期、冷却期、二次爆发期、消退期四个阶段。在文本挖掘方面,以词频分析、主题分析两个方面勘探网民关注的内容;在情感分析方面,以情感倾向、情感强度、具体情绪对网民评论进行剖析。综合以上分析发现,网民关注点大体经历了如下转变,从“祈愿乘客平安”到“要求查明事故真相”到“司机恶意报复社会”再到“填补社会漏洞,加强矛盾处理”。在这一转变过程中,网民情绪逐步由正转负,这其中一直伴随着网民的非理性言论,在谣言的冲击下,整个舆论环境变得更为复杂。尤其是网民在得知事故真相时,其负向情绪全面爆发,负向情感强度达到最低谷,具体情绪以愤怒为主,直至该舆情生命周期结束,该舆论场的情感天平才得以平衡。在此基础上,政府或相关部门应注重突发公共安全事件网络舆情的“公布、疏导”,既要监测网民评论内容,把握网民谈论主题,也应关注情感倾向转折点以及情感强度突变时刻,依据网民情绪色彩的变化进行舆情的引导、调控与治理。同时,及时公布舆情信息、听取民意,提升自身对于突发公共安全事件的应急处理能力也是必不可少的方面。

由于网民评论属于匿名性的,因此不排除部分网民根据自己的偏向做出不符合实际情况的评价,而且本研究情感分析结果的准确度在一定程度上取决于深度学习模型的准确性和情感词典的质量,后续将选用准确率更高的文本分析方法提升情感分类的准确性,并从更多平台丰富数据量,增加对研究问题的分析角度,以期能够为该领域做出一些贡献。

参考文献

[1]陈娟,刘燕平,邓胜利.政务微博辟谣信息传播效果的影响因素研究[J].情报科学,2018 (1):91-95,117.

[2]Frey Allan J.Monitoring the news:A TDT demonstration systems[C].In the Proceeding of HLT2001.San Diego,CA,2001:18-21.

[3]钱爱兵.基于主题的网络舆情分析模型及其实现[J].现代图书情报技术,2008(4):49-55.

[4]Emma,Louise,Giles,et al.Capturing Public Opinion on Public Health Topics:A Comparison of Experiences from a Systematic Review,Focus Group Study,and Analysis of Online,User-Generated Content[J].Frontiers in Public Health,2015,3:200.

[5]王晰巍,贾若男,韦雅楠,等.社交网络舆情事件主题图谱构建及可视化研究——以校园突发事件话题为例[J].情报理论与实践,2020 (3):17-23.

[6]Turney P D.Thumbs up or Thumbs down?:Semantic Orientation Applied to Unsupervised Cl assification of Reviews[C]//Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2002:417-424.

[7]周立柱,贺宇凯,王建勇.情感分析研究综述[J].计算机应用,2008(11):2725-2728.

[8]Chen P,Fu X,Teng S,et al.Research on Micro-blog Sentiment Polarity Classification Based on SVM[J].2014,8944:392-404.

[9]王英,龚花萍.基于情感维度的大数据网络舆情情感倾向性分析研究——以“南昌大学自主保洁”微博舆情事件为例[J].情报科学,2017 (4):37-42.

[10]王兰成,陈立富.国内外网络舆情演化、预警和应对理论研究综述[J].图书馆杂 志,2018 (12):4-13.

[11]张鑫,刘鑫雅,张雅文.我国网络舆情识别的研究脉络、核心主题与发展趋势分析[J].河北科技图苑,2021 (3):90-96,89.

[12]马秀峰,郭顺利,宋凯.基于LDA主题模型的“内容-方法”共现分析研究——以情报学领域为例[J].情报科学,2018 (4):69-74.

[13]王洪伟,高松,陆頲.基于LDA和SNA的在线新闻热点识别研究[J].情报学报,2016 (10):1022-1037.

[14]曾润喜,徐晓林.网络舆情突发事件预警系统、指标与机制[J].情报杂志,2009 (11):52-54,51.

[15]Zhang X,Zhao J,Lecun Y.Character-Level ConvoLutional Networks forText classification[C] //Neural lnformation Processing Systems.MIT Press,2015 (6):649-657.

[16]王晰巍,杨梦晴,韦雅楠,等.基于情感分析的移動图书馆用户生成内容评价效果研究[J].图书情报工作,2018 (18):16-23.

[17]李勇,蔡梦思,邹凯,等.社交网络用户线上线下情感传播差异及影响因素分析——以“成都女司机被打”事件为例[J].情报杂志,2016 (6):80-85.

[18]熊富林,邓怡豪,唐晓晟.Word2vec的核心架构及其应用[J].南京师范大学学报(工程技术版),2015(1):43-48.

[19]郭顺利,张向先.面向中文图书评论的情感词典构建方法研究[J].现代图书情报技 术,2016(2):67-74.

[20]虞秋雨,徐跃权.共词分析中高频词阈值确定方法的实证研究——以新冠肺炎文献高频词选取为例[J].情报科学,2020 (9):90-95.

[21]李秀霞,宋凯,赵思喆,等.国内外教育大数据研究现状对比分析[J].现代情报,2017 (11):125-129.

[22]蒋知义,马王荣,邹凯,等.基于情感倾向性分析的网络舆情情感演化特征研究[J].现代情报,2018 (4):50-57.

[23]冯兰萍,钱春琳,庞庆华,等.基于三方博弈模型的突发事件网络舆情政府干预时机分析[J/OL].情报理论与实践:1-14[2021-06-25].http://kns.cnki.net/kcms/detail/11.1762.g3.202104 02.1132.002.html.

作者简介:孙宗缘(1996),男,曲阜师范大学传媒学院图书馆学硕士研究生在读。研究方向:网络舆情、信息计量。

马秀峰(1963),男,曲阜师范大学继续教育学院教授。研究方向:信息咨询与科学计量。

李奇(1997),女,曲阜师范大学传媒学院图书馆学硕士研究生在读。研究方向:信息计量。

(收稿日期:20170708责任编辑:马玉娟)

Analysis on the Evolution of Network Public Opinion on Public Security

EmergenciesBased on Text Mining and Sentiment Analysis

Sun ZongyuanMa XiufengLi Qi

Abstract:Taking the case of “Bus fell into lake in Anshun Guizhou” as an example, this paper studies the evolution of online public opinions on public security emergencies from two perspectives of text mining and sentiment analysis. Aiming to comprehensively understand the progress and trend of public opinion events, the paper puts forward countermeasures and suggestions for public opinion management of public security events, so as to help the government or relevant departments to predict, regulate and manage public opinions, which is of certain significance to maintain the stability of network environment and social order.

Keywords:Online Public Opinion; Emotion Analysis; Text Mining; Evolution

猜你喜欢
文本挖掘演化情感分析
数据挖掘技术在电站设备故障分析中的应用
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
基于LDA模型的95598热点业务工单挖掘分析
在线评论情感属性的动态变化
从《远程教育》35年载文看远程教育研究趋势
《演化》
突发事件网络舆情的演化规律与监控
慧眼识璞玉,妙手炼浑金
耗散结构视阈下的科技招商与科技服务网络建设研究