情感与主题协同分析的突发事件舆情图谱构建

2023-05-18 13:14代婧琦李宗敏
关键词:坠机词典突发事件

代婧琦,赵 晔,李宗敏

(1.中国民用航空飞行学院 经济与管理学院,四川 广汉 618300;2.四川大学 商学院,四川 成都 610065)

当前,世界百年未有之大变局加速演变,重大突发事件频发,国际国内形势严峻复杂,严重威胁着我国公共安全。新型社交网络平台的出现,颠覆了传统的舆情传播模式,突显出极强的互动性和即时性,成为当前受众最广、用户量最大的信息发布平台和获取渠道。其中,新浪微博是目前影响力最为广泛的网络社交媒体之一。2019年10月,党的十九届四中全会把舆论引导纳入国家治理体系和治理能力建设总体格局。如何科学应对和处理重大突发事件网络舆情,已成为总体国家安全观下亟待研究的关键问题。

近年来,重大突发事件舆情研究受到了国内外学者的广泛关注。关于用户情感分类的研究,主要集中于基于情感词典的无监督方法和采用机器学习及深度学习的有监督方法两大类。在情感词典方面,国外较为成熟的情感词典主要有General Inquirer[1]和SentiWordNet[2]两种。国内常用的则有知网HowNet情感词典[3]、大连理工大学情感词典[4]和台湾大学NTUSD简体中文情感词典[5]等。对文本内容情感进行分析常采用的机器学习和深度学习方法,主要有长短时记忆网络模型(LSTM)[6]、双向长短时记忆网络模型(Bi-LSTM)[7]、朴素贝叶斯分类器[8]、支持向量机(SVM)[9]等。

此外,学者还主要关注了重大突发事件网络舆情的生命周期划分。目前学界对突发事件网络舆情的阶段划分没有统一定论,但较为常见的是舆情传播三阶段[10]、四阶段[11]、五阶段[12]和六阶段模型[13]。舆情传播阶段的划分对于深入挖掘舆情传播中的有效信息有积极作用,大多学者对于舆情传播周期的划分都是基于生命周期理论展开的,而针对空难事件的舆情周期划分研究较少,一般以三阶段法进行划分[14]。

随着信息技术的不断发展,数据可视化逐渐引起学者的关注,而舆情图谱构建在重大突发事件网络舆情研究中也得到了一定的关注。其中,将特定领域的知识图谱用于复杂问题分析与决策场景,在自然语言处理、预测分析、问题识别等领域取得了一定的效果。而情感演化图谱是在社会网络分析的基础上加入情感计算得到情感动态变化的分布图,可以用于分析舆情事件群体情感分布和传播演化规律。国外学者利用情感演化图谱进行情绪预测[15]、情感时序演变规律探究[16]、社会网络特征分析[17]等。国内学者主要集中于对传播主体[18]和传播路径的时空演化规律研究[19]等方面。总之,通过舆情图谱构建,可以描述重大突发事件舆情发展的当前状态,探究舆情传播与演变的内在动因,为预测其舆情的未来发展趋势提供参考。

2022年3月21日,中国东方航空集团有限公司一架航班代号为MU5735的客机在执行“昆明-广州”航班任务时,于梧州上空失联。随后中国民用航空局发出公告,确认该飞机坠毁。随后一周内,关于MU5735的热搜话题引发公众激烈讨论,导致相关舆情快速传播。新浪微博庞大的用户数量、开放的讨论空间使得空难事件舆论演化更加错综复杂,网民情绪也随着热搜话题和时间推进而波动变化,为重大突发事件舆情管理增加了难度。因此,以“东航MU5735坠机事件”为例,探究重大突发事件舆情演化规律和网民情感变化情况,分析基于情感与主题的时空动态演化差异,构建重大突发事件舆情图谱,进而全面还原事件发展态势和公众情感认知变化,以期为政府相关部门制定舆情引导措施提供理论依据和实践参考。

1 情感与主题动态协同分析方法

1.1 重大突发事件情感词典构建

为了对重大突发事件舆情情感与主题进行动态协同分析,首先需要构建其情感词典。自然语言处理是计算机科学、信息工程和人工智能的一个子领域,通过计算机进行编程以处理和分析大量人类(自然)语言数据。SnowNLP是基于Python的情感分析技术,可用于量化评论的情感积极性,通常将情感倾向量化为0~1 之间的值,也可以视为概率。该值越高,说明微博情绪为正或热门评论为积极的可能性越高。调用Python中的SnowNLP对案例数据进行情感积极性分析,分析结果示例如表1所示。SnowNLP的情感分析结果为后续情感类型的细致划分和情感词典的构建提供了分类基础。

表1 情感分析结果示例

根据情感分析结果,通过基准情感词典、灾难事件词典和特征领域词典3种词典的挖掘与融合,形成针对“东航MU5735坠机事件”的重大突发事件情感词典。

1.1.1 基准情感词典

通过对比分析知网HowNet情感词典、大连理工大学情感词典和台湾大学NTUSD简体中文情感词典3种目前较常见的中文情感词典,发现大连理工大学的情感词汇本体库分类较为细致,词汇量丰富,故选择其作为探究重大突发事件情感词典的基准情感词典。该词典对词汇的情感类型进行了细致划分,共分为7大类、21小类。7个情感大类包括乐、好、怒、哀、惧、恶、惊,而21个情感小类分类比较细致,可在大连理工大学情感词汇本体库中直接查询。

1.1.2 灾难事件词典

“东航MU5735坠机事件”作为灾难事件的一种,具备灾难事件的诸多共性。因此,在基准情感词典的基础上,通过分析案例数据中提取的灾难事件相关情感词汇并参考基准词典的分类方法,对情感词典进行扩充,示例如表2所示。其中,按照《情感词汇本体的构造》所述,情感强度按由小到大分为1、3、5、7、9这5档。同时,每个词对应一个极性,0代表中性,1代表褒义,2代表贬义,3代表兼有褒贬两性。

表2 灾难事件词典示例

1.1.3 特征领域词典

为更加全面地反映“东航MU5735坠机事件”网络舆情的网民情感特征,还需进行特征领域词典挖掘。具体操作步骤为:①对该事件待分析的微博文本进行分词、筛选、统计;②提取基准情感词典和灾难词典中缺少的词汇,并补充到其中;③对最新收录的词汇进行情感的人工标注,完善特征领域情感词典。

通过“东航MU5735坠机事件”不同舆情阶段微博热搜话题及评论的分词与词频统计,共得到482个高频词汇。筛选出高频词汇中的情感词,再将这些高频词汇与前两个词典进行对比,筛选出未被收录的特征领域情感词汇,最终共提取出231个扩展情感词汇。特征领域词典示例如表3所示。

表3 “东航MU5735坠机事件”特征领域词典示例

综上,在大连理工大学基准情感词典的基础上,针对灾难事件进行情感词典扩充,并结合特征领域词典,进而形成基于特定领域的灾难事件情感词典。

1.2 主题文本挖掘方法

最常见的主题文本挖掘方法是LDA(latent dirichlet allocation)主题模型[20]。LDA是机器学习中的生成模型,主要用于研究文档主题的产生过程,包含文档、主题和词汇3层结构,被称为3层贝叶斯概率模型。采用基于Relevance公式的LDA主题模型对主题文本进行分类,主要操作步骤为:①在Dirichlet(α)的分布中生成针对某一文档m的主题分布θm,然后生成文档m中的每个文字,根据θm对第n个字分配其所在词的一个主题Z(m,n);②在Dirichlet(β)的分布中生成K个主题-文字分布φk,选择编号为Z(m,n)的主题-文字分布φZ(m,n),并根据这个分布生成文字W(m,n)。Relevance公式为:

(1)

在LDA主题数量的选择中,文献[20]根据困惑度(Perplexity)确定主题数量。困惑度是指在文本分析中训练出的模型识别某些文档所属主题的不确定性,其计算方法如式(2)所示。因此,困惑度数值越低,不确定性越小,则聚类结果越好。一致性(Coherence)则是衡量的是每个主题下出现的高频词在语义上是否保持一致,其计算方法如式(3)所示[21]。因此,一致性数值越大,主题分类效果越好。

(2)

(3)

1.3 舆情图谱构建方法

知识图谱是一种描述现实世界中各种概念及其相互关系的结构化语义知识库,其本质上是一种关系网络,可以将“实体-关系-实体”和“实体-属性-属性值”这两种基本组成单元的知识转化为图结构,并通过将不同种类信息集结在一起形成的关系网络实现对现实世界结构化语义的描述。而情景图谱主要用数据描述事件和事件对象的状态与特征,用事件之间的关系描述事件潜在的演变路径,用事件对象的特征和事件本身所处的环境特征来展示演变路径。参考张海涛等[22]对重大突发事件情景图谱构建的方法,构建“东航MU5735坠机事件”的舆情图谱,构建流程如图1所示。

图1 重大突发事件舆情图谱构建流程

2 数据采集及处理

2.1 数据采集及预处理

“东航MU5735坠机事件”百度指数热度走势及舆情生命周期划分如图2所示,可以看出2022年3月21日至3月31日事件热度波动最明显,因此选取该时间段作为研究时段。

图2 “东航MU5735坠机事件”百度指数热度走势及舆情生命周期划分图

采用Python软件网络爬虫技术对新浪微博中的海量情感文本进行爬取,主要包括话题内容、发布时间、阅读次数、讨论次数、主持人用户昵称、微博原文、评论内容等。通过数据检索,共获取335条热搜话题,剔除重复与不实热搜,剩余210条,涉及数据共计103 192条。将微博原文、发表时间、用户评论等以结构化形式保存在电子表格中,对缺失数据、无关数据和异常数据进行删除处理,再将清洗后的数据以CSV格式储存。

2.2 舆情周期划分

结合百度指数热度趋势和现有对空难事件周期划分的研究,将“东航MU5735坠机事件”舆情生命周期主要划分为3个阶段:①2022年3月21日,央视新闻官方微博发布消息,东方航空公司MU5735航班执行昆明-广州任务时,在广西梧州市上空失联并坠毁,机上共有123名乘客和9名机组人员。该消息发出后,立刻在微博平台引起了广泛的关注,使得该事件热度迅速达到顶峰,标志着舆情进入了爆发期。②3月23日,第一部黑匣子被找到,为驾驶舱语音记录器,事件热度呈逐渐下降趋势,但保持了较高讨论度,标志着舆情进入蔓延期。③3月27日,第二部黑匣子被找到,话题讨论转移到飞机失事原因调查及东航集团的赔付工作等内容,事件热度趋势进一步下降并趋于平稳,也标志着舆情进入衰退期。

2.3 舆情主题分类

困惑度和一致性与主题数的关系曲线如图3所示,可知困惑度在主题数为4时数值最低,一致性在主题数为4时数值最大,因此取主题数K=4。借鉴QU等[23]的方法,将“东航MU5735坠机事件”舆情周期内相关热搜话题划分为信息类、行动类、意见类和情感类4类主题。信息类主要是关于事件进展的情况通报,如MU5735坠机详细过程;行动类主要是关于发布救援行动相关的内容、公布行动开展情况,如民航局应急机制启动;意见类是针对事件相关内容表达主体意见和进行知识普及,如飞机黑匣子能记录哪些信息;情感类则是涉及主流媒体引导公众进行情感表达的相关话题,如为MU5735遇难者默哀。通过热搜话题主题分类,得到信息类主题97条、行动类主题47条、情感类出题35条和意见类主题31条。

图3 困惑度和一致性与主题数关系曲线

对舆情周期内各类话题在不同时间出现的频次和累计频次进行统计,具体结果如图4所示,可以看出“东航MU5735坠机事件”相关讨论话题的主题类型在舆情周期的不同阶段具有不同的倾向性,并且不同类型话题数总量也存在差异。

图4 舆情主题在舆情周期内的分布情况

3 数据结果分析

3.1 舆情周期内情感分布

根据“东航MU5735坠机事件”舆情发展特征对舆情周期进行划分,发现该舆情事件由爆发期、蔓延期和衰退期3个阶段组成。将清洗后的文本和评论数据放入构建的特定突发事件情感词典中进行情感识别,得到舆情周期内各阶段情感分布情况,如图5所示。

图5 舆情周期内各阶段情感分布

从图5可以看出,在“东航MU5735坠机事件”的舆情发展周期内,网民情感分布随舆情阶段演进而不断变化。爆发期的舆情情感较为复杂,各类情感分布差异不是特别明显。排名前三的情感分别为“好(31%)”、“哀(25%)”和“惊(21%)”,三者共占情感分布的77%。进一步对该阶段情感进行细化分类,“好”的情感主要包括了赞扬、祝福和相信,结合词典内容分析,展现出网民在该阶段对相关报道表现出极大的关心,以及对旅客生还的祈祷和祝福。“哀”对应的情感包括了悲伤、思和失望,其中悲伤情感占“哀”类情感的80%,说明网民在获取“东航坠机”相关新闻消息后主要表现出对这一事件的悲伤与惋惜。“惊”的部分全部表现为“惊讶”,是发生空难事件后舆情爆发期较为常见的情感倾向,因为该阶段网民对此类重大突发事件的发生会产生惊讶、不相信等情绪。

蔓延期的舆情情感分布较爆发期发生了一定变化,尽管“好”、“哀”和“惊”依旧占据了前三类情感,但是占比却不相同。“好”的占比有所上升,变为39%;“哀”进一步增多到31%;而“哀”的情感在本阶段有所下降,变为12%。在每种情感倾向的细分领域,各种情绪的占比也产生了变化。结合话题类型的分类结果分析,该阶段信息类和行动类话题较多,网民情绪表现为对救援行动的赞扬与相信。而随着官方宣布坠机事件无人生还等信息的发布,网民“哀”类情感主要表现为悲伤情绪和对逝者的思念。此外,对于其他类型的情感,如“怒”“惧”“恶”等,在本阶段均有体现,展示出网民情感分布的多样化。

衰退期的舆情情感分布则主要以“哀”为主,占所有情感的47%,表明网民已经基本接受无人生还的事实,多表达为对该事件的悲伤情绪。情感“好”在衰退期依旧保持了较高的占比,多是因为网民对官方行动和发布信息较为肯定而产生的情绪。而“怒”的情感主要包括了“急切(6%)”、“质询(2%)”和“愤怒(1%)”,在3个阶段中占比最高。结合文本内容分析,主要原因包括了网民对事件进展情况公布的急切期盼,对坠机原因的质询和对相关负面舆情的愤怒情感。此外,情感“惊”“惧”“恶”“乐”共占全部情感分布的13%,总体上较少。值得一提的是,“乐”的情感占比由爆发期和蔓延期的1%上升到该阶段的2%,主要表现为“安心”这一情绪,可能是因为网民对搜救行动、信息发布而感到踏实、信任的感受。

总结来说,该事件舆情周期内的情感分布在不同阶段会有所不同。情感“好”在舆情周期内先升后降,情感“哀”从爆发期到蔓延期再到衰退期逐渐增加,而“惊”“惧”“恶”的情感分布随着舆情周期演进逐渐降低。总之,该重大突发事件在其舆情周期内的情感分布较为复杂,展现出网民对事件本身和相关救援行动的不同情感表达。

3.2 舆情周期内主题-情感分布

对重大突发事件舆情主题与情感进行协同动态分析,需要进一步梳理不同类型话题主题与情感分布情况。将4种类型话题所对应的文本和评论数据输入构建的特定突发事件情感词典中进行匹配与分析,结果如图6所示。

图6 舆情周期内各类主题情感分布

从图6可以看出,4类主题对应的网民情感表现具有较大差异。①信息类话题主要关注“东航MU5735坠机事件”相关信息发布,是较为客观的事件进展报道、实况转播、内容呈现等。该类型话题网民情感主要以“哀”和“怒”为主,分别占47%和34%。这说明针对信息类话题,网民主要表现出对发生该事件的悲伤情绪和对事件进展的急切关注。由于信息类话题多是事件信息的客观报道,其他几种情绪占比相对较少。②行动类话题主要发布与该事件救援行动相关的内容,向公众及时公布行动进展情况。此类话题情感中,“好”“哀”“惊”分别占43%、33%、11%,三者共占所有情感的87%,是行动类话题的主要情感分布。其中,网民在情感“好”中主要表现出“赞扬”“祝愿”“相信”等情绪,表达了社会公众对救援行动的正面肯定。③意见类话题则是针对事件相关内容表达主体意见和进行知识普及。此类话题具有客观性和科普性,情感分布也相对均匀。“哀”“怒”“惊”“好”4种情感占比均在20%左右,整体呈现出多样性分布。在网民情感的二级分类中,主要是“惊吓”和“悲伤”,呈现出网民对该类话题内容的负面情感。④情感类话题主要涉及对该事件中遇难者的哀悼、对遇难者家属的尊重、对相关行为的呼吁等,是主流媒体引导公众进行情感表达的相关话题。该类型主题的情感主要为“哀”“好”“怒”,分别占45%、31%、10%。网民情感以悲伤为主,与文本内容中“遇难者”“哀悼”等关键词对应起来。

总体而言,“哀”在各主题类型中的占比均较高,说明网民对该事件的情感主要是负面的“哀”。积极高效的救援行动得到了网民的肯定,表现为“好”的情感在行动类话题中占比最高。而信息类话题中,情感“怒”相对于其他几种话题类型占比更高,可能是发布的信息内容更易引起网民急切情绪的表达。“惊”“怒”“恶”“乐”总体分布较少,与前述舆情周期内情感总体分布情况一致。

3.3 基于情感-主题动态协同分析的舆情图谱构建

该舆情图谱展示了“东航MU5735坠机事件”发生后,4类舆情话题(事件)、各类话题的情感分布(属性和属性值)、各类话题的发布主体(事件的参与对象)、各类话题在不同舆情时期的数量占比(事件所处的环境)之间的联系。通过舆情图谱,既可以对事件的状态、事件参与对象的特征和事件所处环境特征进行清晰描述和可视化表达,又可以依赖于事件对象特征和事件环境特征反映该事件舆情的发展趋势,进而帮助分析重大突发事件舆情可能的演变路径。基于情感-主题动态协同分析,构建“东航MU5735坠机事件”舆情图谱,如图7所示。

从图7可以看出,“东航MU5735坠机事件”舆情包括了信息类、行动类、意见类和情感类4种话题。事件的参与对象主要是人民日报、央视新闻、中国新闻网、新华社等主流媒体,图中也展示了各参与对象在该事件中的参与频次。事件的属性和属性值反映出各类型舆情主题与情感之间的分布关系及发展趋势,借助颜色由深到浅反映此类情感在不同主题中的占比大小,可进一步分析不同情感在不同主题的分布情况。而事件所处的环境也表征了各类话题数量在舆情所处不同时期的占比情况及发展动态。

4 讨论与分析

4.1 不同周期-情感分布的舆情引导

前述结果表明,该事件的舆情发展过程呈现出典型的三阶段分布,即爆发期、蔓延期和衰退期。网民的情感主要伴随主流媒体发布的相关新闻报道而产生变化,并在某些关键节点引发群众情感共鸣。

基于特定突发事件舆情演进生命周期的情感挖掘结果,并结合舆情传播特征和主题演化,舆情管理相关部门及主流媒体可以在不同周期对网民情绪进行合理引导。首先,针对重大突发事件舆情特征,相关部门及媒体应及时确定舆情引导的关键节点,进而在关键节点之前适当介入,通过舆情监测、新闻报道、公开辟谣等手段抑制网民负面情绪的大规模蔓延。其次,关注舆情演化周期内引发公众情感转变的关键事件,对其产生原因、事件类型等进行分析,及时予以舆情引导或给出相应对策,防止舆情事件导致的公众情绪失控。最后,还应重视舆情周期内情感发展的关键趋势,关注舆情发展周期的情感演化,针对舆情发展过程中可能出现的情感走势进行预判并给出解决预案。

4.2 不同主题-情感分布的舆情疏导

前述结果表明,在“东航MU5735坠机事件”的舆情主题-情感分布中,“哀”在各主题类型中的占比都较高;“好”在行动类话题中的占比最高;在信息类话题中,“怒” 的占比要比其他几种话题类型高;而意见类话题情感分布则相对较为均匀。

舆情监管相关部门和主流媒体应根据不同舆情主题类型做出有针对性的、及时的、高效的舆情疏导。针对信息类主题,应按照信息发布的真实与公开原则,及时更新事件进展,对引发不良舆情的事件做出回应与补救措施,对网民负面情感进行疏导。针对行动类主题,建议相关部门在重大突发事件发生后及时发布应急举措与方案,通过高效的应急行动安抚公众情绪,同时对已发生的舆情事件进行行动上的补救,安抚网民情绪。针对意见类主题,应对相关舆情做出及时回应,通过召开新闻发布会等予以意见回复,响应公众诉求。针对情感类主题,对引发网民负面情感的相关话题进行转化引导,实现情感疏导;对积极情感反馈进行推广,增强网民信心。

4.3 不同情感-主题演化图谱的舆情监管

从“东航MU5735坠机事件”的舆情图谱可以看到,事件的参与对象,即主流媒体,在每类主题中的参与程度都不相同,主题本身所关联的情感分布也并不相同。而事件所处环境(即舆情周期)中各类话题的数量分布也呈现出不同特征。

在厘清舆情事件、事件参与对象、事件的属性及属性值、事件所处环境四者之间关系的基础上,可以分析不同主题、不同舆情阶段和不同网民情感之间的联系与发展趋势,进而从主题与情感两方面对重大突发事件网络舆情进行监管。首先,相关部门和主流媒体可以借助事件本身丰富重大突发事件情感词典,形成相关舆情危机处理预案,谨防此类舆情再次发生。其次,从舆情图谱中分析舆情传播的关键节点和关键事件,做好网民情感疏导与舆情引导。对于可能发生的衍生事件,及时进行干预,避免产生不良舆情和负面网民情绪。最后,针对舆情图谱中负面情感分布较多的主题类型进行重点监督与管理,防止因为主流媒体的不当言论或不实新闻造成公众负面情感的聚集或二次爆发,并对情感-主题演化实行动态持续监测,防止舆情二次发酵。

5 结论

(1)在理论层面,在大连理工大学基准情感词典的基础上,创新性地对灾难事件特征领域词典和情感进行了扩充,形成了特定领域的灾难事件情感词典,并借助基于Relevance公式的LDA主题模型对主题文本进行分类,以不同类型话题为事件,用数据描述事件对象的状态与特征,用属性及属性值描述事件的情感分布状况,用事件对象的特征和事件本身所处的环境特征来展示演变路径,构建了可视化的主题-情感动态协同分析舆情图谱。

(2)在实践层面,选择“东航MU5735坠机事件”进行案例分析,发现该事件舆情情感在不同舆情周期和主题下呈现出复杂多元化的分布,网民情感在不同舆情周期内主要伴随主流媒体发布的相关新闻报道产生变化,并在某些关键节点引发群众情感共鸣。针对该事件的不同主题内容,网民会产生正面或负面两种截然不同的情绪,但主要集中于“哀”“好”“怒”3种。此外,所构建的可视化舆情图谱可以为舆情监管部门和主流媒体对相关事件的舆情引导与监管提供借鉴。

(3)研究也存在一定的局限性,仅选取“东航MU5735坠机事件”作为单一案例进行分析,缺乏对类似重大突发事件的多案例对比研究;主要选取主流媒体的热搜话题进行数据挖掘与分析,未考虑自媒体发布的相关话题。在未来的研究中,将结合多个话题对该类型舆情事件进行深入挖掘,并考虑采用更加优化的情感词典构建方法和主题分类方法,进一步验证基于情感与主题动态协同分析的重大突发事件舆情图谱构建方法和图谱结果。

猜你喜欢
坠机词典突发事件
从波音公司坠机事故看安全与效益
米沃什词典
埃塞坠机,157人遇难
评《现代汉语词典》(第6版)
词典例证翻译标准探索
突发事件的舆论引导
清朝三起突发事件的处置
突发事件
《胡言词典》(合集版)刊行
你会如何应对突发事件