基于SA-DTM 模型的突发公共卫生事件舆情演化分析

2022-11-18 07:44李博诚张云秋
中华医学图书情报杂志 2022年4期
关键词:猪瘟文本情感

陈 妍,李博诚,张云秋

互联网及网络社交媒体的快速发展,大大降低了公众发表网络言论的门槛,越来越多的网络用户选择在网络社交平台表达个人意见和情感倾向。微博作为其中的代表,因传播速度快、社会影响力大而逐渐成为用户信息传播及信息获取的重要渠道[1]。突发公共卫生事件因关乎公众切身利益,往往持续时间久,关注人数多,而且极易触动公众的敏感神经,当事件被爆出后,公众因担忧自身生命健康安全而产生强烈的恐慌、愤怒等消极情绪,在网络用户中影响巨大[2]。而这些通过网络传达出的情感易形成社会舆论,会影响事件的发展及相关个人或组织的决策,甚至形成新的突发事件[3]。

近年来,信息技术的发展,尤其是文本挖掘相关技术和方法的日渐成熟,为突发公共卫生事件舆情的监控及舆情规律的呈现提供了新的解决思路。这些技术和方法可以帮助相关决策人员深入挖掘网络中用户生成的大量碎片信息[4],刻画事件的演化过程和公众情感的波动情况,实时把控用户情感状况,减少不良舆论对社会的负面影响[5]。

1 相关研究

1.1 主题分析研究现状

在众多对文本进行分析的方法中,主题模型(topic model)近些年逐渐成为研究热点。主题模型是以非监督学习的方式对文集的隐含语义结构进行聚类的统计模型[6],因其在文本处理和分析方面的卓越性能和优异表现,被自然语言处理方面的研究者广泛用于文本分析。如有学者使用LDA 模型对“立顿毒茶包”事件进行了舆情演化分析[7];还有学者对公众针对共享单车政策修订的意见反馈采纳情况进行了研究[8];有学者提出一种由LDA 和支持向量机模型衍生而来的主题模型进行产品评论文本特征的提取,并进行主题聚类[9];还有学者提出一种面向产品评价信息文本进行文本特征提取的PMI-TFIDF模型,并与传统的点互信息法进行了比较分析[10]。

1.2 主题-情感协同分析

目前,已有相关研究对主题和情感的协同分析进行了探讨。国内有学者通过将文本情感与用户画像信息纳入到图模型,实现了基于微博的主题和情感的同步分析[11];有学者提出短文本情感主题模型SSTM,认为情感是依存于主题的[12];有学者根据微博评论的特点,提出了一种基于主题-情绪挖掘模型的情感分类方法[13];还有学者使用机器学习和情感计算对微博文本进行主题和情感综合分析[14]。国外有学者基于推特数据集,通过对主题和情感的综合分析提升在线零售业服务[15]。

综上所述,现有主题分析研究未能考虑在时间线上某一时间片内的文本会受到前后文本的影响,导致呈现出的主题存在一定的偏移。同时,用户情感也具有一定的动态性,用户在短期内的情感波动往往与某一具体的热点讨论话题有关,单独进行情感分析而忽略其所依附的主题,会降低情感的指向性。鉴于此,本文基于新浪微博平台,通过动态主题模型提出综合用户讨论主题和情感变化的SA-DTM 分析模型,以更好地探究突发公共卫生事件网络舆情演化规律,为应急管理与决策服务。

2 研究框架与方法

2.1 总体框架概述

本文提出的SA-DTM 分析模型框架如图1 所示,主要包括动态主题分析、情感分析和主题-情感可视化分析3 部分。

图1 SA-DTM 分析模型框架

2.2 动态主题分析

2.2.1 LDA 主题模型

LDA 主题模型是一种基于词袋思想的无监督贝叶斯模型。该主题模型认为,一篇文档是由一组单词所构成的“词袋”结构,而其中的词没有先后顺序。Beta 分布是二项式的共轭概率分布,而LDA模型中所使用的狄利克雷(Dirichlet)分布则是多项式分布的共轭概率分布。通常情况下,在LDA 模型中生成一篇文档的方式可以通过以下几步来实现:从Dirichlet 分布α中抽取出第i个文档的主题分布θi;从主题的多项式分布规律θi中抽取生成属于第i个文档中第j个词的特定主题zi,j;从Dirichlet分布β中抽取生成属于主题zi,j的词语分布模型ϕzi,j;从词语的多项式分布ϕzi,j中采样,并最终抽取生成我们想要得到的词语ωi,j。

2.2.2 动态主题模型

动态主题模型是一种以LDA 为理论基础的主题模型,能够接受按照时间线排列好的语料信息,输出在时间线上的不同时期文档在主题上的变化,从而显示在时间线上的某个时间片中人们主要讨论和关注的主题,其中主题是由关键词及其权重的组合表示的,在每个时间片上的主题数均为K个。

LDA 模型是以α和β为超参数初始化的Dirichlet分布函数,而在本文的动态主题模型中计算权重值ω=Vt/Vt-1,其中Vt和Vt-1 分别代表当前时间片和前一个时间片的文档中单词的个数,当前时间片的超参数α和β等于前一个时间片的α和β乘上权重ω。而在第一个时间片中初始化这两个超参数时,通常情况下把这两个参数初始化为0.01 和50/K,随后的时间片则按照一定的规律进行计算[16]。

通过分析可知,区别于传统的LDA 主题模型在整个主题生成过程中保持超参数不变,动态主题模型的超参数在生成过程中不断调整与变化,并且充分考虑了上下文及前后时间片对主题聚类的影响,因此它更适合应用于持续时间长、事件变化多的突发公共卫生事件。

2.3 情感分析

情感分析也称意见挖掘,是指自动、高效地对文本内容的情感倾向进行判断,发现用户对某个事件的态度和意见的过程。现阶段有很多文本挖掘工具都支持情感分析功能,其中ROST-CM6 是目前较为成熟的文本挖掘工具,可对文本进行积极、中性和消极3 方面的情感分析。

2.4 主题-情感可视化分析

本文在LDAVis 的基础上对气泡图进行了优化,使其可以综合反映用户讨论的热点话题与情感之间的关系。具体内容如下:气泡图中气泡的大小表示话题的热度,气泡越大代表该主题下的评论越多;气泡的颜色代表主题的情感极性,其中蓝色代表积极情感,橙色代表消极情感,颜色越深其情感强度越大。

3 实证研究

3.1 数据收集及预处理

以新浪微博平台“非洲猪瘟”事件为例,对本文所提出的分析模型进行实证分析。利用Gooseeker网络爬虫工具,以“猪瘟”为关键词在新浪微博平台检索到2018 年8 月1 日—2019 年3 月31 日的全部数据共20 182 条。由于网络社交媒体的开放性,所爬取的评论中涉及一些空白、网页链接、@其他用户的无用信息,通过关键词筛选和人工检查的方式对数据进行清洗,得到17 422 条评论数据。

3.2 主题识别

首先对评论进行时间片划分。本文将所有评论按时间跨度中的8 个自然月均分为8 个片,并基于Python调用jieba分词模块对评论数据集进行分词。为提高分词结果,本文将哈工大停用词表加入了停用词词典,将搜狗词典的疾病预防专业词库填入用户词典。使用Gensim 模块进行语料库生成,生成步骤如下:首先,去除低频词以提高主题识别结果的代表性,本研究将阈值设为5,即删除频次小于5 的词汇;其次,使用Doc2vec 将格式中的元素转化为Bow 格式的向量;最后,通过困惑度曲线与实验观察调整,最终设定主题数为9,超参数α使用默认参数0.1,运行模型中的time 模式。

本文将时间片内主题词权重最大的主题认定为该时间片内的主题,最终得出主题聚类结果。在事件暴发初期(2018 年8-11 月),人们关注的多是疫情的传播、控制及发源地;同年9 月,关注焦点是通过科普有关猪瘟的知识尽可能阻止谣言的传播。另外,从关键词可以看出,猪瘟疫情也引发了对部分走私相关案件的讨论;从2019 年1月份的主题关键词可以看出在宁夏发生了猪瘟疫情,而从“砖家”这个关键词则可以看出人们对专家发表的种种声明的不信任和质疑。2019 年2 月,食品检疫部门在三全水饺中检查出猪瘟病毒核酸呈阳性,这一事件引起了强烈关注。在这一时间片中,用户评论呈现爆发性增长,用户分别对三全等食品企业,以及我国的食品检疫有关部门产生了极大的质疑与不信任;而且从部分关键词能看出用户对这一事件的震惊和恐惧。2019年3 月,因为出现了多起对猪瘟检疫结果隐瞒和造假的案件,这一话题成为了互联网用户关注的主要话题。

3.3 主题-情感演化分析

通过对特定主题下的评论进行情感分析,可以确保用户所表达的情感与主题相关,以更好地探究用户所表达情感的原因,进而更好地对网络舆情进行合理引导。本文将一个时间片内包含至少一个主题关键词的评论视为该主题下的评论。将所有评论分到所对应的主题下并导入ROST-CM6 软件,所得结果如图2 所示。

图2 情感分析结果

本文结合LDAvis 进行了可视化改进,结果如图3 所示。

图3 主题-情感可视化分析

通过图2 我们可以发现,在事件前期,用户对事件的关注度较低并且对猪瘟事件的严峻性认识不足,故情绪相对平和;但是随着之后猪瘟疫情再一次大规模暴发,全国多处都出现了猪瘟疫情的报道,用户逐渐感到厌烦和焦躁,从2018 年11 月开始,负面情绪逐渐高涨,2019 年2 月由于“三全”事件的报道,负面情绪达到了顶峰,消极评论占比近50%。

根据ROST-CM6 所计算出的评论情感强度,得到关于主题-情感演化分析的结果(图3)。可以看出主题1、主题3、主题9 这3 个主题气泡最大,热度最高,而且主题9 的负向情感强度最强烈,与之相反,主题2 的正向情感最为强烈。通过事件发展的整个过程可以看出,总共有两次事件发展高潮,一是疫情刚刚发生的2018 年8 月,二是“三全”事件发生的2019 年2 月,表现为高热度和高情感强度的双高潮。2018 年10-12 月为事件发展较为平缓的时期。在“三全”事件爆发的半个月之后,网络用户的情绪逐渐平息。

通过上述情感与主题的演化分析,我们发现此类事件中与民众生活相关的话题是舆情讨论的热点。有关部门在处理此类事件时也应将民生问题放在首位,将此类事件解决在萌芽阶段,避免产生“聚集性”负面情绪,暴发负面舆情。通过分析发现,“猪瘟”这一突发事件的整个发展过程大概经历了如下几个阶段:最初,疫情开始逐渐蔓延传播,人们多关注猪瘟的传播路径和暴发地点,情感强度较弱,呈现轻微的消极表现;随后,事件热度慢慢降低,人们更关注一些猪瘟的谣言和暴发原因等边缘话题;但是之后与食品安全息息相关的“三全水饺”事件突然暴发,使得用户情绪的消极程度达到整个过程的最高点;最后,事件的热度在半个月后逐渐冷却,人们的关注点又慢慢转移到边缘话题。

突发公共卫生事件与其他突发事件不同,具有影响范围广泛、与日常生活更贴近、发展迅速、易对人体健康造成威胁等特点。因此,在此类事件发生后,尤其在互联网和智能手机如此普及的今天,有关部门在有限时间内迅速做出反应,完成安抚群众、科普相关知识、控制谣言的散布等一系列行动,对最大限度地缓解群众的恐慌、减少事件的负面影响有重要作用。

4 结语

本文针对突发公共卫生事件持续时间长、讨论话题多变的特点,利用动态主题模型,充分考虑了上下时间片对主题聚类的影响,以及互联网用户所表达情感与主题的相关性,构建了SA-DTM 模型。同时我们在LDAVis 的基础上对气泡图进行了优化,使其可以综合反映用户讨论的热点话题与情感之间的关系。此外,通过建立的综合用户评论主题和用户情感的网络舆情分析模型进行了实证分析,结果表明该模型可以准确地呈现用户所讨论的热点话题及对该话题所表达的情感倾向。今后的研究中将重点解决DTM 模型的超参数优化,并进一步对情感粒度进行细化,以求真实准确地还原用户情感。

猜你喜欢
猪瘟文本情感
文本联读学概括 细致观察促写作
非洲猪瘟对菲律宾已造成1350亿比索的损失
非洲猪瘟常态下猪场建设的12345
如何在情感中自我成长,保持独立
猪瘟疫苗在猪瘟防治上的应用技术
初中群文阅读的文本选择及组织
作为“文本链”的元电影
情感
诗歌与情感的断想
台上