国内新冠肺炎疫情研究的主题演化与情感分析

2022-05-26 05:55莫姝王婷
科学与管理 2022年2期

莫姝,王婷

(贵州大学 管理学院,贵州 贵阳 550025)

0 引言

2020年是我国全面建成小康社会、实现第一个百年奋斗目标的历史性节点,然而,重大突发性疾病——新型冠状病毒肺炎(COVID-19)的暴发打破了人们生活的祥和、威胁了社会的稳定。如今新冠疫情仍没有结束,世界正经历着史无前例的大流行危机,这对我国经济、政治和文化等方面都产生了深远的影响。抗击疫情,不仅是人类与新型冠状病毒的斗争而且是科学研究与时间的争夺。各领域学者高度重视新冠疫情研究,尽最大努力降低它带来的社会成本,其研究成果在防疫中起到了至关重要的作用。在大量研究文献涌现的情况下,通过定量研究,系统分析已有科研成果可以探寻其研究热点与趋势,有利于更加有效地开展疫情防控工作。

在对新冠肺炎疫情领域研究现状与发展趋势的研究中,一方面,部分学者采用内容回顾等定性分析的方法,针对新冠疫情在中医药治疗与分子病理学方面的研究进展进行总结与概括,综述新冠肺炎疫情对经济金融与青少年心理健康的冲击等。另一方面,少数学者采用关键词图谱等定量分析方法,对领域的论文或专利进行文本挖掘,从而识别研究主题。上述研究一定程度上揭示了新冠肺炎疫情的研究现状、学科主题与发展态势,但所涉及的大多为其子领域,缺乏对新冠肺炎疫情整体研究状况与关联关系的研究,特别是基于计量学基础的主题挖掘与演化脉络梳理。因此,本文在现有研究的基础上,首先采用LDA主题模型识别新冠肺炎疫情相关海量文献背后所隐含的主题分布,并将其与STM结构主题模型结果相对比进行一致性验证,从而揭示该领域整体研究结构;其次分析各主题受关注度随时间的演化情况,并基于K-Means算法和主成分分析(PCA)降维对每个主题分别进行聚类,深入分析该领域主题的特征与差异;最后对各主题进行情感分析,研究其情感表现的演化过程,并建立“关注度-情感极性”分析架构探究各主题情况,可视化总体属于消极情感极性主题的负面词汇,全面地探究新冠肺炎疫情研究的主题结构与情感演化态势,为国家、科研院所与学者等把握新冠肺炎疫情领域前沿及热点提供智力支持与决策指南。

1 研究框架与方法

本文构建的新冠肺炎疫情主题挖掘与情感分析框架主要包括五个部分,每个部分的研究流程与涉及的关键研究方法描述如下。

1.1 数据收集与预处理

以中国知网作为数据来源,采用高级检索设定检索主题为新冠疫情或COVID-19,使用自定义批量以Excel格式导出题目、摘要等文献信息,形成初始实验数据集,并人工筛选删除不完整或重复出现的文献记录形成研究语料库。为顺利开展后续主题挖掘与情感分析研究,首先对实验数据进行去噪处理,去除空格和参考文献、统一大小写等。其次研究语料中的摘要部分存在一些无实际意义的高频虚词,使用Python编写程序读取哈工大停用词表等去掉这些虚词,同时去除词频过高或高低对研究主题没有什么意义的词汇,如“问题”“得到” “研究”等,并且采用jieba进行分词处理。

1.2 主题抽取

采用LDA主题模型对新冠肺炎疫情文献进行主题抽取,以发现各界学者关注的新冠肺炎疫情热点主题。LDA主题模型是基于词袋算法以文本-主题-词汇的变参数三层贝叶斯结构生成联合概率分布的无监督机器学习的算法,常用于文本挖掘领域。为保证LDA主题抽取效果,使用余弦距离、KL差分距离、对数似然、JS距离四个指标综合确定最佳主题数K。

为了检验LDA建模的主题质量,将其与STM结构主题模型结果进行比较。STM模型生成一篇文档可以包含多个主题的混合分布。本文将用信度检验(Krippendorff's alpha)探究两个主题算法编码器(LDA和STM)的结果匹配程度。alpha值位于0~1之间,并且越接近1表示编码器之间的分类结果越一致。由于该检验不受类别数、编码器数和数据规模及类型等的限制,因此它被广泛用于衡量内容分析数据的可靠性。

1.3 主题演化

利用LDA主题模型探究新冠肺炎疫情的主题分布后,分析主题关注度的演化过程。本研究先针对实验数据建立模型,再依照设定的时间片把各文献归类,然后依据每个时间片各主题包含文献数量的变化情况得出主题关注度演化过程。接着本文将使用K-Means算法对之前得到的每个主题分别进行聚类,其基本思路是考虑组间方差与组内方差将个观测数据划分为个互斥簇。聚集中心的个数是根据轮廓系数确定的。此外,为了直观地表示群集,本文通过应用主成分分析(PCA)将其压缩为二维向量。

1.4 情感分析

情感分析是分析正面情绪或负面情绪的过程。本文采用基于情感词典的研究方法,以知网Hownet中文情感词典为基础,涵盖正负面评价词与情感词,同时结合新冠肺炎疫情语料作为语境,人工添加了一些词语,以提高该词典的准确性和相关度,从而探究学者对新冠肺炎疫情的情感态度。

1.5 综合分析框架及负面信息

构建新冠肺炎疫情“关注度-情感极性”综合分析框架(图1),以横坐标代表关注度、纵坐标代表情感极性的二维四象限坐标系,并按四个象限将新冠肺炎疫情各主题分别归类成四种类型。关注度是指根据文档-主题矩阵而得到的每个主题包含的文献数量,其能反映学者对新冠肺炎疫情各主题的关注度;情感极性是指每个主题所包含文献的情感分数均值,其能反映学者对新冠肺炎疫情各主题的情感态度。整理情感极性为负的主题的高频负面词汇,以词云的形式可视化其结果,有助于学者有针对性地改进相关研究。

图1 “关注度-情感极性”综合分析框架

2 主题挖掘与演化

2.1 数据收集与预处理

采用知网高级检索设定检索主题为新冠疫情或COVID-19,选择同义词扩展,数据采集时间段为2020年1月1日至2021年3月31日,文献来源类别为SCI、EI、北核、CSSCI,使用自定义批量以Excel格式导出来题目、摘要等文献信息,人工筛选删除不完整或重复出现的文献记录,经过处理后的最后文献信息共计7 242条。本文选取信息中的标题、摘要与关键词作为实验数据,分别进行去噪、分词和去停用词处理。

2.2 主题提取

采用LDA主题模型对文献文本进行主题提取,使用余弦距离、KL差分距离、对数似然和JS距离四个指标即 CaoJuan2009、 Arun2010、Griffiths2004、Deveaud2014四个参数确定最优主题数K,结果如图2所示。横轴为主题个数,纵轴为指标值。可以看出,随着主题个数的增加,CaoJuan2009、Arun2010和Deveaud2014三个参考值呈波动下降,Griffiths2004呈波动上升。随着主题个数变多,LDA主题模型的计算代价对应变大,且容易出现过拟合现象。主题数为9时存在一个局部最优值,继续增加主题个数收益小于投入,因此综合四项指标确定最佳主题数为9。

图2 不同主题数K值情况下指标值

经过预处理数据、构建模型、确定最优主题数等处理,最终获得新冠肺炎疫情领域7 242篇文献的9个主题及每个主题前十高频的关键词,使用力导向图展示文档-主题-词汇三层关系及信息如图3所示。

图3 文档-主题-词汇关系

结合图3中关键主题词对各主题的描述,Topic1识别为生物医药,Topic2识别为经济影响,Topic3识别为新闻与传媒,Topic4识别为信息技术与安全,Topic5识别为国际动态,Topic6识别为在线教育,Topic7识别为心理健康,Topic8识别为社会保障和福利,Topic9识别为中国政治与国际政治。

为了验证LDA主题模型分类结果的有效性,将其与STM结构主题模型分类结果进行比较并探究其匹配程度,表1以横纵分别展示了LDA和STM的分类结果。可以看到绝大部分文献位于对角线上,即这两个模型将大多数论文合理归类到同一相应主题,对于某些存在归类主题不一致的论文,分析认为是这一论文混合了关于多个主题的研究。该验证alpha为0.74,尽管不是很高,但是也确保了该模型一定程度的稳定性,能认为分析结果具有可信度。

表1 主题分类结果对比

值得关注的是,经济影响主题和国际动态主题经常在同一篇论文中混合出现,可看出新冠肺炎疫情的经济影响与国际贸易和进出口策略具有一定相关性;学者以多样的方式讨论了以新闻与传媒为主题的新冠肺炎疫情的新闻舆论工作与社会治理,其中有与心理健康主题交叉的网民情绪影响研究、与信息技术与安全主题交叉的舆情的生成、传播及其信息治理研究等;关于如何保护弱势群体的政策和法律问题的论文通常会被归类到社会保障和福利主题和信息技术与安全主题;心理健康主要是针对疫情扩散对普通民众的心理影响,还有与在线教育主题交叉的线上课堂对学生心理影响研究、与社会保障和福利主题交叉的针对特殊人群的心理影响研究等;中国政治与国际政治主题与经济影响主题、社会保障和福利也存在一定的重叠性。

2.3 主题关注度演化分析

根据文档-主题概率矩阵,按主题划分文献数据,分别查看每个主题所涵盖的文献数量的演化趋势,将时间分为Q1、Q2、Q3、Q4、Q5五个时间片,其分别表示2020年第一二三四季度和2021年第一季度,从而得到新冠肺炎疫情各主题-时间演化情况如图4所示。

图4 各主题-时间演化情况

由图4可知,以新冠肺炎疫情为主题的文献发表量在Q3时期达到峰值,后续呈下降趋势但发文量仍然处在较高水平。这表明疫情暴发后,学界高度重视疫情防控研究,并且其快速增长也部分得益于知网开辟了疫情防控优秀成果的绿色发表通道,这进一步加快了科研知识的传播。之后的下降与我国疫情得到有效控制、不利影响逐渐减退有关。以Q3时期为分界点,将学者对新冠肺炎疫情的关注大致分为2个阶段。Q1~Q3时期,相关研究以Topic1生物医药、Topic2经济影响和Topic7心理健康为主,体现了我国医疗科研和针对经济与民众的疫情防控反应迅速。随着疫情常态化,人们的生活逐渐回归正常。Q4~Q5时期,针对Topic6在线教育、Topic4信息技术与安全、Topic8社会保障和福利的关注逐渐增加,这是由于受疫情影响,大量线下活动转为线上开展,在线教育、远程办公等形式迅速崛起,大量的线上交互就涉及到了信息技术与安全问题,并且对于如何保护和帮助受到疫情重创的弱势群体这一话题也备受学界和政界的关注。对Topic3新闻与传媒、Topic5国际动态、Topic9中国政治与国际政治的关注相对稳定,比例波动不大。

2.4 主题内容演化分析

通过K-Means算法使用关键字对每个研究主题进行了详细分类:并且应用PCA并将其压缩为二维,可视化的结果如图5所示。

图5 各主题聚类情况

生物医药主题大致分为四个集群研究聚类:病理表现与临床特征,医护管理,公共防控和流行病学。新冠肺炎的暴发对整个社会是严峻考验,理清新冠的病理特征与诊断方法,严格开展疫情防控,特别是避免医院内部的患病与非患病人员的交叉感染非常重要。同时学者积极研究应如何加强处理突发公共卫生事件的举措,如何有效解决医疗等资源分布不均的问题,从而提高应急能力,并探索新冠肺炎的流行趋势与预防措施,以期早日实现抗疫成功。

经济影响主题包括:新冠肺炎疫情对旅游、物流和食品等各行业,进出口等外贸活动,电子商务等数字平台的影响。新冠疫情从消费到生产、从国内到全球逐步蔓延,给不同行业带来了或大或小的冲击,我国相关部门积极开展疫情防控,实施了保证稳定供给、推进复工复产等政策。与此同时,由于线下活动的限制,推动电子商务等行业发展,加快数字经济的变革。

新闻与传媒可以细分为舆情研究、谣言传播与治理和媒体与公众注意力。新冠疫情暴发初期,疫区发生各类物资短缺事件,并且由于官方消息发布的延迟导致了相关谣言广泛传播。乃至新冠在全球大流行成为波及世界的严重事件,新闻与媒体在本次公共卫生事件中的社会影响就愈发显现。如何卓有成效地预防、阻止和控制谣言的扩散,安抚民众的情绪,开展心理疏导工作是抗疫的关键子问题。

在信息和通信技术与安全性主题中,讨论了数字技术和法律责任、患者信息保护以及医疗保健资源分配。我国在疫情防控时运用大数据等信息技术,进行安全监测、感染溯源、信息统计、资源统筹等多方位调配,展示了新时期国家治理能力的数字化。但同时也带来了信息泄露、技术风险等安全问题,这有待进一步研究应对策略。

国际动态主题可以细分为国际疫情传播形势、新冠疫情对全球市场与贸易的影响和全球卫生治理。新冠疫情是全球层面上的大流行危机,一定会给世界带来巨大的改变,其中涉及经济、贸易、政治等多个方面。疫情造成经济不景气、生产停摆、各国摩擦等问题,暴露了全球公共卫生治理的不足。一些以发达医疗资源著称的欧美国家在抗击疫情时也一触即溃,多数发展中国家更是难以应对。

在线教育主题,涉及线上课程、在线讨论班和混合学习的环境研究。新冠疫情暴发初期,学校正常教学工作停摆,在线教育迎来发展契机与严峻挑战。针对各地教师素质、网络环境与设施水平参差不齐的现状,如何顺利开展线上教育,实现教育现代化,保证各阶段学生健康成长是备受关注的问题。

关于心理健康主题,包括新冠肺炎疫情对心理健康的影响、对民众行为的影响以及有关媒体报道对人们的心理影响。新冠疫情的出现与负面新闻报道使得民众广泛产生消极心理反应,怎样帮助民众恢复心理健康,摈弃不良情绪是当今心理学界的研究热点。后疫情时代,如何监测、干预民众心理变化从而提高相关部门的抗疫能力与决策水平也极为重要。

社会保护和福利这一主题对弱势群体的保护和福利、国家和各省市的相关保护政策、受疫情影响的各行业的帮扶这几方面进行详细研究。习近平总书记在疫情暴发后频频强调,政府要兜底保障弱势群体,同时推行了大量相关政策,对象覆盖各行业各人群,包括免除赋税、就业援助、免费治疗与免费疫苗注射等措施。学界在高度肯定国家政策的基础上,提出自己的意见与建议。

在中国政治与国际政治主题中,探究了中国与其他各国的外交关系、新冠疫情对国际经济政治格局的影响、中国面临的战略机遇与挑战。面对新冠疫情,世界各国既有互帮互助也有摩擦冲突,这对世界的和平与发展产生了错综复杂的影响,国际格局也因此发生微妙变化。学者努力分析演进过程,探究我国将面临的严峻挑战与应对举措。

3 主题情感分析

3.1 主题情感分类

本文运用知网Hownet情感词典,并根据语料库中的文献对词典进行补充,以提高其领域针对性。添加的部分情感词汇如表2所示。

表2 主题分类结果对比

通过情感分析确定正面和负面的词汇后,计算每个季度每个主题的情感分布,结果如图6所示。可以看出,学者针对新冠肺炎疫情的文献以积极为主,不同主题不同时间段的态度有所差异。

图6 各主题情感分类结果

下面对各主题做具体分析。Topic1生物医药主题情感在各季度总体都呈现为负面,随着时间的推移,积极情感的比例在逐渐增加,说明新冠肺炎目前仍然没有特效治疗的药物或机制,但疫苗等预防手段的出现让更多学者对该主题的研究前景较为看好。Topic2经济影响主题情感在前两个季度呈现负面,后三个季度呈现正负波动,可以看出在疫情暴发前期,国内许多行业生产停摆、众多民众居家隔离,对国内国际的经济产生巨大的冲击,主要持消极态度,随着国内疫情防控工作的进一步开展,国外疫情的大规模暴发,消极情感迅速减退且趋于稳定。Topic3新闻与传媒主题情感持续正负波动,初期可能是因为非医务人员对新冠肺炎疫情的真实情况缺乏了解,只能通过网络舆论获得真真假假的消息,从而产生了一定的公众恐慌。随着官媒对新冠肺炎的深入科普,学者针对该主题研究的消极情感减少而积极情感增加。Topic4信息技术与安全主题情感随着时间由负面趋向中立,可能是因为学者由最初对个人信息安全的担忧转化为了研究如何以数字化、智能化、智慧化的方式开展疫情防控信息管理。Topic5国际动态主题情感在第三和第四季度呈现显著的负面,这是由于以美国、法国、印度为代表的其他国家在这段时间暴发严重新冠肺炎疫情,一定程度上引起了国际恐慌。Topic6在线教育主题情感相对积极,呈现递增的趋势,受疫情影响,人们普遍长期居家,在线教育等行业需求激增,相应的研究数量也增加,为线上服务带来了契机,有望成为经济发展的新动能。Topic7心理健康主题情感在各季度总体都呈现为负面,大量民众抗疫过程中产生了焦虑、孤独等心理问题,但消极情绪比例逐渐增多可能与该主题的特性有一定关系,学者研究的主要是民众的负面情绪,因此该主题会包含较多的负面词语。Topic8社会保障和福利主题积极情感呈现先减少后增多最后趋于稳定的趋势,这是随着国家各类政策的推行,如确诊感染新型冠状病毒的患者享受免费治疗、新冠疫苗免费接种等,越来越多学者对该主题持积极态度。Topic9中国政治与国际政治主题情感总体趋于中立,学界从客观的角度出发,针对全球共同抗疫这一特殊情况,思考中国如何在把自己的事情做好的同时帮助他国、承担大国责任。

3.2 “关注度-情感极性”框架

对新冠肺炎疫情各主题进行关注度-情感极性的综合分析,横坐标代表关注度,纵坐标代表情感极性,并按四个象限将新冠肺炎疫情各主题分别归类成四种类型,结果如图7所示。

图7 “关注度-情感极性”综合分析框架

属于高关注度的Topic1和Topic2都为消极情感极性,位于第四象限,表明学者对生物医药包括临床医学、基础医学、药学等和对新冠肺炎疫情带来的经济影响这两个主题的关注度较高,但认为其发展仍然有可以进步的空间,相关学者若能攻克关键问题,实现科研助力将会加速抗疫进程。针对预防与治疗新冠的医学研究任重道远,而相信疫情带来的经济重创将随着产学研一体化的发展逐渐恢复。Topic3、Topic5和Topic7被归类到第三象限,包括学者对新闻与传媒、国际动态和心理健康这三个主题的关注度相对较低,心理健康的消极情感最为浓烈,随着我国进入后疫情时期,疫后综合症逐渐显现,而国际动态负面情绪可能来自于对国外疫情的蔓延与民众呈现消极抗疫有关,新闻与传媒趋向中立。Topic8位于横坐标左侧上,可以看出社会保障和福利主题发文量相对较低,总体情感呈中性,表明学者对我国相关帮扶政策的认同与共建和谐美好的中国特色社会主义的信心。Topic4、Topic6和Topic9属于第二象限,学者对信息技术与安全、在线教育和中国政治与国际政治三个主题关注度相对较少但总体呈积极情感,从文献来看,对于信息技术与安全主要针对如何提高相关技术,对于在线教育主要关注其可以更好地利用资源并能带动数字经济,对于中国政治与国际政治主要探讨了疫情期间中国应该如何发挥大国作用等,因而对这些主题持积极态度。

3.3 负面信息挖掘

对于情感极性为消极的主题,关注其负面词汇对进一步研究具有重要的参考价值,因此本文继续分析呈消极情感极性的Topic1生物医药、Topic2经济影响、Topic3新闻与传媒、Topic5国际动态和Topic7心理健康主题相关的文献文本,并挖掘这几个主题的负面高频词汇,结果如图8所示。

图8 消极情感极性主题负面词汇

以Topic1为例说明。关于生物医药主题的相关消极文本主要涉及:民众感染新冠肺炎,并且伴随有咳嗽、发烧、乏力等病理表现;部分患者病情严重,最终因病死亡;患者出现急性呼吸窘迫综合征等。

4 结论与启示

本文基于中国知网相关数据,利用LDA主题模型抽取学者关注的新冠肺炎疫情主题,在此基础上探究了对新冠肺炎疫情的关注热点和情感态度的演化趋势,并通过构建新冠肺炎疫情主题“关注度-情感极性”框架和提取情感极性为消极的主题的负面词频,明确了新冠肺炎疫情相关主题导致学者情感偏消极的原因和待继续研究的方面。可以得出如下结论:

一是对新冠肺炎疫情的关注主题呈现多元化、领域广的特点,不仅包括生物医药、心理健康等医学领域,涵盖经济影响、国际动态、社会保障和福利、中国政治与国际政治等经济与社会学方面的研究,还涉及新闻与传媒、信息技术与安全、在线教育等多种话题的讨论。

二是主题关注度和内容演化分析反映了对新冠肺炎疫情关注重点的变化趋势。总的来说,学界高度重视对新冠肺炎疫情的研究,针对不同主题,关注强度和变化趋势存在一定差异。以Topic1为例,对生物医药的讨论随着疫情得到有效控制呈现波动趋势,但所占比例最大,表明生物医药未来仍将是学者讨论和关注的热点主题。

三是情感分析反映了对新冠肺炎疫情情感倾向的变化趋势。总的来看,对新冠疫情以消极情感为主,不同主题的情感态度有所区别。以Topic1为例,对生物医药的积极情感呈现逐季增加的态势,表明随着抗疫形势逐步好转,对生物医药的正面情绪虽有所增多,但整体还是呈消极极性,需要相关部门的决策者和学者予以重视和关注。

四是根据“关注度-情感极性”框架划分各主题的类型同时进行负面词汇挖掘,可为明晰研究重难点、为相关部门制定政策提供智力支持。以Topic1为例,生物医药属于“高关注度-消极情感极性”区域,学者对其关注多,表明该领域还存在许多有待探索的研究问题,但呈现消极情感极性,说明目前的研究还未能完全满足抗疫的需要,亟须不断完善。进一步挖掘负面词汇可分析导致产生消极情感的关键因素是重症病人、综合征、感染人数等。针对这些因素进行研究,将提高学者对该主题的情感极性。

本文证明了利用知网挖掘新冠肺炎疫情学者观点和态度的可行性,然而本文存在只以知网文献为对象、文献不够全面等,后续研究可以扩大数据来源。在当前疫情防控常态化阶段,有关新冠肺炎疫情的研究将在预防疫苗的有效性等领域呈现更多样化的研究态势,但对过去研究的回顾与梳理可以为将来的新冠肺炎疫情研究提供支撑与启示,助力我国尽早全面抗疫成功。