摘" 要: 从信息化语境中挖掘社交媒体平台中的舆情数据,尝试更加系统地分析新冠疫苗接种意愿多重影响因素间的关系.利用网络爬虫技术抓爬社交媒体Twitter平台中的数据,借助潜在狄利克雷分配(latent Dirichlet allocation,LDA)模型识别影响新冠疫苗接种意愿的因素,并运用解释结构模型方法(interpretative structural modeling method,ISM)辅助建模,构建多级层次递阶结构模型,梳理和分析各项影响因素之间的逻辑层次关系.结果表明:通过LDA和ISM模型可以对获取到的因素集进行结构化处理,并根据ISM模型的逻辑结构,将影响新冠疫苗接种意愿的4个层级划分为深层、中间层和表层,不同层级对疫苗接种意愿的影响程度不同.研究结果可为提升民众对新冠疫苗的接受意愿和接种倾向提供相应的决策支持和参考价值.
关键词: 新冠疫苗;接种意愿;潜在狄利克雷分配;解释结构模型
中图分类号:TP391.1;R186""" 文献标志码:A""""" 文章编号:1673-4807(2024)01-104-07
DOI:10.20061/j.issn.1673-4807.2024.01.016
收稿日期: 2022-09-19""" 修回日期: 2021-04-29
基金项目: 国家社科基金重大项目(20amp;ZD117);江苏高校哲学社会科学研究重大重点项目(2021SJZDA128)
作者简介: 马丽荣(1998—),女,硕士研究生,研究方向为网络舆情.E-mail: 1473823586@qq.com
*通信作者: 吴林海(1962—),男,博士,教授,研究方向为食品安全跨界治理研究.E-mail: 1291823970@qq.com
引文格式: 马丽荣,洪小娟,郑惠莉,等.基于LDA和ISM模型的疫苗接种意愿研究[J].江苏科技大学学报(自然科学版),2024,38(1):104-110.DOI:10.20061/j.issn.1673-4807.2024.01.016.
Research on vaccination willingness based on LDA and ISM models
MA Lirong1, HONG Xiaojuan1, ZHENG Huili1, WU Linhai2*
(1.School of Management, Nanjing University of Posts and Telecommunications, Nanjing 210003, China)
(2.School of Business,Jiangnan University, Wuxi 214122, China)
Abstract:Mining public opinion data from the social media platform in the information context, we try to more systematically analyze the relationship between multiple influencing factors of COVID-19 vaccination willingness. Focusing on the research problems of influencing factors of the vaccination intention of the COVID-19 vaccination, we use the web crawler technology to crawl the data in the social media Twitter platform, mine the main factors affecting the vaccination intention of the new coronal vaccine with the help of the Latent Dirichlet Allocation theme model, and use the Interpretive Structural Modeling Method to assist modeling, build a multi-level hierarchical structure model, so as to sort out and analyze the logical hierarchical relationship between the influencing factors. The results show that the factor set can be structurally processed through LDA and ISM models, and according to the logical structure of the ISM model, the four levels that affect the willingness to vaccinate COVID-19 vaccine are divided into the deep layer, the middle layer and the surface layer. Different levels have different degrees of influence on the willingness to vaccinate. The research results can provide corresponding decision support and reference value for improving people's willingness to accept COVID-19 vaccine and vaccination tendency.
Key words:COVID-19 vaccination, willingness to vaccinate, latent Dirichlet allocation, interpretive structural model
就目前全球新冠肺炎疫情发展情况来看,疫情常态化成为必然趋势,全人类可能将与新冠病毒长期共存[1].面对复杂而严峻的疫情冲击,推动新冠病毒疫苗(简称新冠疫苗)的研发与接种,是世界各国政府普遍重视地用于遏制疫情爆发的一种手段,疫苗接种成为全球公共卫生领域的热点议题[2].世界不同国家和地区的新冠疫苗接受率存在差异,我国疫苗接种率位居世界前列,然而有国外国家和地区,低新冠疫苗接受率仍较为明显,接种进度较慢,这将对控制新冠肺炎疫情流行的努力构成严重问题[3].因此,对影响国外民众新冠疫苗接种意愿的要素情况有更细致的把握,对推动世界卫生工作的可持续发展是十分重要的.
在线社交网络平台作为民众讨论问题和承载社情民意的重要舆论场,自新冠肺炎疫情爆发以来,平台涌现出民众对新冠疫苗接种话题的广泛讨论,积累了大量的数据[4].因此,网络社交媒体上的数据也成为观察普通民众如何看待新冠疫苗接种的一扇窗口,可以为理解影响疫苗接种意愿的因素提供支撑和极佳视角.
通过梳理国内外有关疫苗接种意愿的研究,发现学者们普遍采用调查问卷方法获取数据、统计学方法分析数据,调查样本主要集中于某一特定人群.然而由于样本数据等不同,在新冠疫苗接种意愿影响因素的研究上得出了不一致甚至是相悖的结论,一些个人特征因素对接种意愿的影响还不能确定,如在对年龄因素的探讨中, 文献[5]指出年龄较大的人越容易接受新冠疫苗,但也有文献[6]指出年龄与新冠疫苗接种意愿之间并无关系.尽管可以对新冠疫苗接种意愿影响因素研究提供方向性指导,但对整体疫苗接种工作贡献的实践指导意义会减弱.同时,已有研究对疫苗接种意愿的多重因素及因素间关系的分析较为薄弱.而影响民众接种新冠疫苗的因素是复杂多样的,各因素间存在联系,进一步探索因素间关系及其结构是有必要的.解释结构模型适用于变量多、关系复杂且结构模糊的动态系统的解释分析,适用于本研究.鉴于此,基于已有研究,利用Python程序采集社交媒体平台Twitter数据,借助潜在狄利克雷分配主题模型挖掘影响国外民众新冠疫苗接种意愿的因素,并进一步通过解释结构模型厘清多重因素间的关系,研究流程如图1.
COVID-19 vaccination willingness based on Twitter data
1" 数据获取与处理
1.1" 数据源选取
Twitter作为实时热点事件与信息传播的主要集散地,在全世界非常流行和知名,具有一定代表性与影响力,群体基础庞大[8].同时,也是用户进行网络互动和发声的重要舆论平台,蕴含着大量信息.因此,选取Twitter作为文中数据源.
1.2" 数据预处理
借助Python爬虫程序进行数据采集,获取相关页面信息主要是利用Http Client工具包模拟浏览器向Twitter服务器发送请求,接着利用工具解析所获得的信息,并使用本地网页数据库存储所得到的数据[8].其中,以“COVID-19 vaccine、COVID-19 vaccination、Vaccination willingness、Vaccination hesitancy、Vaccine decision-making”等为检索关键词进行数据抓爬,设定的数据检索区间为2021年1月1日至12月30日,抓取的数据属性包含用户名、时间、推文文本等字段信息,获取到与新冠疫苗接种意愿相关的推文共计140 458条.研究利用EXCLE的函数功能对数据进行了随机抽样,并通过剔除原始Twitter文本中的符号(如:“@”)、数字、重复数据、空格等杂质信息,使爬得的数据实现规范化,得到更高质量的有效文本数据[9].最终得到11 350条推文作为研究样本.
2" 基于LDA主题模型的疫苗接种意愿影响因素识别
2.1" LDA主题模型基本原理
潜在狄利克雷分配(latent dirichlet allocation,LDA)是一种广泛用于文档主题的生成模型,也被称为是一个包含词(w)、主题(z)和文档(d)三种粒度的三层级贝叶斯概率模型[10],其主要运行原理是每一篇文档中的每个词都通过“在一定的概率下选择了某个主题,并从这个主题中以一定概率选择某个词语”[11-12].
LDA主题模型中,Twitter文本被称为“文档(d)”,其由N个数量的词组成,即d=(w1,w2,…,wN),语料库D是由M篇Twitter文本构成的数据集,即每一篇文档构成了该集合;K是语料库D中的潜在主题数,α和β是狄利克雷函数的先验参数,θ为文档对应主题多项分布的参数,φ为主题对应词语多项分布的参数.模型文档生成过程为:从Dirichlet分布α中随机取样生成文档di所对应的主题多项分布θi;从文档di对应主题的多项式分布θi中随机取样生成第j个词的主题zi,j;从Dirichlet分布β中随机取样生成主题zi,j所对应的词多项分布φzi,j;从词的多项式分布zi,j中取样生成词语wi,j,如图2.
2.2" 疫苗接种意愿LDA主题模型构建
2.2.1" Jieba分词处理
在使用Python构建LDA主题模型前,依据LDA主题模型提取影响因素,导入Jieba库对Twitter文档进行分词、保留所需词、去除停用词,并将Jieba分词结果放入新文档中.
2.2.2" Gensim构建LDA主题模型
导入Gensim库,构造词典(dictionary),基于词典,将词转化为稀疏向量,并将其放入列表中形成稀疏向量集(corpus).假设主题个数(num_topics)为n,并设置训练轮次(passes)与每个主题下输出特征词的数目(num_words),构建LDA主题模型,打印所有主题并显示特征词.
2.2.3" 计算困惑度确认主题个数
困惑度指标(Perplexity)是用来评价语言模型好坏的常用指标,计算公式如下:
PerplexityD=exp {-∑Md=1∑Nn=1logp(Wd)∑Md=1Nd}
式中:D为数据集,Nd为文档d的词数量,Wd为文档中的词语,p(Wd)为文档中词语出现的概率.
困惑度越低说明LDA主题模型越好,重复采用困惑度指标测试Twitter样本数据,发现随着主题数量的增加,困惑度不断减小,当主题数量为16时,困惑度指标达到最小,此时模型效果最好.对主题词挖掘实验的结果进行整理,最终获得了Twitter文本数据的潜在主题列表,如表1.
表1中的高频特征词列是用来说明不同主题关系和主题内涵的词,每个主题下选取了在样本数据中出现频率排序靠前的5个词,如“风险与益处衡量”主题包括疫苗、风险、后果、副作用等.由此可以看出“风险与益处衡量、恢复正常生活期盼”等16个主题是推文背后隐藏的核心主题词,是用户关注疫苗接种的焦点,可以作为影响新冠疫苗接种意愿的因素并进一步展开后续因素间的关系探究.
3" 基于ISM的新冠疫苗接种意愿影响因素模型构建
解释结构模型(interpretative structural modeling method, ISM)是基于有向图、结合计算机工具将系统中混乱离散的要素用矩阵形式表示出来,并利用矩阵运算和分解等数学方法对要素及其相互关系进行处理,构建一个多层递阶结构模型[13].ISM方法的实现流程主要包括:判定系统因素间的关系,建立邻接矩阵;将相应的矩阵输入计算机迭代处理,输出可达矩阵;在可达矩阵基础上,缩减抽取层级直至将所有因素完成化级,实现层级划分;绘制多级层次递阶结构模型ISM的工作原理如图3.
3.1" 邻接矩阵构建
对基于LDA模型识别出的疫苗接种意愿影响因素进行编号命名,如表2.
邻接矩阵(C)是用来描述疫苗接种意愿各因素间二元关系的矩阵.设因素系统T共有m个因素,T={T1,T2,…,Tm},两个因素之间的关系可以表示为:
Cij=1" 当Ti对Tj有关系时0" 当Ti对Tj无关系时
将影响因素分别作为邻接矩阵的行因素和列因素,邀请相关领域专家针对各因素间的关系进行判断,从而确定各项影响因素之间的直接关系.按Ti对Tj有直接影响取值为1,反之为0的规则,构建16×16的邻接矩阵C,结果如表3.
3.2" 可达矩阵运算
可达矩阵是在邻接矩阵基础上描述各节点经过一定长度的通路后可以到达的状况.对于由m个节点组成的系统T来说,可达矩阵P的组成元素为Tij=1,从Ti存在通路到达Tj0,从Ti不存在通路到达Tj.把邻接矩阵C看作是节点集合关系上的矩阵,就相当于求邻接矩阵的传递闭包C+问题,因此,可达矩阵的建立可以采用求关系闭包的Warshall算法实现.由C计算其对应可达矩阵P的Warshall算法执行过程为:(1) 置P=C;(2) i=1;(3)"" 对所有的j,若P(j,i)=1,则对于每一个k,k=1,2,3,…,m,P(j,k)←P(j,k)VP(i,k);(4) i=i+1;(5) 如果i≤m,则回到第3步,否则停止[14].利用Warshall算法计算可达矩阵可以减少运算量,并可以通过计算机程序执行操作步骤.文中通过MATLAB编码,输出可达矩阵,结果如表4.
3.3" 层级划分及结果分析
在整理出可达矩阵的可达集R(Ti) (可达矩阵中Ti可以到达的所有因素的集合)、前因集A(Ti)(可达矩阵中可以到达Ti的所有因素的集合)和共同集R(Ti)∩A(Ti)(由可达集和前因集中共同因素构成的集合)的基础上,依据R(Ti)∩A(Ti)=R(Ti)的规则对所有因素进行分层,并删除最高层因素集合对应的行与列,然后再从剩下的疫苗接种意愿影响因素可达矩阵中找出最高级因素集合.首先,满足R(Ti)∩A(Ti)=R(Ti)的因素有T3,T4,T10,即{T3,T4,T10}为第一层,如表5.其次,在可达矩阵P中剔除这一层3个要素所对应的行和列.依此类推,缩减抽取层级直至将所有因素完成化级,得到所有因素的层级划分结果,如表6.最后,根据因素层级化分析结果、邻接矩阵C及可达矩阵P,绘制接种意愿影响因素的层级结构模型,如图5.
由解释结构模型层级划分结果可知,其是一个4级有向层级结构模型,反映了接种意愿影响因素间的逻辑关系.国外民众的新冠疫苗接种意愿影响因素由L1到L4,随着层级数增加,由表层因素逐渐向深层因素过渡,即影响因素所在层级数越低,表示该层级的影响因素涵盖的范围越小,越具体;影响因素所在层级数越高,表示该层级的影响因素涵盖的范围越大,越宏观.第一层因素主要由疫苗获取、风险与益处衡量、恢复正常生活期盼构成.第二层由疫苗推出计划、疫苗特定问题看法和了解与认知构成.第三层由亲社会价值观、个人特征、信任、信息质量、支撑数据和社会群体影响构成.第四层因素由政治背景、种族、宗教和历史因素构成.
3.4" 影响机理分析
根据模型的逻辑结构,影响新冠疫苗接种意愿的4个层级可以划分为深层、中间层和表层,对各层关系分析如下:
(1) 深层因素是影响新冠疫苗接种意愿的根本影响因素,该层因素不受其他层级因素的影响.政治背景、种族、宗教和历史4个因素直接影响着民众信任,并通过影响其他层级因素传递其影响作用,对民众的疫苗接种意愿具有深层次的影响力,更需要长期研究和重点突破.如对于有虔诚宗教信仰的信徒来说可以发挥宗教领袖在疫苗接种中的带头作用,向信徒宣扬新冠疫苗接种的知识和理念,唤起其对疫苗的信任和预防接种意识[16].
(2) 第二、第三层因素是影响新冠疫苗接种意愿的中间层因素,处于模型关系的焦点,起着“承上启下”的作用,传递着从深层到表层的影响,并最终影响疫苗接种意愿.一方面,第三层的亲社会价值观和信任因素直接受深层因素的影响,尤其是信任因素,最深层的因素都对信任因素有着直接影响,其在因素层级结构模型中处于一个尤为关键的点,因此,政策制定者和公共卫生当局要及时了解导致民众对其缺乏信任的原因,尝试恢复民众信任,并最终实现有效的健康沟通;另一方面,第三层因素对第二层因素具有直接影响作用,其中,第二层的疫苗特定问题看法、了解与认知因素较多受到第三层因素的影响,并通过影响第一层因素从而达到最终影响疫苗接种意愿的目的.因此,可以以疫苗特定问题看法和了解与认知因素为关键突破口,发挥社会各方在民众对疫苗和接种知识形成科学准确认知上的积极作用,最大限度地排解民众对接种安全性等的疑虑与风险危机认知,消除部分可以接种但迟迟未接种人群的顾虑.
(3) 表层因素是影响新冠疫苗接种意愿的直接影响因素.从图4可以看出,该层是离疫苗接种意愿最近的层级,其所包含的因素是最直接影响新冠疫苗接种意愿的.因此,要提升民众的主动接种意愿,发挥该层级的因素效果将是最直接的切入点.如风险与益处衡量应该是建立在民众对疫苗及相关知识正确认知下做出的判断,在疫苗推广过程中,要把疫苗的效果和作用信息真实地传递给民众,使民众在对疫苗进行风险与益处衡量时感知到接种收益大于风险,进而做出主动的疫苗接种选择.另外,虽然该层因素直接影响疫苗接种的意愿度,但它属于第一层级因素,直接或间接地被更深层次的因素所影响.因此,要想发挥这三方面对疫苗接种意愿的正向加强作用,需要意识到深层的原因并协调好各项因素间的关系,明确优化改善的着力点.
4" 结论
(1) 从社交媒体平台切入,了解Twitter上潜在的有关新冠疫苗接种的民众观点,借助Python爬取数据,通过Jieba分词处理、Gensim构建LDA主题模型,识别疫苗接种意愿的核心主题,构建新冠疫苗接种意愿的因素集,其众多而复杂的因素组成,受不同领域的多方因素的影响.因此,新冠疫苗主动接种意愿的提升与加强是一个多层次、多角度的系统工程,涉及多领域、多主体.
(2) 新冠疫苗接种意愿的影响因素众多,且因素间彼此关系复杂,利用ISM方法构建了民众新冠疫苗接种意愿影响因素的4级递阶结构模型,其揭示了影响新冠疫苗接种意愿的各层要素,表征了因素间的相互影响关系;深入分析了复杂系统中各影响因素的分层逻辑和层级关系,梳理出疫苗接种意愿的关键影响因素.在新冠疫苗接种意愿的提升工作中应把握深层影响因素,重视中间层影响因素,提升表层影响因素.
希望未来可以运用其他更多方法对影响新冠疫苗接种意愿的因素进行分析,从而能够修正和完善疫苗接种意愿影响因素模型,为民众疫苗接种意愿的提升工作起到更好的决策支持和参考作用.
参考文献(References)
[1]" 王璐瑶,刘晓君,徐晓瑜.新冠肺炎疫情常态化防控中居民防疫制度遵从意愿的影响机制——基于恐惧诉求与威慑理论视角[J].中国软科学,2022,7(7):58-69.
[2]" 孟欣童.融入异质性的风险感知对新冠疫苗接种意愿的影响[D].北京:北京交通大学,2021.
[3]" SALLAM M. COVID-19 vaccine hesitancy worldwide: a concise systematic review of vaccine acceptance rates[J]. Vaccines,2021,9(2):160.
[4]" 冯博.全人类共同价值的国际认同——基于海外社交媒体脸书和推特的数据分析[J].社会主义核心价值观研究,2022,8(2):34-46.
[5]" DETOC M, BRUEL S, FRAPPE P, et al. Intention to participate in a COVID-19 vaccine clinical trial and to get vaccinated against COVID-19 in France during the pandemic[J]. Vaccine,2020,38(45):7002-7006.
[6]" ALLEY S J, STANTON R, BROWNE M, et al. As thepandemic progresses, how does willingness to vaccinate against COVID-19 evolve? [J]. International Journal of Environmental Research and Public Health,2021,18(2):797.
[7]" CHINNASAMY P, SURESH V, RAMPRATHAP K, et al. COVID-19 vaccine sentiment analysis using public opinions on twitter[J]. Materials Today: Proceedings,2022,64(1):448-451.
[8]" 祝宇,夏诏杰,聂峰光,等.支持向量机在化学主题爬虫中的应用[J].计算机与应用化学,2006,23(4):329-332.
[9]" 尹隽,彭艳红,刘鹏,等.基于信息接受模型的在线评论有用性影响因素研究[J].江苏科技大学学报(自然科学版),2020,34(3):69-78.
[10]" 田园,宫婷婷.基于LDA模型的在线教学需求数据主题挖掘研究[J].情报科学,2021,39(9):110-116.
[11]" 张泰瑞,陈渝.基于LDA模型因素提取的健康信息用户转移行为研究[J].图书情报工作,2019,63(21):66-77.
[12]" 蒋丽华,沈金羽,任怡.基于LDA主题分析模型的电商平台用户评论数据情感分析——以生鲜农产品苹果为例[J].技术与市场,2021,28(10):74-76.
[13]" 万震,邹凯,张艳丰,等.基于ISM-MICMAC的移动社交媒体倦怠影响因素与关联路径研究[J].信息资源管理学报,2022,12(1):46-55.
[14]" 叶红.可达矩阵的Warshall算法实现[J].安徽大学学报(自然科学版),2011,35(4):31-35.
[15]" JACOBI C J, VAIDYANATHAN B. Racial differences in anticipated COVID-19 vaccine acceptance amongreligious populations in the US[J]. Vaccine,2021,39(43):6351-6355.
(责任编辑:顾琳)