张 敏 沈嘉裕
(1.武汉大学信息资源研究中心 武汉 430072; 2.武汉大学信息管理学院 武汉 430072)
政务短视频是指由政府、企事业单位等机构发布的行政公务类短视频。相较于以图文呈现方式为主的微博而言,短视频的音画同步模式能在短时间内带来多重感官刺激[1],降低用户的认知负荷,进而快速吸引公众的注意力。自2016年以来,我国短视频平台发展迅猛,第49次《中国互联网络发展状况调查报告》显示我国短视频用户规模已达9.34亿[2]。越来越多的政务信息发布部门开始选择短视频作为政务信息的发布载体与公众进行互动——根据中国互联网络信息中心(CNNIC)的最新数据,我国各级政府开通的政务抖音账号已达2.6万[3]。
突发公共卫生事件爆发后,网络舆情演化趋势具有明显的倾向性[4],政务短视频短平快、易于理解的特征可以帮助政府在疫情期间高效应对突发舆情。通过研究突发公共卫生事件中政务短视频的主题与对应的用户行为,挖掘在突发公共卫生事件的不同生命周期阶段政务短视频受众的关注重点,能帮助政府更好地理解舆情演化的影响因素和内在形成机理,为政府制定适宜的政务短视频发布策略提供决策支持。本研究以我国新冠疫情中的代表性舆情事件2022年上海疫情为背景,借助政务话语框架,采用话题提取模型对政务短视频标题文本进行主题挖掘和事件分析,并基于数据分析结果为政府的突发公共卫生事件主题发布策略提供可供参考的意见和建议。
近年来,学者们对政务新媒体进行了丰富的研究,近期发表的代表性文献如表1所示。对上述文献进行深入分析后归纳得到已有研究的如下规律:(1)在样本来源方面,微博、抖音以及政府门户网站[5]是常见的素材收集平台;(2)在研究方法方面,内容分析法是较为常用的研究方法,对比分析、问卷调查以及主题挖掘、情感分析等社会科学研究方法也较为常见;(3)在研究情境方面,党建、团建、扶贫、突发事件等均为政务新媒体较多关注的研究情境;(4)在研究视角方面,主要聚焦于信息传播、用户参与以及话语框架三个角度。信息传播视角,主要采用内容分析(人工编码)与回归分析方法,如陈强等[6]以新冠肺炎疫情为背景,基于精细加工可能性模型构建突发公共卫生事件中政务抖音号信息传播效果影响因素模型并进行实证研究。用户参与视角,主要采用问卷调查[1, 7]、扎根分析[7]、结构方程[1]、H指数[8]等方法对政务新媒体的影响力以及影响用户参与的因素进行探索。话语框架视角主要基于框架理论对政务微博进行内容分析,如谢起慧等[9]将纽约市政务推特应对飓风的信息发布内容框架分为信息、行动和观点框架。
表1 近期我国政务新媒体研究的代表性文献
文献综述发现,我国政务新媒体的逻辑主线已经厘清,并形成了相对规范的方法体系,存在的主要研究局限包括:(1)基于机器批量提取主题的方法(如LDA[8, 10]、LSI[11]等)已被运用于探索政务微博的发布内容,但借助机器批量挖掘政务短视频主题的相关研究较少,提取短视频主题的算法应用也较少;(2)框架理论常应用于媒介话语传播方面的研究[12-14],也有一些研究将框架理论用于构建政务微博的内容分析框架[5, 9, 15]。但是,政务短视频的主题挖掘研究仍缺乏统一的理论框架作为主题划分依据,框架理论在该领域的运用尚存在深入空间。
鉴于此,本研究选择适用于短文本的话题提取模型对政务短视频进行话题提取,并给予框架理论构建突发公共卫生事件中政务短视频的话语框架,进而对不同话语框架下的政务短视频主题与用户行为进行关联演化分析,为政府部门在突发公共卫生事件中制定信息发布策略提供决策支持。
BERTopic是一种话题提取模型[20],可以对大量的短文本数据进行高效的建模,非常适合用于对政务抖音标题这类短文本进行话题提取的任务。模型的原理如图1所示,具体来说,该模型首先利用基于Transformer的预训练模型(BERT, Bidirectional Encoder Representations from Transformers)对文本进行词嵌入,然后根据语义相似性对所得词嵌入向量进行聚类操作——先用UMAP(Uniform Manifold Approximation and Projection for Dimension Reduction)算法[21]对词嵌入向量进行降维处理,然后通过HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)算法[22]对降维后的向量进行聚类。
图1 BERTopic模型原理
BERTopic模型采用基于类的TF-IDF(c-TF-IDF)算法进行话题表征——将传统TF-IDF算法应用于聚类结果,计算语义簇(即所得话题)内的词的重要性得分(即TF-IDF值),挖掘出每个话题中的重要词汇。基于类的TF-IDF(c-TF-IDF)算法详见公式(1),其中Wx,c表示词x在语义簇c中的重要性得分,tfx,c表示语义簇c中词汇x出现的频率,fx表示所有语义簇中词汇x出现的频率,Ave表示每个语义簇中出现词汇数的均值。接着,采用最大边界相关算法(MMR, The Maximal Marginal Relevance)[23]根据所得词汇重要性得分抽取与话题最为相关的候选词,从而用这些具有代表性的词对话题进行表征。
(1)
基于词嵌入模型在迁移学习方面的优异表现,直接使用BERT预训练模型可以帮助学者高效地进行词嵌入任务[24],并且,相较于其他传统的话题提取模型(如LDA, Latent Dirichlet Allocation)而言,BERTopic模型无需人为设置主题数量等超参数,免去了复杂的参数尝试步骤[24];此外,通过将词嵌入过程与主题-词分布构建过程分离,该模型在话题提取中具有较强的灵活性。因此,本研究采用BERTopic模型对政务短视频标题进行话题提取。
余弦相似度(向量空间中两个向量夹角的余弦值)可以衡量两个对象之间的差异程度,已有研究[4, 25]通过对话题向量与用户行为向量计算余弦相似度来衡量主题与用户行为之间的相关性。对于两个n维向量A=(A1,A2,A3,…,An)与B=(B1,B2,B3,…,Bn)余弦相似度的计算公式如公式(2)所示。
(2)
cosθ的取值范围为-1到1,cosθ的值越接近1表示θ越接近0度,即两个向量的方向越相似;cosθ=0代表两个向量正交,完全不相似;cosθ的值越接近-1表示θ越接近180度,即两个向量的方向越相反,cosθ的绝对值越接近1则代表两向量越相似[4]。本研究将余弦相似度计算方法用于政务抖音话题与行为相关性的计算,计算政务抖音视频话题与用户行为之间的相关性,具体步骤为:
①将n条视频属于k个话题的概率合成为k个n维向量;
②将3种用户行为数据(点赞、评论、收藏)分别合成为向量;
③分别计算上述3种用户行为向量与话题向量之间的余弦相似度,将结果汇总为话题-行为矩阵,如公式(3)所示。
(3)
上述矩阵反映了政务短视频话题与用户行为之间的相关性,矩阵中值的相对数值越大,说明该话题与对应用户行为数据的相关性越高。
本研究选取2022年上海疫情为研究案例,主要基于以下考虑:a.舆情事件具有代表性。2022年的上海疫情成因复杂,过程波折,经历了舆情的多次反转,是本研究所需要的具有代表性的舆情事件;b.研究数据具有完整性。上海政务新媒体建设较为完整和成熟,无论是政府发布的信息还是公众的参与信息均保存完整,能为研究提供内容丰富、体量较大的研究数据。
本研究通过在抖音平台检索“上海政务”爬取账号详情清单,并通过账号名称与“蓝V信息”筛选出上海地区的政务抖音账号,得到共计36个政务抖音账号信息,部分账号信息如表2所示。
本研究以Fink提出的危机四阶段模型[26]为依据,同时参照已有研究[4, 25, 27]对于突发公共卫生事件衍生舆情的生命周期的划分操作,将其划分为征兆期、爆发期、持续期以及恢复期等4个阶段。研究选取2022年3月20日至2022年5月15日为研究周期,结合巨量算数提供的抖音搜索指数[28]以及上海市疫情数据进行生命周期划分。如图2所示,征兆期的次生舆情增长相对平缓,对应时段为2022年3月20日至2022年3月25日;爆发期的次生舆情增长速度较快,对应时段为2022年3月25日至2020年4月2日,这一阶段的搜索指数呈爆发式增长,并达到最高水平;持续期的指数相较于爆发期而言呈减少趋势,对应时段为2022年4月2日至2022年4月15日;恢复期阶段舆情的关注度与信息量都处于较低水平,对应时段为2022年4月15日至2022年5月15日,在这一阶段,网民的注意力逐渐转移到其他事件,讨论热度逐渐降低。
表2 上海市政务抖音账号(部分)
图2 2022年上海疫情衍生舆情的生命周期阶段划分
研究技术框架如图3所示,主要包括以下步骤:a.原始数据获取。采用基于Python语言编写的爬虫程序共获得3152条政务抖音数据,数据项包括视频标题、发布账号、发布时间、点赞数、评论数、收藏数等。b.数据清洗。原始页面数据中的点赞、评论、收藏数量存在将万以上的数据表示为“w”的情况,因此需要进行数据清洗,将数据转换为整数类型。c.数据标注。借助Python程序,根据上文中划分的生命周期对数据进行自动标注。d.数据预处理。去除非中文文本、jieba分词、根据哈工大停用词词典去除通用词、生成词列表,方便后续借助BERT预训练模型进行词嵌入任务。
图3 数据处理的技术框架
在得到每条政务抖音视频标题对应的词列表之后,本研究借助BERTopic模型[20]对政务短视频进行话题提取。话题提取步骤共计得到61个话题(topic),对模型输出的话题-表征词进行整理,并归纳出二级主题,部分数据如表3所示。
表3 BERTopic模型输出的话题-表征词数据(部分)
接着,本研究借鉴谢起慧等[9]提出的公共危机事件中的政务话语框架,将政务信息发布的内容框架分为信息框架、行动框架以及观点框架,并结合实际得到的政务短视频主题对框架二级结构进行扩充,整理出突发公共卫生事件中政务短视频的主题框架如表4所示。
数据分析部分,首先结合时间维度的数据以及上文中划分的生命周期,借助Python matplotlib库、pyecharts库和Excel对所得3152条政务短视频的主题与用户行为演化过程进行可视化分析,挖掘不同阶段的政务短视频主题分布情况以及不同阶段的用户行为变化。随后,借助SPSS对于三种用户行为(点赞、评论、收藏)进行Spearman相关性检验。最后,筛选出上文中话题-用户行为余弦相似度矩阵中的较大值,挖掘显著影响用户行为的政务短视频话题。
本研究参考已有研究[9],将政务信息发布框架分为信息框架、行动框架以及观点框架。表4中,信息框架主要发布突发公共卫生事件的即时情况(如新增数据)、科普、辟谣等信息。行动框架主要发布政府针对突发公共卫生事件采取的应对措施,包括相关政策的普及(如方舱医院的启用、分区管控、税务支持等)、物资配送与支持措施以及对特殊人群(如老人、孕妇)的关照服务。观点框架主要发布政府对危机的看法,给予公众信心,包括树立典型榜样、对公众进行情绪安抚等。
表4 突发公共卫生事件中政务短视频主题框架
对采集到的政务短视频数据进行主题提取,结合网络舆情生命周期对3种框架下的8个主题进行演化分析,结果如图4所示。为近一步分析不同生命周期阶段的主题分布演化情况,本研究对四个阶段中不同主题下的短视频数量分别取均值,以征兆期的“榜样树立”主题为例,样本中征兆期内该主题下的政务短视频共为35条,而征兆期时长为5天,因此征兆期内榜样树立主题下的政务短视频发布数量均值为每天7条。将所得均值结果作为纵轴呈现,在此基础上绘制三维曲面图如图5所示。
图4 政务话语框架下的主题演化情况
由图4-1和图5不难看出,不同生命周期政务短视频主题既存在前后的连续性,同时也呈现出各个阶段的不同特点。其中,征兆期以抗疫政策普及、情绪安抚为主,爆发期以抗疫政策普及为主、科普与辟谣以及情绪安抚为辅,持续期以抗疫政策普及为主、以物资与配送支持以及榜样树立为辅,恢复期以抗疫政策普及为主、榜样树立与数据公布为辅。具体来说——征兆期与爆发期的政务短视频大多聚焦于安抚公众的情绪,话题包括团结一致抗击疫情、举办读书活动、艺术活动舒缓公众焦虑情绪等;随着网络舆情的大规模爆发,政务短视频在爆发期对于科普与辟谣信息的发布有所侧重,通过官方对不实信息予以澄清,有助于减轻公众的恐慌情绪,维持社会稳定;在持续期,上海市实施了封控政策,政务短视频主题聚焦于生活物资配送、物流防疫与互联网配药等,辅以宣传社区党员等一线志愿者的事迹,一方面保障封控期间公众的物质需求,另一方面增强公众的凝聚力,确保封控政策的顺利实施;恢复期的政务短视频继续侧重于塑造典型榜样,对医务人员、志愿者的事迹进行宣传,此外,随着疫情逐渐得到控制,政务短视频对于疫情相关数据的公布数量在这一阶段达到了峰值,新增治愈、出院等数据有助于增强公众对于结束疫情的信心,同时也能展示政府对于突发公共卫生事件的治理能力。
图5 不同生命周期阶段的主题分布演化情况
信息框架在突发公共卫生事件中能帮助公众提高危机意识,从而维持突发公共卫生事件期间日常生活秩序。在征兆期与爆发期,信息框架中的科普辟谣信息占比较大(见图4-2)。发展到持续期与恢复期时,信息公布类话题占比变多,说明随着疫情逐渐得到控制,政务部门为宣传政府治理成果,对事件向好发展的信息公布力度加大。
观点框架主要发布政府对危机的看法,给予公众信心,包括树立典型榜样、对公众进行情绪安抚(见图4-3)。此次突发公共卫生事件中政务短视频的观点框架在征兆期和爆发期以情绪安抚为主,在持续期和恢复期则更侧重于树立典型榜样。
行动框架主要发布政府针对突发公共卫生事件采取的应对措施,有助于增强公众对于政府在突发公共卫生事件期间工作以及政策的认知,这一框架下的政务短视频主题以政策普及为主,物资配送主题则在持续期和恢复期被强调(见图4-4)显然,政策普及主题贯穿了整个舆情生命周期,是行动框架的重要组成部分,它能推动政务工作、促进公众了解、提高政府公信力。
本研究将所得数据集中的用户行为数据(点赞数、评论数、收藏数)按照日期进行汇总整理,绘制了突发公共卫生事件中政务短视频用户行为演化图,如图6所示。可以看出,不同生命周期阶段用户的点赞、评论、收藏行为演化趋势大致相同,在总体数量方面,点赞行为最多,评论行为次之,收藏数量再次之。已有研究[29]指出,社交平台上评论行为相较于点赞行为而言门槛更高,更能表示用户的参与程度。本研究发现,用户的点赞数量远高于评论数量,这印证了短视频平台中同样存在这样的用户行为倾向。
图6 用户行为演化分析
本研究借助SPSS筛选出四个阶段中点赞数、评论数、评论数、收藏数排名靠前的3个话题如表5所示。可以看出,不同阶段中显著的用户行为对应的话题有所差异。在征兆期、持续期、恢复期,用户倾向于对观点框架下的政务短视频(特别是榜样树立类)进行点赞、评论和收藏。在爆发期,则用户倾向于对行动框架下的政务短视频进行点赞、评论和收藏,对信息框架下的政务短视频则倾向于收藏。这表明,观点框架下的政务短视频安抚了公众的情绪,具有较好的传播效果。爆发期引发显著用户行为的话题相较于其他阶段有所不同,用户在这一阶段对于行动框架以及信息框架下的政务短视频内容更为认可。
接下来回溯不同生命周期阶段政府回应的话语策略,将用户在不同阶段感兴趣的话题与政府在不同阶段侧重发布的话题进行对比,以检验政务短视频发布策略的有效性。从图4和图5不难看出,样本中观点框架下的政务短视频数量在四个生命周期阶段的占比一直不低,特别是到了持续期与恢复期,数量基本稳定在较高水平,这说明政府对于观点框架的情绪安抚作用比较重视,而用户的确倾向于对该框架下的短视频进行点赞、评论和收藏,这表明政府在突发公共卫生事件期间采取的安抚情绪、树立典型模范的策略是非常有效的。用户在爆发期对于行动框架以及信息框架下的政务短视频内容更为认可,而信息框架下不同主题的视频数量相较于其他框架而言较少,这表明政务短视频发布者在爆发期对于信息框架的内容发布有所欠缺。因此,政务短视频在运营过程中,把握用户在生命周期不同阶段感兴趣的话题,制定出相应的发布策略能获得更好的传播效果,如在爆发期增加对信息框架下短视频的发布频次。
表5 生命周期不同阶段显著用户行为及对应话题
本研究借助SPSS对于三种用户行为(点赞、评论、收藏)进行Spearman相关性检验,所得检验结果如表6所示。样本中的点赞数、评论数、收藏数两两之间的Spearman相关系数均大于0.65,且置信度小于0.01,这表明三者之间的相关性较强。值得注意的是,点赞数与收藏数之间的相关性系数达到了0.913,说明用户的点赞行为与收藏行为高度相关。
表6 用户行为Spearman相关性分析结果
已有研究[4]指出,话题向量与用户行为向量的余弦相似度越大,则表示话题与用户行为更为相关。因此,本研究筛选出上文中话题-用户行为余弦相似度矩阵中的较大值(所得结果如表7所示),从而挖掘出显著影响用户行为的政务短视频话题。可以看出,topic2、topic25、topic26均与用户的点赞、评论、收藏行为显著相关。其中,topic2(核酸检测)、topic26(分区管控)都属于行动框架下的抗疫政策普及主题,topic25(辟谣信息)则属于信息框架下的科普与辟谣主题。这表明,政务短视频的受众对于政府在突发公共卫生事件期间采取的举措与相关防疫政策特别关注,对于官方的辟谣信息也比较信赖。另外,用户倾向于对观点框架下的政务短视频(舒缓公众情绪的视频)进行点赞,相较之下,观点框架对应的评论与收藏行为则不太显著。这表明,突发公共卫生事件期间政务短视频的受众对于涉及到他们切身利益(人身安全、健康等)的话题更为关注,除了点赞之外还会进行评论和收藏。
表7 与用户行为显著相关的话题
本研究有助于帮助政府部门了解突发公共卫生事件舆情走势以及用户诉求,从而制定个性化的政务短视频发布策略来实现政务短视频的定向、精准传播,主要研究结论如下:
首先,不同的生命周期阶段应制定针对性的政务短视频发布的主题策略。用户在征兆期、持续期、恢复期倾向于对观点框架下的短视频(特别是榜样树立类)进行点赞、评论和收藏;在爆发期则倾向于对信息框架下的政务短视频进行收藏。因此,政务部门应在不同生命周期阶段基于对应的框架来安排发布主题,如征兆期与爆发期聚焦安抚公众的情绪,持续期则聚焦于物资配送、榜样树立主题,恢复期继续侧重于塑造典型榜样并加大对事件处理成果的宣传。
其次,要加大观点框架的使用频度和使用力度。数据分析结果显示观点框架下的短视频数量在四个生命周期阶段的占比一直不低,而用户也的确倾向于对该框架下的短视频进行点赞、评论和收藏,说明政务短视频发布方对于观点框架的运用是行之有效的,政府采取的安抚情绪、树立典型模范的策略是非常有效的。
再次,舆情爆发期应重视和强化信息框架下的短视频发布。用户在爆发期对于行动框架以及信息框架下的政务短视频内容更为认可,但信息框架下不同主题的样本数量相较于其他框架而言较少,说明政务短视频发布方对爆发期信息框架的运用有所欠缺,应科学规划来充分发挥信息框架在舆情爆发期的积极作用。
本研究采用规范的实证研究方法和科学的数据分析方法,从主题和行为的视角对突发公共卫生事件中政务短视频进行了一次有益的研究探索。受制于数据可获得性和平台监管等客观因素,本研究存在一定的研究局限。未来的研究将拓展平台样本范畴,针对不同平台的政务信息主题进行对比研究。在研究场景选取方面,将拓展至更丰富的研究案例。此外,本研究对于用户行为的度量仅限于点赞数、评论数和收藏数,未来研究可将评论文本的主题与情感特征纳入考量,拓宽政务短视频用户行为的研究范围。