龚 睿,王筱莉,朱 株,连卓毅
(上海工程技术大学 管理学院,上海 201620)
目前关于企业危机舆情生成方面的研究,少数学者利用fsQCA 探究企业危机舆情的生成机理[3-4]。在企业危机舆情传播影响因素方面,有些学者基于主体层面研究不同主体对企业危机舆情传播的驱动作用[5],部分学者基于行为层面分析不同干预措施对企业危机舆情传播的影响[6-7]。在企业危机舆情应对方面,学者们主要从应对效果、应对策略等角度对企业危机舆情进行研究。在舆情应对效果研究中,大多学者采用实证分析法[8]和构建指标体系[9]探究舆情应对效果。在舆情应对策略的研究中,部分学者基于系统动力学理论对舆情传播机制进行分析,并在此基础上提出舆情应对策略[10-11]。随着研究的不断深入,部分学者将微博文本与企业危机舆情应对策略相结合,探究舆情主题与网民情感变化规律,并在此基础上提出舆情应对策略[12]。
综上所述,学者们从不同角度针对企业危机舆情进行了大量研究并取得丰硕成果。但针对企业危机舆情探究主题与情感演变规律的研究还相对较少,且在现有的研究中学者们较少通过知识图谱整体展示舆情各阶段网民讨论热点,也较少使用情感图谱深入探究舆情情感演变规律揭示意见领袖对网民情感的影响机制。基于此,在现有研究基础上,本文考虑生命周期理论,融合知识图谱与情感图谱构建企业危机舆情主题与情感演化模型,并以“双汇生产车间乱象”事件为例进行实证分析,以此来揭示企业危机舆情主题及情感演化规律并了解意见领袖对网民情感的影响,为企业危机舆情治理提供理论依据。
本文以企业危机舆情为研究对象,基于生命周期理论,融合知识图谱与情感图谱构建企业危机舆情主题与情感演化模型,如图1 所示。
图1 企业危机舆情主题与情感演化分析模型
该模型主要由数据获取及预处理、舆情阶段划分、演化分析三个环节组成。
通过分布式爬虫框架Scrapy 爬取企业危机舆情相关微博及评论文本数据并对文本数据进行预处理,包括删除重复项使用Jieba 分词脚本和自定义词典进行分词、去停等,得到实验语料库。
基于生命周期理论,结合舆情发生的时间和传播趋势,将舆情划分为突发期、爆发期和消退期三个阶段。同时将实验语料库按照舆情阶段划分为三个阶段实验语料库。
该环节基于各阶段实验语料库进行各阶段高频关键词知识图谱构建、主题挖掘和情感分析,内容如下:
2.循环训练法。此训练法将数种练习按一定顺序安排,严格控制,使身体一直处于疲劳状态下,以发展多部位力量耐力训练。一般采用4~5个部位练习循环4~6组,每组间歇4~6秒,训练间歇2~3分钟。除了发展快速力量耐力外,对运动员内脏功能也有良好影响,也可提高练习兴趣。
(1)高频关键词知识图谱构建。首先基于实验语料库统计词语词频并结合TF-IDF 算法计算词语权重,提取各阶段高频关键词。
其中,tfidf 是评估词语重要性的加权方法,tf 指词词频,idf 指逆词频。
其次,用共词分析法构建各阶段共现矩阵,利用Gephi 软件绘制各阶段高频关键词知识图谱。整体把握网民的关注热点且综合认识网民讨论内容,并了解高频关键词在舆情事件中的地位及相互间的关系。其中,共现矩阵计算公式见式(4),当词a 和词b 同时出现在一句话中,则表示词a 和词b 之间有共现关系并形成一条连边,其边的权重加1,反之两个词之不存在共现关系,即边的权重为0[13]。
(2)LDA 主题挖掘。基于实验语料库利用LDA主题模型进行各阶段主题挖掘。LDA 模型结构如图2所示。生成文档步骤如下:①计算文档-文档话题分布,针对所有文档进行采样,选择参数为α 的狄利克雷分布,分布结果Qm~Dir(α),m∈[1,M];②计算单词-话题分布,针对所有话题进行采样选择参数为β 的狄利克雷分布,分布结果Qm~Dir(β),m ∈[1,M];③针对第m 篇文档的第n 个词,从Qm中抽取一个话题Zm,n,使Zm,n~Muliti(Qm),从φk中采用词wm,n,使wm,n~Muliti(φk)。其中,Muliti(Qm)是Qm的多项分布,Muliti(φk)是φk的多项分布。
图2 LDA 模型结构
(3)情感分析。该部分主要包括各阶段情感倾向占比分析和各阶段情感图谱绘制。首先,利用朴素贝叶斯分类器对各阶段实验语料库进行情感分类。其描述过程如下:①设x={a1,a2,…,am},其中a 为x的某个特征属性;②有类别集合C={y1,y2,…,yn};③计算P(y1|x),P(y2|x),…,P(yn|x);④若存在P=(yk|x)max{P(y1|x),P(y2|x),…,P(yn|x)},则x∈yk。
其中步骤③为整个计算过程中的关键步骤,该步骤无法直接计算得出条件概率,因此需要对训练集中各属性各特征属于各类别的条件概率进行统计。即:
其次,根据各阶段文本情感分类结果确定发表该文本的用户的情感倾向,通过Python 提取各阶段用户间的转发评论关系,以微博用户为节点,用户之间的转发以及评论关系为边[14],利用Gephi软件绘制各阶段情感演化图谱进行可视化情感演化分析。
考虑到微博平台的高影响力和高关注度,本文以“双汇生产车间乱象”事件作为研究案例,基于微博平台借助分布式爬虫框架Scrapy 爬取与该事件相关的热门微博及评论信息共获取相关数据11 622条并进行预处理,最终得到7 874 条有效文本数据。依据生命周期理论,结合事件发生的时间以及传播量等特征,将此次舆情事件划分为三个阶段:3 月14日突发期阶段,共有343 条有效文本数据;3 月15日~3 月16 日爆发期阶段,共有6 495 条有效文本数据;3 月17 日~3 月31 日消退期阶段,共有1 009条有效文本数据。
本节通过TD-IDF 算法及词频统计提取各阶段权重排名前300 且词频排名前100 的高频关键词构建知识图谱,结果如图3 所示。其中,词语出现频率越高节点越大,节点之间共现次数越多连边越粗。
图3 各阶段高频关键词共现知识图谱
由图3 可知,在舆情整个时期,均是“双汇”一词为中心节点,其他关键词向边缘扩散。“双汇”“火腿肠”“食品”“安全”“生产”“车间”“猪排”等词联线较粗共现明显,这些关键词围绕此次舆情事件以及由双汇事件所引发的食品安全问题,表明双汇事件本身和食品安全问题是整个舆情期间网民的关注热点。
本节采用LDA 主题模型进行各阶段主题挖掘,具体结果如表1 所示。
表1 各阶段主题挖掘结果
由表1 可知,在突发期阶段舆情讨论内容三个主题。其中,TopicI-1 讨论内容是双汇集团之前存在的瘦肉精等问题;TopicI-2 是指双汇生产车间乱象事件本身;TopicI-3 是网友对双汇的批评与抵制。在爆发期阶段,舆情讨论内容在突发期讨论内容的基础上得到了丰富。双汇生成车间乱象事件在突发期首次曝光,在爆发期阶段网友对双汇事件本身进行再次转载(TopicII-2)。在宏观层面,网民的主要关注点集中于监管部门对企业食品安全的监管力度和监管责任的讨论(TopicII-3)以及食品安全问题的讨论(TopicII-1)。从网民自身角度来看,由于在此次事件期间酸菜也被爆出食品安全问题,网民将火腿肠和泡面一起进行了讨论(TopicII-5)。双汇发展发布声明进驻双汇南昌生产车间进行调查、自查自纠,并发布了道歉声明以及整改措施。因此联合调查组入驻调查以及双汇集团发布道歉声明也是爆发期的主要话题(TopiII-6、TopicII-4)。在消退期阶段,讨论内容分为四类,分别为网民希望监管部门对于存在食品安全问题的企业及责任人进行严惩(TopicIII-1)、食品安全事件频发的根源(TopicIII-2)、对双汇所发布的道歉声明和整改措施的不认同(TopicIII-3)对食品安全问题进行讨论(TopicIII-4)。
通过对表1 中内容分析可知,部分话题会在相邻的两个阶段连续出现受到网民持续性地讨论,表明这些话题不仅是舆论热点还是网民关切的问题。网民对双汇事件本身持有不满意的态度,并从监管力度、处罚力度、事件发生根源等方面对监管部门和国家法律提出质疑。双汇集团对于此次舆情的应对效果并不好,究其缘由,从过去报道以及突发期挖掘结果可以发现双汇集团曾发生食品安全问题导致网民对该集团失去信任。因此,企业以及相关部门可以实时监测舆情演变动态并根据舆情主题演化特征,针对各阶段不同的热点舆论采取合理及差异化的应对措施。
2.4.1 情感倾向性分析
本节利用朴素贝叶斯分类器对微博文本进行情感分类,分类结果如表2 所示。
表2 各阶段网民情感倾向占比
由表2 可知,在整个舆情期间,负向情感占主导地位占比为73%,而正向情感占比在整个舆情期间波动不明显,表明在此次舆情中网民对食品安全问题的厌烦且在整个舆情传播过程中有小部分网友能坚持自己的立场。结合主题挖掘结果,舆情突发期阶段中性情感占比27%相对较高,是由于部分网民对微博报道进行一个转载使得有些评论信息和微博没有明显的情感倾向。舆情爆发期阶段,舆情事件得到了网友的广泛参与,多数网友从双汇事件本身上升到企业食品安全问题、监管问题,并对监管部门和双汇集团发表了负面评论。在此期间酸菜也被爆出负面新闻,部分网友将两者联系在一起,更激发了网民对于企业食品安全问题的负面情绪,因此爆发期阶段负向情感占比高达75%,在整个舆情演化周期中占比最高。在舆情消退期阶段,负面情感由爆发期的75%下降到62%,中性情感由爆发期的17%上升到29%。此阶段部分网友开始理智地探讨食品安全问题频发的根源,形成了负向情感向中性情感的转变。
2.4.2 情感图谱构建
为了更加深入地了解企业危机舆情情感演化规律并了解意见领袖对普通用户情感的影响机制,本节进行情感图谱绘制,如图4 所示。其中小、中、大节点分布代表拥有负面、中性、正面情感的网民。舆情突发期,共有316 个节点、313 条边,普通节点形成了一定的负面情感聚集。舆情爆发期,共有3 968 个节点、3 975 条边,普通节点数量迅速增加,负面情感聚集现象更加集中,以媒体用户为主的核心节点其影响力变大。舆情消退期,共有285 个节点、282 条边。表明企业危机舆情的突发期和爆发期是舆情管控的关键时期。
图4 各阶段情感图谱
从节点影响力来看,在舆情突发期,与微博红人和媒体用户相连的普通用户节点数量差距不大;在舆情爆发期,与微博红人相比,普通用户与媒体用户连接更多;在舆情消退期,与普通用户节点相连的多为媒体用户节点。表明在整个舆情传播过程中,媒体用户影响力最为显著,微博红人影响力略低于媒体用户。从节点情感倾向来看,媒体用户多为中性情感。微博红人情感倾向多为负向。但多数普通节点与微博红人情感类别一致,表明其情绪对社群内其他普通用户的情感有较为直接的影响,容易引起普通用户的情感共鸣。因此,在舆情管理中,应加强对微博红人的舆论引导,以防其可能的不当言论,扩大事件影响力。
本文基于生命周期理论,融合知识图谱和情感图谱构建企业危机舆情主题与情感演化模型。以“双汇生产车间乱象”事件为例,采用知识图谱、LDA 主题模型、朴素贝叶斯情感分类器和情感图谱对舆情不同阶段的网民关注热点、讨论主题和情感演变规律进行实证分析。通过实证分析得出结论:(1)随着舆情的不断演化,网民讨论内容略有不同,但部分话题受到持续性讨论。(2)网民情感变化与舆情主题演化规律相吻合。突发期阶段开始产生负面情绪;随着舆情的扩散负面情感在爆发期阶段达到峰值;舆情消退期部分网民回归理智负面情感较爆发期有所下降。(3)媒体用户和微博红人多为舆情传播过程中的核心节点,媒体用户的影响力略高于微博红人,但普通用户的情感容易受到微博红人的影响。
本文仅选择“双汇生产车间乱象”事件进行分析,而不同企业危机舆情事件可能会存在差异,将多个案例进行对比研究,进一步深入探讨企业危机舆情主题与情感演化规律将是接下来的研究重点。