基于扎根理论与词典构建的微博突发事件情感分析与舆情引导策略

2019-03-14 15:05张鹏崔彦琛兰月新吴立志
现代情报 2019年3期
关键词:情感分析扎根理论微博

张鹏 崔彦琛 兰月新 吴立志

摘要:[目的/意义]网民情感变化是影响政府舆情应对进程、政策、策略的关键。因此,构建科学高效的情感词典,对网民情感分析研究及应对策略的选择具有重要的实际意义。[方法/过程]结合扎根理论的质性研究特点,在情感词典的构造中融入突发事件演化规律影响因素,采用点互信息算法,TF-IDF,统计量等方法对微博表情符号词典及突发事件专属情感词典进行构建,编制了突发事件情感词典,随后选取“6.22”杭州保姆纵火案微博语料进行情感分析。[结论/结果]实验发现,与不加入影响因素的情感词典相比,本文构造的词典在准确率召回率等指标的对比中均得到了一定程度的提高。同时,结合扎根理论与主题分析的结果,对舆情发展的不同阶段所选择的舆情应对策略提供了参考。

关键词:扎根理论;情感词典;情感分析;微博;突发事件

DOI:10.3969/j.issn.1008-0821.2019.03.014

〔中图分类号〕G206〔文献标识码〕A〔文章编号〕1008-0821(2019)03-0122-10

随着“Web2.0”时代的到来及互联网技术的迅猛发展,人们使用网络的频率快速增加。根据中国互联网络信息中心(CNNIC)第42次《中国互联网络发展状况统计报告》的数据显示,截至2018年6月30日,我国网民规模为8.02亿,其中,微博的网民使用率增长至42.1%,用户规模半年内增长6.8%[1]。微博已成为网民“分享个人生活,传递新闻热点,发表言论见解”的重要阵地与平台。而面对这样井喷式的信息体量与大规模的网民数量时,政府及相应的网络安全监管部门的舆情分析及监控预警方面仍显不足,如何深度了解舆情演化进程及影响因素,即时高效分析网络评论及整体情感走势,是当前亟待解决与研究的问题[2]。

1扎根理论和突发事件情感分析

1.1基于扎根理论的突发事件网络舆情研究

作为质性研究问题的一种典型方法,扎根理论由Barney Glaser等于1967年首先提出。不同于传统的量化模式,扎根理论杜绝先验假设,提倡从访谈、搜集、调查问卷等丰富的数据载体中进行资料的汇总与归纳,经过三级编码及饱和度检验后进而形成科学的理论[3]。这种方法将定性分析与量化研究相结合,对问题的分析与解决予以深度、全面、科学的建构,其核心环节分为开放式译码、主轴译码和选择性译码3个步骤。目前,扎根理论主要应用在以下3种情况:①新產生的理论体系或概念构成不够完善,缺乏理论的科学性;②既有问题的研究存在影响因素错综复杂,指标划分缺乏合理性等问题;③需要对研究较为成熟的理论及问题进行更高层次的丰富,如动态演变、交互关系等过程类问题,以期对所研究的问题赋予与时代相适应的新内涵。

目前,扎根理论已经在生物学、组织行为、公共管理等多个领域得到广泛的应用。在网络舆情研究方面,对于扎根理论的应用主要分为两个方面:一是从舆情构成要素、舆情传播规律等视角出发,对突发事件网络舆情的影响因素、演化过程及微博用户集群、交互的因素识别等问题的研究[4-6];二是从舆情整体研究现状出发,以学科架构、未来热点探索的视角对现有网络舆情研究进行扎根分析,对未来的网络舆情研究发展提出了如多因素研究、学科交叉、考虑互联网整体发展过程的影响等建议[7-8]。综上,扎根理论已在网络舆情中得到一定程度应用,但该方法在情感分析及应用决策方面还需进一步研究。因此,结合不同舆情阶段的主题挖掘,可极大增强情感词典的常用词覆盖率,提高情感分析的准确性与科学性。

与传统类型的网络舆情相似,突发事件网络舆情具有“随机发生,多方交互,载体多元”的特点,此外,由于其领域的特殊性,在突发事件网络舆情的演化进程中呈现出了特定的传播规律及演化进程。目前,国内外针对舆情的演化阶段及特点做了大量研究,如B T Burkholder等针对复杂灾害下网络舆情的演化提出了经典的3阶段模型;Coombs将突发危机分解成四个阶段:潜在期、突发期、蔓延期、解决期;安陆等结合情感特征的选取,将舆情演化进程分为:起始阶段,爆发阶段,衰退阶段与平息阶段4个部分,崔鹏等依托生命周期阶段理论,构建了突发公共事件网络舆情发展生命周期“六阶段”模型[9-12]。

1.2突发事件网络舆情情感分析

情感分析,也称为观点挖掘、意见挖掘。是指从文本中分析出人们对于实体及其属性的观点、情感、评价、态度和情绪。在文本语料的分析中可以把其看做是对某文档d的观点五元组(e,a,s,h,t)的信息获取[13]。其中e表示观点的目标实体,a为实体e中的一个属性,表示属性蕴含的情感,h表示观点持有者,t为观点发布时间。情感分析目前的主流研究方法可分为两种,一种是基于监督的情感分类;另一种是基于无监督的情感分类,可细分为使用句法模版和网页检索的情感分类及使用情感词典的情感分类。通过对比两种方法可以看出:虽然监督学习可以在多种特征中自动学到有效的分类模型,但其过分依赖标记数据的缺点也较为明显,其领域扩展性较差。而情感词典方法无需手动标记大规模训练数据,且可以通过规则的改正实现对错误的快速修正[14-15]。

结合目前国内外学者有关情感分析在网络舆情领域的研究进展,可将研究内容大体分为几个范畴:一是舆情构成要素在情感分析中的影响,包括舆情主体,舆情客体,舆情引起方等,辅以心理学,时空特性等角度进行研究[16-18];二是情感分析在舆情预警中的应用研究,包括情感识别、情绪分层、风险评估、舆情预警、策略选择等内容[19-20];三是情感分析工具及手段的优化,包括基于SVM、朴素贝叶斯、CRF等机器学习算法的改进,词典构建以及将这词典构建与机器学习融合使用的算法改进与实验论证[15,21-22]。本文在前人有关舆情分析的理论基础上,考虑到扎根理论及主题提取分别在质性分析和主题挖掘方面具有一定的优势,但如何将二者结合,并将其融入到情感分析中,探究微博突发事件中的舆情监督方法及应对策略,在这一研究方向上目前还处于探索阶段。因此,本文主要从以下几个方面作出进一步的研究:1)充分结合扎根理论对特定问题的质性研究优势,分析微博突发事件演化中的影响因素,并将获取的影响因素与主题提取,时间维度相结合,分析三者的关联性,探究舆情演化中的核心影响因素,分析网民情感变化的原因;2)在情感词典构建中,结合扎根理论的影响因素及改进的LDA主题模型,对微博突发事件情感词典做出优化;3)在情感分析中,将提取到的主题信息进行核心范畴的归纳,进而选取适合舆情应对的策略及措施。

通过上述基本理论,本文结合扎根理论的质性研究特点,采用基于情感词典的情感分析方法对突发事件网络舆情演化阶段进行情感极性及极性强度的分析,可以实现理论间的深度融合,科学高效地得出舆情应对策略。

2基于扎根理论的案例分析

2.1事件描述

2017年6月22日5时,浙江省杭州市蓝色钱江小区发生纵火案,造成4人死亡,法院对保姆莫焕晶提起公诉。然而,随着犯罪嫌疑人对于案发经过的“所谓真相”的不断透露,媒体及民众开始对案件相关方——杭州市消防局的灭火救援行动提出大量的质疑。同时,在各大线上线下媒体的助推下,舆情不断发酵,在微博上迅速演变成衍生舆情,对政府及相关部门的公信力造成了极大影响。基于此,在微博中搜索含有“保姆纵火案”的主题讨论,新闻事件评论及个人评论文章,共计约447亿次阅读量,260余万条评论。鉴于扎根理论对于原始数据的选择标准为数量充足,质量较优,因此,在260余万条评论中采用TF-IDF方法选取1万条热门评论或篇幅较长的评论作为原始资料,其具体来源分别是:话题讨论中的留言3 276条,热门新闻评论区留言3 823条,意见领袖热度较高的评论文章留言2 901条。其中,点赞数量超过500的评论有2 894条,超过1 000的评论有1 203条,符合扎根理论对原始资料的要求。

2.2事件分析

第一步,进行开放式编码。本文采用辅助分析软件Nvivo 10.0进行编码,首先确定微博语料的概念和范畴。部分开放编码过程如表1所示。

第二步,主轴性编码。采用扎根理论中的典范模型对事件演化因素使用故事线进行连贯,以“因果条件—现象—脉络—中介条件—行动—结果”六个方面串联起来。同时,在串联过程中,对部分叠加范畴进行归类,形成主范畴概念,为最终的选择性编码做好理论筛选。主轴性编码典范模型如图1所示:

第三步,选择性编码。在上一步的基础上,寻找主范畴中的核心范畴,以其作为舆情应对及词典构建的理论基础。因此选择出的核心范畴必须具有“统领全文资料,资料内容科学刻画,与其他主范畴间联系自然且紧密”的特点。最终,本文确定了3个核心范畴:官方发布,媒体导向,情感情绪。

第四步,理论饱和度检验。为确保影响因素构建的全面可靠,需对编码后的理论进行饱和度检验。在结合现有检验模式的基础上,本文采用如下两种检验方式:1)Pandit N R提出的经典饱和度检验方法,即采用预留的500條评论内容重新进行三级编码,与首轮编码结果相比没有产生新的概念,可认为理论饱和;2)采用归类一致性指数,即分档时分档者对于相同评论内容编码归类一致的数量与整体编码评论数量的比值。经实验论证后,本文编码的信度值C为0.83,信度值较高,证明构建的理论通过检验。

3微博突发事件情感词典的构建

3.1微博突发事件情感词典的构成

本文用于情感分析的词典具有较强的突发事件领域针对性及适用性,且情感分析的内容均为网络评论文本。为此,除了使用基础情感词典、程度副词情感词表、否定词情感词表及连词词表外,还应在自定义词典中加入突发事件专属情感词典及表情符号情感词典。其中,程度副词情感词表、否定词情感词表及连词词表可参考文献[23-24]。在选择基础情感词典的问题上,鉴于本文的情感分析目标是多维情感分析,而不是传统意义上的三元分类,在考量了国内常用的情感词典后,决定使用大连理工大学的情感词汇本体库,选择其中的词语,情感分类及情感强度3项特征,其中情感分类为“乐、哀、怒、惊、惧、好、恶”7种情感维度。本文使用的情感词典的构成如图2所示,下面将对表情符号情感词典及突发事件领域专属词典的构造予以描述。

3.2表情符号情感词典构造研究

目前,微博上存在的表情符号种类繁杂,情感各异,若全部采用人工标注的方式显然效率较低,且不利于后续表情符号情感词典的自动构建。为此,首先随机抽取3 000条含有表情符号的情感词典,对文本中的表情符号进行词频统计,选择频率高的表情符号作为基准符号候选名单,在确保7类情感维度的基准表情符号数量基本均等条件下,对基准符号进行人工标注,方法参考本体库对于情感词汇的标注原则,得到表3所示的基准表情符号词典。随后,采用点互信息(PMI)算法进行表情符号情感词典的自动扩展[24],算法公式如式(1)所示:

PMI(x,y)=logp(x,y)p(x)p(y)(1)

式(1)中,p(x,y)表示x与y一起出现的概率,p(x)是表征词语x在文本中使用的概率,p(y)表示词语y在文本中使用的概率。PMI(x,y)表示两个词语同时出现的程度。对目标情感符号进行遍历搜索,对得到的PMI值进行排名,在进行对比后将目标表情符号归入到PMI值最大的基准符号类别中。在此规定:①若目标表情符号在遍历计算后与所有基准情感符号的PMI值为0,则可认为该表情较为生僻,不予纳入表情符号词典;②若一条评论文本中出现两种或两种以上情感维度时,根据中文的行文规律,重要的情感维度通常会放置在句子的后半部分,此种情况在突发事件的评论文本中也较为适用。因此,情感分析以最后出现的表情符号所属情感维度进行归纳。对得到的归纳后的表情符号采用文献[25]的方式进行强度计算,并取整,即可得到表情符号情感词典。

3.3突发事件专属情感词典构建研究

领域专属情感词典是指针对特殊适用领域而构造的情感分析专用词典,是为了提高情感词典评价指标的重要组成部分。但此类情感词在一般的基础情感词典中都没有收录,或者被标定为中性情感词,这显然与实际情况存在较大的误差。为此,采用如下程序构造突发事件专属情感词典:①结合2.2节事件分析中对于突发事件网络舆情影响因素的分析,选取开放式编码得到的15个范畴和52个概念;②对爬取后的文本数据作时间切片,以“天”为单位进行数据划分。随后使用上下熵方法,对经过ICTCLAS分词软件进行分词处理的微博语料作词频统计,并设定词语上下熵的阈值。经此种方法处理后的词语虽然包含大量预期的主题词语,但仍存在一些非目标词语的高频词,如“的是”“不过”等。因此,引入TF-IDF方法对词语在语料中的重要程度进行排名,在计算每个词语的TF-IDF值后,将该数值与设定的限值相比较,并将高于该限值的词语作为专属情感词典的扩充词集。具体如公式(2)所示;③将上述得到的词语,范畴和概念进行汇总,采用头脑风暴的方式进行词语扩展。对词语进行情感维度、情感分类的标注后,最终得到103个领域情感词,部分情感词如表4所示。

通过上述词典的构建,基本囊括了影响微博情感极性分析的主要文本及语料。对得到的情感词语进行情感极性强度的计算时,可参考文献[26]的方法进行计算,进而实现情感分析的数值量化。

3.4实验与分析

3.4.1实验设计

为验证本文构建的情感词典的有效性,从“6.22杭州保姆纵火案”的主题评论中随机挑选3 000条评论文本构成实验样本,样本采用人工标注法,选取心理专业的4名未参与情感极性强度标注过的研究生进行标注,规定:同一条评论中至少有3人的情感标注维度一致时方可收录。最终得到2 934条被标记的评论。将标记的评论分别使用情感词汇本体库及本文构建的微博突发事件情感词典进行情感分析,实验的评价指标选择准确率、召回率及F-measure 3项指标进行综合比对分析,进而确保指标间可以优势互补,对实验结果实现科学准确的刻画。3项指标的计算公式如式(3)~(5)所示:

p=n1n1+n3×100%(3)

r=n1n1+n2×100%(4)

F-measure=2prp+r(5)

其中,n1表示正确判断出情感极性的词语数,即被词典和人工极性标注一致的词语数,n2表示的是被词典判断的情感极性与人工标注结果不一致的词语数,n3表示不属于检索范围但被词典检索出的词语数。最终得到的实验结果如图3所示:

图3不同情感词典的情感分析性能对比

3.4.2实验分析

从图3可以看出,在准确率、召回率、F-measure 3项指标方面,本文构建的微博突发事件情感词典均优于本体库及不包含微博表情符号的情感词典,准确率在3项指标方面与后两者相比分别提高了7%、4%;召回率相比提高了9%、4%;F-measure相比提高了8%、4%,证明了本文构建的情感词典在针对突发事件的情感分析中能够实现较优的分类性能,更适用于实际情感分析。

4微博舆情情感演化分析

4.1全文本数据处理

采用八爪鱼采集器对“6.22杭州保姆纵火案”事件的相关主题讨论、微博评论进行爬取,提取时间为2017年6月22日14时~2018年6月22日14时,爬取的目标为评论者、评论内容及评论时间,爬取完毕后共得到2 632 891条文本内容。在进行去除链接、去除停用词、繁体字转化、垃圾文本筛选等数据清洗后,共得到2 537 771条文本信息。采用中科院的ICTCLAS分词系统进行中文分词,为下一步情感词典分析做准备。

4.2舆情时序图

将评论信息以“月”为单位进行评论数量的统计,舆情时序图如图4所示,图内数字表示对应月份的评论及讨论总量。可以看出该事件自2017年6月22日发生后,网络舆情呈现出“双峰”型的演化规律,结合文献[9-12]关于舆情阶段的划分,本文以“爆发期,衰减期,恢复期”3个阶段进行划分。由于该事件在后续发展阶段产生了衍生舆情,因此应在发展阶段中加入“二次爆发期,二次衰减期,二次恢复期”3个阶段,共形成舆情发展的六个阶段,分别为:一次爆发阶段(虚线1之前),一次衰减期(虚线1~2),一次恢复期(虚线2~3),二次爆发期(虚线3~4),二次衰减期(虚线4~5),二次恢复期(虚线5之后)。

为了进一步剖析各个阶段舆情信息量的变化因素,使用进行特征提取。如公式(6),不同于传统的特征提取方式,此处引入统计量进行特定时间窗口的特征选择[26]。数值越大,则说明关联度越高,其公式如式(7)所示:

W(s,d)=tf(s,d)×log(N/nt+0.01)∑s∈d[f(s,d)×log(N/nt+0.01)](6)

χ2(s,t)=Q×(A×D-C×B)2(A+C)×(B+D)×(A+B)×(C+D)(7)

式(6)中,W(s,d)为特征项t的权重,tf(s,d)为主题词的词频,nt为主题词t出现的文档数目;式(7)中,N为文档总量,A为属于t并且包含s的频数,B为不属于t且不包含s的频数,C为属于t但不包含s的频数,D为既不属于t也不包含s的频数,Q为文档总量。

由此,便可得到不同阶段主题词的分布情况,主题词分布具体如表5所示。其中,在一次爆發阶段中微博的主题词主要有“安慰”、“加油”、“坚强”、“保重”、“感动”、“懵”等,大部分为积极正面的词语,存在少量包含“震惊、恐惧”情绪的词语,讨论的热点主要有四件,分别为:网民对林先生表示同情与安慰,绿城物业责令林先生搬移灵堂,林先生创立“潼臻一生”基金会,网友对保姆纵火行为的谴责与声讨;一次衰减阶段的主题主要包括消防部门官方回复,林先生出院,物业删帖,网友对林先生的七夕祝福;而一次恢复阶段的主题体现在物业防护监督不力,法院审理时间的讨论,针对现场消防设备使用情况的质疑以及保姆纵火行为的痛斥。进入二次爆发阶段,主题更加多元,主要包括法院宣判保姆莫焕晶死刑,网民对林先生的支持与鼓励行为以及对杭州市消防局的处置行动提出质疑;二次衰减阶段的主题词包含“心酸”、“可怜”、“房屋质量”、“信息公开”等词语,体现为绿城房屋质量的隐患,对政府信息公开的诉求;最后,进入二次恢复阶段,主题词演变为“无奈”、“迷茫”、“赔偿”、“正义”、“不公”,可以看出进入到二次恢复阶段的舆情波动仍然较大,若不加以疏导管控极易引发新一轮的舆情扩大。

表5舆情发展阶段主题词分布情况([*]为微博表情)

舆情阶段编号主题词主题词对应事件

一次爆发阶段(A)

A1安慰坚强加油保重[心]网民对林先生表示同情与安慰

A2物业绿城道歉灵堂真相绿城物业责令林先生搬移灵堂

A3潼臻一生基金哭感动林先生创立“潼臻一生”基金会

A4保姆,恶劣,懵,消防发布保姆纵火行为引发强烈谴责与声讨

一次衰减阶段(B)

B1七夕微笑善良美好情人节网友在七夕节对林先生表达祝福

B2消防体制问责答复[微笑]消防部门针对林先生及网友的问题进行官方答复

B3出院安全平安林先生平安出院

B4维权节哀绿城删帖真相绿城物业删帖引发网友维权意识

一次恢复阶段(C)

C1真相设备消防责任灭火林先生对消防设备及物业消防责任提出质疑

C2交代不作为寒心监督火灾调查绿城物业消防监督及防火措施不力

C3开庭审判希望等待中级法院法院有望在2018年1月开庭审理案件

C4杭州市消防局发布回复林先生三问杭州市消防局寻求答复

C5严惩公道保姆死刑网友要求严惩保姆,还林先生公道

二次爆发阶段(D)

D1死刑一审中级法院宣判杭州市中级人民法院一审宣判犯罪嫌疑人莫焕晶死刑

D2心疼加油善良辛苦[悲伤]网民鼓励支持林先生

D3杭州消防局接警设备责任杭州消防局接警处置流程再度受到质疑

二次衰减阶段(E)

E1白色情人节心酸可怜[伤心]白色情人节,网民自发安慰林先生

E2绿城房屋质量防火材料防火绿城房屋质量及防火材料的使用引起社会注意

E3政府真相信息公开消防设施林先生要求政府信息公开

二次恢复阶段(F)

F1无奈迷茫赔偿林先生对杭州市消防局等9家单位提出赔偿要求

F2祈祷支持保重网民为遇害者祈祷

F3正义不公政府回应[鄙视]网民要求政府公开消防局出警信息

4.3情感分析

使用本文构建的微博突发事件情感词典将分词后的上述2 537 771条评论进行情感分析,按照舆情发展的6个阶段将文本进行分组并进行情感标注,得到如图5所示的舆情发展阶段及情感分类情况,情感分布规律汇总如下:

1)“怒”、“恶”两种情绪占据主导地位。纵观不同阶段情感强度的起伏变化,除一次爆发阶段(A)的主要情感因素为“衰,惊,恶”3种以及一次衰减阶段(B)的主导因素为“好,恶”两种情感以外,在后续的四个舆情发展阶段中,“怒”,“恶”两种情绪都在不同程度上占据着4个阶段内的主导情绪。其中,在一次恢复阶段,“怒”的情感强度达到了整个过程的最大值,表明网民在这一阶段对杭州市消防局回应的排斥以及对保姆纵火行为的痛恨与强烈谴责。

2)“好”、“惊”两种情绪存在同时出现的情况。在一次爆发阶段及一次衰减阶段,“好”的情感强度分别排名第一,第二,这是由于网民对受害者家属林先生的安慰与祝福,以及对其创建基金会的行为予以赞同和支持,促使舆情中“好”的情感属性占比增加;同时,“惊”的情感属性在一次爆发期及一次恢复期也占有重要位置,表明网民面对突发事件时的震惊与错愕,在后续出现的绿城物业删帖问题上也同样出现了此类情感。

3)消极情绪长期存在且没有适当转移。在后续的4个舆情发展阶段中,“怒”的情感强度在迅速上涨后又缓慢下降,但一直保持在8.5的情感值以上,表现出自一次衰减阶段开始,网民对于绿城物业,消防部门及保姆这3类事件相关方的强烈不满情绪,而且在长达10个月的舆情发展中,这一情绪没有得到很好地转移,长期处于高强度态势,极易引发舆情的激变。同时,“哀”的情感强度在二次衰减与二次恢复期逐渐升高,表明网民对林先生所受境遇的无奈与惋惜,以及对于死亡赔偿等要求难以实现的难过与痛心。在二次舆情恢复期,“哀,怒,惡”的情感属性在网民情感值中占据主体,与上一阶段相比,情感强度分别增长了11.7%、13%、15%,网络总评论量增长17%,处于负能量快速集聚的阶段,观察该阶段内的舆情主题词,主要为“不公”、“赔偿”、“回应”、“政府”等词语,因此,政府应结合主题词的特点快速应对,确保舆情在恢复期快速衰减回落。

4.4基于扎根理论的舆情应对措施

鉴于扎根理论对于影响因素的分析可做到客观、全面、准确,因此,在掌握了各个阶段的情绪属性及情绪强度的基础上,结合2.2节构造的突发事件网络舆情演化影响因素的开放性编码结果,将情感主题与编码元素进行匹配,可为不同阶段的舆情应对措施提供重要指导。

1)通过情感数据挖掘,全面感知网民心理情绪演变程度,为政府掌握舆情态势和引导舆情提供决策依据。网民情绪是影响网络舆情的关键因素。通过2.2节的开放新编码可以发现,在面对突发事件时,网民的情绪主要有从众心理,同情心理,冷漠淡薄,怨恨情绪,围观心态,紧张焦虑的六种表现。因此,在一次发展阶段与一次衰减阶段中,网民在“好”这一情感维度中的得分较高,评论量较大,且这两个阶段内的对应主题词有“坚强”、“加油”、“善良”、“美好”等词语,因此可以推测出网民在该阶段的情绪状态为同情心理及从众心理。因此,在这两个阶段应注意正面宣传网民的善意善举,扩大同情心理的网络受众;同时,相关部门要时刻关注舆情的主题演化,避免网民情绪向怨恨情绪、冷漠淡薄等情绪的转变,实现网民情绪的动态掌握。

2)通过情感数据挖掘,及时捕捉负面情感并主动回应,争取引导舆情的先动优势。观察图5所示的舆情发展阶段及情感分类情况,除一次爆发阶段以外,“恶”与“怒”的情感强度一直居高不下,观察这5个阶段的对应主题,主要有防火安全,问责,灭火,寒心,监督,死刑,真相,信息公开等词语,将这些词语与开放性编码结果进行信息匹配,可以发现主题词主要隶属于“失职渎职”,“沟通情况”,“真相质疑”,“问题追踪”这4个范畴。因此,在这5个阶段内,政府及涉事主体(如杭州市消防局)应针对网民的关注焦点问题迅速回应,实现话语权的主导地位,从“事件进展,救援力量,政府立场,谣言驳斥”等角度全方位回应网民的质疑;对于真相质疑这一范畴,政府及相关部门应主动回应,若事件的结果暂不明朗,可以采取“慎说原因,缓说结论,主说措施”的方法,语气诚恳,以理服人,表明立场,防止网络谣言进一步激化。同时,从“沟通角度”这一视角出发,政府及涉事主体应积极应对,讲求沟通策略,主动设置议题,转移突发事件中的恶性因素,如在一次爆发阶段,可结合被害者家属创立“潼臻一生”基金会这一事件,弘扬该事件中的正能量,结合官方的主动回应措施,可加速舆情从爆发阶段向衰减阶段的演化态势。

3)通过情感数据挖掘,快速及时获取网民关切的核心内容,有的放矢,防止应对舆情焦点的错位。情感强度值的变化直观反映了网民的情绪波动情况,因此,若能了解网民的情感属性的变化,就能有针对性地作出舆情疏导措施。如在一次衰减阶段至一次恢复阶段的过渡期,网民情感属性中的“好”情感强度急剧下降,“怒”与“恶”的情感强度值急剧增加,对该阶段的主题词情况和扎根理论的对应影响因素进行比对,得出从一次衰减阶段到一次恢复阶段的转变中,影响因素从“失职渎职”,“沟通情况”,“真相质疑”,“问题追踪”这4个范畴转移到了“情感情绪”,“谣言传播”,“制度构建”这3个范畴,因此,应结合所属范畴的变化,对谣言予以驳斥,针对网民提出的制度缺陷问题,可侧面回应,通过宣传消防部门的规范行为及优良作风,遏制此类评论量的增加。

5结论与展望

本研究提出了一种基于扎根理论与词典构建的情感分析方法,结合微博文本的特点,构建了微博表情情感词典及突发事件专属情感词典,通过分析主题提取在网络舆情预警及分析中的重要作用,采用TF-IDF、χ2统计量进行特定时间窗口的特征选择,扩充微博突发事件领域情感词表,进而得到了微博突发事件情感词典;随后对本文构建的情感词典进行实验论证,表现出了较高的准确性与科学性。以“6.22”杭州保姆纵火案为例,对其进行全文本实验,得到了舆情不同阶段的七维情感分析,通过将提取到的不同阶段的主题词语与扎根编码得到的范畴进行归类,从影响因素的角度对不同阶段的舆情管控提出指导与建议,表明本文的研究方法能够较为科学系统地对网络舆情作出判断与分析,有助于突发事件中的相应管理部门及时了解网民心理情绪及演变倾向,进而使相应部门的舆情应对措施更加高效灵活。然而,本文构建的情感词典仍存在不足,如:特殊语言句式的识别,主观性的客观文本的情感识别以及极性强度算法的改进等,有待后续的研究中逐步完善。

参考文献

[1]中国互联网络信息中心.第42次《中国互联网络发展状况统计报告》[EB].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201808/t20180820_70488.htm.

[2]张鹏,兰月新,李昊青,等.基于认知过程的网络谣言综合分类方法研究[J].图书与情报,2016,(4):8-15.

[3]徐蕾,李庆,肖相泽.基于扎根理论的大数据政策共词网络研究[J].现代情报,2018,38(6):157-164.

[4]于兆吉,张嘉桐.基于扎根理论的突发性网络舆情演化影响因素研究[J].东北大学学报:社会科学版,2016,(5):498-502.

[5]黄远,沈乾,刘怡君.微博舆论场:突发事件舆情演化分析的新视角[J].系统工程理论与实践,2015,35(10):2564-2572.

[6]田梅.网络浏览中偶遇信息共享行为影响因素扎根分析[J].图书与情报,2015,(5):117-122.

[7]刘波维,曾润喜.网络舆情研究视角分析[J].情报杂志,2017,(2):91-96.

[8]陈福集,黄江玲.三方博弈视角下的网络舆情演化研究[J].情报科学,2015,33(9):22-26.

[9]Burkholder B T,Toole M J.Evolution of Complex Disasters[J].The Lancet,1995,346(8981):1012-1015.

[10]Coombs W.T.Ongoing Crisis Communication-Planning,Managing and Responding[M].London:SAGE Publication.INC,1999.

[11]安璐,吴林.融合主题与情感特征的突发事件微博舆情演化分析[J].图书情报工作,2017,61(15):120-129.

[12]崔鹏,张巍,何毅,等.突发公共事件网络舆情演化及政府应对能力研究[J].現代情报,2018,38(2):75-83,95.

[13]涂海丽,唐晓波.基于在线评论的游客情感分析模型构建[J].现代情报,2016,36(4):70-77.

[14]刘甲学,陶易.基于情感分析的评论数据用户满意度影响因素研究[J].现代情报,2017,37(7):66-69.

[15]崔彦琛,张鹏,兰月新,等.消防突发事件网络舆情情感词典构建研究[J].情报杂志.2018,37(10):154-160.

[16]夏一雪,兰月新,曾润喜,等.全媒体语境下突发事件舆情信息风险管理模式研究[J].图书与情报,2016,(3):11-18.

[17]曾润喜,徐晓林.网络舆情的传播规律与网民行为:一个实证研究[J].中国行政管理,2010,305(11):16-20.

[18]王琦,王琳.在线评论情感倾向的影响效应及管理措施[J].北京邮电大学学报:社会科学版,2015,17(1):43-51.

[19]李纲,王晓,叶光辉.国内突发事件预警研究评述[J].情报理论与实践,2017,40(7):138-144.

[20]兰月新.面向舆情大数据的群体性事件预警研究[M].天津:天津大学出版社,2018.

[21]刘兵.情感分析:挖掘观点、情感和情绪[M].北京:机械工业出版社,2017.

[22]李婷婷,姬东鸿.基于SVM和CRF多特征组合的微博情感分析[J].计算机应用研究,2015,32(4):978-981.

[23]Noelle-Neumann,E.Zhe Spiral of Silence:Public Opinion-Our Social Skin(Second edition)[M].Chicago:the university of Chicago Press,1993:59.

[24]Zhou Y,Moy P.Parsing Framing Processes:The Interplay Between Online Public Opinion and Media Coverage[J].Journal of Communication,2007,57(1):79-98.

[25]Turney P D,Littman M L.Unsupervised Learning of Semantic Orientation from a Hundred-Billion-Word Corpus[R].National Research Council of Canada,Tech.Rep:EGB 1094,2002.

[26]赵晓航.基于情感分析与主题分析的“后微博”时代突发事件政府信息公开研究——以新浪微博“天津爆炸”话题为例[J].图书情报工作,2016,60(20):104-111.

(责任编辑:郭沫含)

猜你喜欢
情感分析扎根理论微博
何以解忧?基于社交媒体大数据的睡眠健康公众叙事研究
在线评论情感属性的动态变化
社会心理安全氛围在工作场所欺凌中所起的作用
消费者在线生成广告行为阻碍因素及作用路径研究
事实与流言的博弈
重大突发事件中微博之力不微