国内网络舆情情感研究热点分析*

2022-08-23 06:49廉吉庆高德毅
网络安全与数据管理 2022年7期
关键词:舆情情感分析

张 杨,廉吉庆,张 扬,高德毅

(1.上海理工大学 管理学院,上海 200093;2.上海出版印刷高等专科学校 印刷包装工程系,上海 200093;3.上海市人大外事委,上海 200003)

0 引言

根据中国互联网络信息中心(CNNIC)第48次《中国互联网络发展状况统计报告》显示,截至2021年6月,我国网民规模达10.11亿。网络已成为大众生活不可缺少的一部分。全媒体时代,网民可以在各类社交平台上通过发帖、评论、转发、点赞等行为对社会事件、经济民生、企业声誉、产品质量、教育教学等话题表达观点和态度。近年来,这些网络舆情信息在数量上呈指数级增长,导致网络舆情爆发频次增加。

网络舆情可以反映社情民意,处理不当会演化成舆情危机,给社会造成严重的负面影响,因此,如何正确处理网络舆情成为学术界和社会共同关注的重要问题。网络舆情信息中包含的大量网民情感信息是推动网络舆情传播和发酵的重要因素之一,以情感角度为切入点,研究网络舆情的传播特征和演化规律,有助于政府部门及时把控舆情导向,精准研判和处理舆情事件,对我国社会的进步和发展具有重要的现实意义。

目前,越来越多学者从情感角度出发,借助数据挖掘技术、深度学习、机器学习等方法,对网络舆情进行深层次挖掘,探讨舆情发展规律,研究网民心理行为特征。基于此,本研究通过收集国内网络舆情情感分析领域期刊题录信息,以共词分析法为手段,对该领域研究现状进行梳理和总结,剖析该领域重要主题,为后续研究提供借鉴和参考。

1 相关理论

1.1 TF-IDF

TF-IDF是一种词权重计算方法,用于评估某个词语在文本中的重要程度,其主要思想为:一个词在一篇文章中出现的频率较高,同时在其他文章中出现的频率较低,则认为该词为重要关键词,适合作为特征词用于分类,常用的计算方法如下:

其中ni,j表示词ti在dj中的出现次数表 示 所有词在文档dj出现的频次之和,|D|表示所有文档总数,|{j:ti∈dj}|表示包含词ti的文档总数。

1.2 共词分析法

共词分析法是一种常用的内容分析方法,统计词对在文本中两两共现情况,以此为基础生成共词矩阵,并通过聚类分析使共现频率较高的词对聚集在一起形成词群,反映词群所代表领域的研究热点、研究范式,发展过程等[1-2]。一方面,关键词词频呈幂律分布特征,这种特征有助于用高频词概括研究领域中的热门知识点。另一方面,从词语义角度来看,中、低频次词(如人名、地名、专有名词等)能更多反映文本主题信息,但在实际应用中往往被忽略[3]。共词分析的结果受选择的核心关键词所影响,如何获取更能体现热点主题的关键词是需要解决的问题。

2 研究设计

网络舆情情感研究热点分析思路示意图如图1所示,网络舆情情感研究热点分析步骤如下:

图1 网络舆情情感研究热点分析思路示意图

(1)通过Python提取论文摘要;

(2)以作者标引关键词来建立关键词词典,以哈工大停用词表为基础,添加舆情通用泛化词,组成停用词词典;

(3)通过TF-IDF提取关键词;

(4)对关键词进行规范化处理;

(5)借助SPSS软件对数据进行共词分析;

(6)得到层次聚类结果,反映网络舆情情感研究热点的细分类团,进而得到多维尺度分析结果,反映网络舆情情感研究热点的宏观分类结果。

2.1 数据获取

本文以CNKI期刊数据库(SCI来源期刊、EI来源期刊、核心期刊、CSSCI来源期刊)为数据源,为保证检全率和检准率,将检索条件分别设定为主题、篇名、关键词、摘要,将检索词设定为“网络舆情”与“情感”。文献发表时间不做限制,检索截止时间为2020年12月25日,检索日期为2020年12月29日。为保证研究的可信度,去除会议、前言、动态、通知等学术性弱的文献,去除与检索名称相同但内涵不同的不相关文献、重复刊载的文献,最终得到有效结果369篇。

2.2 数据预处理

从词源角度来看,共词分析关键词词源包括:作者提供的关键词、标题、摘要提取词语、主题词、人工标引代码、正文内容提取词等。在进行关键词筛选过程中,一些同样能代表领域研究热点的新词或近义词由于无法满足入选要求而被过滤掉[4]。因此,如何选取合适的关键词是有待进一步研究的难点。采用作者提供的关键词,来源单一,存在“标引者效应”,为解决这个问题,相关研究提出对文献中的标题[5]、摘要[6]、文献正文[7]提取关键词,或对三者同时提取关键词。然而有研究分别对关键词和标题提取词进行共词分析,发现其结果相似[2,8]。而从文献正文自动标引取词难度较大,在实际研究中较少采用。摘要是文献内容的凝练,通过分词技术从摘要提取关键词,既能避免标引主观性,也能更接近作者学术思维[9]。因此,本文选择以作者标引关键词作为词典,从摘要中提取关键词作为词源。关键词规范化处理的具体步骤为:(1)清理泛化笼统数据;

(2)对同义词、近义词数据进行合并;

(3)归并有上下位关系的关键词。

部分规范化结果如表1所示。

表1 关键词规范结果(部分)

2.3 共词矩阵建立

高频词是概括研究领域中热门知识点的基础,但一些同样能体现领域研究热点的词,由于词频较低而被忽略,影响研究结果。因此,本研究引入词权重的计算方法,结合关键词词频与TF-IDF,确定重要关键词。然后,根据Donohue提出的高频低频词分界定律其中T表示高频词数量,I1表示词频为1的词的个数)确定关键词数量[10]。最终确定关键词数量为69。将选定的关键词构建69×69共词矩阵。建立相关矩阵并转换为相异矩阵,如表2所示。

表2 相异矩阵(部分)

3 研究结果

3.1 聚类分析

将建立好的相异矩阵导入SPSS22.0系统中。通过系统聚类方法,聚类算法选择“Ward法”,测量标准选择“区间:卡方度量”,标准化方法选择“Z分数”,得到共词聚类结果如图2所示。

根据图2,将共词聚类结果与关键词语义关系相结合,将国内舆情情感研究归纳为16个类团,分别为舆情主题情感分析、舆情节点情感分析、舆情情感文本处理、舆情载体情感分析、舆情情感强度、舆情情感倾向、舆情情感信息处理技术、舆情情感演化、情感分析在舆情监测与治理的应用、舆情主体情感分析、舆情情感极化、社会舆情情感分析、情感分析在舆情预警的应用、高校舆情情感分析、情感分析在舆情危机的应用、情感分析在舆情研判的应用。从微观角度看,部分类团之间存在语义相似或性质相同的关键词,原因在于不同研究目标使用的研究方法、设计的研究思路可能存在相似性。

图2 层次聚类结果

从宏观角度看,根据研究方法和研究思路的共性特征,可以将层次聚类结果的16个类团归并为三类:基于内容层面的舆情情感研究、基于技术层面的舆情情感研究、基于舆情传播要素的舆情情感研究。

为验证共词聚类结果宏观归类有效性,将相异矩阵导入SPSS22.0系统中,通过多维尺度分析方法,度量模型选择“Euclidean距离”作为度量标准,“卡方统计”作为度量标准,“Z得分”作为标准化方法,得到多维尺度分析结果,如图3所示。

根据图3可知,多维尺度分析结果将选取的高频关键词分为3个类团,分别代表网络舆情情感分析领域的研究热点方向。总体来说,从语义关系看,多维尺度分析结果与层次聚类宏观归并结果比较一致。

图3 多维尺度分析结果

3.2 基于内容层面的舆情情感研究

舆情信息内容指网络主体 (包括但不限于网民、机构、组织等)在参与网络舆情过程中,产生的评论性、观点性信息,包括文字、图片、表情符号等[11],具有大量高价值隐藏情感信息。情感分析又称意见挖掘,是对带有情感色彩的网络信息内容进行分析以获取主体观点、态度、情感等的过程[12],包括情感识别、情感分类、情感倾向性判断、情感计算、情感演化分析等内容[13]。基于上述概念,可认为类团1(舆情主题情感分析)、类团5(舆情情感强度)、类团6(舆情情感倾向)、类团8(舆情情感演化)、类团11(舆情情感极化)是当前内容层面的研究热点,根据研究内容是否考虑时间维度,可将研究分为两类:信息静止视角下的内容分析和信息运动视角下的内容分析。根据关键词共现语义关系,结合所选的文献进行梳理,展开如下分析。

信息静止视角下的内容分析指在不考虑时间序列维度的情况下,将某个时间段内的舆情信息看作整体,进行内容分析,可以让我们了解网络主体对舆情事件的态度、情绪,例如:赞同、反对、高兴、悲伤、正面态度、负面态度等,包括类团1、类团5、类团6。

类团1和类团6是对舆情主题进行情感分析,一方面在识别热门主题的基础上分析网络主体的情感倾向,如有文献基于LDA主题模型分析论坛网民关注热点方向,并结合情感分析技术,展现论坛舆情方向和网民态度[14];有研究通过LDA-BiLSTM模型提取社交网络平台数据中的热门主题,获取其下回复文本的情感极性,分析潜在舆情[15]。另一方面在识别情感类别或情感倾向的基础上,检测某类情感话题,如有研究提出面向负面情感突发话题检测算法,先识别文本信息主题词的加速度和负面情感强度变化率,基于此提取目标文本,再进行负面话题主题结构分析[16]。

类团5舆情情感强度是基于情感计算的研究,文本预处理、特征信息提取、情感强度特征定义或附值、情感强度计算是其研究基本范式。当前研究集中于舆情情感强度模型的建立、优化及应用上,包括构建基于PAD的网络舆情情感强度测度模型[17],还包括基于语义角度定义舆情事件中的情感词、短语、句子、篇章的情感强度,对舆情中多对象进行情感计算,得出舆情情感强度值[18]。

信息运动视角下的内容分析是在研究静止信息的基础上,引入时间序列维度,对某个时间段内舆情动态变化特征和传播规律进行研究,进一步分析、预测舆情情感随时间的演化规律。类团8(舆情情感演化)和类团11(舆情情感极化)便是基于信息运动视角下的研究。

一方面对提取的舆情信息内容进行情感倾向和情感演化分析,如有文献构建基于LDA-ARMA的混合模型,分析网络舆情情感演化趋势[19];有研究通过HHM模型构建突发公共事件风险影响因素框架,分析网络舆情风险演化机理和过程[20];有作者构建SIR演化博弈模型,分析网络虚拟社群负面情绪传染规律[21]。另一方面,对分析结果开展应用,进行舆情趋势预测。如有研究通过专家知识构建舆情情感演化评估体系,并借助图卷积神经网络构建评估模型[22],实现基于排序学习的舆情演化趋势预测方法[23];有研究构建基于ARIMA和LSTM的新冠肺炎网络情感关注度趋势预测模型,预测效果优于全国数据拟合模型[24]。

总之,基于内容层面的舆情情感研究主要以时间序列维度为基础,进行舆情主题分析、情感演化特征分析、情感趋势预测等,对节点关联度、节点影响力、网民心理特征等因素考虑较少,而这些因素对提高研究的准确度有重要意义,未来可以从多维度、多方面对舆情内容进行分析。

3.3 基于技术层面的舆情情感研究

舆情情感研究技术即情感分析技术,其研究对象是舆情信息内容,研究目的是通过改进情感分析技术,提升对舆情信息内容的情感识别和分析效果。类团3(舆情情感文本处理)、类团7(舆情情感信息处理技术)可概括为此类内容。词共现语义关系呈现的情感分析技术有基于情感词典的语义识别技术、传统机器学习、深度学习,这也是情感分析的几个主流技术方法。结合对选取文献的梳理,展开如下分析。

基于情感词典的语义识别技术依赖于情感词典的构建,通过依存句法分析、语义规则、语义相似度等方法进行情感分析,对该类技术的改进方向包括:优化或扩充情感词典、改进语义规则、改进语义特征提取方式等。如有研究通过扩充情感词典提升微博舆情文本的情感分类效果[25];有研究将情感词典和语义规则结合,提升微博舆论文本细粒度情感分类的准确率[26]。有作者提出基于短语级情感分析的不良信息检测方法,定制新的语法规则来提取敏感词所在短语,结合二次分类的情感词典,进而判断内容的情感倾向,有效提升检测结果准确率。

基于传统机器学习的情感分析方法依赖于大规模高质量的训练数据集,通过建立标签化情感数据训练集,训练一个情感分类器,再对目标测试内容进行情感识别。主要包括支持向量机、LDA主题模型、朴素贝叶斯、协同过滤、随机森林、最大熵、K-means等。对于该类方法的优化,有研究改进SVM算法,提出基于SVM-WNB网络舆情分类方法,提升网络舆情情感分类能力和分类效率[27];有研究改进传统LDA主题模型,建立面向情感词权重的LAD主题模型,对情感词的重要度和分布度进行定义和加权,作为特征输入LDA模型,并进行主题求解,提高了主题词分布广度和主题语义区分度[3]。

深度学习是多层网络进行任务学习时嵌入人工神经网络的方法,随着深度学习在图像和语音处理方面取得重大进展,在情感分析领域也开始被广泛应用。深度学习在情感分析研究使用的模型主要有CNN、RNN、LSTM、BiLSTM、GRU和注意力机制等。对该类方法的优化主要体现在模型构建、模型训练效率和分类精度提升上,如有文献将微博舆情信息情感划分为高兴、赞赏、惊讶、悲伤、厌恶、恐惧、愤怒7类,构建基于卷积神经网络的微博舆情情感分类模型,提升微博舆情情感分类效果[28];有文献通过多卷积核改变微博评论上下文信息有限的条件制约,构建基于字向量的多尺度卷积神经网络微博舆情内容情感分类模型,得到较好分类结果[29]。

除了单独使用某类技术进行情感分析外,越来越多的学者从混合方法角度,结合基于情感词典的语义识别技术、传统机器学习和深度学习方法,进行多方法混合研究,提升舆情情感分析效果,如有研究将领域词典进行扩充,在融合情感贡献度的情感极性计算方法中引入TF-IDF算法,分析网民情感表达状况及关注焦点内容,对评价指标值均有提高[30];有研究将基于词典和知识库的OCC模型与朴素贝叶斯模型[31]、LSTM[32]等方法结合,提升舆情文本情感分类的准确率。

总之,语义分析依赖情感词典工具,需要及时扩充不断更新的网络流行词、自造词、隐喻词等来满足需求;机器学习可借助训练集及时调整模型,但忽视上下文的语义关联,因此精度低;深度学习既能分析上下文关系,又具有较强的特征学习能力,但训练时间长,可解释性差。因此,基于技术层面的舆情情感研究发展方向主要有两个,一是算法升级,提升单一算法的语义分析能力,提高分析结果的准确率;二是综合运用多种情感分析技术,实现优势互补。

3.4 基于舆情传播要素的舆情情感研究

网络舆情传播实际上是信息传播过程,网络舆情特征受舆情信息传播要素影响,网络信息传播要素包括舆情主体(舆情事件参与者和推动者)、舆情客体(舆情事件本身)、舆情本体(用以描述网络舆情事件)、舆情媒体(舆情主体参与平台和信息传播载体)、环境噪音[32-33]。 根据上述分类,结合拉斯韦尔“5W”信息传播要素[34]和舆情研究的最终目的,本文将基于舆情传播要素的情感研究分为四个方面:舆情主体研究、舆情客体研究、舆情媒体研究和舆情情感研究应用。舆情主体研究包括类团2(舆情节点情感分析)、类团10(舆情主体情感分析);舆情客体研究包括类团12(社会舆情情感分析)、类团14(高校舆情情感分析);舆情媒体研究包括类团4(舆情载体情感分析);舆情情感研究应用包括类团9(情感分析在舆情监测与治理的应用)、类团13(情感分析在舆情预警的应用)、类团15(情感分析在舆情危机的应用)、类团16(情感分析在舆情研判的应用),根据词共现语义关系,结合对选取文献的梳理,展开如下分析。

舆情主体研究对象是网络舆情的主要参与者和推动者,研究热点内容包括融合网民情感属性的关键节点分析[35-36];舆情主体心理特征分析[36-37],如人格特点、参与动机、行为意愿、网民理性、心智状态等;基于舆情主体心里特征的社会情绪分析[38],如恐慌心理、集群情感、心理动力等;意见领袖情感分析等[39-41]。

舆情客体研究对象是舆情事件本身,在词共现结果中,类团12和类团14为当前研究热点,说明当前研究关注较多的舆情事件有社会舆情,如公民维权、社会公正、居民生活、公共管理、公共决策、经济民生等;高校舆情,如高等师范院校、职业院校、高校管理、留学生、研究生等。

舆情媒体研究对象是媒体的舆情信息内容,研究单个媒体(如新浪微博)或多个媒体平台组成的社交网络舆情信息情感特征,如有研究对三种网络类型平台舆情类信息的情感表达特点进行对比分析[42];有研究以微博舆情信息内容为中心,阐释人群、内容、情绪3个社会属性与意见领袖、事件、情感3个外化表现之间的内部逻辑,以揭示微博舆情的多维度社会属性[43];有研究通过融合主题与情感特征的方法分析微博突发事件舆情演化规律,可以解释舆情主题与情感特征的协同演化规律[44]。

舆情情感分析的目的是对舆情发生、发展规律进行探索总结,从而给舆情导控和治理提供参考。从全过程视角看,舆情导控和治理需要先发现后治理,包括类团9(舆情监测)、类团13(舆情预警)、类团16(舆情研判)、类团15(危机处理)、类团9(舆情治理)等步骤,根据词共现语义关系,这些内容是当前研究的热点内容。如有文献构建基于LDA-BiLSTM模型的高校网络舆情情感监测模型,实时甄别高校网络信息内容,监测潜在舆情[15];有研究通过分析教育舆情研判的影响因素及对策,得出教育舆情研判应将数据与经验结合,注重情感分析[45];有研究将舆情信息传播要素危机形态进行排序组合,在其关系节点建立舆情危机等级基数,建立舆情危机风险分型模型,提高舆情危机案例匹配速度和精准度[46];有研究以网络舆情危机动力要素为基础,对舆情引导方法进行探讨,如以舆情当事人回应内容[47]、群体心理规律[48]、负面舆情规律[49]、媒体舆情规律[50]等为切入点,提出相应策略和模型。

总之,网络舆情情感分析的最终目的是给舆情治理提供理论和技术支撑。舆情突发事件种类繁多,每类舆情事件有不同的传播发展规律,目前研究多着眼于单一事件的分析,缺少对某类舆情事件传播发展规律的整体分析和规律挖掘,研究结果不具普适性。以高校舆情为例,如果能对高校突发事件进行归类整理,以高校舆情事件集合为对象,总结一类事件的传播、发展特征,研究结果会更具普适性,更具现实应用和指导价值。未来可以将舆情数据集作为研究对象,挖掘舆情事件类的整体特征。

4 结论

本文以CNKI数据库(SCI来源期刊、EI来源期刊、核心期刊、CSSCI来源期刊)中网络舆情情感分析为数据源,结合TF-IDF与共词分析方法,对国内网络舆情情感分析研究热点进行定量分析。为获取热点主题的关键词,以文章摘要作为词源,通过TF-IDF算法提取关键词,通过共词分析得到层次聚类结果和多维尺度分析结果,据此将国内网络舆情情感分析研究热点归并为3个宏观类团,分别为基于内容层面的舆情情感研究、基于技术层面的舆情情感研究、基于舆情传播要素的舆情情感研究。

结合对相关文献的梳理和比较,对当前网络舆情情感分析研究热点进行展望,主要观点如下:

(1)网络舆情情感分析呈多学科交叉发展的趋势。网络舆情在数据上具有自然科学属性,其参与主体包括媒介、政府、网民等,具有社会科学属性。研究路径和研究方法涉及的学科包括情报学、管理学、社会学、传播学、心理学、计算机科学、语言学等,越来越多的研究在构建情感分析数理模型的同时,加入对舆情主体心理特征、行为习惯等因素的考量,为未来跨学科视角的舆情情感分析提供思路和实现路径。

(2)网络舆情情感分析在研究方法上呈定性与定量分析相结合的趋势。信息相对静止视角下的内容分析主要运用语义分析和数理建模两种主流方法,信息运动视角下的内容分析主要从模型仿真和复杂网络分析两个主流维度展开,社会情绪分析是在舆情信息内容分析的基础上展开的,一方面借助语义分析和数理建模等方法;另一方面融入社会学、传播学、心理学等社会科学研究理论和研究范式,研究内容和结果包含对网络受众心理特征、行为特征、情绪特征等的深入探究,并对情绪观点进行量化计算,增强研究结果的现实指导意义。

(3)网络舆情传播是信息传播过程,舆情传播要素之间共同作用形成网络舆情整体特征和规律,现有研究既包含对单个舆情传播要素的探索,也有对舆情传播要素之间作用机制的关注,在舆情传播要素中,传播主体具有强社会属性,已有研究开始关注传播主体心理机制和舆情信息内容之间的作用关系,对其进行更深入的社会属性特征挖掘,为舆情情感研究提供新思路,更利于掌握网络舆情传播的内在机理和规律。

猜你喜欢
舆情情感分析
隐蔽失效适航要求符合性验证分析
分析:是谁要过节
情感
《悦读·家》开播激发爱国爱家情感共鸣
诗歌与情感的断想
回头潮
台上
数字舆情
数字舆情
消费舆情