基于深度学习的突发公共事件网络舆情情感识别研究

2023-04-27 13:36袁琼芳
电脑知识与技术 2023年7期
关键词:突发公共事件深度学习

袁琼芳

关键词:突发公共事件;深度学习;情感识别

0 引言

随着互联网的发展,网民越来越倾向借助网络将自己对于突发公共事件观点发在微博、抖音、论坛等网络平台。针对突发公共事件中网民发布的大量情感文本,如何快速进行网络舆情的文本情感识别,通过情感识别结果及时了解网民对突发公共事件的真实看法,引导突发公共事件网络舆情良好发展是迫切且重要的。

目前网络舆情情感识别主要有三种方法,即情感词典、机器学习和深度学习。情感词典的识别很少考虑语境和语法的相关规则,机器学习计算过程烦琐,在处理海量舆情文本时训练效率低,深度学习近年来在国内舆情情感识别领域发展迅速。吴鹏等人[1]对突发事件网络舆情的微博文本构建了卷积神经网络CNN情感识别模型。张海涛等人[2]爬虫获取微博相关话题数据,验证了深度学习相较于传统机器学习在情感识别上的优越性。黄萍等人[3]通过CNN模型对高校热点舆情事件数据进行了情感分类,并对比了传统SVM分类效果得到有效提升。刘智鹏等人[4]融合CNN与RNN模型,实现对商品的评价分类,对客户的情感识别有较好识别。蔡庆平等人[5]基于Word2vec和卷积神经网络模型创建客户情感分析模型,合理分析消费者对产品评价的情感满意程度。

深度学习是目前最先进的文本情感识别方法,比传统方法速度快、准确率高、自主性强,可以实现高效的舆情情感识别检测。本文基于深度学习相关原理来构建突发公共事件网络舆情的情感识别模型。

1 基于深度學习的突发公共事件网络舆情情感识别模型构建

从新浪微博上爬取相关的突发公共事件网络舆情数据,形成突发公共事件舆情案例数据库,对数据进行预处理后,采用OCC情感标注,运用CNN模型对数据进行卷积和池化操作后实现对网络舆情的情感分类,研究思路如图1。

1.1 网络舆情情感规则

由于产生情绪是认知评价环节的结果,为此将情绪产生过程分解为:

一是分类。实施评价的过程分为三种情况:当仅仅注重事件对象,最重要的是态度;当仅仅关注事件对象行为,最重要的是准则;当仅仅注重事件结果,最重要的是目标。

二是量化。人们接收信息强度大小对于情感造成影响而予以改变。

三是映射。情绪认知模型存在22种合成情感,很多研究则是在相应维度映射这些情感,比如正负面。

四是表达。表达信息接收之后导致的情感,常见的是通过文字、肢体语言、面部表情等。

通过探讨突发公共事件选取对象行为与事件结果两个层面,根据突发公共事件演变所发生的结果与网民预期结果是否相符,判断突发公共事件中微博舆情文本情感极性,具体模型如图2。

情绪认知模型简化情感规则为:

Consequences(ti,e) 是第i 条微博对应事件e,定义Goals(e) 是网民对于突发公共事件e 结果的期望程度,如公式(1)所示:

Des(ti,e) =Consequences(ti,e) -Goals(e) (1)

公式(2)体现的是现阶段微博当中的人物行为与网民行为准则相符程度,Actions(ti,a) 体现的是现阶段第i 条微博当中任务行为a,Standards(e) 体现的是任务行为与网民行为准则是否相符激活阈值,如果计算出的数值小于零,那么体现的是现阶段微博中任务做出的相应行为与网民行为准则不相符。

Wor(ti,a) =Actions(ti,a) -Standards(e) (2)

通过以上的两个公式彰显的是事件演变所获得的结果与网民期望目标是否相符以及事件当中的对象行为与网民行为准则是否相符,衍生出产生的情感极性为:

Emotions(ti,e,a) = f(des(ti,e) ,Wor(ti,a)) (3)

从以上公式所体现出来的是微博i 情感状态,在这一公式当中,1体现出来的是正面情绪,相应的0所体现出来的是负面情绪,f(des(ti,e) ,Wor(ti,a)) 体现的是Des(ti,e) 以及Wor(ti,a) 都比零数值要大,返回1;如果Des(ti,e) 以及Wor(ti,a) 都比零数值要小,返回0。

1.2 输入处理

本文在研究过程选取Word Embedding的词向量表示方法,在低维空间分布式映射词中,这一低维空间当中的词向量相互之间所存在的位置关系能够行之有效地将其处于语义层面上存在的联系反映出来。

假定数据集中K条微博文本,针对每条微博的xi∈Rn体现出来的是微博文本的第i 个词相对应的n 维向量。卷积神经网络相对应的输入体现的就是k×n 的数据矩阵,可以列出以下公式:

1.3 卷积神经网络结构分析

通过立足于自然语言文本所具备的相关特性,在借鉴相关学者对于模型设计的思路基础上,设计出本文相应的卷积神经网络结构图,如图3。依托一层的卷积层与池化层使用后作用的发挥,在其中第二行、第三行、第四行三种不同大小滤波器组成进行文本的局部特征图提取,基于此,借助于max-pooling层实施降维操作,并且最大值池化全部的特征图,随后依托全连接层将全部的pooling层进行连接,最后依托soft⁃max函数将全部特征向情感类别进行映射。

由于微博处于卷积层中,往往采取二维矩阵的形式向CNN进行输入,实施卷积后所获得的结果,可以通过以下公式进行显示:

在以上的公式中,⊗所体现的是卷积运算提取特征,i:i+m-1是从第i 个一直延续到i+m-1个词向量实施相应的卷积运算,ci是第i 个一直延续到i+m-1个词向量实施相应的卷积运算获得的特征图,W是滤波器,B是偏置矩阵。将f 定义为激活函数,为实现加快训练收敛速度,将relu函数当成激活函数,通过以下公式进行显示:

本文在研究过程中,采取的做法是通过设计2、3、4分别乘以100的滤波器结构,从而实施卷积突发公共事件网络舆情微博文本操作,除此之外,还设置所有的滤波器分别提取100张特征图谱。

在研究过程中采取实施卷积操作之后,受到卷积核存在着比较小滑动窗口的影响,会面临出现特别大的特征图现象,依托池化能够确保在一定程度上的扭曲、缩放、平移等不变形,要想做到让参数从数量层面上的显著减少,针对卷积操作之后所获得的300张特征图谱实施maxpooling池化操作,如公式(7) 所示。基于此,通过全连接层作用的发挥,将全部池化完毕的特征图谱予以充分了解,具体可以通过公式(8) 进行显示。

为实现预防出现模型过拟合现象,本文在研究过程实施相应的Dropout策略,不管哪次实施迭代都会进行网络参数的随机更新。在最后的输出层,按照以下的公式能够进行预测情感类别y 的计算:

公式(9) 中,(zor) 代表Dropout结果,w 代表L2范数正则约束之后的权重,b 代表L2范数正则约束之后的偏置。

2 实证分析

2.1 试验目的

一是搭建基于深度学习的突发公共事件网络舆情情感识别模型;二是对于模型的深度学习优异性予以验证。

2.2 试验环境

本文开展基于深度学习的突发公共事件网络舆情情感识别,全部试验完成都是在服务区的虚拟机上实施,具体来说,主要是以下虚拟机环境:

Intel Xecon E5-2630的CPU;

Python2.7的编程语言;

Jieba 0.32的分词工具;

TensorFlow 1.2的深度学习框架;

Ubuntu14.04的操作系统;

64GB的内存;

Pycharm 5.0的编程工具;

Doc2Vec的Word embedding训练工具。

2.3 试验数据

选取微博平台作为采集平台,确定突发公共事件相关的关键词和时间范围,通过大数据爬虫工具爬取相关微博舆情信息。数据采集后,将自然标注以及相应的情绪认知模型情感规则理论当成依据,相继实施情感标注数据集,将数据分成训练集、测试集。

2.4 试验变量

模型变量包括体现维度的词向量、dropout以及L2范数等向量。

2.5 试验基本内容设计相关主要研究

一是进行情感标注相关的网络舆情文本操作。本文在具体的研究过程中,采取的做法是针对相应的爬虫数据实施过滤清洗操作,按照情感规则体系进行情感分类标注。

二是表示网络舆情文本。在本文实施的是jieba分词来做好分词处理以及去掉停用词。本文尝试选取DocVec 方法将所有的微博向相关的句子变量转换,DocVec 方法的使用,增加了一个段落向量,与Word2Vec相同。随后通过把所有的微博当成行,借助于genism中的DocVec方法的调用,从而能够把所有的微博文本转变成为向量。本文在开展相应的训练过程中,实施借助Skip-gram 对词向量训练以及Distributed Bag of Word 对文档向量训练。Skip-gram是通过选取人工神经网络当成分类算法进行合理应用,按照现阶段词语来进行上下文概率的预测,具体可以通过图4进行显示。

三是深度神经网络模型构建。本文选取Phthon语言以及谷歌开发出来的开源人工智能系统tensor⁃flow作用的发挥来构建卷积神经网络模型,随后借助交叉熵损失函数和mini-batch梯度下降方法训练模型。在这里需要注意的是,本文通过对相关超参数进行初始化操作,随后设置;滤波器滑动窗口成3、4、5;不管哪种滤波器都生成100张特征图,mini-batch大小则是50,除此之外,确定0.01的学习率。

四是超参数调节卷积神经网络模型。要想实现对于网络舆情情感识别模型相关性能的進一步提升,本文采取的做法就是予以调节初始超参数,比如通过词向量体现维度、dropout以及L2范数等向量。

五是探讨深度学习和传统机器学习模型在突发公共事件网络舆情识别中的差异。选取传统机器学习中的支持向量机模型进行对比,通过LIBSVM工具包实现SVM分类算法,进行训练相同训练集,对比支持向量机模型训练所获得的结果和卷积神经网络训练得到的相关结果,如图5所示。

通过对SVM中的核函数类型进行分析,核函数能够对SVM分类器性能产生影响,其中使用最多的核函数为Radius Basis Function、Sigmoid 以及多项式核函数,在这些核函数当中,应用程度最高的是Radius Ba⁃sis Function,为此,本文在研究过程中选取这一核函数。与此同时,要想实现解除特征构建方式导致的试验效果,SVM模型特征同样也能够实施word embed⁃ding把所有微博舆情信息通过doc2vec构建多维向量当成SVM多维特征。

六是对比分析情感识别模型是否存在相应的规则。为促成对突发公共事件网络舆情构建科学情感规则,本文尝试将训练集成为两个类型:第一个类型是通过情绪认知模型情感规则予以进行标注训练集;第二个类型则是没有通过情绪认知模型情感规则予以进行标注训练集,研究过程中采用人工方式进行训练集的标注,通过深度神经网络分类模型训练两个类型训练集之后对比两种结果。

3 总结

互联网背景下对突发公共事件的网络舆情的情感识别具有重要意义,本文通过深度学习相关理念来进行突发公共事件网络舆情情感识别。本文基于情绪认知模型,首先建立情感规则框架体系,实现情感标注突发公共事件网络舆情相关数据,通过新浪微博爬取相关突发公共事件的舆情数据后,对数据进行预处理,借助于Doc2vec形成训练集,将其作为输入层训练卷积神经网络模型,并且做好相关的准确率验证工作。具体的结果为:

一是调试卷积神经网络模型算法参数过程中,滤波器窗口位于1~4时能取得最好的分类效果;控制词向量维度较好的是200~300,不但能够将舆情文本信息特征最大限度地表现出来,而且还不会出现过拟合;从正则化约束领域来看,最佳舆情情感识别性能应选取dropout为0.3,L2范数值则是0.4或者0.5。

二是依托情绪认知模型相应的情感规则标注数据集能够获得相对比较好的分类效果。

三是基于卷积神经网络模型创建的突发公共网络舆情情感识别分类效果高于传统机器学习,情感辨别的正确率更高。

猜你喜欢
突发公共事件深度学习
突发公共事件中的微博传播过程分析
有体验的学习才是有意义的学习
MOOC与翻转课堂融合的深度学习场域建构
传统媒体与网络新媒体对突发公共事件报道的框架分析
大数据技术在反恐怖主义中的应用展望
突发公共事件中微信公众号的谣言治理