基于BERT及双向GRU模型的慕课用户评论情感倾向性分析

2021-04-23 02:09尼格拉木买斯木江艾孜尔古丽玉素甫
计算机与现代化 2021年4期
关键词:倾向性准确率分类

尼格拉木·买斯木江,艾孜尔古丽·玉素甫

(新疆师范大学计算机科学技术学院,新疆 乌鲁木齐 830054)

0 引 言

随着信息技术在学习、生活方式的影响下,人们也迎来了教育信息化的新时代。慕课(MOOC)网作为交互式互联网IT技能免费学习网站,能够使操作性较强的教学得以在互联网上开展。由于其学习的便捷性及公开性吸引了众多的教师与学习者在这个平台上开展相应教学活动,并且学习者可以对学习的课程进行评论,使其成为了教育学中多元评价方式的重要方式之一。基于此,对该平台上积累的课程评论数据进行分析研究,能够反映学习者对该课程的情感态度。

近年来,在自然语言处理和数据挖掘领域中,已经进行了许多关于情绪分析的研究。国内外学者主要是从情感词典分析的方法、基于机器学习分析的方法及基于深度学习分析的方法进行情感分析。中文较为常用的情感词典是HowNet[1],通过分别建立不一样的情感词典进行分类。文献[2-3]挖掘客户评价信息,对客户意见进行审查,找出客户意见句子中各类别情感词。赵妍妍等人[4]将评论中情感词对应的情感值合并取均值作为评论的情感值。

基于情感词典分析方法的重点在于借助构建情感词典,通过一些规则计算语义相关性来判断用户性感倾向。此方法存在手工提取特征方法操作繁琐、耗时多且准确度低等问题。

为了改进情感词典分析方法的不足,文献[5-6]对ME、CRF、SVM等方法分别进行比较,使用电影评论作为数据集,最终给出了用支持向量机的方式分类情感倾向性分类最佳的结果。Li等人[7]提出了一种SVM结合PMI的情感分析方法对商品属性进行扩展,根据商品属性针对评论进行情感倾向性分析和统计。钟将等人[8]提出了矩阵投影和归一化向量的文本分类算法与KNN(K-Nearest Neighbor)算法,对商品评价进行情感倾向分析,情感分类准确率提高,分类的时间缩短。

基于机器学习的情感分析方法的重点在于能有效地克服人工数据标注构建情感词典的繁琐过程,在特征提取分析处理方面细致,语义分解更为精细。然而,部分文本特征标注还是需要进行人工标注,没有真正实现学习与预测。

针对上述机器学习方法存在的不足,运用基于深度学习的方法进行文本信息处理、文本分类等任务获得了不错的效果。Kim[9]提出了用卷积神经网络训练模型进行倾向性分析。Zhu等人[10]提出基于LSTM的注释句建模而解决了情感分类问题。LSTM比起卷积神经网络更高效地完成了模型训练。赵勤鲁等人[11]提出LSTM-attention模型完整提取了语义结构相关信息,使用预先训练的单词向量作为网络模型的输入,并介绍了在基于多层LSTM进行文本情感分析的Attention机制。张玉环等人[12]使用LSTM和GRU构建文本情感分类模型,以便该模型可以获得较高的准确性。文献[13-14]使用的模型是把最大卷积池及神经BiGRU网络进行组合并且提取相关属性,最后在Softmax层中执行文本分类。王伟等人[15]结合Attention机制与GRU模型,以提高对文本数据上下文语义特征提取。文献[16-17]提出了BERT预训练模型,使用多层双向Transformer对海量语料进行训练,并且进行情感分类。文献[18-20]提出采用BERT模型来提取微博评论文本的语义特征表示,然后将获取的词语语义特征输入双向LSTM模型中进行倾向性分类,准确率相对BERT模型也有一定的提高。

深度学习的分类模型在文本分类任务中取得了较高的准确率,开始注重结构层次,解决分类器正确率低下的问题,提高了特征维度的扩展及分析,达到了优化分类的效果。然而针对文本特征表示的准确率则不高,有遇到噪音文本时无法进行特定处理等缺陷,多数分类算法只是实现文本的二分类。本文提出一种基于BERT的门控循环单元网络方法,主要探讨慕课评论文本的倾向性三元分类,深层提取评论文本的情感特征进行情感倾向性分析。

为优化特征提取与表示方法,本文提出一种利用基于双向编码器(BERT)来提取慕课MOOC网用户评论文本中的特征表示,使用双向门控循环单元网络,根据用户对课程的评论提取文本的情感特征和用户对课程喜好,对该课程进行情感倾向性分析,并且对比实验结果验证方法的有效性。

1 基于BERT-BiGRU的慕课用户评论情感倾向性分析方法

为了进一步提高用户评论情感倾向性分析的准确性,本文提出一种基于BERT和双向GRU模型的用户评论情感倾向性分类方法。

采取基于BERT模型来提取课程评论文本的特征表示,然后将获取的词语特征输入BiGRU网络实现用户评论的情感特征的提取,最后用Softmax逻辑回归的方式进行情感倾向性分类,该方法的具体流程如图1所示。

图1 基于BERT和双向GRU模型的用户评论情感倾向性分类方法流程图

1.1 基于BERT模型的文本向量化方法

BERT(Bidirectional Encoder Representations from Transformer)模型,采用双向Transformer的结构进行编码,是Transformer模型的Encoder部分,主要通过查询字向量表将文本中的字转换为模型可识别的向量。该向量可作为该层输入,输入由一维向量表示,输入每个词对应的语义全文信息后,模型的输出用向量表示。为了表达语言的精髓,建构BERT者提出了2种预训练方式,即Masked LM和Next Sentence Prediction。Masked LM是在原始句子中被抹去一些词汇,使用特殊符号[MASK]进行替换,在少数情况下,使用随机词进行替换,在其他情况下,原始词汇保持不变。Next Sentence Prediction是句子预测任务,是段落重新排序的简化版本。在整个模型预训练过程中,需要从数据集中随机选择一半正确的句子对和一半错误的句子对进行训练,以便模型可以更准确地描述句子甚至章节级别的语义信息。

在图2中E1,E2,…,En表示字的文本输入,经过双向Transformer编码器,就可以得到评论文本的向量化表示T1,T2,…,Tn,即评论文本的向量化表示主要是通过Transformer编码器而实现的。

图2 BERT模型图

1.2 基于BiGRU情感特征提取

GRU是LSTM网络的一种效果更好的改变形式,在模型LSTM中运用了3个门函数:输入门、遗忘门、输出门,分别用来表示输入值、记忆值和输出值。在简化版的GRU模型中用到了2个门:更新门、重置门,减少了参数提高了效率。具体结构如图3所示。

图3 GRU模型图

z为更新门,表示取sigmoid以前的信息是否需要更新,如果需要,zt则更新上一条信息。zt是模型更新activation时的逻辑门。计算公式如下:

zt=σ(wz·[ht-1,xt])

(1)

其中,σ为sigmoid激活函数,w为权值矩阵。

r为重置门,取sigmoid类似于LSTM的遗忘门,代表以前的信息是否需要重置。rt决定candidate activation时,是否要放弃以前的activationht。计算公式下:

rt=σ(wr·[ht-1,xt])

(2)

(3)

其中,tanh为双曲正切激活函数,ht是activation,是隐层,计算过程中接收[ht-1,ht],计算公式如下:

(4)

(5)

(6)

最后将特征向量hijt输入到全连接层,在该模型中用ReLU函数,在这里起到激活函数的作用,通过全连接神经网络获取文本的语义特征。

1.3 模型求解

如图1所示,整个BERT-BiGRU模型主要分为5层:第1层为输入层,将爬取到的中文慕课在线课程评论文本输入到模型中;第2层使用BERT模型将课程评论文本向量化表示;第3层将获取的词语特征输入BiGRU网络实现用户评论的情感特征的提取;第4层使用Softmax函数进行分类;第5层将输出最终文本标签2(积极)、1(中立)、0(消极)。前2层的计算方法及公式如1.1、1.2节所示,最后一层将特征向量hijt输入到全连接层,起激活函数的作用。最后一层的输入作为全连接层的输出,本文用常见的Softmax函数对其进行分类,计算公式如下:

yj=Softmax(w1hijt,b1)

(7)

其中,b为偏置项。

最终得到情感倾向分类文本标签,分类结果为(0/1/2)。

2 实 验

2.1 实验数据收集及预处理

本文以最大的IT网络学习平台慕课MOOC网作为数据来源,通过开源爬取框架Scrapy爬取前100门热门课程评论信息共51977条数据记录。同时采用结巴分词系统对数据进行去重、过滤、去停用词等文本预处理。此外,运用情感三元组的方式对数据集进行标注,评论结果标注为3类:0表示消极评论,1表示中立评论,2表示积极评论。爬取数据集样例见表1。

表1 实验数据样例

整个实验数据集采用7∶3的比例进行实验测试,前70%作为训练集训练整个模型,后30%作为测试集,测试模型性能。使用本文提出的模型在训练集上进行训练,再用测试集进行测试。数据集中共包含积极的评语26516条、消极的评语15230条、中性评语10231条。

2.2 实验评价指标与实验环境

在实验效果评价上本文使用4项指标:准确率A(Accuracy)、精确率P(Precision)、召回率R(Recall)和F1(F-score)值。准确率是指在所有收集到的评论文本中分类准确的评论所占的比例,精确率是指实验中所有预测为正的样本中实际为正样本所占的比例,召回率是指在所有真实评论的样本中分类正确的评论所占的比例,F1值是指算数平均数除以几何平均数的值。

实验环境为x86平台:Intel CPU、内存16 GB、硬盘100 GB、AI Studio GPU,操作系统为Windows 10、Pycharm 2017。框架是使用基于TensorFlow的深度学习库Keras进行测试。

实验基于TensorFlow框架实现,使用Adam优化器,学习率为0.001,模型具体参数设置如表2所示。

表2 实验参数设置

2.3 实验结果与分析

2.3.1 BERT方法与基准文本表示方法效果对比

文本向量化主要是把文本进行编码与词嵌入处理,为模型后续的计算提供实数域空间连续向量。目前主要有Word2Vec、Doc2Vec、FastText、ELMo、BERT等方法,为了验证BERT方法的文本表示能力,试验中分别选取Word2Vec、Doc2Vec、BERT这3种方法将预处理好的数据训练出词向量表示,并将其作为特征输入到GRU中进行情感倾向性分析。

各方法的实验结果对比如表3所示,从中可以看出,文本向量化方法的性能从低到高排序如下:Word2Vec、Doc2Vec、BERT。从表3可以看出,比起Word2Vec、Doc2Vec,BERT的文本向量化方法准确率达到了0.925。相比Word2Vec,Doc2Vec方法的准确率提高了1.6%,这是因为Word2Vec方法处理较长语句时不够注重上下文语义完整性,没有考虑词本身的语境信息,因此对本文采用的数据集,Doc2Vec方法的文本表示能力更强。BERT作为Transformer的双向编码表示,能够有效学习每个词语的语义信息,从而能获得更理想的向量表示,相对前2种方法准确率分别提高了12.4%、10.6%。在不同文本特征提取算法的基础上,即使用同一种分类算法进行文本情感分类,其分类准确率也会根据特征提取算法的不同而呈现不同的结果,从而验证了BERT方法的有效性。

表3 文本向量化实验结果对比

2.3.2 BERT-BiGRU与基准方法情感分析结果对比

在用户评论情感倾向性分析中,SVM、CNN[21]、Bi-LSTM[22]、MC-CNN-GRU[23]等方法都是情感分类中具有代表性的模型。为了验证本文提出的深度学习方法BERT-BiGRU在MOOC网用户评论情感倾向分析任务中的有效性,选取SVM以及其他几种深度学习的方式与BERT-BiGRU模型进行对比:

1)SVM模型:该模型对数据进行数据预处理及数据集去噪处理后,用BERT进行文本向量化处理,最终用支持向量机方法进行文本分类。

2)CNN模型:该模型主要是经过输入层、卷积层、池化层和输出层,自动获取用户评论文本的关键特征,进而进行情感倾向性分析。

3)Bi-LSTM模型:首先对数据进行词嵌入处理,得到相应的词向量,以此作为输入到全连接神经网络获取文本的语义特征,最后用Softmax函数对其进行最终文本分类。

4)MC-CNN-GRU模型:尧磊波[23]用CNN和GRU的注意力机制复合模型,运用CBOW训练出文本向量,用GRU模型提取文本的内容特征及主题特征,最后用Softmax函数进行分类。

实验结果对比如表4所示。

表4 情感分析实验结果对比

通过对各种方法的实验结果对比可以得出,情感倾向性分析性能从低到高依次为:SVM、CNN、Bi-LSTM、MC-CNN-GRU、BERT-BiGRU。通过对数据进行分析可以得出在相同文本粒度、相同比例数据测试环境下,机器学习、神经网络算法的分类准确率逐步提升,运用机器学习的算法分类准确率为82.1%,使用卷积神经网络的方式准确率达到了85.3%,使用Bi-LSTM模型的准确率达到了87.5%,作为卷积神经网络与循环神经网络模式的结合模型MC-CNN-GRU方法的准确率达到了88.9%,这说明随着模型复杂度增大,学习到的数据特征越多,分类越准确。

本文中提出的BERT-BiGRU方法在慕课网用户评论数据集上的准确率到达了92.5%,情感倾向性分析性能略高于卷积神经网络与循环神经网络模式的结合模型MC-CNN-GRU,准确率提高了4.0%。其主要原因在传统的单向循环神经网络只考虑过去的信息,而双向的GRU网络能够同时结合过去和未来的文本表示生成当前时刻的输出。通过2.3.1节实验可知,文本表示方法也会直接影响情感分析模型的分类效果,本文使用的BERT模型有效地表示出了每个词语的语义信息,相比CNN模型与Bi-LSTM模型准确率分别提高了8.4%、5.7%,有效验证了本文提出的模型研究的理论价值和实践意义。模型结果对比如图4所示。

图4 模型结果对比图

实验数据中51.0%为积极评语、29.3%为消极评语、19.7%为中性评语,数据表明了学习者对课程以及授课老师的肯定。其次,通过实验词频权重统计结果可以得出,慕课网课程评论中,出现“老师”“项目”“课程”“实用”“易懂”“及时”等高频词汇。通过总体评论倾向、词频权重,可以反映出学习者主要是对教师授课方式、课程内容操作性、课程管理模式等3个方面的情感倾向。通过对分类后的积极评论深层次主题提取,教师授课方式的积极评语比上总评论个数,占比达到85.2%,高于课程内容操作性及课程管理模式情感。对教师授课方式的积极情绪主要是对授课教师讲课水平、教学方法等满意度评价,这也说明在线课程的授课老师是学习者表达积极情感的主要原因。基于上述方法计算得出,学习者对课程内容操作性、课程管理模式的积极情绪与消极情绪基本持平,分别占48.65%、46.81%,说明多数消极评论来自学生对课程内容及课程管理(如课程资源、课程作业、课程更新进度、课程平台建设)等因素的消极情绪。这些实验结果有助于完善慕课平台的建设与改进,同时也有助于提供更好的用户体验,在已有的研究基础上,本文提出如下建议:

1)注重教师授课方式,提高语言表达清晰度,注重与学习者互动环节。

2)注重课程内容设置,多添加实际操作性强、具有实践可操作的课程,课程内容保持与最新方法的衔接。

3)注重课程管理建设,注重平台课程模块更新,及时上传学习资料,注重课程作业管理等内容。

2.3.3 迭代次数对文本情感分析效果的影响

在本文中设置了20组迭代次数,用来分析实验模型训练的迭代次数对实验效果的影响。在慕课网用户评论数据集上用每组迭代次数分别对Bi-LSTM模型与本文提出的模型进行训练和测试,并根据测试集上准确率、评论数据的F1值评价指标绘制了如图5所示的折线图。从折线图中可以看出,当迭代次数为1时,2个模型的准确率和F1值都处于相对较低的数值,此时的模型无法有效地学习课程文本中隐含语义信息特征,情感倾向性分析效果相对较低。在此之后,随着训练的迭代次数的增加,2个模型的评价指标都在逐步提升,然后在最优值附近逐渐趋于平稳。

在本文使用的数据集上,随着迭代次数从1次逐渐增加至9次,2个模型的评价指标都出现了快速提升;在迭代次数从9次逐渐增加至25次的过程中2个模型的评价指标都表现出上下波动并缓慢上升的状态,波动的幅度也在逐渐减小;在迭代次数增加至25次以上之后,2个模型的评价指标均已基本达到最优值并趋于稳定状态。

(a) Bi-LSTM模型

(b) BERT-BiGRU模型

综上,模型训练的迭代次数对慕课网用户的情感倾向性分析结果有非常重要的影响。情感倾向性分析的效果会随着迭代次数增加而逐步地提升,达到Loss值平滑之后不再变化,并在达到一定迭代次数后趋于稳定,此时模型的情感分析能力将是最优的。

3 结束语

本文提出了基于BERT和双向GRU模型的用户评论情感倾向性分类方法,采取基于BERT模型来提取课程评论文本的特征表示,将获取的词语特征输入BiGRU网络实现用户评论的情感特征的提取,在慕课网用户倾向性分析中准确率较高。针对每个词语的语义信息进行深层挖掘和表示,通过双向的GRU网络能够同时结合过去和未来的文本表示,更注重重点情感表示语句,减少了分类中非重点分析词语的影响。

本文方法的不足之处在于本文提出的情感倾向性分析模型只针对慕课网用户评论信息,没有考虑评论时间、用户特点等因素。在今后的工作中,将在现有模型的基础上,通过获取相关数据集,调整优化模型,考虑时间序列及用户特点等因素,使其表现出更优越的性能。

猜你喜欢
倾向性准确率分类
基于模糊数学法的阿舍勒铜矿深部岩体岩爆倾向性预测
分类算一算
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
分类讨论求坐标
高速公路车牌识别标识站准确率验证法
数据分析中的分类讨论
教你一招:数的分类
关于医患冲突报道的倾向性分析——以“湘潭产妇死亡案”为例