袁和金,张 旭,牛为华,崔克彬
(华北电力大学 控制与计算机工程学院,河北 保定 071003)
近年来,随着互联网技术的快速发展以及社交媒体的不断涌现,越来越多的用户习惯于通过社交媒体表达自己的观点与想法,这就积累了大量的短文本数据。通过对这些信息利用情感分析的技术进行分析,可以发现用户对特定产品、事件上的情感倾向,从而帮助研究机构掌握社会情绪动态[1]。情感倾向性分析,又称主客观分析,以挖掘文本信息中用户表达的情感极性为目标。近年来,针对社交媒体的用户观点情感分析已经成为了自然语言处理(natural language processing, NLP)领域的热点问题,具有非常高的研究与实用价值。因此本文的研究目的是提出一种文本情感分析模型,以提升文本情感分析的准确度。
目前,文本情感分析方法主要可以分为三种: 基于语义的情感词典方法、基于传统机器学习的方法以及基于深度学习的方法。基于语义的情感词典方法的基础是首先构建情感词典,然后设定倾向性评价指标与方法,最后通过确定阈值来判定文本的倾向性。该方法实现较为简单,不需要人工标注的数据集,但是由于情感词典在构建时遇到的种种难题,其效果一般。基于机器学习的方法,首先需要人工对文本进行情感倾向性标注,其次通过人工设计特征,对文本情感特征进行提取,最后,使用相关机器学习方法,如朴素贝叶斯、支持向量机等构建分类器对文本情感进行分类[2]。该方法计算量小且易于实现,但需要人为进行特征工程操作,且泛化能力不足。
近年来兴起的深度学习方法很好地弥补了上述方法的缺陷,已在图像和语音识别中取得了巨大成就,并逐步应用到自然语言处理领域中。Bengio最早使用神经网络构建语言模型。Kim等[3]使用卷积神经网络(convolutional neural network, CNN)对短文本进行建模,完成了句子级别的文本情感分析任务。然而,这种方法也存在弊端,其忽视了待分类句子内部词语之间的相互联系。Irsoy等[4]使用循环神经网络(recurrent neural network, RNN)为句子进行建模,从而进行情感分析,但CNN缺乏对文本提取特征的能力,同时会造成模型训练耗时的问题。
本文利用深度学习模型,结合基于向量表示的语义合成原理,提出一种融合注意力机制的多通道卷积和双向门限循环单元(bidirectional gated recurrent unit, BGRU)模型来解决文本情感分析问题。模型采用多通道卷积神经网络进行有监督学习,在不同大小的窗口提取粒度不同的情感特征,从而识别更多的情感特征分类模式。双向门限循环单元网络能够挖掘跨度更广的语义依赖关系,从而更加充分地利用整个文本中的特征信息,有效识别文本情感极性。同时,在该模型中引入注意力机制(Attention Mechanism),更加有效地识别句子中信息表征量大的部分。
本文主要贡献如下:
(1) 提出一种多通道卷积和双向门限循环单元结合的网络模型。该模型能够利用不同尺寸的卷积核在不同通道内提取文本中粒度不同的特征信息,同时能够保留文本信息间的序列关系,有效地获取文本评论中句子内部及句子之间的相互联系。
(2) 引入注意力机制。注意力机制能够自适应地结合文本上下文信息,提取影响情感极性分类的关键文本特征,使模型能够更关注于文本中重要的部分,有效提升模型分类准确度。
(3) 引入Maxout神经元,更好地提升模型抵抗梯度弥散的能力,加快模型收敛的速度;增强模型的泛化能力,提升模型鲁棒性。
在过去的研究中,基于情感词典的情感分析方法和基于传统机器学习的监督学习方法,在情感分析任务中取得了很多成功。但是基于情感词典的方法需要人为制定大量的判别规则,且泛化能力较差。基于传统机器学习的方法需要对所输入文本进行大量的预处理工作和复杂的特征工程。近年来,深度学习在情感分析工作中取得了重大的突破。一方面,深度学习方法不需要过多的预处理工作,缓解了模型对特征工程的依赖,极大地降低了人力成本;另一方面,基于深度学习的网络模型能够自学习提取文本情感特征,在情感分析任务中比传统机器学习方法有更好的分类效果。
相较与一般前馈神经网络而言,RNN引入了记忆单元使网络具备了一定的记忆性,能够较好地结合序列信息对数据进行建模。但其也存在一定的弊端,即会在训练过程中出现梯度爆炸和梯度弥散等问题,从而造成训练过程停滞。长短时记忆网络(long short-term memory, LSTM)和门限循环单元在传统RNN的基础上引入门机制,较好地克服了RNN的弊端。基于此,很多模型在基本的LSTM、GRU模型上进行改进,取得了不错的效果。Socher等[5]使用Tree-LSTM提取文本的语义特征。Ke等[6]在LSTM之上额外引入了外部记忆单元,提升了模型对历史信息的处理能力,但由于外部记忆矩阵参数量较大,准确度提升有限。Schuster等提出的BRNN(bidirectional RNN)模型,通过采用双向RNN的方式,同时处理正向与反向的信息,然后,将其输出连接到同一个输出层上,这样便能够记录序列的双向上下文信息。Tang等[7]在双向LSTM的基础上,引入注意力机制,提出CLSTM模型以此来解决文本级情感分析问题,取得了不错的效果。依据上述分析可以得知,使用RNN模型能够有效解决情感分析任务,其演化模型LSTM及GRU能够在克服RNN弊端的基础上捕捉文本长时依赖。然而LSTM和GRU模型是基于时序的,很难进行并行化训练。对于大规模数据集而言,需要非常长的训练时间。因此,基于CNN的方法开始受到广泛的关注。
Kim[3]利用Word2Vec训练得到词向量,将句子映射成二维特征矩阵,使用一层卷积层对文本特征进行提取,之后连接池化层对最能代表文本情感词汇的特征进行提取,提取后的结果作为全连接层的输入,进而进行情感极性分类。Kalchbrenner等[8]提出了一种DCNN模型,这是一种动态的卷积神经网络模型。在一次卷积操作之后,将序列中前K个最大的特征值进行保留,并送入分类器中进行分类。Santos等[9]提出一种神经网络结构,该方法提取文本字符级的特征,不需要任何关于句子句法结构的输入。Yin等[10]使用多通道不同尺寸的卷积神经网络进行句子分类。基于CNN方法能够有效提取文本内特征,同时大幅度降低模型训练时间;其弊端在于无法考虑句子内部及句子间的依赖关系,丢失文本的序列性质的特征。
为了充分发挥CNN及RNN的各自优势,越来越多的研究者将CNN与RNN相结合进行文本情感倾向性分析。Wang等[11]使用一层CNN和一层RNN构成融合模型,进行文本情感分析,实验证明效果优于单纯使用CNN和RNN模型。Wang等[12]提出区域CNN-LSTM网络模型,其创新在于将文本按照句子为单位划分区域,并行地进行卷积操作,之后将提取到的特征进行融合,作为LSTM的输入,进而进行情感分类。Zhang等[13]使用基于Convolution-GRU模型对推特内容进行情感极性判别。
对上述模型进行分析,本文有如下思考:
(1) 对于词语的向量化表示,高维分布式向量表示赋予具有相似词义的词语之间的高相似性。与此同时,与独热表示相比,词嵌入方式可以更好地解决短文本的词义冗余等问题,减少计算量。
(2) CNN在文本处理中能够学习提取到位于文本不同位置上的局部特征。RNN模型能够更好地考虑文本内的序列关系,并且能够学习到较长序列文本依赖而不仅仅局限于局部特征之中。
(3) CNN与RNN模型的结合,一方面能够充分利用CNN对文本特征较强的提取能力;另一方面可以发挥RNN在时间序列维度上强大的记忆能力及对文本的表征建模能力。这种结合方式对于提升情感分析准确度,具有较强的研究意义与研究价值。
卷积神经网络(CNN)最早应用于计算机视觉中,近年来,其在文本分类领域也有出色的表现[14]。CNN主要通过卷积层和池化层来学习输入的局部特征,对表征的重要信息进行提取与保留。CNN无需过多的预处理工作便能够达到预定效果,显著地减轻了对特征工程的依赖。
CNN主要由输入层、卷积层、池化层和全连接层组成。对于应用于自然语言处理领域的CNN而言,输入层为词汇的向量表示。对于给定长度为n的句子,输入层矩阵的表示,如式(1)所示。
其中,m为词向量维度。卷积层使用尺寸不同的卷积核对输入矩阵进行卷积操作,提取输入数据的局部特征,得到文本的特征向量,如式(2)所示。
其中,x为词嵌入矩阵,W为权重矩阵,b为偏置量,f为卷积核激活函数。
经过卷积操作得到的特征向量,可以通过池化层进行进一步的下采样,以提取序列中最重要的特征信息。池化后的输出作为全连接层的输入,进而对文本情感极性进行分类。
门限循环单元是对循环神经网络的改进。GRU通过引入更新门与重置门,有效地解决了RNN网络在训练过程的梯度爆炸与梯度弥散问题。相较LSTM而言,GRU精简了网络结构,减少了模型参数,提升了模型训练速度。在自然语言处理任务中,GRU网络可以学习词语在句子中的长期依赖关系,更好地对文本进行表征建模。
GRU网络通过记忆单元来记忆存储句子中重要的特征信息,同时能够对不重要信息进行遗忘。每一个GRU网络神经元包括1个记忆单元和2个门单元。
在t时刻,对于给定的输入xt,GRU的隐藏层输出为ht,其具体的计算过程如式(3)~(5)所示。
其中,W为连接两层的权重矩阵,σ和tanh为激活函数,z、r分别为更新门和重置门。
注意力机制的概念可以理解为从大量信息中有选择地筛选出重要信息并且聚焦到这些内容上,同时忽略大多数不重要的信息。聚焦的过程体现在权重系数的计算上,权重越大则代表对该部分的关注度越高。在情感分析任务中引入注意力机制,可以使神经网络更多地关注文本中包含情感信息较多的部分。
在自然语言处理领域, Bahdanau等[15]首次将注意力机制应用于自然语言处理领域,在机器翻译任务上将翻译和对齐同时进行,实验证明了注意力机制在NLP任务中的有效性。Wang等[16]将多层注意力机制和卷积神经网络结合用于句子关系分类任务中,模型在多个数据集上的实验结果表明,使用注意力机制的模型比未使用的模型有更高的分类精度。Huang等[17]提出了一种结合注意力机制的LSTM网络,通过对特定目标进行向量化处理,将特定目标作为注意力机制输入LSTM网络,提升了模型的准确度。鉴于融合注意力机制的神经网络模型表现出色,本文在对文本进行情感分析的任务中,在使用深度神经网络挖掘文本高层抽象语义的基础上,引入注意力机制,使网络模型能够更多地关注能够帮助识别文本情感极性的部分。
为了能够提取更加有效的文本信息进行建模,本文提出了融合注意力机制的多通道卷积与双向GRU模型(multi-channel convolution and bidirectional GRU with attention mechanism,ATT-MCNN-BGRUM)。模型主要包含词向量层、多通道卷积层、特征融合层、双向GRU层、注意力层、Maxout层。模型结构如图1所示。
该模型首先使用GloVe预训练词向量将文本中的词语映射成为低维的实数向量表示,建立表示文本的初始特征矩阵,将其作为模型的输入。模型的多通道卷积层提取文本不同粒度的特征信息,并将特征信息进行融合送入双向GRU层。双向GRU层可以在保留序列信息的基础上,有效获取句子内部及句子间的相互联系,对文本进行建模。在双向GRU层上引入注意力机制,更好地把握文本中重要信息。最后将输出送入分类器中,得到文本情感分类结果。
对于给定文本的数据集D,其中包含有文本X{x1,x2,...,xm}和每个文本所包含的情感标签Y{y1,y2,...,ym}。其中,每个文本句子Xi由n个词组成,表示为Xi{xi1,xi2,...xin},则最终的目标函数,如式(7)所示。
其中:θ代表该模型中涉及到的所有参数,f(·)为该网络模型的数学形式表达。
图1 融合注意力机制的多通道卷积与双向GRU模型
多通道卷积门限循环神经网络(MCNN-BGRU)首先使用多通道卷积神经网络提取文本不同粒度的特征信息。然后特征信息经融合,使用双向GRU网络顺序集成文本特征,完成文本的特征表达。
多通道卷积神经网络接收词向量作为网络的输入。词向量核心在于将词语通过映射,用一种低维实数向量表示。定义数据集中句子最大长度为n,文本可表示为由n个d维的词向量拼接而成的二维矩阵x∈Rd×n,如式(8)所示。
其中,⊕为拼接运算符,wi∈Rd为句子中第i个词对应的词向量。
CNN能够高效提取词汇在句中的局部上下文信息[18]。对于卷积操作,选择不同尺寸的卷积核大小,可以提取广度不同的上下文信息,即不同粒度的序列特征信息。
假定第i个通道卷积操作所使用的卷积核w∈Rh×d,其中h为滤波器窗口宽度,控制单词的个数,则提取后的一个特征cij可以表示为式(9)。
式(9)中,b∈R为偏置项,f(·)为卷积核函数。
xi:i+h-1∈Rh×d代表h个词构成的局部滤波窗口,滤波窗口逐步滑动至xn-h+1:n,{x1:h,x2:h+1,xn-h+1:n}所对应的第i个通道,所得到的特征序列如式(10)所示。
将文本经过多通道卷积层产生的特征序列进行连接,形成融合特征序列c。 假设通道个数为k,则如式(11)所示。
为了更有意义的充分利用粒度不同的序列特征,本文将多通道卷积操作提取到的特征序列进行融合,共同作为双向GRU的输入。使用共享权重的双向GRU将粒度不同的特征信息映射到相同的向量空间内。
对于给定的n维输入(x1,x2,...,xn),在t时刻,BGRU的隐藏层输出ht,其具体的计算过程如式(12)~(13)所示。
MCNN-BGRU模型考虑了句子之间的语义信息,同时能够处理文本序列的长依赖关系,实现对文本的充分表征与挖掘。为了使模型能够高度关注文本中的重要信息,本文在上述模型的基础上结合注意力机制构建ATT-MCNN-BGRU模型。注意力机制示意图如图2所示。
图2 注意力机制示意图
注意力机制的核心在于通过结合文本上下文信息,感知重要的语义特征。通过给序列层中各隐藏节点分配合适的注意力权重进行重要度的划分。权重越大,代表对于情感极性分类越重要。构建注意力机制方式,如式(15)~(17)所示。
其中,a为学习函数,仅由隐藏状态序列ht决定。BGRU层的隐层状态序列ht送入到学习函数中,经过加权处理,得到注意力权值α。 依据注意力权值,对所有的序列层中所有节点的隐含向量进行加权,得到最终的文本特征向量s。
为了解决模型训练中的梯度弥散问题,使得模型能够更好的优化,具备更好的训练效果,本文引入Maxout神经元,构成ATT-MCNN-BRGUM模型。Maxout神经元如图3所示。
图3 Maxout神经元示意图
每一个Maxout神经元都由多个不同的激活函数神经元组成,其输出是其中的最大值,如式(18)所示。
本文使用softmax函数接收ATT-MCNN-BGRUM模型的输出,得到待分类句子的情感极性判别,如式(19)所示。
其中W为权重矩阵,b为偏置。
其中,i为句子索引,j表示类别的索引,λ表示L2正则化损失函数的惩罚项,θ表示模型设置的参数。
本文将ATT-MCNN-BGRUM模型应用到情感分析任务上。在实验中采用Pennington等[19]提出的预训练好的300维GloVe词向量进行初始化。对于词典中不存在的词,采用均匀分布U(-ε,ε)进行初始化设定,其中ε设置为0.01。该情感分析模型运行于Ubuntu 16.04系统,使用的深度学习框架为Keras 1.2.2。
本实验所采用的数据集为IMDb数据集和SST-2数据集。IMDb数据集共包含50 000条来自美国电影评价网站的数据集,文本平均长度为294,按照情感极性可以划分为积极(Positive)和消极(Negative)两种情感类别。SST-2数据集来自于Stanford Sentiment Treebank,是对电影评论数据集MR数据集的扩展[3],约有11 855条文本。本文的目标是区分不同文本的情感极性,即Positive和Negative。本文所需的实验数据的统计如表1所示。
表1 实验数据集统计信息
在本文实验中,为了获取丰富的特征信息,三通道所选取的卷积核窗口宽度分别为2,3,4。此外,为了防止训练过度,出现过拟合的现象,本文在实验过程中使用了dropout机制和权重正则化限制。模型的详细超参数设置如表2所示。
表2 参数设置
将本文融合注意力机制的多通道卷积与双向GRU混合模型方法ATT-MCNN-BGRUM,与以下方法在两个不同的数据集上进行实验。
本文的对照模型大致分为四组: 传统机器学习方法组、CNN组、RNN组以及融合CNN、RNN模型方法组。下面对部分待对比模型进行简要介绍。
① CNN-rand/CNN-static
该方法首先构建n×k词向量矩阵,之后使用不同尺寸的滤波器对词向量矩阵进行卷积操作,再将得到的特征序列进行最大池化操作,最后进行分类。CNN-rand与CNN-static两种方法的区别在于CNN-rand的词向量来自于随机初始化设置而CNN-static来自于Word2Vec方法。
② CNN-multi-channel
该方法是对CNN-static的改进,其核心在于使用双通道的词汇矩阵对原始文本进行表示,两通道经过卷积操作得到的特征经过拼接送入全连接层进行分类。
③ DCNN
该方法核心思想在于使用深度卷积神经网络对文本进行建模。模型中包含两组卷积。其中卷积使用宽卷积,很好地对文本的边缘信息进行提取;采用k-max-pooling方法,降低了池化操作对序列信息的丢失。
④ LSTM/GRU
LSTM和GRU为RNN的两种变体模型。
⑤ Bi-LSTM
该方法能够结合序列正反两个方向信息对文本进行建模,解决了文本长依赖问题。
⑥ ATT-BLSTM
该方法在Bi-LSTM的基础上引入了注意力机制,能够有效地捕获文本中的关键信息。
⑦ CNN-LSTM-Word2vec/CNN-GRU-Word2vec
该方法将CNN与LSTM/GRU模型相结合,提出CNN-LSTM-Word2Vec/CNN-GRU-Word2Vec对短文本进行情感分析。该模型使用Word2Vec构建词向量,卷积后进行最大池化,最后通过LSTM/GRU对文本序列进行建模,从而完成情感分析任务。
本文选取IMDb数据集及SST-2数据集中的积极和消极情感数据对比本文提出的模型和对比实验,依据二分类准确率,验证本文提出方法的有效性。实验结果如表3所示。
表3 模型在不同数据集上的准确度统计(%)
从表3可以看出,本文提出的ATT-MCNN-BGRUM模型在两个数据集上均取得了比其他网络模型更好的分类效果。在IMDb数据集上,模型的分类效果达到90.8%,在SST-2数据集上,分类效果达到90.5%。分别比对照组的最优分类模型准确率提升1.5%和0.6%。
对于CNN组,CNN-multi-channel方法较CNN与DCNN方法在SST-2数据集上分类准确率提升5.4%和1.3%,这说明引入多通道卷积模型对文本进行不同粒度的特征提取的必要性。在IMDb数据集上引入注意力机制的LSTM模型较Bi-LSTM模型在IMDb和SST-2数据及上分别提升2.7%和0.6%。这说明双向RNN模型能够结合文本上下文信息,提升分类准确率;注意力机制能够提升模型关注更重要序列信息的能力,进一步提升模型精度。本文模型较ATT-BLSTM模型在IMDb及SST-2数据集上分类精确度分别提升1.5%和2.3%,ATT-MCNN-GBRUM模型在SST-2上相较于CNN-LSTM-Word2Vec和CNN-GRU-Word2Vec模型提升1.0%和0.6%。
将本文模型在IMDb数据集上训练过程进行分析。图4展示了本文模型在IMDb数据集和SST-2数据集上40个epoch内的训练过程,其中包含在训练过程中准确率和Loss值的变化情况。本文模型在前25训练轮次,训练准确率有较大幅度的提升,在后15训练轮次,训练准确率呈小幅度波动上升,最终趋于平稳。本文模型在IMDb与SST-2数据集上初始Loss值分别为0.821 9与1.076 2,模型Loss值随着迭代次数增加而不断降低,模型对训练数据的拟合程度不断提升。在训练阶段的第40轮次,本文模型在IMDb及SST-2数据集上的Loss值分别下降至0.105 4和0.123 8。
图4 模型训练过程
图5展示了本文模型在两数据集上验证及测试过程。对于IMDb数据集,模型验证准确率在前20轮稳步提升,在21-40轮次,模型在合理范围内波动。对于SST-2数据集,模型在前25轮次验证准确率呈平稳上升趋势,在后15轮次,训练准确率出现小幅度的震荡,最终趋于平稳。将本文模型在两数据集上进行测试,对于IMDb数据集,当运行至第23个epoch时,模型分类效果达到最优,此时的准确率为90.8%。对于SST-2数据集,模型在27个轮次分类效果达到最优,此时的分类准确率为90.5%。
图5 模型验证及测试过程
为了验证Maxout神经元的有效性,将本文所提出的ATT-MCNN-BGRUM与去除Maxout神经元的ATT-MCNN-BGRU模型进行对比实验。图6对比了两种模型在训练及测试过程中的准确率的变化情况。通过对两模型的训练过程中准确率的变化进行分析,发现引入Maxout神经元的网络模型相比之下能够更快地收敛,发挥模型的分类性能。同时,引入Maxout神经元的模型在训练准确率上较没有引入的模型有了1.1%的提升,说明其能够在模型的训练过程中起到优化作用。
图6 有无Maxout训练及测试准确率对比
表4对比了两种模型测试准确率,ATT-MCNN-BGRUM较ATT-MCNN-BGRU模型在IMDb、SSTB数据及上分别提升了0.5%与0.4%,这说明引入Maxout神经元有助于提升模型的性能,提高分类的准确率。
表4 模型有无Maxout分类准确度对比(%)
本文在相同深度学习框架、相同硬件环境下对比分析不同网络在IMDb和SST-2数据集上完成一次迭代的训练时间,结果如表5所示。
表5 不同模型完成一次迭代的训练时间
从表5结果可以看出,LSTM,GRU网络训练时间远远高于CNN训练时间。在IMDb数据集上,GRU、LSTM模型的训练时间分别为285秒和369秒,分别是CNN模型的4.19倍和5.43倍。这主要是因为RNN网络接收的是序列化输入,所以训练时间要远高于接收平行化输入的CNN网络。多通道CNN模型较传统CNN模型训练耗时略有增加,因此本文采用多通道卷积对文本提取粒度不同的特征信息,进而降低整个模型训练耗时的做法是有依据的。采用双向LSTM模型和双向GRU模型对文本进行建模,进行情感分类会大幅提升神经网络的训练时间。其在IMDb和SST-2数据集较单向LSTM、GRU分别增长3.44倍、2.97倍和4.07倍、3.26倍。同时,引入注意力机制的LSTM模型在IMDb数据集上训练时间提升30.89%,说明在模型中引入注意力机制也会在一定程度上增加模型训练时间。
经过CNN提取特征后的GRU模型(CNN-GRU-Word2Vec)在IMDb和SST-2数据集上训练一轮次的时间分别为99秒和61秒,较GRU模型的285秒和107秒有了大幅度的下降。同时结合表3准确率进行分析,CNN-LSTM-Word2Vec模型和CNN-GRU-Word2Vec模型较单一,RNN模型一方面能够提升模型分类准确率,另一方面可以大幅缩短模型训练时间。本文模型在引入了注意力机制和双向GRU模型后,在两个数据集上的训练时间,均低于引入注意力机制的单向LSTM模型,从而说明了本文在一定程度降低了模型训练时间,有更优的训练性能。
本文提出一种融合注意力机制的基于多通道卷积与双向GRU模型用于文本情感分析任务。该方法采用多通道卷积方式对词嵌入矩阵做粒度不同的特征提取,并将不同通道所提取的特征进行融合,作为双向GRU的输入,从而对文本进行建模。引入注意力机制,使模型能够更加关注那些对判断情感极性影响大的部分。将模型在不同的数据集上进行对比实验,结果表明,该方法比本文提到的其他对比方法在情感极性分类的准确性上有了进一步的提升。
在下一步工作中,可以考虑将注意力机制进行改进;同时将集成学习的思想引入模型中,提升模型的稳定性及泛化能力。