孟彩霞 董娅娅
(西安邮电大学 西安 710000)
随着社交媒体平台的迅速发展和电商平台运营模式的不断提升,互联网上产生了大量个人观点及产品评论的数据。这些海量的非结构化的文本数据,潜藏着互联网用户对客体的评判态度和情感状态,收集并分析这些评判态度和情感状态信息,对个人、商业组织和国家政府都有重要作用。情感分析是自然语言处理和数据挖掘领域的一个热门话题[1],通过分析文本中的语义信息,挖掘出其蕴含的情感倾向,有助于用户有效地获取所需要的情感信息。
传统的情感分析方法采用了人工设计的表征方式和人工选择的特征,存在人工成本较高、系统的泛化性和迁移性差等问题。随着深度学习领域的高速发展,很多研究者试图采用深度学习的方法自动完成数据表征和特征提取,能够很好地弥补传统方法的缺陷。深度学习的概念最早由Hinton等[2]提出,通过建立深层神经网络,组合低层特征形成更加抽象的高层特征以发现数据的分布式特征表示。卷积神经网络是目前应用最为广泛的一种深度学习结构。Kim[3]提出使用卷积神经网络进行句子建模,解决文本分类任务,在多个数据集上均取得了较为不错的结果。陈钊等[4]提出将词语情感特征结合卷积神经网络(WFCNN,Word Feature Convolutional Neural Networks)的情感分类方法,取得了比目前主流的卷积神经网络更高的准确率。刘龙飞等[5]分别使用字向量和词向量作为原始特征,使用卷积神经网络来进行微博情感倾向分析。杜昌顺等[6]基于卷积神经网络模型分析文本的情感倾向,考虑到句子的结构信息,采用分段池化的策略分段提取句子不同结构的主要特征。这些方法在不同程度上提高了卷积神经网络的特征提取能力,但没有考虑到卷积神经网络模型的训练速度。
为了进一步提高卷积神经网络的特征提取能力并加快模型的训练速度,本文提出一种分解卷积神经网络模型并将其用于中文情感分类:首先训练出数据集中每个词的词向量,将其组合成二维矩阵作为卷积神经网络的输入特征;然后在卷积层使用多个卷积通道并使用分解卷积操作提高卷积神经网络的特征提取能力及训练速度;随后使用池化操作从每张特征图中找出最具代表性的局部最优特征;最后通过全连接层来完成情感的分类。本文提出的方法不依赖于其他任何特定的领域知识和复杂的词性标注等操作,实验结果取得了比目前主流的卷积神经网络更好的性能,显示了本文方法的有效性。
卷积神经网络是目前应用最为广泛的一种深度学习结构,具有学习复杂、高维和非线性映射关系的能力。卷积神经网络的基本框架由卷积层、采样层和全连接层堆叠而成,每一层的输出为下一层的输入。卷积层通过卷积核运算产生特征图;采样层对卷积层产生的特征图进行采样,提取局部最优特征生成特征映射图;采样层输出的结果经拼接作为全连接层的输入,然后利用softmax输出分类结果。
卷积神经网络具备独特的二维数据处理方式,现已在多个领域得到广泛应用。Seimanet等[7]设计了一个5层的CNN,并且使用多层卷积层的输出作为全连接的输入,在门牌号识别的问题上取得较好的精度。Du等[8]提出基于卷积神经网络进行特征的提取,对在线的手写汉字进行识别。Yang等[9]提出一种深度卷积神经网络的人脸检测模型,使用卷积神经网络结构得到局部人脸映射图并计算候选框图像的局部人脸得分,从而检测人脸。Guo等[10]提出将卷积神经网络和隐马尔可夫模型(HMM)结合起来,自然场景的文字识别中得到了非常好的效果。
对于情感分析而言,基于卷积神经网络的方法在建模、解释、表达能力以及优化等方面优势比较明显[11],使用卷积神经网络模型能够挖掘出文本所蕴含的更深层次的自然语言信息。蔡慧苹等[12]将word embedding与卷积神经网络结合来解决中文的情感分类问题。Kalchbrenner等[13]提出了一种DCNN(Dynamic Convolutional Neural Network)的网络模型,使用了一种动态池化的方法,能够处理可变长度的输入。冯多等[14]提出CNNSC模型对中文微博进行情感分析,考虑到中文的特殊性,研究了不同语义单元对CNNSC分类效果的影响。Johnson等[15]及Zhang等[16]使用CNN进行文本分类,并进行了特殊场景下的改良。这些工作表明了卷积神经网络在领域中具有广阔的应用前景。
传统的卷积神经网络是单通道的卷积层堆叠而成的,并且每层只用一个固定大小的卷积核。由于使用不同大小的卷积窗口能够提取出含有不同信息的特征,为了充分地提取特征并降低特征提取过程中的偶然性,如图1所示,本文设置多个卷积通道并使用不同的卷积窗口,从而提取出不同粒度大小的局部特征,再把这些特征结合起来。
图1 多个不同尺寸的卷积核
通过这样网络提取到的特征优于使用单一卷积核,但其在网络训练的过程中,参数量远大于使用单一卷积核,过高的参数计算量会使得模型效率低下。为此本文提出一种分解卷积的方法,如图2所示。
图2 卷积操作
如图2(a)所示,使用传统卷积操作,当输入维度为6×6,使用卷积窗口为3×3进行特征提取后,生成4×4的特征映射图。如图2(b)所示,使用分离卷积操作,输入维度为6×6,先将3×3的卷积窗口分解成1×3和3×1的卷积窗口,使用卷积窗口为1×3进行特征提取后,生成4×6的特征映射图,然后使用卷积窗口为3×1进行特征提取后,也生成4×4的特征映射图。然而3×3的卷积窗口需要训练9个参数,而1×3和3×1的卷积窗口需要训练6个参数。当输入维度以及需要输出的维度较大时,分离卷积操作能够明显降低需要训练的参数,使得模型的训练时间明显降低。
当使用卷积神经网络进行图像识别时,由于像素矩阵中的每一个像素点与其四周的像素点有关,所以卷积核在像素矩阵的行和列同时进行卷积操作。对于文本矩阵而言,行与行之间具有语序特征,不同维度之间具有不同的语义信息。因此,使用分解卷积操作进行文本特征提取,在加快模型训练速度的同时能够提高卷积神经网络的提取文本特征的能力,能较好地保留文本最初的语义和语序特征。
本文所提出的分解卷积神经网络模型的具体结构如图3所示。
图3 分解卷积神经网络结构图
1)输入层
给定一段长度为L的文本s,wi为s中的第i个词所对应的d维词向量,那么文本s在输入层可以表示为一个L×d的二维矩阵w1:L,
本文所使用的数据集中最长评论为119个词语,词向量维度为300维,即L=119,d=300。对于长度小于L的句子,进行补零处理。
2)卷积层
即特征提取层,对输入层的二维矩阵进行特征提取。其原理是通过卷积核对不同区域进行相同的信息转换,将局部的特征泛化,从而保留整体的特征。对输入层的L×d矩阵w1:L进行特征提取时,首先使用1×d卷积运算滤波器对于句子中的每个词xj进行卷积操作,然后加上相对的偏置,最后通过一个非线性激活函数生成相应的特征mij:
其中◦是元素乘法,b为偏置,f为激活函数。常用的激活函数有sigmoid、Relu等。由于卷积神经网络采用反向传播算法来训练参数值,而sigmoid函数在反向传播求导时要进行除法运算,计算量相对来说比较大。因此本文采用Relu函数作为激活函数。Relu具有稀疏激活性的特点,使得部分神经元的输出值为0,从而减少参数间的依存关系,能够有效地避免模型训练出现过拟合现象。
当卷积运算滤波器对整个输入矩阵逐个进行卷积后,会得出特征映射图mi∈ℜL:
然后使用ki×1的卷积运算滤波器对特征映射图mi进行卷积操作,生成新的特征cij和特征映射图ci:
3)池化层
将卷积层提取出的特征进一步聚合,起到二次提取特征的作用。最大池化是最常用的一种操作,即取局部接受域中最突出的特征,舍弃其他弱的此类特征,生成特征值为:
4)全连接层
池化层输出的结果经拼接之后为文本的最终表达,将其作为全连接层的输入,然后利用softmax输出分类结果。根据训练数据的实际分类标签,采用反向传播算法对卷积神经网络的卷积核和偏置矩阵进行不断更新。
本文所完成的实验均在如表1所示的实验环境中进行。
表1 实验环境及配置
实验所使用的数据来自京东的商品评论。该数据集经过去重、分词和去停用词等预处理工作后,共10000条评论样本,其中商品的正面评论和负面评论各5000条。
为测试模型的性能,对基本的卷积神经网络(CNN)与本文提出的分解卷积神经网络(FCNN)进行实验对比。对于CNN模型和FCNN模型都使用三个卷积通道并使用不同的卷积窗口进行特征提取。网络的超参数具体值设置如表2所示。
表2 卷积神经网络参数设置
本文针对每个模型进行10次实验,每次实验取9份为训练集,1份为测试集,取10次实验结果的均值为模型最终的分类准确率。CNN模型和FCNN模型实验结果如图4所示。
图4 不同模型的准确率
从图4的实验结果可以明显看出,FCNN较CNN具有更高分类准确率。取10次实验结果的均值CNN的准确率为90.85%,而FCNN的准确率达93.27%。这是由于本文提出的FCNN模型,能够将较好地保留文本原始的语义和语序特征,有效地提高了模型的表达能力和分类性能。
为了进一步分析FCNN模型的性能,这里分别选取CNN和FCNN其中一次的实验结果,如图5所示。
图5 收敛性对比曲线
由图5可以看出,CNN模型在第10次迭代开始收敛,而本文提出的FCNN模型在第6次开始收敛,本文提出的FCNN模型具有较好的收敛性。
本文提出一种分解卷积神经网络模型,并将其应用于文本情感分析中。实验结果表明,与目前主流的卷积神经网络模型相比,本文提出的分解卷积神经网络模型表现出较好的性能。由于卷积神经网络训练过程中,需要设置大量的参数,因此下一步计划对参数进行优化进一步提高模型的性能。