石杰
关键词: 预训练模型; 双通道模型; TCN网络; BiGRU网络; 情感分类
中图分类号:TP18 文献标识码:A
文章编号:1009-3044(2023)20-0031-05
0 引言
随着人工智能技术的不断发展,情感分类技术在现实生活中变得越来越重要,目前已在多个领域得到了广泛应用,例如舆情分析、产品推荐、情感监测等。深度学习兴起以来,基于深度学习的神经网络方法已成了自然语言处理任务的研究热点。Mikolov等人[1]最先提出了Word2vec 模型,包括 CBOW 词袋模型和Skip-gram 模型用于当前词与上下文内容的预测。Pennington 等人[2]提出了具有将全局统计信息与局部上下文相结合特点的 GloVe 模型。Devlin 等人[3] 结合ELMo 和 GPT 模型提出了 BERT 模型,通过字向量和多头自注意力机制,解决了现有词向量模型无法捕获完整文本语义信息的问题。随后百度团队以 BERT 模型为基础,针对中文文本任务进行优化提出了ERNIE [4]模型,并取得了良好的效果。Bai等人[5]提出了TCN网络,并将因果卷积、膨胀卷积和残差连接应用其中,使其得到了广泛应用。GRU网络是Tang 等人[6]在继 LSTM 网络之后对RNN做出的又一次优化,将LSTM 中的三个门结构进行了简化,提升了训练效率。Adabelief算法[7]是一种新兴的优化算法,它结合了Adam和AMSGrad的优点,能够为模型训练提供高效稳定的支持,特别是在处理文本任务时表现出色。综上,本文基于词向量表示、情感特征提取、模型训练优化三方面考虑,提出了一种基于预训练模型的双通道情感分类方法。
1 相关理论技术
1.1 ERNIE模型
ERNIE 模型是为了使模型训练时能够更好地匹配中文语义语法所做出的改进,在结构上,仍然是采用双向Transformer进行特征学习。和BERT模型的不同之处在于该模型训练所使用的数据全部来自中文语料库,通过大量中文语料的训练使其能够更好地适用于中文文本处理任务。另外,ERNIE 模型在掩码机制方面也做出了改进,它不同于BERT 模型随机地遮盖单个汉字,而是利用词语掩码和实体掩码来遮盖词语或命名实体,因为汉语的语法结构不同于其他语言,如果只遮盖某个单独汉字,极大可能会拆散字词间的关系,导致特征提取不准确,而ERNIE 模型的掩码机制能很好地预测完整语义信息。
1.2 TCN网络
TCN(Temporal Convolutional Network) 网络基于卷积神经网络的时间序列进行建模,一般用于时序数据的建模任务,其主要思想是利用卷积神经网络提取数据中的特征,通过残差网络进一步优化模型的性能。相较于传统的循环神经网络,TCN网络在处理长序列数据时更为高效,而且可以避免梯度消失的问题。TCN网络所具有的因果卷积和膨胀卷积,不仅可以用于时间序列预测,而且在语音识别、自然语言处理、图像处理等多个领域也得到了广泛应用。TCN网络的模型结构如图1所示。
1.3 GRU网络
GRU(Gated Recurrent Unit) 网络,即门控循环单元,是传统循环神经网络的变体模型。相比传统的循环神经网络,GRU具有更好的长期记忆能力和更少的参数量,可以有效避免传统RNN中遇到的梯度消失和梯度爆炸问题。GRU的结构也比较简单,由更新门、重置门和候选隐藏状态组成。其中,更新门控制了前一时刻的隐藏状态有多少信息需要传递给当前时刻,重置门控制了前一时刻的隐藏状态需要被多大程度地忘记,而候选隐藏状态则是当前时刻的输入和前一时刻的隐藏状态的线性组合。GRU网络结构如图2 所示:
2 基于预训练模型的双通道情感分类方法
由于情感特征的提取具有一定的复杂性,因此基于深度学习的神经网络方法目前仍是情感分类任务中研究最为广泛的方法之一。黄泽民等人[8]提出在BERT模型的预训练下,利用BiSRU网络和注意力机制进行情感特征提取。胡玉琦等人[9]针对文本评论数据利用BiGRU-CNN模型和注意力机制进行情感分类任务。苏天等人[10]提出利用BERT模型结合BiGRU网络对水利新闻数据进行情感分析研究。本文基于Adabelief 算法,并结合ERNIE 预训练语言模型和TCN、Att-BiGRU双通道网络提出了一种基于预训练模型的双通道情感分类方法。其结构如图3所示:
2.1 预训练层
原始文本数据经过预处理后以词向量的形式输入预训练层中,经过多层的双向Transformer 进行训练后形成最终的文本特征。该模型中预训练层使用ERNIE模型,由于ERNIE模型基于双向结构的Trans?former进行训练,且本身具有多头注意力机制,因此能够很好地增强文本的情感语义特征表示,其计算方式如下所示:
2.2 双通道层
在模型的特征提取部分,分别使用TCN网络和Att-BiGRU网络进行数据特征的训练提取。由于两种网络模型在文本特征的处理上有着各自不同的优势,利用双通道模型进行文本信息提取,再对两者进行特征融合,从而获取到更丰富的情感特征信息。
1) TCN网络
TCN网络所具有的因果卷积和膨胀卷积,能够很好地对时序数据进行处理。因果卷积具有严谨的因果性,它只能利用当前时刻之前的时间步信息来进行预测,而不能利用之后的时间步信息进行预测,因此,可以有效避免未来因素所造成的影响。将预训练后得到的特征输入TCN网络中,从右至左进行计算来提取特征,其公式如式(13)所示:
3 实验与分析
3.1 实验环境及参数设置
实验所使用的操作系统为Windows10,内存为32GB,CPU 为英特尔的E5-2678v3,GPU 為NVIDIARTX3080。模型所用的深度学习框架为PyTorch,在Pycharm上使用Python3.8完成编程和训练。
实验参数:ERNIE预训练模型保持原有的默认参数不变;TCN网络的卷积层数为4,卷积核大小为3,膨胀因子为2,词向量维度为768。另外,学习率为1e-5,损失率为0.25,BiGRU的隐藏层为256,使用ReLU 作为激活函数,Adabelief 算法作为模型训练时的优化器。
3.2 数据集及评价指标
1) 实验数据集
本模型训练所用的数据集为中文情感分析语料库提供的新浪微博評论数据集和平板商品评论数据集,所有数据均按积极和消极两类情感进行了标注,并按照8:2划分训练集和测试集。数据集条目统计及示例如表1、表2所示。
其中,TP 表示将正样本预测为正样本的数量;FP表示将负样本预测为正样本的数量;FN 表示将正样本预测为负样本的数量。
3.3 结果分析与对比
1) 评价指标对比
为证明该双通道模型在情感分类任务中的有效性,该实验从精确率、召回率和F1值方面,对该模型进行消融实验对比分析。实验结果如图4、图5所示:
通过图4、图5可知,在新浪微博评论数据集上,TCN+Att-BiGRU 模型相比单一的TCN 和Att-BiGRU 模型,F1值分别提升了2.05%和1.98%,在平板商品评论数据集上,则提升了2.4%和2.3%,这是由于双通道模型对各自提取的特征进行融合后,所提取的情感特征更加丰富;在新浪微博评论数据集上,RENIETCN+Att-BiGRU 模型相比于TCN+Att-BiGRU 模型,F1值提升了3.24%,在平板商品评论数据集上,则提升了3.51%,这说明使用ERNIE模型进行预训练后,使得词向量的情感特征表示更加充分,模型性能有了很大提升;本文模型相比于RENIE-TCN+Att-BiGRU 模型,在两个数据集上,其F1值则分别提升了0.32% 和0.26%,这主要是由于该模型在训练过程中引入了Adabelief算法,在加速收敛的同时,也使模型的训练更加稳定,因此其性能指标也有所上升。
2) 优化算法收敛性对比
为证明基于Adabelief算法的双通道模型在情感分类任务中的有效性,分别将Adam算法和Adabelief 算法的损失率情况进行了对比。对比结果如图6、图7 所示:
由图6和图7可以看出,在新浪微博评论数据集上,基于Adabelief算法的双通道模型在训练之初,其收敛速度就要明显优于Adam算法,虽然在训练到2000步时发生了波动,但在3 000步左右时又很快恢复了正常收敛,并保持稳定状态,损失率最终收敛到0.22。在平板商品评论数据集上,基于Adabelief算法的双通道模型仍然在训练开始时,其收敛速度仍然优于Adam算法,虽然在训练到1 000步左右时发生了波动,但在3 000步之后又开始正常收敛,并逐渐超越Adam算法,最终损失率保持到0.18。整体可知,基于Adabelief算法的双通道模型在情感分类任务上,其收敛速度更快,具有较强的泛化性,整体表现性能要优于Adam算法。
4 结束语
针对中文文本情感分类任务,本文提出了一种基于预训练模型的双通道情感分类方法。通过将处理后的文本数据输入ERNIE 模型中进行预训练,然后将预训练后的特征向量分别输入TCN 网络和Att-BiGRU网络中进行特征提取,最后将双通道模型获取的特征进行融合拼接后经由Softmax计算输出。同时在训练过程中,使用Adabelief算法进行模型优化。经实验证明,该模型在新浪微博评论数据集和平板商品评论数据集上各方面表现性能均优于对比模型。下一步,将对更加复杂的多模态情感分类任务展开研究,进一步提升情感分类应用范围。