刘欣逸 宁 博 王 明 杨 超 商 迪 李冠宇
1 (大连海事大学信息科学技术学院 辽宁 大连 116026)
2 (国网辽宁省电力有限公司信息通信分公司 沈阳 110006)
文本情感分析是自然语言处理领域中的一个分支任务,主要是从大量且复杂的评价信息中抽取出用户对各种产品的评价观点,进一步挖掘出这些评价信息深层次的情感倾向和含义.从电商平台或影评软件的评价信息提取出的评价观点不仅有利于用户快速了解产品信息以及评估产品购买价值,还可以为企业提供不同产品相应的使用反馈,从而帮助企业提升产品质量、跟进竞争策略和提高企业竞争力,因此文本情感分析有较高的研究价值.
传统的文本情感分析主要是针对文档或者句子进行情感倾向分析,得到整篇文档或者整个句子的情感倾向,如积极、消极或者中性,这是一个粗粒度的情感分析任务.如果一篇文档或一个句子中有多个属性词对应多个情感倾向时,这种粗粒度的分析无法抽取出用户所评价的对象,也无法准确地分析出不同的评价对象所对应的情感倾向.随后,研究者们进一步研究细粒度的情感分析,其中属性级情感分析[1-7]是分析已知的属性词对应的情感倾向,然而这种已知属性词的前提并不总是存在的,因此有人提出了属性词抽取子任务[8-10],该子任务的目的是从句子中抽取出需要的属性词.之后,研究者们[11-17]将属性词抽取和情感分类2个子任务进行结合,抽取出用户所评价的评价对象(也称属性词)和该属性词对应的情感倾向.然而,除了属性词和情感倾向,该属性词的评价词也是十分重要的要素,可以得到用户对该产品某一方面积极或者消极的态度,这可以给商家和消费者提供更加准确的数据.Peng 等人[18]认为评价词表示的是情感产生的原因,应该将评价词抽取看作一个重要的子任务而不是仅仅作为辅助任务,因此提出了一个新的情感分析任务:属性级情感三元组抽取[18-23](aspect sentiment triplet extraction,ASTE),该任务是在属性词抽取和情感分类联合学习的基础上将评价词也抽取出来,得到一个三元组(属性词,评价词,情感倾向).
在上述细粒度情感三元组抽取任务中,研究者们没有考虑在联合框架中引入句法信息来共同增强多个子任务,然而句子之间的句法信息对属性词提取、评价词提取和情感分类任务有十分重要的影响.例如,当属性词和评价词是由多个单词构成时,以往的研究很难准确地抽取出全部的单词,存在跨度问题.本文认为如果利用句子之间的句法信息,并根据单词之间的依存关系,可以有效地提高抽取的准确性.当评价词与属性词相距较远时,之前的研究没有考虑二者之间的句法关系,可能不会将二者当作有关联的信息,无法提取出准确的三元组,但如果利用句法依存关系,就可以对评价词和属性词匹配有积极影响.因此针对上述问题,提出了一个基于句法增强的情感三元组抽取框架,该框架是联合学习框架,采用多头任务学习层对3个子任务共同学习,还可以充分利用句法信息增强多个子任务.设计了一个依存句法嵌入图卷积网络,充分地对句子中的每一个单词之间的句法依存关系进行建模.
如图1 所示,“beef noodles were great but the service was dreadful !”中存在多个属性词“beef noodles”和“service”,也存在多个评价词和不同的情感倾向,表1 所表示的是图1 中的依存关系类型及其含义.其中“noodles”是属性词的一部分,根据依存关系“compound”可以得到“beef ”与“noodles”有关联,组合为一个完整的属性词,又通过依存关系“nsubj”可以推断出该属性词对应的评价词为“great”,从而分析出其情感倾向为积极.整个句子是通过序列标注的方法抽取出属性词和评价词,同时还需要识别出评价词和属性词之间的搭配关系以及所对应的情感倾向,最后获得细粒度的情感三元组分析结果:“beef noodles-great-positive”和“service-dreadful-negative”.
本文的贡献主要有3 个方面:
1)由于句子中存在重复或多词的属性词和评价词,本文提出了一种基于句法增强的细粒度情感三元组抽取模型,该模型利用句法信息来增强属性词抽取、评价词抽取和情感依赖分析这3 个子任务,从而提高了三元组抽取任务的准确性.
2)使用图卷积网络(graph convolution network,GCN)与依存句法树来生成图节点的句法信息,更好地保留了句子中的语法特征.
3)在情感三元组任务的4个常用英文数据集和1个中文数据集上,设计了本文模型与基准模型的对比实验,并设计了子任务对比实验来进一步验证模型性能,实验结果表明了本文模型的有效性.
近年来在细粒度情感分析的研究中有多个子任务,如属性级情感分类、属性词抽取、评价词抽取、情感分类联合学习和三元组任务等.
基于属性级的情感分类任务[1-7],是将已知的属性词融合到情感分类中.例如,Dong 等人[1]提出了自适应性递归神经网络(adaptive recursive neural network,AdaRNN),它根据每个单词之间的上下文和依存句法信息,自适应地将单词的情感传递给目标.Yang 等人[2]提出了一种以注意力为基础的双向LSTM(long short-term memory)方法来进行基于目标的情感分类任务.Tang 等人[4]针对注意力机制的缺点,提出了一种渐进式的自监督注意力学习方法,迭代地进行属性级情感分类预测,完善注意力机制.此外,Song 等人[6]为解决传统循环神经网络(recurrent neural network,RNN)和注意力带来的问题,提出了一种注意力编码器网络(attentional encoder network,AEN),使用基于注意力的编码器来建模上下文和目标的关系,从而进行基于特定目标的情感分类任务.而Sun 等人[7]将属性词构造为一个辅助句,将属性级情感分类任务转化为句子对分类任务,利用BERT(bidirectional encoder representation from transformers)模型进行分类.
属性词抽取任务是抽取评价中的属性词,Yin 等人[8]采用无监督的方式学习单词和依存路径的分布式表征,并用条件随机场(conditional random field, CRF)模型进行属性词的抽取.Li 等人[9]提出了一种新的属性词抽取框架,利用评价词摘要和属性词检测历史信息来提高属性词抽取的准确性.因为基于序列的方法不能充分利用整个句子的整体含义,并且依赖关系存在局限性,因此,Ma 等人[10]提出了门控单元网络和位置感知注意力机制,并将属性词抽取任务定义为序列到序列的任务.
之后,研究者们[11-17]将属性词抽取和情感分类2个子任务进行结合,Phan 等人[11]采用流水线的方式先抽取出属性词,再利用情感分类器来得到情感倾向.但由于子任务的分离,模型的错误率会加大,因此,Ma等人[12]提出联合学习属性词抽取和情感分类任务,设计了分层堆栈双向门控循环单元(hierarchical multilayer bidirectional gated recurrent units,HMBi-GRU)模型,同时抽取目标并预测其情感极性.该模型在情感分类任务中使用了评价词作为辅助任务,没有更多地考虑评价词和分类任务之间的关联关系.之后,研究者对评价词有了更深入的研究,例如He 等人[13]提出的交互式多任务学习网络(interactive multi-task learning network, IMN)模型可以同时进行多个任务的联合学习,该模型中引入了一种消息传递机制,可以通过加大评价词注意力权重来增强文本表示.
随后,Peng 等人[18]提出了属性级情感三元组抽取方法[18-23],该方法采用流水线的方式先抽取出“属性词-情感极性”和评价词,之后通过分类器对属性词和评价词进行配对.但是Peng 等人[18]的流水线方式还需要另外的配对任务,有严重的局限性也增加了错误率.因此,Xu 等人[19]提出了一个基于位置感知标记的端到端联合模型,实现了三元组的共同抽取,很好地解决了流水线方法中存在的问题,但是不能同时解决属性词重叠或者评价词重叠的问题.Wu 等人[20]提出了网格标记方案(grid tagging scheme,GTS),通过一个统一的网格标记任务以端到端的方式处理三元组任务或"属性词-评价词"词对抽取任务.与此同时,Zhang 等人[21]为解决统一标签和成对的"属性词-情感极性"带来的问题,提出了一个多任务学习框架实现属性词和评价词的联合抽取以及二者之间的情感关系解析,最终抽取出三元组.
本文属性级情感三元组抽取任务可以看作是序列标注任务和分类任务的结合.给定输入文本序列X=,xi表示该句子中第i个单词,|X|表示整个句子的长度,目标是输出一个三元组集合Y=yj表示第j个三元组元素,|Y|表示的是三元组集合的长度.每一个三元组是由3 个元素构成,即yj=分别表示属性词跨度、评价词跨度和情感倾向,其中sp和ep表示属性词的跨度和评价词的跨度,即开始位置和结束位置.因此,本文的主要任务可以表达为将一个句子X=通过模型学习转化为三元组集合:
细粒度情感三元组抽取框架是联合抽取框架,其包括文本编码层、句法特征层、多头任务学习层和三元组解码层这4 部分.模型结构图如图2 所示,其中n表示输入句子的长度,m表示输出三元组的个数,将序列文本输入到由句子编码模块和句法关联模块组成的文本编码层,得到句子上下文编码和依存句法分析树;再进入带有依存关系的图卷积网络来充分学习句法信息,得到上下文句法特征;接着,进入多头任务学习层,同时进行属性词抽取、评价词抽取和情感依赖关系分析;最后,基于多头任务学习层获得的结果进行解码,输出完整的三元组集合.
Fig.2 Our model structure图2 本文模型结构
学习语义信息和语境信息需要将句子转化为词向量,这是文本编码层的关键.文本编码层是由句子编码模块和句法关联模块组成的.
在句子编码模块中,给定一个输入X=,为了可以充分地学习句子中每个单词的上下文信息,使用了一个双向长短期记忆网络(bi-directional long short-term memory,Bi-LSTM).将输入的句子转化为向量形式,然后使用Bi-LSTM 网络进一步充分学习句子中的上下文信息.Bi-LSTM 不同于LSTM,它由2个不同方向的LSTM 组成,因此Bi-LSTM 不仅可以同LSTM 那样学习到每一个单词在句子中的长期依赖关系,而且可以从2个方向获取上下文信息,保留了更多的重要信息.输入的句子X=进行编码后得到向量表示Es={ei|ei∈Rde},使用Bi-LSTM 得到句子的上下文表示Hs=,其中,=demb和dhid分别表示词向量的维度和LSTM 的隐藏状态维度,和分别表示正向和反向的LSTM.
在句法关联模块中,给定一个输入X=,为学习到句子中的句法信息,利用依存句法分析将每一个句子转化为依存句法树,从而得到句子的依存关系.输入的句子X利用斯坦福依存句法分析,得到句子的依存句法表示DSP=dSP(X)=.其中,SP 表示斯坦福依存句法分析器,di表示第i个单词在依存句法树中相关联的父节点序号.此外,对于中文酒店数据集,本文采用哈尔滨工业大学的中文自然语言处理工具LTP 进行句法分析,同样得到句子的依存句法表示DLTP=dLTP(X)=.
该模型在句法特征层引入了图卷积网络(GCN)来学习单词之间的句法信息.在上一层的句法关联模块中得到了依存句法分析树,该依存分析树也可以表示为具有n个节点的图,其中的节点就是每一个句子中的单词,边表示的是单词之间的句法关联路径.而依存分析树中的节点是经过上一层的句子编码模块中Bi-LSTM 编码得到的向量表征结果,上一层的这些输出是作为句法特征层的输入.模型中采用GCN 来建模句法特征,GCN 的主要思想是每一个节点的特征是由相邻节点不断更新得到的,当存在多层的GCN 时,当前层节点的特征可以由上一层的相邻节点和自身节点特征更新获得.
将句子的上下文表示和依存分析树的邻接矩阵作为句法特征层中GCN 的输入.任意句子的n×n的邻接矩阵可以由其依存分析树转换而来,在依存分析树中节点i和节点j之间存在一条依存路径,则邻接矩阵的Aij=1,否则Aij=0.与此同时,每一层的节点自身应当是有关联和影响的,因此设计了一个自循环,即Aii=1.GCN 是多层的结构,每一层节点的信息是由上一层的节点通过其依存句法路径来传播和聚集特征信息,并不断更新节点的特征.因此,将Bi-LSTM 输出节点的上下文向量作为GCN 的输入来进行句法关联信息的构建.GCN 中的第k+1 层的第i个节点更新为
最后通过GCN 层得到带有依存句法关联的向量表示:
此外,还需要建立残差连接,将Bi-LSTM 输出的向量和GCN 层输出的特征进行相加和残差连接,得到多头任务层的输入,这样训练的时候可以使梯度直接走捷径反传给最初始层.句法特征层的最终输出为
2.5.1 多头任务学习层
多头任务学习层包括属性词抽取、评价词抽取和情感依赖分析3 个部分,下面介绍这3 个部分.
1)属性词和评价词抽取
采用序列标注的方法来进行属性词和评价词的抽取任务,将句子中的单词标记为属性词ap 和评价词op.句法特征层的隐藏状态包含了一些多余的信息,可能会导致过拟合的风险.因此,首先使用简单的线性层和非线性激活函数从句法特征层输出的特征中分别抽取出属性词特征和评价词特征,并将句法中的无关特性去除掉.具体方法可由式(6)(7)所示:
在得到属性词和评价词的特征表示后,使用(B,I,O)序列标注方法对特征进行标注.通过线性层和softmax函数得到属性词和评价词的分布序列和:
因此,属性词和评价词抽取任务的损失为
2)情感依赖分析
定义了4 种情感依赖类型POS, NEG, NEU, NODEP,其中POS 表示积极,NEG 表示消极,NEU 表示中性,NO-DEP 表示没有依赖关系.
与属性词抽取和评价词抽取2 个子任务一样,先用不同的参数抽取到属性词和评价词的特征,如式(11)(12)所示,然后用双仿射评分器来获取每个词对的依赖.
句子中存在|X|2个由属性词和评价词组成的词对,因此期望可以对每一词对进行分析.为减少学习的冗余度,面对多词构成的属性词和评价词时,先只考虑最后一个词进行分析.每一个单词对依赖类型的评分可由式(13)计算得出:
然后,使用softmax函数来进行归一化,si,j,k表示单词对[xi,yj]所有依赖关系类型的概率.
最后,采用多头任务学习框架的联合训练方式,训练目标如式(16)所示,其中,α表示权衡参数,用于平衡抽取任务和情感依赖分析任务,θ表示可训练参数,γ表示L2正则化的权重值.
2.5.2 三元组解码层
在获得属性词、评价词和二者的情感依赖关系后,以评分器得到的情感依赖为基础,进行三元组的解码.如图1 所示,句子“beef noodles were great but the service was dreadful !”,属性词抽取结果为(B,I,O,O,O,O,B,O,O,O),评价词抽取结果为(O,O,O,B,O,O,O,O,B,O),情感依赖分析结果为(1, 3, POS),(6, 8, NEG),其中数字表示属性词和评价词中最后一个单词的下标.因此,通过情感依赖分析结果反向遍历属性词标签和评价词标签,解析出完整的三元组,最终的情感三元组为((0, 1), (3, 3), POS)和((6, 6), (8, 8), NEG),其中(0, 1)表示的是属性词“beef noodles”的开始位置和结束位置,(3, 3)表示的是评价词“great”的开始位置和结束位置,POS 表示该属性词的情感倾向为积极.
在Peng 等人[18]提出的ASTE-DATA-V1 数据集和Xu 等人[19]提出的ASTE-DATA-V2 数据集上对设计的模型进行评估,这2 个数据集都包括了3个餐厅领域的数据集和1个笔记本领域的数据集,具体为:lap14,rest14,rest15,rest16.这2个数据集的具体情况如表2 和表3 所示,这2 个数据集都有3 种情感倾向:积极、消极、中性.ASTE-DATA-V1 数据集中缺失了一些冲突情感倾向的三元组,其中包括重复评价词的三元组,例如,“good food and service”这句话中评价词“good”对应了2 个属性词“food”和“service”,应该得到2 个三元组,但是数据集ASTE-DATA-V1没有标注出这部分.而Xu 等人[19]补充了这部分缺失,进一步对数据集进行完善,得到一个新的数据集ASTEDATA-V2.这2 个数据集的4个领域数据集都来自SemEval-2014 task 4[24],SemEval-2015 task 12[25],SemEval-2016 task 5[26].
Table 2 Statistics of Four Datasets from ASTE-DATA-V1表2 ASTE-DATA-V1 中的4 个数据集统计
Table 3 Statistics of Four Datasets from ASTE-DATA-V2表3 ASTE-DATA-V2 中的4 个数据集统计
此外,为进一步验证模型的有效性,本文使用谭松波酒店评论语料作为中文情感分析数据集,目前还没有中文的情感三元组数据集,因此,采用手工标注的方式对中文数据集进行处理.数据集具体细节如表4 所示.
Table 4 Statistics of Chinese Datasets表4 中文数据集统计
在本文的实验中,词嵌入使用预训练的GloVe词向量进行初始化,词嵌入维度为300,隐藏向量维度为300,设置联合训练的平衡参数 α=1,正则化参数γ=10-5,为了缓解过拟合,将dropout设置为0.5,训练过程中的学习率设置为0.003,每次训练的样本数量BatchSize设置为32,模型训练的轮数设置为10.
为了验证本文模型的有效性,使用5 个基线模型进行对比实验.
1)Pipeline[18]采用流水线的方式进行三元组抽取,并分为2个阶段:第1个阶段是采用GCN 进行属性词的情感分类和评价词抽取;第2个阶段是将评价词与属性词进行配对.
2)CMLA+[27]是由 CMLA[27](coupled multi-layer attentions)模型改良得到的,CMLA[27]采用注意力机制学习属性词和评价词之间的相互关联影响,从而抽取出目标属性词和评价词.CMLA+[27]是在第1 阶段后加入了一个分类器来抽取出三元组.
3)JET[19](jointly extract the triplets)是把ASTE 任务定义为一个基于统一标签的序列标注任务,采用位置感知标记方法来实现端到端的联合三元组抽取.
4)GTS[20]是把ASTE 任务定义为一个统一的网格标注任务,采用网格标记方法实现端到端的三元组抽取任务,先抽取出每个单词的情感倾向特征,然后利用这些特征得出每个"属性词-评价词"对的初始预测概率,最后设计了一个基于网格的解码策略来得到完整的三元组.
5)OTE-MTL[21](multi-task learning framework for opinion triplet extraction)采用联合抽取方式,该框架先使用共享的编码器来学习3个子任务的联合特征,然后提出了一个多头任务学习框架共同实现属性词和评价词的联合抽取以及二者的情感关联解析,最终使用解码器来获得完整的三元组.
3.4.1 实验结果
在相同的数据集和实验环境下,本文模型与基线模型所运行的时间对比结果如表5 所示,本文模型相比基线模型较为复杂,GCN 在训练过程中需要消耗部分时间,因此耗时较多,但是本文模型有更高的精度,整体性能更好.
Table 5 Total Training Time Results Compared with the Baseline Models表5 与基线模型的训练总时间的对比结果
与基线模型的对比实验结果如表6 所示,在精确率P、召回率R和F1 分数方面比较了基线模型和本文模型,实验结果都是取的最佳值.
Table 6 Experimental Results of Different Models for Triplet Extraction Tasks表6 三元组抽取任务中不同模型的实验结果对比%
在ASTE-DATA-V1 数据集上本文模型整体性能优于OTE-MTL[21]模型,在精确率(P)、召回率(R)和F1 分数这3个性能上大多高于OTE-MTL[21]模型,结果表明本文模型能够有效地利用依存句法分析树和GCN 来获取句子之间的句法特征,提高三元组的抽取效率.对于ASTE-DATA-V1 数据集,本文的方法在ASTE-DATA-V1 数据集的4个数据集上的F1 分数比OTE-MTL[21]模型分别提升了0.22,0.44,1.74,1.07个百分点.但由于ASTE-DATA-V1 数据集中缺失了部分数据,所以又在ASTE-DATA-V2 数据集上和相同的基线模型进行对比实验.在F1 分数性能下,本文模型均优于基线模型,在性能提升最高的lap14 数据集上,F1 值达到48.70%,比表现最好的模型OTEMTL[21]提升了1.95 个百分点,而在ASTE-DATA-V1数据集的lap14 数据集上本文模型只提高了0.22 个百分点,可以看出本文模型对ASTE-DATA-V2 数据集中补充的重复评价词有积极影响;相比rest14,rest15,rest16 数据集,本文模型都有所提升,相比OTEMTL[21]模型,本文模型提升了近2 个百分点.大多数情况下,本文模型在精确率和召回率都明显优于其他基线模型.由表6 还发现,流水线模型Pipeline 和CMLA+在召回率上取得较好的结果,但由于精确率较低,因此模型的整体性能较差.对于ASTE-DATAV2 数据集,本文模型在4个数据集上的性能比OTEMTL 模型分别提升了1.95,1.89,1.89,1.71 个百分点,比在ASTE-DATA-V1 数据集上的提升度Dif都高.此外,在大多数情况下,相比其他基线模型,本文模型在ASTE-DATA-V2 数据集上的提升度Dif都明显高于ASTE-DATA-V1 数据集上的提升度Dif,因此本文模型对重复评价词有一定帮助.
为进一步研究句法依存嵌入图卷积网络对整个模型的作用,进行子任务的对比实验,使用ASTEDATA-V2 数据集来分析属性词和评价词抽取任务的性能,对比实验结果如表7 所示.与OTE-MTL[21]模型对比可得出,在属性词抽取任务(ap)中,本文模型在ASTE-DATA-V2 数据集上都优于OTE-MTL 模型,性能提升最高的是在lap14 数据集上F1 分数达到76.41%,提升了2.95%.在评价词抽取任务(op)中,本文模型也都优于OTE-MTL 模型,性能提升最高的是在lap14 数据集上F1 分数达到73.69%,提升了1.7%.在召回率性能上,本文模型大多高于OTE-MTL 模型,虽然有些数据集的精确率没有高于OTE-MTL 模型,但是在整体性能F1 分数上本文模型均取得较好的结果.结果表明引入单词之间的句法依存关系对属性词抽取和评价词抽取任务均有很大提升,猜测是因为当面对多词组成的属性词和评价词时,若引入句法信息,本文模型相比别的模型能得到更准确的抽取结果.
Table 7 Experimental Results of Aspect and Opinion Extraction Tasks表7 属性词和评价词抽取任务的实验结果对比%
在谭松波酒店评论中文数据集中,本文模型与基线模型的对比实验结果如表8 所示.在三元组抽取任务(triplet)中,本文模型相比CMLA[27]模型提升很大,相比OTE-MTL[21]模型提升了1.2 个百分点;在属性词抽取任务(ap)中,本文模型相比OTE-MTL[21]模型提升了3.23 个百分点;在评价词抽取任务(op)中,本文模型相比OTE-MTL[21]模型提升了0.47 个百分点.实验结果表明本文模型对中文数据集有积极影响,但所有三元组抽取结果的F1 值最高只有43.29%,效果一般.猜测是因为中文数据集有较多口语化表达,中文相比英文有更多非正式的语义和结构,因此情感三元组抽取任务在中文数据集上还面临较大挑战.
Table 8 Experimental Results of Different Models on Chinese Datasets for Each Task表8 各任务中不同模型在中文数据集上的实验结果对比 %
3.4.2 实验分析
根据表6 和表7 的实验结果可以得出,本文模型在不同的数据集上均优于其他基线模型.CMLA+和Pipeline 模型采用的是流水线的方式,由表6 可得流水线的方法虽然在召回率上有较好性能,但是它们的精确率较低,因为流水线方式使三元组任务分离为2 个步骤,整个模型在训练过程中有局限性,同时还加大了误差,导致最终的结果较低.JET,GTS,OTE-MTL 模型是采用联合训练的方式,很好地解决了流水线方式带来的问题,取得较好的结果.本文模型也采用联合训练的方式,并且还引入了句法信息来提升句子特征,在面对重复评价词的情况时,本文模型在属性词抽取、评价词抽取和三元组抽取任务均可以取得更好结果.因此可以得出,本文提出的句法依存嵌入图卷积网络对三元组任务有一定提升.猜测在属性词和评价词抽取任务中,当面对多词构成的属性词和评价词时,利用句法信息可以更加准确地获得它们的跨度情况.在属性词和评价词相匹配的过程中,本文模型利用句法依存信息可以去除无关的配对结果,从而提升模型的准确性.
为了说明本文提出的细粒度情感三元组抽取任务的粒度范围,本文举例说明了粗粒度情感分析和细粒度情感分析结果.如表9 所示,粗粒度情感分析是分析整个句子的情感倾向,如第2个和第4个例句所示,当句子中有多种情感倾向时,粗粒度情感分析不能准确地得到每个属性词对应的情感倾向,也不能得到该属性词对应的评价词,而本文的细粒度三元组抽取模型可以更加直观地反馈句子中的属性词及其相应的多种情感倾向和评价对象.
Table 9 Case Analysis表9 案例分析
为了进一步研究模型的性能,选取F1 值提升相对较小的rest16 数据集中的部分样本进行案例分析,结果如表9 所示.
当面对多词属性词这种情况时,CMLA+不能准确地抽取出全部属性词,而OTE-MTL 和本文模型可以抽取出准确结果.
当多个三元组有重复评价词时,CMLA+和OTEMTL 都不能抽取到全部的三元组,会丢失一部分,而本文模型可以抽取出全部三元组.猜测是因为别的模型没有句法依存关系,在学习过程中评价词enjoying和属性词table 之间的句法关系联系不起来.
当存在重复属性词时,CMLA+将所有可能的配对情况都抽取出来,OTE-MTL 尽管错误配对的情况减少很多,但是依旧有1 个错误的三元组;而本文模型能抽取出全部的正确三元组且没有多余的错误配对.猜测CMLA+因为没有学习属性词和评价词之间的依赖关系,导致匹配结果误差较大;而OTE-MTL模型没有考虑句法信息,导致将无关联的“属性词-评价词”对抽取出来.而本文模型不仅学习了子任务之间的依赖关系,还引入了句法特征来辅助三元组的抽取,将句法关联的词对排除出去.
当面对一句话中存在多个情感倾向且有重复的属性词的情况时,CMLA+和OTE-MTL 模型都没有抽取出全部的三元组,其中部分三元组的情感倾向也有错误.猜测CMLA+和OTE-MTL 模型在面对复杂的多情感句子时,很难有效地学习到词对之间的情感倾向的关联.而本文模型取得了一个较好的结果是因为模型在句法特征层有效地将句子特征融入上下文特征,因此在多头任务层时可以利用句法特征学习到词对和情感的依赖关系.本文模型除了一个三元组没有抽取到,剩下的三元组都得到了准确的结果.这个错误的三元组猜测是因为该三元组的评价词是属性词的一部分,而本文模型没有考虑到这种情况.
对于属性级情感三元组分析,单词之间的句法信息有助于抽取情感特征和目标词语.本文提出了基于句法增强的细粒度情感三元组抽取模型.由于多跨度的属性词和评价词抽取任务的准确性低,属性词和评价词配对研究还有很多不足,因此,提出了一种基于依存句法增强的多任务学习框架,通过依存句法信息嵌入图卷积网络来充分利用单词之间的句法信息挖掘语法知识和句法特征.然后将句法特征作用在多头子任务中,3 个子任务进行联合学习解析出完整三元组.在4 个英文数据集和1 个中文数据集上设计了对比实验,从而验证了本文模型的有效性.实验结果表明,该模型在细粒度情感三元组分析上可取得较好的结果,同时表明依存句法信息有助于属性词抽取、评价词抽取和三元组抽取任务.之后还考虑学习评价词抽取任务和情感依赖分析任务之间的关联作用,例如利用消息传递机制将抽取结果的特征传递到情感依赖分析任务中,实现子任务之间的交互.
作者贡献声明:刘欣逸提出算法思路和实验方案,完成实验并撰写和修改论文;宁博提出指导意见并修改完善论文;王明负责数据集收集和整理、论文校对工作;杨超提出实验改进建议;商迪负责论文审查;李冠宇负责理论指导.