基于Aspect带有CNN注意力机制的门控卷积网络与情感分析

2019-10-08 08:34孙承爱赵瑞田刚

软件 2019年7期

孙承爱　赵瑞　田刚

摘要：基于Aspect的情感分析（ABSA）是一个细粒度的任务，由于它可以比一般的情感分析提供更详细的信息与数据，所以近年来他备受瞩目。它的主要任务是判断或预测句子在给定的场景中某些方面的情感极性。所以实体关注点的不同，就决定了一个句子的情绪极性的不同。例如，“这个笔记本电脑的性能很好，但是价格很高。”，性能和价格就是两个关注点。因此，有必要进一步探讨目标实体关注点与句子内容之间的联系。为此，启发的在Gated Tanh-ReLU单元的基础上进行改进，提出了一个新颖的基于卷积神经网络带有注意力机制的门控机制模型。一方面，它具有三重新型门控机制，进行了三次Gated Tanh-ReLU单元的循环使用;其次，在模型最后再进行一次GRU和注意力机制，进行更好的筛选，最终总结为即基于Aspect的带有注意力机制的门控卷积网络（AGACE）模型。结果表明，（AGACE）模型在ACSA方面测试集上为86.77%、76.45%，在ATSA方面也有76.27%，73.27%。Semeval-2014数据集上的实验表明AGACE模型在基于Aspect情感分类方面具有更好的性能，能够提高识别结果准确度与识别效率。

关键词：情感分析;Gated Tanh-ReLU单元;实体关注点;门控机制;AGACE模型

中图分类号： TP391.1 文献标识码： A DOI：10.3969/j.issn.1003-6970.2019.07.002

本文著录格式：孙承爱，赵瑞，田刚. 基于Aspect带有CNN注意力机制的门控卷积网络与情感分析[J]. 软件，2019，40（7）：0815

【Abstract】： Aspect-based sentiment analysis （ABSA） is a fine-grained task， and it has received much attention in recent years because it provides more detailed information and data than general sentiment analysis. Its main task is to judge or predict the emotional polarity of certain aspects of a sentence in a given scene. So the difference in entity concerns determines the difference in the emotional polarity of a sentence. For example， "The performance of this laptop is good， but the price is very high." Performance and price are two concerns. Therefore， it is necessary to further explore the relationship between the target entity's concerns and the content of the sentence. To this end， the inspiration is improved on the basis of the Gated Tanh-ReLU unit， and a novel gating mechanism model based on the convolutional neural network with attention mechanism is proposed. On the one hand， it has three re-gating mechanisms， and the three Gated Tanh-ReLU units are recycled. Secondly， a GRU and attention mechanism is performed at the end of the model for better screening. Finally， it is summarized as Aspect-based. A gated convolutional network （AGACE） model with an attention mechanism. The results show that the （AGACE） model is 86.77% and 76.45% on the ACSA test set and 76.27% and 73.27% on the ATSA. Experiments on the Semeval-2014 dataset show that the AGACE model has better performance based on Aspect sentiment classification， which can improve the accuracy and recognition efficiency of recognition results.

【Key words】： Sentiment analysis; Gated Tanh-ReLU unit; Entity focus; Gating mechanism; AGACE model

0 引言

情感分析[1]是用于判斷人们所表达的情感的方法和算法的集合。又称倾向性分析、意见挖掘，是一项近些年来备受瞩目的NLP任务。其中基于Aspect的情感分析（ABSA）相较于传统的情感分析更加高效。ABSA有两个子任务：基于Aspect类的情感分析（Aspect-category sentiment analysis——ACSA）和基于Aspect词的情感分析（Aspect-term sentiment analysis——ATSA）。例如，“尽管这个笔记本的性能很好，但是价格很高。”，ATSA会询问笔记本性能这个词的情绪极性;而ACSA会询问价格方面情绪极性，即使单词收费没有出现在句子中。考虑到不同方面时，情绪极性可能相反。

之前的神经网络模型只片面的考虑了Target方向而没有考虑到Aspect，例如（TD-LSTM）和（TC-LSTM） [2]。此外，一些模型需要单词和目标之间的位置信息来产生加权LSTM[3]，这在嘈杂的评论文本中是不可靠的。注意力机制也在神经网络中的出现率越来越高，例如[4]，他提高了阅读理解的能力。同时我们参考了Aspect的实体提取[5]。基于Aspect的门控卷积网络分析（Gated Tanh-ReLU）[6]为我们提供了灵感。在本文中我们在其基础上开发了一种新颖的基于卷积和门控控制的注意力机制模型，对于ACSA和ATSA同时准确和高效，比基于LSTM的模型训练时间少得多，相比基于Aspect的门控卷积网络，也提高了准确性。

我们的模型对于ACSA和ATSA有着不同的表现。对于ACSA任务，有两个独立的卷积层在嵌入层顶部，嵌入层是由我们的新型门单元组成。卷积层上具有多重滤波器，使得可以在多粒度下有效抽取n-gram特征。参考GCAE模型[6]，我们的门单元所提具有两个非线性门（Gated Tanh-ReLU）组成，门分别与卷积层一一连接。我们将该模型连续使用三次并输出三次，将三次结果放进GRU[7].中防止梯度弥散，进行重要特征的筛选。在最后加一个self-attention机制，对目标进行加权变化，以此增加计算的并行性，并更好的有效利用特征。在给定的Aspect信息下，对于情感的预测能够抽取Aspect-specific 情感信息。例如，在句子“尽管这个笔记本的性能很好，但是价格很高。”，当性能这个Aspect出现时，门单元忽略价格这个Aspect的消极情绪极性，只输出前面的正面情绪。相对于LSTM模型机制由于该模型的每个部分能够并行化，因此能够节省更多的时间。对于ATSA任务，当Aspect有多个单词实体时，我们就将其模型扩展到其他单词实体的卷积层。

我们评估我们的模型在Semeval 数据集上，其中包括Aspect级别标签得餐厅与笔记本电脑的评论。通过验证，我们的准确性提高很多。

1 相关研究

在本节中，我们将相关工作分为两类：用于情感分类的神经网络和Aspect级别的情感分类。

1.1 基于神经网络的情绪分类

如果说一种简单有效的分布式学习表示的方法[8]的提出，使得神经网络在情感分析方向得到大大推进，那么Tree-LSTM[9]的提出则使得神经网络在情感分析或句子分类任务中获得了很大的普及。通过利用句子结构的语法解释，基于树的LSTM已被证明对许多NLP任务非常有效。然而，这样的方法可能有审阅文本时的语法分析错误和效率低下的特点。而大量模型在NLP方向中使用卷积神经网络（CNN）[10，11]。GRU也被[12]进行对不定长度的数据进行情感极性分析。尽管这些方法在细粒度的Aspect上仍有挑战，不过也证明了卷积运算捕获文本的高效性。

1.2 Aspect层面的情绪分类

Aspect-level情感分析是一种细粒度的分类任务。随着丰富的情感词典[13]与基于词典的特征被建立用于情感分析[14]的出现，检测极性任务就开始由人工设计特征到使用SVM构建具有特征的情感分类器，使得结构化风险大大降低。对于基于Aspect类的情感分析（ACSA），模型需要预测向预定义Aspect的情绪极性方向筛选。基于Aspect词的情感分析（ATSA），是对给定句子中标注的Aspect术语进行情感分析。

2 基于Aspect的带有注意力机制的门控卷积网络

本文提出了一种新的模型，即基于Aspect的带有注意力机制的门控卷积网络（AGACE）。能够针对ACSA与ATSA完成任务。我们的模型有两个独立的卷积层在嵌入层顶部，嵌入层是由我们的新型门单元组成。让Aspect嵌入在计算注意权重中发挥作用，卷积层上具有多重滤波器，使得每个滤波器可以在多粒度下有效抽取n-gram特征。我们的门单元所提具有两个非线性门（Gated Tanh-ReLU）组成，门分别与卷积层一一连接。我们将该模型连续使用三次并输出三次，将三次结果放进GRU中防止梯度弥散，进行重要特征的筛选。在最后加一个self- attention-pooling机制，对目标进行加权平均变化，以此增加计算的并行性，克服了递归神经网络中不支持输入并行化的问题，并更好的有效利用特征，极大限度的生成Aspect级别的情感特征。

卷积神经网络（CNN）由嵌入层、一维卷积层和最大池化层组成。嵌入层取索引，输出相应的嵌入向量。表示嵌入向量的维数大小。是单词词汇量的大小。嵌入层通常使用预先训练好的嵌入初始化，如GloVe [15]，然后在训练阶段对它们进行微调。一维卷积层将输入与多个不同宽度的卷积内核进行卷积。每个核对应一个语言特征检测器，该检测器在不同粒度处提取特定的n-gram模式[16]。具体来说，输入语句通过嵌入层用矩阵表示，，其中为带填充的句子长度。卷积滤波器将接受域中的个单词映射到一个特征。当我们将该滤波器滑动到整个句子中时，我们得到了一系列新特征。

其中为偏置，为非线性激活函数，如tanh函数，则表示卷积运算。如果有宽度相同的滤波器，则输出特征形成矩阵。对于每个卷积滤波器，self-attention pooling层在生成的卷积特征中取最大值，得到一个固定大小的向量，其大小等于滤波器的个数。最后，使用soft-max层预测输入句子的情感极性。

为了提取更高层次的语音信息，我们进行了多次实验，经实验证明，3-4层效果相似，超过4层效果有所衰弱，故选择为3层，效果如表1所示。

图1说明了我们的模型体系结构。一对卷积神经元计算一对门的特征（tanh门和ReLU门），共三对。ReLU门接收給定的Aspect信息来控制情绪特征的传播。两个门的输出以元素方式相乘，通过GRU计算，最终用于注意力机制的最大池层。

为了更好地利用Aspect信息，我们将输入Aspect嵌入到每个单词输入向量中。一共有3个门控Tanh-ReLU单元（GTRU），带有方向嵌入的门控Tanh-ReLU单元（GTRU）在每个位置上连接两个卷积神经元，具体计算特征为

其中为ACSA中给定Aspect类别的嵌入向量，或由另一个CNN计算ATSA中Aspect项的嵌入向量。式2中的ReLU门在正输入上没有上界，但在负输入上严格为零。因此，它可以根据给定的Aspect信息与位置的Aspect特征之间的相关性，输出相似度得分。如果该得分为零，则情感特征在门处被阻塞;否则，其规模将相应扩大。Self-attention-pooling进一步删除了在整个句子中不重要的情感特征。式2和式3中的两个卷积与普通CNN中的卷积相同，但是卷积特征通过ReLU激活函数接收额外的Aspect信息。也就是说，和分别负责生成情感特征和Aspect特征。上面的self-attention-pooling池层生成一个固定大小的向量，保留了整句话最显著的情感特征。最后全层与softmax函数使用矢量预测情绪极性。其中目标函数（损失函数）是交叉熵损失。设是句子的目标分布，是预测的情绪分布。训练的目标是最小化所有句子的和之间的交叉熵误差。

3 AGACE ON ATSA

ATSA任务是用来预测句子中Aspect词的情感极性。我们只是通过在Aspect项上添加一个小的卷积层来扩展AGACE，如图2所示。与ACSA相比，它在Aspect方面有一个额外的卷积层，同时保留了并行计算的能力。在acsa中，控制GTRU情感特征流动的Aspect构成是一个Aspect词;而在ATSA中，这类信息是由一个小型CNN提供的Aspect的术语。附加的CNN从多个单词中提取重要特征。

4 实验与分析

4.1 实验数据集

为了验证算法的合理性，我们对Semeval workshop [17]的公共数据集进行了实验，这些数据集包含了客户对餐馆和笔记本电脑的评论。一些现有工作[18]从四个情绪标签中去掉了“冲突”标签，这使得他们的结果好[19]。我们重新实现了比较的方法，并使用了这些参考文献中描述的超参数设置。

目标实体关注点不同，句子的情感标签就可能不一样。表2中的句子显示了评论者对性能和价格两个方面的不同态度。因此，为了更准确地访问模型在评论句子上的表现，我们需要一个量小而复杂的数据集，这些数据集由对不同Aspect/目标有相反或不同情绪的句子组成。在表2中，数据集中的同一个句子句子，但是它们有不同的情感标签。如果一个句子有4个Aspect目标，那么这个句子在数据集中就会有4个副本，每个副本都联系着不同的情绪标签与目标。

对于ACSA任务，我们对2014年Semeval 任务4的笔记本电脑评论数据进行了实验。分为5个方面和四种极性，5个方面：性能、价格、服务、氛围和杂项;4种情绪极性：积极、消极、中立和冲突。通过合并2014-2017年三年的笔记本电脑评论，我们获得了一个名为“Computer-data”的更大的数据集。在数据集中，我们将冲突标签替换为中性标签。其中可能有多对的“Aspect-terms”（ATSA）和“Aspect-category”（ACSA）。每个句子，让表示正标签的数量减去负标签的数量。，则为情绪极性为积极; ，则为情绪极性为消极; ，则为情绪极性为中性。统计结果如表3所示，分为6个Aspect：电脑城、笔记本电脑、服务、价格、位置和杂项。

对于ATSA任务，我们使用来自Semeval 2014 task 4的笔记本电脑评论进行实验。在每个数据集上，我们复制每个句子次，就是Aspect-terms（ATSA）/Aspect-category（ACSA）的数量[20]。数据集的统计数据如表3所示。

Hard-data的大小也如表3所示。该测试集旨在测试一个模型是否能够在一个句子中检测到对不同实体的多个不同情绪极性。

在我们的实验中，我们使用300维GloVe向量初始化词嵌入向量，这些向量是根据许多未标记数据来进行预处理[21]。GloVe词汇表的单词随机初始化为均匀分布。我们使用了AdaGrad优化器[22]，默认学习率为，最大周期为30。所有的神经模型都在PyTorch中实现。

4.2 对比算法

为了证明模型的有效性，我们将我们的模型（AGACE）与LSTM，TC-LSTM，NRC，CNN，TD- LSTM，ATAE-LSTM，IAN，GCN和GCAE模型进行比较。这些模型的简要介绍如下所示。

CNN：被广泛用于文本分类任务。它不能直接捕获ACSA任务上特定于Aspect的情绪信息，但是它为情绪分类提供了一个非常强大的基线。我们将过滤器的宽度设置为2，4，6，每个过滤器有100个特性。

LSTM：是一种时间循环神经网络，相对于RNN多了一个cell，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

TD-LSTM[23]：使用两个LSTM网络对目标的前后上下文进行建模，生成目标依赖的表示，用于情绪预测。

TC-LSTM[24]：在TD-LSTM的基础上加入target words信息，很明显地整合了target words与context words的相互关联信息。

ATAE-LSTM[25]：是ACSA任务中基于注意力的LSTM。它将给定的Aspect嵌入与每个单词嵌入一起作为LSTM的输入，并在LSTM层之上有一个注意层。

NRC：是ACSA和ATSA task在Semeval 2014 task 4中的首选方法。SVM通过广泛的特征工程训练：各种类型的n-gram、POS标签和词典功能。情感词典显著提高了性能，但它需要大规模的標记数据：18.3万条Yelp评论、12.4万条Amazon笔记本评论、5600万条tweet和3个手动标记的情感词汇。

IAN[26]：是ATSA任务的交互式注意网络，也是基于LSTM和注意机制的。

GCN[27]：代表门控卷积神经网络，其中GTRU没有将Aspect嵌入作为额外的输入。

GCAE：使用了GTRU，而且将Aspect嵌入作为额外的输入。

4.3 结果分析

本节中，我们将我们的AGACE模型与其他的模型进行对比，分为ACSA与ATSA两部分，最后将运行时间在数据集上进行对比和评估。

4.3.1 ACSA

在 Semeval 研讨会之后，我们总结了所有竞争模型在笔记本电脑评论测试数据集以及Hard-data上测试的总体准确性。每个实验重复十次。平均值和标准偏差见表5。

基于lstm的模型atae-lstm在所有神经网络中的性能最差。基于Aspect的情绪分析是提取与给定Aspect密切相关的情绪信息。将Aspect信息和情绪信息与句子提取的信息分开是很重要的。lstm 生成的上下文向量必须同时传递这两种信息。此外，相似评分函数产生的注意分数是针对整个上下文向量的。

与atae-lstm相比，AGACE的性能提高了1.1% 至2.5%。首先，我们的模型结合 gtru根据上下文向量的每个维度的给定方Aspect信息来控制情绪信息流。元素门控机构的工作粒度很好，而不是对其他模型的关注层中上下文向量的所有维度进行对齐评分。其次，AGACE 不生成单一的上下文向量，而是分别生成Aspect特征和情绪特征的两个向量，因此，Aspect和情绪信息被解开。通过将在Hard-data上测试的性能与 cnn 进行比较，可以很容易地看到 AGACE的卷积层能够区分多个实体的情绪。

卷积神经网络CNN和GCN不是为基于Aspect的情感分析而设计的，但它们的性能超过了ATAE-LSTM的性能SVM[28]的性能取决于它可以使用功能的可用性。如果没有大量的情感字典，SVM的表现就比神经方法差。使用多个情感词典，性能就提高了7.6%。这激励我们在未来的神经网络中多利用情感字典。

Hard-data测试集由不同Aspect的不同情绪的复制句子组成，对不同Aspect有不同的情感。无法利用给定Aspect信息（如CNN和GCN）的模型表现不佳，但AGACE比其他神经网络模型具有更高的准确性。在ACSA任务中，在Computer-data数据集中，AGACE的准确度比ATAE-LSTM高8%，在Semeval-2014上高7%。但是，在没有Aspect的建模部分的GCN在笔记本电脑评论数据集上的得分高于AGACE。这说明当目标句子中只有一个情绪标签时，GCN的表现优于AGACE，而在Hard-data测试集则不是这样。

4.3.2 ATSA

我们将AGACE的扩展版本应用于ATSA任务。在这个任务中，Aspect术语被标记在句子中，通常由多个单词组成。我们比较IAN、RAM、TD-LSTM、ATAE-LSTM、GCAE模型和我们的AGACE模型如表6所示。来自NRC-Canada （Kiritchenko et al.，2014）的SVM检索结果用'*'表示。IAN比TD-LSTM和ATAE-LSTM具有更好的性能，因为两个注意层交互地指导上下文和实体的表示学习。GACE模型虽然各方面有了一定的进步，但是精确度还是不够。RAM通过将多个注意与递归神经网络相结合，也达到了很好的精度，但是需要更多的训练时间，如下面的部分所示。在Hard-data测试集上，AGACE在餐館数据的准确率比RAM高2.3%，在笔记本数据上的准确率高0.7%，由于用了多重GTRU，所以AGACE在笔记本数据上比GCAE高1%，餐厅数据上则高0.9%。在ATSA中，AGACE模型利用CNN来控制通过ReLU门控的情感特征的构成。由于门控机制和Aspect项上的卷积层，AGACE优于其他神经模型和基本SVM。同样，大规模的情感字典对支持向量机也有显著的改进。

4.3.3 运行时间

我们搭载在服务器上训练，并记录所有模型的训练时间，如表7所示。基于LSTM的模型比卷积模型需要更多的训练时间。在ATSA任务中，由于IAN和RAM中的多个注意力层，他们需要更多的时间来完成训练。与LSTM相比，卷积运算和GTRU都没有时间依赖性，因此AGACE比其他模型要快得多。由于SVM的性能是从原文中提取的，所以我们无法比较SVM的训练时间。但是由于具有3层CNN以及GRU机制，所以相较于GCAE，我们模型的时间更长一些，这是我们下一步需要改进的目标。

4.3.4 门控机制

GTU和GLU显示了门控机制的有效性[29]，GTU由表示，其中S形门控制用于预测堆叠卷积块中的下一个字的特征。为了克服GTU的梯度消失问题，GLU使用代替，因此梯度不会缩减规模以通过大量堆叠卷积层。然而，GRU和只有一个卷积层的神经网络在训练过程中可以缓解梯度消失问题。结果表明，在文本分类问题上，我们的GTRU比上述两种门控单元更有效。

我们将GLU，GTU，和用于AGCAE的GTRU进行比较。表8显示，这三组门控单元在笔记本数据集上都实现了较高的精度。但是GTRU的性能优于其他门控单元。GTRU具有通过ReLU激活函数生成Aspect特征的卷积层，可以根据给定的Aspect信息控制情绪信号的幅度。另一方面，GTU和GLU中的S形函数具有上界+1，负输入严格为0，可能无法有效提取情感特征。

5 可视化

在本节中，我们主要实现了门权重的可视化。在标准化之后，我们在图3中绘制每个单词的值。给定不同的Aspect目标，ReLU门将控制tanh门输出的大小。

6 结论与未来展望

本文针对ACSA和ATSA任务，提出了新颖的基于卷积和门控控制的注意力机制模型（AGACE）。GTRU可以根据给定的Aspect信息有效地控制情绪流，Attention可以进行更好筛选，两个卷积层分别对Aspect和情绪信息进行建模。通过在Semeval 数据集上的大量实验，证明了与其他神经模型相比的性能改进。我们将情感词汇在神经网络中的大规模应用作为我们未来的目标。

参考文献

[1] NasukawaT， Yi J. Sentiment analysis：capturing favorability using natural language processing[C]//International Conference on Knowledge Capture.2003.

[2] 张玉环，钱江. 基于两种 LSTM 结构的文本情感分析[J]. 软件， 2018， 39（1）： 116-120

[3] Peng Chen， Zhongqian Sun， Lidong Bing， and Wei Yang. 2017. Recurrent Attention Network on Memory for Aspect Sentiment Analysis[C]. In EMNLP，pages 463–472.

[4] Hermann， Karl Moritz， Kocisky， Tomas， Grefenstette， Edward， Espeholt， Lasse， Kay， Will， Suleyman， Mustafa， and Blunsom，Phil. 2015.Teaching machines to read and comprehend. In Advances in Neural Information Proc-essing Systems 28[C]. pp. 1684-1692.

[5] Wei Xue， Wubai Zhou， Tao Li， and Qing Wang. 2017. Mtna： A neural multi-task model for aspect category classi?cation and aspect term extraction on restaurant reviews[C]. In Proceedings of the Eighth International Joint Conference on Natural Language Processing （Volume 2： Short Papers）， volume 2， pages 151-156.

[6] Xue W ， Li T . 2018. Aspect Based Sentiment Analysis with Gated Convolutional Networks[J]. In ACL， pages 2514-2523.

[7] Junyoung Chung， Caglar Gulcehre， Kyunghyun Cho， and Yoshua Bengio. 2014. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[C]. In NIPS.

[8] Mikolov T， Sutskever I， Chen K， et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems， 2013， 26：3111-3119.

[9] Tai K S， Socher R， Manning C D. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks[J]. Computer Science， 2015， 5（1）：： 36.

[10] Yoon Kim. 2014. Convolutional Neural Networks for Sentence Classi?cation[C]. In EMNLP， pages 1746-1751.

[11] 刘腾飞，于双元，张洪涛，等. 基于循环和卷积神经网络的文本分类研究[J]. 软件， 2018， 39（01）： 64-69

[12] Duyu Tang， Bing Qin， and Ting Liu. 2015. Document Modeling with Gated Recurrent Neural Network for Sentiment Classi?cation[C]. In EMNLP， pages 1422-1432.

[13] Veronica Perez-Rosas， Carmen Banea， and Rada Mihalcea. 2012. Learningsentimentlexiconsinspanish[C]. In LREC， volume 12， page 73.

[14] Saif M Mohammad， Svetlana Kiritchenko， and Xiaodan Zhu. 2013. Nrc-canada： Building the state-of-theart in sentiment analysis of tweets. arXiv preprint arXiv：1308.6242.

[15] Jeffrey Pennington，Richard Socher，and Christopher D Manning. 2014. Glove： Global Vectors for Word Representation[C]. In EMNLP， pages 1532-1543.

[16] Nal Kalchbrenner， Edward Grefenstette， and Phil Blunsom. 2014. A convolutional neural network for modelling sentences[C]. In ACL， pages 655-665.

[17] Maria Pontiki， Dimitrios Galanis， John Pavlopoulos， Haris Papageorgiou， Ion Androutsopoulos， and Suresh Manandhar. 2014. Semeval-2014 task 4： Aspect based sentiment analysis[C]. In SemEval@COLING， pages 27-35， Stroudsburg， PA， USA. Association for Computational Linguistics.

[18] Duyu Tang， Bing Qin， Xiaocheng Feng， and Ting Liu. 2016a. Effective LSTMs for Target-DependentSentiment Classi?cation[C]. In COLING， pages 3298-3307.

[19] Svetlana Kiritchenko， Xiaodan Zhu， Colin Cherry， and SaifM.Mohammad.2014. NRC-Canada-2014： Detecting aspects and sentiment in customer reviews[C]. In SemEval@COLING， pages 437-442， Stroudsburg， PA， USA. Association for Computational Linguistics.

[20] Sebastian Ruder， Parsa Ghaffari， and John G Breslin. 2016a. A Hierarchical Model of Reviews for Aspect-based Sentiment Analysis[C]. In EMNLP， pages 999-1005.

[21] Sebastian Ruder， Parsa Ghaffari， and John G Breslin. 2016b. INSIGHT-1 at SemEval-2016 Task 5 - Deep Learning for Multilingual Aspect-based Sentiment Analysis[C]. In SemEval @NAACL-HLT， pages 330-336.

[22] John C Duchi， Elad Hazan， and Yoram Singer. 2011. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization[J]. Journal of Machine Learning Research， pages 2121-2159

[23] Peng Chen， Zhongqian Sun， Lidong Bing， and Wei Yang. 2017. Recurrent Attention Network on Memory for Aspect Sentiment Analysis[C]. In EMNLP， pages 463-472.

[24] Dehong Ma， Sujian Li， Xiaodong Zhang， and Houfeng Wang. 2017. Interactive Attention Networks for Aspect-Level Sentiment Classi?cation[C]. In IJCAI， pages 4068-4074. International Joint Conferences on Arti?cial Intelligence Organization.

[25] Yequan Wang， Minlie Huang， Xiaoyan Zhu， and LiZhao. 2016b. Attention-basedLSTMforAspectlevel Sentiment Classi?cation[C]. In EMNLP， pages 606-615.

[26] Yann N Dauphi，Angela Fan，Michael Auli，and David Grangier. 2017. Language Modeling with Gated Convolutional Networks[C]. In ICML， pages 933-941.

[27] Jonas Gehring， ichael Auli， David Grangier， Denis Yarats， and Yann N Dauphin. 2017. Convolutional Sequence to Sequence Learning[C]. In ICML， pages 1243-1252.

[28] Nal Kalchbrenner， Lasse Espeholt， Karen Simonyan， A¨aron van den Oord， Alex Graves， and Koray Kavukcuoglu. 2016. Neural Machine Translation in Linear Time[J]. CoRR， abs/1610.10099.

[29] A¨aron van den Oord， Nal Kalchbrenner， Lasse Espeholt， Koray Kavukcuoglu， Oriol Vinyals， and Alex Graves. 2016. Conditional Image Generation with PixelCNN Decoders[C]. In NIPS， pages 4790-4798.