武婷 曹春萍
摘 要:针对传统的基于注意力机制的神经网络模型不能对方面特征和情感信息进行有效关注,以及不同距离或不同方向的上下文词对方面词的情感极性判断有不同的贡献等问题,提出一种融合位置权重的基于注意力交叉注意力的长短期记忆方面情感分析模型(LWAOA-LSTM)。首先,为词向量加入位置权重信息;然后,使用长短期记忆(LSTM)网络同时对方面和句子进行建模以生成方面表示和句子表示,同时通过注意力交叉注意力模块共同学习方面和句子的表示以获得方面到文本和文本到方面的交互关注,并自动关注句子中的重要部分;最后,在景点、餐饮、住宿不同主题数据集上进行实验,验证了该模型对方面情感分析的准确性。实验结果表明,所提模型在景点、餐饮、住宿主题数据集上的准确率分别达到78.3%、80.6%和82.1%,取得了比传统LSTM网络模型更好的效果。
关键词:深度学习;方面情感分析;位置加权词向量;注意力交叉注意力;长短期记忆网络
中图分类号: TP183; TP391.1
文献标志码:A
Aspect level sentiment classification model with location weight and long-short term memory based on attention-over-attention
WU Ting*, CAO Chunping
School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200082, China
Abstract:
The traditional attention-based neural network model can not effectively pay attention to aspect features and sentiment information, and context words of different distances or different directions have different contributions to the sentiment polarity assessment of aspect words. Aiming at these problems, Location Weight and Attention-Over-Attention Long-short Term Memory (LWAOA-LSTM) model was proposed. Firstly, the location weight information was added to the word vectors. Then Long-Short Term Memory (LSTM) network was used to simultaneously model aspects and sentences to generate aspect representation and sentence representation, and the aspect and sentence representations were learned simultaneously through attention-over-attention module to obtain the interactions
from the aspect to the text and from the text to the aspect, and the important part of the sentence was automatically paid attention to. Finally, the experiments were carried out on different thematic datasets of attractions, catering and accommodation, and the accuracy of the aspect level sentiment analysis by the model was verified. Experimental results show that the accuracy of the model on the datasets of attractions, catering and accommodation is 78.3%, 80.6% and 82.1% respectively, and LWAOA-LSTM has better performance than traditional LSTM network model.
Key words:
deep learning; aspect level sentiment classification; location-weighted word vector; attention-over-attention; Long-Short Term Memory (LSTM) network
0 引言
隨着互联网进入Web 2.0时代,人们越来越喜欢使用网络分享知识、经验、意见和感受等,这些评论性文本蕴含了大量的情感信息,如何从社交网络文本信息中挖掘用户的情感倾向已得到越来越多研究人员的关注。不像文档级情感分析[1],基于方面情感分析是一个更细粒度的分类任务,当一个句子中出现了多个方面时,基于方面情感分析克服了文档情感分析的一个局限性,能够针对文本中特定一方面来分析其情感极性(例如积极、消极、中立)。例如句子“这家饭店味 道不错,但服务不好”,“食物味道”方面的情感极性为积极,而“服务”方面的情感极性却是消极的。这个例子中涉及到两个方面,因为各个方面的情感极性不同,句子的整体情感判断是不准确的。如果忽略了方面信息,那么将很难获得特定方面的情感极性。这种错误普遍存在于情感分析任务中。在最近的一个研究中,Jiang等[2]手工评估了Twitter情感分类器,结果表明40%的情感分类错误都是因为没有考虑方面信息。因此,方面情感分析具有很大的研究价值。
目前,已经提出很多方法来处理基于方面情感分析问题。传统的基于规则和词典的方法,大多数依靠情感词典的建立,性能好坏与规则和人工干预密不可分[3]。基于机器学习的方法通过监督训练来构建机器学习分类器,但人工设计特征的分类器仍需要依赖复杂的人工规则和特征工程[4]。近年来,由于无需特征工程就可以从数据中学习表示,深度学习在自然语言处理任务中越来越受欢迎[5]。其中,长短期记忆(Long-Short Term Memory, LSTM)网络可以解决梯度爆炸或消失的问题,被广泛应用于方面级情感分析,如Target-Dependent LSTM(TD-LSTM)、Target-Connection LSTM(TC-LSTM)等。 同时,结合注意力机制的神经网络模型在自然语言处理任务中取得了比传统方法更好的效果,加入注意力机制不仅可以提高阅读理解力,而且能关注句子的特定方面[6-8]。但是对于中文评论尤其是长篇评论,其中会包含很多与方面情感判断无关的单词,会对方面情感分析的准确率产生影响。
近年来,方面级情感分析任务取得了很好的发展,从各种研究中可以发现研究方面情感分析的关键因素主要有三个:结合上下文后方面词的语义信息、方面词与上下文词之间的相关性和方面词在上下文中的位置信息。考虑到所有三个关键因素,可以获得更好的效果,然而,尚未有模型充分考虑上述三个因素。研究发现不同位置的单词对特定方面的情感极性判断有不同的贡献,并且关键词总是位于方面的一侧,综合考虑方面情感分析的三个关键因素,本文提出了
一种融合位置权重的基于注意力交叉注意力的长短期记忆方面情感分析模型
(Location-Weight and Attention-Over-Attention LSTM, LWAOA-LSTM)。该模型首先通过捕获位置信息为不同单词生成不同的位置权重,将此权重与词向量合并;然后,使用基于长短期记忆(LSTM)神经网络来解决方面情感分析,传统的基于LSTM的方法主要侧重于分别对方面和文本进行建模[6-7],而本文使用LSTM同時对各个方面和文本进行建模。此外,由LSTM生成的方面表示和文本表示通过注意力交叉注意力(Attention-Over-Attention, AOA)模型进行交互,AOA模型会自动产生方面到文本以及文本到方面之间的交互关注。经过研究分析发现,一个句子中只有几个词语会与方面情感分析相关,并且很多时候这些情感词汇都是与方面密切相关的。例如,“这家酒店环境不错,但价格有点贵”,根据人类阅读经验,消极词“贵”更可能描述“价格”而不是“环境”。类似地,对于方面的短语也应该关注最重要的对应的情感部分,因此本文选择AOA模型来处理方面和句子中最重要的部分。与传统基于LSTM神经网络模型相比,本文的模型能提高情感分类的准确率。
1 相关工作
1.1 情感分类
情感分类旨在检测文本的情感极性。针对这一研究问题提出了许多方法[9],大多数方法使用机器学习以监督的方式进行文本分类,例如大多使用朴素贝叶斯算法[10]以及支持向量机(Support Vector Machine, SVM)来解决此问题[11]。这些方法大多数依赖于n-gram特征或人工设计的特征,因此多种情感词典被建立[12-14]。但这些方法存在很多缺点,比如不可能存在一个词典包括所有的情感词汇,而规则制定也是需要专家大量的经验和耗费许多人力成本,并且还可能对某些特征考虑得不够全面。
近年来,神经网络的应用大大提高了情感分类的准确率与效率。基于神经网络的方法自动学习特征表示,而无需大量的特征工程。研究者提出了各种神经网络模型,Socher等[15]将递归神经网络用于情感树的构建,提高了分类的准确率;Tang等[16]采用循环神经网络建立篇章级循环神经网络模型,该模型相比标准的循环神经网络模型具有较高的优越性,在情感分类任务中取得了进步;Tai等[17]改进标准的LSTM模型,引入Tree-LSTM模型,该模型建立了树状LSTM的网络拓扑结构,在情感分类任务中有较好的表现。这些方法在情感分析上取得了令人满意的结果。
1.2 方面情感分析
方面级情感分析是情感分类的一个分支,其目标是识别句子中某个特定方面的情感极性。在过去的一些研究中,基于规则的模型被应用于解决方面情感分析[18]。Nasukawa等[19]首次提出对句子进行依赖句法分析,然后加入预先定义的规则从而判断某一方面的情感;Jiang等[2]提出目标依赖情感分析,通过基于句子的语法结构建立目标相关特征从而达到对特定目标的情感极性判断。这些与方面相关的特征与其他文本特征一起反馈到分类器(如SVM)中。
之后,多种基于神经网络的模型被应用于解决这类方面情感分析问题。典型模型是基于LSTM神经网络,如TD-LSTM[7]在模型中使用两个LSTM从而模拟特定方面的上下文,此模型使用两个LSTM最后的隐藏层预测情感。为了更好捕捉句子的重要部分,Wang等[6]使用方面嵌入来生成注意力向量,以此来关注句子的不同部分。在此基础上,Ma等[20]使用两个LSTM网络分别对句子和方面建模,并进一步使用由句子生成的隐藏状态,通过池化操作来计算方面目标的注意力,能够同时关注到句子的重要部分和方面信息。这种方法与本文提出的模型相似,但是,池化操作会忽略句子与方面之间的词对交互,并且实验表明本文提出的模型性能更优。
2 方面情感分析模型
2.1 问题定义
在方面情感分析问题中,本文定义句子s={w1,w2,…,wi,…,wj,…,wn},方面目标为t={wi,wi+1,…,wi+m-1}。 其中方面标签可以是一个单词也可以是一个长短语。模型的目标是分析出句子中某一方面的情感极性。
本文提出的总体结构如图1所示,主要由四部分组成:词向量、双向长短期记忆网络(Bi-directional LSTM, Bi-LSTM)、AOA模型和最终预测。
2.2 带有位置权重的词向量
长度为n的句子表示为s={w1,w2,…,wi,…, wj, …, wn},长度为m的方面词表示为t={wi,wi+1,…,wi+m-1},本文首先将每个单词映射为一个低维实值向量,称为词向量。对于每个单词wi,可以从MV×dw得到向量 v i, 其中 | V | 是词典大小,dw为向量维度。词向量处理之后得到两组词向量:句子向量[ v 1; v 2;…; v n]∈ R n×dw和方面向量[ v i; v i+1;…; v i+m-1]∈ R n×dw。 另外,表达某方面的情感的关键词总是比较接近方面词,越接近方面词汇包含的相关信息越多。例如句子“这家酒店环境不错,但价格有点贵”,“不错”是“酒店环境”评价的关键词,而“贵”是“价格”的关键词,由于“不错”比“贵”要更接近方面词“环境”,所以“不错”对方面“环境”的情感极性判断有更多贡献,“贵”对“价格”有更多贡献。
并且,描述方面词情感的关键词总是只位于方面词的一侧。在上述例子中,情感词“不错”和“贵”都是位于“环境”和“价格”的右侧,因此,在这个例子中,方面词右侧的词语要比左边的词语有更大的影响力。为此,设计了两个参数来表示某一词汇的重要性,此参数也是通过训练来学习。
直接将词向量输入模型中生成的句子向量将包含很多与方面词无关的信息,在生成句子向量时使用位置权重来强调与方面词相关的情感信息,与此同时,与方面词无关的词也相应地被削弱了。加入位置信息有利于获得更好的结果,输入层由位置加权词向量组成。由于希望远离方面词的权重下降得更快,有助于防止与方面无关的信息的干扰,因此使用Laplacian概率函数来获得位置权重。
每个词向量 V ={ v 1, v 2,…, v n} 对应的位置权重定义为:
λ=[λ1,λ2,…,λn]
(1)