基于领域情感词典特征表示的细粒度意见挖掘

2019-04-02 02:55郁圣卫陈文亮
中文信息学报 2019年2期
关键词:细粒度词典观点

郁圣卫,卢 奇,陈文亮

(苏州大学 计算机科学与技术学院,江苏 苏州 215006)

0 引言

细粒度意见挖掘的主要目标是从观点文本(如用户评论文本等)中获取情感要素(如观点持有者、观点对象、观点表达等)并根据这些信息判断观点在文本中表达的情感倾向[1]。举个例子,在观点文本“我觉得质量不错”中,观点持有者“我”针对观点对象“质量”使用观点表达“不错”来表达“正面”情感倾向。细粒度意见挖掘的结果通常可应用于观点摘要和观点检索[2]。

细粒度意见挖掘获取的情感要素根据具体任务需求和具体领域而定。以电商评论文本为例,其观点持有者大多为第一人称,并且观点对象以及观点表达都是出现在文本中的连续序列片段。因此,对于这类文本通常只获取观点对象及观点表达,并将其看作序列标注问题。但是,观点表达和观点对象在同一语句中未必是一对一的关系,同一语句中的情感倾向也未必是单一的。例如“产品实惠但不耐用”,观点对象“产品”对应多个观点表达和多种情感倾向。如果单纯使用序列标注模型,很难准确判断情感倾向的所属。

为了解决上述问题,我们采用如图1所示的任务框架。对于观点文本,我们首先使用序列标注模型识别其中的情感要素序列,然后采用匹配算法将其整合为结构化的情感要素组合。在序列标注部分,序列标签采用IOB2标签体系[3],其中TGT代表观点对象,XPR代表观点表达,对XPR使用追加标签P、M、N分别表示正面、中性、负面倾向的观点表达。针对序列标注的结果,我们以三元组<观点对象,观点表达,情感倾向>来生成情感要素组合。其中,情感倾向部分使用数值1,0,-1分别表示正面、中性、负面倾向。

图1 本文采用的细粒度意见挖掘任务框架

目前,较为常用的序列标注模型有条件随机场(CRF)[4]和双向长短期记忆—条件随机场(BiLSTM-CRF)[5]。其中,CRF属于传统机器学习方法,BiLSTM-CRF属于深度学习与传统机器学习方法的结合。Nakayama和Fujii[6]基于CRF,通过构建丰富的特征模板,在日语细粒度意见挖掘上取得了一定效果,但是,需要人工构建复杂的特征模板。Liu等[7]使用预训练词向量,并在循环神经网络(RNN)的隐层输出结果中加入了语言特征表示,如词性和词块,在英语细粒度意见挖掘上取得了很好的效果。然而,这些特征表示仅仅用到文本中的字、词及其语言信息,但缺乏丰富的情感信息。因此,如何使用外部情感词典资源来改进细粒度意见挖掘的性能是值得研究的课题。

针对现有方法的不足,我们在使用序列标注模型进行细粒度意见挖掘的基础上,提出一种基于领域情感词典特征表示的方法: 首先基于标注数据构建了一份新的电商领域情感词典,然后在电商评论文本真实数据上,分别为CRF和BiLSTM-CRF这两种常用序列标注模型设计基于领域情感词典的特征表示。实验结果表明,这种基于领域情感词典特征表示的方法在两种模型上都取得了良好的效果,并且超过其他情感词典。

本文的其余部分结构安排如下: 第1节对相关工作进行介绍;第2节介绍情感词典资源;第3节详细介绍我们提出的方法;第4节介绍实验和结果分析;第5节是结论介绍。

1 相关工作

细粒度意见挖掘属于情感分析与意见挖掘任务。在情感分析与意见挖掘相关任务被提出的早期,有关细粒度意见挖掘的研究工作很少。起初,较为常见的相关任务是对文档级别文本进行情感倾向分类,如Pang等[8]使用传统机器学习方法进行情感分类。随着相关任务的拓展研究,研究人员需要在标注粒度更为细致的情感分析语料上开展研究。Wilson等[9]构建了短语级别的情感分析标注语料,综合考虑若干短语反映的情感倾向并对文档实例进行情感分类。随着进一步的研究,仅进行情感倾向分类难以满足检索任务的需求,因而研究人员进行扩展,提出情感要素抽取任务。情感要素可以包括观点持有者[10]、观点对象[11]、观点表达[12]、情感倾向和强度[13]等。情感要素抽取任务由于获取的是情感文本中具有实际意义的细粒度要素,因此可看作细粒度意见挖掘。早期阶段,细粒度意见挖掘的相关工作大多采用CRF模型进行序列标注[14-15]。然而,基于CRF模型的序列标注模型通常需要人工构建复杂的特征模板。近三年来,随着深度学习的发展,更多的研究人员采用深度学习的序列标注方法进行建模,如Irsoy等[16]基于RNN模型,Katiyar等[17]用到LSTM模型。目前,深度学习方法与传统机器学习方法的结合模型,如BiLSTM-CRF模型、BiLSTM-CNN-CRF模型等在序列标注任务上取得了很好的效果[18]。然而,目前基于深度学习的细粒度意见挖掘工作鲜有利用情感词典资源。

情感词典资源的构建对情感分析与意见挖掘相关任务的研究也格外重要。Kaji等[19]从大规模HTML文本中构建用于情感分析任务的词典资源,Jijkoun等[20]使用Bootstrapping方法构建话题特定的情感词典。目前,常用的英文情感词典有SentiWordNet、LIWC、ANEW等;常用的中文情感词典有知网的“情感分析用词语集”(下文简记为 “知网情感词典”)、大连理工大学信息检索实验室的“情感词汇本体”[21](下文简记为“大连理工情感词典”)等。这些词典对情感分析与意见挖掘任务提供了一定帮助。然而,它们的词条较为通用,将其应用于领域特定的观点文本中时效果不佳。

基于上述相关工作和不足,本文在使用序列标注模型进行细粒度意见挖掘的基础上,结合情感词典资源,提出一种基于领域情感词典特征表示的方法。

2 情感词典资源

2.1 电商领域情感词典的构建

本文主要针对电商领域观点文本进行细粒度意见挖掘。依照本文提出的方法,需要面向电商领域的领域情感词典。对于电商领域的观点文本,其特殊之处主要有以下几点:

• 短文本居多,行文或正规或随意。

• 观点持有者大多为第一人称。

• 通常针对电商产品或产品相关属性,送货服务或售后服务等观点对象进行观点评价。

• 包含电商领域特有的观点对象词条及观点表达词条。

这些特性决定了电商领域观点文本中情感要素的构成和分布。对于电商领域观点文本,我们主要针对观点表达和情感倾向的对应关系构建相应的情感词典。观点表达可以只反映单一的情感倾向,例如“好吃”只反映正面倾向;也可以反映多种情感倾向,例如“高”在“价格高”中反映负面倾向而在“性价比高”中反映正面倾向。因此,我们将观点表达按照反映出的情感倾向的不同定义为下列四个类别:

• 正面观点表达

• 中性观点表达

• 负面观点表达

• 多极性观点表达

其中,前三种类别的观点表达只反映单一的情感倾向,第四种类别反映多种情感倾向。

除上述观点表达词条以外,在构建情感词典时还加入了与观点表达具有密切关联的词条。

• 否定词

否定词的功能是让观点表达的情感倾向发生反转,其加入可使情感词典中未出现的带有否定前缀的观点表达的情感信息也能够被检索出来。否定词的追加间接地扩充了情感词典的情感信息。

电商领域情感词典的构建要点在于获取电商评论文本中观点表达和情感倾向的对应关系。由于领域资源受限,本文直接对实验部分用到的训练数据中的情感要素组合进行抽取,从而构建得到电商领域情感词典。首先,从情感要素组合中抽取得到观点表达和情感倾向的对应关系并进行汇总,得到候选领域情感词条。对于候选结果,我们进行人工检验并纠正了一些错误。最终,将校正后的观点表达词表作为电商领域情感词典。表1给出了电商领域情感词典中各个类别的词条示例。

表1 电商领域情感词典词条示例

2.2 与其他情感词典的比较

我们选取了两种情感词典,分别是知网情感词典和大连理工情感词典,和本文构建的电商领域情感词典进行比较。

为了便于比较,我们将两种情感词典的条目和电商领域情感词典进行了统一。对于知网情感词典,由于其仅将观点表达分为正面倾向和负面倾向,因此我们将其等价为正面观点表达和负面观点表达,同时将其他三类置空。对于大连理工情感词典,其将观点表达分为正面、中性、负面以及正负都有可能这四类,因此我们将其对应等价到定义中的四类,并将其否定词类别置空。

我们分别从基于情感词典的条目统计信息和条目中具体词条这两个方面对三种情感词典进行比较。表2给出了三种情感词典的观点表达类别及相关统计信息。

表2 三种情感词典的观点表达类别及相关统计信息

条目统计信息仅仅是衡量情感词典的一个方面。表3给出了三种情感词典共有词条和电商领域情感词典独有词条的比较结果。

表3 情感词典词条异同性比较

从表中可以看出:

• 电商领域情感词典在各个类别都拥有大量和电商领域高度相关的独有词条。

• 两种通用词典中和电商领域高度相关的词条数量较少。

针对上述三种情感词典,我们为其定义情感词典标签。表4给出了不同情感词典的情感词典标签。

表4 不同情感词典的情感词典标签

3 基于领域情感词典特征表示的方法

3.1 基于领域情感词典的数据表示

我们提出的细粒度意见挖掘方法以电商评论文本为研究对象。针对电商评论文本,我们使用第3节构建的电商领域情感词典来生成数据表示。

对于数据表示的生成,我们采用如下方式: 首先使用领域情感词典对电商评论生文本进行最大正向匹配以得到具体观点表达在生文本中的位置,然后采用IOB2标签体系生成情感词典标签。最终将得到的情感词典标签和生文本进行结合,构成基于情感词典的数据表示。给出基于领域情感词典的数据表示实例如表5所示。在表5的例子中,观点表达“实惠”与“不耐用”都出现在领域情感词典中。其中,DoUP代表领域情感词典的正面观点表达标签,DoN代表否定词标签。

表5 基于领域情感词典的数据表示举例

3.2 基于领域情感词典的CRF模型

CRF是一种判别式模型,在序列标注任务中通常采用线性链条件随机场(Linear-chain CRF)。根据该模型的定义,可以将序列标注任务转化为如下形式,给定输入序列形如:x=x1,x2,…,xn,任务目标是预测与该输入序列等长的标签序列:y=y1,y2,…,yn,标签序列中每个位置与输入序列相对应。然后,由式(1)计算条件概率P(y|x)。

(1)

其中,Z(x)是归一化因子,fk和gk分别是转移特征函数和状态特征函数,它们的输出值都为布尔值。对于fk,当yi-1,yi,x满足转移特征函数的具体数值时输出为1,否则为0;gk与其类似。λk和μk分别是对应特征函数的权值。在训练过程中,由输入序列和标签序列构成的每一组实例通过最大化式(1)的对数似然概率来训练模型中的各个变量。测试时,给定测试数据中的一组输入序列实例x′,选取满足式(2)的输出序列y*作为最佳预测标签序列。

y*=arg maxP(y′|x′)

(2)

对于CRF模型特征模板的设计,我们采用如表6所示的特征模板。

其中,n代表与当前位置的偏移量(0表示当前位置),char代表字符,dict表示情感词典标签取值,具体取值与3.1小节保持一致。模板F4、F5、F6生成的特征即作为情感词典特征。以表5中的当前位置字符“惠”为例,其按照表6生成的特征如表7所示。

表6 CRF模型采用的特征模板

表7 CRF模型生成特征举例

3.3 基于领域情感词典的BiLSTM-CRF模型

图2是本实验采用的BiLSTM-CRF框架。

图2 BiLSTM-CRF框架

第一层是数据表示层。其作用是将我们给出的字序列和情感词典标签序列的输入映射到向量级别的输入表示。本实验中,共有两种输入表示,一种是字表示,另一种是情感词典表示,分别通过事先建立的索引关系得到。然后,将字表示和情感词典表示进行拼接,得到最终的输入表示。

第二层是BiLSTM层。其作用是将第一层得到的输入表示转化为隐层表示输出。长短期记忆网络(LSTM)是一种特殊的循环神经网络(RNN)模型,其主要结构如式(3)所示。

(3)

第三层是CRF层。假设序列标注的标签个数为k,对于输入序列x=x1,x2,…,xn,经过前三层的计算后可以得到维数为n×k的分值矩阵P,矩阵中的某一个元素Pi,j代表第i个输入状态标注为第j个标签的得分。对于一组预测标签序列y=y1,y2,…,yn,定义它的得分如式(4)所示。

(4)

其中,A是转移得分矩阵,Ai,j代表从标签i转移到标签j的得分。y0和yn分别是标签序列中的起始和结束标签,需要加入到原有标签集合中。因此A是k+2阶方阵。由此,我们得到基于所有可能的标签集合Yx下的条件概率P(y|x)如式(5)所示。

(5)

在训练过程中,最大化如式(5)中正确标签序列的对数似然概率。测试时,选取满足式(6)的结果y*作为最佳预测标签序列。

(6)

3.4 情感要素组合匹配算法

使用上述序列标注模型对实验数据进行标注后,便可获取其中含有的观点对象、观点表达以及情感倾向并进行情感要素组合匹配。不同于关系抽取任务中头实体和尾实体都不为空的情形,<观点对象,观点表达,情感倾向>中的观点对象可以为空。这样的问题给匹配带来了困难。因此,本实验采用如表8所示的算法进行匹配。

表8 情感要素组合匹配算法

对于这个算法,我们给出如图3所示的具体实例。对于语句“很差劲,质量不好”的序列标注结果,我们首先以中间的逗号作为分隔符将其分隔为两个短句。对于短句“很差劲”的情感要素“<差劲,XPRN>”,锁定得到观点表达“差劲”,但是其相邻左侧和相邻右侧都不存在观点对象,因此返回结果“”。而对于短句“质量不好”的情感要素“<质量,TGT>,<不好,XPRN>”,锁定得到观点表达“不好”,其向左最近邻匹配得到观点对象“质量”,因此返回情感要素组合结果“<质量,不好,-1>”。

图3 情感要素组合匹配示例

4 实验

本节先介绍实验数据,其次介绍情感词典数据,然后介绍实验设置,再介绍实验的评价方法,最后是实验结果、方法对比与实例分析。

4.1 实验数据

本次实验的数据来源于BDCI2017-TASK12赛事[注]http://www.datafountain.cn/#/competitions/2681intro复赛阶段的语料,所属类型为电商评论文本,共计20 000条电商评论文本的标注实例。原始语料的标注方式如表9所示。

表9 原始语料标注方式示例

我们对原始数据进行初步预处理。首先,我们打乱原有语料顺序,并以8: 1: 1的比例将语料初步切分为训练集、验证集、测试集。然后,我们把初步预处理结果转化为序列标注数据。转化举例如图4所示。

图4 实验数据转化示例

对每条实例中的原文本以短句标点符号为界进行切分得到若干短句,并将每一个情感要素组合和这些短句进行匹配。如果存在匹配结果,则按照情感要素组合中每个元素的位置标注于该短句上。最终得到符合序列标注规则的实验数据。

考虑到20 000条标注实例的句长参差不齐,在实际训练过程中,我们将训练集、验证集、测试集中的原有实例切分为短句。表10给出了它们的相关统计信息:

表10 实验数据相关统计信息

4.2 情感词典数据

为了进行实验比较,我们又用到知网情感词典和大连理工情感词典。由于第3节提出的方法可以拓展到任意情感词典上,因而在具体实验中我们使用三种情感词典对4.1小节得到的实验数据追加情感词典标签。不同情感词典会生成不同情感词典标签。表11给出了不同情感词典对同一实例的情感词典标签结果。

4.3 实验设置

本次实验,我们使用两种序列标注模型: CRF和BiLSTM-CRF。对于CRF,我们使用3.2小节设计的特征模板,迭代次数设置为满足收敛条件为止。对于BiLSTM-CRF,我们按照如表12所示的参数进行实验。

表11 不同情感词典生成标签示例

表12 BiLSTM-CRF参数设置

对于BiLSTM-CRF实验结果的选取,我们在每次epoch训练结束后测得验证集的F1值,每当得到的F1值到达极大值时存储模型。全部训练结束后,我们得到在验证集上F1值最优的模型。使用这个模型对测试集进行测试,得到最终的实验结果。

4.4 评价方法

本次实验,我们分别对序列标注结果和情感要素组合匹配结果进行评价。对于这两个阶段的结果,采用准确率(Precision)、召回率(Recall)以及F1值进行评价。它们在公式结构上相同,但在具体含义上有所不同。给出P(准确率)、R(召回率)、F(F1值)的计算方式如式(7)~式(9)所示。

对于序列标注结果评价,|A|代表预测集的情感要素序列(观点对象和观点表达)总数,|G|代表标准集的情感要素序列总数,|A∩G|代表预测集与标准集完全匹配的情感要素序列总数。而对于情感要素组合匹配结果评价,|A|代表预测集的情感要素组合结果总数,|G|代表标准集的情感要素组合结果总数,|A∩G|代表预测集与标准集完全匹配的情感要素组合结果总数。

4.5 实验结果

本次实验,我们共进行了两组。每组实验各有4套不同的细粒度意见挖掘模型。两组实验分别基于CRF和BiLSTM-CRF,4套模型分别为BASELINE、+HOWNET、+DUTIR、+DOMAIN。其中,BASELINE仅使用字特征表示训练得到、+HOWNET在使用字特征表示的基础上加入知网情感词典特征表示、+DUTIR加入大连理工情感词典特征表示、+DOMAIN加入电商领域情感词典特征表示。表13给出了所有结果。从实验结果,可以看出:

表13 实验结果

• 加入情感词典特征表示后的各模型相较于同一实验组的BASELINE,F1值都得到了提升,表明情感词典的有效性。

• 无论是在实验组CRF还是在实验组BiLSTM-CRF上,基于领域情感词典特征表示的模型+DOMAIN在各项性能上均优于另外两种加入其他情感词典特征表示的模型,表明领域情感词典可以更好地提高领域内细粒度意见挖掘任务的性能。

• BiLSTM-CRF的整体性能优于CRF,表明深度学习模型更适合本任务。

4.6 与其他工作的对比

我们将本文方法得到的实验结果与其他方法进行了对比,对比结果如表14所示。其中,Yang,et al.基于文献[14],采用Semi-Markov CRF作为序列标注模型;Liu,et al.基于文献[7],采用RNN作为序列标注模型。由于本文用到的实验数据缺乏预训练分布式表示以及语言特征,实际测得性能要稍低于原作者提出的方法。Our对应表13中性能最佳的模型BiLSTM-CRF+DOMAIN。通过对比可以看出,我们的模型取得了最好结果。

表14 与其他方法的对比

4.7 实例分析

我们对各个模型在测试集上得到的序列标注预测结果进行分析后发现:

• 在序列标注模型中加入情感词典特征表示的最大作用是改善原有基准系统(BASELINE)对于低频观点表达的预测效果。

• 领域情感词典相较其他情感词典具有更高的覆盖度。

以表15给出的两个实例对其进行说明。由于两组实验取得了一致的预测结果,因此对其进行了合并。

表15 实例分析

在第一个实例中,观点表达“可靠”在训练数据中的出现频次仅为6次,属于低频观点表达,因而两组实验组的BASELINE模型都难以对其进行识别。而“可靠”在知网情感词典、大连理工情感词典、电商领域情感词典中都有出现,因此加入情感词典特征表示的各个模型都将其识别了出来。

在第二个实例中,观点表达“5星”是电商领域中产品的评分倾向,具有一定的领域特性。由于该词条仅在电商领域情感词典中出现,因而只有+DOMAIN模型将其识别了出来。

5 结论

本文提出了一种基于领域情感词典特征表示的细粒度意见挖掘方法。我们首先构建一个新的电商领域情感词典,然后基于该词典在电商评论文本上构建特征表示并将其加入序列标注模型的输入部分。该方法在不进行复杂的特征设计,不进行过于耗时的预处理操作的前提下,充分利用情感词典资源,丰富了序列标注模型输入部分的特征表示。实验结果表明,基于电商领域情感词典的方法在CRF和BiLSTM-CRF这两种序列标注模型上都取得了良好的效果,并且超过其他情感词典。本文构建的领域情感词典已经公布在Github[注]https://github.com/zeitiempo/ECSD上,在业界共享。

猜你喜欢
细粒度词典观点
融合判别性与细粒度特征的抗遮挡红外目标跟踪算法
基于SVM多分类的超分辨图像细粒度分类方法
米兰·昆德拉的A-Z词典(节选)
米沃什词典
词典引发的政治辩论由来已久 精读
观点
基于型号装备?角色的IETM访问控制研究
基于web粒度可配的编辑锁设计
业内观点
新锐观点