领域情感词典构建方法研究

2020-01-19 03:33李枫林范雅娴武汉大学信息管理学院
图书馆理论与实践 2019年12期
关键词:极性语料词典

李枫林,范雅娴(武汉大学信息管理学院)

情感词典一般是带有情感色彩的词或词组及其相对应情感极性或强度的集合,如,表示积极态度正向情感词开心、幸福、漂亮等,表示否定或者消极态度的负向情感词伤心、难看、害怕等。在文本情感分析中,情感词典不仅可以取代人工对大规模文本进行自动情感标注,[1-2]提高分词效率,还可以结合一系列语义规则或机器学习算法进行文本情感分析,[3]领域情感词典更是在其中发挥着极其重要的作用。

1 研究背景

情感词典按照应用范围可以划分为通用情感词典和领域情感词典。通用情感词典能够涵盖大部分语料中的情感词,可以用来对任一领域的文本语料进行分析,大多是根据词间关系(如同、反义关系)依赖于已有的开源情感词典进行构建。Hu等采用此方法对网上销售产品的客户评论的情感倾向进行分析,他们先找到出现频率较多的产品特征,围绕产品特征找到用来表达意见的相关情感词,再经过人工构建正、负向两个情感种子集合,利用WordNet判断新词情感极性,通过循环迭代得到(最终完整的情感词典。[4]Kamps等利用WordNet构建了一个同义词网络,针对某一形容词,通过计算该词与“good”和“bad”之间的语义距离即迭代次数判断该词的情感极性。[5]Andreevskaia等则将词典中词的释义看做是已被标注极性的语料库,通过遍历种子词的释义并识别其中的情感词来扩充正、负种子词集,构建通用情感词典。[6]

在构建方面,通用情感词典通常仅根据词义关系进行扩展,在一系列的迭代过程中,由于词与词之间的关系错综复杂,所构建的词典往往准确率不高,需要人工进行筛选审查,费时费力。在应用方面,一方面,由于在不同领域中存在一词多义的现象,导致通用情感词典在某一特定领域中的情感分类准确度不高;另一方面,在通用情感词典中,并未收录时下的一些新词或流行词汇,在用于社交网络情感分析任务时,可能无法准确判断情感极性。因此,构建一个全面的领域情感词典以辨析特定领域情感的性能至关重要。

领域情感词典是指利用某一特定领域的大量语料所构建的情感词典,用来对这一领域的文本语料进行分析。目前,在文本分析方面的研究都是针对某一特定领域的语料如微博、商品评论等进行情感分析,与通用情感词典相比,领域情感词典在用于特定领域的具体情感分析任务中精确度更高,总体更具实用性。本文对领域情感词典构建的实现技术或方法进行分析,指出每种方法的优缺点,总结了所构建情感词典的性能评估方法,为领域情感词典的构建方法研究提供借鉴,为后续情感分析研究提供良好的基础。

2 领域情感词典的构建方法

领域情感词典大多依赖语料库进行构建,针对某一领域更具实用性,本文将领域情感词典的构建方法归纳为基于统计的方法、基于关系图传播的方法、基于词向量的方法等。

2.1 基于统计的方法

基于统计的方法主要是利用一些统计信息(如词频等),或者借助统计思想(假设检验)来构建情感词典。本文将基于统计的方法归纳为两种:基于PMI情感倾向的情感倾向点互信息法和基于卡方统计量的方法。

2.1.1 基于PMI的情感倾向点互信息法

点间互信息(PMI)主要用于计算词语间的语义相似度,基本思想是统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高。[7]两个词语word1与word2的PMI值计算公式如下式所示。

P(word1&word2)表示两个词语 word1与 word2共同出现的概率,P(word1)与P(word2)分别表示两个词语单独出现的概率,若两个词语在数据集的某个小范围内共现概率越大,表明其关联度越大;反之,关联度越小。

情感倾向点互信息算法(SO-PMI)是将PMI方法引入计算词语的情感倾向中,从而达到捕获情感词的目的,[8]其计算公式如下式所示。

其中,word1是未确定情感极性的情感词,Pword和Nword为正负情感种子词。最终差值大于某一阈值时,word1为正面情感词;反之则为负面情感词,从而据此判断情感词的情感极性,得到情感词的情感强度。

在英文微博领域情感词典的构建中,Mohammad等提出将表情符号作为情感标签,通过在单词和表情符号之间计算点相互信息(PMI)来收集情绪词汇,计算SO-PMI值作为词的情感值。[9]赵妍妍等基于海量的微博数据,人工选取表情符作为情感种子,选取unigram、bigram、trigram作为候选情感词语,同样利用PMI计算候选词与表情符间相关性,用SO-PMI计算候选词情感倾向,构建了一个十万词语/词组的大规模情感词典。[10]

基于PMI的情感倾向点互信息法主要是依据统计思想来度量词与词之间的相关性,进而确定某个词的情感极性及强度,方法对于大多数的语料是通用的。然而,这种方法只是统计词语共同出现的频率,并没有考虑语句间的逻辑关系,如“这本书内容挺好的,但是拿着太重了”,若未考虑句中的转折关系,在判断“好”和“重”的情感极性时就会出错,认为极性一致。还有“这本书内容挺好的,而且一点都不重”,未考虑情感词前的否定词,反而会把“好”和“重”划分为同一极性。另外,此种方法构建情感词典需事先指定情感种子词集,并且只适用于正、负两类情感类别词典的构建。

2.1.2 基于卡方统计量的方法

卡方统计量在构建情感词典时,与PMI作用有所不同,往往用来计算情感词与某一特定情感类别之间的相关性。卡方统计量越大,相关性越强;卡方统计量越小,相关性越弱。检验情感词wi与某类情感cj的相关性计算公式如下式所示:

其中,N表示语料库中句子的总数量;Aij表示情感类别cj中包含情感词wi的句子数量;Bij表示包含情感词wi但不属于情感类别cj中的句子数量;Cij表示情感类别cj中不包含情感词wi的句子数量;Dij表示不包含情感词wi且不属于情感类别cj中的句子数量。

在情感词典的构建中,卡方统计值可以计算出情感词与特定情感类别之间的相关性,从而判断情感词的正负极性或情感类别。桂斌等通过识别微博表情符号,从微博平台中抓取大量带有表情符号的微博文本,并依据表情符号对微博文本进行情感倾向标注,生成情感语料库。对语料库分词处理,得到候选情感词,统计每个情感词在正向和负向语料库中出现的次数,计算情感词的卡方统计量,得到词与正向微博个数的相关性,从而获得情感强度,再根据情感词在正负微博文本中出现的概率判定情感词的倾向性,进而生成情感词典。[11]

卡方统计量不仅可以用于计算情感词与正、负二元情感类别的相关性,也可以用于计算与多元情感类别之间的相关性。如王名扬等以大连理工大学本题库中的高兴、喜好、愤怒、悲伤、恐惧、厌恶、惊讶作为七个情感类别。以表情符号作为情感标签,将微博语料中只包含一种表情符号的句子对应到特定的情感类别中进行预处理,分词得到候选情感词。通过计算候选情感词与七个情感类别的卡方统计量、情感覆盖度Qcij以及累积覆盖度 Qcj,将累积覆盖度Qcj达到90%的候选情感词加入对应情感类别中,最终构建出一个含有七元情感类别的微博领域情感词典。[12-13]

基于卡方统计量的方法依据统计思想来度量词与类之间的相关性,从而确定词的情感类别及情感强度。与基于PMI的情感倾向点互信息法相比,不仅可以用来构建正、负二元情感词典,也可以用来构建含有多元情感类别的情感词典,但使用基于卡方统计量的方法构建情感词典需事先标注语料类别。

表 基于统计的两种方法比较

2.2 基于关系图传播的方法

基于关系图传播的方法通常是指依据现有的通用情感词典构建情感种子词集,以情感词作为图的顶点,利用现有词典(WordNet)中的词义关系,或者计算PMI获得词间的相似度,并以此作为连接节点的边的权重,利用词语之间的联系来构建图,然后在图上用某种图传播的算法从已知极性的情感词开始,迭代推导出语料库中未知极性情感词的情感倾向,从而构建出一个较为完善的领域情感词典。目前常见的关系图传播算法有标签传播算法、PageRank算法、随机游走算法等。本文根据关系图的顶点特征将基于关系图传播的方法分为单一顶点图传播的方法和多元顶点图传播的方法。

2.2.1 单一顶点图传播

单一顶点图传播的方法,仅将单一情感词作为图的顶点,结合相似度和图传播算法进行后续的情感倾向判断。

Huang等借助现有通用词典和句法依存关系提取语料中的情感词作为情感种子词集,利用PMI构建相似性关系图,通过定义和提取情感词之间一些成对的约束关系,主要是上下文约束,即连词and、but,以及反转形态约束,如“practical”和“impractical”等对文本情感倾向造成的影响,并将它们合并到标签传播算法中,用于判断情感词的倾向。[14]

由于WordNet中的词义关系本身就具备完美的图形分析特性,Montejo-Ráez等人在构建Twitter领域情感词典时,直接利用WordNet中的同义词网络图结合SentiWordNet中的情感强度值以及随机游走算法,以同义词为节点,以语义关系为边进行连接,通过反复迭代检索得到术语中的相关情感词列表,获得对应的情感极性。[15]

GlavaSǐ等构建情感图时,使用潜在语义分析衡量词间的语义相似性,并设定阈值减少边缘数量来优化情感图,同时使用PMI、随机索引、随机游走算法得到词间相关性,并结合PageRank算法判断位置情感词的情感极性。[16]

另外,在构建情感词语义图时,Xiong等提出通过控制窗口的大小来定义局部和全局信息,用于计算情感词的相似度作为边缘权重,能够更加全面、准确地反映语料库中词的相关性。[17]

2.2.2 多元顶点图传播

在利用基于关系图传播的方法构建领域情感词典时,还可以将表情符号、语义模式等作为辅助元素加入图顶点中,构成以情感词和表情符号等作为图顶点的多元顶点情感图。

Song等根据出现频率对微博数据集中的所有单词进行排名,结合大连理工大学构建的情感词本体库,人工为每种情绪选择五个高频率的词作为种子词。将种子词和表情符号作为图顶点组合在一个三层异构图中,最后利用随机游走算法确定候选情感词的情感极性。[18]

为提高评价对象—情感词对的提取精度,Xu等提出了一个二阶段方法。在第一阶段,构建了一个情感图游走算法,将语义模式与情感词、评价对象一同作为图顶点,用随机游走算法计算词语的置信度,通过过滤一些低置信度的词语来排除错误的情感词、评价对象;在第二阶段,采用自学习策略优化第一阶段的结果,滤除高频噪声,捕获长尾词,可以去除情感图中错误的情感关系和评价对象—情感词对。再结合图传播算法判断情感词的情感倾向,能够大大提高情感词典构建的准确度。[19-20]

基于关系图传播的方法将词语间的联系转换为直观的图模型,将词与词的联系以特征的形式融入图中,同时考虑了句中连词依存关系等的约束,使情感词的极性判断更加准确。然而基于关系图传播的方法中,种子词及准确的词语间特征的选取是非常重要的,并且图传播的算法过程中也可能会出现很多的噪音。如何进一步优化基于关系图的算法,以及如何选取高质量的种子词和词语间特征是该方法需要考虑的重要问题。

2.3 基于词向量表示的方法

随着神经网络和深度学习的不断发展和应用,词向量也成为了自然语言处理领域中的一个研究热点,并在情感词典构建中的文本表示及相似度计算上发挥着重要的作用。Mikolov等提出了利用深度递归神经网络的Skip-gram模型,他通过对词或词组进行预测从而得到其上下文的词或词组的向量表示。[21-23]与Skip-gram不同的是CBOW模型,CBOW是利用当前词的上下文来预测当前词。

有学者认为,情感词典的构建可以看作是词语或词组层级的情感分类任务。Tang等通过Urban词典扩展种子词库获得训练集,构建了一个神经网络架构,将Twitter文本的情感信息整合到Skip-gram模型词组向量中,构建了一个大规模的情感词典。[24]

针对一些训练得到的向量出现的语义相似而极性相反的情况,Tang等扩展了传统的C&W模型,构建了三个神经网络结构,通过在损失函数中加入情感信息得到情感词的向量表示,使情感词相似度的测量更加准确。[25]

词向量的最大特点便是将语义信息用向量的形式进行分布式表示。在构建情感词典时往往通过计算词向量间的余弦值得到词与词之间的相似度,进而确定词语的情感倾向或情感值。也可直接通过计算余弦值得到相似度来发现新词或筛选情感候选词,从而得到情感分值。Li等构造了一个旅游评论特定领域情感词典,他们先从现有通用词典中选取一部分种子词语,并人工标注情感值,将语料用Word2vec进行向量表示后,通过计算与种子词之间的余弦距离来表示词与种子词之间的相似性,然后优化函数得到候选词的情感分值。[26]Wang等将微博语料库中的表情符号提取出来并分类,以人工标注情感强度作为种子,利用Word2vec构建模型进行文本向量表示,通过计算余弦距离迭代发现新词,并初步得到词语情感值,最后结合HowNet中的程度副词确定情感极性和最终情感值。[27]

胡家珩等认为仅仅根据词向量的相似度来判断情感词倾向并不准确,词向量保留的仅是语义信息而不是情感信息,有时可能会存在语义相近而情感极性相反的情况,因此他在利用相似度筛选候选词后,使用一个4层全连接神经网络构建分类器,选择ReLU作为前几层的激励函数,Softmax作为输出层的激励函数,交叉熵作为损失函数,Adam作为优化函数,最后训练情感分类器得到每个候选词的情感极性,与直接使用词向量相似度判断情感极性相比,其准确度更高。[28]

深度学习是自然语言处理中的研究热点,通过深度学习网络训练得到的词向量具有很好的性质,可以直接利用向量的相似度度量词语之间的相似关系。用词向量表示的方法构建情感词典具有非常广阔的应用前景,但如何有效地在神经网络模型中加入文本的情感信息是未来值得关注的问题。

2.4 多种方法的融合

在领域情感词典的构建中,为了提高情感词典构建的准确度,有时还会将上述几种方法结合来构建情感词典。

在计算SO-PMI的基础上,可以通过使用一个简单的神经网络,结合基于词向量表示的方法,能够使情感词的极性判断更加高效、准确。[29]Wang等则提出了一种基于层次情感监督表示学习的情感词典构建方法,计算PMI、SO-PMI作为词汇级别的情绪注释,使用Tweet中的标签作为文档级别的情绪注释,构建一个神经网络框架,通过在词语和文档粒度上整合情感监督来学习情感感知词的表示作为等级情绪监督,构建分类器进行词汇学习,通过计算词语在正负之间的概率作为词语的情感值。最终构建的情感词典既可以识别文档中词语的情感极性,也可以根据文档中的词语判断文档的情感极性。[30]

此外,Hatzivassiloglou等人认为语句中连词如and、but、either-or、neither-nor等所连接的情感词具有一定的情感极性关系。他们从语料文档中抽取由连词连接的形容词对,并证明了由and连接的形容词对通常具有相同的情感极性,如“The girl is beautiful and cute”,而由but连接的形容词对通常具有相反的情感极性,如“The girlisbeautifulbutstupid”。[31]当确定部分情感词时,可以依据这种连词关系获取情感词,以判断情感词的极性。Kanayama等在此基础上进行扩展,针对句子内部和句子之间的情感进行了一致性判别,认为连续的句子往往具有相同的情感倾向,语句的情感倾向与句中含有情感词的情感极性一致,他们首先建立了已知情感倾向的情感种子集合,然后通过分析领域相关语料中语句内部和语句间内部的文本和连接词来确定情感词间的极性关系。[32]因此,在构建情感词典时,可以利用连词关系来扩展情感词以及补充判别情感词的情感极性。

张璞等将基于词向量表示的方法和基于关系图传播的方法相结合,从现有通用情感词典中人工选取部分主观性强的词语作为种子词,通过Word2Vec训练词向量选取与种子词相似度高的词语做为部分情感候选词,同时在语料上抽取与种子词具备连词依存关系的词语扩充情感候选词,通过种子词与候选情感词之间的相似度构建语义关联图,以种子词与情感候选词作为图中的节点,最后利用标签传播算法判断未知节点情感词的情感倾向。[33]

多方法融合构建情感词典,可以利用基于PMI的情感倾向点互信息法来筛选情感候选词,同时利用连词关系、基于关系图传播的方法以及基于词向量的方法来扩展情感词,并确定情感词的极性,这种结合各种方法来构建的情感词典,可以使所构建的情感词典更加全面、准确。

3 领域情感词典性能评估方法

人们通常使用以下两种方法来评估所构建情感词典的性能。① 将构建的词典直接与通用情感词典或人工标注的情感词典进行比较,计算精确率P、召回率R和F1值;② 将情感词典应用到情感分析任务中,通过衡量分类结果的准确性—精确率P、召回率R和F1值来评估情感词典的性能。计算公式如下。

由于领域情感词典中的情感词具有领域性,在特定领域中具有情感倾向的情感词在通用情感词典中可能被确认为没有情感倾向的中性词,因此针对领域情感词典,往往选取情感词典中的部分词语,采用人工判断、人工标注的方式进行性能评估。如张璞等人分别用其自己提出和其他学者提出的几种情感词典构建方法作为基线方法进行实验,选取所构建情感词典中的一定数量的词语,人工判断情感极性的正确率,从而判断所构建情感词典的性能。[33]

或者将领域情感词典应用到文本情感分析任务中,通过与标准数据进行对比,计算精确率P、召回率R和F1值来评估所构建情感词典的性能。朱军等将采用了Word2Vec+SVM+情感词典+朴素贝叶斯的集成学习方法进行文本情感分类,对比未使用情感词典方法的分类结果精确率、召回率和F1值,情感词典的应用明显提高了文本极性分类的性能。[34]李勇敢等利用所构建的领域情感词库参与情感要素抽取测评任务实验,将实验结果的精确率、召回率和F1值与NLPCC(自然语言处理与中文计算会议)中文微博公开评测情感要素抽取评测结果平均值以及最佳结果等进行对比,证明了所构建情感词库在要素抽取上的优越性能。[35]

4 结语

本文对领域情感词典构建的实现方法和技术进行了梳理和归纳,将领域情感词典的构建方法归纳为:基于统计的方法、基于关系图传播的方法、基于词向量的方法等,分析了各种方法的优缺点,并对领域情感词典的性能评估方法进行了总结。目前,领域情感词典的构建已经取得一定的进展,但仍有许多问题值得我们思考和解决。

猜你喜欢
极性语料词典
基于归一化点向互信息的低资源平行语料过滤方法*
米兰·昆德拉的A-Z词典(节选)
米沃什词典
跟踪导练(四)
词典引发的政治辩论由来已久 精读
濒危语言与汉语平行语料库动态构建技术研究
双极性压缩观测光谱成像技术研究
国内外语用学实证研究比较:语料类型与收集方法
漫画词典
英语教学中真实语料的运用