基于特征融合的语句级情感倾向性研究

2020-11-09 07:29王磊
计算机时代 2020年10期
关键词:特征融合情感分析

王磊

摘  要: 针对语句级的情感倾向性研究多数是利用情感词典、语言学知识和机器学习等方法,其研究范围也限定于所分析的句子中。但是,整篇文章的上下文对语句情感倾向的判别影响巨大。文章利用主题特征来识别语句中情感词的情感倾向强度,通过计算词语的主题概率,将主题信息转化为情感先验信息,并融合否定词、程度副词和连接词等语法特征,提出一个基于特征融合的语句级情感倾向识别方法,对文本中语句的多标记情感倾向进行识别。实验结果表明,该方法在语句情感倾向识别上取得了令人满意的效果。

关键词: 情感分析; 主题特征; 特征融合; 情感倾向

中图分类号:TP391          文献标识码:A     文章编号:1006-8228(2020)10-19-04

Abstract: At present, there have been lots of researches on sentence sentiment orientation, most of them involve the use of emotional lexicon, language knowledge and machine learning, with the scope limited to the sentence analyzed. However, the whole context has great effects on sentence sentiment orientation recognition. In this paper, the topic features are used to adjust the emotion orientation intensity of the emotional words in sentences, the topic information is transformed into emotional prior information by calculating word topic probability, with the fusion of some grammar features, such as negation, degree adverb and conjunction, thus putting forward a sentence sentiment orientation recognition method with the fusion of multiple features for identification of the multi-label sentiment orientation of sentences. Experimental results show that this method achieves satisfactory effects in recognizing sentiment polarity of words.

Key words: sentiment analysis; topic feature; feature fusion; sentiment polarity

0 引言

隨着电子商务与网络社交的迅速发展,互联网上涌现出大量文本信息,如博客、微博、时事评论和购物点评等。这些文本基本都由若干带有情感色彩的语句构成,这些语句在一定程度上表达了人们对客观事物的喜好或反映了个体当时的情感、情绪。因此,语句级情感倾向分析研究得到国内外许多学者的关注,也为段落或短文本级情感倾向分析甚至为篇章级情感倾向分析提供帮助。

词或短语是词语情感分析的研究对象,而在上下文环境中的语句则是语句级情感分析的研究对象。语句情感分析不仅仅只是识别语句的情感倾向,还包括对语句中各种主观性信息的分析与提取。Hu和Liu[1]利用WordNet的同义与反义关系,识别词语的情感倾向,并将语句中情感倾向占优势的情感倾向作为语句的情感倾向。Yang[2]等人将上下文语句融入条件随机场模型中,提出一种基于上下文语境的情感分析方法。Narayanan[3]等人针对条件句进行了情感分析研究。赵妍妍[4]等融合文本间与文本内的因素,来提供语句情感分析精度。大连理工宋锐等[5]人对中文比较句进行研究,并采用CRF模型进行情感分类。

本文将语句的情感倾向分析问题作为研究重点,将上下文中的主题特征引入语句的多标记情感倾向判别中,并融合否定词、程度副词和连接词等语法特征,提出一个多特征融合的语句情感倾向识别方法。

1 基于情感词的语句情感分析

针对语句情感倾向识别问题,最简单、最常用的方法是基于规则的情感词求和分析方法,该方法也常常应用于篇章级情感倾向分析研究中。基于规则的情感词求和分析方法的基本思想[6]是:将语句中情感词或情感短语进行加权求和,如果某类情感的情感词越多,情感强度越大,求和后,该类情感的累加值就越大,则语句具有该类情感的可能性就越高。

利用基于规则的情感词求和方法来识别语句或篇章的情感倾向,方法简单,并能取得不错的识别效果。但是,该方法存在以下两点不足。

⑴ 特征单一:仅仅利用到语句中的情感词或情感短语,其他词语都被忽略。

⑵ 语句结构无法分析:对复杂句等句法结构复杂的语句,该方法就凸显出其不足。

2 多特征融合的语句情感分析

2.1 基本框架

本文提出的多特征融合的语句情感倾向分析方法框架如图1所示,虚线表示部分为训练过程,其目的是构建多标记情感倾向分类器。该方法的重点是抽取语句中的多种特征,并用这些特征来表示相应语句。从图1框架可以看出,特征抽取过程离不开各类词典,如情感词典、否定词词典、连词词典等。同时,语句句法特征在一定程度上也影响语句的情感。

2.2 情感向量空间模型

为了精确识别语句的多标记情感倾向,我们尽可能的从语句或文本中抽取大量的特征,用于语句情感倾向分析过程。在对语句进行分词、词性标注、中性词和停用词去除后,仅保留语句中的情感词。

在Ren-CECps中文情感语料库[7]中,每个情感词都标注了情感倾向及情感强度,抽取该语料库训练数据中的所有情感词构建情感词典,并将情感词典应用于语句情感倾向分析中。

依据“BOW”模型,将语句看作一个由情感词组成的情感词集合,则语句可以表示为如下形式:

2.3 基于主题的情感向量空间模型

在一篇文章中,语句的情感倾向应该由最能反映文本主题的核心情感词来决定。本文将主题特征引入语句的情感倾向判别过程中,利用主题特征来调整情感词语的情感强度,进而调整语句的情感倾向及强度。

隐含狄列克雷分布LDA是Blei等人[8]在2003年提出,是一个“文本-主题-词”的三层贝叶斯生成式模型。随后Griffiths等[9]对主题-词的概率分布也引入一个超参数使其服从Dirichlet分布,从而得到一个完整的生成模型。

LDA模型的參数个数只与主题数和词语数有关,而与语料库大小无关,适合于处理大规模语料库。

将潜在主题特征融入语句情感倾向判别过程中,针对文档[D]引入LDA模型,得到[T]个隐含主题[T={t1,t2,…,tT}]以及主题-词的概率分布[φ],利用“文本-主题-词”之间的概率分布来识别符合文本主题特征的情感词。从[T]个隐含主题中找出概率权重最大的主题[tm],将其应用于语句情感倾向判别公式⑶中,得到含有主题特征的语句情感倾向判别公式,公式表示如下:

2.4 语句情感倾向分析

在一个语句中,除去情感词语外,还会包含其他有意义的词语,这些词语会影响甚至改变语句的情感倾向。为了更好的识别语句情感倾向,我们进一步从语句中提取一些附加特征,用于语句情感倾向判别。这些附加特征是:否定特征、程度特征和转折特征。

⑴ 否定特征

否定特征是语句中一个重要的语法特征,否定词可以改变请辖域范围内情感词语的情感倾向,从而改变语句的情感[10-12]。否定词的辖域一般是从否定词后开始直至句尾,修饰对象一般直接位于否定词后面。否定词的选择将直接影响语句情感倾向的识别,我们基于HowNet词典构建否定词词典。

在本文语句情感倾向识别任务中,我们采用邻近原则,即否定词仅仅修饰其后的第一个情感词语。本章直接采用一种相对简单的处理规则,调节被否定词修饰的情感词语的情感倾向强度,从而改变语句的情感倾向。

当情感词wi前存在奇数个否定词时,情感词wi的情感倾向强度发生变化;当情感词wi前没有否定词或存在偶数个否定词时,情感词wi的情感倾向强度不变。

⑵ 程度特征

在副词中有一类特别的副词就是程度副词,一般修饰动词和形容词。程度词语不能改变所修饰的情感词语的情感倾向,但会影响情感词语的情感强度,主要表现在增强或减弱所修饰情感词语的情感强度。

依据HowNet词典中中文程度级别词语整理出一个程度词典,共含有140个程度副词。为每一个程度副词设定相应的等级,等级取值为2、3、4、5。

⑶ 转折特征

理解语句的结构关系将有助于语句情感倾向的判别。根据语句结构特征,中文语句一般可以分为简单句和复合句。简单句的情感倾向识别相对简单,可以直接利用前面介绍的方法进行识别。复合句比较复杂。

复合句子之间的主从关系可以分为并列关系、因果关系和转折关系。对于并列关系的复合句,子句之间关系平等,表达的情感倾向也保持一致。因果关系的复合句反映子句之间的因果关系,子句之间情感倾向保持一致,但情感倾向强度存在差异。对于蕴含转折关系的复合句,子句之间表达相互矛盾或截然相反的意义,导致子句之间的情感倾向完全相反,整个语句的情感倾向由最后一个子句的情感倾向所决定。

3 实验结果与分析

3.1 实验数据

本章实验数据主要来自三个数据集,其中两个是中科院谭松波提供的中文情感挖掘语料,使用其中去重后正负类各2000篇的酒店类评论语料和去重后正负各2000篇的图书评论语料,句子的情感倾向为正负2类;另一个是Ren-CECps中文情感语料库,语句的情感倾向分为8类,针对语句进行多标记情感倾向识别。上述数据集的统计信息如表1所示。

本文主要进行两类实验,一个实验是利用酒店评论语料和图书评论语料,来识别语句情感的正负性,属于一个情感倾向单标记分类问题研究;另一个实验是在Ren-CECps语料库中识别语句的多个情感倾向,属于情感倾向多标记分类问题研究。

在实验中,将传统词袋模型判别语句情感倾向方法记作BOW,将主题特征融入语句情感倾向识别的方法记作TM,将多种特征融合进行语句情感倾向识别方法记作Combine。

3.2 实验结果

⑴ Tan数据集实验结果

针对该实验,从酒店评论语料中随机选择20条语句构成一个文本,共生成200篇短文本。同理,对图书评论语料进行同样操作,生成200篇短文本。将400篇酒店与图书评论文本作为实验一的数据集,随机选取300篇作为训练数据,100篇作为测试数据。预处理阶段采用ICTCLAS对数据集进行分词和词性标注。情感词典采用HowNet情感词(2090个)和HowNet评价词(6846个)构成基本情感词典,去除其中的单字情感词。

将文本主题特征应用于语句情感倾向性识别过程中,图2反映了语句情感倾向识别正确率与主题特征之间的关系。

从图2中可以看出,在两个数据集中,当主题数量从1增加到10时,情感倾向识别正确率提高最快,随后正确率增长缓慢。当主题数量处于30以上时,语句情感倾向识别正确率都不再提高,甚至有时会下降。同时,我们看到,基于Ren-CECps语料数据的多标记情感倾向识别正确率高于Tan语料数据的单标记情感倾向识别。分析数据集特点后,认为主要原因是在Ren-CECps数据集中,文本中语句关系更紧密,主题特征更加突出,对情感词作用较大,而Tan数据集中文本是从原始语料中随机抽取生成的,可能构成文本的若干语句之间在主题特征上毫无关系,从而导致主题特征作用不明显。

⑵ Ren-CECps数据集实验结果

在实验中,对Ren-CECps语料库进行多标记语句情感倾向判别。Ren-CECps中文情感语料库中每个语句的情感倾向被标记为惊讶,悲伤,喜爱,高兴,憎恨,期待,焦虑,生气8类情感类别的一个子集。选取Ren-CECps中文情感语料库中1000篇文本作为数据集,去除数据中少量中性情感的句子,从中随机选取800篇作为训练数据,200篇作为测试数据。从训练数据中抽取情感词语构建实验所需的情感词典。利用LDA模型进行主题特征发现。

针对Ren-CECps数据集,我们进行以下两个语句多标记情感倾向识别实验。

⑴ 正确识别语句多标记情感倾向中的任何一个。

⑵ 正确识别语句多标记情感倾向中强度最高的情感倾向。

在实验⑴中,采用宏平均和微平均值来对比BOW、TM和Combine方法识别语句多标记情感倾向效果,如表2所示。

表2表明,主题特征对于文中语句情感倾向识别影响较大,融入主题特征后,情感倾向识别效果有明显提高。同时,当辅助特征也融入语句情感倾向识别后,情感倾向识别效果又进一步提高,说明这些辅助特征也是影响语句情感倾向识别的因素。

在实验⑵中,采用宏平均F1、微平均F1、宏平均正确率和微平均正确率来衡量三种方法在识别情感强度最高的情感倾向中的效果,如表3所示。

表3表明,主题特征在与情感倾向强度有关的情感识别过程中发挥重要作用,多特征融合方法也取得了较好的实验效果。对比实验⑴发现,宏平均正确率和微平均正确率都有所下降,这说明识别语句多标记情感倾向中的一类或几类情感倾向相对容易,但识别情感强度最高的情感相对困难。

3.3 实验结果分析

对于语句情感倾向识别问题,借助词袋模型,通过情感词语来识别语句的情感倾向,但无论在Tan语料或Ren-CECps语料中语句情感倾向识别效率都很一般。在此基础上,将主题特征融入语句情感倾向判别中,判别效果获得了较大提高。否定词、程度副词和连接词等辅助特征的应用,识别效果获得进一步提高。实验结果说明情感词语、主题特征、否定词、程度副词和连接词等特征有助于语句情感倾向识别,因此本文提出的多特征融合的语句情感倾向分析方法是有效的。

对于语句情感倾向识别中产生的错误,可能引起的原因有以下四点:

⑴ 情感词语的情感倾向及强度判断错误。

⑵ 否定词作用范围判断不准确。

⑶ 部分连接词无法识别,从而导致语句情感倾向判别错误。

⑷ 人类情感具有主观性和复杂性,一种情感的产生往往会引发产生另一种情感,不同情感倾向之间存在一定的依赖关系。

4 结束语

本文分析了语句的多标记情感倾向识别问题,提出一种多特征融合的语句情感倾向识别方法,充分利用情感词语、主题特征和其他辅助特征来识别语句多标记情感倾向。

在语句情感分析研究中,语句的情感倾向主要分为褒贬两类。近年来,有学者意识到情感的复杂性,仅仅用褒贬两类情感倾向无法完全描述全部情感倾向,开始研究多标记情感倾向问题。研究方法主要有基于词典方法和基于语料方法,前者需要构建丰富的情感词典,利用该词典来识别语句情感倾向,后者借鉴机器学习方法,利用语料的统计信息来识别语句情感倾向。本文将词典信息和语料统计信息相结合,从而吸取两种方法的优点,实现语句多标记情感倾向识别。

本文研究一般语句的多标记情感倾向识别问题,但文本中也存在很多特殊语句,如否定句、条件句、比较句等。特殊语句往往都蕴含一些自身特有的特征信息,这些特征有助于识别特殊语句的情感倾向。特殊语句的多标记情感倾向识别将是未来研究的一个热点问题,值得进一步探索和研究。

参考文献(References):

[1] Hu M, Liu B. Mining and summarizing customer reviews.Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA: ACM,2004:168-177

[2] YangBishan, Cardie Claire. Context-aware learning for sentence-level sentiment analysis with posterior regularization. Proceedings of the ACL 2014, Baltimore, ACL, 2014:325-335

[3] Narayanan R, Liu B, Choudhary A. Sentiment analysis of conditional sentences. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Stroudsburg,PA,USA:ACL,2009:180-189

[4] ZhaoYanyan, Qin Bing, Liu Ting. Integrating Intra- and Inter- document Evidences for Improving Sentence Sentiment Classification.ACTA AUTOMATICA SINICA,2010.36(10):1417-1425

[5] 宋銳,林鸿飞,常富洋.中文比较句识别及比较关系抽取[J].中文信息学报,2009.23(2):102-107

[6]  Hu M, Liu B. Mining and summarizing customer reviews.Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA: ACM,2004:168-177

[7]  Quan C, Ren F. A blog emotion corpus for emotional expression analysis in Chinese. Computer Speech and Language,2010.24(4):726-749

[8] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation. Journal of Machine Learning Research,2003.3:993-1022

[9] Griffths T L, Steyvers M. Finding scientific topics. Proceedings of the National Academy of Sciences of the United States of America,2004.101(1):5228-5235

[10] LillianeHaegeman.The Syntax of Negation. Cambridge Press, New York,1995.

[11] 陳莉,李宝伦,潘海华.汉语否定词“不”的句法地位[J].语言科学,2013.12(4):337-348

[12] Ren Fuji, Quanchangqin. Automatic annotation of word emotion in sentences based on ren-cecps.Proceedings of the 9th International Conference on Language Resources and Evaluation, Malta,2010.

猜你喜欢
特征融合情感分析
基于多特征融合的图像匹配算法
人体行为特征融合与行为识别的分析
基于移动端的树木叶片识别方法的研究
基于SIFT特征的港口内舰船检测方法
融合整体与局部特征的车辆型号识别方法
基于语义的互联网医院评论文本情感分析及应用
基于双向循环神经网络的评价对象抽取研究
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化