中文文本情感分析方法研究

2018-02-03 14:06徐小龙
电脑知识与技术 2018年2期
关键词:情感分析机器学习

徐小龙

摘要:随着互联网技术的普及与应用,微博类社交媒体吸引了大量的用户,每天产生大量的文本信息,包括用户身边各类事件的报道、表达观点、记录个人心情等信息。对中文文本的分析研究具有重要的理论及应用价值。其中,情感分析是中文文本分析的一项重要的研究方向。然而,目前英文的情感分析方法得到了較大发展,由于中文与英文在词法、句法等方面存在较大差异,英文情感分析的方法应用于中文情感分析取得的效果并不理想。该文意在研究目前中文文本情感分析的方法及研究现状,总结中文情感分析的发展趋势。

关键词:主观性判定;情感分析;机器学习;情感字典

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)02-0149-03

A Review of Sentiment Analysis of Chinese Text

XU Xiao-long

(School of Software Engineering,Tongji University, Shanghai 201800, China)

Abstract: With the popularization and application of Internet technology, Weibo media social media has attracted a large number of users, generating a large amount of textual information every day, including the coverage of various types of events around users, expressing opinions and recording personal feelings and other information. The analysis of Chinese texts has important theoretical and practical value. Emotional analysis is an important research direction in Chinese text analysis. However, at present, the method of emotion analysis in English has been greatly developed. Due to the great differences between Chinese and English in lexical and syntactic aspects, the effect of the method of English emotional analysis applied to Chinese emotion analysis is not satisfactory. This article aims to study the current Chinese text emotion analysis methods and research status, summarizes the development trend of Chinese emotion analysis.

Key words: Subjectivity Identification; Sentiment Analysis; Machine Learning; Sentiment Lexica

1 背景

随着互联网技术在日常生活中多方面的渗透以及移动智能终端广泛普及,新浪微博、电子商务平台等热门互联网应用吸引了大量的用户,每天会有大量用户在微博平台产生海量的用户数据,包括个人发表的观点、发布的身边事件、记录的用户心情等各类数据信息,面对如此海量的数据采用人工处理的方式采集分析出有价值的数据是一件人员成本、时间成本很高的任务,甚至是不可能通过人工方式完成的任务。通过机器自动获取、并处理海量的文本数据能够辅助数据分析人员研究例如影评,商品评价就是一类蕴含巨大商业价值的用户数据。情感分析是文本分析的一个重要研究方向。 情感分析是一个自然语言处理的集合研究,它包括很多子问题,例如“概念提取”、“主观性提取”、“命名实体抽取”、“讽刺手法辨识”等。针对英文文本的情感分析进行了大量的研究,并取得了一定程度的研究成果,值得注意的是近年来,越来越多的研究人员针对中文的情感分析问题进行了大量的研究[1-5]。目前中文文本情感分析主要分为两大类方法,一类是直接针对中文文本进行处理分析,另一类是使用机器翻译工具将中文翻译成英文,然后采用针对英文的分析方法进行分析。本文主要讨论的方法是针对基于第一类方法的文本分析方法。

1.1 情感分析

“情感”在中文语境下,包括态度、意见、感觉和情绪等几个方面的定义。情感分析目标的不同分为单词层次、句子层次及文档层次,本文主要关注的文档层次的情感分析问题。情感分析问题可以认为是确定感情分类(积极情感或消极情感)、或者为文本标注情感标签(愤怒、喜悦、悲伤等)的问题。

目前情感分析的重点还是在于情感极性的判断。中文语言不同于英文的一些特性,导致中文文本的情感分类也有别于英文情感分类。中文不同于英文的最明显的特征是字与字之间没有空格分隔,一段中文文本就是又一批等距的单字组成;其次是许多中文单词是由多个单字组成的,分开或者组合错误就会失去原有的意义,因此在分析中文文本之前需要进行分词处理。另一个重要的区别是中文的句法结构跟英文存在较大的差异。在进行文本情感极性分类时,无论采用那类情感极性判断方法,都需要用依赖于中文情感语料库或中文情感词典。

1.2 语料库与情感词典endprint

情感标注语料库与情感词典看似相似,实际上是两种不同的语言表达结构。在情感分析中的应用对应了两类不同的分析方法,标注情感的语料库一般应用于基于机器学习方法中,而情感词典一般应用于常识的情感分析方法依赖于情感词典。

语料库是文本的集合,其中不仅包含单词或词汇,还包含了其他可以表征目标语言特性的表达形式,例如真实的篇章等,而且一般是机器可读的形式保存在计算机中。在基于机器学习的情感分类中,包含了大量的情感表达的语料库是训练情感分类器的重要保障。由于目前缺乏标注良好庞大的中文语料库,因而影响了中文情感分析的研究。因此,有大量语言学研究者从事了中文语料库的研究相关工作,试图扩展及改进现有的中文语料库, Li C, Bo X,等人采用深度学习算法对13550条影评数据进行了标注[6]。

与基于语料库的情感分析方法不同,基于情感词典方法的情感分析方法更加直接。情感词典是可以表达主观感受、情感或者意见的词汇或短语的集合。根据情感词典的标注信息的不同,可以分为三类。一类是只包含情感词的词典(NELL),第二类是包含情感词和情感词的情感极性信息的词典(NTUSD、HowNet),第三类是包含情感词和情感词情感极性值的词典(Senti Word Net)。然而,不同于英语语言,中文单词多具有语义和语法歧义,因此不容易简单地确定情感词的极性,导致可用的中文情感词典也是有限的,限制了中文的情感分析的研究。因此,构建中文情感词典在中文情感研究中占有重要意义。构建中文情感词典的方式大致可以归纳为三种,一种是通过手工方式构建,但需要花费大量的人力物力;另一种是基于词典的方式,从一个较小的情感词集合,在词典中寻找它们的近义词和反义词,然后逐渐扩充情感词典的包含的情感词集合;第三种构建情感词典的方式是基于语料库的方式,该方式又有两种方法,一种是根据某个领域语料库中部分词汇的情感极性,可以通过语料库计算出其他词汇的情感极性,从而达到构建情感词典的目标;另一种方法是将一个普适的情感词典利用特定领域的情感分类器调整为一个特定领域的情感词典。

1.3 情感分析方法总结

中文情感分析的第一步是要对文本进行分词处理,然后根据后续采用方法不同可以将中文情感分析的方法总结为两类,如图1所示,一类是基于机器学习算法的分析方式;另一种是基于先验知识的方式。基于机器学习的方式,将中文情感分析的问题,转化成判别文本情感类别的二或多分类问题(积极情绪、消极情绪);基于先验知识的方式,采用情感词典进行分析,利用情感词典中标注的单词或短语的清晰来标注文本中出现的情感词的极性,然后根据一定的计算公式(例如,代数求和)得到文本的最终情感极性。

2 基于机器学习的情感分类方法

基于机器学习算法的情感分析通常采用有监督分类器算法进行情感分析,该方法不需要预先定义语义规则,但需要用到良好标注的情感语料库用来训练分类模型。

2.1 基于监督机器学习算法的流程

基于机器学习的情感分析方法的一般流程分成分类器模型训练阶段和分类器验证与应用阶段,如图2所示,在模型训练阶段,在完成文本预处理后,首先提取文本的词汇特征、语法特征以及语义等征,例如否定词提取、词性标注、n-gram特征(单元gram、二元Gram);接下来,运用语料库文本数据训练分类器模型,常用的分类算法有朴素贝叶斯(NB)、支持向量(SVM)、多层神经网络等。训练模型完成后,在待分析文本上应用训练好的分类器应,可以得到文本的情感分类信息。

2.2 基于机器学习的情感分析研究方向

机器学习算法在处理分类问题上具有优异的处理能力,因此被普遍用来解决文本情感分类问题。以往的研究工作主要集中在三个研究方向。1)提取更加有效的特征,该研究方向解决两类问题,一类是通过提取更复杂的特征来达到比简单的特征更高的分类效果;另一个问题是判断哪些特征对最终分类更有价值。Zhai等人在自己的研究中,指出除了一些简单特征(ngarm),情感词、子句以及一些子句组合也可以用来提取特征[7]。 苏等人在自己的研究中考虑了语义特征,采用神经网络学习单词的向量表示,最终应用SVM进行文本情感分类,最终情感分类准确率达到90%。2)研究更加有效的模型,例如李等人提出一種新颖的递归神经深度模型(RNDM),可以基于递归深度学习算法预测情感信息,该模型关注于用句子层次的情感二分类问题,性能比朴素贝叶斯(NB)、支持向量更加优良[6]。3)第三个研究方向是研究者试图采用新的适用于中文情感分类的机器学习方法,例如高等人[10],提出了一种基于聚类算法的中文情感分析方法。从微博等中文文本中提取出情感词序列,利用最大公共情感序列长度计算两两情感序列间的距离,最后采用k-medoids聚类算法将不同的文本按照情感进行聚类,该算法不需要标记训练样本并针对短文本具有较好的处理效果,但该方法对预处理的分词准确度比较敏感。

3基于情感词的情感分析

除基于机器学习的情感分类方法外,另一类称为基于情感词的无监督方法。针对预处理分词后得到的单词序列,有两种不同的处理方式,

第一种方式是最简单直接的代数运算分析方式,即将文档分词处理后的结果,逐个词在情感词典查找对应的情感极性值,然后将所有的值进行求和。如果最终结果大于零,则文档情感极性为积极的,否则,为消极情感。第二种处理方式,会考虑语言的语法规格等,采用更复杂的分析模型。

为了获得更好的分类效果,第二类分析方式是研究者关注的重点。例如,采用位置索引敏感的算法计算每个分词的情感倾向,然后计算各位置情感倾向值的平均值作为最终的情感倾向。此外,Zagibalov等人提出一种不依赖任何标注训练样本仅仅需要输入少量常用情感词和副词[8],该方法在识别语句级别情感的效果能达到监督分类器的效果。该研究中将情感的情感分析和主客观判断作为连续的问题讨论而非一个分类问题。由于中文词汇具有歧义性,许多研究工作集中在判断中文的隐喻。李等人提出中文情感的多意思及判别强度服从正态分布,因此提出基于正态分布的中文情感词的语义判断的量化分析方法。endprint

到目前為止,我们已经看到了中文的情感分析研究将基本组件限制在单字或单词级别。即使先进的算法(基于机器学习的或基于情感词典的)取得了较好的判别效果,然而字或词级别的分析可能不能够推理出真实的情感。基于概念级别的情感分析需要研究人员更多的关注,有研究证明概念层次的情感分析更能够接近文本背后的真实情感,这跟我们的知识世界是由大量概念之间关联组成的不无关系。图3[9]表明,自然语言的研究正在逐渐从基于词汇语义分析发展到基于词组语义分析。目前位置,中文的情感分析研究工作中还没有基于概念层次的工作。

4 结束语

随着国内电子商务、社交网络的发展,每天产生海量的用户数据。如此海量的数据靠手动的分析处理几乎是一项不可能完成的工作。准确高效地识别这些文本中蕴含的用户情感对于企业、政府部门都具有重大价值。基于英文的情感分析方法已经取得了较大的发展,但是由于中文与英文在语言特性上的差异,针对英文的情感分析方法并不能直接迁移到针对中文的情感分析中。

通过本文对以往针对中文情感分析方法的总结发现,目前针对中文的情感分析中没有充分应用文本中的包含的概念层次知识。

参考文献:

[1] Zhao Y, Qin B, Liu T. Creating a fine-grained corpus for chinesesentiment analysis[J]. IEEE Intell Syst., 2014, 30(5):36-43.

[2] Liu L, Lei M, Wang H. Combining domain-specific sentimentlexicon with hownet for chinese sentiment analysis[J]. J Comput.2013, 8(4):878-83.

[3] Zengcai S, Hua X, Zhang D, et al. Chinese sentimentclassification using a neural network tool - word2vec[C]// 2014.

International conference on multisensor fusion and informationintegration for intelligent systems (MFI). IEEE, 2014: 1-6.

[4] Li R, Shi S, Huang H, Chao S, et al. A method ofpolarity computation of chinese sentiment words Based on Gaussiandistribution[C]// Computational linguistics and intelligent textprocessing. Springer, 2014: 53-61.

[5] Zhuo S, Xing W, Luo X. Chinese text sentiment analysis basedon fuzzy semantic model[C]// 2014 IEEE 13th International conferenceon cognitive informatics & cognitive computing (ICCI*CC). IEEE, 2014: 535-540.

[6] Li C, Bo X, Gaowei W, He S, et al. Recursive deeplearning for sentiment analysis over social data[C]// Proceedings of the 2014 IEEE/WIC/ACM international joint conferences on web intelligence (WI) and intelligent agent technologies (IAT)-volume 02. IEEE Computer Society, 2014: 180-185.

[7] Zhai Z, Hua X, Kang B, et al. Exploiting effective featuresfor chinese sentiment classification[J]. Expert Syst Appl.2011, 38(8):9139-46.

[8] Zagibalov T, Carroll J. Unsupervised classification of sentimentand objectivity in chinese text[C]//Third international jointconference on natural language processing, p. 304. 2008.

[9] Cambria E, White B. Jumping nlp curves: a review of naturallanguage processing research[J]. IEEE Comput Intell Mag.,2014, 9(2):48-57.

[10] Wei G, An H, Dong T,et al. A novel micro-blog sentimentanalysis approach by longest common sequence and k-medoids[C].PACIS, 2014: 38. .endprint

猜你喜欢
情感分析机器学习
基于双向循环神经网络的评价对象抽取研究
在线评论情感属性的动态变化
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究