李天辰,殷建平
1.国防科学技术大学 计算机学院,长沙 410073 2.国防科学技术大学 高性能计算重点实验室,长沙 410073
基于主题聚类的情感极性判别方法*
李天辰1+,殷建平2
1.国防科学技术大学 计算机学院,长沙 410073 2.国防科学技术大学 高性能计算重点实验室,长沙 410073
LI Tianchen,YIN Jianping.Sentiment polarity discrimination method based on topic clustering.Journal of Frontiers of Computer Science and Technology,2016,10(7):989-994.
目前,大多数方法在判别文本情感极性上采用的是提取情感特征并应用分类器进行分类的方式。然而由于网络文本表述方式多样,主题分散等特点,使得情感特征提取过程变得愈发困难。借助LDA(latent Dirichlet allocation)主题模型,首先对文本进行主题聚类,然后在每个主题子类上应用循环神经网络的方法对正、负情感样本分别建立主题模型,最后基于所属主题和所属情感的概率进行联合判断。采用这种方法,通过划分子类的方式规整了不同主题下文本的表述方式,限制了不同主题下词汇词义改变的问题,并且利用训练语言模型的方法很好地规避了直接提取特征的困难,将特征的挖掘过程内化在了训练模型的过程中。通过在IMDB电影评论样本上的实验可以看出,在应用了主题聚类后,模型分类的准确性有了显著提高。
情感分析;主题模型;循环神经网络
随着网络技术的快速发展和日趋成熟,互联网已经不再是一个仅仅用于获取信息的静态媒介,而是逐步向着信息共享、交流互动的动态媒介转变。《第35次中国互联网络发展状况报告》指出,目前全国网络用户总数量高达6亿,其中更是有将近半数之多的用户主动并乐于针对一些热点事件、新闻,借助论坛、微博等社交媒体发表自己的观点、想法和立场;而在一些网络购物平台的讨论区中,也可以看到众多客户针对某些商品或服务表达自己的使用感受或分享自己的消费体验。因此,如何高效、快速、准确地处理海量网络文本中的观点信息,挖掘并分析其中隐含的情感特征,这一课题已经逐渐受到自然语言处理、机器学习等领域专家和学者的高度关注。
文本情感分析是对带有主观性情感色彩的文本进行分析、处理和归纳,并从中提取有价值的信息,整理出评论者不同观点、立场和态度的过程[1]。目前,文本情感分析的主流方法主要有基于规则和基于统计这两大类[2-3]。但是,由于网络文本表达方式多样性、表达形式不规范性等特点,基于规则的情感分析方法在规则的总结和制定上成本高,耗时长,并且不具有良好的可扩展性。因此,就目前来看,在海量网络文本作为数据基础的背景下,越来越多的学者倾向于采用基于统计的方法。Pang[4]、Kennedy[5]、Wei[6]和Bermingham[7]等人借助机器学习的方法,分别对电影评论、商品评论、微博评论这3类不同的网络文本进行情感极性的判别。然而这些方法的共同特点都是需要根据领域特点提取恰当的特征进行训练,因此特征选择的好坏会直接影响分类器最终的分类效果。近些年,随着深度学习技术的不断发展,部分学者试图利用此技术从原始文本信息中直接学习出词汇新的表征方式,并将其应用于情感倾向性的判别中。Bengio[8]、Mikolov[9]、Collobert[10]和Le[11]等人利用深度神经网络构建语言模型,同时训练出带有语义关联特性的新的词向量表征方式,并用于后续情感分析等自然语言处理任务中;Socher等人[12-13]则直接利用递归神经网络来预测句子的情感极性及分布。然而,深度学习技术由于其神经网络结构的复杂性,导致了模型训练算法的时间复杂度高,训练耗时较长。
本文针对现有方法的不足,提出了基于LDA(latent Dirichlet allocation)主题模型聚类的情感极性判别方法。首先,利用LDA主题模型将原始语料库进行主题分类。这里主要基于两点考虑:(1)在同一主题下,词汇所反映出的情感信息更加一致,可以在一定程度上避免语境对同一词汇词义的影响;(2)经过主题聚类划分的子集,语料的规模大幅下降,为提高后续语言模型训练的效率提供保障。之后,会在不同主题下训练相应正、负样本的语言模型,这里选用最近比较流行的循环神经网络语言模型(recurrent neural network language model,RNNLM),主要是因为:(1)利用RNNLM进行情感极性的判别可以将文本情感特征的提取过程内化到模型的训练之中,利用海量真实文本信息的同时,减少了对外部情感词典的依赖;(2)RNNLM对于文本中长距离的历史信息有着较强的捕获能力,在训练过程中可以充分考虑到上下文对词汇的影响因素。最后,结合文档所属主题的概率及各个子语言模型的情感预测概率实现新文档的情感倾向性的判别。
LDA主题模型[14]是由Blei在2003年提出的一种无监督的机器学习技术,用来识别大规模文档集或语料库中潜藏的主题信息。LDA主题模型的基本思想是将每一篇文档视作由一系列主题所构成的一个概率分布,而每一个主题又可以视为很多单词所构成的一个概率分布,模型如图1所示。目前,在LDA主题模型中比较常见的参数学习和推断方法主要是吉布斯采样法(Gibbs sampling)。
Fig.1 Topic model图1 主题模型
本文将每一篇评论文本看作单一文档。在经过文本分词,去除停用词、低频词以及单词词根化等一系列文本预处理流程后,假设将整个样本集分为T个主题,分别是{t1,t2,…,tT}。在给定文档后,主题后验概率的计算方法如下所示:
其中,Cij表示在文档xi中,属于主题tj的单词的数量,是由吉布斯采样方法经过多次迭代后平均得到的结果。αj是狄利克雷分布的第j维超参数,通过学习过程中不断调整αj的取值使得模型达到最优。
在计算完各个训练文本的主题向量后,按照主题分布对原始训练集进行数据样本的划分。这里采用K-means聚类方法将近似主题的文档合并归类,考虑到实际中同一篇评论文档可能同时属于多个主题的情况,因此针对每一篇文档的主题归属并不是严格唯一的,也就是说,在此设置了一个软聚类的阀值τ,只有当Pt(tj|xi)>τ时,才严格将其划分在某一主题下,否则该文档可以同属于多个主题。最后在T个样本子集上应用循环神经网络训练正负样本的语言模型用来进行后续情感极性的判断。
在测试阶段,对于新来的测试文本,首先对其进行主题的判断,通过应用主题模型LDA可以计算出当前测试文档的主题向量及其所属主题的概率。之后,通过文档所属主题概率以及各主题下语言模型判别所属情感的概率来最终计算出测试文本的情感极性,计算方法如下所示:
其中,Ps(c|tj,xi)表示文档xi在主题tj下通过情感模型判别出属于某一类c(正情感或负情感)的概率;Pt(tj|xi)则表示文档xi被判定为主题tj的概率。
整体的文本情感极性判别流程如图2所示。
Fig.2 Framework of sentiment analysis based on topic clustering图2 基于主题聚类的情感极性判别算法框架图
对于文本情感分类的问题,传统的大多数方法是在原始文本中借助情感词典发现情感特征词,并以此为基础构建文本的特征向量,输入到分类器中进行情感极性的判断。这种方式的分类准确率虽然不错,但也暴露出了很大的问题,即特征的选取对于情感词典的过度依赖性。随着网络新词的不断涌现,词义随语境的不断迁移,传统的情感词典已经不能很好地跟上网络文本发展的潮流。对于文本情感分析问题的研究,也应该逐步由依靠词典发现情感特征,向着从海量真实文本中挖掘情感信息这种思路转变。
因此,本文对文本情感判别的方式是利用原始文本的词汇信息,应用语言模型建模的方法来探测文本的情感倾向。很明显,在正、负情感样本中,由于语言习惯、表达方式和情感词语使用的不同,训练得到的语言模型也会存在差异,这样就可以通过发现正负样本语言模型之间的差异把基于语言模型表示的测试文本区分为“正样例”和“负样例”,实现文本情感分析的目的。因此,在应用语言模型判别情感的方法中,首先针对正、负样本分别进行语言模型的建立,之后对新来的测试样本通过贝叶斯法则计算其在正、负两类语言模型上的概率,并据此判别该测试样本所属的情感分类。
传统的N元语言模型[15]虽然简单实用,但是相对来说,其缺陷也是十分明显的。其中最主要的两个问题就是:(1)N元语言模型无法有效地利用长距离的上下文信息,从而对某些词汇间的依赖关系不能很好地捕获;(2)N元语言模型无法高效地对相似词语进行判别,也就是说,N元语言模型仅仅对文本字面进行建模和概率上的统计,并没有通过建模理解词汇间的语义关系。而在文本情感分析问题中,这两点不足所反映出的问题恰恰是人们需要格外关注的。因此,本文选取了Mikolov等人提出的循环神经网络语言模型(RNNLM)[16]作为情感文本判别的模型。利用神经网络映射和隐层循环反馈的特点,RNNLM很好地将空间降维与历史信息捕获两者结合到一起,合理地解决了上述N元语言模型的两点不足。简化模型如图3所示。
图3中w(t)为文档中第t个词的稀疏向量表示(即词向量中单词对应在词表位置为1,其余位置为0),s(t-1)为上一个隐藏层中计算得到的向量,隐藏层s(t)和输出层y(t)的值如下所示:
Fig.3 Basic RNNLM图3 简化的循环神经网络语言模型
4.1样本数据的选择
本次实验数据选用的是当前情感分析领域中应用比较普遍,同时也受到广大学者和研究机构认同的IMDB影评数据库。实验数据总共包括50 000篇电影评论,其中正、负情感样本各25 000篇。选取其中的25 000篇样本作为训练样本,其中正、负训练样本各12 300篇,各余下200篇正、负样本作为模型的验证样本,剩余的25 000篇样本作为模型的测试样本。
4.2训练和测试语料的预处理
在使用IMDB数据样本之前,要对其进行语料的预处理。本实验对于影评文本主要的处理内容包括:(1)对于电影评论文本的分词;(2)对于停用词和低频词的过滤;(3)对于非文本信息(包括符号等)的过滤;(4)对于词形统一的词根化处理。
4.3结果分析
本实验中,将主题个数T设为50,软聚类参数τ设为0.4,循环神经网络语言模型中隐藏节点个数设为50。实验结果如表1所示。
从表1中可以看出,循环神经网络构建的语言模型在情感极性判别的准确率上略高于N元语言模型。而在提前对语料库中文本进行主题划分后,两类语言模型所得到的情感判别准确率均有所提升,而且幅度较大。由此可以说明,文本的表述方式以及文本中词汇的使用与主题有着密切的联系,同一主题下训练得到的正、负样本语言模型往往有着更加优秀的情感区分度。
Table 1 Results on IMDB test set表1 在IMDB测试集上的实验结果
针对网络文本表述方式多样性,主题分散,情感特征不易捕捉等特点,本文将LDA主题模型与循环神经网络语言模型相结合,提出了一种基于主题聚类的情感极性判别方法,并通过对实验结果的分析,得到了若干有指导意义的结论。下一步工作计划:(1)在文本主题聚类的基础上,组合多种机器学习方法进行情感极性的判定,利用各种方法,优势互补,进一步地提高情感判别的准确率;(2)由于主题聚类后需要分别在数据样本子集上进行分类器或语言模型的训练,这种结构恰巧十分适用于并行化处理,因此在后续工作中,拟将算法根据主题结构特点进行并行化的修改,以提升文本情感模型训练以及应用模型检测的效率。
[1]Pang Bo,Lee L.Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval,2008,2(1/ 2):1-135.
[2]Varghese R,Jayasree M.A survey on sentiment analysis and opinion mining[J].International Journal of Research in Engineering and Technology,2013,2(11):312-317.
[3]Medhat W,Hassan A,Korashy H.Sentiment analysis algorithms and applications:a survey[J].Ain Shams Engineering Journal,2014,5(4):1093-1113.
[4]Pang Bo,Lee L,Vaithyanathan S.Thumbs up?Sentiment classification using machine learning techniques[C]//Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing,Philadelphia,USA,Jul 6-7, 2002.Stroudsburg,USA:ACL,2002:79-86.
[5]Kennedy A,Inkpen D.Sentiment classification of movie reviews using contextual valence shifters[J].Computational Intelligence,2006,22(2):110-125.
[6]Wei Wei,Gulla J A.Enhancing the HL-SOT approach to sentiment analysis via a localized feature selection framework[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing,Chiang Mai,Thailand,Nov 8-13,2011:327-335.
[7]Bermingham A,Smeaton A F.Classifying sentiment in microblogs:is brevity an advantage?[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management,Toronto,Canada,Oct 26-29,2010. New York,USA:ACM,2010:1833-1836.
[8]Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic language model[J].Journal of Machine Learning Research, 2003,3:1137-1155.
[9]Mikolov T,Karafiát M,Burget L,et al.Recurrent neural network based language model[C]//Proceedings of the 11th Annual Conference of the International Speech Communication Association,Chiba,Japan,Sep 26-30,2010:1045-1048.
[10]Collobert R,Weston J,Bottou L,et al.Natural language processing(almost)from scratch[J].Journal of Machine Learning Research,2011,12:2493-2537.
[11]Le Q V,Mikolov T.Distributed representations of sentences and documents[C]//Proceedings of the 31st International Conference on Machine Learning,Beijing,China,2014.
[12]Socher R,Pennington J,Huang E H,et al.Semi-supervised recursive autoencoders for predicting sentiment distributions[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing,Edinburgh,UK, Jul 27-29,2011.Stroudsburg,USA:ACL,2011:151-161.
[13]Socher R,Perelygin A,Wu J Y,et al.Recursive deep models for semantic compositionality over a sentiment treebank [C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing,Seattle,USA, 2013.
[14]Blei D,Ng A Y,Jordan M I.Latent Dirichlet allocation[J]. Journal of Machine Learning Research,2003,3:993-1022.
[15]Stolcke A.SRILM—an extensible language modeling toolkit[C]//Proceedings of the 7th International Conference on Spoken Language Processing,Denver,USA,Sep 16-20,2002: 901-904.
[16]Mikolov T.Statistical language models based on neural networks[D].Brno University of Technology,2012.
LI Tianchen was born in 1988.He is an M.S.candidate at College of Computer,National University of Defense Technology.His research interests include machine learning,artificial intelligence and natural language processing.
李天辰(1988—),男,北京人,国防科学技术大学计算机学院硕士研究生,主要研究领域为机器学习,人工智能,自然语言处理。
YIN Jianping was born in 1963.He received the Ph.D.degree in computer science and technology from National University of Defense Technology in 1990.Now he is a professor at National University of Defense Technology, and the head of Technical Committee on Theoretical Computer Science of China Computer Federation.His research interests include algorithm design,artificial intelligence,pattern recognition and information security.
殷建平(1963—),男,湖南益阳人,1990年于国防科学技术大学获得博士学位,现为国防科学技术大学教授,CCF会员,主要研究领域为算法设计,人工智能,模式识别,信息安全。
Sentiment Polarity Discrimination Method Based on Topic Clusteringƽ
LI Tianchen1+,YIN Jianping2
1.College of Computer,National University of Defense Technology,Changsha 410073,China 2.State Key Laboratory of High Performance Computing,National University of Defense Technology,Changsha 410073,China +Corresponding author:E-mail:ltc_steven@sina.com
Almost all state-of-art methods for sentiment analysis can hardly avoid extracting sentiment features and applying them to classifiers for detecting.However,with the characteristics of diversity expressions and scattered themes of network texts,it’s too difficult to extract more suitable and proper sentiment features.This paper proposes a novel algorithm to solve such problems.Firstly,original texts need to be clustered by topics with LDA(latent Dirichlet allocation)model.Then,for each topic dataset,language models are trained for positive and negative samples by using recurrent neural network.Finally,two kinds of probabilities of topic and sentiment are combined for evaluating text sentiment polarity.Through this method,this paper firstly standardizes text expression by dividing subcategories,limiting changes of words meaning under different topics,and then utilizes language model to avoid the difficulty of extracting features,making it possible to be internalized in the process of training model.The experimental results on IMDB show that the proposed method improves a lot in terms of accuracy with topic clustering.
sentiment analysis;topic model;recurrent neural network
2015-06,Accepted 2015-08.
10.3778/j.issn.1673-9418.1507044
A
TP391
*The National Natural Science Foundation of China under Grant Nos.61170287,61232016(国家自然科学基金).
CNKI网络优先出版:2015-08-27,http://www.cnki.net/kcms/detail/11.5602.TP.20150827.1550.014.html