基于NMF的Web评论情感分类方法研究

2016-11-02 23:04任静刘立波
电脑知识与技术 2016年18期
关键词:支持向量机

任静 刘立波

摘要:Web评论研究技术中,其情感分析就是将评论的情感极性进行褒贬分类的过程。本文将非负矩阵分解(nonnegative matrix decomposition, NMF)和支持向量机(support vector machine,SVM)相结合,构造出一种基于NMF的支持向量机(NMF-SVM)分类算法。该算法利用NMF对初始的“词—文档”向量矩阵进行有效降维,提取潜在语义,最后利用支持向量机对重新构造的“词-文本”向量模型进行情感分类。实验结果证明,该分类算法的准确率优于比传统的SVM算法,具有一定应用价值。

关键词:Web评论;情感极性分类;非负矩阵分解;支持向量机

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)18-0167-04

Sentiment Classifier Based on NMF for Web Comments

REN Jing,LIU Li-bo

(College of Information Engineering Ningxia University, Yinchuan 750021, China)

Abstract: The research technique of Web review, the sentiment analysis is regarded as a classification process for review's emotional polarity. A support vector machine (NMF-SVM) classification algorithm based on NMF has been put forward, for which combine NMF(nonnegative matrix decomposition) and SVM(support vector machine). The algorithm using NMF for initial word-document vector matrix to reduce the dimension effectively, and to extract the latent semantic, finally using support vector machine to emotion classification that word-document vector model has reconstructed. The experimental results show that the accuracy of the classification algorithm is superior to the traditional SVM algorithm.

Key words: web comments; emotional polarity classification; nonnegative matrix decomposition; support vector machine

随着Web2.0时代的到来,为人们提供更加直观的意见沟通、情感交流的平台,它的出现不但打破传统行业运作模式,而且在用户体验式思维有很大的冲击。因此,越来越多的用户喜欢在互联网 (如博客和论坛)上,发表自己的观点和分享自己的经验,直接表达自己的各种情感,如喜怒哀乐支持和反对等。Web上用户的评论信息在不断增长,分布在网络上的海量信息成为了潜在用户计划消费前不可缺少的信息参考和指导。例如,在各大门户网站和论坛上出现某产品的评价和意见信息,直接影响潜在消费顾客的购买行为,也影响经营者、厂商了解用户真实需求、自身产品、服务方面的不足。面对海量的网络评论信息,仅靠纯手工统计、分析、挖掘,根本不切合实际,因此,利用计算机帮助用户快速完全地获取和整理这些相关的评价信息是当务之急。

中文文本情感分析也称意见挖掘,是对具有情感色彩的主观性文本信息,进行识别、分析、处理、归纳等一系列过程。其价值体现在从大量文本信息中分析得到总结性的结论。目前对于Web评论的研究方面,Wei等人[1]分析产品评论中特征的提取和情感词提取的方法。曹斌[2]通过数据挖掘算法,提取包含情感特征词的旅游评论句子,判断这些句子的情感倾向性,为用户提供有价值的意见。肖芬[3]针对Web站点中的评论文本,通过产品属性词和评价词的提取,挖掘出用户对产品意见的极性。周城[4]利用文本分类技术和情感词典技术两种分析方法对中文Web评论进行情感倾向性分析。孙莹[5]利用Web文本数据爬取的酒店评论信息,进行文本的数据挖掘,构建情感分类模型,最终对口碑进行情感分类,挖掘其中的商业价值。黄胜[6]从细粒度角度进行原始数据抽取、目标评价、词典构建、倾向词联合等四个方面挖掘出Web评论文本的主观性意见。彭浩等人[7]提出一种基于比较句的Web评论情感倾向性分析方法,实验验证,该方法能对对用户情感倾向性做出有效判断。徐凯[8]针对产品特征提取方面细致研究,有效识别用户情感倾向,为用户消费、厂商、企业提供有价值的信息。以上研究在Web评论文本的情感分类准确率有很大程度的提高,但是对文本特征空间较大、数据稀疏、有效特征较少问题上仍存在不足。

因此,本文基于传统文本情感分类的研究方法,利用非负矩阵分解算法对原始数据进行数据降维,提取有效特征,即体现了语义特征,又对大规模的Web评论分类的效率和精度都有所提高,将情感词集与待分类文档的在语义上关联起来,通过NMF重新构造的“词-文档”语义距离作为支持向量机(SVM)分类器的特征向量。实验结果表明,本文提出的方法相比于传统的SVM方法在分类准确度上有所提高。

1 相关理论

1.1 特征向量空间

目前SVM的文本分类,是根据文本内容将它们分类到目标类型的集合中,再利用初始文档的“词-文档”向量空间模型作为分类器的输入,通过标识好的训练样本集进行模型构建,最后输入测试样本集数据,获取测试数据的分类结果。运用文本分类的方法对文本进行情感分类过程中,文本分类特征的选择直接影响分类结果的好坏。

文本情感分析研究中,特征词与文档的间关系一般用向量空间模型(Vector Space Model,VSM)来表示,将数据向量化利于问题的后续处理。文本情感分类中最常见的特征向量空间模型是“词-文档”关系矩阵,关系矩阵中的特征值的好坏某种程度上决定了分类器的性能。特征值一般情况下对应特征词在对应文档中出现的次数,常见的特征提取方法有DF(文档频率)、信息增益(IG)和互信息(MI)等[9],将“词-文档”之间的关系表示为向量空间。TF-IDF(词频-逆向文档频率)方法是最常见的词频统计方法之一,TF-IDF计算公式如下[9]:

利用词-文档逆向频率方法,将每篇文档表示成基于tf-idf权重向量,构建所有特征词的向量空间,初始化“词-文档”向量空间模型。

1.2 NMF原理

NMF是近年来一种新型的基于语义的矩阵分解算法,它将一个大的非负矩阵分解为左右两个小非负矩阵,使得分解后的两个小矩阵相乘可还原得到大矩阵。由于分解前后的矩阵中元素都是非负值,因此原矩阵中的列向量可以解释为对左矩阵中所有列向量(称基向量)的加权和,而权重系数为右矩阵中对应列向量中的元素。一般情况下,构造文档的“词-文档”关系矩阵,具有高维且稀疏的数据特性,而NMF算法不但可以降低矩阵维度,并且能够挖掘出潜在的语义相关信息,很好地表达信息间局部相关性,具有更加直观的语义解释。另外,基于简单迭代计算的NMF方法具有收敛速度快、左右非负矩阵存储空间小、语义解释性强的特点,适用于处理大规模数据、文本。

设为任意一个非负矩阵,NMF算法就是寻找两个非负矩阵和,使X可以近似分解成两个矩阵的乘积。即有:

2 基于NMF的情感倾向分类方法

基于NMF的情感倾向性分类方法的系统结构图如下,总体上可以分为训练过程和测试分类过程。

1)文本预处理:使用现有的分词系统,对参加训练的评论文本数据进行中文分词、去除停用词等预处理工作;

2)选取特征词集:通过对文档中特征情感的词筛选确定,特征词的选取对分类器分类的准确性有一定的影响;

3)向量空间表示:利用“词-文档”关系矩阵,将文本数据进行数据量化。一般使用TF-IDF(文档-逆向文档频率)方法,将各个文本集都转换成对应的空间向量,构建出“词-文档”向量空间模型;

4)NMF特征变换:将初始“词-文档”向量空间模型进行特征转换,构造出“词-文档”的向量空间模型;

5)训练SVM分类器:根据已标注好的训练样本集对SVM进行训练,得到分类器模型参数,构造最佳的分类器。

2.1 情感特征词集的选取

本文的情感特征词集选取过程,依据中文分词系统,将评论文本中的词性进行标注,具有情感表象的词语一般都是句子中的名词、副词、形容词等,将这类词语作为情感特征词的候选词集,具体选择步骤如下:

1)将评论文本集分词后所有标注的形容词、副词和名词词语构成候选特征词集。

2)结合知网情感分析常用词语集词典,对候选特征词集进行筛选过滤,若候选特征词包含在情感分析词语集词典中,则保留,否则,剔除该候选特征词。

3)对过滤后的候选特征词集,对DF值(文档频率)设置一定的阈值,过滤小于阈值部分的情感词,筛选出具有很大信息量的特征情感词集。词DF值表示包含该词的文档总数。公式如下:

4)按照式(5)的计算方式,统计全部候选特征词的DF值,筛选DF值大于某一预先设定值的词,重新组建情感特征词集。

情感特征词集的选取过程中,既有效表示文档的情感倾向特征,又在一定程度上降低数据稀疏问题。

2.2 基于NMF-SVM情感倾向性分类过程

由图1中描述的NMF-SVM算法结构,整体分为两部分:第一部分是利用已知样本数据对SVM模型进行训练;第二部分根据建立的模型进行测试数据分类,具体算法如下:

算法模型中,输出参数为交叉验证参数、惩罚因子参数和核函数参数。

算法中k值表示潜在语义维度,步骤1中,利用分词工具和程序对中文文本进行分词进行预处理,步骤2中,情感特征词集利用2.1节中介绍的方法选取。步骤4中,通过TF-IDF(文档-逆频率)演算公式,计算出初始“词-文档”向量空间模型,用步骤5中的矩阵X表示。步骤7中,利用NMF方法将特征向量空间向低维语义空间映射,得到重塑的“词-文档”向量空间模型,步骤8是SVM分类器模型参数确定过程。

算法2 NMF-SVM模型分类算法

输入:分类测试文本集

输出:值

K为NMF过程中选取的潜在语义维度,Tab(d)为文本类别标识函数。步骤1中,利用分词工具和程序对中文文本进行分词进行预处理。步骤3通过TF-IDF(文档-逆频率)演算公式,计算情感特征词在每个测试文档中的TF-IDF值。步骤4中,构建情感特征词与测试分类文本的“词-文档”的向量空间模型。步骤6中,利用NMF方法将特征向量空间向低维语义空间映射,得到重塑的“词-文档”向量空间模型。步骤7是利用训练好的SVM模型分类器进行文本分类,得到测试文本集的情感分类结果。

3 实验及分析

3.1 实验环境及评价指标

在实验中,运用Java语言编程,使用中科院谭松波老师整理的1000篇关于酒店类的论坛评论作为实验语料,采用中科院的ICTC-LAS中文分词系统,SVM分类器采用台湾大学林智仁老师的lib-svm Java版本。不同研究领域的情感特征词集不同,文中的酒店评论情感特征词集按照3.1节的方法获取,其中C(ti)值选取为3。酒店类论坛评论的情感词集共选取了40个情感特征词如表1所示。

本实验采用准确率、召回率、F值最为衡量Web评论文本分类算法的性能指标。

准确率(),也称查准率,主要反映了情感分类器的准确度。它主要是指经过分类实验之后,被正确分类的文本数目与返回结果的文本数目的比值,计算公式如下:

召回率(),也称查全率,主要反映情感分类器的分析完全性。它主要是指经过分类实验后,被正确分类的文本数目所占应该被判别为该类别的文本数目的比重,具体如公式所示:

由上述计算公式可以看出,准确率()和召回率()从两个角度反映出分类效果,为准确评价文本分类的效果,将两者综合考虑,即构建F值对实验结果进行评价,具体公式如下所示:

3.2 实验结果分析

在对传统的SVM情感分类方法和NMF-SVM情感分类方法进行对比实验中,将1000篇酒店评论文档(正负各为500篇)语料,随机分成3份,其中2份作为样本训练集,另外1份作为测试数据,重复试验3次,最终取3组平均值作为结果。

验证过程采用统一试验数据集,设SVM分类器的参数:c=1,g=1/k,其中k为情感特征词集,k=40。本文基于NMF-SVM算法模型所得到参数:c=0.1,g=0.0768,基于NMF-SVM算法的Web评论文本情感分类的数据分析结果如表2所示。

本实验中潜在语义维K值取10。从实验结果表2分析可知,本文提出的NMF-SVM方法的分类比传统SVM方法的准确率平均提高2.86%,最高准确率达到82.15%,最高召回率达到88.49%。通过同一数据集下的文本实验对比分析,应用NMF算法对文本特征矩阵进行降维,重新构造潜在语义空间模型后,其分类效果比传统的SVM方法更具优势,更有广泛应用价值。

4 结束语

本文基于传统文本情感分类的研究理论,对Web中文评论情感特征矩阵存在的数据高维和稀疏性问题,提出一种基于NMF的Web评论情感分类算法。算法通过文本情感特征词集的筛选并与评论文本集间语义的关联,以“词-文档”关系矩阵作为SVM分类器的输入向量,这一过程中既解决机器学习中存在的数据稀疏问题,又有效地保留了特征词的语义信息。实验结果表明,这种方法在Web评论情感分类的准确率较传统的SVM方法有一定的提高,但非负矩阵分解(NMF)过程中k值选取,即语义维度的确定对分类效果可能会有一定影响,后续将会展开研究。

参考文献:

[1] Wei Wei, Liu Hongyan, He Jun, et al. Extractiong Feature and Opinion Words Effectively from Chinese Product Reviews[C].In:Proceedings of the fifth International Conference on Fuzzy Systems and Knowledge Discovery(FSKD,2008).

[2] 曹斌. 互联网上旅游评论的情感分析及其有用性研究[D]. 哈尔滨:哈尔滨工业大学,2008.

[3] 肖芬. 面向Web文本的产品意见挖掘算法研究[D]. 北京:北京邮电大学,2009.

[4] 周城. 面向中文Web评论的情感分析技术研究[D]. 长沙:国防科学技术大学,2011.

[5] 孙莹. 基于Web文本挖掘在企业口碑情感分类模型研究[D]. 武汉:华中师范大学,2013.

[6] 黄胜. Web评论文本的细粒度意见挖掘技术[D]. 北京:北京理工大学,2014.

[7] 彭浩,徐健,肖卓. 基于比较句的网络用户评论情感分析[J]. 现在图书情报技术,2015(12):48-56..

[8] 徐凯. 基于产品特征的用户评论情感倾向分析研究[D]. 合肥:合肥工业大学,2015.

[9] 黄章义,刘怀亮. 一种基于语义的中文文本特征降维技术研究[J]. 情报杂志,2011,12(30):123-126.

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
基于改进支持向量机的船舶纵摇预报模型
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究