蔡玉霞,孟佳娜
(大连民族大学 计算机科学与工程学院,辽宁 大连116605)
随着淘宝、京东等购物网站的迅猛发展,网购人数也随之快速增加,这让消费者越来越不知道如何选择产品。在这样的背景下,客观的产品评论倾向性分析显得尤为必要。本系统通过对产品评论进行分词、去停用词、特征选择、权重计算和LibSVM 分类,完成对评论文本的情感倾向性分类。除此之外,本文将以上研究内容通过Java Web 技术实现可视化,使用者可以直观、快速的获得特定类型产品的客户评价情况。
目前比较典型的情感分类系统有上海交通大学针对汽车领域的用户评论情感分类系统、哈尔滨工业大学的HIT_IR_OMS 系统以及日本富士通公司开发的情感分类系统。综合来看,情感倾向性分类的主体方法分为有监督学习方法和无监督学习方法。
在有监督学习方法方面,Pang 等[1]利用有监督学习的方法将电影评论分为正面和负面两类。在无监督学习方法方面;Turney[2]提出一种简单的无监督学习方法把文本信息分为褒义和贬义,分类过程中采用PMI-IR 方法。近年来,研究人员已经开始考虑情感分析中的话题语境和话题因素。
目前,国内孙建旺等[3]提出一种能够有效地对中文微博进行情感分类的方法;张伟等[4]提出一种细粒度级别的情感分类方法对在线客户评论进行情感分类;刘全超等[5]优化了多特征的微博话题情感倾向性判定算法。随着人们对情感分类领域的不断投入,情感倾向性分类的研究正不断的向前推进。
本文使用互联网公开的评论文本作为语料集,对语料进行了预处理,进而计算特征项的权重,并将所得到的模型放在分类系统中进行倾向性分析,最后将整个过程设计成一个能够对产品评论进行分类的系统。文本预处理阶段主要包括中文自动分词、去停用词、特征选择和构建词典四个步骤。在特征项的权重计算阶段使用布尔权值计算法,最后在分类系统中进行情感分类的对比实验。
产品评论情感倾向性分类系统实现了对特定网购产品评论的情感分类,在上述算法的基础上,通过Java Web 技术实现该系统的可视化。本系统登录阶段分为管理员登录和用户登录,不同登录者拥有的权限和可进行的操作如图1:
图1 系统设计功能模块图
产品评论情感倾向性分类,是指给定某个产品的评论,对该类评论分类成正面评论和负面评论。本文所设计的情感倾向性分类系统的具体步骤如下:
自动分词技术[6]目前主要有机械分词法、基于理解的分词方法以及基于统计的分词方法等,本系统通过调用张华平教授NLPIR 汉语分词系统[7]的源码进行环境配置,实现在产品评论分类系统的Web 界面调用分词代码,完成自动分词功能。
由于产品评论经过分词之后变成一个一个词条的集合,这样造成了文本的维数较大,因此在本实验中,采用哈工大扩展后的停用词表[8],特征集经过去停用词处理之后维数大大缩减。
整个过程本系统采用向量空间模型(VSM)[9],产品评论文本经过分词、去停用词之后,仍需要特征选择降低维数,本系统分别使用卡方公式、信息增益进行特征选择实验。在进行特征选择之前需获取训练集中的如下统计信息:
P(t):文档中含特征t 的概率;
P(Ci):文档属于类别Ci的概率;
P(t,Ci):文档含特征t 并又属于类别Ci的联合概率;
P(t|Ci):文档含特征t 同时属于类别Ci的概率;
特征选择时的卡方公式的计算方法为:
通过Java 代码运用信息增益和卡方公式分别进行特征选择,进而构建含有不同特征维数的Hashmap 词典,分别通过不同特征维数百分比进行对比试验,以获得最佳产品评论情感倾向性分类结果。
系统权重的计算采用布尔权重计算法。根据特征项t 是否在文档D 中出现,出现赋值1,反之赋值0。支持向量机[10]的原理是将低维空间中的点一一映射到高维空间中去,使其成为线性可分的,再通过线性划分原理判断分类边界。本系统使用70%的产品评论文本集进行训练,30%的相应评论作为测试集,通过LibSVM 分类器[11]建立模型,并对测试集数据进行情感倾向性分类。
使用来自谭松波博士[12]分享的一个中文互联网评论语料,该语料包括notebook、book 和hotel三种类型的产品评论文本,各类中正面评论2000个、负面评论2000 个。实验中将每类语料中的70%文档为训练集,30 %文档为测试集。
该实验分别采用卡方公式和信息增益对原本含有7 122 个特征词的notebook 类、含有16 908个特征词的book 类和含有13 718 个特征词的hotel 类进行特征选择,通过布尔权重计算法计算权重,并在LibSVM 中进行情感倾向性分类,三类产品评论分别经过信息增益、卡方公式选择一定百分比的特征在LibSVM 中进行情感倾向性分类的效果如图2、图3。
由图2 可知,三类产品评论均采用信息增益进行特征选择的情况下,notebook 类在特征总维数4 %时取得最佳分类效果,准确率达81.07 %;book 类在特征总维数2 %情况下两种特征选择方法对情感分类效果均取得最优效果,最终情感分类准确率为86.5 %;hotel 类在特征总维数的5 %时取得最佳分类效果,准确率达83.42 %。
由图3 可知,三类产品评论均采用卡方公式进行特征选择的情况下,notebook 类在特征总维数2 %时取得最佳分类效果,准确率达80.73 %;book 类在特征总维数的2 %情况下与信息增益同时取得最佳分类效果,卡方公式最佳的情感分类准确率为86.75 %;hotel 类在特征总维数的4 %时取得最佳分类效果,准确率达83.5 %。
图2 信息增益特征选择下三类产品评论情感倾向性分类准确率
图3 卡方公式特征选择下三类产品评论情感倾向性分类准确率
实验结果表明,信息增益和卡方公式可以在不损失情感分类效率的前提下显著降低特征向量的维度并有效提高情感分类准确率,由此可知在产品评论情感倾向性分类的实验过程中有必要考虑特征维数对情感分类结果的影响。
根据以上实验结果,三类产品评论分别采用两种不同的特征选择方法最终情感分类效果的对比如图4 -图6。图4 表明,notebook 类特征维数百分比在10 %以上的情况下卡方公式具有明显优势;特征维数百分比在5 %以下时信息增益占优势;图5 显示,book 类特征维数百分比在0.5 %以上时卡方公式准确率高于信息增益,而在0.5 %以下时信息增益对分类效果影响更好,整体而言卡方公式对book 类产品评论的情感分类效果优于信息增益;图6 表明,hotel 类特征维数在5 %以上卡方公式和信息增益对情感分类效果的影响完全相同,而在4 %以下卡方公式具有明显优势,仅在2 %时信息增益的分类效果略微高出一点。
通过实验可知,两种特征选择方法各有利弊,信息增益方法的优点是更全面的考虑了所有特征词包括未出现词对文本分类结果的影响,这样可提高文本分类的效果,但统计量过大不利于推广;卡方公式的优点是得到的值是归一化的值,但该方法只关心出现次数特别多的特征词,很多情况下低频词对类别有很大的代表性,即卡方的“低频词缺陷”,因此开方经常同其他因素综合考虑。
综合以上实验结果和两种特征选择方法的特点可知,在特征维数不同的情况下卡方公式和信息增益两个特征选择方法的分类效果各具优势,此外特征选择算法的效果也与文本分类的算法有关,本实验中整体而言卡方统计法表现更好。
图4 信息增益和卡方公式分别对notebook 类情感分类效果对比
图5 信息增益和卡方公式分别对book 类情感分类效果对比
图6 信息增益和卡方公式分别对hotel 类情感分类效果对比
在自然语言处理的领域中,情感倾向性分类已然成为持续升温的研究热点,产品评论的情感倾向性分类随着愈加火热的网购的发展变得更加炙手可热。本系统在文本预处理、特征选择、权重计算、分类算法的基础上,设计出产品评论情感倾向性分类系统,实现了对产品评论进行情感分类的功能,方便网购消费者、厂家、商家更直观、确切地把握该产品的客户反馈结果。
[1]PANG B,LEE L,VAITHYANATHAN S. Thumbs up:sentiment classification using machine learning techniques[C]. In Proc. of the ACL-02 conference on Empirical methods in natural language processing - Volume 10,Stroudsburg,PA,USA:Association for Computational Linguistics,2002. 79 -86.
[2]TURNEY P.Thumbs Up or Thumbs Down Semantic Orientation Applied to Unsupervised Classification of Reviews[C]. In Proc. of the ACL’02.Philadelphia,USA:2002,417 -424.
[3]孙建旺,吕学强,张雷瀚.基于词典与机器学习的中文微博情感分析研究[J]. 计算机应用与软件,2014,31(7):177 -181.
[4]张伟,李培峰,朱巧明.基于树核函数的英文句子情感分类研究[J].计算机应用与软件,2011,28(4):30 -32,39.
[5]刘全超,黄海燕,冯冲.基于多特征微博话题情感倾向性判定算法研究[J].中文信息学报,2014,28(4):124-131.
[6]项炜,金彭.基于词频学习和动态词频更新的藏文自动分词系统设计[J]. 计算机应用与软件,2014,31(5):106 -109.
[7]张华平. NLPIR 汉语分词系统[EB/OL].[2013 -11-11]. http:∥ictclas.nlpir.org/.
[8]哈尔滨工业大学社会计算与信息检索研究中心. 哈工大停用词表[EB /OL].[2013 -05 -30]. http:∥ir.hit.edu.cn/.
[9]郭凤娇,李长玲,王晓笛,等. 基于向量空间模型的学科交叉文献发现研究——以情报学和计算机学科为例[J].情报杂志,2014,33(3):172 -175.
[10]LEWIS D D. Naive (Bayes)at forty:The independence assumption in information retrieval[C]. In Proc.of the 10th European Conf. on Machine Learning(ECML),1998,4 -15.
[11]CHANG C C,LIN C J. LIBSVM :a library for support vector machines[J] ACM Transactions on Intelligent Systems and Technology,2007,2(3):389 -396.
[12]谭松波. 中文情感挖掘语料——ChnSentiCorp[EB/OL].[2012 -08 -10]. http://www.searchforum.org.cn/tansongbo/corpus.htm.