王和勇+崔蓉
〔摘 要〕在线用户评论是电子商务网站中的一个重要板块,找出在线用户评论的关注点有利于网站、商家及时有效地查看用户的反馈信息。本文在对在线用户评论进行分词的基础上,分别使用拉普拉斯评分(LS,Laplacian Score)及信息增益(IG,Information Gain)对所得到的分词结果进行文本主题挖掘,并使用支持向量机(SVM,Support Vector Machine)进行分类精度的检验。实证结果表明,主题选择的结果是有效的,分类的效果与选择的关键词个数和核函数有关。
〔关键词〕中文分词;主题发现;拉普拉斯评分;信息增益;支持向量机
DOI:10.3969/j.issn.1008-0821.2015.09.012
〔中图分类号〕 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0063-07
〔Abstract〕Online users reviews are important for e-business website,and finding the topic of these reviews can help both websites and businesses pay close attention to users feedbacks.Based on word segmentation,this paper separately used laplacian score(LS)and information gain(IG)to find text topic,and then support vector machine(SVM)method was used to verify the classification accuracy.The results showed that it is effective to select the text topic and the accuracy is related to the number of topic and the core function used.
〔Key words〕word segmentation;topic discovery;LS;IG;SVM
我国电子商务市场起步较晚但发展迅速。根据2014年5月由中国互联网协会与中国互联网络信息信息中心(CNNIC)联合编纂发布的《中国互联网发展报告》(2014)显示,2013年,我国互联网用户已达到618亿,其中电子商务用户达到302亿,相比2012年增长5 987万人,4890%的网民使用网络渠道进行购物消费,电子商务的市场规模也达到了99万亿。蕴藏巨大潜力的市场使得各大网站不断完善自身建设,而在线用户评论模块则是网站建设中不可忽视的一环。Double Click Inc研究了美国旅游业、计算机硬件业、运动健身行业以及服装业的网络用户行为,发现将近一半的用户会在购买前在网络中搜索产品的相关信息及用户评价等[1]。
目前学者们对在线用户评论的研究主要集中在主题发现研究(商品或用户的特征发现)[2-8]、评论质量检测[9-12]、情感倾向识别[13-15]及相关内容推荐[16-17]等方面,其中,主题发现研究是后续研究中较基础的部分,也引起了很多学者的关注。
APons-Pottata[2]利用将层次聚类和划分聚类相结合的方式进行主题发现;Blei[3]对LDA(latent Dirichlet allocation)模型进行全面的解释后,由于概率主题模型出色的文档建模和维度削减能力,主题模型在文本挖掘领域得到了迅速的发展;阮光册[4]针对网络在线用户评论信息内容短、信息量少的特征,提出了基于LDA主题发现模型,结合HowNet知识库进行信息分析的方法,实现了对在线用户评论信息主题的挖掘;李慧、张舒等[5]为准确挖掘用户评论中的有用信息,提出了采用页面分块与信息熵的迭代计算技术的用户评论抽取算法,实现了评论块的自动发现与抽取;陈友、程学旗等[6]提出了一种利用特征抽取技术提取内容特征,利用结构特征去发现高质量主题的框架,并提出了一种基于遗传算法、禁忌搜索与机器学习的特征选择算法,用来评价被抽取特征的重要性;吕韶华、张亮等[7]主要针对餐馆评论提出了一种基于LDA的排序方法,通过抽取、过滤、计算评分、回归等步骤确定排序模型;罗辉停[8]为克服应用LDA模型挖掘在线用户评论热点方法不能自动确定热点话题的数目的问题,提出了应用中餐馆模型来挖掘在线用户评论热点。
以上学者对在线用户评论主题挖掘的研究,主要集中在使用LDA及其改进模型以及针对评论特征的算法实现等方面的研究。本文利用图像特征选择的LS方法和IG方法,应用到在线用户评论文本的主题发现上,并对主题发现结果通过SVM分类方法进行比较分析,发现IG对在线用户评论效果比LS方法效果好。
1 相关理论
11 中文分词
与英文天然分开的单词不同,中文的词语之间没有明显的分割标识,并且中文的语言环境更加复杂。所谓中文分词是将中文序列分成一个个有意义的词。现有的中文分词算法可分为四大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法以及基于语义的分词方法[18],也有不少学者提出了许多改进算法,如基于改进最大匹配算法的中文分词粗分算法[19]、基于互信息的串扫描分词方法[20]、基于字词联合解码的分词方法[21]等。
目前常用的开源中文分词器有IKAnalyzer、Jieba、mmseg4j、Ansj、Paoding等。本文实验采用了R语言环境下的Rwordseg作为分词工具,它使用rJava调用Java分词工具Ansj。
12 拉普拉斯评分
拉普拉斯评分是一种无监督的特征选择算法,可以用于实现主题选择。给定数据集X=[X1,X2,…,Xn]∈Rd×n,并假定fri(i=1,2,…,n)为第i个样本Xi的第r个特征词的词频(r=1,2,…,d),第i个样本和第j个样本Xj之间的相似系数为Wij=e|xi-xj|2t(t为一个适当的常数),第r个特征的方差为var(fr),则第r个特征的拉普拉斯评分可用公式(1)表示如下:endprint
LS(fr)=∑ij(fri-frj)2Wijvar(fr)
(1)
从定义中可以看出,Wij表示两个向量之间的距离,Wij越小,则两个样本的差异越小,(fri-frj)2越小,表明主题对差异的贡献小。LS要求∑ij(fri-frj)2Wij越小越好。var(fr)越大,表明特征包含的信息越多,特征词越有效。因此,LS寻找的是得分比较低的那些特征词,这些特征词就是主题选择要寻找的主题。
13 信息增益
信息增益是一种有监督的特征选择算法,也是识别特征词的一个重要方法。基于熵的概念,信息增益衡量了某特征词出现与否对文本信息分类可提供的信息量,如公式(2)所示:
IG(w)=P(w)∑|c|i=1P(ciw)logP(ciw)P(ci)+P()∑|c|i=1 P(ci)logP(ci)P(ci)
(2)
其中,c表示类别总数,P(w)表示特征词w在文本中出现的概率,P(ciw)为条件概率,表示文本包含w时属于ci类的概率,P(ci)表示类别ci在文本集中出现的概率,P()表示文本中不包含特征词w的概率,P(ci)也为条件概率,表示文本中不包含w时属于ci类的概率。
文献[22-23]具体分析了信息增益算法并在此基础上进行了改进,并通过实验验证了改进算法的有效性。
14 支持向量机
支持向量机是一种有监督的分类算法,在文本分类中应用较为成熟。SVM通过搜索最佳分离超平面实现数据的分类,其具体的做法是使用一种映射,将原始的训练数据映射到较高的维度,在新的维度上,搜索最佳分离超平面。对于非线性可分问题,可以利用高维映射使其转化为线性可分,核函数可以用来对原始数据进行映射变化。常用的核函数主要有:线性核函数(K(x,y)=x·y)、多项式核函数(K(x,y)=[x·y+1]q)、RBF核函数(K(x,y)=exp{-rx-y2})以及Sigmoid核函数(K(x,y)=tankh{r(x·y)+c}),其中,RBF在不同的应用中取得的效果较均衡,在文本分类中线性核函数的效果较好[24]。
2 实证分析
21 研究思路
分别使用本文研究思路如图1所示,首先采用R语言环境下的分词工具Rwordseg进行中文分词,具体步骤包括去掉数字、空白、去掉停用词、文本分词、筛选出名词、建立语料库、统计词频、建立文档词条矩阵X=[X1,X2,…,Xn]d×n,从而将在线用户评论的文本信息转化为结构化数据;接着,分别对该结构化数据使用LS和IG按照式(1)和式(2)的算法进行评分,根据公式选出m个特征词,最后,对包含选取的特征词及类标签的矩阵X′=[X′1,X′2,…,X′m+1]d×(m+1)进行SVM分类,观察分类精度得出结论。
22 实 验
鉴于操作的便捷性,本次实验数据样本选取某电商网站随机截取的1 000在线用户评论数据集,剔除过短评论如
“还不错”、“可以的”及重复评论如“不错不错不错不错”等。整理后数据样例如图2所示,pridid是在线商品的序列号,summary为在线用户评论的文本数据,是非结构化数据,需要进行主题挖掘,score为在线用户对商品的评分,是结构化数据,在本实验中为分类的类标签,本文主要用到了summary和score属性。
221 中文分词并得出文档词条矩阵
本文利用R语言中的Rwordseg包及tm包对文本数据进行分词处理,Rwordseg使用rJava调用Java分词工具Ansj实现对中文的分词,tm包可以用来创建文档词条矩阵。先后进行去除数字和空白、去掉停用词等操作,并利用函数选出具有代表性的名词和形容词,得到一个拥有691个关键词的文档词条矩阵,由于矩阵稀疏度很高,剔除词频小于等于2的特征词,最后得到208个特征词,形成文档词条矩阵[X1,X2,…,X208]1000×208,部分结果如图3所示。
222 选择特征词并进行分类
采用R语言对所得的208个候选主题词进行信息增益
计算和拉普拉斯评分,通过对式(1)和式(2)的分析可知,在使用式(1)后,应选择评分较低的词语,而使用式(2)计算后,应选择评分较高的词语。利用LS和IG算法得出的部分关键词排名分别如图4和图5所示。 图4给出的是LS算法下部分关键词的排名,实验所用函数已经将关键词按照所得评分由低到高排好。排在前10位的分别为精细、传真、情况、宽度、好、插座、体重、不错、一线、单薄。图5给出的是IG算法下部分关键词的排名,实验所用函数已经将关键词按照所得评分由高到低排好。排在前10位的分别为好、不错、价格、质量、便宜、东西、性价比、产品、感觉、一般。这些关键词在一定程度上表明了在线用户对该电商网站商品的关注点。
223 实验结果
实验1:LS和IG下不同训练集比例和特征词的分类精度对比
表1所示为LS下不同训练集和特征词数的分类精度对比,图6为其折线图表示,从图中可以直观地看出,其分类精度都保持在62%以上,当训练集比重为70%、80%时,分类精度是比较高的;不同的训练集比重下,当选取100个关键词时,分类的精度相对都比较高;整体折线图成发散模式,在选择较少的关键词时,模型是稳健的。
表2所示为IG下不同训练集和特征词数的分类精度对比,图7为其折线图表示,从图中可以直观地看出,其分类精度都保持在61%以上,当训练集比重为70%、80%时,分类精度是比较高的;不同的训练集比重下,当选取100个关键词时,分类的精度相对都比较高;整体折线图成发散模式,在选择较少的关键词时,模型是稳健的。
表3所示为不进行关键词的选择时,不同训练集比重下的分类精度,从图8折线图中可以看出在不进行关键词选择时,对208个特征词都进行SVM分类,在不同的训练集比重下,分类的精度都是比较高的,对比使用了特征选择算法后的分类精度,都能达到6100%以上,说明进行特征选择是有效的。endprint
图9(a~d)综合比较了不同训练集、不同特征词个数下,LS算法与IG算法的分类精度对比,总的来说,当所选关键词个数小于60个左右时,使用LS算法选出的特征词具有更好的分类效果,且随着训练及比例的增大,该效果表现出不明显的趋势;当所选关键词个数大于60个左右时,使用IG算法选出的特征词分类效果更好。在使用IG算法、80%训练集下,选择100个关键词后进行分类,精度最高,分类效果最好。
图10(a~d)给出了使用LS算法、不同训练集比例、不同特征词个数情况下,核函数对分类精度的影响。4幅图各分类精度越来越发散的现象,多项式函数在各个方面取得了较好的分类效果,而线性核函数取得了较折中的分类效果,在各个函数中,比较具有代表性。
图11(a~d)给出了使用IG算法、不同训练集比例、不同特征词个数情况下,核函数对分类精度的影响。4幅图中各分类精度也呈现逐渐发散的现象,在该算法下,同样是多项式函数在各个方面取得了较好的分类效果,而线性核
3 结束语
本文的主要工作有:对在线用户评论进行中文文本分词、分别使用拉普拉斯评分及信息增益对所得到的分词结果进行主题词的选择、使用支持向量机进行分类精度的检验。实证结果表明,进行主题词的选择是有效的,所选关键词个数及SVM核函数对分类结果有较大的影响。本文丰富了在线用户评论文本主题发现的研究,将用于图像特征选择的LS算法和IG算法进行对比,LS算法也取得了较好的效果,在实践中,可以将LS作为文本特征选择算法来使用,商家可以借此了解用户关注的领域,从而着重在该方面改善客户关系。在线用户评论中还存在着许多结构化的数据,如客户等级、客户地区等,将非结构化数据与结构化数据相结合分析是本文接下来要研究的内容。
参考文献
[1]GodesD,Mayzlin D.Using online conversations to studyword-of-mouth communication[J].Marketing Science.2004,23(4):545-560.
[2]Pons-Porrata A,Berlanga-Llavori R,Ruiz-Shulcloper J.Topic discovery based on textmining techniques[J].Information Processing&Managemen,t 2007,43(3):752-768.
[3]David MBlei,Andrew YNg,and Michael IJordan.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.
[4]阮光册.基于LDA的网络评论主题发现研究[J].情报杂志,2014,(3):161-164.
[5]李慧,张舒,顾天竺,等.一种新颖的CRE用户评论信息抽取技术[J].计算机应用,2006,(10):2509-2512.
[6]陈友,程学旗,杨森.面向网络论坛的高质量主题发现[J].软件学报,2011,(8):1785-1804.
[7]吕韶华,杨亮,林鸿飞.基于LDA模型的餐馆评论排序[J].计算机工程,2011,19:62-64,67.
[8]罗辉停.基于CRP模型的评论热点挖掘研究修正版[J].技术与创新管理,2012,(2):166-169.
[9]林煜明,王晓玲,朱涛,等.用户评论的质量检测与控制研究综述[J].软件学报,2014,(3):506-527.
[10]黄婷婷,曾国荪,熊焕亮.基于商品特征关联度的购物客户评论可信排序方法[J].计算机应用,2014,(8):2322-2327,2341.
[11]聂卉.基于内容分析的用户评论质量的评价与预测[J].图书情报工作,2014,13:83-89.
[12]Mudambi SM,Schuff D.What makes a helpful online review?A study of customer reviews on amazon.com[J].MIS Quarterly,2010,34(1):185-200.
[13]SZhou,QChen,XWang.Active deep learning method for semi-supervised sentiment classification[J].Neurocomputing,2013,120:536-546.
[14]陈忆金,曹树金,陈桂鸿.网络舆情意见挖掘:用户评论情感倾向分析研究[J].图书情报知识,2013,(6):90-96.
[15]王刚,杨善林.基于RS-SVM的网络商品评论情感分析研究[J].计算机科学,2013,(S2):274-277.
[16]唐晓波,房小可.基于隐含狄利克雷分配的微博推荐模型研究[J].情报科学,2015,(2):3-8.
[17]王伟,王洪伟,孟园.协同过滤推荐算法研究:考虑在线评论情感倾向[J].系统工程理论与实践,2014,(12):3238-3249.
[18]张启宇,朱玲,张雅萍.中文分词算法研究综述[J].情报探索,2008,(11):53-56.
[19]周俊,郑中华,张炜.基于改进最大匹配算法的中文分词粗分方法[J].计算机工程与应用,2014,(2):124-128.
[20]赵秦怡,王丽珍.一种基于互信息的串扫描中文文本分词方法[J].情报杂志,2010,(7):161-162,172.
[21]宋彦,蔡东风,张桂平,等.一种基于字词联合解码的中文分词方法[J].软件学报,2009,(9):2366-2375.
[22]郭亚维,刘晓霞.文本分类中信息增益特征选择方法的研究[J].计算机工程与应用,2012,27:119-122,127.
[23]胡颖.基于信息增益的文本特征选择方法[J].计算机与数字工程,2013,(3):460-462.
[24]张国梁,肖超锋.基于SVM新闻文本分类的研究[J].电子技术,2011,(8):16-17.
(本文责任编辑:郭沫含)endprint