网购农产品评论中的消费者情感标签抽取方法研究

2018-08-16 06:32李良强李开明白梨霏曹云忠
电子科技大学学报(社科版) 2018年4期
关键词:分词语料词语

□李良强 李开明 白梨霏 曹云忠 吴 亮

[1.四川农业大学 都江堰 611830;2.贵州师范大学 贵阳 550001]

引言

随着“互联网+”理念的提出和最近几年“中央1号文件”的政策支持,农业、农村、农产品电子商务蓬勃发展,农产品的在线交易量逐年增加。消费者利用互联网购买、消费农产品的同时,利用Web2.0的相关应用技术在互联网上发表自己关于农产品消费体验的看法和观点,从而形成农产品的在线用户评论。这些蕴含在用户评论中的用户评价对象及其内容中反映出来的用户情感,对农产品销售平台、企业和其他潜在消费者的决策,都具有重要的参考意义[1]。随着农产品用户评论的累积,不可避免地形成信息过载的问题。因此,有必要采用自动方法从农产品的海量用户评论中提取出用户评论的对象和用户情感倾向,从而形成有意义的情感标签。

从这些评论中抽取消费者的情感标签,也称为情感分析。情感分析一般定义为找出作者对特定实体的看法,具体来讲主要体现在分析人们关于特定元素(话题、产品、个人、组织和服务)的情感、观点、态度、情绪等[1~3]。对在线用户评论文本的情感分析,是计算机领域的热门研究话题,超过7000篇文章研究相关方向。不少创业公司也提供了情感分析解决方案和开发出相应的软件包。通过情感分析,企业组织实时地感知其在社交媒体和零售网站上的风险、声誉,实时地监控给在零售网站和社交媒体上的消费者反馈,并且实时做出应对措施。大量的研究表明在线评论文本中表现出情感对产品的销售有直接显著的影响[4],也影响其他用户对该评论的有用性评价[5]。

对文本中情感分析和情感标签的提取,学者们提出了各种各样的方法[6],例如利用情感词典,利用句子或词语语法,利用机器学习的方法,利用深度学习的方法以及组合方法等。但是这些方法存在着一些缺点:需要大量优质的情感词典进行模型训练;复杂的模型训练和参数调整,需要较强的计算资源等。与常见的文本中相比,农产品的在线用户评论体现了以下一些特点:(1)领域性强,有很多专业名词;(2)评论文本中句子长度短小,信息含量少;(3)消费者表达口语化明显,网络用语、流行词的使用较多,写作方式自由。但是对于农产品的评论,用户对评价对象的不同维度或属性之间的观点评价明显存在一定的潜在关联性。例如,如果用户认为购买的柠檬味道很不错,就会自然而然地对柠檬的其他属性进行褒义评价。产生“柠檬+不错”“大小+不错”“冰袋+不错”等关联性较强的一系列情感标签。本文从农产品领域评论语料中对情感标签进行抽取,着重考虑评价词与评级对象之间的关联性。

为了能够更好地解决农产品领域消费者在线评论的情感分析任务,本文提出了一种结合TF-IDF算法和PMI算法的抽取农产品在线评论中消费者情感特征方法框架。该方法框架的主要步骤为:TFIDF特征抽取方法对评价对象和评价词进行关键词过滤再利用PMI计算出各个关联词的共现性,根据用户评分建立规则判断情感词倾向性,获得情感标签集合的有关农产品在线评论中的特征。通过利用真实农产品评论的数据验证,获得较高的抽取准确率和召回率,说明这种方法能够有效地抽取农产品评论中的消费者情感,具有较好的领域适应性。

一、相关研究工作

从海量在线用户评论中抽取用户评论的情感倾向,生成情感标签,主要包括两个方面的工作:(1)评价词或评价对象抽取方法及技术;(2)评价词或评价句情感极性计算。学者们已经利用情感词典[7]、句子或词语的语法、机器学习的方法、利用深度学习的方法以及组合方法等来完成这方面的工作。

在利用情感词典方面,戴敏等构建了一个中文情感信息抽取语料库,为中文情感信息抽取任务提供语料基础[8]。冯仓龙等将情感要素词典及聚类代码引入CRF模型中,实现情感对象和情感词同步抽取[9]。Liang等通过半人工的方法建立情感词典来测量消费者评论中关于产品质量和服务质量的维度[10]。Daniel等使用基于词典的无监督学习情感计算器分析社交网络Twitter空间里金融社区发布事件的情感极性,从而构成金融交易的事件流行算法[11]。

在利用句子语法和词语词性方面,Popescu等人抽取评论中频繁出现的名词和名词短语作为候选产品特征,同时借助搜索引擎计算互信息值来对候选特征进行评估针对中文产品评论的特点[12]。王洪伟等选取词性、词性组合、N–gram作为情感文本的潜在特征项,利用文档频率法对特征项降维处理,采用布尔权重法构建特征向量,并采用SVM分类器进行网络评论的情感分类[13]。李良强等综合了语法搭配(词性搭配)和最大频繁模式,提出了一种从海量在线评论数据自动抽取出用户对该产品/服务的主要评论内容的文本处理技术[14]。杜思奇等则通过引入汉语组块分析对评论文本进行初始化处理,对名词性信息以及形容词性信息进行抽取。通过最大熵对初始化集合进行过滤,从而获得最终的情感标签集合[15]。王娟等在短语的内部结构和句法功能基础上,分析了评价对象及其对应的评价短语在句中的句法位置,结合情感句中词性和词对间的依存关系完成情感评价单元的抽取[16]。江腾蛟等提出了基于浅层语义与语法分析相结合的评价对象–情感词对抽取方法,用于中文金融评论的情感识别[17]。孙晓和唐陈意将评论的句法信息、语义信息等引入CRFs模型,把情感对象和情感词的深层词义及情感词的基本情感倾向等特征引入到SVM中,构建出基于条件随机场模型(CRFs)和支持向量机(SVM)的层叠模型,从商品评论中获取情感关键信息:(情感对象,情感词,情感倾向性)三元组[18]。Penalver-Martinez等使用语义本体来提高特征抽取效率,然后利用基于向量分析的方法用于电影评论的情感分析[19]。Zhao等探讨了“特征–观点”的关联结构,提出了一个“先聚类,后抽取”的无监督模型,然后利用这个结构的属性去抽取情感[20]。

在利用机器学习方面的情感分析,主要用到机器学习的主要算法,比如贝叶斯算法,支持向量机,最大熵,概率主题模型等。Yu等利用朴素贝叶斯算法(Naïve Bayes algorithm,NB)来分析一个特定公司的每日在社交每天上的总体情感,从而探寻社交媒体和传统媒体对公司短期股票表现的相对重要性和相互关联性[21]。Manek等实现了利用基于Gini指数的特征抽取方法和支持向量分类器(Support Vector Machine,SVM)来对海量电影评论的情感分类,在分类效果上取得了较好的精确率和错误减少率[22]。Akhtar等提出一个级联框架用于特征选择的剪枝和压缩,然后采用粒子群优化的集成了最大熵、条件随机场和支持向量分类器用于情感分析,通过在两个不同领域的特征抽取和情感分析验证了方法的有效性[23]。Colace等采用基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)的概率方法作为抽取工具来抽取社交网络和协同学习环境中的情感观点,也取得了满意的结果[24]。张建华和梁正友提出一种基于情感词抽取与LDA特征表示的情感分析方法,对产品评论进行褒贬二元分类[25]。近年来,人工智能的发展使得深度学习的相关方法也逐渐应用到对文本的情感分析。Giatsoglou提出把文本文档用词典表示、词嵌入表示以及混合向量表示方法,然后用于训练文档情感极性分类的机器学习模型,该方法能够快速、灵活、通用地探测人们用不同语言在文本中表达出来的观点[26]。

现有文献对于农产品评论处理的研究相对较少,与本文研究最为相关的为文献[27]。作者利用现成的文本挖掘工具对在线用户评论进行内容分析,挖掘出消费者网购生鲜农产品的影响因素,但侧重于方法的应用结果,没有涉及到具体的评论文本抽取方法[27]。

二、研究方法框架

本文提出的农产品评论中消费者情感抽取系统,主要包括数据的获取与预处理、评价对象的特征抽取、情感倾向判定、情感标签的生成。图1描述了整个流程。经过数据预处理过程,把杂乱无章的原始语料,转化成一个干净的语料库。然后经过分词并标注词性,通过特征抽取方法选出评价对象,通过PMI算法对用户评分中的情感标注实现对情感词的过滤。最后根据用户对产品的评分设置规则,判断情感词的情感倾向与情感强烈程度,最终形成情感标签集,主要体现为评价对象与评价词语之间的搭配,如“味道+不错”、“大小+合适”。

图1 农产品评论的情感抽取方法框架

(一)文本预处理

文本预处理主要包括三个步骤:(1)数据清理;(2)分词;(3)词性标注。

数据清理是将通过程序抓取的原始语料去掉重复记录、清理不相关的评论、清除无意义的符号、文本的大小写转化等归一化处理,从而形成干净的原始语料库。

由于中文与英文不同,词语词之间没有空格或者其他的分隔符来进行间隔,因此不能直接对中文进行统计分析。在对中文文本处理之前,需要把中文文本按照一定的规则或者算法把词语分割开。例如给定的用户评论句子r∈R,分词就是利用分词算法和分词工具把句子r中的基本元素进行标注,最后用词项Wr=(w1,w2,...)表示分词结果。其中词元素之间的关系满足表1给出部分分词结果示例。不同的分词软件采用的分词算法不同,其分词结果也是不一致的。

分词结束后,语料中包含有各类词性,带有大量没有实意的虚词和类别色彩不强的中性词。因此,需要利用词性标注和过滤来处理一些无意义的词,让分词语料中只保留一些重要的、有意义的词。例如表1中的“了”就可以进行删除。为了能够高效地从农产品评论中抽取出消费者的情感观点,我们可以通过只是保留评价对象和表达观点的词语,从而来降低运算的复杂度。消费者评价对象和表达情感观点的词一般表现为:名词、动名词、副词、形容词、命名实体等。通过分词和词性标注,把语料形成保留词和词性的符合项集,即“词+词性”,为下一步的数据分析做好基础。

表1 分词结果示例

(二)特征抽取

特征抽取,体现为从众多混合有用、无用词汇的原始语料中,提取出少量、具有代表性的特征,但是特征的类型没有变化[28]。如果某个词在广义语料很少出现,但是在某个特定语料中出现多次,那么它在很大程度上体现了这个语料的特征,这个词就是需要被抽取出来的特征关键词。

本文中利用TF-IDF算法来实现语料的文本特征抽取。TF-IDF是一种基于统计的方法,广泛应用于信息检索和文本特征抽取的加权技术和文档降维。它可以用来评估文档中的字词对于一个文件集或一个语料库中的其中某一份文件的重要程度。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文档频率,可以产生出高权重的TFIDF[29]。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语,从而达到抽取文本关键词的目的。

TF-IDF算法主要包含三个步骤:(1)计算词频(Term Frequency,TF);(2)计算计算逆文档频率(Inverse Document Frequency,IDF);(3)计算TF-IDF值。每个步骤的具体计算公式分别如下:

(1)计算词频(Term Frequency,TF):

(2)计算逆文档频率(Inverse Document Frequency,IDF):

(3)计算TF-IDF值:

式(1)中count(wordi)表示文档中包含词语wordi的个数,式(2)中count(sentencewordi)表示包含词语 wordi评论条数, sentencem表示评论m的条数。通过对评论集中每个词语进行上述步骤的计算,得到每条评论中每个词语的TF-IDF值。然后通过此过程为所有评论文本建立一个TF-IDF向量模型,基于此筛选目标关键词。

将式(3)中计算出的词同时放在集合W1和W2中,保留W1中的名词和形容词,W2不变,再进行下一步PMI的计算。目的是为了对比词性抽取在PMI计算前后对结果产生的影响。因为一旦对词性剪枝后,会对整个句法结构,词语间距离等产生影响,从而影响最终结果。

(三)特征情感共现计算

逐点互信息(Pointwise Mutual Information,PMI),在信息理论和统计领域被广泛用于计算两个事物之间的关联程度。在计算文档相似性时,PMI可以从统计的角度判断两个词语贡献情况来分析词语之间是否存在语义相关或者主题相关,以及相关的程度。通过计算两个词语在所有评论文本中共现的概率,判断两个词语之间的语义相关性,如修饰关系[30]。PMI的计算公式表示如下:

PMI的计算公式中,p(wordi,wordj)表示wordi与wordj共现的概率,p(wordi)为wordi在所有评论语料中出现的概率,p(wordj)表示wordj在语料库中出现的概率。当两个词语同时出现在多个评论文本中,则两个词语的共现概率较大。共现概率较大的词组在语义上有一定的相关性,PMI值表示两个词语在文本上的关联度。

分别计算W1和W2两个集合的共现概率PMI值,由于W1在抽取名词和形容词后句法结构以及词语之间的距离发生了改变,对共现距离产生影响,所以W1与W2中词组的 PMI值存在显著差异,很显然观察出W2结果的共现系数更为准确。但是W2中仍存在噪声,将W2中带有名词和形容词的情感单元抽出,通过设定阈值的方法过滤掉PMI值过大和过小的词组,形成新的集合W3。

(四)评价对象情感强度和倾向性的判定

用户对农产品的体验情感在一定程度上可以通过其给出的数字评分来体现。例如京东商城的用户评分由1~5分构成,根据前人研究中的成果和用户的评价打分习惯可以把数字打分划分出相应的情感倾向和强度:把1分、2分的评论语句看成负面的评价(情感强烈程度1分>2分),把3分、4分、5分的评论语句看成正面的评价(情感强烈程度5分>4分>3分)。对于评价对象情感强度和倾向性的判定方法,我们采用两个步骤:(1)形成不同情感强度中的特征和情感强度种子词集合。具体做法为:在原始语料中针对不同情感程度中的特征属性词和情感词进行PMI计算,形成每个情感类别的最大关联度词集合(Maximum Related Word Sets,MRWS),也就是不同强度情感词的种子标签集合。(2)利用种子词集合,对新语料中的特征情感和强度进行识别。具体做法为:首先对评论语料进行分词,按相关词性进行组合,形成词组;新的词组分别与每个情感强度中的种子词组进行匹配,得到不同分值下所对应的关联度,选择关联度最大的类别作为评论语料的情感类别。评论对象情感判定算法的具体实现过程如算法1所示。

算法1 新语料中评论对象情感倾向判定

1.输入:种子库中各情感类别i对应词组最大关联度集 MRWSi,新语料Comment-New;

2.输出:新语料情感类别。

3.过程:for eachComment-New do

4.word = word.segment(Comment-New)

5. word-group = PMI(wordi, wordj)

6. for word-group ∈ MRWSi

7.i=max(MRWSi)

8. returni

9. end for

10. end for

三、实验结果

本文选取的数据来源为国内著名的电商平台(京东商城)生鲜农产品类别下柠檬类别产品,使用Python自行编写的爬虫程序抓取用户的评论。数据总量为7954条,时间跨度为2016年6月2日~2017年5月5日,所有评论数据都为中文撰写。抓取的数据字段包括:产品名称、用户ID、用户数字评分、用户评论文本等。在获得评论后,对它进行一定的预处理工作:去除评论语料中的重复项;去除与农产品不相关的评论,比如“hhhhhhhh”、“手机很好用,一次舒心的购物体验”等;共去除无效评论1319条,剩余6635条有效评论。有效评论中文本内容的分布情况如表2所示。经过预处理后的语料具有较高的准确性和相关性,其用户对产品的评分也具有较高的真实性,适合作为实验的语料数据。

表2 评论文本的内容分布

(一)分词结果

在实验中,我们采用Jieba分词的Python版本实现了对农产品在线评论数据的分词和词性标注。结果发现少数词语的词频较高,占据了排名靠前的位置;剩下的大部分词语频次较低,呈现出一种典型的长尾分布。这种现象表明消费者在评价农产品时候的用语表达相当稀疏,因此在特征抽取和情感贡献计算时候,需要设置恰当的阈值。

(二)基于TF-IDF与PMI的情感标签抽取

用户在发表评论的时候,会根据其情感强烈程度和正负情绪给出一个数字评分。一般表示为1~5分5个不同的等级,分别对不同等级的语料进行分词与词性标注。在此基础上,将在语料中出现频率较多的评价对象作为属性种子词,出现频率较多的评价词作为情感种子词。例如:“满意”这个词,在5分语料中出现了46次,则将它作为5分评论的种子情感词。经过以上处理得到5个等级的种子词集S,297个情感词,如表3所示:

表3 情感种子词表示例

使用TF-IDF抽取关键词的方法对分词过后的结果进行计算,经反复实验得出抽取式(3)中排名前十的词作为关键词,能够很好地过滤掉常见且无实意的词,保留语料中重要的词。接着使用PMI算法计算评价对象与评价词之间的相似性,输出相似性大于1.5的词组。但由于词语距离和搭配的问题,结果仍然会出现“很棒,方便”这样的“评价词”搭配的词组,所以我们需要对目标词性词组进行抽取。根据前文对评价对象和评价词的词性界定,在算法中设定抽取评价对象(名词)和评价词(形容词)搭配的词组。每一类等级都有该等级的评价词组,我们可以将“京东 信赖”“京东 好评”“京东 满意”等有相同评价对象(属性)的评价词形成情感标签集,如表4所示。

表4 情感标签集

(三)结果评价

为验证我们提出方法的有效性,我们把采用人工情感词抽取方法和本文提出的抽取方法在一批新的语料上进行了对比。采用的评价指标分别为:抽取准确率(Precision,p)、召回率(Recall,R)和F值(F-measure,F)来进行评价,F值为正确率和召回率的调和平均值,三个评价指标的计算公式如下:

利用新采集到的1024条5分柠檬评论作为语料库,对这1024条柠檬评论分别进行分词、提取情感标签。人工标注这批语料与自动提取的情感标签进行对比,实验结果如表5所示。本组实验通过将筛选关键词个数作为大的分组条件,并在每组内部分别计算包含全部显性情感标签与隐性情感标签、全部显性情感标签与隐性属性词标签和显性情感标签,它们所对应的准确率、召回率和F值。

表5 实验结果

通过实验结果数据可以得到结论,在采用TFIDF筛选关键词时,阈值设置为5,即每条评论选取5个关键词能够得到最高的准确率。这是因为,农产品评论文本具有引言部分所述的三个特点,5个关键词即可以满足筛选到必要关键词,又可以过滤掉诸如停用词等其他非标签词汇。同时在5个关键词组内,我们发现显性隐式属性词组具有最大的准确率、召回率和F值。在标记测试文本时,我们发现有20%的评论包含隐式属性词。所以,在标记评论文本时,将隐式属性词提取出来,可以使得自动标记效果增强,并且不会降低召回率,即提取到的属性词有很大概率是正确的,从而使得方法的可靠性即F值明显上升,表明结果可靠。

四、结论

本文提出了一种在农产品在线用户评论中抽取消费者情感标签的方法,提高了特定领域网络评论文本情感分析效果。该方法具有以下一些特点:(1)通过TF-IDF筛选关键词和PMI计算属性词与情感词的相关性的方法抽取出不同属性下特定的情感词,解决了同一评价词与不同属性词搭配时所表达情感不同的问题。(2)根据用户评分来划分情感极性,具有较好的准确性和可靠性。(3)该方法是在一些成熟的算法上改进,使得方法易于理解,便于实验,且本方法在前期不需要大量人工标注即可取得较好的效果;(4)该方法为尽可能利用评论文本所包含的信息如评分,可以最大程度利用现有信息,减少人工干预,从而提高效率与准确性。

但本研究还是存在这一些不足:由于商品评论语料属于评价对象比较稀疏的短文本,使用TFIDF算法在抽取特征关键词存在一定缺陷,造成抽取结果的精度误差。未来的研究会集中解决提高关键情感词抽取的正确率,以及优化情感极性判断的算法,从而抽取出更为准确的情感标签。

猜你喜欢
分词语料词语
容易混淆的词语
分词在英语教学中的妙用
找词语
结巴分词在词云中的应用
结巴分词在词云中的应用
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
一枚词语一门静
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法