在线评论文本挖掘对电商的影响研究

2018-09-10 07:06崔永生
中国商论 2018年33期
关键词:在线评论文本挖掘情感分析

崔永生

摘 要:目前各大电子商务网站每天都产生大量的在线评论,电商企业面对数量巨大的在线评论,能够快速地找到消费者所关注商品或服务的评价信息,了解消费者真正的购物需求,存在一定的难度。在线评论文本内容是能够表达买家对所购商品质量、电商企业服务、快递物流服务等详实的感受或体验的部分,反映出消费者对购买全过程的满意度。本文通过对在线评论文本挖掘的研究,设计基于语义词典的评论商品属性<特征词、观点词>对抽取方法和在线评论情感极性及强度计算方法,可以帮助电商企业准确而快速地挖掘出在线评论文本中消费者感知有用性商品评价信息,进而改进企业产品或服务质量,帮助商家有效地制定精准营销服务策略。

关键词:在线评论 文本挖掘 情感分析 语义词典

中图分类号:F724.6 文献标识码:A 文章编号:2096-0298(2018)11(c)-017-07

1 引言

在线评论文本数据是一种非结构化或半结构化数据,数据中蕴藏着丰富的价值。在线评论文本数据中的高价值信息,对潜在消费者的感知、购买决策行为具有重要影响,进而对电商平台和生产企业产品销量产生重要影响。在线评论文本挖掘目前受到了学术界专家学者普遍关注,已经成为研究和企业实践的一大热点。

针对在线评论文本数据的非结构化数据特征,在线评论文本挖掘目前普遍采用文本数据挖掘技术和自然语言处理等技术,对在线评论文本半结构化和非结构化数据进行挖掘。主要任务包括评论产品属性特征提取、在线评论情感分析及在线评论文本分类。所以目前在线评论文本挖掘的研究也主要集中在这三个方面的实现技术手段和实际商业应用研究。

基于在线评论的客户细分应用研究。蔡淑琴等(2015)[1]构建了在线评论文本挖掘客户偏好模型,使用数据挖掘中的两阶段聚类方法展开客户细分的实证研究。首先,通过在线评论文本中的同义词特征识别和抽取方法提取客户偏好特征向量,然后基于产品属性结构细粒度的客户偏好向量计算客户偏好,最后利用C均值聚类方法对客户依据偏好值进行细分。

在线评论文本挖掘也常用于企业产品定价的研究。郭恺强等(2014)[2]基于消费者效用理论,构建了在线评论文本挖掘的产品销售两阶段定价模型。刘洋等(2014)[3]通过在线评论文本挖掘,选择用户风险规避程度与在线评论数量作为关键指标,研究了在线评论对应用软件产品及基于平台的软件开发者定价策略的影响。

在线评论文本挖掘用于电商企业网络口碑预警系统研发的研究。李金海等(2015)[4]运用在线评论文本挖掘方法,针对电商企业目前所面临的网络口碑危害问题,提出并构建了基于在线评论文本挖掘的网络口碑危机预警模型。该模型使用了大数据并行处理技术MapReduce来完成在线评论产品属性挖掘,并使用情感模糊隶属函数进行在线评论情感分析,进而获得企业网络口碑目前现状及未来走势,最后采用人工智能信息处理方法完成企业网络口碑的评估以达到系统预警目标。

在线评论文本内容不仅包含了消费者购物满意度信息,而且还包含其对新产品或服务的接纳度和期望信息,所以通过在线评论文本挖掘可以分析确定新产品升级策略。龚艳萍和梁树霖(2014)[5]基于精确似然ELM理论构建了在线评论双重选择路径模型,通过产品特征提取来考察消费者对新產品接纳度。实证结果表明,正向在线评论、客观事实在线评论、在线评论内容质量对消费者的新产品感知有用性具有正向影响,进而显著影响新产品的接纳度。Lee和Yang(2015)[6]以亚马逊网站为实例,采集143条产品在线评论。通过在线评论文本挖掘后发现,在线评论感知有用性对新产品接纳度具有积极影响,在线评论的情感极性对新产品接纳度具有负向影响,标题吸引力在在线评论情感极性对新产品接纳度的影响上具有显著调节作用。张璐等(2015)[7]采集小米品牌手机在线评论样本数据,通过产品属性特征提取,分析在线评论内容中产品属性特征与产品升级和质量改进的关系。实证研究发现,在线评论中消费者对产品的客观评价变化与产品改进方向和改进程度具有强关联性,电商企业可以依据消费者对产品的客观评价决定新产品升级和改进的内容和方向。

通过在线评论文本挖掘可以分析消费者对在线评论的响应程度并进行管理。Gu和Ye(2013)[8]以携程网酒店在线评论样本数据进行在线评论挖掘管理响应实证研究,结果发现管理响应对低满意度客户具有显著影响而对其他类型客户作用不显著。低满意度客户如果收到管理响应,其将来满意度会随之增加;如果没收到管理响应,会降低其对酒店将来的预期。Liu等(2014)[9]通过在线评论文本挖掘的实证研究发现高星级酒店更乐于接受响应管理;通过在线评论文本挖掘酒店响应率指标,发现星级不同的酒店响应管理并没有表现出显著的不同;具有针对性的响应管理对酒店评级具有正向影响作用。Xie等(2014)[10]采集843家酒店在线评论和管理响应面板数据,通过在线评论文本挖掘发现,评论效价、购买价值和位置及清洁度评分、在线评论方差及在线评论数量、管理响应数量与酒店业绩具有显著相关性,管理响应及在线评论方差在评论效价对酒店业绩的影响作用上具有调节效应。

就目前已有在线评论文本挖掘研究成果来看,在线评论文本挖掘所用语料大部分是英语,所以针对中文在线评论文本挖掘的研究还不多见。Fong和Burton[11]在对比中国和美国的消费者在线口碑传播行为的研究发现,由于中国消费者和美国消费者在个人文化背景、网购自信程度及消费市场特征方面的差异,在线评论对中国消费者的影响程度远远高于美国的消费者,而且中国在线消费市场规模巨大。因此,有针对性的研究中国消费者在线评论对企业产品绩效影响作用,将具有重要的理论和实践意义。

在线评论文本挖掘研究目前存在的不足表现在以下几个方面。

首先,中文在线评论语言特征不规范,采用主题分类法会导致分词错误,严重影响情感分类效果。

其次,使用监督学习方法进行在线评论文本情感分类,需要人工建立大规模的训练语料集,才能获得较好的分类效果,而这对中文在线评论语料显然不现实。因此,从语义角度来研究中文在线评论情感分类才具有现实意义。

最后,在线评论情感分类处理最重要的处理环节是能够自动处理并区分主、客观文本信息,就目前已有研究成果来看,这方面研究还比较缺乏,需要进一步的理论探索和研究。

综上所述,目前国内外学者对中文在线评论文本挖掘研究并不多见,特别是对基于语义词典的在线评论文本挖掘方法还没有形成一个系统的研究体系。

2 研究框架和设计思路

在线评论文本挖掘就是对在线评论的文本内容进行特征分类挖掘,它的过程遵循文本挖掘通用的几个步骤。本文借鉴文献[12]将在线评论句的结构化单元划分成三个层次:最上层为在线评论对象;中间层为在线评论对象的属性特征;最底层为属性特征的情感表示。在线评论的商品属性特征词的抽取和与情感分析的具体流程如下。

(1)收集在线评论语料集,对语料数据集预处理。过程通常包括文本挖掘技术中的分词、删除停用词、词性标注等步骤,对语句中使用频率高的单词还需进行词频统计。

(2)筛选在线评论主题句,属性特征词集和<特征词,观点词>对抽取,这一步骤对应的是文本挖掘的特征选择和特征抽取部分,针对抽取的特征词重要程度的差异,引入属性特征词权重因子。常见的权重因子计算法包括布尔权重法、基于熵的权重法、特征频率法和TF-IDF法等,本文选择TF-IDF方法来计算特征词权重因子。

(3)基于情感词典模型,依据抽取后的<特征词,观点词>对,对在线评论文本集情感极性量化计算。

(4)根据计算出的情感量化分值来确定每条在线评论的情感倾向,选择准确度(Accuracy)和F度量指标来评价算法的性能。

本文基于语义词典的在线评论文本挖掘流程,如图1所示。

3 在线评论商品属性的特征抽取

3.1 特征词和观点词的范围界定

本文依据本体论的原理,将表征商品内部属性和外部属性的词条统一定义为商品属性特征詞。建立商品属性特征本体机构,以手机商品为例,手机属性特征本体结构(部分)如图2所示,图中“手机”为商品属性特征本体结构根节点,“颜色”“样式”“价格”为手机属性的特征词,同时作为手机根节点的子节点,“鲜艳”与“时尚”“便宜”为描述手机属性特征的观点词,由手机属性特征词和观点词共同构成本体结构树。

3.2 在线评论文本集的预处理

在筛选在线评论主题句,商品属性<特征词,观点词>对抽取之前,需要将在线评论语料集进行特征表示并格式化为标准格式,剔除数据噪声,为后续的特征选择和<特征词,观点词>对抽取作好准备。对于在线评论语料中的数字及特殊符号,可以采用统一转换成易识别的符号或空格,然后依据停用词词典或词汇表将停用词或稀有词从语料中清除,预处理具体包括以下步骤。

(1)分词。

分词即将在线评论中的句子按照特定的算法分成独立的单词的过程。针对中文的分词,本文使用中科院的中文分词软件ICTCLAS,它不仅可以进行词性标注,而且可以加入分词词典,所以对词语纠错同时方便加入领域词,进而提高分词准确性。

(2)停用词和稀有词处理。

稀有词是指在文本中使用频率不高,对文本特征表示没有价值而应该删除的词条。对于这类词的处理一般采用预先设置词频阀值,经统计词条使用频后,如果低于阀值就删除该词条。停用词是指目前在某一行业领域已经不在使用的词条。对于这类词的删除,可以基于已有的停用词词典,如果特殊需要可以手动建立词典。

(3)词条归并。

在文本中存在许多同义词或近义词,为了降低这些语义重复的词条,需要将这类词进行合并处理,提高分类的准确性。中文中“价位”“价钱”“价位”就是同义词。

3.3 文本特征选择与特征加权

在使用词袋法表示文本特征时,特征向量会膨胀达到几万维甚至于几十万维,即使经过文本预处理,还会有很多的特征向量留下。所以在文本的特征抽取时,对高维特征词降维处理至关重要。文本特征抽取和特征选择是文本高维特征降维的两个常用方法,本文将运用文本特征选择的方法实现在线评论文本高维特征降维。

本文采用互信息(PMI)的方法抽取在线评论互信息高的名词或名词性短语来选取为选产品属性特征,互信息的计算公式为式(1):

其中Wi表示该特征词在文本集中的权重,等于特征词词频TF与逆向文档频率IDF之积。

3.4 在线评论文本中<特征词,观点词>对的抽取

在线评论语句中的商品属性特征词通常以名词形式的形式出现,例如“外观”“性价比”“价位”等,所以一般将语料分词后经词性标注所得到名词作为候选商品属性特征词。将抽取到在线评论语句中表达消费者对商品属性特征的评价和情绪的词语,一般为形容词和动词,本文统称为观点词,并以<特征词,观点词>对的形式进行抽取,这主要是考虑观点词的倾向性主要依赖于商品的属性特征,更能表达消费者对商品属性特征的感受。

<特征词,观点词>对抽取的过程为以下几点。

(1)对照商品属性词典里的特征词,逐一搜索在线评论语句集中的每一语句,将匹配的特征词从语句中抽取出来,保存在指定的特征词文件里。

(2)累计每个在线评论句中所抽取出的特征词数量,如果结果为1,则将该语句标识为简单在线评论句;如果结果大于1,则将该语句标识为复杂在线评论句。

(3)对标识为复杂在线评论句重复步骤1和步骤2的操作,直到所有复杂在线评论句都被切分成简单在线评论句为止。

(4)将简单评价句中的所有形容词和动词抽取出来作为该在线评论句的候选观点词,并加入和保存到指定的<特征词,观点词>对文件中。对抽取的特征词和观点词的关联度进行评估,设定关联度阀值,低于阀值的<特征词,观点词>对将被从文件中删除。对筛查后的<特征词,观点词>对还需人工检查,剔除无关联或关联不大的<特征词,观点词>对,最终保留在文件中的<特征词,观点词>对集作为词典为在线评论情感分析提供支持。

4 在线评论文本情感极性量化

基于语义词典的在线评论情感极性量化分析是从语言学的角度来展开问题研究的方法,该方法的核心是语义词汇的分类规则。它借助于词汇间的同义关系或反义关系,通过一定的算法准则计算出词汇间的语义距离,得到词汇语义间的情感极性及强度。目前已有研究普遍采用的语义词典:英文常见有Word Net、Frame Net等,中文常见有 How Net(《知网》)《同义词词林》等。

本文利用Turney(2002)[13]提出的计算在线评论情感倾向的方法,计算情感词和基准情感词的距离。PMI-IR算法计算公式如式(5):

对照连词词典进行匹配标注,具体规则如下。

转折连词:在线评论语句中出现转折连词,连词后面的语句则发生语义转折,“前面正向,后面负向,则在线评论句情感极性为负向”;“前面负向,后面正向,则在线评论句情感极性为正向”。

递进连词:在线评论中出现递进连词,如英文中的“even、more、also等”,中文为“况且、不如、并”等,连词后面所表达的情感极性得到增强。

5 文本挖掘有效性实证分析

5.1 在线评论语料的来源

本文收集的在線评论主要来自亚马逊网站、京东网站两个大型知名的B2C电商网站的买家。采用网络爬虫软件分别抓取亚马逊中国、京东网站上的手机商品评论记录。

5.2 数据的采集过程及数据清洗

本文选取亚马逊中国、京东热销的12个知名品牌手机产品,采集在线用户评论文本作为挖掘原始数据,具体的步骤如下。

(1)对比研究两大购物网站在线评论系统设置的异同,确定在线评论文本数据的采集格式、方法及工具的选用,本文将选用网络爬虫工具软件八爪鱼采集器V7.0作为评论数据采集工具。

(2)利用八爪鱼工具软件编辑器,采集数据范围包括手机商品评价页面信息(评论者用户名、评论效价、评论题目、上传图片、评论发布时间等)及评论文本。

(3)数据收集的时间为2017年2月—2017年12月,共采集45892条评论记录。

(4)对所得到的数据进行清洗,删除同一用户的重复评论后,对数据进行进一步筛选、整理和剔除没有任何购物评价意义的在线评论,余下2842条在线评论,只保留评论标识ID和评论内容作为挖掘对象,将保留评论信息合并保存为手机评论.xls。

5.3 在线评论样本的统计描述

本文整理评论语料集如表2所示,其中京东网站采集各类品牌手机评论文本1542条,亚马逊中国网站评论文本1300条。通过手工标注整理京东正面评论871条,负面评论671条,亚马逊正面评论500条,负面评论800条,作为后面的文本挖掘分类评价基准。

本文依据TFIDF特征选择算法抽取的手机评论属性特征词(部分)如表3所示。

5.4 评价指标

本文采用通用的文本分类效果评价指标:全局查准率(accuracy)、查准率(precision)及查全率(recall)。文本分类效果评估通常使用二项分类列联表(Contingency Table),表4为一个二项分类问题的列联表。

5.5 <特征词,观点词>对的抽取及情感强度计算结果

本文将程度副词细分成6个级别,各级别权重系数依次设置为2、1.5、1.25、1.2、0.2、0.8、0.5,如果购物评价中不含程度副词,则设置为1,否定词、转折连词系数设置为-1。选择知网(HowNet)和台湾NTUSD情感词典作为情感词参照词库,如表5所示。

评论语料集经过数据清洗,预处理和主观句的对的抽取,经情感极性量化及强度计算后,整理得到示例(部分)如表6所示。

采用3折交叉验证方式,本文研究方法对比传统的分类方法(决策树、贝叶斯、SVM)进行了评价效果实验,分别取评论句500条、1000条、1500条、2000条进行4次测试,准确率(accuracy)如表7所示,F-measure如表8所示。

依据全部输入评论句集及在表3中整理出的手机属性特征类,对消费者购物评价的情感极性分类计算,所得产品特征属性类的抽取结果,如图3所示。

由表7和表8可以看见,相比于传统的机器学习的分类方法,本文研究方法分类效果良好。以评论句2000条为例,决策树全局查准率(accuracy)和F1分别为91.28%、87.18%,贝叶斯为93.34%、87.23%、SVM为95.67%、91.34%、而本文研究方法达到97.21%、95.32%,明显高于其他3种方法,这与各种词典的词汇准确性相关。

由图3看出,消费者关注手机产品的性能情感程度明显高于其他方面,其次是手机的配件,外观和功效,通过特征类的情感对比,可以清楚地了解消费者的购物感受。

6 结语

本文设计了基于语义词典的在线评论文本挖掘方法,对在线评论文本内容进行特征分类挖掘。在线评论文本挖掘有效性实证分析结果发现,基于语义词典,运用细粒度的<特征词,观点词>对抽取方法,可以理想地挖掘出在线评论文本中消费者购物评价信息,并实现情感极性量化和强度计算。采用此方法比其他的传统的方法具有优良的分类准确率。通过本文设计的在线评论文本挖掘方法,可以抽取在线评论文本内容中的商品属性特征好评度指标,提高了在线评论文本特征词分类准确性。基于语义词典的在线评论文本挖掘方法的研究,为从语义角度来研究中文在线评论情感分类相关研究提供了一个全新的视角。

参考文献

[1] 蔡淑琴,蒋士淼,G D OLLE OLLE,等.基于在线客户在线评论的客户细分研究[J].管理学报,2015(7).

[2] 郭恺强,王洪伟,郑晗.基于在线评论的网络零售定价模型研究[J].商业经济与管理,2014(4).

[3] 刘洋,廖貅武,刘莹.在线评论对应用软件及平台定价策略的影响[J].系统工程学报,2014(4).

[4] 李金海,何有世,马云蕾,等.大数据时代基于在线评论挖掘的企业网络口碑危机预警研究[J].情报杂志,2015(2).

[5] 龚艳萍,梁树霖.在线评论对新技术产品消费者采用意愿的影响研究——基于ELM视角[J].软科学,2014(2).

[6] Lee K Y,Yang S B.The role of online product reviews on information adoption of new product development professionals[J].Internet Research,2015,25(3).

[7] 张璐,吴菲菲,黄鲁成.基于用户网络在线评论信息的产品创新研究[J].软科学,2015(5).

[8] Gu B.,Ye Q.First Step in Social Media:Measuring the Influence of Online Management Responses on Customer Satisfaction[J].Production and Operations Management Society,2013.

[9] Liu X W,Schuckert M,Law R.Can Response Management Benefit Hotels?Evidence from Hong Kong Hotels[J].Journal of Travel & Tourism Marketing,2014,32(8).

[10] Xie K L,Zhang Z,Zhang Z.The business value of online consumer reviews and management response to hotel performance[J].International Journal of Hospitality Management,2014(43).

[11] J.Fong,S.Burton. Electronic Word of Mouth:A Comparison of Stated and Revealed Behavior on Electronic Discussion Boards[J].Journal of Interactive Advertising,2006,6(2).

[12] 李慧,柴亞青.基于属性特征的在线评论文本情感极性量化分析[J].数据分析与知识发现,2017,1(10).

[13] Turney P D.Thumbs up or thumbs down?:semantic orientation applied to unsupervised classification of reviews[C].Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2002.

[14] 蔺璜,郭姝慧.程度副词的特点范围与分类[J].山西大学学报(哲学社会科学版),2003,26(2).

猜你喜欢
在线评论文本挖掘情感分析
数据挖掘技术在电站设备故障分析中的应用
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
基于LDA模型的95598热点业务工单挖掘分析
在线评论情感属性的动态变化
从《远程教育》35年载文看远程教育研究趋势
慧眼识璞玉,妙手炼浑金
文本观点挖掘和情感分析的研究
消费者个体行为偏好对在线评论真实性的影响机理研究