基于大数据分析的电商产品感知质量评价研究

2021-06-17 09:48曾偲慧陈原郭舒敏
中国商论 2021年8期
关键词:在线评论大数据分析质量评价

曾偲慧 陈原 郭舒敏

摘 要:在线评论作为获取商品信息的重要途经,包含大量用户产生的质量信息且更新速度快。通过大数据处理技术对质量信息进行提取,可有效弥补传统质量抽检样本小、抽检难等缺点,提供质量风险提示。在大数据分析的基础上,本文通过数据收集、数据预处理、质量属性语义词典构建、文本量化,构建基于产品属性的质量评价方法,对面膜产品的在线评论进行分析,得出其各质量属性感知质量情况以及总体质量情况评价,并对可能存在的质量风险进行分析。

关键词:感知质量;质量评价;在线评论;大数据分析;电子商务

中图分类号:F724.6 文献标识码:A 文章编号:2096-0298(2021)04(b)--06

李克强总理在“云上2020年中国品牌日”活动中强调,坚持质量第一,更好满足群众消费升级和国家发展的需要。基于质量管理理论发展视角,质量概念已从符合性质量阶段发展到卓越质量阶段,产品质量的衡量标准不仅仅限于符合特定标准及相关法律,更需要滿足消费者需求,甚至是提供远远超过消费者期望的质量[1]。可见,产品质量的主观性越来越强,消费者对产品的感知质量评价不容忽视。

但与消费者日益提升的质量需求形成强烈对比的是,随着网上购物时代的到来,消费者网购的风险日益凸显,网购投诉亦呈爆发性增长趋势。电子商务消费纠纷调解平台在2019年全年受理了306家主流电商平台用户的投诉,跨境电商占比14.05%,商品质量问题成为投诉热点。如何提前识别商品质量风险成为急需解决的难题。随着大数据及数据挖掘技术的进步,对产品质量相关信息的全样本抽取,可与传统抽样检验相辅相成,弥补抽样样本小、抽检难以发现未知威胁等缺点,提供更客观、全面的质量数据。

立足于网络渠道,如网易考拉海购买家评论、京东商城买家评论等公共空间,从消费者对消费品最真实、直接的第一线评价中,可提炼产品的质量情况。目前研究中大多选用易于量化的指标来度量产品感知质量,例如评分等级、评论数量等,忽视了产品评论内容中各维度的信息。由于产品具有多特征的特点,消费者对各产品特征的态度构成了消费者产品感知质量评价。基于此,本文提出了一种基于消费者对产品特征态度的方法量化产品感知质量。

1 文献综述

产品质量的主观性越来越强,从消费者感知角度进行产品质量研究具有重要意义。在众学者对感知质量概念进行的描述中,Zeitbaml(1988)认为感知质量是关于一个产品优越性或卓越性的判断,是一种主观全面的评价,来源于消费者在对比中作出的判断[2]。Kirmani和Baumgartzner(2000)认为感知质量由顾客通过所能搜寻到的内部线索和外部线索判断形成的对产品优越性评价[3]。毕雪梅(2004)认为顾客感知质量是顾客针对自己使用的需求和目的,结合经由正式或非正式途径获得的市场相关信息,形成对产品抽象、主观的评价[4]。钟凯(2013)认为网购感知产品质量是网络消费者根据自身需求出发,通过购物网站上所提供的图片、文字以及视频等信息,对某种商品或服务产生一定的主观评价[5]。

当前,衡量顾客感知质量的方法多依靠成熟量表或对服务流程的定性分析。张鹤冰等(2020)将在线顾客感知质量分为感知产品质量和物流服务质量,使用Wells及Parasuraman研究的成熟量表对在线客户感知质量进行衡量[6]。郑蔓华等(2020)实证分析木制家具O2O顾客感知质量对顾客在线黏性的影响。基于 ABC 态度模型,将感知质量划分为感知系统质量、感知服务质量及感知产品质量3个维度,针对福州某小区业主发放问卷进行调查[7]。宫华萍等(2020)基于互联网学习服务交互流程的分析,归纳影响感知质量的感知过程质量因素和结果质量因素[8]。但以上方法难以确保调查样本顾客短期内确实购买过该商品,也难以确保在顾客完成消费行为后第一时间收集数据。使用在线评论文本数据作为数据来源能有效弥补以上采样缺陷。在线评论包括顾客对产品的评分及评价,包含丰富的信息量。在线评论数据只来源于有实际购买行为的客户并限制于收货后一定时间内填写,确保数据样本的有效性以及时效性,更有参考价值。

在线评论文本数据一般呈现非结构化或半结构化特征。文本情感分析方法可高效量化非数值型数据,主要依靠文本挖掘技术和自然语言处理技术。核心环节包括产品属性特征提取、在线评论情感分析[9]。Hu和Liu等(2004)提出了一种基于特征的自然语言处理摘要方法,提取了与购买者观点相关产品的特征块(例如单词和短语)。这些特征块被定义为产品特性、属性或功能。而意见块被定义为用户对功能的主观评价,情感词用于表示积极或消极的意见[10]。多年后,Chung和Tseng(2012)使用关联规则挖掘算法,学习最具有信息性的产品特性,以促进商业智能[11]。Lee和Choeh(2014)基于总结的特征和观点,预测在线评论的有用性[12]。Kang(2014)用情感分析的方法分析了手机应用程序的速度、稳定性等6个特点[13]。Tuarob和Tucker(2015)提出利用情感分析量化产品的市场支持度,识别成功和失败的产品,并将产品特征自动分成两类:满意特征和抱怨特征[14]。Suryadi和Kim(2016)总结了评论中提到的特征,分析了产品特征与销售等级之间的关系[15]。Zhang等(2016)通过分析不同评论者对不同产品特征的情感极性,提出了一种设计产品改进策略的方法[16]。Law和Gruss(2017)使用监督机器学习算法,根据产品特性和用户意见自动发现洗碗机的缺陷[17]。

基于中文评论,学者基于大数据及文本处理方法提出基于中文的产品特征提取方法。王科等(2016)从知识库和语料库及两者结合的角度提出了情感词典构建方法[18]。王伟等(2017)指出基于统计及机器学习技术的产品特征及其观点的识别算法[19]。周清清等(2017)提出细粒度在线评论产品属性抽取方法,通过候选属性抽取、候选属性聚类、噪音过滤等步骤,提取细粒度更高的产品属性[20]。杨程等(2020)通过隐含狄利克雷主题模型及情感分析,得到用户对手机产品属性的关注度及满意指标,建立评价指标体系[21]。陈荣义等(2020)抓取国内大型旅游网站点评文本,从高频词分析、社会网络与语义网络分析和情感分析3个方面分析游客满意度的影响因素[22]。马凤才等(2020)爬取生鲜产品的文本评论,通过词频统计影响消费者生鲜产品满意度的关键要素,构建特征词表,得出4类生鲜产品的总体满意度情况[23]。

2 研究方法

2.1 数据来源

本文研究目标商品为消费品,选取销量大、质量问题较为严峻的商品进行研究更有代表性。近年来在中国经济快速发展的背景下,护肤品需求呈井喷式增长。Euromonitor资料显示,护肤品在2018年零售额达2122亿元人民币,护肤品同比增长13.2%。但面膜作为护肤品中常见的品类,其质量情况却令人忧心,在监管部门的多次抽查中,面膜一直是出事的“重灾区”。并且面膜成本相对较低的特点,使得不合格产品太容易改头换面,相较于定期的质量抽检,消费后立即反馈的在线评论数据,能更快速地识别面膜的质量风险。因此,本文选择面膜作为研究对象。

在线评论数据需从电商平台爬取、网易海拉网购和京东均位于跨境电商行业前列,市场份额占领跨境电商行业39.1%[24],因此本文分别在网易考拉海购与京东全球购选取销量第一的天佑兰及美迪惠爾面膜作为目标商品。将京东全球购美迪惠尔面膜评论数据作为原始语料库,提取面膜质量属性,建立面膜质量属性语义词典。之后建立质量测算程序,测量网易考拉海购天佑兰面膜及京东全球购美迪惠尔面膜消费者感知质量并作对比分析。

2.2 数据采集

本文采用python的selenium模块,模拟浏览器行为,爬取网易考拉海购与京东全球购选取销量第一的天佑兰及美迪惠尔面膜评论。原始数据包括网址、用户名、用户等级(是否为会员)、商品型号、评论时间、评论等级、评论原文、该评论的点赞数。原始数共31399条。

2.3 数据预处理

在进行质量评估之前,要对爬取的评论数据进行预处理。首先,删除评论中的重复值。重复评论大多来自于刷单行为,或是用户为赢取平台评论任务奖励而复制的无效评论,移除重复评论以提高在线评论数据的有效性。经过去重后,共有30769条评论数据用于产品质量分析;其次,去除句子中无意义的停用词,一般的停用词包括句子中的助词、连词、表情符号等,针对在线评论文本的处理,本文在哈工大停用词表基础上,加入了平台名称、面膜品牌、面膜型号等与质量评估无关的词形成停用词表,以进行数据清洗。

2.4 质量属性词典的提取

我国现行的面膜标准主要是QB/T 2872-2017,标准主要围绕面膜的感官指标(外观、香气)、理化指标(pH、耐热、耐寒)、卫生指标及净含量[25]。在线评论中消费者表达的更多是直观的使用感受和产品的使用效果,如外观、气味等容易感知的质量属性被较多提及,而需要精密测量的理化指标,大部分消费者并无法精确评价,仅仅按照执行标准来提取质量属性是有局限的,需要结合在线文本语料以确定质量属性词典,处理步骤如下。

(1)通过分词及词性标注提取潜在质量属性词

质量属性词一般多为名词、动词和形容词,因此首先使用python的JIEBA模块对在线评论语料进行分词及词性标注(POS),提取所有的名词、动词和形容词,进行人工聚类,最终确定补水保湿、精华液、过敏性、膜布、嫩肤、提亮肤色、气味、使用感、清洁排毒、包装、真伪、滋养修复、控油、抗皱紧致、保质期15种质量属性。

(2)减少歧义

对评论文本进行分词后,不可避免地使词语丧失了上下文的支撑,提取的属性词容易产生歧义。在大部分情况下,属性词与某些限定词进行搭配,则可以确定其表意。对于这一部分的词语,形成限定词和属性词组合,在识别中采用正则表达式匹配。限定词与属性词组合提取规则如下:首先定位属性词所在的句子,再根据属性词词性,确定提取规则。根据王伟(2017)基于特征的挖掘算法及人工标注结果,限定词和属性词抽取规则如表1所示。

(3)隐性特征的处理

由于在线评论具有表达不规范、多样化、口语化的特征,存在部分词语无法找到限定词搭配的情况,容易产生歧义,如保湿属性下的干燥一词,在“秋冬季皮肤很干燥”下,并没有描述产品的质量,但在“用后皮肤还是很干燥”一句中则提到了面膜保湿弱的特征。对于这类容易产生歧义的词语,本文建造歧义词库,对于该类词语,返回人工再次判断。

(4)为情感极性赋分

最后,提取所有属性特征后,对属性特征情感赋分,1为正向情绪,-1为负向情绪。表2以面膜纸这一质量属性为例,展示质量属性语义词典。

2.5 文本得分判断

在该步骤中,计算在线评论文本情感的得分。该步骤用到自行整理的质量属性语义词典、否定词词典及程度词词典。参考施晓彦等(2017)[26]的研究,假设质量属性包含在每个短句中(以标点符号为分隔),以短句为单位识别质量属性,具体量化步骤如下。

第一,进行限定词与属性词的匹配并根据情感极性赋分,例如评论“这款面膜的材质也是非常舒服的哦”,由于材质+舒服搭配位于情感极性为1分的词库中,因此,该评论得分标注为:“这款面膜的材质也是非常舒服(+1)的哦”。

第二,判断匹配成功的短句中是否存在程度词及否定词。若存在程度词,则将程度词得分(2或0.5)乘以产品属性特征得分。若存在否定词,则将否定词得分(-1)乘以产品属性特征得分。如上例“这款面膜的材质也是非常舒服的哦”,识别到程度词“非常”,该评论得分标注为:“这款面膜的材质也是非常舒服(+2)的哦”。

第三,进行隐形特征的匹配,若匹配成功,返回人工识别。

通过以上步骤,可量化每个评论中提及的质量属性评分,每个属性的值为通过匹配得出的用户情感值,得到消费者对质量属性的评价。

3 质量属性感知质量情况

3.1 质量属性关注度

识别消费者最为关注的质量属性,有利于获得质量监督中的重点方向。消费者在评论中提及某种质量属性次数越多,该质量属性的关注度及重要性越高。通过统计提及质量属性的短句数目,计算消费者对各分类质量属性的关注度。计算公式如下:

(1)

其中,Ai为特定质量属性的消费者关注度, Fi为提及该质量属性的总句数, i为各质量属性,以此计算消费者对各分类质量属性的关注度,结果如表3所示。消费者最为关注的质量属性前四位,皆为感官指标。可见,大数据挖掘在线评论进行质量识别,可有效补充质量抽检中无法检测的用户体验质量。

3.2 质量属性情感评价

通过以短句为单位的情感分析,可以计算质量属性的情感极性,得到各个产品属性的感知质量(如表4、表5所示)。本文参考Wenhao Zhang(2012)[27],将正向情感比率60%设为门槛值,低于该门槛值的产品质量属性可能存在一定的质量风险。对于网易考拉平台售卖的天佑兰面膜产品,消费者对面膜纸、过敏性、保质期正向评价率皆低于60%。通过对面膜纸、过敏性的负向评论进行词频统计后可见(如图1、图2所示),消费者认为面膜纸不服帖、纸质太厚、使用上不够舒服;在面膜过敏性上,大部分负评消费者反映开始使用时有刺痛的感觉,对面部太刺激,部分消费者甚至有过敏的现象。由于跨境电商平台售卖海外进口产品,跨境商品原产地质量、安全、卫生、环保、标识等标准或技术规范要求可能与我国标准有所不同,而导致质量风险的存在。对于保质期的评价,大部分负向评价消费者皆表示收到距离生产日期较远的产品。由于与线下购物相比,网购体验环节缺失,商家打擦边球售卖临近保质期产品而难以被追究责任,这提示了消费者承担信息不对称性导致的质量风险。

对于在京东平台售卖的美迪惠尔面膜产品而言,所有的产品质量属性正向情感比率都在60%以上。在消费者最关注的质量属性前五位中,真伪、补水保湿、嫩肤消费者正向评价皆在95%以上,对质量的满意度高;但对于精华液、使用感,消费者总体评价相对较低,但都远超60%,如表5所示。

4 产品感知质量评价

4.1 产品总体感知质量评价

消费者关注度越高的质量属性,越大程度上影响消费者对质量的认知。因此,以每一质量属性的关注度确定质量总体评价中各屬性的权重,计算公式如下:

(2)

其中,Ai为质量属性的关注度, Si为各质量属性的情感倾向比率, i为各质量属性,计算结果如表6所示。

由表6可见,京东售卖的美迪惠尔面膜正向质量评价率比网易考拉售卖的佑天兰面膜高4.9%,整体质量评价更好。整体平均质量为92%,该数据略低于上海市药监局2019年第1期化妆品抽检质量合格率98.3%,主要原因是相比于抽检中使用的理化、卫生等安全性指标,消费者对感官指标的感知更为灵敏。对比2019年《中国化妆品电子商务行业报告》中,消费者对化妆品电商商品满意度87.9%相比较高,原因主要是售卖平台皆为行业头部平台,平台管理机制较为完善。

4.2 基于质量属性与基于评分的质量评价对比

目前评价消费者感知质量,多使用消费者在平台上的评分(1~5分)进行估计,本文聚焦于评论文本这一非结构化数据,通过质量属性词典提取用户情感,对质量进行评价,具有细粒度更高、信息承载量更大的特点。本文将上文计算得出的总体质量正向计算结果与消费者评分为4~5分的评论占比进行比较,发现基于质量属性的评价方法能发现更多的感知质量问题,更大程度地还原消费者的感知质量评价,如表7所示。

4.3 产品感知质量离散程度

谢光明等(2019)指出,总体质量评价的高低和评价的一致性都会影响消费者的购买决策。质量评价的离散性越高,代表质量评价褒贬不一的程度越高[28]。由表8可知,京东平台售卖的美迪惠尔面膜产品正向感知质量评价较高且离散程度较低,说明该产品好评度较为集中;而网易考拉平台售卖的佑天兰面膜产品正向感知质量评价较低但产品感知质量离散程度较高,该产品对不同的消费者可能产生不同的质量风险。

5 结语

本研究提出了基于大数据分析的产品质量评估方法。以面膜产品在线评论为数据源,评估方法包括的步骤有:数据收集、预处理、质量属性词典的构建、文本量化、质量情况评估及质量风险提示。通过分析30769条产品评论,构建基于15个质量属性的质量属性语义词典,得出2个面膜产品的平均合格率为92%。根据进一步的数据分析,研究发现:(1)消费者最为关注的质量属性四位为精华液、补水保湿功效、使用感、嫩肤功效,多为感官指标。通过大数据挖掘在线评论进行质量识别,可有效补充质量抽检中无法检测的用户体验质量。(2)通过对正向情感比率低于60%的产品属性进行分析,发现网易考拉海购平台佑天兰面膜存在跨境商品原产地标准或技术规范要求与我国标准不同而导致质量风险,以及网购体验环节缺失导致的信息不对称性所带来的产品质量风险。(3)与基于评分的质量评估方法相比,基于质量属性的评价方法能发现更多的感知质量问题,更大程度地还原消费者的感知质量评价。(4)通过计算产品感知质量离散程度,可提示正向感知质量评价较低但产品感知质量离散程度较高的产品,对不同的消费者可能产生不同的质量风险。

参考文献

刘欣欣.基于消费者感知的网络购物中商品质量的影响因素研究[D]. 济南:山东大学,2005.

Valarie A. Zeithaml. Consumer Perceptions of Price, Quality, and Value: A Means-End Model and Synthesis of Evidence[J]. Journal of Marketing,1988,52(03).

Kirmani, Arena and Hans Baumgartner. Reference Points Treed in Quality and Value Judgments[J]. Marketing Letters, 2000, 11(04):299-310.

毕雪梅.顾客感知质量研究[J].华中农业大学学报,2004,53(03): 42-45.

钟凯.网络消费者感知价值对购买意愿影响的研究[D].沈阳:辽宁大学,2013.

张鹤冰,李春玲,魏胜.在线顾客感知质量、感知价值对购买意愿的影响——基于消费者异质性视角[J].企业经济,2020(05):113-121.

郑蔓华,黄梦岚,汤德聪,等.顾客感知质量对顧客在线粘性的影响[J].林业经济问题,2020,40(02):189-198.

宫华萍,尤建新,王岑岚.互联网学习产品学习者感知质量因素研究[J].中国远程教育,2020(03):51-57+79+81.

崔永生.在线评论文本挖掘对电商的影响研究[J].中国商论,2018(33):17-23.

Hu,M.,& Liu, B. Mining and summarizing customer reviews[D]. Paper presented at the proceedings of the tenth ACM SIGKDD international conference on knowledge discovery and data mining,2004.

Chung, W., & Tseng, T.-L. B. Discovering business intelligence from online product reviews: A rule-induction framework[J]. Expert Systems with Applications,2012,39(15),11870-11879.

Lee, S., & Choeh, J. Y. Predicting the helpfulness of online reviews using multilayer perceptron neural networks. Expert Systems with Applications,2014, 41(06),3041-3046.

Kang, D., Y. Part.Review -based measurement of customer satisfaction in mobile service: Sentiment analysis and VIKOR approach[J]. Expert Systems with Applications,2014(41):1041-1050.

Tuarob, S., and Tucker, C. S. Quantifying Product Favorability and Extracting Notable Product Features Using Large Scale Social Media Data[J]. ASME. J. Comput. Inf. Sci. Eng. September, 2015, 15(03):031003.

Suryadi, D., & Kim, H. Identifying the relations between product features and sales rank from online reviews[D]. Paper presented at the ASME 2016 international design engineering technical conferences and computers and information in engineering conference,2016.

Zhang, H., Sekhari, A., Ouzrout, Y., & Bouras, A. Jointly identifying opinion mining elements and fuzzy measurement of opinion intensity to analyze product features[J]. Engineering Applications of Artificial Intelligence,2016(47):122-139.

Law, D., Gruss, R., & Abrahams, A. S. Automated defect discovery for dishwasher appliances from online consumer reviews[J]. Expert Systems with Applications,2017(67):84-94.

王科,夏睿.情感词典自动构建方法综述[J].自动化学报,2016,42(04):495-511.

王伟,王洪伟.特征观点对购买意愿的影响:在线评论的情感分析方法[J].系统工程理论与实践,2016,36(01):63-76.

周清清,章成志.在线用户评论细粒度属性抽取[J].情报学报,2017,36(05):484-493.

杨程,谭昆,俞春阳.基于评论大数据的手机产品改进[J].计算机集成制造系统,2020,26(11):1-19.

陈荣义,韩百川,吕梁,等.国家公园游憩利用区游客满意度影响因素分析[J].林业经济问题,2020,40(04):427-433.

马凤才,李春月.消费者对电子商务平台销售生鲜产品满意度测算研究——基于京东生鲜在线评论的分析[J].价格理论与实践,2020(05):1-4.

艾瑞咨询.2018年中国跨境进口零售电商行业发展研究报告[EB/OL].http://report.iresearch.cn/report/201805/3203.shtml,2018-05-02.

陈丽暖.QB/T 2872-2017《面膜标准》的解读与分析[J].质量与认证,2018(03):75-77.

施晓彦,曹喆岫,陈超,等.基于大数据的电商产品质量评价研究——以儿童木制玩具为例[J].广西财经学院学报,2017, 30(05):64-83.

Wenhao Zhang, Hua Xu, Wei Wan. Weakness Finder: Find product weakness from Chinese reviews by using aspects based sentiment analysis[J].Expert Systems With Applications,2012, 39(11).

谢光明,蒋玉石,石纯来.考虑禀赋效应调节作用的网络口碑离散对消费者购买意愿的影响[J].管理学报,2019,16(03):425-438+455.

猜你喜欢
在线评论大数据分析质量评价
面向大数据远程开放实验平台构建研究
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新
在线评论情感属性的动态变化
BP神经网络在软件质量评价中的应用研究 
“中职+应用本科”会计专业人才培养质量评价体系的构建
技工院校校级领导职业素养的建设及质量评价研究
消费者个体行为偏好对在线评论真实性的影响机理研究