基于消费者评论的商品销售研究

2020-10-12 14:14朱曙旸殷丽史逸兴
商场现代化 2020年16期
关键词:熵权法

朱曙旸 殷丽 史逸兴

摘 要:为探究消费者对商品的评论与商品销售之间的关系,本文首先采用系统聚类分析对消费者进行分类,通过TF-IDF法将消费者对商品的评论量化并构建出消费者评论得分模型,再采用熵权法对模型进行优化,确定出不同商品受消费者欢迎的程度,从而可以帮助企业更有效地调整商品销售策略。

关键词:TF-IDF法;系统聚类分析;熵权法

一、引言

近年来,随着互联网的发展与普及,网络购物俨然成为一股时代潮流,相较于商品基本信息,消费者在线上选购商品时往往会更加注重其他消费者对于商品的评价。此外,现今海量数据的存储与处理技术已较为成熟,这不仅奠定了科学的基础,而且为企业做出重要决策提供了信息。

对于商品销售与数据挖掘的研究,许姗姗用深度神经网络等机器学习模型进行建模,实现了对单品的细粒度预测分析;滕树军等人通过对商品关注度的划分建立了多元回归模型从而确定影响商品销售的因素;李晓颖等人结合Hadoop与Spark的优点设计出包括HDFS、Tableau等集群的大数据分析与挖掘平台;陈红平结合大数据相关理论与方法,探究了孤立点算法和ARIMA模型在商品流通企业经营审计中的应用;曹天择对评论文本数据通过情感分析技术进行相应分析,探究了消费者再次购买意愿和要素之间的关系。

二、数据及其处理

本文选用2020年MCM/ICM竞赛C题中的数据,其中包括消费者对亚马逊市场上出售的微波炉、婴儿奶嘴以及吹风机发表的评分和评论。

在数据的预处理方面,对于缺失率超过50%的变量,由于数据完全失真且无法修复,将其剔除以减少偏差,对于丢失小于50%的数据,可以根据相邻的数据进行补充,如果相邻数据之间没有连接,则可以直接删除,因为丢失的数据只是总数的一小部分。对于异常值,用K近邻法对它们进行均值校正,以提高结果的准确性。例如,如果某一组件上有缺失或异常点或观察,则该组件将被移除。利用由其他观测分量组成的向量作为距离,找到最接近缺失点的K观测值。对于评论文本,由于评论数据主要由字母组成,彼此之间的关联程度大大降低,为方便处理,将其中全部都由大写字母转化为小写,并删除标点和空格。

三、消费者评论得分模型

1.模型设定

为了探究消费者评价数据与商品销售之间的关系,本文将消费者对商品不同类型的评论進行量化,并用熵权法赋予各类型评论量化后的值以相应的权重,在此基础上结合这些特定的数据类型得出一个能够反映商品在市场上销售情况的综合指标,即消费者评论得分模型。

2.主要变量说明

(1)星级评定(S):是一种个人评定制度,购买者使用1星(低额定,低满意)至5星(高额定,高满意)来表达对商品的满意程度,它反映了消费者对商品的整体感受和直接评价,直观地显示了商品的可取性程度,本文中用“S”表示。

(2)评论(评论得分P):为了表达对商品的进一步意见和信息,客户提交了基于文本的消息即所谓的“评论”。这些评论不仅表达了客户决策的具体感受和原因,而且可能引发更多类似的评论。本文用P表示评论得分。

(3)帮助等级(F):考虑到评论的多样性和具体要求,我们引入了评论有效性的概念,以减少干扰,这也被称为帮助性评级,本文中用“F”表示。

(4)商品声誉(H):良好的声誉是商品的最佳广告,有助于将潜在消费者转化为忠诚客户。因此,商品的声誉就像商品的生命,反映了商品未来的发展趋势。本文中用“H”表示。

3.TF-IDF算法描述

IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一文档C中包含词条t的文档数为m,而其他类包含t的文档总数为k,显然所有包含t的文档数n=m+k,然而当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好地代表这个类的文本特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词,以区别于其他类的文档。

实际应用中我们可以改变文档结构,将短文本合并成一个文档,增加TF值和IDF值,从而提高算法识别的准确度。

4.模型建立与求解分析

(1)评论得分模型

该模型意在构建一个反映评论的积极和消极意义的评价指标。在对给定的数据预处理后,对各因素进行量化处理。设评论k表示数据表中第k条评论,则有:

从上图可以看出,虽然吹风机的得分在一些年里被另两种商品超过了,但一直处于相对稳定的较高的水平。基于文本度量和评级的度量相结合,我们可以确定销售最成功的商品是吹风机,最不成功的商品是微波炉。因此,为了实现利润最大化,应适当增加吹风机的供应,同时增加微波炉的宣传或改进其生产技术。最近结果表明,2015年吹风机、微波炉和婴儿奶嘴的声誉评分分别为0.7112、0.6461和0.6944。由此可见,电吹风的声誉评分最高。

四、结语

本文基于消费者评论数据,探究了星级评定,评论及评论帮助等级对于商品销售的影响,建立了评论得分模型及商品声誉评分模型,模型将情感权重和TF-IDF算法结合起来,对评论进行量化,可直观地反映消费者的情感,采用熵权法确定星级评定和评论得分的权重,可以更加准确地衡量商品的声誉。由于算法本身的特性,很少需要人工干预,因此可使时间成本大大降低,而通过比较不同商品的得分高低可反映出各商品受市场欢迎的程度,从而帮助企业及时进行销售策略的调整。本文的研究为衡量商品的销售情况及商品的市场反响提供了科学有效的方法,可帮助企业高效地进行决策。

参考文献:

[1]许姗姗.基于机器学习的商品销售预测的研究[J].统计与管理,2019(04):49-52.

[2]滕树军,郑惠文,刘柏森.基于多元回归分析的超市商品销售影响因素的研究[J].全国流通经济,2018(14):6-9.

[3]李晓颖,赵安娜,周晓静,杨成伟.基于大数据分析与挖掘平台的个性化商品推荐研究及应用[J].电子测试,2019(12):65-66+81.

[4]陈红平.大数据环境下商品流通企业经营审计研究[D].重庆理工大学,2019.

[5]曹天择.基于情感分析技术的电商商品在线评论数据挖掘研究[D].浙江工商大学,2018.

[6]刘莹.基于数据挖掘的商品销售预测分析[J].科技通报,2014,30(07):140-143.

[7]张卉.数据挖掘技术在B2B电子商务商品销售中的应用研究[D].北方工业大学,2013.

[8]王萍.基于电子商务背景的智能挖掘技术及应用研究[D].湖南大学,2014.

[9]张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用.计算机工程,2006,32(19):76-78.

猜你喜欢
熵权法
高职机电专业学生数学能力的调查及对策
大学周边健身房满意度调查报告
基于熵权法的京津冀区域信息化协调发展规律模型及其应用
基于熵权法的“互联网+”农业发展影响因素权重确定
基于熵权法的西安市外向型经济发展综合评价研究
城市与区域经济可持续发展
福建省高新技术产业竞争力评价研究
基于熵权TOPSIS模型的出版企业核心竞争力评价
目标导向下的企业内部控制质量评价研究