基于在线评论的电商产品特征提取
——以淘宝女鞋产品为例

2019-12-17 09:21
新营销 2019年13期
关键词:女鞋高频词词频

(北京物资学院 北京 101149)

根据2020年中国互联网络信息中心(CNNIC)发布的第46次《中国互联网络发展状况统计报告》,2020年中国网购人数规模已经达到6.59亿人,网购渗透率达到79.5%。2020年上半年,我国互联网个人应用形成平稳增长态势。其中,电商直播、短视频、网络购物增长最为显著,增长率分别为16.7%、5.8%和5.5%。有研究显示,91%的网购用户会在购买新产品时会参考之前用户的购买反馈,在线评论作为网购用户反馈的重要媒介之一,在线评论文本所包含的商品特征对消费者购买产品与商家提升服务质量有着重要的参考意义。

一、研究目的及意义

根据2020年4月的淘宝指数,在淘宝平台网购的消费者80%是“小年轻”、“青年”与“青壮年”,同时消费者的性别比例为1:9(男:女),女鞋在淘宝总的类目排行榜中排名第六,因此电商女鞋产业具有丰富的消费者受众并带有大量的用户评论信息。2020年上半年,前中国女鞋行业第一“巨头”达芙妮营业额骤降85%,亏损1.14亿港元,同时在淘宝女鞋的支付排名也跌出了10名以外。网购对传统女鞋行业造成了一定冲击,传统零售巨头在电商升级转型时也会遇到巨大的困难。网购相较于线下实体店的购买,不仅仅是支付方式的升级,同时也是营销、制造、物流等多方面的全方位的升级。因此本文选择能充分反映消费者感知的在线评论这一信息来源,并从中提取产品特征。本文将选择淘宝的女鞋行业作为研究对象,对研究消费者网购关注点以及传统女鞋零售企业进行产业升级提升服务有着一定的指导作用。

二、研究设计

在线评论的特征提取的主要步骤包括数据的获取、数据的筛选清洗,数据并归提取特征及一致性检验等环节。流程如图1所示。

(一)数据来源

本文的大部分数据来源于淘宝平台,淘宝是一个受众面广、在我国电子商务领域具有重要影响的综合性电子商务网站。以支付宝为核心的平台化、用户数量、用户规模都具有巨大的优势,故本文选择采集2020年5月同品类销量前五名的网店的部分鞋款的在线评论,本文将以同品类排名前五的淘宝店铺部分商品的在线评论为基础,提取商品特征,并对提取的商品特征进行分析对比。

图1 评论数据处理流程图

(二)数据的获取

采用OCTOPUS爬虫软件对淘宝平台女鞋销量排名前五店铺的2020年5月1日至2020年5月31日的在线评论数据进行爬取。

(三)数据清洗

为提升提取结果的精确度,考虑到在线评论中无用以及重复的评论,会对最终的提取结果造成影响,主要是借助Excel中的“排序”和“查找”功能依靠手工操作完成,其中去重复部分运用 ROST 软件完成。最终经过数据清洗后剩余 10260条有效评论。

(四)文本内容处理

直接获取的在线评论大多属于自然句形式,需要准确提取要素需要对在线评论进行预处理。在线评论中还包含默认评论、语义不完整的词句、包含一词多义的评论、上下文相关性不强的评论与语意模糊的评论等。因此,获取的在线评论文本需要进行规范化的预处理。

本文采用了ROST 6.0软件。将所得到的数据分别进行格式转换,转换为文本格式后进行预处理。本文在对评论文本进行分析之前,首先利用分词功能对在线评论数据集文档进行分词,使得非结构化的文本转化为机器能够读取的离散数据。分词是否准确,将会影响后面的工作质量。

ROST分词系统的词库有限,同时基于本文的研究对象,分词需要更加具有针对性。因店铺评论中包含许多专有名词以及口语化词语,例如“尺码”“磨脚”等,为保证后续研究的准确性,通过分批抽查分词结果的方式多次更新自定义词表,直至抽样结果中无遗漏的词语,更新分词及词频统计结果,具体更新内容如表2所示。

表1 更新词表

(五)一致性检验

本文选用店铺在线评论代表该类行业的在线评论,为保证其科学性,将这些评论分为五组,分析其高频词的相似性,以验证数据的内部一致性。信度分析是指对同一对象进行反复测量的(所用方法相同)结果的一致性程度,其常用的方法是信度系数法,即Cronbach系数。计算公式如下。其中K为量表中题项的总数,Si为第i题得分的方差,Sx为全部题项总得分的方差。通常α<0.35 表示信度很低,α>0.7 表示信度高。而α>0.8 则表示可靠性极高。根据不同组别评论中高频词出现的频率,采用 SPSS 23.0 的相关分析方法,分析高频词在组别间分布的相似性。五家店铺词频前五名的因子的Pearson相关系数显著水平下两两之间的相关系数都大于0.7,显示具有显著相关性,说明5家网店消费者的关注点具有很高的一致性。同时,五组数据高频词出现频率的克朗巴哈系数为0.976>0.7如表所示,说明本文提取的数据较有代表性,能够代表该品类的评论。

三、在线评论商品特征提取

通过停用词表和归并词表之后的统计分词词频统计如表所示。

表2 主要词语词频统计表

本文将高频词按照特征进行分类,将外观、舒适度、材质、尺码、品质、物流质量、脚感、商品价格、气味、物流服务、商品特点等进行分类。

四、结语

本文抽取出了一些能够体现消费者感知的产品特征词,从前文可以看出,排名最高的词汇是“好看”,频次数为 3926,约占样本总评论数的 41%,大于三分之一的消费者会在评论中提及商品的外观,平价女鞋作为一种快消品,消费者对其的关注是符合实际情况的。高频特征词中排名比较靠前的“质量”、“舒服”等词,表明很大一部分消费者在选购产品时会考虑商品质量、舒适度等。同时“性价比”、“价格”、“物流”等词表示消费者同时也关注商品的物流服务质量以及商品的价格。因此电商女鞋企业应该主要关注产品的设计更加跟进潮流,同时需要关注产品的材料的运用及供应商选择、定价策略以及物流服务提供商的选择等。

猜你喜欢
女鞋高频词词频
30份政府工作报告中的高频词
省级两会上的高频词
基于词频分析法的社区公园归属感营建要素研究
28份政府工作报告中的高频词
省级两会上的高频词
设计不“南”2020/21秋冬女鞋8大趋势剧透来袭
词频,一部隐秘的历史
中国女鞋之都8·18冬靴订货会 成都女鞋再放异彩
中国女鞋之都秋冬女鞋补单订货会再创佳绩
云存储中支持词频和用户喜好的密文模糊检索