代金辉,王梦恩,仲璇
(山东工商学院 统计学院,山东 烟台 264005)
近年来,电商行业呈现出飞速发展的态势.随着网络技术的发展,网络购物越来越成为全球居民消费的重要渠道.2019年全球网络的零售额占比14%,达3.5万亿美元.据有关研究显示,2022年全球电商销售额将继续稳步增长,预计增长12%,首次突破5万亿美元,达5.54万亿美元.2023年全球网络零售额的比重将增加到22%,最终可达6.5万亿美元.由此可见,电子商务将逐渐成为各国国民经济发展的重要力量.基于此,客户在购物时产生的交易数据蕴藏着巨大的价值信息,电子商务平台应该对销售数据进行深入挖掘合理利用.
大数据背景下,众多研究提出应当积极利用大数据技术对商务数据进行提取、整理、挖掘进行整合分析[1].如对商品价值、用户行为进行分析,进一步了解客户购买需求与喜好,优化企业运营、营销模式.对不同的消费者进行差异化营销,实现客户的个性化服务,最终提高运营的效率、电商平台的竞争力[2-4].
从目前已有的研究来看,对电商销售数据的分析主要体现在3个方面:一是采用可视化分析的手段,对销售数据进行分析,费千笑采用数据可视化方法,从时间维度、用户行为与商品分析方面进行研究[5];二是利用RFM模型、K-means聚类算法对客户进行细分,贾桂霞和陈东清构建客户分层模型并提出差异化的客户营销策略[6-7];三是根据客户购买记录实现商品个性化推荐,多为推荐方法研究,张鹏飞对客户的行为数据进行分析,实现对客户的商品推荐[8].
综上,已有研究多从某一方面对数据进行分析,缺乏完整的数据分析体系.本文创新性地从商品价值、客户价值以及客户与商品购买关系3个角度,设计数据分析、特征提取的流程,根据帕累托法则,设计分析筛选高价值客户的流程与方法,根据客户的购买历史设计商品推荐算法,从而系统地对电商平台订单进行数据分析,帮助商家从网络运营数据中挖掘有效的消费信息,更好地提高客户忠诚度、稳定客流,不断调整运营方向,提高行业竞争力.
K-means算法是相对比较简单的一种迭代型聚类算法[9],并将距离作为相似性指标,因此可以发现所给数据集中的K个类,且每一个类的中心是可以通过计算类中所有数值的均值得到,每个类的中心用聚类中心来描述.
RFM分析是一种将客户分层,进而针对不同客户群体进行精细化运营的方法[10-11].RFM模型从消费时间间隔(Recency)、消费频率(Frequency)和消费金额(Monetary)3个指标对客户的价值进行评估.针对每个维度设定一个阈值,将每个维度划分为二,即高于阈值和低于阈值,三个维度将客户整体划分为23=8个客户细分群.
客户细分情况如图1所示,根据R、F、M的高低将客户群体划分为重要价值客户、重要发展客户等8类客户[12].
图1 客户细分图
协同过滤算法又称社会过滤[13],被广泛用于推荐系统的设计,从海量的用户中挖掘信息,根据用户历史行为数据中挖掘出用户的喜好偏向,对用户可能喜好的产品进行预测、推荐.协同滤波的实现:根据和你有共同喜好的人给你推荐;根据你喜欢的物品给你推荐相似物品;根据以上条件综合推荐.
协同滤波算法可以分为基于用户的协同滤波、基于物品的协同滤波,也就是“物以类聚,人以群分”,并据此进行预测与推荐.
样本数据来源于2022年应用统计案例大赛提供的某礼品批发电商平台一年内的订单数据,包括发票、产品代码,客户ID等8个字段,389169条交易记录.
在对数据进行分析之前,应该先对历史订单数据进行预处理操作.由于历史订单数据数量、变量过多等各种因素,导致给出的数据集会存在异常值、缺失值、重复值,无法直接对数据进行分析,所以对电商平台一年内的订单交易数据进行预处理.
清洗后的数据一共为342466条交易记录,但是退货数据记录作为异常值被剔除,由于本文还要对退货数据进行分析,所以要对退货数据进行提取,经过数据清洗之后的退货数据,一共有1633种不同产品发生退货,将数据集分为产品购买、商品退货信息两部分.
3.1.1 平台每月的销售状况
不同的月份,产品的交易量会有所不同,该电商平台一年的月交易量(Monthly)、月销售额(Monthsale)变化如图2.
图2 平台每月交易情况
由图2可知,该电商平台2011年8月、9月、10月、11月的销售单量持续增长,2011年的11月的最高销售单量达到2657单.临近年末,该平台可能采用举办年末大促、购物节等促销手段,吸引客户.1月份到6月份的销售单量不稳定.
电商平台在2011年9-11月的销售额与销售量的变化一致,都处于较高水平.我们发现2011年1月份的销售单量较2010年12月份的销售单量少,但两个月份的销售额水平大致相同,说明1月份销售产品的单价水平比12月份产品的单价水平高.
3.1.2 平台每周的销售情况
将交易时间年、月、日转化成交易周,分析电商平台平均一周的周交易量(Monthly)、周销售额(Monthsale)变化情况如图3.
图3 平台每周的销售情况
由图3可知,该电商平台2010年12月到2011年11月一年的销售订单中,周四的销售单数最多,周五、周日的销售单数少,可能与人们的消费习惯相关,临近休息日的网上消费较少或者该电商平台销售产品针对的不是普通消费者.每周的销售额与交易单数的变化趋势基本吻合,电商平台的交易额在周四达到顶峰.周三的销售量比周二的多,周三较周二的销售额反而更少,这可能与产品的销售种类不同有关.
3.1.3 商品的销量
从整理好的销售数据中我们筛选出销量前20的产品,将这些产品作为热销产品.
由图4可知产品代码为84077的商品销量最多可达五万多件,说明客户对于这些热销产品有很高的需求,建议该电商平台应该多引进该类产品的子产品为客户提供更多的选择,从而提高这些热销产品的销量.
图4 热销产品销售量
3.1.4 商品退货情况
将退货数据进行筛选、整理,在处理退货率的数据时,发现退货率出现大于1的情况,说明这类产品存在退货数量大于下单数量的情况,数据信息缺失,统一将退货率改为1.对退货率最高的20种商品进行分析.
从图5中可以看到,该平台不少产品存在退货率高的情况,基于此,平台应针对这些高退货率的产品认真分析,及时调整销售策略.
从“商品是否畅销”“是否具备高盈利能力”“是否退货率较高”3个指标使用K-means聚类方法来对商品的商业价值进行评估,最后根据肘部法确定最终分类数K=4.
由分类结果来看,将商品分成4类分类效果较好,每一类各维度的平均值如下表:
从以上结果来看4类产品的特点为:
第一类:销量一般-较高盈利-较低退货率;第二类:低销量-较高盈利-低退货率;第三类:高销量-高盈利-较低退货率;第四类:较高销量-低盈利-高退货率.
由产品的分类情况,该平台的第一类产品的品类数最多,占该平台销售的所有产品77.8%,但是该类产品的销量一般,该平台可以适当减少该类产品的进货量,避免出现存货积压的情况.高销量、高盈利、低退货率的第三类产品的种类占比较少仅占13%,该电商平台应该多增加一些这类产品的品类,提供给客户更多的选择,从而提高该平台的销量水平.
4.1.1 R、F、M分箱
从交易数据中提取R、F、M 3个指标的信息.按R值越小、F、M值越大越好的规则将3个指标各自划分为5个评分层级,得到RFM评分表如下.
由表2可知,大部分客户最近一次消费的时间间隔较短、消费频率较低,这说明客户在电商平台购买的商品大多为耐消品.为了更好地研究客户的消费行为,分别将R、F指标的频数分布与消费金额占比结合分析.
由表2、图6可知,距离最近一次购买天数在0-12 d时,顾客数量占比20.2%,贡献了46.9%的消费,在177-364 d时,顾客数量占比20.0%,仅贡献了6.2%的消费.说明消费间隔短的绝大部分客户,消费能力高.相比许久未消费的客户,采取适当营销策略唤醒、刺激其消费更容易.
由表2、图7可知,在该电商平台消费1-2次的客户占比为56.7%,超过了客户总数二分之一,但消费金额仅为16.6%.消费频率最高的客户占比少,反而贡献了54.0%的消费金额.说明客户消费频率越高,客户越忠诚其贡献的消费金额越多,客户消费频率越低,客户越不稳定,其贡献的消费金额越低.电商平台可以根据客户的消费频率、累计的消费金额建立奖励机制.如针对忠诚度高的客户,当累计消费金额达到不同水平时,购买商品时可以享受不同程度的折扣,以增加客户的粘性.
图7 F频数分布及消费金额占比情况
图8 客户的分类结果
4.1.2 分类
对消费间隔(R),消费频率(F),消费金额(M)计算平均得分,将每个客户的RFM各指标评分与平均值比较将大于平均值的指标记为高,反之记为低并结合表1,得到以下分类结果.
表1 分类商品各维度均值
表2 RFM打分表
从分类结果来看,重要价值客户和一般挽留客户所占人数较多,重要发展客户、一般价值、保持客户所占人数少.为了更好地分析每种客户类型的行为特征,计算不同价值客户的消费金额、商品购买量、订单总量等各项指标的均值,并为不同价值类型的客户提出相应的销售策略.
由不同客户价值各指标均值对比可知,重要价值客户的消费金额、消费次数的均值最高,属于忠诚用户可以采用让客户有荣誉感的销售策略,提高客户的忠诚度.一般保持客户、一般挽留客户除最近消费间隔均值高外,其他各项指标都较低,说明客户处于流失阶段,可以不做营销.但电商平台的一般挽留客户占比较高,可以对这部分客户进行各种渠道推送优惠活动,若唤醒效果不佳可以减少对这部分客户的营销.对于重要发展客户可以对提升其客户价值、稳定和延长其高消费水平,防范重要挽留客户的流失并积极进行关系恢复.
本文选择基于用户的协同滤波,首先对数据进行处理,整理出客户的购买信息,使用杰卡德相似系数计算两数据之间的距离,进而计算客户间的相似度,并依据他们的相似度分数,寻找到与该客户最为相似的两个客户,结合客户和相似客户的购买记录,对客户第13个月可能购买的产品进行预测.部分预测结果如表3所示:
表3 预测结果
由表3可知,ID为12347的客户可能购买产品代码为22144、84988等商品,利用用户的协同过滤算法,最终实现商品的个性化推荐,不仅帮助客户更快买到所需商品,还将客户与商品进行连接;在解决商品信息过载问题、提升客户购物体验的同时,还提高了平台商品的转化率和销售水平.
第一,建议电商平台根据商品的商业价值,选择合适的商品进行销售,并时刻留意市场的变化动态以及发展趋势,对商品的商业价值进行更新.该平台销量一般-较高盈利-较低退货率的商品的品类最多,但是销量一般,该平台可以适当减少该类产品的进货量,避免出现存货积压的情况.高销量-高盈利-较低退货率的商品的品类较少,该电商平台应该多增加一些这类产品的品类,提供给客户更多的选择.并建议该电商平台可以多选取这样的商品进行销售,将其作为主打产品进行推广.对于低销商品,建议电商平台进一步查找原因,进一步提升交易量,可以针对该平台的爆款产品带动滞销产品,利用二八定律中的80%的剩余商品的利用价值建立热销产品和低销产品的捆绑关系,推出合适的捆绑营销.按月来看,2011年9-11月为销售的高峰期;按周来看,每周四达到销售高峰;这说明该电商平台的促销效果较为明显,应该继续抓住促销的黄金时期.
第二,客户是一个企业生存的根基,也是商业模式的核心.应该利用RFM等客户分类模型对客户进行分层,了解每位客户的特性,实现差异化营销,最终实现企业利润的最大化.该平台要利用有限的资源抓住重要发展客户,提供会员积分服务,给与一定程度的优惠来提高留存率;对于重要价值用户,建议升级为VIP客户,提供个性化服务,倾斜较多的资源提高售后服务的质量,建立积分商城,完善积分体系,提高用户的生命周期.对于消费频率低、粘性不强的客户,应推荐一些促销力度较大的商品,通过拼团打折、发放满减优惠券等方式唤起这部分用户的注意力,当资源分配不足时可以选择暂时放弃该部分客户.