基于皮尔逊相关系数的网购大数据分析
——以天猫佰润居旗舰店交易记录为例

2020-07-20 10:11佘梓航徐嘉桦姚志玉梁伟典
韩山师范学院学报 2020年3期
关键词:销售量天猫商家

佘梓航,徐嘉桦,姚志玉,梁伟典

(韩山师范学院 数学与统计学院,广东 潮州 521041)

随着大数据时代的到来,信息技术的进步加快了互联网的发展,网络平台购物以方便、快捷、价格低的购买模式越来越受到广大网友的喜爱.近年来,我国网络交易的结构,已经发展为以天猫为首,京东、苏宁、拼多多、亚马逊中国、唯品会、当当网、网易严选等电商共同发展的局面.网络技术的蓬勃发展一方面给网络商家们带来巨大的利润,但另一方面又带给网络商家史无前例的挑战.网络购物的用户早已经破千万,网络购物的成交额也在逐年的增长.仅2018年天猫“双十一”购物节当天的成交额,就已经突破了2 135亿[1].成交额的提升,也预示着商家的数据分析能力、库存管理能力和用户管理能力也要相应地进行提升.与此同时,数据库技术的发展使得获取、存储这些交易数据成为了可能.对这些庞大的交易数据进行有效的数据分析,能够为商家提供各个方面的指导.不少的学者也已利用数据分析方法对大数据进行分析.例如:叶春姣[2]对2013年9月至2015年12月京东线上手机交易记录进行分析,利用空间聚类、分类回归树等数据挖掘方法,得出全国手机网络消费者的时空分布情况.郭成蹊[3]利用天猫网站用户2014年4-7月真实数据进行分析,得到预测客户流失的模型,包括决策树模型、logistic回归模型及迭代决策树模型.黄益国[4]通过使用数据挖掘技术,对淘宝化妆品NL 店铺的客户以及商品销售进行分析,基于k-means 聚类算法对NL 店铺的客户进行分类,将客户分为高级VIP、普通VIP及普通客户,并且利用贝叶斯分类方法预测了NL店铺不同的客户对新产品A 的购买倾向.Moe[5]和Sismeiro[6]也分别通过网站点击数据和用户浏览网店的历史记录数据,建立了用户再次购买概率模型和购买行为统计分析模型.

本文利用统计分析方法,通过python软件,以淘宝天猫旗舰店佰润居旗舰店陶瓷产品销售情况为例,分析该旗舰店产品的时空交易分布的情况,同时通过历史数据,预测2019年佰润居旗舰店的商品交易量,为佰润居旗舰店的库存管理提供一定的指导.

1 问题假设及数据预处理

通过与佰润居旗舰店的商家进行联系,获得了佰润居旗舰店2017年1月1日至2019年6月11日共131 281 条交易记录及相关商品编号数据(编号信息未在图1 中给出),具体原始数据的例子见图1(数据已去掉涉及买家隐私的相关信息).

对于获得的数据,本文进行如下假设:(1)订单付款时间即为买家交易时间;(2)买家收货地址即为买家所在地,不考虑买家将商品寄给其他人的情况;(3)对于不同标题的产品,如果商品编号一致,视为同一种产品.

图1 用户购买信息

对于这131 281条交易记录,先去掉有缺失和未付款的数据.随后,对于没有缺失的数据,使用python软件对商品的收货地址进行分词,提取出地址中省市的信息作为指标.同时按照年份和月份为时间指标,按照省市和年月联合指标对余下的数据进行分析.具体研究方法及成果将在下文给出.

2 研究方法及数据挖掘算法

通过条形图、皮尔逊相关系数及均值等分析方法,对所拥有的数据进行分析.假设X=(x1,x2,…,xN),Y=(y1,y2,…,yN),则均值[7]的定义为

皮尔逊相关系数[7]的定义为

显然-1 ≤ρXY≤1.当ρXY=0,X 和Y 不具有线性相关的关系;当ρXY>0,X 和Y 具有正线性相关的关系;当ρXY<0,X 和Y 具有负线性相关的关系;当ρXY越接近±1时,相关性越高.

本文使用python软件对数据进行挖掘分析,具体使用的挖掘函数及算法逻辑如下:

Step 1:收集数据,保存为csv后缀文件;

Step 2:使用函数pd.read.csv读取数据,按照年份建立数据集;

Step 3:使用循环语句,将商品标题与商家提供的编码进行转换,建立编码集;

Step 4:使用split 函数按“-”及“/”为分隔符,分别将年月及时刻分开,建立相应的时间集,并通过astype将时间集转换成str类型;

Step 5:使用split函数按“ ”为分隔符,将省份及城市分开,建立相应的位置集;

Step 6:使用groupby函数及sum函数对前述步骤中所建立的数据集进行计算,得出不同省、不同市在不同年月的销售量情况,同时计算相应的增长率;

Step 7:画图展示计算结果,数据分析.

下文将对python分析出来的结果进行展示,并且给出相应的分析结论.

3 结果与分析

3.1 年度销售情况分析

将2017 年至2019 年5 月份的所有交易量进行统计,如图2所示.

从图2中可以看出,2018年销售量远高于2017 年,同时,2019 年的前5 月份的销售量已经接近2017 年全年的销售量.可以发现该旗舰店的销售量呈上升趋势,平均月销售量也能看出上升的趋势.因此,商家应该对自己企业的产品有信心,继续提高商品质量,保持销售趋势.通 过对2017 年至2019 年5 月份的月销售量进行分析(图3).从图3可以看出,2017 年与2018 年月销售量、2018 年1-5 月销售量与2019 年1-5月的销售量都有正的线性相关关系,通过计算皮尔逊相关系数,得到相关系数分别为ρ1≈0.316 和ρ2≈0.384 .考虑到2017 年及2018年2月份都是农历春节,大部分天猫旗舰店商家都暂停营业,大部分快递公司也停止服务.因此,在剔除2月份销售量数据之后,2017 年及2018年月销售量相关系数ρ3≈0.646,有高度的正相关性.可见不同年份的相同月份之间的销售量有正相关关系.高度正相关性可以让商家利用历史数据,建立相应的库存模型.

图2 年度总销售量、平均月销售量直方图(单位:件)

图3 2017年至2019年5月份月销售量折线图(单位:件)

3.2 产品销售区域分布分析

2017年及2018年的区域销售数据,见表1和表2.

表1 2017年各省份陶瓷销售量(单位:件)

表2 2018年各省份陶瓷销售量(单位:件)

由表1 和表2 可以看出,东部地区销售量远远高于中部和西部,而中部和西部销售量差异不大.除香港特别行政区外,沿海地区销售量远远高于内陆地区,内陆地区销售量远远高于高原地区,各个地区的销售量趋势,可以查看图4.西部地区的销量少跟其经济水平有关,而香港地区的销量少主要是受到邮费及跨境运输难度大所造成的影响.2017、2018年两年都保持销售量前三的区域是广东、江苏、浙江三省.

按照城市为指标进行划分,对2017、2018年不同城市的销售情况进行分析.图5给出了2018年销售量前十名的城市的销售情况,比较了这10个城市在2017、2018年两年的销售量情况.2018年销售量前十名的城市的销量达到了总销量的33.28%.可见,排名前十的城市销量变化对全国总销量的变化有巨大的影响.从图5中可以看出,排名前十名的城市以一线城市为主.除了广州负增长之外,其他城市的销售量均有所增长,尤其是重庆、上海和南京.重庆2018年的销售量是2017年的5.24倍,上海2018年的销售量是2017年的2.42倍,南京2018年的销售量是2017年的2.05倍.因此,商家可以通过查找广州、重庆、上海、南京几个地方的交易数据(如:退货量、客户要求、发货要求、发货时长、购买商品类型等)来分析导致负增长和高增长的原因,进一步改善自己的产品.

图4 2017、2018年各地区销售情况对比(香港特别行政区除外)(单位:件)

图5 2018年销售量排名前十的城市近两年销售量情况对比(单位:件)

3.3 产品结构分析

根据2017、2018年两年的商品销量进行统计,得出表3、表4.

表3 2017年销量前十名的商品(单位:件)

表4 2018年销量前十名的商品(单位:件)

通过表3、表4可以看出,2017年销售量前十名的商品销售量总和为48 852件,占2017年度销售量80 148件的60.95%,2018年销售量前十名的商品销售量总和为60 983件,占2018年度销售量142 188件的42.89%.2018年销量前十名商品销售量所占比重相对于2017年有所降低,但2018年年度销售量总体升高,说明商品的单一品种高销售量化程度有所降低,从侧面反映出商家产品结构越发多样化,这也从与商家的交流中得到了验证.

销售量前十名的商品都是以餐具和杯子为主,这也显示市场对餐具和杯子需求量巨大,商家可以通过提升这两种陶瓷产品的质量,同时降低生产成本,来获取更高的商业利润.

3.4 产品销量预测

从上文已知2017、2018两年的月销售量存在高度相关性,除去2月份的数据,计算出2018 年1、3-5月份相对于2017年1、3-5月份平均月销售量增长率为47.03%,2019 年1、3-5 月份相对于2018 年1、3-5 月份的月销售量增长率为43.51%.这两年的平均增长率基本不变,这启发我们使用2018年(除2 月份)销售量平均增长率来对2019年的销售量平均增长率进行估计,通过简单的计算,可以得到2018 年相对于2017 年的月销售量(除2月份)平均增长率约为107.25%.基于此可以对2019年6-12月份的销售量进行预测,得到图6.

图6 2017年至2019年5月份月销售量及2019年6月至12月销售量预测值(单位:件)

从图6可以看出,若按照往年增长趋势,6月份及11月份的销售量都会再创新高.由于该旗舰店销售量前十名的商品以马克杯和餐具为主(由表3、表4可见),考虑6月份高考结束,大量高中毕业生买杯子的需求增加,再加上天猫年中大促,同京东商城店庆日“618”竞争流量,从而导致了6月份的高销售量.天猫“双十一”购物节是11月份销量巨大的最主要原因,2019年11月份销售量可能达到47 145件.因此,根据数据可相应增加库存,为迎接销售高峰期做准备.

4 结论

通过对2017至2019年5月份佰润居旗舰店的年销量、月销量、产品销售区域、产品结构等几个方面进行统计分析.从分析中得出,不同年份产品数据在相同月份的销售量有强的正相关关系.通过python软件进行分词及统计,发现佰润居旗舰店的产品在广东、江苏、浙江三省持续畅销.在成本允许的情况下,商家可以考虑在这三个省建立相应的仓库,方便销售及快速发货.同时,商家可以考虑使用天猫直通车推荐系统,为前十名城市的消费者设置推送权重,保持销售量前十名的城市的销售情况.最后,通过平均值预测,2019年11月份商家销售量可能达到47 145件,商家可以事先库存相应的商品,为天猫“双十一”购物节做准备.

猜你喜欢
销售量天猫商家
中国人不骗中国人
5月份鄂尔多斯市煤炭销售量为5691万t 同比增长5%
No.9 天猫国际:2021财年第一季度GMV同比增长超40%
No.4 快手电商:已帮助至少50万线下商家恢复生意
捷报
美国豆粕出口销售量预计为0到18万吨
天猫“北伐”
春节黄金周陕西省商家揽金二百一十亿元