赵梓贺,徐慧智 (东北林业大学 交通学院,黑龙江 哈尔滨 150040)
在“互联网+”的时代,电子商务已渐渐融入了人们的日常生活。随着消费者在网络购物比例的提高,网络销售平台的数量也越来越多。消费者日益多样化和个性化的需求,使企业间竞争更加激烈,电商进入精细化运营阶段。为了及时地把握市场需求变化,合理地规划有限的资源,基于网销商品全平台的销量预测已成为研究的热点。
国内外学者对此开展了相关研究,王建伟[1]提出了利用产品销售共性提取产品聚类簇的产品重分类预测模型,王雪蓉等[2]通过分析销量的可控关联性进行大数据挖掘,进行动态预测,Juan R Trapero等[3]分析了促销活动中的销量预测,刘治、谢天保和曹永立等[4-6]利用网络爬虫获取评分、搜索数据,对多种预测模型进行比较分析,Jinlou Zhao等[7]提出了在线零售商之间的市场需求信息共享可以实现供应链的增值,降低供应商的库存水平。Ching-Chin Chern、孟园等[8-9]从网络口碑的角度促进了销售预测的研究,张钠等[10]提出由于需求波动较大,不同的订货周期应采用不同的预测方法。Gro Klæboe等[11]提出使用具有平衡状态信息的模型进行模拟预测。
综上所述,商品销量属于商家内部数据,难以从网站上直接获得,传统的统计方法滞后于短时预测需求。区别于传统销售的销量预测,网络数据具有实时性。电商发售平台逐渐增多,各平台之间数据不能充分共享,根据各平台的实时销售数据进行数据挖掘具有现实的应用意义,能够对商品的全平台销售量有总体把握。
本文统计了电商平台产品评价数量,为解决评价与实际销售量存在时间迟滞的现象,设计了用户调查问卷,获取用户的评价延迟期,据此推算平台销售数据。采用时间序列分解法进行短期预测,及时掌握商品的销售动态。
选取五款网络热销手机商品,统计网络销售平台每天的评价数量(实时获取最近1 000条评价,约为1周的销售量数据)。
为了增加数据样本数量,对商品评价数量进行了追踪记录,具体统计时段为2018年8月30日到11月1日。图1为统计结果。
为统计顾客评价延迟期,设计了调查问卷。问卷采取网络发放的形式,共获得反馈问卷250份,经过筛选,有效问卷218份,有效率为87.2%。调查问卷样式见表1。
图1 产品评价数量统计图
为验证问卷调查获取数据的可信度,对调查问卷进行信度分析,相关系数计算见公式(1)。
其中,K为问题数;为第i题得分方差;为总分的方差。
表2为信度系数的取值范围。经计算问卷信度系数0.71(信度系数在0.7<α≤0.9),认为该问卷结果为“很可信”,测验结果稳定可靠,详见表3至表6。
表2 信度系数的取值范围
表3 可靠性统计量
表4 摘要项统计量
表5 信度分析表
表6 项间相关性矩阵
根据调查问卷的问题7,获得被调查者的评价延迟期,见表7。
表7 评价延迟期
根据调查问卷的结果对产品评价数量的数据进行处理。默认商品为次日达,配送时间为一天。则每天的产品销量等于经过不同的评价延迟期后的评价数总和,见公式(2)。
其中,Vi为第i天的销量,Mi为第i天的评价数。
根据公式(2) 得到商品8月29日到10月17日的销售量(8月29日到10月10日用于构建时间序列预测模型,10月11日至10月17日用于验证模型有效性)。图2(a) 至图2(e) 分别为P20 pro、nove3、nove3e、mate10、畅享8等5种商品评价数与销量的对比图。
图2 产品销售量统计结果
选用乘法模式的时间序列对图2数据进行分解,见公式(3)。
其中,Xt为商品销量,Tt为长期趋势因素,Ct为循环指数,Zt为周期性指数,It为随机性因素。
采用移动平均得到长期趋势因素和循环变动因素,见公式(4)。
采用标准差作为指标,确定合理移动步长(比选N=3、N=4、N=5),分析结果见表8。
表8 移动平均的标准差比
根据表5确定的合理步长获取移动平均数列,图3(a) 至图3(e) 为P20 pro、nove3、nove3e、mate10、畅享8等5种商品销量与移动平均值的对比。
图3 商品销量与移动平均值的对比图
将观察值除以移动平均得到数据的周期性和随机性,见公式(5)。
图4(a) 至图4(e) 为P20 pro、nove3、nove3e、mate10、畅享8等5种商品周期性和随机性。
图4 周期性和随机性
以1周为周期,通过累加平均消除随机影响,得到周期性指数,见公式(6)。
其中,ri为每周同一天的平均数,为总平均数。
表9为计算得到的各产品周期指数。
表9 各产品的周期指数
利用趋势外推法求出长期趋势Tt,将循环变动和长期趋势分离开来,结果见图5。
根据公式(7) 得到循环变动因子Ct,P20 pro、nove3、nove3e、mate10、畅享8等5种商品的循环变动因子变化图如图6(a) 至图6(e) 所示。
图5 长期趋势图
图6 循环变动因子
对第7周,即10月10日到10月17日1周的销售量进行预测。循环因子Ct变动周期较长,随机性It无法直接进行预测,因此Ct与It忽略不计,只考虑周期与趋势Zt×Tt的影响,趋势计算结果见表10。
表10 长期趋势预测值
计算长期趋势预测值与周期指数的乘积,得到最终的预测结果,计算结果见表11。
为了验证预测模型的可行性,将预测销量与实际销量进行对比。见表12和图7(a)至图7(e)。
采用MAPE(平均绝对百分误差) 来衡量预测是否可行,见公式(8) 至公式(9),MAPE评价参考表见表13,计算结果见表14。
表11 预测结果
表12 预测值与实际值的对比
图7 预测值与实际销量的对比图
表13 MAPE评价参考表
表14 MAPE计算结果
其中,n为预测的项数,Yi为第i项实际值,Fi为第i项预测值。
结果表明5种商品的MAPE均小于10%认为预测评价效果为“精确”,预测销售量可以较好的拟合实际数据。
本文基于电商的网络数据挖掘进行商品销售量的短期预测,提出了通过记录商品评价数量得到商品销售量数据的方法,设计调查问卷并进行信度分析,提高了网络数据的可信度。基于收集得到的网络数据,运用时间序列分解法分解出长期趋势及周期性变动因素,得到数据的分布规律,根据数据的发展趋势预测下一个周期的销量。
对预测结果进行评价,5种商品的MAPE(平均绝对百分误差)均小于10%,短期预测值与实际销量基本吻合,商品销量的发展趋势遵循长期趋势与周期指数。本文中收集电商网络数据以及用时间序列分解法进行预测的方法适用于对电商网络全平台商品销售数据的获取及统计分析,且方便快捷,具有一定的可信度,可以及时掌握商品在网络全平台的销售动态。