基于机器学习算法的服装直播销量预测模型

2024-12-31 00:00:00韩铂李沛
丝绸 2024年7期
关键词:随机森林机器学习

摘要: 为了完善直播销量预测的指标体系,提高直播销量预测的准确率,本文对比多种机器学习算法,分析服装直播销量的影响因素并预测服装直播销量。首先,通过文献分析选取直播销量的影响因素,并使用Spearman相关系数结合显著性进行筛选。其次,通过不同机器学习算法建立服装销量预测模型。选用R2、MAE、RMSE及MAPE为评价指标,采用5折交叉验证的方法,测试各模型性能。研究结果表明:主播粉丝数、主播近30天场均观看人次、主播近30天场均坑产、产品价格、产品讲解时长、产品近30天历史销量、品牌粉丝数、品牌近30天历史销量、折扣这9个因素之间共线性较弱且与直播销量之间的相关性显著,可作为预测模型中的影响因素;预测算法中K近邻算法和随机森林算法的表现较好,R2均大于0.98,MAPE均在30.5%以内。预测结果可帮助零售商规划库存,调整生产计划,为产品采购、定价、推广提供数据支持。

关键词: 直播销量预测;机器学习;随机森林;K近邻;SVM支持向量机;五折交叉验证

中图分类号: TS941.1; F426.86 文献标志码: A

电商直播是一种生动且实时的互动模式,为消费者提供丰富的信息,并促进消费者的购买[1]。根据《第52次中国互联网络发展状况统计报告》显示,至2023年6月,中国电商直播的用户规模已经达到5.26亿人,占总体网民的48.8%。电商直播蓬勃发展的同时,销售预测不充分可能会导致供货调度不及时,引发库存问题,影响消费者满意度,并造成商家利润损失[2]。服装行业作为零售业的一大品类,具有变化快、季节性强的特点[3]。同时,直播销售的实时性和动态性导致了直播销量的不稳定性,产品的供给与需求往往得不到合理的平衡[4]。在服装直播销售过程中,供过于求会增加仓储成本,造成产品贬值;供不应求则会降低消费者购物体验,为主播声誉带来负面影响[5]。因此,准确预测服装销量可以帮助商家优化库存管理,从而制定销售策略[6]。

由于线上购买可选择范围的扩大,因此线上销售预测比线下销售预测更具有挑战性[7]。国内外学者基于统计学和机器学习算法在销量预测方面进行了大量研究,其中传统的预测方法主要基于统计学。李建斌等[8]通过SARIMA模型预测了非促销时期电商平台的医药销量;Ruitenbeek等[9]采用logistic回归和Lasso回归预测了具有季节性和间歇性需求的商品销量。然而,由于直播销量的影响因素较多,传统的统计学往往不足以预测复杂的决策过程[10]。近年来,机器学习作为一种强大且精准的预测工具,已广泛应用于服装领域。常用的机器学习预测算法包括BP神经网络[11]、随机森林算法[12]、SVM支持向量机[13]、K近邻算法[14]、LSTM算法[15]等。刘妍兵等[16]通过BP神经网络,基于9大流行元素,预测了童装流行元素。罗戎蕾等[17]基于遗传算法改进的BP神经网络建立了服装销量预测模型,预测了当年同月同品类的服装销量。郑金峰[5]基于模拟退火算法优化BP神经网络,预测了太平鸟品牌的直播销量。目前,使用机器学习算法预测服装销量大多针对某一品牌或某一品类,并且使用的算法类型较为单一。

因此,本文对直播销量影响因素进行分析,并通过不同机器学习算法,构建服装销量预测模型。根据多种指标对比不同机器学习算法模型的预测效果,找出最佳预测方法,为服装直播销量预测提供了一种新的思路和方法,并且对于商家生产计划、库存管理和营销策略改进有重大的实践意义。

1 数据与模型构建

1.1 影响因素选取

准确预测服装直播销量需要深入了解服装销量与直播销量的影响因素,建立科学的预测模型。传统的服装销售预测方法通常基于历史销售数据和市场趋势[17]。然而直播方式引入了更多变量,如主播个性、直播内容的吸引力、观众互动等,使得销量预测变得更加复杂和多样化[18]。服装直播销量预测既要考虑服装自身属性,也要考虑直播相关因素的影响。本文通过检索最近10年的相关文献,筛选服装直播销量的影响因素。第一轮筛选过程中使用服装直播销售预测为主题,在中国知网中检索出相关文献3篇。由于文献数量较少,第二轮筛选中使用服装销售预测和直播销售预测为主题,期刊文章中选择北大核心,在中国知网中检索出相关文献33篇。为结合国外最新研究成果,第三轮筛选在外文数据库Science Direct中进行,输入相关关键词,保留最近的50篇研究。为保证文献质量,对文献内容进行筛选,筛选条件如下:1) 文章中提出了服装销量预测或直播销量预测的指标体系;2) 排除综述类文章及针对单一品类的研究;3) 文章需要提供研究方法和参数设计等重要信息。筛选结果如表1所示。其中,Xu等[2]结合产品的文本特征、视觉特征与文本-图像相似度提出了一种直播电商产品销售预测的多模态分析框架,其预测变量包括讲解时长、价格、新粉丝数量、最高观看人数、点赞数、商品数量、历史口碑、商品文字描述、商品图片、文字-图片一致性、弹幕数量、弹幕质量。Wang等[10]结合结构方程模型与人工神经网络,以主播视频数、直播次数、平均停留时长、互动评论个数、页面访问量为影响因素预测直播销量,该模型的预测准确率达到了83.76%。罗戎蕾等[17]采用遗传算法优化的三层BP神经网络,以历史销量、季节因素、节假日因素、品类因素为输入变量预测了服装销量。

以往研究从不同角度构建了直播销量影响因素的指标体系。其中,Xu等[2]使用多模态分析,从主播角度,探究了主播声誉对直播销量的影响并预测了直播销量。李雪[20]基于AHP和BP神经网络,从产品、品牌等角度选取影响因素,预测服装销量。郑金峰[22]通过实证分析将消费者直播购买意愿的影响因素划分为主播因素、直播因素、服装因素和促销优惠。本文结合文献研究中的维度划分,将影响直播销量的因素划分为主播因素、产品因素、品牌因素和促销因素四个方面。并且,考虑到数据的可获得性,删除或替换一些无法获取或难以量化的变量。例如,最高观看人数在直播前是无法获取的,因此用场均最高观看人数替代。主播带货匹配度等因素难以量化,予以删除。初步筛选的影响因素如表2所示。

1.2 数据来源与数据预处理

本文的数据均来源于网站灰豚数据(dy.huitun.com)。该网站涵盖大量直播后台数据,覆盖范围广,数据量大,常用于服装直播销量预测[5,19],可以反映消费者的直播观看与购物决策情况。采用分层抽样的方法,在抖音直播库中获取了2023年8月10日—9月30日间30场直播共265条服装相关的直播数据,其中包含的服装品类有裤装、裙装、外套、衬衫、T恤、卫衣等应季服装。在训练模型之前,需要对数据进行缺失值处理。其中,数值类型的数据缺失采用该项的平均值填补,非数值类型缺失则将整条内容删除,处理后共保留了256条符合规范的数据。将这些数据按照85%和15%的比例划分为训练集和测试集。

1.3 数据归一化

由于单位不同、量级不同的变量之间很难进行比较,因此需要将数据进行归一化处理,将所有输入数据都固定在比较小的、确定的范围内。常用的归一化方法有最小最大归一化、十进制比例归一化、z-score归一化等,本文采用最小最大归一化将数据固定在[0,1]内,归一化公式如下所示。

式中:Xi为归一化前的样本数据,X′为归一化以后的Xi,Xmin为数据中的最小值,Xmax为数据中的最大值。

1.4 模型构建

1.4.1 变量相关性

本文初步选取了17个可能影响服装直播销量的因素。但是由于不同因素对服装直播销量的影响不同,有的因素可能与最终预测结果相关性很低。因此,在预测服装直播销量之前需要对影响因素进行筛选和分析,从而减少最终预测中可能出现的干扰。通常使用Pearson相关系数和Spearman相关系数来衡量两个变量之间的相关性。但由于Pearson相关系数会默认两个变量之间存在线性关系,而各个影响因素与服装直播销量之间的关系并非都是线性的,当两变量之间存在显著的非线性关系时,它会无法识别[23]。在本文研究中,各个影响因素与服装直播销量之间的关系比较复杂,可能存在非线性关系。因此,采用Spearman相关系数来衡量17个因素之间的相关性及他们与服装直播销量之间的相关性,Spearman系数计算公式如下所示。

式中:di为第i个数据对的位次值之差,n为总的观测样本数。

1.4.2 算法选择

通过总结以往文献,回归预测常用的方法主要有线性回归、随机森林算法、BP神经网络算法、SVM算法、决策树算法和KNN算法等[13,23]。由于本文的影响因素较多,很多因素与服装直播销量可能不是线性关系,因此,线性回归不适用于构建本文的预测模型。以R2值为评价指标,对剩余的五种算法采用五折交叉验证法进行对比,如图1所示。由图1可以看出,BP神经网络预测的模型拟合效果较差,可能的原因是本文数据规模不大,且影响因素较多,BP神经网络出现了过拟合现象。决策树算法的模型拟合结果一般,且较不稳定,因此,本文采用随机森林算法、KNN算法和SVM算法预测服装直播销量。

随机森林方法由布赖曼提出,是一种将Bagging算法与随机选择的特征子集(即随机子空间方法)相结合的分类预测算法[24]。随机森林方法不易发生过拟合,并且具有较快的训练速度[25-26]。对于每个训练样本,构建单独的决策树,并基于多数原则通过投票的方式确定最终的预测结果。在1~101内,步长为10,对决策树个数进行寻优;在1~11内,步长为1,对最大特征数进行寻优。根据十折交叉验证结果优化,优化后的模型中,决策树个数为11,最大特征数为3。

支持向量机(SVM)算法是一种通用的算法,它可以用于分类和回归问题[27-28]。对于回归任务,SVM利用核函数将输入数据映射到高维、非线性空间,便于超平面的识别[29]。核函数有许多不同类型,包括多项式(Poly)、径向基函数(RBF)、sigmoid和线性函数,都可以用于预测。本文使用径向基函数作为该模型的核函数。在1~10内,步长为0.1,对正则化系数c进行寻优;在0.001~1.000内,步长为0.002,对核参数gamma进行寻优。根据十折交叉验证结果优化,优化后的模型中,正则化系数c为4.1,核参数gamma为0.897。

K近邻(KNN)算法是一种有效的监督建模算法,可以应用于分类和基于回归的预测,并且具有同等的有效性[30]。它考虑了具有相似特征的两个紧密发生的事件[31]。该算法通过使用欧几里得、曼哈顿或闵可夫斯基三种距离计算方法来计算事件之间的距离,发现紧密发生的事件[32]。无论其维度如何,欧氏距离都是两个位置之间的最短距离[33]。本文利用欧氏距离公式计算两个样本之间的距离,通过寻优得到邻居数为5,并以K条最近邻数据的目标值的平均值为预测结果。

1.4.3 测量指标与测试指标

在模型训练过程中,要考察模型的拟合优度与预测的准确程度,需要采用不同指标进行度量。通过阅读以往相关文献,本文采用平均绝对误差(MAE)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)和决定系数R2作为度量三种不同算法预测性能的指标[34-35],这四种指标的计算公式如下所示。

2 运行结果分析

2.1 相关性分析

为了定量分析17个影响因素与服装直播销量之间的关系,本文基于前期采集的数据集,使用Spearman相关系数分别分析17个影响因素与服装直播销量之间的相关性,同时结合显著性进行分析,结果如图2所示。由图2可知,初步选取

的17个影响因素中有10个通过了显著性检验,并且产品近30天历史销量与服装直播销量之间的相关性达到了0.804。有7个变量(主播场均点赞数、主播视频数、主播近30天直播次数、主播场均千次观看成交额、主播场均停留时长、主播场均直播销售额、主播场均新增粉丝数)未通过显著性检验,可能的原因是其中一些变量只是通过其他变量间接影响直播销量,对直播销量并没有直接影响。

由于影响因素之间可能会存在共线性问题,因此需要测量影响因素之间的相关性。当相关系数在0.2~0.4时,表示两者关系一般;当相关系数在0.4~0.7时,表示两者关系紧密;当相关系数大于0.7时,表示两者关系非常紧密[36]。对通过显著性检验的10个变量进行相关性分析,结果如图3所示。本文以0.7作为阈值[19],可以看出主播带货口碑与主播粉丝数之间相关性非常紧密,并且与主播近30天场均坑产之间相关性也比较紧密,可能会产生共线性问题。

因此,主播带货口碑不适合用作模型训练,本文最终选定主播粉丝数、主播近30天场均观看人次、主播近30天场均坑产、产品价格、产品讲解时长、产品近30天历史销量、品牌粉丝数、品牌近30天历史销量、折扣共9个变量作为预测模型的输入变量,服装直播销量为预测模型的输出变量,每个变量的基本信息,如表3所示。

2.2 模型预测结果

预测结果如图4和图5所示。随机森林算法、SVM支持向量机算法、KNN算法在训练集上的R2值分别为0.991、0.899、0.981,在测试集上的R2值分别为0.987、0.895、0.980。由此可以看出,随机森林算法和KNN算法比SVM算法效果更好,在训练集和测试集上均表现出更高的模型拟合度。

由于机器学习算法结果具有随机性,因此采用五折交叉验证法验证测试集的预测结果,如图6所示。其中绿色三角形代表平均值,黄色横线代表中位数。三种算法的模型拟合度均高于最初的五折交叉验证,且随机森林算法与KNN算法模型拟合度都达到了0.96以上,模型拟合度较高。箱线图中箱体长度代表了交叉验证结果分布的密集程度及模型的稳定性,因此,相对于KNN算法来说,随机森林算法更加稳定,并且由图6可以看出KNN算法的中位数明显小于平均值,这代表结果为偏态分布,且存在极大值。因此,随机森林算法模型的稳定性更好,但KNN模型的拟合效果可能出现最优。

2.3 模型对比分析

各个模型的评价结果如表4所示。其中R2代表模型拟合效果好坏,一般来说,R2越趋近于1,表示模型拟合效果越好。由表4可以看出,随机森林算法和KNN算法的R2在0.9以上,两种算法的拟合效果皆优于SVM支持向量机。由于服装销量数字量级往往较大,因此用均方根误差(RMSE)来衡量预测值与真实值之间的差距。RMSE越大,预测结果越稳定。其中随机森林算法的RMSE最小,KNN其次,两者效果均优于SVM支持向量机。平均绝对误差(MAE)反映了预测值的偏离程度,误差越大,MAE值也越大。由表4还可以看出,随机森林算法的MAE值最小,KNN次之,SVM支持向量机最大。与其他指标相比,平均绝对百分比误差(MAPE)更关注预测值和真实值间的相对误差。当MAPE≤50%时,代表预测结果与真实值间的相对误差合理;MAPE>50%,预测结果不准确[37]。因此,随机森林算法与KNN算法的预测准确性合理,而SVM支持向量机算法的预测结果不准确。

综上,随机森林算法和KNN算法的各项指标均优于SVM算法,预测效果相对较好。根据五折交叉验证结果,随机森林算法比KNN算法更加稳定,并且其R2、RMSE和MAE均优于KNN算法。而KNN算法的MAPE小于随机森林算法,可能的原因是KNN算法预测低销量商品时准确率更高,所以相对误差较小。

3 结 论

通过阅读相关文献,本文挖掘出17个可能与服装直播销量相关的变量,根据相关性分析结果,筛选出10个相关性检验显著的变量,包括产品近30天历史销量、产品讲解时长、主播近30天场均观看人数、产品价格、品牌近30天历史销量、主播近30天场均坑产、折扣、主播粉丝数、品牌粉丝数、主播带货口碑。其中,产品近30天历史销量与服装直播销量的相关性最高,这表示服装以往是否畅销会对直播销量有较大影响。其次,产品讲解时长与直播销量的相关性也较高,这表示直播中是否着重讲解产品也会很大程度影响服装直播销量。其他变量与服装直播销量的相关性系数也较高,为了避免影响因素之间出现共线性问题,本文通过影响因素间的相关性分析,剔除与其他影响因素相关性较大的主播带货口碑,将其余9个变量纳入预测模型。

根据各模型最终的评估结果,筛选出2种最适合本模型和数据集的算法,分别为随机森林算法和KNN算法。根据五折交叉验证结果,随机森林算法与KNN算法相比更加稳定,并且其RMSE、MAE都比较低,可能的原因是KNN算法更适用于数据特征相似性更强的数据集。因此,在实际应用中可以将随机森林作为主要预测算法,以确保整体销售趋势预测的稳定性。在预测同品牌或同品类服装产品销量时,数据之间的相似性更高,此时可考虑使用KNN算法进行预测。本文为服装直播销量预测提供了一种新的思路和方法,可以帮助商家制定生产计划,提高库存管理效率,改进营销策略。对于服装商家来说,第一,商家可根据预测结果的销量高低制定未来的生产计划,确保库存充足的同时避免货物积压。第二,零售商可以根据主播特征及其持有产品和品牌的相关特征,将服装精准投放至直播间。第三,零售商可使用不同的讲解时长、产品价格和折扣预测直播销量,以选择合适的直播营销策略。

本文在研究服装直播销量时,只考虑了容易量化的因素,而影响服装直播销售的因素多种多样,只对其中一部分进行了探究,在后续研究过程中需要寻找其他重要影响因素的量化方法。其次,研究过程中样本分布具有局限性,选取的时间范围较短,高销量的样本数较少,样本数量不足,后续研究需要更多数据支撑。服装直播销量的预测模型未来可进一步优化调整,如扩大样本选取范围,完善预测指标体系,以达到更精准的预测效果。

参考文献:

[1]ZHANG M L, LIU Y F, WANG Y, et al. How to retain customers: Understanding the role of trust in live streaming commerce with a socio-technical perspective[J]. Computers in Human Behavior, 2022, 127: 107052.

[2]XU W, CAO Y, CHEN R Y. A multimodal analytics framework for product sales prediction with the reputation of anchors in live streaming e-commerce[J]. Decision Support Systems, 2024, 177: 114104.

[3]汪芸芳, 史意, 陈丽华. 基于BP神经网络及灰色GM(1,1)模型的服装供应链第三方库存预测应用研究[J]. 数学的实践与认识, 2020, 50(3): 277-285.

WANG Y F, SHI Y, CHEN L H. Third-party inventory forecasting application research of apparel supply chain based on BP neural network and grey GM (1, 1) model[J]. Mathematics in Practice and Theory, 2020, 50(3): 277-285.

[4]HE Q Q, WU C Y, SI Y W. LSTM with particle swam optimization for sales forecasting[J]. Electronic Commerce Research and Applications, 2022, 51: 101118.

[5]郑金峰. 基于模拟退火算法优化BP神经网络的服装直播销售预测研究[D]. 杭州: 浙江理工大学, 2023.

ZHENG J F. Research on Clothing Live Broadcast Sales Prediction Based on Simulated Annealing Algorithm Optimized BP Neural Network[D]. Hangzhou: Zhejiang Sci-Tech University, 2023.

[6]孟志青, 马珂, 郑英. 基于核函数技术的时尚服装需求预测方法[J]. 计算机科学, 2016 (增2): 455-460.

MENG Z Q, MA K, ZHENG Y. Forecasting method for fashion clothing demand based on kernel functions technology[J]. Computer Science, 2016, 43(S2), 455-460.

[7]LIN Q P, JIA N, CHEN L, et al. A two-stage prediction model based on behavior mining in livestream e-commerce[J]. Decision Support Systems, 2023, 174: 114013.

[8]李建斌, 雷鸣颢, 戴宾, 等. 考虑促销因素的医药电商平台需求预测研究[J]. 中国管理科学, 2022, 30(12): 120-130.

LI J B, LEI M H, DAI B, et al. E-pharmacy demand forecasting in the presence of promotional activities[J]. Chinese Journal of Management Science, 2022, 30(12): 120-130.

[9]VAN RUITENBEEK R E, KOOLE G, BHULAI S. A hierarchical agglomerative clustering for product sales forecasting[J]. Decision Analytics Journal, 2023, 8: 100318.

[10]WANG L, LI X, ZHU H Y, et al. Influencing factors of livestream selling of fresh food based on a push-pull model: A two-stage approach combining structural equation modeling (SEM) and artificial neural network (ANN)[J]. Expert Systems with Applications, 2023, 212: 118799.

[11]程肖冰, 曹丽婷, 李苏建. 基于混合优化神经网络的零售销量预测[J]. 统计与决策, 2022, 38(6): 185-188.

CHENG X B, CAO L T, LI S J. Retail sales forecasting based on hybrid optimal neural networks[J]. Statistics amp; Decision, 2022, 38(6): 185-188.

[12]张晨, 邱彤. 基于决策树集成模型的加油站销量预测[J]. 计算机与应用化学, 2019, 36(6): 615-619.

ZHANG C, QIU T. Gas station sales forecast based on decision tree integration model[J]. Computers and Applied Chemistry, 2019, 36(6): 615-619.

[13]何喜军, 马珊, 武玉英, 等. 小样本下多维指标融合的电商产品销量预测[J]. 计算机工程与应用, 2019, 55(15): 177-184.

HE X J, MA S, WU Y Y, et al. E-commerce product sales forecast with multi-dimensional index integration under small sample[J]. Computer Engineering and Applications, 2019, 55(15): 177-184.

[14]BANSAL M, GOYAL A, CHOUDHARY A. A comparative analysis of K-nearest neighbor, genetic, support vector machine, decision tree, and long short term memory algorithms in machine learning[J]. Decision Analytics Journal, 2022, 3: 100071.

[15]YOO T W, OH I S. Time series forecasting of agricultural products’ sales volumes based on seasonal long short-term memory[J]. Applied Sciences, 2020, 10(22): 8169.

[16]刘妍兵, 刘伦伦, 唐颖. 基于BP神经网络的童装流行元素预测[J]. 毛纺科技, 2022, 50(2): 109-115.

LIU Y B, LIU L L, TANG Y. Prediction of popular elements of children’s wear based on BP neural network[J]. Wool Textile Journal, 2022, 50(2): 109-115.

[17]罗戎蕾, 刘绍华, 苏晨. 基于遗传算法的BP神经网络服装销售预测方法[J]. 北京邮电大学学报, 2014, 37(4): 39-43.

LUO R L, LIU S H, SU C. Garment sales forecast method based on genetic algorithm and BP neural network[J]. Journal of Beijing University of Posts and Telecommunications, 2014, 37(4): 39-43.

[18]林婷婷, 曲洪建. 网红营销要素对服装消费者购买意愿的影响[J]. 丝绸, 2019, 56(3): 54-62.

LIN T T, QU H J. The influence of online celebrity marketing elements on the purchase intention of apparel consumers[J]. Journal of Silk, 2019, 56(3): 54-62.

[19]孙一文, 罗戎蕾. 基于Stacking集成学习的服装网络直播销量预测[J]. 染整技术, 2023, 45(4): 1-5.

SUN Y W, LUO R L. Online live broadcast sales forecast for clothing based on Stacking integrated learning[J]. Textile Dyeing and Finishing Journal, 2023, 45(4): 1-5.

[20]李雪. 基AHP和BP神经网络的服装销售预测模型的研究及应用[D]. 杭州: 浙江工商大学, 2014.

LI X. The Research and Application of Clothing Sales Forecasting Model Based on AHP and BP Neural Network[D]. Hangzhou: Zhejiang Gongshang University, 2014.

[21]李蓓蓓. 网红直播带货、品牌认同与消费者购买行为[J]. 商业经济研究, 2022(14): 83-85.

LI B B. Influencer live streaming, brand identity and consumer purchasing behavior[J]. Journal of Commercial Economics, 2022(14): 83-85.

[22]郑金峰, 罗戎蕾. 服装销售定量预测方法研究进展[J]. 现代纺织技术, 2022, 30(2): 27-35.

ZHENG J F, LUO R L. Research progress on quantitative forecast methods of clothing sales[J]. Advanced Textile Technology, 2022, 30(2): 27-35.

[23]陈金车. 基于机器学习的西北省会城市空气污染物浓度预报方法研究[D]. 兰州: 兰州大学, 2023.

CHEN J C. Research on Forecasting Method of Air Pollutant Concentration in Northwest Provincial Capital Cities Based on Machine Learning[D]. Lanzhou: Lanzhou University, 2023.

[24]BREIMAN L. Random forests[J]. Machine Learning, 2001, 45: 5-32.

[25]BELGIU M, DRAGUT L. Random forest in remote sensing: A review of applications and future directions[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 114: 24-31.

[26]VERIKAS A, Gelzinis A, BACAUSKIENE M. Mining data with random forests: A survey and results of new tests[J]. Pattern Recognition, 2011, 44(2): 330-349.

[27]MEMORY L S T. Long short-term memory[J]. Neural Computation, 2010, 9(8): 1735-1780.

[28]VAPNIK V, GOLOWICH S, SMOLA A. Support vector method for function approximation, regression estimation and signal processing[J]. Advances in Neural Information Processing Systems, 1996(9): 281-287.

[29]章军辉, 陈明亮, 郭晓满, 等. 基于粒子群优化支持向量机的纱线质量预测[J]. 棉纺织技术, 2024, 52(4): 16-22.

ZHANG J H, CHEN M L, GUO X M, et al. Yarn quality prediction based on support vector machine optimized by particle swarm optimization[J]. Cotton Textile Technology, 2024, 52(4): 16-22.

[30]HANDHAL A M, Al-ABADI A M, CHAFEET H E, et al. Prediction of total organic carbon at Rumaila oil field, Southern Iraq using conventional well logs and machine learning algorithms[J]. Marine and Petroleum Geology, 2020, 116: 104347.

[31]DUDEK G, PELKA P. Pattern similarity-based machine learning methods for mid-term load forecasting: A comparative study[J]. Applied Soft Computing, 2021, 104: 107223.

[32]MAILAGAHA KUMBURE M, LUUKKA P. A generalized fuzzy K-nearest neighbor regression model based on Minkowski distance[J]. Granular Computing, 2022, 7(3): 657-671.

[33]LIU H, CAI J, ONG Y S. Remarks on multi-output Gaussian process regression[J]. Knowledge-Based Systems, 2018, 144: 102-121.

[34]谢坤, 容钰添, 胡奉平, 等. 基于数据集成的随机森林算法[J]. 计算机工程, 2020, 46(12): 290-298.

XIE K, RONG Y T, HU F P, et al. Random forest algorithm based on data integration[J]. Computer Engineering, 2020, 46(12): 290-298.

[35]张军凯, 孙志锋. 基于优化灰色-马尔可夫链的销量预测[J]. 现代制造工程, 2019(4): 7-13.

ZHANG J K, SUN Z F. Sales forecast based on optimized grey-markov chain[J]. Modern Manufacturing Engineering, 2019(4): 7-13.

[36]卞利花, 吉敏全. 青海交通碳排放影响因素及预测研究[J]. 生态经济, 2019, 35(2): 35-39.

BIAN L H, JI M Q. Research on influencing factors and prediction of transportation carbon emissions in Qinghai[J]. Ecological Economy, 2019, 35(2): 35-39.

[37]RAY S, LAMA A, MISHRA P, et al. An ARIMA-LSTM model for predicting volatile agricultural price series with random forest technique[J]. Applied Soft Computing, 2023, 149: 110939.

Apparel livestreaming sales forecasting models based on machine learning algorithms

ZHANG Chi, WANG Xiangrong

HAN Bo, LI Pei

(School of Textiles and Fashion, Shanghai University of Engineering Science, Shanghai 201620, China)

Abstract: With the dramatic increase in the scales of e-commerce livestreaming, the number of e-commerce livestreaming users has reached 48.8% of the overall Internet users in China. The huge supply demand requires live e-commerce stores to improve their dispatching efficiency and reduce inventory. Therefore, in order to avoid retailers’ profit loss, it is necessary to find a more accurate method to predict livestreaming sales.

The sales prediction methods mainly include traditional statistical methods and machine learning algorithms. Due to the instability of livestreaming sales and the large number of influencing factors, traditional statistical methods often fail to predict the sales accurately. To complete the index system of livestreaming sales prediction and improve the accuracy of livestreaming sales prediction, this paper adopted a variety of machine learning algorithms (BP neural network, decision tree (DT), random forest (RF), K-nearest neighbor (KNN), and support vector machine (SVM)), analyzed the influencing factors of apparel livestreaming sales, predicted apparel livestreaming sales, and selected the best performing algorithms. The detailed research process is as follows. Firstly, 17 influencing factors of livestreaming sales were selected through literature review, and nine most important influencing factors were selected by using Spearman’s correlation coefficient combined with significance. Secondly, different machine learning algorithms were used to establish clothing sales prediction models, and the method of 5-fold cross-validation was adopted to initially screen out three algorithms (RF, KNN and SVM) with high and stable model fit with R2 as an indicator. Finally, the parameters of the three algorithms were optimized, and then, three prediction models were constructed. R2, MAE, RMSE and MAPE were used as evaluation indexes, and the optimal algorithms were selected by using the method of 5-fold cross-validation to test the performance of each model.

The results of the study show that: the multicollinearity between the nine factors (number of fans of the anchor, average number of viewers of the anchor in the last 30 days, average pit output of the anchor in the last 30 days, product price, duration of product explanation, historical sales of the product in the last 30 days, number of fans of the brand, historical sales of the brand in the last 30 days, and discounts) is weak and their correlation with the livestreaming sales is significant. Therefore, these nine factors can be used as influencing factors in the prediction model. Among the influencing factors, the correlation among product sales in the last 30 days, the duration of product explanation and livestreaming sales is the highest. In the meanwhile, the prediction algorithms, KNN and RF perform better, with R2 being greater than 0.98 and MAPE within 30.5%. Compared with the KNN algorithm, the RF algorithm is more stable, and its R2, RMSE and MAE perform better than those of the KNN algorithm. But the MAPE of the KNN algorithm is smaller than that of the RF algorithm, for which the possible reason is that the KNN algorithm is more accurate in predicting low sales items, and the relative error is smaller. According to the result of 5-fold cross-validation, the RF algorithm is more stable compared with the KNN algorithm, and the possible reason is that the KNN algorithm is more suitable for the dataset with more similar data features. Therefore, RF can be used as the main prediction algorithm in practical applications to ensure the stability of the overall sales trend prediction. In predicting the sales of the same brand or the same category, the similarity between the data is higher, and then the KNN algorithm can be considered for prediction.

This paper compares the performance of various prediction algorithms on livestreaming sales prediction, optimizes the parameters and improves the accuracy of livestreaming sales prediction. The prediction results can help retailers make inventory planning, adjust production schedules, develop marketing strategies, and provide data support for product purchasing, pricing, and promotion. Due to the fact that only some of the easily quantifiable influencing factors are explored in this paper and the sample distribution is limited, future research can expand the scope of sample selection and further improve the predictive indicator system to achieve more accurate predictions.

Key words: live-streaming sales forecasting; machine learning; random forest (RF); K-nearest neighbors (KNN); support vector machine (SVM); 5-fold cross-validation

收稿日期: 2023-12-18; 修回日期: 2024-05-29

作者简介: 韩铂(2001),女,硕士研究生,研究方向为服装市场营销。通信作者:李沛,副教授,博士,pacywu@126.com。

猜你喜欢
随机森林机器学习
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
软件(2016年7期)2017-02-07 15:54:01
拱坝变形监测预报的随机森林模型及应用
基于词典与机器学习的中文微博情感分析
基于机器学习的图像特征提取技术在图像版权保护中的应用
基于网络搜索数据的平遥旅游客流量预测分析
时代金融(2016年27期)2016-11-25 17:51:36
前缀字母为特征在维吾尔语文本情感分类中的研究
科教导刊(2016年26期)2016-11-15 20:19:33
基于随机森林算法的飞机发动机故障诊断方法的研究
基于支持向量机的金融数据分析研究
机器学习理论在高中自主学习中的应用