基于POI数据与BP-LSTM算法的卷烟购进量预测模型研究

2021-06-16 15:28曾建新刘佩鑫王廷波许瑞琦
中国市场 2021年17期
关键词:BP神经网络

曾建新 刘佩鑫 王廷波 许瑞琦

[摘 要]消费需求因地理环境不同而不同,即使同一个消费者,在不同的地理环境,其卷烟的消费习惯也会不同,这个差异是客观环境驱动的。因此,卷烟的进货数据是环境消费的表现。消费环境是驱动卷烟销售的真实原因,文章从零售终端周围的环境出发,将BP神经网络和LSTM相结合,构建新的二级预测模型(BP-LSTM模型),创新性地应用于烟草行业,并将POI数据(Point Of Information)作为模型的增加输入参数;二级预测模型对零售户的POI数据、进货数量、属性特征等信息进行解析,探索一种新的卷烟进货数据预测模型,并结合实践证明卷烟购进量预测的可行性和可靠性。

[关键词]BP神经网络;LSTM算法;POI数据;环境特征;进货量

[DOI]10.13939/j.cnki.zgsc.2021.17.063

目前,卷烟的主要投放方式为按档位投放、按价位段投放。而按档位投放,其属于同档同策,很难满足零售户个性需求。因此,将卷烟投放策略利益诉求与零售户个性需求结合是市场所需要的,可见对零售终端卷烟产品的进货量进行预测,一直是一个十分重要的问题。如何依据零售终端的多维度信息预测其对卷烟产品的进货量,已经成为烟草工业企业急需深入研究的课题之一。

1 算法模型的应用研究分析现状

随着城市化进程的加快,POI(Point Of Information,信息点)数据得到广泛应用。王维礼[1]基于POI数据分析对地铁站周边商业活力兴趣点进行分类,研究了地鐵站和周边商业空间活力之间的规律。陈浩[2]等人基于POI数据挖掘卷烟消费者购买地点及时段偏好,证明了POI数据对卷烟消费者有影响。

赵丽萍[3]基于BP神经网络技术,对时尚服装销量预测方法进行研究。李冰珂[4]对BP神经网络在机票销售量预测进行了改进研究,提出自适应和声算法(HS)与遗传算法(GA)的混合优化算法(GA_HS)对BP神经网络的初始权值和阈值这两个参数进行优化。

从卷烟行业的销量预测模型来看,单宇翔[5]等人利用时间序列分析、H-P滤波分析相结合的模型对卷烟批发销售总量和销售总金额进行预测。梁武超[6]等人通过马尔科夫模型,对中国高端卷烟产品销量进行了研究。仲东亭和张玥[7]把实际误差看作一组序列,进行逼近模拟,作为一个单独量加入最终结果,提高了预测的精度,误差增维分析。

2 本研究工作的创新点

随着烟草行业的快速发展,传统的单级结构、低维度数据来预测卷烟购进量的方法需要进一步优化。本研究的创新主要表现为以下方面。

2.1 输入参数优化

数据是预测结果的重要影响因素。在以往的研究中,输入模型的数据主要是烟草零售客户历史进货数据,未考虑市场环境的变化。为了分析客观消费环境对卷烟购进量的影响,把零售客户周围的POI数据作为模型输入参数的一部分,输入到模型中。

2.2 模型应用创新

基于POI数据的BP-LSTM模型,首次应用于烟草零售客户的卷烟购进量预测,BP模型将获取的终端客户特征属性、环境属性等生成高维度特征,LSTM模型进行回归模型的预测,两个模型相结合的方式明显提高了零售终端卷烟进货量的预测精度。模型工作原理见图1。

BP(Back Propagation)神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络。LSTM(Long Short-Term Memory,即长短期记忆网络)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。本研究采用的二级模型是对两个模型相互作用的过程进行优化,得到最优的模型权重,使预测进货量与实际的进货量接近。

3 模型应用与验证

3.1 数据来源

本文使用的样本主要包含零售终端的基本信息,如:零售客户烟草证号、档位信息、主导环境因子、功能区、往期的进货量和投放策略。影响零售户每期进货量的因素除档位信息、主导环境因子、功能区和投放策略外,还有消费者经济收入水平、消费能力变化、卷烟零售价格、社会库存等信息。为量化这些指标,本文使用前八期的进货量、平均进货量和前八期购买的次数等特征量。本文使用的模型是深度学习算法,模型自身能提取数据特征。因为异常值的处理会对数据特征衍生的结果带来影响,所以首先进行数据特征的衍生,然后进行数据异常值和缺失值处理。

3.2 数据处理

数据预处理过程分为三个过程:一是特征衍生;二是异常值缺失值处理;三是文本数据处理。

数据特征的衍生过程中,根据不同产品每个月的投放次数不同,将数据特征的衍生分成两类:一类是每月至少投放四期,根据进货量和投放策略衍生出前八期的进货量和投放策略和其他变量;另一类是每月至多投放三期,根据进货量和投放策略衍生出前四期的进货量、投放策略和其他变量。

在异常值处理中选择修正异常数据,如进货量大于投放策略的信息,修正为进货量等于投放策略。在缺失值处理过程中采用了向上填充、向下填充、均值填充和零值填充等多种方法。

3.3 模型搭建

本模型将BP算法较强的整体非线性映射能力和LSTM算法善于分析输入信息之间的整体逻辑序列以及信息序列彼此间的复杂的时间关联性建立连接。然后把BP算法输出的烟草特征数据,进行高斯核函数升维处理,当数据集不是线性可分的时候,需要利用到核函数将数据集映射到高维空间。当模型把数据升高维度后,可以很好地处理线性不可分问题,再进行LSTM算法的输出。

3.4 模型的评价指标

在回归模型的评价中,使用的准则大多是 SSE(误差平方和),R-square(决定系数),Adjusted R-square等以下几个评价指标:

SSE具体公式:

SSE=∑(Yactual-Ypredict)2(1)

同样的数据集的情况下,SSE越小,误差越小,模型效果越好

R-square具体公式:

R2=1-(Yactual-Ypredict)2(yactual-y_mean)2(2)

分母理解为原始数据的离散程度,分子为预测数据和原始数据的误差,两者相除可以消除原始数据离散程度的影响

“决定系数”是通过数据的变化来表征一个拟合的好坏。理论上取值范围(-∞,1], 正常取值范围为[0 1]——实际操作中通常会选择拟合较好的曲线计算R2,因此很少出现-∞。越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好,越接近0,表明模型拟合的越差经验值大于0.4, 拟合效果好。

Adjusted R-square具体公式:

R2adjusted=1-(1-R2)(n-1)n-p-1(3)

式(3)中,n为样本数量,p为特征数量。

3.5 应用实例

3.5.1 数据来源及展示使用

(1)环境特征数据。本文使用某市高德公开API接口获取的150万余条POI数据作为环境数据输入,其内容格式如表1所示。

(2)投放策略数据。使用某市某品规2019年11月到2020年4月零售戶的购进明细作为进货数据输入,其内容格式如表2所示。

使用某市某品规2019年11月到2020年4月烟草公司每个周期制定的投放量作为投放策略输入,其内容格式如表3所示。

(3)零售户特征数据。本文使用某市近期有进货行为的零售户作为预测个体,其属性特征数据如表4所示。

3.5.2 数据处理及特征衍生

(1)主导环境因子、功能区等离散型分类数据进行One_hot处理;(2)对进货特征数据等连续型数据进行特征衍生,衍生规则(部分)如表5所示。

3.5.3 模型训练及结果分析

试点品规从2019年11月到2020年4月数据作为样本进行模型训练和预测。根据预测时间节点将数据集分开,预测时间节点之前的数据作为训练集,预测节点的数据作为测试集。如果预测节点没有在数据集中,则认为预测2020年5月第一期的数据,使用的训练集是80%的样本集,预测的数据是近8期有过购买行为的零售户的数据。在选择数据集之后将数据特征放入搭建的模型中进行训练和预测。得到结果如表6所示。

不管是从模型精度、SSE系数,还是Adjusted R-square,都可以看出BP算法结合LSTM模型的二级预测模型在预测过程中有着比较好的表现。其中精度平均能达到80%以上,且Adjusted R-square系数远大于0.4(优秀模型的指标)达到了0.6075的高分。

4 结论

本文通过对当前零售客户卷烟购进量预测存在问题的分析,创新性地将基于BP神经网络和LSTM相结合的二级预测模型与卷烟预测相结合,并将POI作为模型输入参数的增加项。通过消费环境数据、终端动销数据、零售客户特征数据在BP算法进行特征增维。将增维的特征,传递给LSTM模型,通过反向的Loss优化方法,使模型的输出结果与真实结果一致。

模型对某市的试点品规进行了测试。通过测试数据结果可以看出,基于BP神经网络和LSTM的预测模型在预测零售客户卷烟购进量的问题上有很好的表现,模型可以指导烟草工业企业进行零售客户需求预测和精准营销工作。

参考文献:

[1]王维礼,白云庆,卢景德.基于兴趣点(POI)数据的地铁站周边商业空间活力分级与耦合性研究——以天津市中心城区为例[J].城市,2019(5).

[2]陈浩,王诗航,顾祖毅,等.基于POI数据的卷烟消费者行为研究[J].科技和产业,2019,19(1):79-83,88.

[3]赵丽萍.基于BP神经网络技术对时尚服装销量预测的应用方法研究[D].上海:上海交通大学,2009.

[4]李冰珂.改进BP神经网络在机票销售量预测中的研究[D].哈尔滨:东北林业大学,2019.

[5]单宇翔,郁钢,陆海良,等.基于组合分析模型的市场销量预测——以卷烟厂为例[J].中国商论,2019(2):10-11.

[6]梁武超,顾幼瑾,段宁东.基于Markov模型的中国高端卷烟产品销量预测研究[J].价值工程,2012(29):145-147.

[7]仲东亭,张玥.BP神经网络对烟草销售量预测方法的改进研究[J].工业技术经济, 2007, 26(9):115-118.

[8]于波, 丁源. 改进BP神经网络在铁路客运量预测中的应用[J].铁道经济研究, 2012(3):43-47.

[9]杨朝强,蒋卫丽,邵党国.基于LSTM模型的电影票房预测算法[J].数据通信, 2019(5):34-37.

[作者简介]曾建新(1970—),云南玉溪人,硕士,高级工程师,研究方向:卷烟大数据营销;刘佩鑫(1973—),云南昆明人,本科,中级工程师,研究方向:卷烟大数据营销;王廷波(1978—),云南玉溪人,本科,中级工程师,研究方向:卷烟大数据营销;通讯作者:许瑞琦(1987—),云南昆明人,硕士,中级工程师,研究方向:卷烟大数据营销。

猜你喜欢
BP神经网络
基于神经网络的北京市房价预测研究
提高BP神经网络学习速率的算法研究