刘璐 丁福利 孙立民
摘 要:烟草销售量预测能为烟草生产、运输、配送提供指导,使烟草行业能更好地适应市场需求。烟草销售量受众多因素的影响,具有季节性和周期性规律,传统的线性模型难以进行准确的预测。基于支持向量机建立烟草销售量的多维时间序列模型,实验结果表明,该模型具有较高的预测精度,能够准确地反映烟草销售量的变化趋势。对比实验也表明,所提出的方法比其它几种方法预测精度高,可以为烟草行业的销售管理提供科学依据,具有实用价值。
关键词:烟草销售量预测;支持向量机;多维时间序列
DOIDOI:10.11907/rjdk.162026
中图分类号:TP319
文献标识码:A 文章编号文章编号:16727800(2016)011013403
0 引言
中国是世界上最大的烟草生产国和消费国[1]。烟草销售是烟草行业管理中最为关键的部分,准确的烟草销售预测能为烟草生产、运输、配送提供指导,而要进行准确的烟草销售预测必须找到合适的预测方法。因此,如何设计高精度的烟草销售预测方法是烟草行业管理的重要课题。
传统烟草销售量预测方法的研究主要集中在对烟草零售经营者订单的管理分析中,而且采用销售人员意见汇总法、德尔菲法(经理及员工的意见)等为主的人工预测方法[2]。这种人工预测方法业务流程较多,浪费大量的人力、物力,并且还可能引起烟草资源分配的不公平,难以满足市场需求。从机器学习的角度上看,烟草销售量的预测属于回归问题[3],而回归包括线性回归和非线性回归。文献[4]在对烟草销售量数据进行分析的基础上,提出了一种线性预测模型,但由于烟草销售量受季节、人口、市场、节假日等一系列因素的共同影响,并不适合采用线性回归方法进行预测。在非线性回归方法中,较为常用的有神经网络和支持向量机(SVM)。文献[5]基于BP神经网络对烟草销售量进行建模并预测,而神经网络是基于经验风险最小化,不仅泛化能力较差,而且存在局部极小点问题[6],因此神经网络虽然对原始数据的拟合能力较强,但对未来数据的推广能力较差,而对未来数据的推广能力往往更能反映学习机器的实用价值。支持向量机基于结构风险最小化,泛化能力强且预测精度高。因此,本文采用支持向量机方法对烟草销售量进行建模预测。
1 支持向量回归机
2 预测方法
2.1 数据预处理
本文收集到了云烟品牌一个品类2006年1月~2011年10月共6年的销售数据,销售数据信息中包括销售量、销售日期(年月日)、仓库编号、发票信息、审核人信息等,其中对销售量预测影响最大的是销售日期及对应的销售量。由于中国的香烟销售对阴历呈现出更强的规律性,因此将销售统计数据转换为以阴历月为标准。
2.2 数据归一化处理
由表1可以看出,各列数据属性不同,数值范围相差较大。为避免数值范围较大的属性控制数值范围较小的属性,使数据具有统一性和可比性,将属性值都归一化[10]为[0,1]之间。归一化所用公式为:
2.3 模型定阶
由于烟草销售量预测属于经济预测,因此它不仅与当前日期有关,更与之前的销售信息有关。为确定当前销售量与前多少个月的销售信息关系最大,需要通过拓阶[11]的方法来确定。
设烟草销售量数据的一个样本为{yi,yeari,monthi},yi为第i个样本中的烟草销售量,yeari为当前年份,monthi为当前月份。其中,yeari和monthi为样本的自变量,yi为样本的因变量。通过拓阶能够更为准确地得到自变量和因变量的函数依赖关系。当阶数为n时,表示将前n个样本中的信息添加到当前样本中的自变量中。即用前n个月的销售信息和当前年月来预测当前销售量。此时,自变量总数为(3×n+2),其中n为阶数。通过SVM由低阶到高阶逐步进行拓阶,模型每拓一阶,自变量相应地增加 3个。对于每一次的拓阶,以MSE最小为标准决定是否接受拓阶。设SVM(n)为拓阶n次后的模型,SVM(n+1)为拓阶n+1次后的模型,比较两者的MSE大小,如果SVM(n+1)的MSE小于SVM(n)的MSE,表示接受本次拓阶,并进行下一步拓阶;如果SVM(n+1)的MSE大于SVM(n)的MSE,表示不接受本次拓阶,并停止拓阶,最终得到最优阶数n。通过对烟草数据的拓阶,得到拓阶结果如图2所示。
2.4 回归模型的参数选择
当训练模型确定后,通过支持向量回归机进行预测。由于径向基核函数的准确率较高,并且大多数SVM默认的核函数也是径向基核函数[12],本文亦采用径向基核函数。
3 实验结果与分析
以云烟数据集为例,选择2006年1月-2010年12月的销售量数据为训练样本,以2011年1-10月的销售量数据为测试样本。在本文算法实现过程中,实验环境配置如表2所示。
4 结语
通过预测烟草销售量可以提前了解烟草的销售动态,为烟草物流、仓储等部门提供决策依据。本文基于支持向量机建立烟草销售预测的多维时间序列模型。实验证明,根据本文方法建立的模型所预测的结果与实际结果基本一致,能够比较准确地反映烟草销售量的变化趋势。对比实验也证明,与其它几种方法相比,本文方法预测误差最小。综上,本文所述方法是合理有效的,可以应用到实际烟草销售量预测中。
参考文献:
[1] 蒋德珺.我国烟草业国际化战略研究[J].北方经济,2012(14):9495.
[2] 利普·科特勒,洪瑞云,梁绍明,等.市场营销管理 [M].亚洲版·2版.北京:中国人民大学出版社,2001.
[3] 郑逢德,张鸿宾.拉格朗日支持向量回归的有限牛顿算法[J].计算机应用,2012,32(9):25042507.
[4] 张素平.基于乘法模型的内蒙古乌兰察布市卷烟总销量预测研究[J].内蒙古科技与经济,2012(21):3335.
[5] 仲东亭,张玥.BP神经网络对烟草销售量预测方法的改进研究[J].工业技术经济,2007,26(9):115118.
[6] 刘苏苏,孙立民.支持向量机与RBF神经网络回归性能比较研究[J].计算机工程与设计,2011,32(12):42024205.
[7] 邓乃扬,田英杰.数据挖掘的新方法——支持向量机[M].北京:科学出版社,2004
[8] 肖建,于龙,白裔峰.支持向量回归中核函数和超参数选择方法综述[J].西南交通大学学报,2008,43(3):297303.
[9] 单黎黎,张宏军,张睿,等.基于主导因子法的装备维修保障人员调度值预测[J].计算机应用,2012,32(8):23642368.
[10] 彭丽芳,孟志青,姜华,等.基于时间序列的支持向量机在股票预测中的应用[J].计算技术与自动化,2006,25(3):8891.
[11] 向昌盛,周子英.基于支持向量机的害虫多维时间序列预测[J].计算机应用研究,2010,27(10):36943697.
[12] 谭征,孙红霞,王立宏,等.中文评教文本分类模型的研究[J].烟台大学学报:自然科学与工程版,2012,25(2):122126.
[13] CHERKASSKY V,MULIER F.Learning from data: concepts,theory and methods[M].NY:JohnViley&Sons,1997.
[14] YONG M,XIAOBO Z,DAOYING P,et al.Parameters selection in gene selection using Gaussian kernel support vector machines by genetic algorithm[J].Journal of zhejiang university science B,2005,6(10):961973.
[15] 王兴玲,李占斌.基于网格搜索的支持向量机核函数参数的确定[J].中国海洋大学学报:自然科学版,2005,35(5):859862.
[16] ITO K,NAKANO R.Optimizing support vector regression hyperparameters based on crossvalidation[C].Proceedings of the International Joint Conference on Neural Networks, 2003:20772082.
[17] HSU C W,CHANG C CLIN C J.LIBSVM:a library for support vector machines[EB/OL].http://www.csie.ntu.edu.tw/~cjlin/libsvm.
(责任编辑:孙 娟)