基于多输出支持向量机的物流量预测研究

2010-03-23 10:17骆世广
华东交通大学学报 2010年5期
关键词:货运量总产值零售额

骆世广,叶 赛,胡 蓉

(广东金融学院1.应用数学系;2.广东金融学院计算机科学与技术系,广东广州510521)

随着经济一体化步伐的加大,区域物流系统规划、管理等面临着更大的挑战。高效的物流系统规划依赖于准确的区域物流量预测。传统的区域物流量预测方法有移动平均预测法[1]、回归分析预测法、时间序列分析法等。这些方法大都首先假定一个模型,然后用已有的数据进行数据分析。由于假设的模型受众多因素的影响,往往一定程度上不能刻画真实的模型,甚至有些模型为了处理方便,进行了一些线性的假设,这些因素都会导致预测的效果较差。针对物流量不稳定、波动性较大的特点,不少学者[2-4]将灰色预测法与马尔柯夫模型结合起来用来预测区域物流量,从而推出未来物流量的一个区间及相应的概率;这些方法对影响物流量的因素考虑欠充分,而且结果受主观性影响过多。随着机器学习、人工智能等计算机科学的发展,近年来,人们提出用神经网络[5-7]、支持向量机[8-10]等来预测区域物流量。

BP神经网络直接从观测数据出发,简单有效,易于实现,获得了广泛的应用。由于神经网络的设计是否成功与设计者的相关经验与足够的先验知识密切相关,因此缺乏通用性。对它的改进的研究又遇到了一些重要的困难,譬如如何确定网络结构问题、过学习与欠学习问题、陷入局部极值问题等。唐伟鸿[8]提出基于时间序列的支持向量机模型,对公路货运量与客运量进行预测。他们的预测是直接基于历年的货运量与客运量数据,对历史物流量的直接依赖过大。众所周知,一个区域的物流量与该区域的人口,经济发展,基建投入等有很大的关系,单纯地根据历年物流量去推测未来的物流量显得过于直观。庞明宝[9-10]等人考虑到物流量与一个地区的总人口、GDP、消费品零售额、工业生产总值、农业生产总值有直接的联系,因此以这些因素作为因子,用非线性支持向量回归和偏最小二乘支持向量机来预测货运量。一方面,随着近年来经济规模、经济发展轨迹的转变,固定资产投资对货运量也有直接的影响关系,不考虑这个因素,会使得预测结果有所偏差;另外一方面,货运量只说明一个区域一段时间的货物运输总量,即使知道了总量,而不考虑运输距离,物流系统规划仍然无法高效运行,因此,单纯的用货运量作为因变量进行预测分析,使得模型过于简化。

首先自适应迭代支持向量机用于对广州市物流量进行预测分析,考虑因素为广州市总人口、GDP、消费品零售额、工业总产值、农业总产值、固定资产投资额等6个因素。然后在此基础上,用多输出支持向量机,对广州市货运量、货物周转量、吞吐量进行预测分析。

1 自适应迭代支持向量机回归算法

1992—1995 年,在统计学习理论的VC维理论和结构风险最小化(SRM)准则的基础上,Vapnik等人[11]提出了一种新的机器学习算法-支持向量机(Support VectorMachine,SVM)方法。由于其坚实的理论基础,良好的泛化性能,简洁的数学形式,直观的几何解释等特点,它在许多实际问题的应用中取得了成功。目前,SVM已成功地应用于手写体识别、人脸识别、图像处理、三维物体识别、金融分析等问题。

为了提高SVM的求解效率,Suykens等[12]创造性地把标准SVM的线性不等式约束转化成了线性等式约束,从而使得SVM的求解问题等价于一组线性方程组的求解。这种回归方法被称为最小二乘支持向量机回归(least squares supportvectormachine,LSSVM)。模型如下。

其相应的拉格朗日函数为

其中:αk是拉格朗日乘子,对应于αk≠0的拉格朗日乘子称为支持向量。经过数学处理,可以写成下列线性方程组的形式

结合Mercer条件可知

本文中,x i代表的是第i个输入样本,是一个6维变量,分别代表广州市总人口,GDP,消费品零售额,工业总产值、农业总产值、固定资产投资额6个因素。yi代表的是第i个输入样本的目标值,即广州市物流量。

LSSVM仅仅使用增量学习,工作集中的元素数将会变得很大,这将引起训练和测试的困难,从而逆学习将是必须的。基于增量学习和逆学习策略,杨晓伟等人[13]给出自适应迭代算法(Adaptive and Iterative Support VectorMachine Regression,AISVR)。出发点是:在给定的样本集中,应该存在一个支持向量集的近似集,它覆盖了样本集的大部分信息。通过对LSSVM算法的重新设计,使得机器能够自动并且高效地找到这个集合,然后利用这个集合构造学习机。

区域物流量受当时经济环境、生态环境等的波动影响比较大,为了减少类似1998金融危机、2008南方雪灾这种危机对物流量预测的干扰,AISVR算法被用来做单输出情形下的预测。AISVR不仅能够完成大样本回归问题,而且能够降低不正常数据带来的影响。

2 多输出支持向量机回归算法

多输出支持向量机回归(Multi-Output Support Vector Regression,MOSVR)[14]算法是针对模型的输出变量y是一个向量(即y∈Rk,k>1)而提出一种新的SVM回归算法。它主要是对单输出函数回归算法中的损失函数进行了改进,用定义在超球上的损失函数代替了定义在超立方体上的损失函数,将一般支持向量机回归模型中的损失函数

改为

式(8)定义的损失函数优势在于它能将输入变量各分量的拟合误差综合考虑进来,使目标函数与各分量的误差都有关,从而达到整体优化的目的。另一方面这样定义的损失函数可弱化噪声数据对结果的影响,提高算法的抗噪性能。这一特点尤其适合区域物流量预测这类非线性多因素复杂系统。MOSVR主要模型如下。

对于M维输入,N维输出的函数拟合问题,假定给定的学习样本集为

第j个输出的函数模型为Gj:fj(xi,wj,bj)=wj◦φ(xi)+bj,bj∈R。可以将函数表达为F(x)=φ(xi)TW+B,其中,φ(◦)是高维空间的非线性映射,W=[w1,w2,∧,wN],B=[b1,b2,∧bN]。因此要解决多维回归问题就是要对每一个输出求出回归量wj和bj(j=1,2,∧,N)。其目标函数如式(11)。

其中:xi的含义同上,yi是第i个输入样本的输出值,是一个3维变量,分别代表广州市货运量、货物周转量、吞吐量。

3 AISVR与MOSVR在广州市物流量预测的应用

实验数据选自广州市统计年鉴[15]1985—2007年间,共9个指标,分别是:总人口、GDP、消费品零售额、工业总产值、农业总产值、固定资产投资额、货运量、货物周转量、货物吞吐量。考虑到广州作为一个外来人口较多的城市,人口流动性比较大,数据中选取的总人口为年度平均人口。另外,由于各个指标的单位的不一致,数量级别差别也较大,原始数据都被进行了归一化,如表1。对于单输出支持向量机回归模型,建立如下模型

表1 广州市1985—2007年间部分指标统计经归一化随机化后数据

总人口GDP消费品零售额工业总产值农业总产值固定资产投资额货运量货物周转量货物吞吐量0.386320-0.065098 0.046034-0.018277 0.595120 0.197020-0.157000 0.498280 0.041308 0.630720 0.808040 0.488960 0.897960 0.791830 0.379990 1.125000 0.814260 0.974040-0.682410-0.759520-0.520480-0.310580-0.646880-0.684530-0.640980-0.646350-0.764320-0.756350-1.017700-0.870690-0.798530-0.871680-0.745780-0.783260-0.742270-0.971420 0.640500 0.998400 0.846240 0.725200 1.196300 1.095200 1.141700 0.991650 1.068700-0.846680-0.670610-0.759520-0.738090-0.776180-0.736830-0.937060-0.831140-0.643490

其中:y代表货运量;xi(i=1,2,…,6)分别代表总人口、GDP、消费品零售额、工业总产值、农业总产值、固定资产投资额6个因素。对于多输出支持向量机回归模型,模型设置为

其中:yi(i=1,2,3)分别代表货运量、货物周转量、货物吞吐量;xi(i=1,2,…,6)同上。

用VC++6.0编写了相关程序,并在内存为512MB、CPU为1.8GHz的PC机上训练并测试了上述数据。学习过程中把表1数据随机打散,取18个进行训练,5个进行测试。

表2 AISVR与MOSVR的结果比较

多输出算法训练的整体误差为0.119 705,测试的整体误差为0.370 778。

从表2可以看出,MOSVR取得了较好的预测效果。与AISVR相比,有效避免了过学习,并具有更高的预测精度和抗噪能力。尤其是针对个别的指标预测上。

4 结论

通过多输出支持向量机回归模型,揭示了货运量、货物周转量、货物吞吐量与总人口、GDP、消费品零售额、工业总产值、农业总产值、固定资产投资额之间的关系。从而为准确的预测未来的物流量提供依据;如果能对总人口、GDP、消费品零售额、工业总产值、农业总产值、固定资产投资额这些量进行预测,从而可以得到物流量的一个预测值。

这样做似乎是增加了问题的不确定性,实际上,上述9个指标都是受很多因素影响的,在一定程度上受随机因素的影响,而这些随机因素的影响任何算法都很难考虑完全,而将它们放在一起考虑总体性质时,却会存在稳定性。未来的工作是,希望找到影响物流量的更多的因素,使用在线支持向量机进行学习预测,不断的更新历史值,以期获得更加准确的预测结果。

[1] 杨荣英,张辉,苗张木.物流预测技术中的移动平均线方法[J].武汉理工大学学报:交通科学与工程版,2001,25(3):353-355.

[2] 王冠奎,董艳.基于灰色马尔可夫模型的物流园区物流量预测研究[J].物流科技,2007(2):1-4

[3] 孙卫华,王成林,经维.邯郸国际物流园区物流量预测[J].物流技术,2009,28(7):121-123

[4]吴玉朝,蔡启明,李斌.基于灰色-马尔柯夫模型的逆向物流量预测[J].物流科技,10(2008):19-22.

[5] 魏连雨,庞明宝.基于神经网络的物流量预测[J].长安大学学报:自然科学版,2004,24(6):55-59

[6] 林连,林桦.改进的BP神经网络在港口物流预测中的应用[J].交通信息与安全,2009,27(5):161-165.

[7] 杨峰,牛惠民,邵晓彤.基于GA-BP算法的模糊神经网络模型在港口物流量预测中的应用[J].物流科技,12(2009):102-105.

[8] 唐伟鸿,李文锋.基于时间序列的支持向量机在物流预测中的应用[J].物流科技,2005,28(3):8-11.

[9] 庞明宝,常振华,刘娟.基于非线性支持向量机区域物流量预测[J].物流科技,2007(9):20-23

[10] 庞明宝,谢玲,郝然,马宁.基于偏最小二乘支持向量机回归区域物流量预测[J].河北工业大学学报,2008,37(2):91-96.

[11] VAPNIKV.The Nature of Statistical Learning Theory[M].New York:Spring Verlag,1995.

[12] SUYKENS JA K,VANDWALLE J.Least squaressupportvectormachine classifiers[J].Neural Processing Letters,1999(9):293-300.

[13] 杨晓伟,骆世广,余舒,等,基于支持向量机的大样本回归算法比较研究[J].计算机工程与应用,2006,42(6):36-38.

[14] 胡蓉.多输出支持向量回归算法[J].华东交通大学学报,2007,24(1):129-132.

[15] 广州统计信息网,http://www.gzstats.gov.cn/.

猜你喜欢
货运量总产值零售额
2019年来宾市蔗糖业总产值近100亿元
7月我国重点大型零售企业服装零售额下降2.9%
冰箱市场零售额四年来首增长
2017年上半年拉脱维亚港口货运量同比增长7%
2016年农村网络零售额近9000亿元
最畅销的玩具是哪些
陕西林业总产值今年将突破千亿元
陕西有色上半年实现工业总产值590亿元
7月陕西省工业总产值增长由负转正