叶子奇 蒋惠园 冯琪 李琳琳 郝伟杰
【摘 要】 为寻求更高精度的预测方法预测长江经济带未来一段时间的集装箱需求量,从经济总量水平、产业结构、国际国内贸易发展等方面提取长江干线港口集装箱需求预测的主要影响因素,构建基于遗传算法-支持向量机(GA-SVM)的预测模型对长江干线港口集装箱需求量进行预测,提高货运量预测精确度。结果表明:此模型对长江干线港口集装箱需求量的预测具有较强的实用性,可为长江干线港口集装箱需求预测提供一种新的途径和方法。
【关键词】 长江干线;集装箱;需求预测;遗传算法;GA-SVM模型
0 引 言
經过近年来的迅猛发展,长江经济带已经成为内陆与沿海地区进行经济贸易往来的重要通道,长江集装箱运输业的不断茁壮成长,在很大程度上加速了区域间资源流通及流域经济发展。同时,长江经济带集装箱货运量亦在迅速增加,因此寻求更高精度的预测方法,预测我国长江经济带在未来一段时间内的集装箱需求量具有较高的现实意义。
杜桂玲[1]提出长江沿线外贸集装箱生成量影响因素包括政治、经济和自然条件在内的许多因素;靳廉洁等[2]提出为准确判断长江三角洲港口集装箱运输市场的增长空间及发展趋势,采用多因素动态系数法预测外贸集装箱生成量;阮俊虎[3]为了弥补支持向量机模型中参数选取上不能够量化的缺陷,引入了遗传算法改进支持向量机理论;孙涵等[4]分析了支持向量回归机预测模型在能源需求预测方面的优势,确定了输入量集合和输出量集合,构建了基于Matlab软件技术的支持向量回归机能源需求预测模型。
本文在现有研究理论的基础上,引入基于遗传算法-支持向量机(GA-SVM)的预测模型对长江干线港口集装箱需求量展开研究,与传统向量机结果进行比对,结果表明该模型具有较高的精度,为今后研究长江干线港口集装箱需求预测提供一种参照方法。
1 GA-SVM模型构建
1.1 基本思路
与传统方法相比,遗传算法具有很多特有的优点,突出表现在全局最优性和自身潜在的并行性。利用遗传算法的寻优特点来改进传统的支持向量机模型。支持向量机模型的核函数采用的是径向基函数(RBF),编码方式采用实数来编码,再利用遗传算法的全局寻优能力来对参数进行遗传编码及搜索,经过寻优过程,将最后得到的最优惩罚系数C和核参数 作为最终预测模型参数。
1.1.1 支持向量机模型的参数编码
支持向量机模型要获取较高的预测精度,就需要得到最优的惩罚系数C及核参数 。为避免二进制编码反复进行译码、编码等问题,本文选用实数编码。
对于某一确定的足够大的C, 过大或过小均会对模型的精度造成一定的影响,这里讨论两种极值情况:当 →0时就会导致“过学习”现象,模型的泛化能力会变得极差;当 →∞时会导致“欠学习”现象,所有的训练样本将会被分到样本数较大的那一类。
对RBF核函数K(x,x')=exp进行分析,发现 值与|| x x' ||2关系密切:若 远小于训练样本的最小距离,则 →0;若 远大于训练样本的最小距离,即达到 →∞的效果。因此,确定 的搜索空间为[min(|| x xj ||2 ?0 2),max(|| x xj ||2 ?10 2)]。在这个区间上,根据分类结果可对搜索区间进行放缩,最后可以得到满意结果。
约束拉格朗日因子a要借助于C来进行制约,当C超过某限度后就会丧失此功能,导致支持向量机的复杂会趋向数据子空间能够允许的最大值。可用以下方法来确定C的搜索区间:
0 ≤ ai,ai* ≤ (i=1,2,…,l)
当C≥0时,先选定某一足够大C值,运行训练支持向量机模型,解出ai (i=1,2,…,n),其中n是训练样本总数,令C1=max(ai ),如果C1 1.1.2 遗传算法的适应度函数选取 最终选择的遗传算法适应度函数为 F( ,C)=(1) 式中: RError表示支持向量机在训练样本上的错分率, RError越小则对应的改组参数的染色体适应度会更大。 1.1.3 遗传操作 (1)选择。基于排序的适应度分配原则,对种群内部个体进行适应度的排序,之后依据公式来明确个体被选取的Pi为 Pi=r (1 r)i 1(2) 式中: i表示个体序号; r表示排第一个体的被选取的概率,并且r仅取决于在种群中个体所在的序位。 (2)交叉。可以采取线性组合方式,如果对两条染色体x1和x2以某概率采用交叉操作形式,则可采取如下方式: x1=ax1+(1 a)x2(3) x2=(1 a)x1 +ax2(4) 式中: a∈[0,1]。 (3)变异。在变异的染色体中随机选取一个变异位 j,将其设置为归一化的一个随机数U(ai,bi),则 (5) 式中: ai和bi对应该变异位的上下限。 1.2 实现过程 按照构建的GA-SVM算法思路,实现GA-SVM算法的过程,见图1。 (1)编写传统支持向量回归机程序,给出参数的取值范围; (2)认定遗传算法的个体长度,根据实数编码程式以随机方式生成M个染色体,得到算法初始群体P(t); (3)根据染色体位串基因序列,按照入选策略来进行筛选获得入选因子组合集; (4)计算初始群体中个体对检验样本的输出值,生成样本错分率RError,得到染色体上单个个体的适应值及染色体适应值F( ,C);
(5)反复试验,直到计算出所有初始种群的单个个体适应值;
(6)连续执行选择、交叉及变异等操作,以下一代子种群的形成为止;
(7)依据网格搜索法找寻新种群最优个体的周边区域,生成参数组合以替换最优个体;
(8)迭代终止准则满足后停止运行,若不满足就将子代变成新的父代,重复第(4)步操作,直至满足迭代终止准则;
(9)根据以上最优参数,代入程序,建立模型,预测出测试样本中的数据。
2 长江干线港口集装箱需求量 预测主要影响因素
影响长江干线港口集装箱需求的因素众多,根据全面性、可操作性、强相关性和统一量纲原则,通过比选研究,选取需求预测主要影响因素:
(1)经济总量水平影响因素:GDP;
(2)产业结构影响因素:第一产业占比,第二产业占比,第三产业占比;
(3)国际国内贸易发展影响因素:进出口贸易总额,社会消费品零售总额。
2007―2016年长江干线以上港口集装箱需求量预测主要影响因素具体数据见表1。
相关系数的计算公式为
xy=(6)
式中: Cov(x,y)表示x、y的协方差; D(x)、D(y)分别表示x、y的方差。
借助DPS数据处理系统软件,计算所得结果见表2。
由表2可知,所有相关系数均大于0.95,这表明长江干线规模以上港口集装箱吞吐量与GDP、第一产业总值、第二产业总值、第三产业总值、进出口贸易总额、社会消费品零售总额这6个主要影响因素之间均存在显著性相关关系。
3 长江干线港口集装箱需求量预测
3.1 基于支持向量基模型的预测
根据影响因素分析,收集长江航运2007―2016年的相关数据,并采用比例转换法进行归一化处理,将原始数据伸缩到区间[ 3,3],具体数据见表3。表3中:预测目标为集装箱货运量y1;预测主要影响因素为GDP值x1、第一产业总值x2、第二产业总值x3、第三产业总值x4、进出口贸易总额x5、社会消费品零售总额x6。
传统支持向量机模型可直接套用libsvm-mat来进行编程实现,选取的参数情况为:支持向量机采用3-e-SVR,核函数采用RBF核函数。为确定模型中的两个参数值,依据经验值多次尝试,最终选定C为2、 为1,得到的预测数据见表4,通过反归一化得到的集装箱货运量见表5。
4.2 基于GA-SVM模型的预测
利用构建的gaSVMcgForRegress函数来实现遗传算法的参数寻优迭代,最终选取的参数情况:支持向量机采用3-e-SVR,核函数采用径向基,惩罚参数C的浮动区间确定为[2 5,25],核函数参数 的浮动区间确定为[2 5,25],遗传算法的最大进化代数取400,种群最大数量取20,交叉概率取0.8,变异概率取0.01。
由于作为输入向量的影响因素数据只有2007―2016年的完整数据,为预测到2020年,需用灰色预测对2017―2020年间的数据进行预测。将基础数据代入拟合训练函数中,得到相应训练模型,通过模型寻优迭代找寻最优值,得到预测数据见表6,通过反归一化得到集装箱货运量见表7。
运用GA-SVM模型,2020年长江干线以上港口集装箱需求量预测结果为2 698万TEU。
3.3 模型预测精度对比分析
为表征预测值对原始值的拟合程度,运用Matlab R2014a软件绘制拟合曲线来进行分析。传统SVM模型与GA-SVM模型预测值对原始值的拟合曲线见图3。
对比两种预测模型的精度,列出传统SVM模型和GA-SVM模型的相關预测结果(见表8)。
根据图形中两种模型的拟合情况与表中MSE指标数据对比,得出遗传算法的寻优迭代来进行优化具有非常明显的效果。改进后的GA-SVM模型利用遗传算法的寻优能力获取最优的C和 值,避免了依据经验和试验来进行赋值,最终提高了预测结果的精确度。
4 结 语
GA-SVM模型与传统向量机模型预测进行对比,表明其具有较高的预测精度,为未来长江航运货运需求量预测提供一个较为精确的预测方法。同时,预测结果表明,随着长江经济带的快速发展,长江干线以上港口的集装箱需求量也呈现出明显的增长态势。
参考文献:
[1] 杜桂玲.长江沿线外贸集装箱生成量影响因素分析及生成量预测[D].上海:上海海事大学,2005.
[2] 靳廉洁,任静,张晓晴,等.长江沿线地区外贸集装箱港口运输需求预测[J].水运管理,2017(8):8-10.
[3] 阮俊虎.基于GA-SVM的区域物流需求预测研究[D].邯郸:河北工程大学,2010.
[4] 孙涵,杨普容,成金华.基于Matlab支持向量回归机的能源需求预测模型[J].系统工程理论与实践,2011(10):2001-2007.