赵盼 张浩伦 耿立艳 张占福
摘要:结合灰色关联分析(GRA)和最小二乘支持向量机(LS-SVM),构建基于GRA的LS-SVM高铁客流量预测模型(GRA-LS-SVM)。将高铁客流量的影响因素初步设为17项,利用灰色关联分析从中选取主要影响因素,并将其作为输入变量,构建LS-SVM。以我国高铁客流量数据为例,验证GRA-LS-SVM的有效性。结果显示,GRA-LS-SVM不仅简化了模型结构,而且提高了高铁客流量预测精度。
关键词:高铁客流量 灰色关联分析 最小二乘支持向量机
1.引言
随着各种交通工具的发展,客运市场竞争加剧,消费者对于出行的需求正在发生着变化。作为我国传统的交通工具——铁路运输业出现了前所未有的挑战,满足旅客的出行要求是保持运输市场份额的重要条件。同时人们对于出行的成本、时间、服务质量等多方面做出了更高的要求,因此我国高速铁路旅客运输量在客运总量中所占的比例逐年增加,高速铁路已经逐渐成为人们出行的一种必要选择方式。随着高铁数据的涌现,如何通过对数据的深层次挖掘,提升高铁客流量预测精度,是一个亟待解决的重要课题。
高铁客流量在多种影响因素作用下呈现非线性的变动,且较为复杂,为了提高预测精度,刘强、陆化普(2011)等针对区域铁路客运量数据样本少的问题,构建了基于支持向量机(SVM)的区域运量滚动预测模型,通过实例分析证明该模型的预测精度优于传统预测方法[1],夏国恩等(2010)提出的加权SVM,通过赋予惩罚因子不同的加权系数,获得了比SVM和BP神经网络更优的预测效果[2],张蕾、孙德山(2018)将灰色关联分析方法与支持向量机预测方法相结合预测铁路货运量,预测较为准确[3]。可见,SVM是预测客运、货运量的重要方法。本文将SVM的改进形式最小二乘支持向量机(LS-SVM)与灰色关联分析相结合,预测高铁客流量的预测,期望为高铁的修建、管理及运营提供理论与方法指导。
2. LS-SVM
2.1 LS-SVM算法
支持向量机最适合于小样本的学习环境。它的关键在于要找出所有的支持向量,从这些支持向量,就能得出最优分隔超平面了。这一做法让人联想到普通信号的处理。对于一个信号,其结构都是真实信号加上各种噪声。做信号处理时,目的就是为了削弱噪声的影响,从而得出真实的信号值。支持向量机与信号滤波有相似之处,在樣本里,除了支持向量的那些点就像是信号里的噪声,支持向量恰对应于信号中的真实成分,支持向量机里寻找最优超平面恰好就是信号处理时要极大化削弱噪声的影响。
本文所采用的最小二乘支持向量机便是一种被最为广泛采用的方法,其对非线性问题的处理有较好的准确度及精度提升。与人工神经网络比,它能克服训练时间长、训练结果存在随机性以及过学习的不足。
设样本为n维向量,其中1个样本及其值表示为
首先用非线性映射把样本从原空间映射到特征空间)。在这个高维特征空间中构造最优决策函数,非线性估计函数就转化为高维特征空间中的线性估计函数。根据风险最小化原则,设,其中控制模型的复杂度,c为正规化参数,为误差控制参数,也即不敏感损失函数。常用的损失函数有线性损失函数,二次损失函数,huber损失函数。选取不同的损失函数可构造不同形式的支持向量机。最小二乘支持向量机选用的损失函数为误差的二次项,故优化问题为
(1)
用拉格朗日法求解这个优化问题
(2)
其中,是拉格朗日乘子,根据优化条件:
(3)
可得
(4)
定义核函数,是满足Mercer条件的对称函数。根据(4),优化问题转化为求解线性方程:
= (5)
最后得到方程: (6)
2.2LS-SVM核函数
常用的核函数有线性核函数,多项式核函数,高斯核函数等,线性核函数适用于线性可分数据,多项式核函数的参数较多,计算复杂度高,而高斯径向基函数是一种局部性较强的核函数,该核函数是应用最广的核函数,无论对大样本还是小样本均具有很好的学习性能[4]。由于影响高铁客流量的非线性因素较复杂,并且样本较少,本文采用高斯核函数(RBF):进行最小二乘支持向量机的预测。
3.灰色关联分析
灰色关联分析是对影响系统的多个因素进行比较,分析因素与因素之间、因素与系统之间的关联程度[5],步骤如下:
(1)确定参考数据序列和比较数据序列。确定反映系统行为特征的参考数据序列和对系统产生影响的比较数据序列。这里将参考数据序列设为,比较数据序列设为。
(2)无量纲化处理数据。由于各因素列的数据因量纲不同导致不易比较或得出错误的结论,因此,在计算关联度时需要将数据进行无量纲化处理。本文采用初值化处理方法,获得的数据序列称为原始数据序列的初值像,计算公式为:
(7)
(3)计算关联系数。求出参考数据序列与初值像差的绝对值的最大值、最小值,按下式计算关联系数:
(8)
(4)计算关联度。关联度是该序列各关联系数的平均值,计算公式为:
(9)
其中,。的值越接近于1,说明影响因素与系统的关联性越大;反之,则两者的关联性越小。
(5)关联度排序。按照关联度的大小,可对影响因素进行排序,说明影响因素与系統之间的关联程度。
4.实证分析
4.1高铁客流量影响因素
选取2008~2015年高铁客流量及其17项影响因素数据(数据来源于国家统计局网站和《中国统计年鉴2016》)。17项影响因素由外部、内部、其他三类影响因素构成。外部影响因素指标由国内生产总值(GDP)、全社会固定资产投资、总人口数、社会消费品零售总额、城镇居民人均可支配收入、居民消费水平、货物进出口总额共7个二级指标构成;内部影响因素指标包含公路客运量、水运客运量、民用航空客运量、高铁营业里程、高铁营业里程占铁路营业里程比重、高速公路里程、定期航班航线里程共7个二级指标;其他影响因素指标包含国内游客数、入境游客数、铁路固定资产投资共3个二级指标。
4.2灰色关联分析过程
将参考数据序列为高铁客流量、比较数据序列为17项影响因素。按照公式(7)对数据进行无量纲化处理,得到初值像,计算关联系数时取分辨系数=0.65,将各因素的8个关联系数取平均值得到关联度,计算结果见表1。
由表1得到关联度排序:入境游客数<总人口数<公路客运量<货物进出口总额<水运客运量<定期航班航线里程<城镇居民人均可支配收入<高速公路里程<居民消费水平<国内生产总值<国内游客数<民用航空客运量<社会消费品零售总额<铁路固定资产投资<全社会固定资产投资<高铁营业里程占铁路营业里程比重<高铁营业里程
从关联度排序可知,高铁营业里程与高铁客流量的关联程度最强,关联度达到了=0.7367,其次是高铁营业里程占铁路营业里程比重,关联度=0.7271,
全社会固定资产投资与铁路固定资产投资也对高铁客流量有较大的影响,其他13项影响因素与高铁客流量的关联程度均在0.68-0.69之间。
4.3 LS-SVM预测
将全部数据样本分为两部分:前7组数据即2008~2014年的数据样本用于训练LS-SVM,后1组数据即2015年的数据样本用于检验LS-SVM的预测性能。
根据灰色关联分析结果,将高铁营业里程、高铁营业里程占铁路营业里程比重、全社会固定资产投资、铁路固定资产投资共4项影响因素作为输入变量,以高铁客流量作为输出变量,构建LS-SVM,用于预测高铁客流量。
为验证本文方法的有效性,基于相同的数据样本集,将高铁客流量的17项影响因素作为输入变量,构建LS-SVM预测高铁客流量。最后将两种方法的预测结果进行比较,结果如表2所示,其中,GRA-LS-SVM代表以灰色关联分析选取的4项影响因素作为输入变量构建的LS-SVM。
由表2可知,GRA-LS-SVM的2015年高铁客流量预测值为81237万人,相对预测误差为0.1550;而LS-SVM的2015年预测值为80319万人,相对预测误差为0.1645。GRA-LS-SVM的预测值更接近于实际值96139万人。这表明,GRA-LS-SVM的预测值更接近于实际值,预测精度更高。由此可见,利用灰色关联分析进行影响因素的筛选,不仅减少了LS-SVM输入变量,而且一定程度上提高了LS-SVM的预测精度。
表2 两种方法预测结果比较
模型 实际值/万人 预测值/万人 预测误差
GRA-LS-SVM 96139 81237 0.1550
LS-SVM 96139 80319 0.1645
5.结论
将灰色关联分析与用LS-SVM结合预测高铁客流量。结果表明,通过灰色关联分析选择影响因素后,LS-SVM的结构更为简单,其高铁客流量预测精度有所提高,预测结果更接近于真实值。
参考文献
[1]刘强,陆化普,王庆云,等.基于支持向量机的区域运量滚动预测模型[J].哈尔滨工业大学学报,2011,43(2)
[2]夏国恩.客户流失预测的现状与发展研究[J].计算机应用研究,2010(2)
[3]张蕾,孙德山,张文政,等.基于灰色关联分析的支持向量机的铁路货运量预测研究.经济数学,2018(2):62-65
[4]王定成.支持向量机建模预测与控制[M].北京:气象出版社,2009.
[5]耿立艳.物流需求的智能预测方法[M].北京:科学出版社,2016.
基金项目:2018年度大学生创新创业训练计划项目“高铁客流量智能预测方法及实证研究”(项目编号:201810107005);国家自然科学基金青年项目(项目编号:61503261)。
作者简介:通讯作者:耿立艳(1979-),女,天津人,教授,博士。