基于支持向量回归机的铁路货运订车数预警方法

2016-04-10 00:45殷玮川何世伟黎浩东何必胜
中国铁道科学 2016年6期
关键词:指标值警报货运

殷玮川,何世伟,黎浩东,何必胜

(1.北京交通大学 城市交通复杂系统理论与技术教育部重点实验室,北京 100044;2.北京交通大学 交通运输学院,北京 100044;3.西南交通大学 交通运输与物流学院,四川 成都 610031)

随着铁路货运改革的不断深入进行,货运市场需求的波动变化也越来越受到重视。如何及时有效地应对货运需求波动造成的影响,是铁路决策管理部门需要科学规划的关键问题。铁路货运订车数反映了铁路货运的需求,直接影响着铁路货运量的大小以及铁路货运能力紧张与否。因此,对铁路货运订车数进行预警,为铁路相关部门提前做好应对措施提供依据,从而及时有效地满足货主的运输需求。目前,与铁路货运订车数预警相关的定量研究方法并不多,定性研究方法有铁路货运预警评价方法[1]和铁路有关的监测预警系统[2-4]等,但这些研究中存在主观性强、误差较大等问题。而在采用均匀取值法[1-2,5]和非均匀取值法[3,6]研究预测或预警警报区间划分方法的文献中缺乏对这2种划分方法的比较分析。并且这些研究中的预警方法[1-6]只是一种事后的评判,还没有达到实时预警的效果。随着近年来铁路货运量呈下降或波动的趋势,传统的一些预测或预警方法并不适应这些非线性的数据样本。

支持向量回归机(Support Vector Regression,SVR)方法是一种处理小样本的机器学习方法,能够很好地处理非线性回归问题,已经在财务预警[5]、网络舆情预警[6]等多个行业的预警研究中得到应用,而在预测方法上的应用最为成熟,如铁路货运量的预测[7]、铁路列车晚点时间预测[8]、短时交通流预测[9]、高速铁路路基沉降预测[10]、电力负荷预测[11-12]等。核函数作为支持向量回归机方法的重要核心部分,对其的研究也越来越多。文献[13]研究了不同核函数的支持向量机财务预测方法,文献[14]研究了不同核函数的参数选取方法,文献[15]构造了混合遗传算法求解不同核函数的参数。构造性能优良的支持向量回归机预警方法,关键在于选择适合其应用领域的核函数,并且确定相关参数[16]。

因此,本文首先确定预警指标、警报级别,采用2种区间划分方法确定警报区间和警报值,由此构建出2个样本数据集;采用这2个样本数据集与多项式核函数、高斯径向基核函数和Sigmoid函数组合成6种条件,分别进行支持向量回归机(SVR)训练;根据训练的预警效果提出基于均匀取值法和高斯径向基核函数的SVR铁路货运订车数预警方法。以2016年3—6月的铁路货运订车数为实例进行预警分析,验证该方法的适用性和有效性。

1 预警指标选取

铁路货运订车数受铁路发展规划、社会经济发展水平、国家调控政策和相关大宗商品交易量等多种因素的影响。因此,借鉴文献[7]的指标选取规则,同时考虑指标值是否可以通过铁路总公司信息中心的统计数据、国家统计局[17]和交通部官方网站中获取,选取订车数以及与其关联度较高的26个指标作为预警备选指标,如图1所示。

图1 预警指标

由于备选指标在反映信息程度上有重叠、未来某些指标也有数据缺失的可能性,从而增加了预警的难度,因此,利用SPSS12.0软件,采用主成分分析法,对图1所示的备选指标进行降维。由于铁路货物运输受到季节和节假日等因素影响,因此选取指标的月均数据可以较好避免这些因素的影响。取2013年1月至2015年2月间26个月的数据对备选指标进行分析,得到前3个主成分,其方差累计贡献率为86%,已经满足选取主成分数目的要求(不低于阈值85%);取各个主成分内部系数占比前4的变量作为预警指标,共得到订车数、装车数、货运量、货运周转量、铁矿石总运量、铁路日均运煤量、钢材总产量、钢材总销量、国家财政收入、国内生产总值、国家固定资产收入和居民消费价格共12个预警指标,详见图1。

2 预警基本原理

2.1 警报级别、警报区间和警报值的确定

本文将警报的级别分为4种:无警,低警,中警,高警。“无警”代表铁路货运订车状况正常,“低警”代表铁路货运订车状况略差,“中警”代表铁路货运订车状况较差,“高警”代表铁路货运订车状况很差。警报区间是将警报级别由定性分析转换为定量分析的量值区间;由于目前还没有较好的警报区间划分方法,因此本文分别采用均匀取值法和非均匀取值法将0~1数据区间划分为4段,作为对应4个警报级别的警报区间。警报值是警报级别定量转换后的数值量;以每个警报区间的中间值作为对应警报级别的警报值。由此划分的警报级别、警报区间和警报值详见表1。

表1 警报级别、警报区间和警报值

2.2 支持向量回归机原理

将由订车数及其他11个预警指标值构成的多维训练样本数据集作为SVR的输入,则SVR的输出为预测的与输入预警指标值对应的警报值,可表示为

yn+1=fSVR(x1,…,n+1,y1,…,n|θSVR)

(1)

式中:yn+1为输出的与第n+1组预警指标值xn+1对应的预测警报值;x1,…,n+1为前n+1组多维的预警指标值;y1,…,n为与前n组预警指标值对应的警报值;fSVR(x1,…,n+1,y1,…,n|θSVR)为在SVR方法中输入与输出的映射关系;θSVR为需要在SVR方法中被标定的参数。

根据结构风险最小化原则,SVR可以将样本数据集在高维特征空间进行回归变换,得到的优化目标函数[14]为

(2)

式中: ‖ω‖2为欧拉范数;ε为不敏感系数;|f(xi)-yi|ε为不敏感系数ε的损失函数。

(3)

s.t.

yi-ωφ(xi)-b≤ε+ζii=1,…,n

(4)

(5)

(6)

(7)

s.t.

(8)

(9)

由此,原始问题变为凸二次规划问题。通过求解该凸二次规划问题,即可获得原问题的最优解为

(10)

式中:K(xi,x)为核函数,满足Mercer条件[17]且K(xi,x)=φ(xi)φ(x);x为测试数据变量,对应式(1)中待预警指标值xn+1。

核函数的作用就是使样本投影到一个高维的空间中,将其转化为一个线性回归问题,从而解决了因非线性映射φ未知而ω无法显示表达的问题。可见:核函数的选取直接影响了模型的泛化能力;不同的研究问题,所需的核函数是不一样的。因此,选择恰当的核函数类型及支持向量回归机相关参数是支持向量回归机理论研究的核心问题。本文选取如下3种核函数,通过对比分析其预警效果,确定其中最优的核函数。

(1)多项式核函数,其形式为

K(xi,x)=[γ(xi,x)+fP]d

(11)

式中:d为多项式的阶;γ为核函数的半径;fP为偏执系数。当d=1,fP=0,γ=1时,多项式核函数即为线性核函数。

(2)高斯径向基核函数(Gaussian Radial Basis Funciton,RBF),其形式为

K(xi,x)=exp(-γ‖xi,x‖2)

(12)

(3)Sigmoid函数,是一种特殊的半正定核函数,其形式为

K(xi,x)=tanh[γ(xi,x)+fP]

(13)

由此可见,惩罚函数C、不敏感系数ε和核函数是影响支持向量回归机回归效果的主要因素;同时,d,γ和fP这3个参数又是核函数的主要参数,因此,将C,ε,d,γ和fp统称为SVR的关键参数,即θSVR。

3 基于支持向量回归机的铁路货运订车数预警方法

3.1 预警步骤

铁路货运订车数预警方法流程框图如图2所示。具体预警步骤如下。

步骤1:样本数据的准备。获取某一时间段12个预警指标的值;采用专家判定法确定预警指标的警报级别,即专家根据1组样本中订车数的值,并综合考虑同组样本中其他11个预警指标的值,给出该组订车数的警报级别;根据表1确定其对应的警报值;由于各预警指标的量纲不统一,故对其值进行无量纲归一化处理,然后再将处理后的12个指标的值和对应的警报值作为样本数据集;对应2种警报区间划分方法,则得到2个样本数据集。

步骤2:最优的警报区间划分方法和核函数的确定。采用2个样本数据集、3种核函数(多项式核函数、Sigmoid核函数和RBF核函数)组合成6种回归条件,在6种条件下分别对SVR进行训练(对各核函数SVR中的关键参数寻优),如图3所示,采用K-折交叉验证法并结合网格搜索算法,获取当前SVR关键参数的最优值。将样本数据集中的预警指标值作为测试数据集中的指标值代入SVR中,预测出6种条件下测试数据集中的警报值,将这些警报值对照表1转换成测试数据集的警报级别,并将其与样本数据集的警报级别进行对比,选出警报级别误差最小的那1种条件,其对应的就是最优的警报区间划分方法和核函数。

图2 预警方法流程框图

步骤3:基于最优的警报区间划分方法和核函数的SVR货运订车数预警。用步骤2得出的最优警报区间划分方法确定样本数据集中预警指标值所对应的警报值,将警报值代入最优核函数SVR中进行训练。将测试数据集盅的指标值更换为待预警数据的指标值,待预警数据的指标值可以是未来的预警指标值;也可以是当前实际的预警指标值,用训练好的最优核函数SVR对测试数据集中待预警数据的指标值进行预测,当SVR快速收敛得到关键参数的最优值时,则可得到对应待预警数据的警报值,然后根据表1将其转换成警报级别,即完成了铁路货运订车数的预警。

由于SVR训练速度和收敛速度都很快,对于短期或实时产生的待预警数据都可以快速给出警报结果,即输入待预警数据就可以输出预测的警报结果。因此,基于支持向量回归机的铁路货运订车数预警属于实时预警。

图3结合K-折交叉验证法和网格搜索算法的SVR关键参数寻优框图

3.2 最优核函数和警报区间的确定

采用LIBSVM软件中的支持向量回归机包[18],计算机运行环境为CPU 2.3Ghz,RAM 4G,通过Java平台实现上文提出的支持向量回归机方法。选取2013年1月至2015年2月间共26个月的12个指标的值(每个指标取其月均值),共26组指标数据,采用专家法确定每组指标数据对应的警报级别,按照表1将其转换为2种警报区间划分方法下的警报值,将26组指标数据及其警报值分别作为样本数据集和测试数据集;应用3种不同核函数SVR方法进行铁路货运订车数预警测试,并将测试结果与样本数据集进行误差分析。测试程序运行时间均小于5 s,SVR的最优参数见表2。预警结果的精度对比分析见表3,同时分别对2种警报区间划分法下的3种核函数的SVR预警结果进行数据拟合,分别如图4和图5所示。

表2 不同区间划分法不同核函数时SVR的最优关键参数

表3 不同区间划分法不同核函数时SVR预警精度的对比

图4 均匀取值方法下3种核函数SVR预警结果拟合图

由预警结果可知:采用RBF核函数时,在2种警报区间划分方法下SVR的预警精度均很好,准确率均达到100%,且RBF核函数的SVR对测试样本的整体均方根误差也远小于其他2种核函数SVR的均方根误差,说明RBF核函数对于非线性数据样本的预警有良好的适应性;而采用多项式核函数SVR和Sigmoid核函数时,SVR对于预警样本数据的拟合度大部分较好,警报级别预警准确率都在92%及其以上,只有2014年4月和7月的样本预警准确率最低,仅为92%,原因是预警样本的数据是非线性变化的,当数据序列出现拐点时,即订车数骤减或者骤加时,预警误差就会增大;采用均匀取值法划分警报区间时,3种核函数的警报值预测均方根误差均小于采用非均匀取值法时,说明采用均匀取值法划分警报区间时的预警效果更好。

图5 非均匀取值方法下3种核函数SVR预警结果拟合图

由此可知,采用均匀取值法划分警报区间、选用RBF核函数时,SVR的预警精度最好。因此,建议采用基于均匀取值法和RBF核函数的SVR进行铁路货运订车数的预警。

4 应 用

采用本文的基于均匀取值法和RBF核函数的SVR铁路货运订车数预警方法,选用文献[8]中预测方法得出2016年3—6月订车数并进行预警,结果见表4,可见,2016年4月和5月的订车数为中警,6月的订车数为高警。根据此预警结果,铁路运营管理部门可以有针对性地分析警报原因,提前做好运力资源调配方案。

表4 铁路货运订车数预警实际应用结果

5 结 语

提出的基于均匀取值法和RBF核函数的SVR铁路订车数预警方法收敛快,预测精度高,可以实时定量预警,解决了传统预警研究中预警判断时效性低的问题。该方法已在中国铁路货运营销辅助决策系统预警模块中开发应用,能够及时有效地为决策部门提供理论支持。但是,该方法中预警指标的选取、基于专家法对警报级别的判定存在一定人为因素的误差,因此,预警指标的选取方法和相关非结构化指标数据的获取方法都是今后研究的方向。

[1]张伶婉, 丁宏飞, 陈彦瑾.基于熵权模糊综合评价的铁路危险货物运输预警[J].中国安全科学学报,2012,22(5):119-125.

(ZHANG Lingwan, DING Hongfei, CHEN Yanjin. Study on Early Warning for Railway Transport of Dangerous Goods Based on Entropy Weight Fuzzy Comprehensive Evaluation[J]. China Safety Science Journal, 2012, 22(5): 119-125. in Chinese)

[2]孙平, 宋瑞. 铁路运营监测预警系统的构建[J].中国安全科学学报,2006,16(7): 92-97.

(SUN Ping, SONG Rui. Establishment of Early-Warning System in Railway Operation[J]. China Safety Science Journal, 2006,16(7):92-97. in Chinese)

[3]吴艳华, 何峰林, 王富章,等. 基于灾害风险评估模型的铁路灾害监测预警系统研究[J]. 中国铁道科学,2012,33(1):121-125.

(WU Yanhua, HE Fenglin, WANG Fuzhang, et al. Research on Railway Disaster Monitoring and Warning System Based on Disaster Risk Assessment Model[J]. China Railway Science, 2012, 33(1):121-125. in Chinese)

[4]孙汉武, 佘振国, 李成辉. 铁路安全监督管理信息系统[J].中国铁道科学,2009, 30(5):116-122.

(SUN Hanwu, SHE Zhenguo, LI Chenghui. Railway Safety Supervision and Management Information System[J]. China Railway Science, 2009, 30(5):116-122. in Chinese)

[5]郎凡. 基于遗传算法的改进支持向量机财务预警研究[D]. 北京:北京交通大学,2008.

(LANG Fan. Research of Financial Early-Warning Model on Evolutionary Support Vector Machine Based on Genetic Algorithms [D]. Beijing: Beijing Jiaotong University, 2008. in Chinese)

[6]张艳岩. 基于支持向量机的网络舆情危机预警研究[D]. 南昌:江西财经大学, 2013.

(ZHANG Yanyan. Study on Internet Public Opinion Crisis Pre-Warning Based on Support Vector Machine[D]. Nanchang: Jiangxi University of Finance and Economics, 2013. in Chinese)

[7]耿立艳, 张天伟, 赵鹏. 基于灰色关联分析的 LS—SVM 铁路货运量预测[J]. 铁道学报, 2012, 34(3): 1-6.

(GENG Liyan, ZHANG Tianwei, ZHAO Peng. Forecast of Railway Freight Volumes Based on LS-SVM with Grey Correlation Analysis[J]. Journal of the China Railway Society, 2012, 34(3): 1-6. in Chinese)

[9]CASTRO-NETO Manoel, JEONG Young Seon, JEONG Myong Kee, et al. Online-SVR for Short-Term Traffic Flow Prediction under Typical and Atypical Traffic Conditions[J]. Expert Systems with Applications, 2009, 36(3): 6164-6173.

[10]冯胜洋, 魏丽敏, 郭志广. 基于最小二乘支持向量机的高速铁路路基沉降预测[J]. 中国铁道科学, 2012, 33(6):6-10.

(FENG Shengyang, WEI Limin, GUO Zhiguang. Settlement Prediction of High-Speed Railway Subgrade Based on Least Squares Support Vector Machine[J]. China Railway Science, 2012, 33(6):6-10. in Chinese)

[11]FAN Shu, CHEN Luonan. Short-Term Load Forecasting Based on an Adaptive Hybrid Method[J]. IEEE Transactions on Power Systems, 2006, 21(1): 392-401.

[12]HONG Wei Chiang. Hybrid Evolutionary Algorithms in a SVR-Based Electric Load Forecasting Model[J]. International Journal of Electrical Power & Energy Systems, 2009, 31(7/8): 409-417.

[13]MIN Jae H, LEE Young Chan. Bankruptcy Prediction Using Support Vector Machine with Optimal Choice of Kernel Function Parameters[J]. Expert Systems with Applications, 2005, 28(4): 603-614.

[14]ELISSEEFF Andre, WESTON Jason. A Kernel Method for Multi-Labelled Classification[J]. Advances in Neural Information Processing Systems, 2002, 14:681-687.

[15]WU Chih Hung, TZENG Gwo Hshiung, LIN Rong Ho. A Novel Hybrid Genetic Algorithm for Kernel Function and Parameter Optimization in Support Vector Regression[J]. Expert Systems with Applications, 2009, 36(3): 4725-4735.

[16]邓乃扬,田英杰.支持向量机:理论、算法与拓展[M].北京:科学出版社,2009.

[17]国家统计局.2014年国民经济和社会发展统计公报[EB/OL]. (2015-03-10)[2015-10-10]. http://www.stats.gov.cn/tjsj/tjgb/ndtjgb/.

[18]CHANG Chih Chung, LIN Chih Jen. LIBSVM: A Library for Support Vector Machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 389-396.

猜你喜欢
指标值警报货运
基于北斗三号的人防警报控制系统及应用
财政支出绩效评价指标体系构建及应用研究
假期终结者
波音公司试飞电动垂直起降货运无人机
是谁的责任?
拉响夏日警报定格无痕迹美肌
浅谈食品中大肠菌群检测方法以及指标值的对应关系
AT200大型货运无人机实现首飞
维修性定性要求评价指标融合模型研究
货运之“云”