基于支持向量回归的大型客运站客流量预测应用研究

2021-04-07 00:41
铁路计算机应用 2021年3期
关键词:客运站汉口客流量

郭 淼

(中国铁路武汉局集团有限公司 汉口车站,武汉 430000)

铁路客运站客流量是铁路行车组织中制定开行方案、编制列车运行图和完成客流输送的重要依据。准确预测大型客运站的客流量,有利于铁路运输部门根据车站客流变化趋势和客流周期性特征,制定有效、经济的开行方案,编制适应旅客出行需求的列车运行图,实现铁路大型客运站客流的高效、安全、及时输送。

目前,国内关于铁路客流预测方法已有不少研究,这些方法针对的预测对象各有不同。李丽辉[1]等人运用基于随机森林回归算法,建立高速铁路短期客流预测模型,对京沪高速铁路2015 年7、8 月份的下行客流进行预测,预测精度高达0.92;豆飞[2]等人建立铁路客运专线的模糊K 近邻(FKNN,fuzzy knearest neighbor)预测模型,并利用2011—2012 年中3 个月的短期客流数据,验证预测模型的有效性;段然[3]等人针对节假日与非节假日2 种类型客流,分别采用波动系数模型及SARIMA 模型,对某铁路车站的客流量进行预测。

本文采用支持向量回归(SVR,Support Vector Regression)方法,以汉口枢纽站为例,研究将支持向量回归方法应用于预测铁路大型客运站客流量的效果。

1 支持向量回归模型简介

支持向量机是一种二分类模型,其本质是在多维空间中找到一个超平面(例如二维空间中的直线和三维空间中的平面),来对需要研究的样本进行分割,使得分割后的各子样本间隔最大化,转化为凸规划问题进行求解。对于回归问题,可引入支持向量机模型,对给定样本D={(x1,y1),(x2,y2),···,(xn,yn)},求得一个回归模型F(x)=ωT x+b,ω为决策面的法向量,b为决策面的位置,使得预测值F(x)与真实值yn之间尽可能接近。与传统回归模型不同,支持向量回归引入“损失带”的概念[4-5],设置一个可以接受的损失范围,只要真实误差不超过这一损失范围,就不计入误差。如图1 所示,设真实值为F(x),设置一个不敏感损失(insensitive error,记为ϵ),当样本值落在区间[F(x)−ϵ,F(x)+ϵ]之外时,其误差才被计入。

图1 支持向量回归模型及其损失带示意

按照统计理论,在分类或回归预测时,可能存在经验风险和结构风险,通过将其最小化的线性组合以确定其模型参数,可以得到SVR 的目标及规划如式(1)[6]:

其中,αn及表示超过损失带的上下方的损失,f表示真实值;ω及b表示超平面的法向量及截距;常数C为正则化系数;当p=2时,式(1)被称为Tikhonov 正则化[7]。

在将该规划问题从非线性函数转化为线性可分问题的过程中,利用了内积运算实现将输入映射到高维特征空间的一种简化计算方式,支持向量机通过引入核方法,即定义映射函数内积为核函数,以避免内积的显式计算问题,核函数一般包括有线性(Linear)核函数、多项式(Polynomial)核函数、径向基(Radial Basis)核函数等[4]。

2 大型铁路客运车站客流量变化的特点

以汉口站为例,分析大型铁路客运车站客流量随时间变化的一般特点。汉口站是衔接我国横纵2条主要干线—沪汉蓉大通道及京广线的重要枢纽,现有接发列车衔接方向共计14 个,包括京广汉口联络线上下行、合武上下行、汉口汉西联络线上下行、汉宜上下行、汉丹客车线上下行、武孝城际上下行、武孝京广外绕线、武孝京广联络线。汉口站集高速、普客、城际于一体,是武汉局集团公司直属的一等客运站,车站分高架层、地面层、地下层3 层,站房面积7.6 万m2,10 个高站台,20 条股道,日均发送旅客9.1 万人,最多可容纳8 000 人同时候车,客服区域平面图如图2 所示。

采用汉口车站2017 年1 月1 日—12 月31 日日发送客流数据作为样本数据集,进行时间变量与客流量的相关分析,研究汉口站的客流变化情况,如图3 所示。

由图3 可知,汉口车站的客流变化具有如下特点:

(1)年度客流呈现明显的周期性波动,客流总体以7 日为一个周期,这主要是由工作日和非工作日客流种类的差异所造成的,工作日多为通勤、商务、公务客流,非工作日则多为旅游、探亲客流;

图2 汉口车站客服区域平面示意

图3 汉口车站2017 年全年客流量变化情况

(2)长周期内因节假日出现大幅客流激增,呈现多个明显的高峰,包括年初春运去返程客流2 次出行高峰、清明节出行高峰、劳动节出行高峰、端午节出行高峰、暑运出行高峰(表现出长期性,但峰值不高)、国庆出行高峰(年度出行最高峰)及年尾的元旦出行高峰;这些突发大客流与平时客流特点存在明显差异。

3 支持向量回归模型的预测实例

3.1 汉口车站发送客流量的回归预测

采用2017 年1 月1 日—12 月31 日汉口站的日实际发送旅客人数数据共计365 条,以前70%作为训练数据,后30%作为测试数据,应用支持向量回归模型进行分析。

采用Python 3.6 软件建模,IDE 为Pycharm 社区版,运行环境为:Microsoft Windows 8.1 (64 bit)Professional,Intel(R) Core(TM) i5-3230M CPU @ 2.60 GHz,8GM RAM。

考虑到原始数据呈现的非线性,如图3 所示,采用径向基作为支持向量机核函数。图4 为汉口站使用SVR 模型的预测结果,训练集与测试集由图中的灰线区分,绿色曲线表示汉口车站真实发送客流量,红色曲线为SVR 预测结果,蓝色曲线表示预测值与真实值的绝对误差。

由图4 可知,因受节假日期间突发性大客流影响,由SVR 模型计算得到的汉口车站全年客流量预测值的误差偏大。本文研究主要关注车站客流长期性、周期性变化进行预测,故将这些突发大客流作为噪点剔除。本文选择将节日假期及节日假期开始前的一天,作为剔除点,包括春节(1 月13 日—30 日)、清明节(4 月1 日—4 日)、劳动节(4 月28 日—5 月1 日)、端午节(5 月27 日—5 月30 日)、国庆节(9 月29 日—10 月8 日)、元旦节(12 月29 日—12 月31 日),共计43 天。消除节假日期间突发大客流的影响后,得到预测结果如图5 所示。

3.2 模型预测误差量化分析

图5 汉口车站全年客流量预测值及误差(不含节假日)

使用平均绝对误差(MAE,Mean Absolute Error)、均方根误差(RMSE,Root Mean Square Error)、拟合度(R2,R-squared)3 个指标对SVR 模型的预测误差进行量化分析析[8]:

其中,TSS为原始数据的固有方差,RSS为回归预测值与实际值的残差平方和。

表1 为基于SVR 模型、剔除节假日前后的汉口站发送客流量预测误差对比,可知:排除节假日突发大客流的影响后,由SVR 模型计算得到车站发送客流量预测值的精度可明显提高。

4 结束语

准确预测铁路繁忙大型客运站的发送客流量有利于铁路运输部门充分考虑客流状态及其变化情况,评估和优化车站人员及设备布置效果,完善客运规划管理,为旅客出行提供更优质的服务。

表1 排除节假日前后的汉口站发送客流量预测误差对比

以汉口车站2017 年全年发送客流量数据作为样本数据集,应用支持向量回归模型,对汉口车站全年客流量进行预测和误差分析,在剔除节假日突发大客流的影响后,对车站日常客流量预测的精度明显提高。

猜你喜欢
客运站汉口客流量
汽车客运站场建设运营思考
基于数据挖掘的景区客流量预测模型研究
西安七大客运站全部恢复运营
梅兰芳汉口吃河豚
《汉口北》
地铁开,玩起来
车站秀
基于灰色预测理论在交通枢纽客流量的实际应用
基于灰色预测理论在交通枢纽客流量的实际应用
《汉口商业简史》 书写江中之城的百年繁华