基于月客流量残差的地铁客流季节指数预测方法

2021-09-29 08:53鲁文博马超群李国栋徐金华
城市轨道交通研究 2021年9期
关键词:客流量客流残差

鲁文博 马超群 李国栋 曹 蕊 徐金华

(长安大学交通运输工程学院,710064,西安∥第一作者,硕士研究生)

城市轨道交通客流兼具长期的线性增长趋势、周期性季节变化及随机波动,呈现复杂的非线性特点。传统的预测方法,如线性回归模型、ARIMA模型等,通过调整预测数据以达到对非线性客流量的预测[1-2]。在季节指数应用方面,目前主要是对其值的估计[3-5]和预测模型的改进[6-8],缺少对月份分组和季度分组的比较以及更准确的季节分组的研究。

本文基于月客流残差,以弗雷歇距离作为曲线相似性度量,达到对季节分组的精确性把握。该季节分组即体现了同一分组内月份的相同特征,又突出了不同分组之间的特殊区别,为确定最优的季节分组提供了新的思路。考虑到季节指数法能够有效地消除季节性因素影响,而人工神经网络对非线性时间序列具有良好的适应性,结合两种模型的优势,对地铁月客流量进行预测,以验证分类结果的准确性。

1 基于月客流残差的季节分组方法

1.1 总体流程

基于月客流残差的季节分组流程如图1所示。

图1 季节分组流程

假设历史数据的时间序列为{Yt},t=1,2,3,…,n。

步骤1:建立时间序列线性回归趋势方程:

Yt′=α1-α2t

(1)

式中:

Yt′——因变量;

a1,a2——回归系数;

t——时间。

步骤2:根据趋势方程计算每月客流量的趋势值,从而计算客流量残差δt,计算公式为:

δt=Yt-Yt′

(2)

式中:

Yt——实际客流量,万人次。

步骤3:基于弗雷歇距离算法计算任意两个月客流残差曲线的弗雷歇距离及曲线相似度。

步骤4:根据相似度对月份进行区间分类。

1.2 弗雷歇距离算法

距离空间的概念是法国数学家弗雷歇于1906年提出的,又称为弗雷歇距离。它将现实空间的距离概念推广到一般的集合上,为抽象空间之间的距离度量提供了理论基础。其着重将路径空间距离考虑进去,相比之下,其对有一定空间时序的曲线相似度评价效率更高。

设A和B是空间S上的两条连续曲线,即A:[0,1]→S,B:[0,1]→S;又设α和β是单位区间的两个重新参数化函数,即α:[0,1]→[0,1],β:[0,1]→[0,1];则曲线A与B的弗雷歇距离F(A,B)定义为:

式中:

d——S上的度量函数。

弗雷歇距离越小,说明两条曲线之间的相似程度越高;弗雷歇距离越大,说明两条曲线之间的相似程度越低。因此对曲线A和B来说,相似度IA,B的定义如下:

(3)

2 季节指数预测模型

2.1 季节指数

季节指数是基于统计学的一种简化时间序列数据的方法,该方法对季节时间序列的季节性进行处理,同时使原始数据中的一些重要信息不会被丢失,一般采用直接平均季节指数法对原始客流数据进行预测前的调整。直接平均季节指数法用算数平均值直接计算各月或各季度的季节指数,将其扩展到季节区间的季节指数,其计算公式为:

(4)

式中:

Sj——第j分组的季节指数;

xijp——第i年第j分组中第p月的全线客流量,万人次。

利用季节指数对客流原始数据进行修正,修正值为x′ijp,以降低季节对预测客流的影响,即:

x′ijp=xijp/Sj

(5)

对原始客流数据处理之后,通过预测得到未来时期某月份的客流量y′ijp,经逆向调整后的该月预测客流为:

yijp=y′ijpSj

(6)

式中:

yijp——第i年第j分组中第p月的客流量,万人次。

2.2 Elman神经网络

BP(误差反向传播)算法的多层感知器是至今为止应用最广泛的神经网络。在多层感知器的应用中,以单隐层网络的应用最为普遍。一般习惯将单隐层感知器称为三层感知器,所谓三层包括了输入层、隐含层和输出层。

训练的过程就是不断调整权值的过程,当误差小于设置值时停止训练。整个网络的信息都储存在权值矩阵中。当输入一个预测值时,网络根据权值矩阵进行计算,以达到记忆的目的。

Elman神经网络是在BP神经网络基本结构的基础上,在隐含层增加一个承接层,作为一步延时算子,达到记忆的目的,从而使系统具有适应时变特性的能力,增强了网络的全局稳定性。

2.3 预测步骤

根据季节指数对原始客流数据进行调整,分别应用三种不同的季节指数调整后的数据进行预测,最后分别对预测后的数据进行逆向调整,以得到更精确的结果。

主要分为以下步骤:①对异常值进行修正;②根据时间序列数据建立趋势方程,并计算月客流趋势值、残差;③计算任意两月客流残差曲线的弗雷歇距离和相似度;④根据月客流残差曲线间的相似度进行季节区间分类;⑤根据式(4)计算不同分类方法中每个季节区间的季节指数,并对原始客流数据按式(5)进行调整,获得调整后的客流量;⑥由于Elman神经网络结构的特殊性,需要以原始客流数据对隐含层神经元数目进行寻优,采用优化后的网络预测得到的客流量按式(6)进行逆向调整,从而获得最终的预测客流量。

3 实例分析

选取西安地铁2号线全线2014年1月—2018年8月共56个月的客流量为基础数据,以此数据为原始客流数据,预测2018年9月—2019年2月的客流量。

3.1 修正异常值

由于西安地铁3号线在选取时间区间中开通,因此直接对2016年11月的客流造成影响。采用平均值法计算修正值,并在后续过程中采用修正值进行计算。

3.2 计算月客流残差

应用2014年1月—2017年12月共48个月的全线客流量建立趋势方程并计算月客流残差,结果如表1所示。

表1 不同年份的月客流残差计算结果

3.3 弗雷歇距离和相似度计算

根据表1中的数据绘制的不同年份的月客流残差曲线如图2所示。利用弗雷歇距离算法计算任意两条月客流残差曲线之间的相似度,结果如表2所示。

图2 西安地铁2号线2014年1月—2017年12月的月客流残差曲线

3.4 季节分组

对图2的月客流残差曲线进行定性分析,大致可以看到3~5月的客流残差曲线比较相似,6~11月的客流残差曲线比较相似,12月、1月、2月的客流残差曲线各不相同。根据表2结果,绘制3~5月和6~11月的客流残差相似度曲线,分别如图3和图4所示。

表2 利用弗雷歇距离算法计算的任意两个月客流残差曲线之间的相似度

由图3可见,3~5月的月客流残差曲线相似度比较高,故认为3~5月为同一季节区间。

图3 西安地铁2号线2014年1月—2017年12月中3~5月的客流残差曲线相似度

由图4中可见,6~11月客流残差相似度曲线的特征比较相似,故认为6~11月为同一季节区间。

图4 西安地铁2号线2014年1月—2017年12月中6~11月的客流残差曲线相似度

图5为12月、1月和2月的客流残差相似度曲线。由图5可见,12月、1月和2月的客流残差曲线相似度较小,且与其它月份的并不相同,因此认为12月、1月和2月各为一个季节区间。根据上述分析,将地铁客流季节分为5个区间,即:3~5月为第一季度,6~11月为第二季度,12月、1月和2月各自为一个季度。

图5 西安地铁2号线2014年1月—2017年12月中12月、1月和2月的客流残差曲线相似度

3.5 季节指数计算

以2014年3月—2018年2月的客流量为基础数据,分别采用SIR(季节分组区间)分类方法、TMC(传统月份分组区间)分类方法、TQC(传统季度分组区间)分类方法,按照直接平均法(式(4))进行计算,结果如表3~5所示。

表3 基于SIR分类法计算的季节指数

3.6 优化网络结构

1) 以原始客流数据为基础,优化Elman神经网络的隐含层节点数。

(1) 选取2014年3月—2018年2月基于SIR、TQC、TMC分类方法并计算调整后的数据作为训练集。

(2) 选取2018年3月—8月基于SIR、TQC、TMC分类方法调整后的调整数据作为测试集。

表4 基于TMC分类法计算的季节指数

表5 基于TQC分类法计算的季节指数

(3) 先设置较少的隐含节点训练网络,然后逐渐增加隐含节点数,用同一样本集进行训练,从中确定网络误差最小时对应的隐含层节点数。

经过检验,最佳隐含层节点数取值公式为:

(7)

式中:

n——输入层节点数(本文为6);

l——输出层节点数(本文为1);

ω——1~10之间的常数;

m——隐含层节点数,取寻优范围为[1,16]。

(4) 确定适应度函数,以2018年3月—8月预测客流量绝对误差作为适应度函数,即:

(8)

式中:

xj,yj′,yj″,yj‴——为2018年第j月的实际客流量应用SIR、TQC、TMC分类法预测后的调整客流量。

由于寻优范围较小,采用遍历法对节点数进行寻优,寻优结果如图6所示。由图6可见,最优隐含层节点数为3,即建立6-3-1的三层神经网络。

图6 适应度函数曲线

2) 以2014年3月—2018年8月客流量为训练集,应用优化后的神经网络预测2018年9月—2019年2月的客流量,经过逆向调整(式(6)),最终得到预测值,如表6所示。

表6 西安地铁2号线2018年9月—2019年2月的客流量预测结果 单位:万人次

3.7 预测结果评价

为了消除随机性,分别训练100次并对预测客流取平均值,预测结果如表6所示。根据实际值计算相对误差(RE)、平均绝对百分比误差(MAPE)、和均方根误差(RMSE)来对预测结果进行分析,结果如表7所示。

表7 西安地铁2号线2018年9月—2019年2月的客流量预测误差对比分析

进一步地,可由表7得到如图7所示的各分类方法预测误差对比图。

图7 西安地铁2号线2018年9月—2019年2月不同分类方法的客流量预测误差对比图

通过比较各分类方法的预测指标,SIR分类预测所得到的相对误差、平均绝对百分比误差、均方根误差小于传统的季节分类方法的,相对误差控制在10%以内(由于对2016年11月客流量的修正误差,其对应月份预测误差较大),个别月份达到1%以内,预测精度相对较高。

自然季节性和制度节性是影响季节性波动最主要的因素。TMC和TQC分类方法的季节分组只体现了自然季节性,而本文所采用的方法根据两者叠加的结果进行分组,更为准确。

综上所述,基于月客流残差的季节指数预测方法具有较高的预测精度和较好的稳定性。

4 结语

本文通过对月客流残差分析,提出了基于月客流残差的季节分类方法,以季节指数调整客流达到提高预测精度的目的。通过对三种分类方法进行对比分析,本文提出的分类方法在月度客流预测中精度较高,基本满足对客流量的预测需求。

通过该分类方法计算出的季节指数用于预测时,能更好地适应城市轨道交通客流的季节性变化趋势,从而使运营公司及时调整相关运能运力,制定更加经济合理的月度或年度运营计划。

考虑到影响城市轨道交通客流季节性因素的多样性,后续需要对网络、不同线路和站点的季节区间进行对比分析。

猜你喜欢
客流量客流残差
客流增多
基于双向GRU与残差拟合的车辆跟驰建模
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
基于嵌入式系统的商场客流量统计算法
基于自学习补偿的室内定位及在客流分析中的应用
基于AFC数据的城轨站间客流量分布预测
人工免疫算法在电梯客流时段划分的应用
平稳自相关过程的残差累积和控制图
城市轨道交通运营客流数据分析缺陷及应对