光志瑞 魏 运** 薛云雷 谢莎婷 吴雁军
(1. 北京市地铁运营有限公司技术创新研究院, 100039, 北京; 2. 地铁运营安全保障技术北京市重点实验室, 100039, 北京;3. 京投新岸线技术有限公司, 100089, 北京∥第一作者, 高级工程师)
选择合理的历史相似日(以下简称“相似日”),是城市轨道交通客流预测工作的重要组成部分。电力系统在负荷预测中对相似日进行了广泛研究,如文献[1-3]将温度、湿度、日类型及天气状况等影响电力负荷的因素量化,给出了各因素相似度映射表计算日期的相似度。在交通领域,文献[4]通过对OD(起讫点)概率矩阵进行聚类分析,将运营日分为5类;文献[5]在对节假日客流进行预测时,提出了构建日期特征向量、选取合理评估函数的相似日选择思路。但以上研究均缺乏对城市轨道交通客流影响因素的量化分析,以及日期相似度的系统化模型构建。
本文从日期相似度算法策略设计、各影响因素相似度计算、日期相似度模型构建等方面,提出了适合城市轨道交通客流预测的相似日选择方法。
城市轨道交通客流预测相似日选择的技术路线如图1所示。
注:普通日是指正常工作日与双休日;与之对应的是特殊日,特殊日含节假日、节假日的前一日、重大政治文化活动日等。图1 城市轨道交通客流预测相似日选择方法的技术路线Fig.1 Technical route of similar day selection method for urban rail transit passenger flow forecast
客流模式是指当日城市轨道交通线路/线网所对应的客流影响因素合集。客流模式越接近,客流的影响因素越相似,预测日与相似日在客流总量、客流分布情况或客流变化趋势等方面越相似,因此,可将相似日的选择过程转化为客流模式的识别过程。定义第日客流模式的特征向量M(i)为:
M(i)=[Di,we,Di,lt,Di,wo,Ti,h,Ti,l,Wi,we,Wi,wi]
(1)
式中:
Di,we——星期类型,如星期一、星期二等;
Di,lt——与预测日的间隔时长;
Di,wo——工作日属性;
Ti,h——日最高温度;
Ti,l——日最低温度;
Wi,we——晴、大雨等天气状况;
Wi,wi——风力。
普通日的客流量与日期距离密切相关。一般地,Di,lt越小,客流总量越接近,可称为“客流总量相当日”。节假日、节假日的前一日(以下简称“节前一日”)等特殊日与邻近普通日的客流规律差别较大,但和往年相同时期或相似节假日的变化趋势相似,可称为“客流变化相似日”。
在进行客流模式识别时,为节约运算成本、提高算法效率,可针对客流总量相当日和客流变化相似日,分别采用不同的相似日选择算法策略。
策略一:选择客流总量相当的相似日时,采用前向逐日检索法,从最临近预测日的历史日开始,逆时序逐日计算每个历史日与预测日的相似度,选取最近N天中相似度最高的n天作为与之客流总量相当的历史相似日,或选取相似度大于某个阈值的n天作为历史相似日。其中,n为确定选用的历史相似日的总天数。
策略二:选择客流变化相似的相似日时,采用双向定位检索法,将往年(如最近3年)同期作为定位点,如同一特殊阶段、假期天数相同的法定节假日中与预测日时序相同的某天,从定位点分别正向、逆向逐日计算每个历史日与预测日的相似度,确定n个历史相似日。
1.4.1 日期相似度的计算
设Ri为历史第i日与预测日的日期相似度,ri,m为历史第i日与预测日在第m种客流影响因素上的相似度,km为第m种客流影响因素的权重系数(通过自适应过程标定)。采用各客流影响因素相似度累乘的方法计算Ri,通过km确定各因素的影响指数。km标定的目标是使Ri的排序与对应客流相似度排序尽可能一致。Ri的计算式为:
(2)
1.4.2 相似日样本数n的确定
可借鉴聚类分析中确定类别数的方法确定相似日的样本数:
1) 结合实际法。根据实际应用经验,进行客流预测时,普通日可选择4~6个相似日,特殊日可选择1~2个相似日。
2) 肘方法。确定与预测日相似度最高的1~n个相似日,参考相似日的客流情况对预测日的客流进行预测,绘制样本数与预测误差的折线图,折线的拐点处即为合适的样本数。
客流的影响因素主要包括星期类型、与相似日的间隔时长、工作日属性、日最高温度、日最低温度、天气状况、风力等。这些因素可分为0-1型指标、定性指标、定量指标3种类型。应按照影响因素不同的类型分别进行相似度计算。
工作日与非工作日、法定节假日与非法定节假日、重大政治文化活动日与非重大政治文化活动日间的客流特点明显不同,两两绝非相似日。若历史日与预测日同属同一个类型,如均为工作日,则相似度取1,否则取0。式(1)中的Di,wo属0-1型指标。
式(1)中的Di,we、Wi,we属定性指标。计算定性指标的相似度时,可直接匹配已标定的相似度映射表。映射表标定流程如下:① 通过给定性指标赋值或借助其他定量指标,对定性指标进行定量转化;② 对定量转化后的指标进行量纲一化处理;③ 计算相似度,形成定性指标相似度映射表。
本文以星期类型相似度为例,介绍定性指标的相似度计算方法。星期类型对客流量有较大影响,构建星期类型相似度函数时,需遵循以下基本原则:① 星期类型的相似度函数分布在(0,1]区间;② 若星期类型相同,则相似度为1;工作日与双休日相似度最小,最小相似度应大于0;③ 通过构造函数法构建相似度计算函数,使不同星期类型的相似度能够较均匀地分布在(0,1]内。
根据以上原则,构建出星期类型的两个相似度函数,其计算式分别为:
rDt,1=1-|xp-xq|
(3)
(4)
式中:
rDt,1——星期类型的相似度函数1;
rDt,2——星期类型的相似度函数2;
xp——星期类型为p的日期所对应客流量的量纲一化值;
xq——星期类型为q的日期所对应客流量的量纲一化值;
p、q——均为星期类型,星期一取1,星期二取2,…,星期日取7。
表1 基于两个相似度函数得到的各星期类型间客流相似度结果Tab.1 Results of passenger flow similarity between week types based on two similarity functions
在特殊情况下(如星期六调休加班下的客流与工作日客流间差别较小),星期类型不应作为客流预测的主导因素。为避免星期类型在任何条件下均为主导因素,应使星期类型相似度较均匀地分布在(0,1]内,因此,选用式(4)作为星期类型的相似度函数,其计算结果如表2所示。
表2 基于式(4)得到的各星期类型间客流相似度结果Tab.2 Results of passenger flow similarity betweendifferent week types based on formula (4)
式(1)中的Di,lt、Ti,h、Ti,l、Wi,wi属定量指标。本文以Di,lt、Ti,h为例,构造定量指标的相似度计算函数。
2.3.1Di,lt的相似度计算
Di,lt对客流的影响具有“近大远小”的特点,即:当预测日为普通日时,Di,lt和Di,we为客流预测的主导因素。离待预测日越近,其客流特征越相似,且随着与预测日距离的增加相似度缓慢衰减。当预测日为节假日及节前一日时,Di,lt为客流预测的主导因素,离定位点的距离越近其客流特征越相似,且随着与定位点距离的增加相似度骤减。因此,引入特殊日因子λ,用以解决不同情况下主导因素变换的问题。同时,考虑到普通日距离衰减的缓慢性,分别引入了周衰减比例和日衰减比例,用以表述该指数函数的衰减程度。Di,lt相似度的计算式为:
(5)
式中:
rDd(d1,d2)——Di,lt相似度;
d1——第i个历史日距离预测日的天数;
d2——第i个历史日距离定位点的天数;
新思想、新理论的提出和形成都有其深刻的理论渊源,习近平党的纪律建设思想就是在对马克思主义关于无产阶级政党的纪律建设思想和中国共产党人纪律建设思想的继承和发展的基础上提出和形成的。
ω1——普通日的周相似衰减比例;
ω2——普通日的日相似衰减比例;
ω3——特殊日的日期距离衰减系数。
式(5)中:λ为0-1变量,当预测日为特殊日时,λ取1,否则取0;int为取整运算,mod为取余运算。
2.3.2Ti,h相似度计算
Ti,h、Ti,l、Wi,wi等定量指标计算方法类似。以Ti,h为例,不同范围内Ti,h变化对客流的影响程度不同:当Ti,h低于某阈值时,客流对最高温度的反应不敏感,如Ti,h为23 ℃与28 ℃时(相差5 ℃)的客流量相当;但是一旦超过某阈值,客流对温度的反应将变得敏感,如Ti,h为36 ℃与31 ℃时(相差5 ℃)的客流量相差较大。因此,通过构建分段函数来计算Ti,h的相似度,分段函数的影响系数用αk表示,Ti,h低于阈值时k取1,高于阈值时k取2:
rTh=1-αk|Tu,h-Tv,h|
(6)
式中:
rTh——Ti,h相似度;
Tu,h——第u日Ti,h量纲一化值;
Tv,h——第v日Ti,h量纲一化值;
αk——影响系数(k取1,2)。
当Ti,h低于某一阈值(如34 ℃),此时Ti,h不是主导因素,k取1,αk可取0.001(结合星期类型相似度赋值);当Ti,h高于某一阈值(如34 ℃),此时Ti,h为主导因素,k取2,αk可取0.020(结合星期类型相似度赋值)。
相似日选择是否合理,主要通过评估预测精度来判断。设城市轨道交通客流预测的平均绝对误差为EMAE,平均绝对百分比误差为EMAPE,其计算式分别为:
(7)
(8)
式中:
ys——实际客流;
t——预测样本数。
本文基于经验法与相似日选择法,对2017年11月23日(星期四)进行相似日选择,对该日的北京城市轨道交通全路网客流进站量进行预测,并对传统经验法的预测结果与本文提出的相似日选择法的预测结果进行对比。
在选择普通日相似日时,通常采用无异常情况的4个与预测日星期类型相同的历史日期作为相似日。采用经验法选择的相似日为2017-11-16(星期四)、2017-11-09(星期四)、2017-11-02(星期四)、2017-10-26(星期四)。采用本文提出的相似日选择法,式(5)的ω1取0.98,ω2取0.99,得到的计算结果如下:2017-11-22(星期三)的相似度为0.984、2017-11-21(星期二)的相似度为0.969、2017-11-16(星期四)的相似度为0.980、2017-11-15(星期三)的相似度为0.964。
在此基础上,采用平均值与二次指数平滑法(平滑系数l分别取0.1、0.2、0.3)计算EMAE和EMAPE。经验法和相似日选择法得到的EMAE和EMAPE如表3所示。由表3可看出,对4种客流预测结果的误差进行平均,可得到采用相似日选择法得到的EMAE为5 080人次,EMAPE为0.08%,其预测精度高于经验法的预测精度。
表3 基于两种相似日选择法的普通日相似日客流预测误差对比
本文基于经验法与相似日选择法,对2017年国庆节的前一日(2017-09-30,星期六)进行相似日选择,并预测该日北京城市轨道交通全路网的客运量。
经验法选用2016-09-30(星期五)作为相似日,由于星期五与星期六相似度较低(仅为0.421),不能作为本次客流预测的参考。采用相似日选择法得到的相似日为2017年端午节的前一日(2017-05-27,星期六),该日与预测日均为调休加班日,二者的相似度为0.786。
如表4所示,采用增长系数法进行预测得到相似日选择法的EMAPE为1.27%,预测误差小于经验法的预测误差(6.95%)。
表4 基于两种相似日选择法对节前一日客流预测的误差对比Tab.4 Comparison of two similar day selection methods on passenger flow prediction of the previous day of holiday
选择合理的相似日,是提高城市轨道交通客流预测精度的有效途径。本文提出的用于城市轨道交通客流预测中的相似日选择法,综合考虑了星期类型、与预测日的间隔时长、工作日属性、日最高温度等各类影响城市轨道交通客流的因素,并根据各影响因素的特征构建了不同影响因素的相似度度量方法,可为不同的城市轨道交通客流预测场景提供参考。