王 欣,王志飞,王 煜
(1.武汉工程大学 邮电与信息工程学院,湖北 武汉 430205;2.中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081)
近年来,城际铁路、市域铁路开始受到地方政府的重视,各地纷纷围绕着核心大城市、省会城市、国家中心城市修建城际铁路、市域铁路,以弥补城市轨道交通与国铁干线间的市场空白,满足跨城、跨区域旅客的出行需求。城市轨道运营公司迫切希望加强对旅客乘车需求的把握和预测。但及时、准确地对客流进行合理的预测一直是个难题。一般来说,根据预测时间的长短可以分为短期预测和长期预测2 大类。对于轨道交通运输企业,更加关注短期的预测问题。轨道交通客流在短期内受到许多因素影响,如天气、环境、突发事件等,无论采取什么模型方法,总有些随机因素无法准确识别度量出来,导致预测工作难度很大。
目前学界对短期客流预测的方法很多。最为常见的是基于时间序列的参数方法[2],包括差分自回归移动平均模型(ARIMA)[3]、季节性差分自回归移动平均模型(SARIMA)[4]。这类模型主要刻画客流的短期周期性和季节性趋势,缺点是只对具有平稳性的时间序列有效,而现实中数据大多是非平稳的。还有一类非参数方法近年来强势兴起,主要包括贝叶斯模型[5]、支持向量机[6]、深度学习[7-8]等。由于轨道线路的固有特点,线路整体长度较短,且站间距离较小,造成同一线路上不同站间组成的区段运输能力存在互相占用的现象,导致在对某个区段的客流进行预测时,所得到的样本存在样本量偏小或者干脆缺失的现象,而且这种样本失真或者缺失带有很强的随机性,很难通过固定算法去拟合还原,得到足够的样本数量或者准确的样本值。如何有效解决样本量偏小或者缺失的难题,可以考虑迁移学习。比如某个特殊OD 部分数据偏小或者缺失,就可以拿同一线路上与之相似的其他OD 客流数据作为补充,有效解决该特殊OD 数据不足、数据不准确的问题。迁移学习是使用已有的知识对不同但有一定相关领域问题进行求解的一种新的机器学习方法,通过迁移将已有的知识(源域)映射到目标域,解决目标域中仅有少量有标签的样本数据甚至没有样本数据的学习问题[9-11]。迁移学习具体算法可分为4 种:①基于关系的迁移,思路是将源域学习逻辑关系网络应用到目标域中;②基于实例的迁移,思路是对源域的实例进行加权后迁移;③基于特征的迁移,思路是将源域和目标域变换到一个特征空间,完成迁移;④基于模型的迁移,思路是将源域的模型应用到目标域中进行迁移[12]。
根据轨道交通短时客流的特点,选择基于实例的迁移学习,选定目标域与源域后,需要从源域中挑选出合适的样本数据,迁移到目标域中,与目标域数据共同组成总体样本,从而增加样本数量,减少因为样本偏小导致预测精度差的弊端;通过给予每个样本合适的权重,最终训练出合适的模型。
设某区段j记做odj(rj,sj),其中rj是始发车站,sj是终到车站。od1(r1,s1)与od2(r2,s2)为同一线路上2个存在运输能力互相占用的区段。设日期为T,od1(r1,s1)的能力被占用的较快(如票额售罄),就可能造成od2(r2,s2)可供占用的运输资源变少,当日od2(r2,s2)的客流数据fT(r2,s2)就属于在限制需求条件下的客流数据,不是真实的值,甚至会出现od2(r2,s2)在当天没有数据,导致总体样本偏小的现象发生。如果用fT(r2,s2)作为样本对od2(r2,s2)的客流进行预测,则影响预测精度。可以选择与od2(r2,s2)相近的od1(r1,s1)的日期为T的客流数据fT(r1,s1)作为补充。所有fT(r2,s2)组成目标域样本集,od2(r2,s2)为目标域OD,所有fT(r1,s1)组成源域样本集,od1(r1,s1)为源域OD。通过选择源域中合适的样本补充到目标域中,由挑选出的源域和目标域共同组成的样本最终用于训练的样本集。
选择与目标域OD 相似度最高的OD 作为源域OD,为了刻画2个OD的相似性,借鉴“聚类”思想,通过计算“距离”来挑选OD。“距离”越近,2 个OD 相似度越高,客流特征越接近,相互替代的合理性越高。“距离”由2 部分数据计算得到。第一类是空间地理经济意义上的“距离”,用dis(*)表示,设od1(r1,s1)为目标域OD,则任意od2(r2,s2)与其距离计算公式如下。
式中:代 表odj(rj,sj) 的第i个特征属性(i=1,2,...,P),共P个特征属性,所有特征属性全部经过归一化换算。
第二类是2 个OD 客流变化的一致性的“距离”,用pis(*)表示,具体计算公式如下。
式中:为odj(rj,sj)对应的客流指标的第n个样本(n=1,2,...,N);fˉj为客流均值。
OD 客流变化的一致性度量本质上等价于相关性度量。“距离”公式Dis(*)表达式如下。
最终通过公式⑷选出源域OD,从该OD 选出合适的样本组成源域样本数据集。
近几年研究发现,基于样本迁移学习方法适用于回归问题,主要采取在传统的Boost 算法基础上进行改进,核心思想为:对于源域中误差较大的样本,不采取提高样本权重,而是降低权重的方法来避免负迁移。对于目标域误差较大的样本,提升样本权重,从而提高模型预测精度[12],其算法过程如下。
通过“距离”确定源域OD 和目标域OD,从源域OD 中选出合适的样本作为补充,最终组成训练数据集S,训练数据集一共有N+M个样本。其中样本为M个目标域选出的样本;,...,为N个源域选出的样本,所有N+M个样本组成训练数据集D,设CART 回归树为CRTl(x)和最大迭代次数L,l为迭代次数,∀l∈L。最终得到集合回归器fc(x),该集合回归器用于最后的预测,其构成如下。
具体训练步骤如下。
步骤2:设l=1,如果l≤L,开始遍历。
步骤3:根据权重向量wl选择训练样本。
步骤4:使用选择样本训练得到模型CRTl(x),CRTl(x)为1棵回归树。
步骤5:根据训练模型CRTl(x),针对训练数据集D,得到整体误差εl,其具体计算如下。
步骤6:若εl>0.8,则返回步骤4,否则执行步骤7。
步骤7:计算αl,其计算公式如下。
步骤9:结束,最终得到集合回归器fc(x),其为一些列回归器的线性组合。
在客流高峰期,一些物理径路重叠的区段存在运输能力互相占用的现象,尤其是同一条线路连接着某个特大城市(或中心城市)中心车站和数个较小外围车站组成一个相对完整的城市轨道交通线路的情况。数个较小外围车站的运输资源会互相占用,导致部分区段客流样本缺失,一个区段客流提高必然导致另一个区段客流降低,这些区段实际客流就是在限制条件下的客流数据。以武汉都市圈为研究对象,武汉都市圈形成了以武汉站为特大城市中心车站向黄石方向延伸的城市轨道交通线路,其中武汉站(A)、左岭站(B)、花山南站(C)、葛店南站(D)分别对应了武汉市主城区、东湖高新区、洪山区和湖北省级开发区等行政区域。B,C,D 所在城市(区)为较低等级城市(区),且行政上隶属或者在经济关系上隶属于武汉。当乘车需求旺盛时,旅客分别从车站B,C,D 去往车站A。区段B—A,C—A,D—A 会相互占用运输资源,从而出现某个区段样本缺失导致整体样本量偏少的情况发生。如果以区段B—A 为目标域OD,只使用该区段的客流数据作为样本进行预测,会有不小的误差,故选择与区段B—A 相似的其他区段的样本作为补充,使得最终的样本集能够尽可能的广泛,覆盖所有情况,得到目标域OD与源域OD如表1所示。
表1 目标域OD与源域ODTab.1 Target domain OD and source domain OD
从表1 中2 个备选源域OD 中选择与目标域OD最相似的作为最终的源域OD。对于公式⑴中OD特征属性如表2所示,OD特征取值如表3所示。
表2 OD特征属性Tab.2 Characteristics of OD
表3 OD特征取值Tab.3 Values of characteristics for each OD
通过公式⑴至⑷的计算,得到2 个备选的源域OD 与目标域OD 的“距离”计算结果如表4 所示。最终选择区间CA为源域OD。
表4 “距离”计算结果Tab.4 Results of distance calculation
由于目标域与源域存在互相影响的客流特征,暑期客流高峰时表现更加明显。目标域OD 在某些日期的客流数据显然是“低估”的,这部分数据样本不适宜直接用来训练模型去预测,会影响预测结果,如果目标域样本集去掉这部分样本可能会导致样本量太小,从而出现“欠拟合”的现象。根据迁移学习规则,从源域中选择相同日期的样本补充到训练数据集中,其判断依据由公式⑾决定。
式中:ft(r,s)为目标域数据集中第t天的客流值,整个样本数据集与之相同周期属性的样本共M个;β为阈值;fˉ(r,s)为目标域中相同星期属性(周号)下的客流指标的均值。
(r,s)计算公式如下。
当某天的客流数据低于对应的周号客流均值一定比例时,有理由相信数据是有偏的,需考虑用源域中同一天的客流数据样本来补充(迁移)。
由于客流数据具有一定的时间序列特性,故而选择CART回归树作为基础回归模型,对样本的时间序列特性的表达略有不足,因而需要在样本特征中加入描述时间序列的特征属性,将每个样本前一天的客流数据作为一个特征属性引入。同时,客流需求有高峰期和低谷期的区分,有显著的周期规律,需要将该因素加以考虑,不同的月份、周号对单日客流影响也不同,需要将这些特征属性一并考虑。最终选择样本特征属性如表5所示。
表5 样本特征属性Tab.5 Sample characteristics
由于2020 年后新冠疫情的影响,数据不适合作为算例,因而选择样本日期为疫情前的2019 年暑期(7 月1 日—8 月31 日)高峰客流数据做为样本,源域OD 和目标域OD 各包含62 个样本。按照公式⑿引入源域样本补充到最终的样本集合中,形成最终样本数据集,随机选取7个样本作为测试数据来验证模型有效性,其余样本作为训练数据输入模型。选择公式⒀和公式⒁作为最后预测结果的评价标准。
式中:(r,s)为目标域数据集中第t天的客流预测值。
公式⑿中筛选阈值β非常关键,会最终影响预测的结果。根据专家经验确定β为0.8,根据公式⑿的筛选共有4 个源域样本补充到最终的数据集中。确定最大迭代次数L=10。每次随机选择59个样本作为训练样本输入改进Boost 算法开始训练,每个样本的初始权重为,训练完成后将剩余的7个测试样本输入训练好的模型得到预测结果。由于训练样本和测试样本的选择具有随机性,因而将训练过程重复10 次,取10 次中预测结果最好的一次结果作为最终的结果进行分析。
迭代过程中每次迭代输出的中间结果如表6 所示,可以看到随着样本权重的不断变化,每棵回归树树CRTl(x)的总误差εl和回归树的权重αl也在不断变化中。
表6 每次迭代输出的中间结果Tab.6 Intermediate results of each iteration
最终输出的集合回归器fc(x)如下。
将剩余的7 个样本作为测试样本输入集合回归器fc(x),得到最终预测结果如表7 所示,根据公式⒀和公式⒁可知其对应的平均绝对误差比率(MAPE)和均方根误差(RMSE)分别是15.3%和12.6。
表7 预测结果Tab.7 Prediction results
为比较迁移学习与传统集成学习的预测精度,汇总改进Boost算法与传统Boost算法对比如表8所示,得到选择迁移学习中样本迁移的思路,从源域中选择合适的样本,与目标域样本共同组成训练数据集,并采用改进Boost 算法训练出的模型MAPE结果为15.3%。仅使用目标域样本集并采用Boost集成学习算法训练出的模型MAPE 结果为15.7%。说明采用的改进Boost 算法是对传统Boost 集成学习算法的一种改进和尝试,预测精度提高了2.6%,同时也可以分析出,目标域样本集中的部分样本数据确实受到了同线路其他OD 的影响,该部分样本值属于有偏差、不准确的,因而影响了训练出的模型精度。通过将源域中的部分样本替代原目标域的样本可以对整个训练数据集进行修正,修正后的数据能有效提高模型精度。
同时选择ARIMA 模型、多元回归模型等经典的预测模型做横向的比较,得到不同预测模型MAPE 对比如表9 所示。可知,通过借鉴迁移学习思路与改进Boost 算法结合训练出的模型预测结果MAPE 为15.3%,经典的时间序列算法ARIMA 预测结果MAPE 为17.1%,采用多元回归进行预测结果MAPE 为25.8%。选择的算法模型精度显著高于传统预测模型。
表9 不同预测模型MAPE对比 %Tab.9 Comparison with other kinds of prediction models in MAPE
以轨道交通短时客流预测问题为导向,采用基于实例的迁移学习来对预测样本进行筛选并配合改进Boost 算法应用于特殊OD 的短时客流预测,表现出了在某些特定应用场景下优于传统预测模型的特点,为轨道交通短时客流预测提供了一种新的理论模型和思路。但另一方面,可以看到基于实例的迁移学习局限性也很明显,其主要针对物理径路存在重叠的部分OD(特殊OD);当OD 包含的样本数量足够大,样本质量较高时,迁移学习便失去了作用。因而如何将迁移学习应用场景拓展到更普遍的实际情况是下一步需要重点研究的方向。