翁湦元, 单杏花
(1.中国铁道科学研究院 铁道技术研修学院,北京 100081;2.中国铁道科学研究院 电子计算技术研究所学院,北京 100081)
基于EEMD-GA-BP的组合客流预测算法研究
翁湦元1, 单杏花2
(1.中国铁道科学研究院 铁道技术研修学院,北京 100081;2.中国铁道科学研究院 电子计算技术研究所学院,北京 100081)
以高速铁路泰安站到达客流为研究对象,从客流数据的时频特性角度分析客流的特征,并结合经验模态分解法的时频分析优势以及遗传算法优化的神经网络的拟合能力,探索可行组合预测算法,以泰安站到达客流数据为例进行了实例分析,比较不同的IMF分量重构方法并确定了较优方案。
经验模态分解;遗传算法;BP神经网络;统计
客流数据具有复杂的变化规律,从客流的时频特性上进行分析有利于分解这些规律,并为预测工作提供更有效的信息[1]。噪声辅助经验模态分解法(EEMD)在分析非平稳及非线性数据上效果出色,结合遗传算法优化的神经网络(GA-BP)[2]建模工具形成的组合预测方法(以下简称EEMD-GA-BP算法)较传统的单一预测方法有明显的优势[3]。本文以泰安站到达客流数据为例,对基于EEMD的组合预测方法以及传统单一预测方法的效果进行对比,并针对EEMD的本征模函数预测值,选择出较优的重构方式,以保证最终预测精度。
1.1 EEMD-GA-BP组合预测算法综述
基于EEMD的组合预测算法的一般步骤如下:
将原始数据x(t)(t=1, 2,…,T)通过EEMD分解为若干本征模函数Cj(t)(j=1, 2,…,N)以及趋势项r(t)。
(1)使用遗传算法优化的神经网络(GA-BP)对本征模函数进行建模与预测。
(2)将分量的预测结果相加使其还原为原序列的预测结果。
图1 EEMD-GA-BP组合预测算法流程图
1.2 噪声辅助经验模态分解算法
经验模态分解法(EMD)将非平稳序列分解成有限本征模函数(IMF)分量和一个趋势项,这些分量包含的频率成分随序列的变化而变化,通过对分量的频率和幅值进行分析,可以准确地反映出原有序列的时频特性。经过EMD处理后的数据表示如式(1):
其中,N表示本征模函数的个数,Cj(t)(j=1, 2,…,N)表示本征模函数,频率范围由高到低,r(t)是趋势项,代表原序列的主要趋势。
在处理真实数据时存在的外部干扰因素,EMD分解容易出现模式混叠的现象而影响本征模函数的分析。因此引入噪声辅助经验模态分解法(EEMD)[4],即在分析时对原序列加入随机白噪声信号后再进行分解,如此重复M次,取分解结果的平均值。IMF的分量表达式由式(2)表示:
其中 ,Cji(t)代表第i次EMD分解加入噪声后的数据的IMF分量。
1.3 GA-BP算法
遗传算法优化的BP神经网络(GA-BP)算法,即在传统的BP神经网络基础上根据神经网络个体的拟合精度作为适应度指标,以BP神经网络隐藏层节点数、节点间的权重系数作为遗传因子利用遗传算法进行参数优化[5],最终生成拟合精度较高的神经网络的算法。其流程如图2所示。
王 雪 男,1979年3月出生于辽宁省锦州市,现为中国科学院国家授时中心导航与通信研究室研究员.从事导航技术研究工作.
图2 GA-BP算法流程图
1.4 IMF分量重构
对于IMF分量的重构[6]有多重方法,若简单的相加会影响预测的精度。GA-BP神经网络本身具有非线性映射的功能,因此可以使用GA-BP神经网络进行训练来搜索IMF的最优权重组合。在重构时是否需要选择所有的分量,以及往年同期数据的加入是否对预测有所帮助将在章节3中做出讨论。
2.1 高速铁路泰安站客流特性
高速铁路泰安站是京沪高速铁路24个站点之一,毗邻著名旅游风景区泰山,在一年中不同时段有着明显不同的特点[7]。泰安站2013年全年的到达客流序列如图3所示。
图3 高速铁路泰安站2013年日到达客流示意图
可以看到4月4日(清明)、4月29日(五一)、6月10日(端午)、9月19日(中秋)、10月1日(国庆)均表现为客流迅速攀升达到尖峰,可以推测为旅游流的集中爆发。2月9日(除夕)以前的客流表现为逐渐攀升至高点而在2月10日(初一)突降至最低点,可以推测增加的客流为返乡流。由图3可以看出高铁泰安站表现出明显的非平稳特征,部分时间点的客流表现出相较于平时明显的差异性。
2.2 客流序列的聚类分析
通过对客流序列进行聚类分析为客流分类提供依据,将客流分为若干段长度为7天的片段,并使用K均值聚类方法分为具有明显区别的4类,各类片段在全年的分布如图4所示。
由图4可以看出除节假日外绝大部分日期均被归类为类别1,说明泰安站的平日客流具有相似的特征,因此对于平日客流的预测可以使用较为统一的方法。
2.3 客流序列数据EEMD分析
将客流序列进行EEMD分解后的IMF以及趋势项曲线如图5所示。
图4 客流聚类分布图
图5 客流数据EEMD分解结果
将IMF分量以及趋势项与原序列进行Pearson相关性分析,结果如下:
可以看出IMF-1与原序列的相关性极小,可以推测序列间的相关性不大。
其经过希尔伯特变换(HHT)[8]后的边际图谱反映了原数据的频率与幅值的对应关系,为了更好的反应数据中的主要频率分布,我们从原序列中去除不相关的IMF分量以及能量较对大趋势项后绘制其边际图谱如图6所示。
图6 客流数据边际图谱示意图
可以看出其幅值的局部极值点分布频率为:0.002 76 Hz、0.034 53 Hz、0.066 29 Hz、0.498 62 Hz处,对应的周期分别为:362天、30天、15天、2天,即全年客流序列大致呈现出以1年、1月、15日以及2日的周期分布。其中,以2日为周期的能量幅值虽不高,但可以明显与周围幅值分布区分出来,因此推测为节假日的短时旅游客流大幅增加所致。
本文以2013年1月1日~12月31日数据作为历史数据,预测的目标时间范围为2014年1月1日~3月30日。将GA-BP神经网络预测与EEMD-GABP组合预测方法的预测效果进行对比。选用绝对误差率(MAPE)以及皮尔逊相关系数(PEARSON)作为比较依据,IMF的GA-BP预测结果如表1所示。
表1 IMF分量预测结果
由表1可以看出高频成分IMF1的预测结果不理想,但考虑到IMF1分量本身与原数据的相关性不高,因此可以考虑将其剔除。其余分量的预测误差在10%以内,同时Pearson相关系数呈现强正相关。其中IMF3~7,R7的分量预测结果已经十分精确,由此可以看出对于分量的预测精度随分量的频率下降而提高。
为了探究分量重构的在该情景下的最佳方法,我们做如下尝试:
(1)将所有8个IMF分量求和作为预测结果;
(2)使用所有8个IMF分量,将其作为GA-BP神经网络的输入,对当日客流作为输出进行训练并测试;
(3)使用所有8个IMF分量, 以及GA-BP预测的客流数据作为输入,对当日客流作为输出进行训练并测试。
(4)使用相关性较强的IMF2~7,R7,以及GA-BP预测的客流数据作为输入,对当日客流作为输出进行训练并测试。
最终的预测结果如表2所示。
Combined passenger fow prediction algorithm based on EEMD-GA-BP
WENG Shengyuan1, SHAN Xinghua2
( 1.Railway Technology Research College, China Academy of Railway Sciences, Beijing 100081, China 2.Institute of Computing Technologies, China Academy of Railway Sciences, Beijing 100081, China )
This article analyzed the passenger fow time and frequency characteristic of Tai’an Station, explored a feasible combination forecasting algorithm combining with EEMD and GA-BP Algorithms, taken the travelers of Tai’an Station as example to analyze and compare different reconstruction methods of IMFs, determine the optimal one.
Empirical Mode Decomposition(EMD); Genetic Algorithm; Back Propagation(BP) neural network; statistics
U293.13∶TP39
A
2015-08-31
国家自然科学基金(U1334201)。
翁湦元, 在读硕士研究生;单杏花,研究员。
1005-8451(2016)03-0031-04