基于深度神经网络的轨道交通客流预测及可视化

2020-02-03 02:39施雪蓉王宠惠刘东杰张潇张博
电子技术与软件工程 2020年19期
关键词:客流量客流预处理

施雪蓉 王宠惠 刘东杰 张潇 张博

(甘肃农业大学 甘肃省兰州市 730070)

城市轨道交通技术的飞速发展给人口基数不断增大的城市提供了一个较为合理的出行方案。但也存在一些问题:一方面,由于需求与供给能力的不均衡性,在城市轨道交通网络上常会造成难以预见的客流拥塞状况,给地铁的安全运营带来极大的挑战;另一方面,城市交通拥堵问题逐渐成为制约经济发展的重要影响因子,因此以地铁为代表的城市轨道交通系统得到了极大的发展空间。它可以为各个站点提供合理依据来分配人力物力,从而便捷市民的出行,或者为应对突发事件提供有效保障。例如今年年初突发的疫情事件,我们就可以通过分析预测得知某一站在某一时段内的人流量,从而设立相对合理的防疫点和防疫工作人员。预测客流可以为未来轨道交通和城市的规划建设提供可行的数据支持。

1 研究内容及框架

1.1 长短期记忆神经网络LSTM

长期和短期记忆网络(通常称为" LSTM")是存在长期学习依赖关系的RNN 的一种,是为了解决长期依赖问题而被提出的。LSTM 的重中之重就是神经元的所处的状态,上水平线包含在整个结构的内部。它的状态类似于一个运输带。其线性作用非常小且运用于整个结构。运输带上的数据易于传播且状态不会随之变化。如图1所示。

Sigmod 层输出0~1 之间的数字,描述了一个神经元有多少信息能够通过。输出"0":"所有不能通过";输出"1":"全部允许通过"。一个深度模型有三个用于保护和控制神经元状态的门限。

为了控制存储单元状态c 中的信息量设计了两个门:遗忘门(forget gate)与输入门(input gate)。为了便于演示,许多文档都添加了一个名为"候选门"的门。

2 基于LSTM深度神经网络地铁客流量预测

本文以天津市地铁9 号线塘沽站客流为例进行客流预测分析

首先,原始的AFC(自动票价收集系统)乘客流量数据经过数据预处理后转换为一维时间序列,可以通过BPNN,LSTM 和RF神经网络直接进行训练。然后从时间维度分析天津地铁客流数据,以了解天津地铁客流的分布特征。然后构建三种神经网络:BPNN(反向传播神经网络),LSTM(长期短期记忆)和RF(随机森林)来分析和调整数据,最后将三种模型比较分析,选出相对优于其他模型的LSTM 预测模型,基于网格搜索算法确定LSTM 模型的最优超参数组合。最后以塘沽站客流为例,利用LSTM 模型对客流数据进行预测,并对预测结果进行分析。

表1:AFC 数据字段注释

表2:LSTM 模型超参数取值

表3:各项指数具体数值

图1:LSTM 核心构造

2.1 客流量数据预处理及分析一时间维度

2.1.1 客流量数据预处理

图2:LSTM 模型结构图

图3:BPNN 预测周五进站

图4:BPNN 预测周五出站

图5:BPNN 预测周天进站

2.1.1.1 模型原理(以LSTM 为例)

图6:BPNN 预测周天出站

图7:LSTM 预测周五进站

图8:LSTM 预测周五出站

图9:LSTM 预测周天进站

该模型擅长处理时间序列数据,因此在数据预处理之后,将AFC 数据建模为一维时间序列数据。常见的时间序列预测方案主要包括单步预测,多步预测和滚动预测:单步预测,使用前n 个历史数据{x1,...} Xn-1} xn}来预测下一个数据 Xn +1;多步预测,在预测m 个数据{Xn 十l,...,xn +1}之后,使用前n 个历史数据{x}}...}J(n_}} Xn};滚动预测,下一个将Xn+1,随着新的历史数据继续用于预测;从预测效果的角度来看,单步预测的准确性要高于多步预测和滚动预测的准确性。地铁客流的单步预测方法为了进行预测,将预测步骤n 用作模型的超参数。本节采用网格搜索算法来选择最优的超参数参数组合。

2.1.1.2 AFC 数据预处理

AFC 数据部分字段注释如表1所示 AFC 数据字段注释,分别包含了进站和出站的站名、线路、时间等字段:

原始的AFC 数据是天津地铁各个线路在从星期一至星期六选择的任意一天的全日客流数据。过滤从06:00:00 到24:00:00 的每日客流数据作为训练集。预测客流时,必须在特定时间间隔内指定客流数据。此部分以五分钟为间隔对客流量计数和预测。由于在同一天的不同时间,客流值相差很大,因此需要对客流数据进行归一化,将客流数据映射到规定范围内处理,再用于模型训练。考虑到地铁的实际运行,按站点比按线路预测客流更具研究性。因此,本节以天津地铁9 号线塘沽站的客流数据为例,通过模型进行训练和预测。原始AFC 数据不能直接用于训练BPNN,LSTM 和RF 模型。数据必须先进行预处理,然后才能用于模型训练。

图10:LSTM 预测周天出站

图11:RF 预测周五进站

图12:RF 预测周五出站

图13:RF 预测周天进站

图14:RF 预测周天出站

为了将原始AFC 数据建模为一维时间序列数据,BPNN,LSTM 和RF 模型用于训练和预测。需要经过以下数据预处理:

(1)过滤06:00:00 至24:00:00 的客流记录,为了使开始和结束的客流时间与地铁的实际运营时间保持一致,根据原始AFC 数据中的OD_Entry_Tm(入站时间)字段,从06:00:00 统一过滤AFC客流到24:00:00 数据。

(2)过滤9 号线塘沽站客流数据,根据原始数据中的ODEntry-Line-ID 和OD-Entry-Station-ID(传入站名ID)字段,过滤出9号线客流数据,并计算出特定线路的客流数据。

(3)每隔五分钟计算一次客流数量。五分钟的间隔不仅可以确保模型预测的准确性,还可以体现出客流的变化。为了便于统计客流,将原始AFC 数据中的字符串时间转换为整数时间,以分钟为单位。

(4)归一化原始数据。通常需要对时间序列数据的预测进行归一化。将客流数据归一化到相同范围内可以使模型尽快收敛,并提高预测效果。本节采用最小最大归一化方法,将天津地铁客流量原始数据归一化到0 到1 范围内。式中X 为样本值,Xmin 为所有样本的最小值,Xmax 为所有样本的最大值:

(5)划分训练集和测试集。训练集用于模型训练阶段,以探索数据之间的潜在关系;测试集用于测试阶段,以评估模型的有效性。测试集和训练集彼此独立,需要分开。

2.1.2 天津地铁客流量数据分析

通过对原始AFC 数据的预处理,对天津地铁客流数据进行详细分析,以了解天津地铁客流在时间维度上的分布特征,为后续的模型训练奠定基础。考虑到工作日和非工作日之间的客流变化存在一定偏差,因此将数据集分为两部分(即周一至周四和周一至周六)进行研究。本节将首先对它们的客流分布进行分析,并观察其分布差异。

周一到周四与周一到周六客流量分布对比:以5 分钟为时间间隔,整理得出天津地铁9 号线塘沽站在周一到周四和周一到周六的客流分布情况,然后分别就进出站客流分布规律进行分析。

由图2-1、图2-2、图2-3、图2-4 可以看出,天津地铁9 号线塘沽站客流量一天之内存在较为明显的早晚高峰,整体存在周期性变化。

通过应用大数据分析技术对抽油机悬点载荷进行了研究,依据现场实际生产数据确定出了抽油机最优悬点载荷利用率为67%,基于最优悬点载荷利用率可以进行适当的参数调整及抽油机选型,从而实现抽油机低能耗高效运行,延长收油机使用年限并现场调平衡50井次,调冲程、冲速62井次,优化设计标柱197次,年节电26.55×104kWh。

2.2 深度神经网络模型搭建与调参

2.2.1 以LSTM 模型为例搭建

LSTM 模型建立过程:

在构建过程中,LSTM 模型通常包含4 层结构:

(1)输入层;

(2)LSTM 层;

(3)全连接层;

(4)输出层。

在建立LSTM 模型时,要指定损失函数。

地铁客流预测是一个回归问题,对比绝对值损失函数和平方损失函数,发现后者会放大真实值和估计值之间的距离,并惩罚较大的偏差误差。因此,在LSTM 模型的构建中选择平方损失函数。

由于LSTM 深度神经网络模型更复杂且具有许多参数,因此很容易在训练过程中过度拟合。如图2所示。

2.2.2 LSTM 模型基于网格搜索算法调参

在本文中,归一化数据的MAE 指数用于评估模型在网格搜索中的性能,并比较LSTM 和传统机器学习模型的效果。如表2所示。

上一部分的分析表明,天津地铁的客流数据在周一至周四以及周一至周六的分布上有很大差异。因此,使用网格搜索算法来找到模型的最佳超参数组合。将平均绝对误差用作评估指标,并且按照从小到大的顺序排列误差。从网格搜索结果中,我们可以看到,从周一到周四,当训练次数、批处理数量、LSTM 层中神经元的数量以及步长为24、8 和4 时,LSTM 深度神经网络的性能最佳。基于这四个最佳超参数值,将构建一个LSTM 模型来预测周一至周四的客流数据。

3 模型预测结果分析

3.1 BPNN模型天津地铁客流量预测结果

结果如图3、图4、图5、图6所示。

3.2 LSTM模型天津地铁客流量预测结果

结果如图7、图8、图9、图10所示。

3.3 RF模型天津地铁客流量预测结果

结果如图11、图12、图13、图14所示。

4 模型比对分析

4.1 确定最终训练集

模型训练初期采用两个数据集(即周一到周四的数据预测周五的客流量和周一到周六的数据预测周天数据)放入模型进行预测比对,因为模型具有一定学习性,可以忽略随机因素的影响,因此选择周一到周六的数据作为最终训练数据集,得出模型规律以便于对将来的数据做出预测。

4.2 模型对比

上述三种模型均用到如下指标:MAE、RMSE、MAPE、R2。以周天出站的预测结果为例,各项指标具体数值如表3所示。

对于MAE 指标来说,数值大小与预测值的误差成正比;RMSE 是指均方根误差,它用来衡量观测值和真实值之间的偏差,数值大小与偏差值成正比;MAPE 是指平均绝对百分比误差,数值大小与预测值的误差成正比,当预测值与真实值完全吻合时它的值为0,即为完美模型;R²为拟合优度,最大值为1,值越接近1 说明拟合程度越好。

由数据模型预测图和和项指标精确数值进行对比分析,得出结论:利用网格搜索算法查找模型的最优超参数组合确定LSTM 为最优训练模型。

4.3 预测结果小结

本研究首先进行数据预处理,将原始数据转换为一维时间序列数据,用于对BPNN、LSTM、RF 模型进行训练。然后从时间维度上对地铁客流量数据进行分析,主要研究了周一到周四和周一到周六的客流量分布差异和周期性变化规律根据训练数据结果以及数据的学习性确定周一到周六的客流量为最佳训练数据。进而搭建BPNN、LSTM、RF 深度神经网络模型,利用网格搜索算法查找模型的最优超参数组合确定LSTM 为最优训练模型。最后以天津地铁9 号线塘沽站的进站客流为例,使用LSTM 深度神经网络模型对地铁客流进行预测,并对预测结果进行分析。由预测数据可知,直观分析得到LSTM 模型在周一到周六上,有较高的预测精度。由平均绝对误差随着训练迭代次数增加的变化趋势可知,LSTM 模型能更快速学习到在周一到周六时,客流量数据的变化规律。由预测数据和真实数据的对比可以得到,LSTM 模型在预测周一到周六的客流数据时,预测曲线更加平滑。

5 结语

随着我国近几年现代化建设的不断发展,信息化和智能技术作用的领域越来越广泛,而城市轨道交通更是衡量城市经济发展的重要指标。它的发展更应该借助于这些新兴技术(例如大数据技术、云计算、物联网等)来完善自己的体系架构,谋求全方位高水平建设。在“轨道交通+数字经济”引领数字科技的新风向下,城市轨道发展、“云票务”、大力推进地下隐蔽资源开发等项目。”“精耕细作”的地铁商业资源、地下“黄金走廊”、“地上”、“云经济”为城市经济发展注入了新的血液。

猜你喜欢
客流量客流预处理
客流增多
基于嵌入式系统的商场客流量统计算法
基于预处理MUSIC算法的分布式阵列DOA估计
基于自学习补偿的室内定位及在客流分析中的应用
络合萃取法预处理H酸废水
基于AFC数据的城轨站间客流量分布预测
人工免疫算法在电梯客流时段划分的应用
基于自适应预处理的改进CPF-GMRES算法
城市轨道交通运营客流数据分析缺陷及应对
从客流量推算公交出行PA矩阵的方法