杭州地铁客流特征分析与客流预测

2019-08-27 03:46张素洁
价值工程 2019年19期
关键词:随机森林机器学习

张素洁

摘要:通过对杭州地铁2019年1月1日到2019年1月25日的地铁刷卡数据进行分析,根据进出站高峰小时系数和站点位置将80个站点分为居住、工作、交通场站和混合类型四类。不同类型的车站早高峰晚高峰进出站高峰小时系数均不相同。对不同地铁线路的换乘量进行分析发现3号线换乘量比例最高,占其出站人数的77.7%。使用机器学习方法(随机森林和lightgbm)对不同站点每小时的进出站人数进行预测,平均相对误差均值为9.0%。表现出较强的可预测性。

Abstract: Based on subway card data of Hangzhou metro on January 1, 2019 to January 25, 2019, according to the inbound and outbound of the station peak hour coefficient and site location, 80 stations can be divided into living, working, traffic hub and the mixed type four categories. Different types of station morning peak and evening peak inbound and outbound of the station peak hour coefficient are not the same. By analyzing the transfer volume of different subway lines, it is found that the transfer volume of line 3 is the highest, accounting for 77.7% of the number of people leaving the station. The machine learning method (Randomforest and Lightgbm) is used to predict the number of people entering and leaving the station at different stations per hour. The average mean absolute percentage error(MAPE) is 9.0%, showing strong predictability.

关键词:客流预测;机器学习;随机森林;lightgbm

Key words: passenger flow prediction;machine learning;randomforest;lightgbm

0  引言

地铁因在绿色、环保和运量等方面领先于其他城市公共交通方式,成为各大城市优先发展的交通方式。随着新建成线路的投入运营.线网规模的日益扩大和运输组织形式的日益复杂,地铁客流的安全形势日益严峻、根据客流量的变化并及时采取相应措施对地铁的客流进行有效疏通,这对运营组织提出了更高的要求[1]。

分析地鐵客流的特征,寻找主要特征,建立模型预测客流量变化,并启动相应的预案,提高地铁运营组织的灵活性和多样性,充分发挥设施设备能力,确保运营安全。国内外的研究人员已经提出了诸多理论和方法,以实现连续交通流状态的实时预测,主要包括基于历史平均、基于序列方法(例如SARIMA模型)[2]、基于机器学习的神经网络方法[3]、K-近邻方法[1]、支持向量机方法[4]等,其中每一类预测方法又包含若干种预测模型。

由于地铁客流具有很大的随机性,基于机器学习的方法擅长处理此类数据,因此本文采用天池提供的杭州市地铁2019年1月1日到2019年1月26日的地铁刷卡数据,进行以小时为单位对总进出站客流量的统计、分析与研究,利用Python语言和随机森林模型、Lightgbm模型对进出站客流量进行预测。

1  方法与数据

1.1 模型介绍

随机森林是一种集成算法(Ensemble Learning),它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能。

Bagging也叫自举汇聚法(bootstrap aggregating),是一种在原始数据集上通过有放回抽样重新选出k个新数据集来训练分类器的集成技术。随机森林的弱分类器使用的是CART树,CART决策树又称分类回归树。当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值;当数据集的因变量为离散型数值时,该树算法就是一个分类树,可以很好的解决分类问题。CART树选择使子节点的GINI值或者回归方差最小的属性作为分裂的方案。

Lightgbm是基于GBDT的树回归,通过迭代多棵树来共同决策其核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。Lightgbm模型在运行速度、内存使用、准确率和并行学习等多方面进行了优化。其计算速度快,结果优异。模型采用绝对平均误差(MAE)和绝对相对误差(MAPE)进行评价。

1.2 数据介绍

数据来源于天池大赛,包含20190101至20190125共25天地铁刷卡数据记录,共涉及3条线路80个地铁站约7000万条数据。数据字段包括刷卡时间、线路ID、站点ID、刷卡设备号ID、用户ID、进出站状态和刷卡类型。

2  结果

2.1 客流特征分析

全网进站早高峰高峰小时系数出现在上午8:00-9:00,占全天进站量的11.1%,晚高峰高峰小时系数出现在17:00-18:00占全天进站量的9.3%。全网出站早高峰高峰小时系数出现在上午8:00-9:00,占全天进站量的11.4%,晚高峰高峰小时系数出现在18:00-19:00占全天进站量的9.4%(图1)。早高峰的出行量比晚高峰的出行量大。上午7:00-9:00,下午17:00-19:00的出行量占全天出行量的52.4%左右,需要重点关注。分析换乘客流发现发现3号线出站流量换乘比例最高,占其出站人数的77.7%(图2)。

所有线路进站量的时间分布呈现驼峰型,全网客流高峰较为集中。所有线路的早高峰出站人数均大于晚高峰,但晚高峰的持续时间长于早高峰(图3)。分析每个车站的进站人数,发现不同车站间的变化很大。依据高峰小时系数和站点周围信息将站点分为4类。将工作日晚高峰入站人数小时系数形成当日峰值的站点定义为工作类站点,将工作日早高峰入站人数小时系数形成当日峰值的站点定义为居住类站点,将站点位于火车站或医院附近的站点定义为交通场站类。不同类别间进站量的时间分布如(图4)。图中编号15和9的为杭州火车站和杭州火车东站。

综合以上信息在建模预测中,主要考虑历史客流特征,预测日的前一日和上周的同星期的时间段的数据,站点的类别特征和时间特征包括是否是工作日等。另外短时客流预测受前一日数据影响最大。所以采用将模型预测结果与前一日数据进行线性融合,进一步提高预测准确度。

2.2 模型預测结果

选取2019年1月24(周四)、2019年1月25(周五)和1月20(周日)数据作为测试集,其中2019年1月24(周四)作为线性融合的测试集,其余数据作为训练集,对原始数据按小时进行汇整,特征包括前一日进出站人数和前一周同星期进出站人数,分工作日和周末,使用Lightgbm和随机森林分别建模。预测站点的进出站人数,然后利用前一日数据和预测结果进行线性融合。结果如图(图5,表1)。测试结果显示工作日和休息日客流预测值的平均绝对误差均值为71.2人,平均相对误差均值为9.0%。最大平均相对误差均小于12.5%,保持在较小的水平。因此说明,拟合得到的模型能够较好地预测客流的波动。Lightgbm模型结果优于随机森林。同时线性融合能提高模型的准确度,说明前一日数据对预测日短时客流影响最大。

3  结论

①经过对个站点客流量的分析发现不同的站点客流量差异较大,同一站点不同时段差异也很明显,可根据这些数据灵活的制定应对措施,保证地铁安全运营。

②Lightgbm模型和随机森林模型可以很好的预测客流量的随机变化,能较准确的预测客流量的短时变化,值得的在应用中推广。

参考文献:

[1]林培群,陈丽甜,雷永巍.基于K近邻模式匹配的地铁客流量短时预测[J].华南理工大学学报(自然科学版),2018,46(01):50-57.

[2]王莹,韩宝明,张琦,李得伟.基于SARIMA模型的北京地铁进站客流量预测[J].交通运输系统工程与信息,2015,15(06):205-211.

[3]李梅,李静,魏子健,王思达,陈赖谨.基于深度学习长短期记忆网络结构的地铁站短时客流量预测[J].城市轨道交通研究,2018,21(11):42-46,77.

[4]谢俏,叶红霞.基于支持向量机的节假日进出站客流预测方法[J].城市轨道交通研究,2018,21(08):26-29,35.

猜你喜欢
随机森林机器学习
拱坝变形监测预报的随机森林模型及应用
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
基于随机森林算法的B2B客户分级系统的设计
基于多视角特征融合与随机森林的蛋白质结晶预测