基于自动售检票数据的轨道车站客流识别模型

2021-03-07 08:14向红艳袁发涛
科学技术与工程 2021年4期
关键词:客流量潮汐高峰

向红艳, 袁发涛

(重庆交通大学交通运输学院,重庆 400074)

轨道车站是轨道交通的关键节点,是城市居民出行乘降、换乘的主要场所。车站客流识别是研究站点客流集散规律,挖掘乘客出行行为特征的重要方法。对轨道车站客流进行识别,探讨不同类型客流模式间的差异,有助于充分发挥轨道交通在城市公共交通中的骨干作用,为轨道交通运营策略制定及评价提供理论支撑。

随着大数据技术的发展和完善,充分利用多源数据成为精细化研究交通问题的新趋势[1-4]。中外关于轨道车站的研究主要关注的是从乘客出行行为和站点自身属性角度对乘客和站点进行分类,而鲜有车站客流识别研究。在轨道乘客分类方面, Yin等[5]采用模糊C均值聚类进行了基于行为特征的乘客行为模式划分。邹庆茹等[6]强调研究乘客分类的重要性,利用轨道自动售检票(automatic fare collection,AFC)数据能够较好反映乘客个体特征和出行规律的特点,将出行乘客分为5类并分析其出行特征。Kieu等[7]构建了乘客出发时间和出行起讫点(origin-destination, OD)指标,利用基于密度的DBSCAN(density based spatial clustering of application with noise)算法将乘客分为出发时间稳定型、出行起讫点稳定型、通勤乘客及不规律乘客4类。在轨道车站分类方面,冷彪等[8]从地铁客流数据中提取了乘客出行模式和地铁站客流模式,建立了基于隐含狄利克雷分配(latent Dirichlet allocation,LDA)主题模型的区域功能聚类模型,得到不同客流峰段内的区域功能和相互客流关系。李向楠[9]选取轨道交通站点周边环境和站点的自身特点等相关因素,综合因子分析和聚类算法,对站点相似度做定量计算,得到站点分类结果。关于车站客流识别方面,仅从客流密度角度进行了交通瓶颈分析。孙立山等[10]提取并标定乘客微观行为参数,引入动态时间规整(dynamic time warping,DTW)算法,实现客流激波现象的识别与量化分析。卢佳等[11]通过计算高峰时段客流量阈值并划分预警等级,提出一种基于自动售检票数据的大客流识别方法。而客流识别有助于提高车站运行效率,合理配置运营资源,对已有车站的管理和未来车站的规划都有着重要意义。为此,结合海量AFC数据,建立轨道车站客流识别指标,运用无监督聚类算法对不同类型车站客流进行精准划分,实现轨道车站客流规律挖掘、客流模式识别等精细化研究。

1 AFC数据描述与分析

1.1 数据描述

截至2020年4月,重庆轨道3号线总运营里程67.09 km,共有45座轨道站点。采集重庆轨道3号线连续1个月的自动售检票数据,超过108条出行记录,每条出行记录包含进出站时间、站点编号、刷卡状态等出行属性,具体信息如表1所示。

表1 重庆轨道3号线刷卡数据

1.2 数据处理

重庆轨道AFC数据以单次刷卡为一条出行记录,该数据格式有利于分别统计各轨道站点进、出站客流量。为研究轨道车站客流,首先提取1个月乘客刷卡数据,利用Python 编程从轨道全网数据中筛选轨道3号线各站点进出站出行记录。然后以刷卡日期提取每日06:00—24:00共18小时的出行记录,以刷卡时间按60 min时间粒度提取轨道车站进出站客流量。最后结合乘客出行时间维度和空间维度对数据进行再处理得到各站点客流指标数据。

1.3 数据标准化

数据标准化处理能够平衡数值水平差异,消除直接用原始指标进行分析带来的量纲影响,保证结果可靠性,解决指标间的可比性。还可有效加快梯度下降求解速度,提高计算精度。采用[0,1]标准化的方法,将数据压缩到0~1。其计算公式为

(1)

式(1)中:x′ 为指标处理后结果;x为原始指标数据;max(x)为该类指标中变量的最大值;min(x)为该类指标中变量的最小值。

1.4 数据分析

对重庆轨道3号线AFC数据进行了统计分析,提取各轨道车站进站客流和出站客流的客流量、日高峰时段及车站潮汐比等指标。轨道车站客流呈现如下3种现象。

1.4.1 轨道车站客流波动性

部分轨道车站连续1个月客流量变化规律如图1所示。不同站点客流量呈量级差异,且波动趋势略有不同,但整体呈现出季节波动性,工作日客流量稳定,周末客流量略有下降,节假日客流量波动明显。

1.4.2 轨道车站客流高峰时段稳定性

图1 轨道站点客流量Fig.1 Passenger flow at rail stations

图2 轨道站点高峰时段 Fig.2 Rail station peak hours

轨道站点全日进出站客流量如图2所示,不同轨道站点进出站客流高峰时段主要集中在早高峰08:00—9:00以及晚高峰18:00—19:00,高峰时段分布较稳定。

1.4.3 轨道车站潮汐性

各站点的进站客流与出站客流呈现出不同程度的潮汐性(图3)。部分站点在早高峰进站客流较大,出站客流较小;对应地在晚高峰进站客流较小,出站客流较大。总体上不同轨道站点潮汐比呈现量级差异,且部分站点早晚高峰潮汐比差异较大。

图3 轨道站点潮汐比 Fig.3 Rail station tidal ratio

2 客流指标构建

客流指标构建旨在能够反映不同轨道车站客流模式,区分站点客流时空特性。通过提取AFC记录包含的轨道站点客流直接信息。主要从站点客流量、高峰时段、潮汐现象3个方面阐述具体指标。

2.1 客流量

站点客流量是通过站点的乘客数,是站点价值和人气的体现。具体包括:①工作日客流量,反映通勤人员上班、上学形成是通勤客流数量;②周末客流量,反映以休闲娱乐为主的乘客客流量;③节假日客流量,反映由于外出旅游形成的客流量。

2.2 高峰时段

高峰时段即交通高峰,是一日中出现大交通量的一段时间。具体包括:①高峰小时,即一日中出现最大交通量的一个小时;②高峰小时客流量,即高峰小时内产生的客流量。③客流量高峰小时系数,是指车站高峰小时内进站量(或出站量)占全日进站量(或出站量)的比例。

2.3 潮汐现象

潮汐交通现象指的是早高峰进城方向客流量大,而晚高峰出城方向客流量大的现象。具体指标包括:潮汐比,刻画由于潮汐交通现象造成的轨道站点进出站客流不均衡性,即进站客流量与出站客流量的比值,分为早高峰潮汐比和晚高峰潮汐比。

3 轨道车站客流识别算法

聚类分析是一种无监督学习,根据相似度判定准则将样本自动分为几个不同群组。使得组内样本各维变量相似,组间样本多维变量相异。聚类算法能够对数据进行科学合理的相似性度量,可有效挖掘数据内部特征,以达到分析数据特征的目的。采用K-means聚类算法进行车站客流识别。

3.1 K-means聚类算法

McQueen首次提出了K均值聚类算法(K-means算法),迄今为止,很多聚类任务都选择该经典算法[12]。这种聚类技术计算速度快,可解释性强,对大数据集的处理效率较高。算法计算步骤如下。

步骤1对于给定包含m个元素的数据集,任意从该数据集中选取k个元素,作为初始聚类中心yi(i=1,2,…,k)。

步骤2依次计算每个元素到初始聚类中心的距离d(xj,yi),j=1,2,…,m;i=1,2,…,k;将各个元素xj按照欧氏距离最短原则划分到相应的聚类中心。

步骤4根据“欧氏距离”最短原则,重新进行每个元素到各个聚类中心的分配。

步骤5判断前后两次形成的类是否相同,若满足要求则迭代结束,若不满足要求,则返回步骤2。

3.2 聚类性能评价

K-means算法可获得指定聚类个数及其被指定属于该聚类的数据点,难点在于初始聚类数K值的确定, 为有效评价聚类效果,度量聚类性能,采用轮廓系数法确定聚类数目,样本轮廓系数定义为

(2)

式(2)中:s为样本轮廓系数;a为样本与同一簇类中的其他样本点的平均距离;b为样本与距离最近簇类中所有样本点的平均距离。

4 聚类结果及分析

通过采集重庆轨道3号线乘客刷卡数据,提取轨道站点客流量指标,采用K-means算法对车站客流模式进行聚类。利用轮廓系数法评价聚类性能,确定最佳初始聚类数K。

4.1 聚类结果

工作日、周末和节假日的轨道数据差异较大,工作日以通勤客流为主,客流相对稳定,早、晚高峰客流较为密集;周末和节假日以休闲娱乐、外出旅游客流为主,客流较为分散多样。采用不同时期客流数据进行聚类,更全面分析轨道车站客流模式。为探究不同客流指标对聚类结果的影响,选取客流量、高峰时段、潮汐比3个特征变量得到聚类结果如下。

4.1.1 基于客流量的聚类结果

以1个月的工作日、周末和节假日的全日平均进出站客流量为特征变量,得到基于客流量数据指标的聚类结果如图4所示。其中,label 1、label 2、label 3分别表示聚类结果类别1、类别2、类别3。

图4 基于客流量聚类结果Fig.4 Clustering results based on passenger flow

根据客流量聚类结果,第1类车站客流量区间跨度较小,为一般通勤站点。第2类车站客流聚类结果不稳定,说明该类车站客流受周末、节假日影响大,结合实际站点情况分析,聚类结果变动站点均为城市大型对外枢纽接驳轨道站点,如重庆北站南广场和四公里轨道站点。第3类车站客流量最大,聚类结果稳定,属于持续高客流模式,是集商圈、旅游景点为一体的复合型站点。

4.1.2 基于高峰时段的聚类结果

车站客流高峰时段是乘客出行时间集中性的体现,能够反映乘客出行目的。图5为基于高峰时段数据指标的聚类结果。工作日高峰时段集中在早、晚高峰,早高峰07:00—09:00,晚高峰17:00—19:00。图5(a)中,第1类客流(label 1)为进站早高峰、出站晚高峰,属于居住区通勤站点;第2类客流(label 2)为进站晚高峰、出站早高峰,属于工作区通勤站点;第3类客流(label 3)进出站高峰时段均在早高峰,属于复合型站点。图5(b)、图5(c)中,周末、节假日客流高峰时段分散,进站早高峰现象弱化明显,14:00—16:00出现午后高峰,晚高峰时段后延,聚类结果数目增加。说明周末、节假日乘客出行以休闲娱乐、外出旅游为主,出行弹性较大,出行时段分散。线路两端公交枢纽站场接驳站点、旅游景点和高校属性站点是形成午后高峰的主要原因,使得下午出行需求增加。

4.1.3 基于潮汐比的聚类结果

潮汐比能够反映车站客流职住关系,挖掘站点周围环境。图6为基于轨道站点潮汐比数据指标的聚类结果。工作日第1类车站客流早、晚高峰潮汐现象较弱;第2类车站客流早高峰潮汐现象明显,早高峰进站客流量大,出站客流量较小;第3类车站客流晚高峰进站客流量大,出站客流量小。周末、节假日将潮汐比数据聚为4类,分别为早高峰潮汐偏向型(label 1)、晚高峰潮汐偏向型(label 2)、早高峰潮汐主导型(label 3)、晚高峰潮汐主导型(label 4)。

图6 基于潮汐比聚类结果Fig.6 Clustering results based on tidal ratio

4.1.4 综合分类结果

利用单一客流指标来判断轨道车站客流模式不够全面,不能完全反映实际情况。综合客流量、高峰时段、潮汐比客流指标,多维度提取乘客出行特征,多角度挖掘车站客流模式。聚类结果如表2所示。

表2 一日客流指标聚类结果

为验证聚类结果稳定性,分析数据对分类结果的影响,分别选取1周数据和1个月数据为对象,对轨道车站客流进行聚类,聚类结果如表3所示。结果显示客流模式趋于一致站点比例高达89%,验证了聚类结果具有良好的稳定性。1月数据能够识别出对周末、节假日更为敏感的枢纽型、旅游景点型站点客流,更全面反映站点客流类别,说明海量数据使得分类结果更为准确。

4.2 车站客流模式分析

按照客流指标聚类结果对车站客流模式进行分析,挖掘站点在不同时段、不同区位的客流特征,得出如下结论。

(1)第1类车站客流特点是:早高峰进站客流稀少,出站客流密集,相反地,晚高峰进站客流大,出站客流小,全日客流总量较小,客流潮汐现象特别明显。类中站点地区工业园布局较多,工作岗位密集,属于城郊新兴工业园区。

(2)第2类车站客流特点是:早高峰以进站客流为主,晚高峰以出站客流为主,早、晚高峰潮汐比差异大且与类别1呈相反态势。类中站点处于线路终端,旅客乘降量较大,站点周围以大型居住区为主,为城郊住宅区。

(3)第3类车站客流特点是:工作日客流量稳定,周末略有上升,节假日客流量激增;全日客流量较大,客流无明显潮汐现象,各时段客流较平均。类中站点公交接驳线路多,交通用地比例大,站点客流对周末、节假日敏感,属于城市对外交通枢纽区。

(4)第4类车站客流特点是:早、晚高峰进出站客流量大,其余时段呈客流平峰,无客流低谷时段。类中站点靠近城市商务核心区,旅客乘降量大,步行接驳环境优越,周围建筑密度高,属于城市中心型站点。其中,观音桥为持续高客流站点;其余为商圈及商圈辐射站点。

(5)第5类车站客流特点是:进站客流量高峰时段在晚高峰,出站客流量高峰时段在早高峰,具有一定潮汐现象。类中站点早上出站客流较大,晚上则以进站客流为主,属于一般工作区通勤站点。

(6)第6类车站客流特点是:全日客流量适中,早高峰进站客流量大,晚高峰出站客流量大,潮汐现象明显,属于一般居住区通勤站点。

(7)第7类车站客流特点是:进出站客流高峰均在早高峰期间,无明显潮汐现象。类中站点旅客乘降量较大,各时段进出站客流量相当,属于复合型通勤站点。

5 结论

AFC数据是城市交通大数据的重要组成部分,深入挖掘其潜在价值信息对运营管理具有重要意义。通过提取AFC数据包含的轨道站点客流直接信息,构建客观的客流分类指标,并结合K-means算法对轨道车站客流模式进行识别,以重庆轨道3号线连续1个月的AFC数据进行实证分析,探讨了工作日、周末、节假日时期不同客流指标对聚类结果的影响,采用多变量客流指标将站点客流模式分为7类。但仅从站点客流数据角度分析客流模式,而未考虑站点周围建筑环境的影响,后续将多源数据和客流数据有效结合,从更多维度、更长时间跨度对客流模式进一步深度挖掘,以促进轨道站点客流规律研究更加精细化。

猜你喜欢
客流量潮汐高峰
潮汐与战争(上)
基于数据挖掘的景区客流量预测模型研究
病毒病将迎“小高峰”全方位布控巧应对
石庆云
绝美海滩
地铁开,玩起来
基于灰色预测理论在交通枢纽客流量的实际应用
基于灰色预测理论在交通枢纽客流量的实际应用
努力攀登文艺高峰
潮汐式灌溉控制系统的设计及应用