地铁乘客站点的选择行为分析及预测

2022-07-15 08:10肖健和李明伦
电子科技大学学报 2022年4期
关键词:质心站点公交

王 璞,肖健和,李明伦,郭 宝

(1. 中南大学交通运输工程学院 长沙 410075;2. 轨道交通大数据湖南省重点实验室 长沙 410075)

地铁是城市公共交通的骨干,具有速度快、运力大等优点[1]。发展地铁被广泛认为是缓解大城市交通拥堵的有效方法[2]。但新建或扩建现有地铁线路需要高额投资,因此在规划阶段需要详细评估所规划的线路能否满足居民的实际出行需求。研究地铁网络扩建中乘客的站点选择行为,对于地铁新线路的规划和选址,以及提高地铁新线路的运营管理水平具有十分重要的理论和实际意义。

步行是乘客到达地铁站点的主要方式[3],乘客从出行起点到地铁站点间的步行距离是影响乘客出行选择的重要因素。但在过去的研究中,由于难以获取高空间分辨率的乘客出行起点信息,研究人员通常利用集计模型研究步行距离与站点选择之间的关系。文献[4]基于乘客购买火车票的邮政编码数据,以邮政编码区中心点为乘客出行起点,分析了荷兰铁路出行用户对火车站点的出行选择。文献[5]基于日本东京交通小区至地铁站点的客流数据,提取交通小区到地铁站点的道路网络距离,构建乘客出行站点选择模型。文献[6]采用将个人层面数据汇总的方法,利用上海市人口栅格数据,以栅格中心点和地铁站点之间的距离作为乘客步行距离进行乘客出行站点的选择分析。集计模型以交通小区为研究对象,缺乏乘客个体特征,对模型预测准确性会造成一定的影响。

非集计模型以实际交通出行的个人为单位,研究结果可以更好地反映个体选择行为,因而在新地铁线路的出行需求评估中得到广泛应用。在地铁网络扩建情景相关研究中,国内外研究人员通常基于调查数据获取乘客出行特征和个体特征,使用非集计模型进行乘客个体选择地铁新线路的行为分析。文献[7]对希腊雅典的居民进行意向(stated preference,SP)调查,包括乘客的出行时间、出行成本、出行目的等出行特征,构建层次极值Logit 模型探究新地铁线路开通后乘客选择不同交通方式的驱动因素。文献[8]利用SP 调查方法,调查了不同性别、职业、收入、出行目的的乘客在西安新地铁线路开通前后出行方式的选择情况,通过逻辑回归模型分析了更倾向于使用新地铁线路的乘客的个体特征。文献[9]借助乌鲁木齐市居民的出行方式选择行为SP 调查数据,不仅调查了出行者的出行特征和个体特征,还调查了居民对交通信息的获取和采纳情况以及乘客的出行方式选择习惯,构建巢式 Logit模型,预测了新地铁线路开通后各出行方式的出行分担比例。利用调查数据研究乘客个体选择使用新地铁线路的驱动因素,方法简单易行。但这通常需要耗费巨大的人力和物力资源,并且受样本代表性的影响较大。

近年来,数据驱动的方法被广泛用于研究各类交通问题,如交通流量的估计[10]、交通速度分布估计[11]、出行需求预测[12]等。公交数据的空间分辨率较高,被广泛用于研究公交网络瓶颈路段甄别[13]、公交乘客的移动模式[14]、通勤模式[15]以及来源信息[16]。大数据技术和双层交通网络融合方法[17-18]的不断成熟,使得大范围研究地铁乘客的站点选择行为成为可能。因此本文通过融合公交、地铁智能卡数据及公交车GPS 轨迹数据,采用大数据驱动的方法在更精细的空间尺度上分析了乘客公交出行质心与地铁站点之间的距离对乘客选择新地铁站点的影响,并进一步建立Logit 模型预测乘客是否选择使用新地铁站点。

1 数 据

1.1 深圳市公共交通地理信息数据

深圳市地铁地理信息系统(geographic information system, GIS)数据由深圳市交通运输委员会提供。2016 年10 月28 日前,深圳地铁共有6 条线路(1~5 号线、11 号线),132 个站点。2016 年10 月28 日,深圳地铁7 号线、9 号线开通运营,站点数量增加到166 个。7 号线和9 号线与16 个换乘站相连。

深圳市公交站点GIS 数据也由深圳市交通运输委员会提供,深圳市共有公交站点9114 个。公交站点密度远高于地铁站点密度,这意味着利用公交站点能够以更高的空间分辨率记录乘客的出行起点位置信息。而且,在地铁新线路投入运营之前,公交站点就已经存在。因此在新地铁站点投入运营之前,其周边的公交乘客出行信息可以用于预测乘客在新地铁站点开通后的出行行为。

1.2 乘客智能卡数据

本文所使用的地铁智能卡数据和公交智能卡数据均由深圳市交通运输委员会提供。在两组智能卡数据中,乘客拥有唯一的匿名ID。因此,可以同时研究一个乘客的公交出行和地铁出行。这为从乘客历史公交出行中推断出该乘客未来的地铁出行起点创造了条件。

地铁智能卡数据的收集时间为2016 年8 月−2016年12 月,共有10775905 名乘客产生了599786003条地铁智能卡记录。其中有12 天数据缺失,本研究仅使用剩余的141 天地铁智能卡数据。每条地铁智能卡记录包含乘客ID、记录时间、交易状态和设备编号。根据设备编号可以得到乘客进站或出站的站点ID。

公交智能卡数据的收集时间为2016 年8 月−2016年12 月,共有10112676 名乘客产生了451814608条公交智能卡记录。每条公交智能卡记录包含乘客ID、公交车牌号和记录时间。

1.3 公交车GPS 轨迹数据

为了推断地铁新线路开通前乘客的公交上车站点,本研究使用了2016 年8 月−2016 年10 月的公交车GPS 轨迹数据。每条数据记录包含公交车牌号、记录时间、公交车经纬度,在数据记录期内共有16192 辆公交车产生了3632007303 条公交车GPS轨迹记录。具体信息如表1 所示。

表1 深圳市公共交通数据信息表

2 方 法

为了利用乘客公交出行数据充分探究乘客出行起点与地铁站点间的步行距离对乘客使用新地铁站点的影响,本文首先分析了地铁站点吸引区域及竞争地铁站点,并提出了识别被新地铁站点吸引的乘客及未被新地铁站点吸引的乘客的方法。在此基础上,利用居民空间行为指标——出行质心,计算乘客的公交出行质心,并将乘客的公交出行质心估计为乘客的出行起点,计算乘客出行起点与地铁站点间的步行距离。

2.1 识别地铁站点吸引区域和竞争地铁站点

为了确定可能使用新地铁站点的乘客,首先分析了地铁站点的吸引区域。如图1 所示,以地铁站点为圆心,半径800 m 内的区域被估计为地铁站点的吸引区域[19-20]。地铁站点吸引区域内的乘客更偏向乘坐地铁出行。当新地铁站点的吸引区域与既有地铁站点的吸引区域重叠时,部分乘客可能会由在既有地铁站点乘车转变为在新地铁站点乘车。其中,将吸引区域与新地铁站点有重叠区域的既有地铁站点定义为竞争地铁站点。

图1 新地铁站点的竞争地铁站点与非竞争地铁站点示意图

2.2 识别地铁新线路潜在影响的乘客

研究乘客的站点选择行为需要获取该乘客的历史出行数据。在新地铁站点及其竞争地铁站点的吸引区域内至少有3 次公交出行且在新线路开通前平均每周使用地铁大于等于1 次的乘客被定义为潜在受影响的乘客。新线路开通后,平均每周使用新地铁站点大于等于1 次,且使用新地铁站点次数大于使用竞争地铁站点次数的潜在受影响乘客定义为被吸引乘客pa;新线路开通后,平均每周使用竞争地铁站点大于等于1 次,且使用竞争地铁站点次数大于使用新地铁站点次数的潜在受影响乘客定义为未被吸引乘客pna。

2.3 推断乘客公交上车站点

乘客历史公交出行的上车站点数据是计算乘客公交出行质心的基础。采用以下方法获取乘客的公交上车站点。首先将公交车的GPS 记录点按时间排序,将公交轨迹根据公交线路的起终点分为多段公交行程。然后,计算每个公交车的GPS 记录点与该线路中每个公交站点k之间的距离,将每段行程中距离k站点最近的GPS 点的记录时刻视为公交车b在k站 点的停靠时刻,依此可以得到所有公交车b在各个公交站点的停靠时刻。最后,对于每个乘客乘车记录p,以车辆到达各站点的时刻作为聚类中心,以最小时间差为标准,将乘客的乘车记录时刻聚类到各个类别中,各聚类中心的站点k为该类别中乘客的上车站点k[16,21-22]。

2.4 计算乘客公交出行质心与新地铁站点、竞争地铁站点间的距离

如图2 所示,新地铁站点与竞争地铁站点吸引范围的并集构成了研究乘客地铁站点选择行为的区域。经统计,深圳地铁站点800 m 吸引范围内平均有26 个公交站点,公交站点的分布密度远高于地铁站点的分布密度。文献[23]研究发现,公共交通密度更高的区域,乘客的平均步行距离更短。乘客乘坐公交的平均步行距离要远低于乘坐地铁的平均步行距离,这意味着公交站点能够以更高的空间分辨率记录乘客的出行起点位置信息。综合考虑每个公交站点的位置和乘客在公交站点的上车次数对乘客的出行起点进行估计。

图2 乘客公交出行质心计算示意图

近年来,居民空间行为分析与建模领域发展迅速[24-28],本文利用居民空间行为指标——出行质心[29]以及乘客的公交上车站点来计算乘客的公交出行质心,并将该位置估算为乘客的出行起点。其中,对于乘客的公交上车站点,不考虑乘客从地铁换乘公交时的公交上车记录,即乘客从地铁出站后30 分钟内的公交上车记录[17]。

乘客公交出行质心的计算方法如图2 所示,对于每个潜在受影响乘客,将研究区域内的公交站点(如r4,r5,r6,r7,r8,r9,r10,r11)视为质点,不考虑研究区域外的公交站点(如r1,r2,r3)。然后将乘客在每个公交站点的上车次数作为每个质点的权重,反映在图2 中为圆圈的大小。最后,加权平均各个质点的位置得到乘客公交出行质心:

式中,i为公交站点序号;ni为 乘客在公交站点i的上车次数;ri为 公交站点i的位置坐标;N为乘客的公交出行总次数。

在计算了每个乘客的公交出行质心rcm后,分别计算乘客公交出行质心rcm与 新地铁站点rn和竞争地铁站点rc之 间的距离,分别用dn和dc表示,用于评估乘客从出行起点前往新地铁站点和相应竞争地铁站点的便利程度。

3 结 果

3.1 乘客地铁出行站点选择行为分析

分别对被吸引乘客pa和 未被吸引乘客pna的公交出行质心rcm与 新地铁站点rn、 竞争地铁站点rc间的距离dn和dc进行分析,如图3 所示。结果表明,有79.94%的被吸引乘客的公交出行质心更靠近新地铁站点(dc−dn>0),而86.37%的未被吸引乘客的公交出行质心更靠近竞争地铁站点(dc−dn<0)。结果表明,大多数乘客(86.15%)使用地铁出行时会选择距离他们公交出行质心更近的地铁站点。

图3 不同d c −dn 下的乘客地铁出行站点选择概率

少数乘客在使用地铁出行时会选择距离其公交出行质心较远的地铁站点,这可能是因为乘客的公交出行质心在两个站点吸引区域的重叠区域内,距离因素的影响有所降低。如图 3 所示,对于被新地铁站点吸引但质心离竞争地铁站点更近的乘客,有68.53%的乘客质心在新地铁站点800 m 的吸引范围内;而未被新地铁站点吸引但质心离新地铁站点站更近的乘客,有57.76%的乘客质心在竞争地铁站点800 m 的吸引范围内。

3.2 乘客地铁出行站点选择预测

Logit 模型是研究出行选择行为时常用的离散选择模型。Logit 模型假设出行者会选择随机效用最高的交通方式,被广泛应用于交通方式划分问题。本文使用Logit 模型预测乘客是否会选择乘坐新地铁站点。

本文利用乘客公交出行质心与地铁站点间的距离(dn和dc)建立Logit 模型,选择使用新地铁站点与其相应竞争地铁站点的概率关系为:

其中,

因此,

本研究随机抽取50%的乘客数据集作为模型的训练集,剩余50%的数据集作为模型的测试集。由于数据集中被吸引乘客pa和未被吸引乘客pna样本数之比约为1:30,属于典型的类别不平衡问题。本文通过欠采样[30]来调整数据的不平衡,即随机抽取数据集中未被吸引乘客pna,使得模型的训练集和测试集中的被吸引乘客pa和未被吸引乘客pna的样本数保持相同。然后借助极大似然估计方法(式(6)),求得 α=1.003, β =1.297 2。Logit 模型预测结果的混淆矩阵如图4 所示。

图4 Logit 模型预测结果的混淆矩阵

其中,

式中,xi为 样本Xi的观测值,Xi∈X;P(Xi=xi;θ)为总体X的分布律; θ是未知参数, θ ∈Θ , Θ是参数空间。

准确率(accuracy)、精确率(precision)、召回率(recall)、特异性(specificity)是确定分类模型性能的常用度量指标[31],分别为:

式中,TP 表示实际是pa且预测为pa的数量;FN 表示实际是pa但预测为pna的数量;FP 表示实际是pna但 预测为pa的 数量;TN 表示实际是pna且预测为pna的数量。

Logit 模型的准确率为83.87%,精确率为84.23%,召回率为83.66%,特异性为84.09%。结果表明,通过引入出行质心度量,Logit 模型能够有效预测潜在受影响乘客出行时是否会使用其公交出行质心附近的新地铁站点或继续使用竞争地铁站点。

Logit 模型是乘客出行选择研究的传统模型。地铁乘客的站点选择问题属于二分类问题,BP(back propagation)神经网络和支持向量机(support vector machine, SVM)是机器学习中解决二分类问题的常用方法,部分研究人员也通过机器学习中BP 神经网络[32]和支持向量机[33]对乘客的出行选择进行预测。

BP 神经网络是一种误差逆向传播的多层前馈神经网络,该网络包含了输入层、隐藏层和输出层, 本文以乘客公交出行质心与地铁站点间的距离(dn和dc)作为输入,乘客是否选择新地铁站点作为输出。本研究隐藏层取7 个节点数,随机数生成器选取种子数为1,惩罚参数为0.00001、采用默认的激活函数(relu 函数)、最大迭代次数200、优化容忍度0.0001。本文首先通过式(9)对输入特征进行归一化,并根据式(10)得到隐藏层节点个数K。最后以最小化误差为目标,通过拟牛顿法优化器进行优化求解,取误差最小的隐藏层节点数的结果作为预测结果:

式中,xij为样本i的 第j个特征;为归一化后的特征;为第j个特征的均值;fstd(·)为标准差函数。

式中,K是隐藏层的节点数;m是输入层的节点数;n是 输出层的节点数;a是0~10 之间的整数。

SVM 是一种监督学习的分类器,它通过输入特征构建的特征空间中的超平面,将待学习样本进行分类。本文基于乘客公交出行质心与地铁站点间的距离(dn和dc)作为输入特征,通过式(9)进行归一化,利用多项式核函数,对乘客的出行站点选择进行分类学习和预测。本研究使用的错误项惩罚系数为1,核函数阶数为3,核函数系数为样本特征数的倒数,核函数独立项为0,采用启发式收缩方式,取0.001 为停止训练的误差精度。

3 类模型的乘客站点选择分类预测结果如表2所示。

表2 3 类模型的乘客站点选择预测结果

3 类模型的预测结果差异不大且都表现良好,这表明基于乘客出行质心的方法能够有效地对乘客出行站点选择进行预测。Logit 模型在3 类模型中不仅有更高的精确率(84.23%)和特异性(84.09%),而且Logit 模型基于随机效用理论进行选择预测,相较于机器学习模型有更好的可解释性。

4 结 束 语

1) 通过利用数据互补、跨交通方式数据融合技术,在更精细的空间尺度上分析了地铁乘客出行站点的选择行为,弥补了先前研究通过调查获取数据的不足,提出了研究地铁乘客站点选择行为的新方法。

2) 引入居民空间行为指标——出行质心,发现乘客公交出行质心与地铁站点间的距离是影响乘客使用新地铁站点的重要因素,并建立了相应的站点选择Logit 预测模型,为探索影响乘客使用新地铁站点的因素提供了新思路。

3) 研究发现乘客通常会选择距离自身公交出行质心更近的地铁站点,研究有助于在地铁新线路开通前识别被新地铁站点吸引的乘客,为地铁新线路的选址规划及运营管理提供关键信息。

4) 由于缺乏步行数据,本文估算的乘客出行起点与实际出行起点存在一定的误差。未来在获取步行数据的情况下,可在现有研究基础上研究地铁站点的实际吸引区域,预测新地铁站点开通后从竞争地铁站点到新地铁站点的客流转移。

猜你喜欢
质心站点公交
重型半挂汽车质量与质心位置估计
基于GNSS测量的天宫二号质心确定
公交和地铁是如何运行的
以“夏季百日攻坚”推进远教工作拓展提升
基于近邻稳定性的离群点检测算法
巧求匀质圆弧的质心
等公交
积极开展远程教育示范站点评比活动
怕被人认出
先进站点应与落后站点开展结对帮扶