基于公交大数据的满载率推算方法
——以深圳市为例

2019-10-12 08:14黄正东

测绘通报 2019年9期

闻帅,黄正东

(深圳大学智慧城市研究院，广东深圳 518060)

优先发展城市公共交通是我国城市发展的重要战略。而随着我国城市化进程的不断发展，各大中城市公共交通所面临的交通出行压力与日俱增，城市公共交通出行拥挤的状况也饱受诟病。而另一方面，城市公共交通运营单位也在持续亏损，必须依靠政府补贴才能维持正常运转。如何提高公共交通运行效益而又保证较高的服务水平是一个难以取舍的难题。公汽满载率是反映常规公交出行拥挤程度的指标，又是衡量线路运行效益的指标，对于公交规划、车辆调度和服务评价也都是重要的参数。然而目前公汽满载率的应用，如在公交线路规划、乘客体验及服务评价，还主要靠人工调查获取少量线路或站点的满载率[1-2]。

随着公交信息采集系统的完善和自动化，公交大数据的获取越来越方便，应用也越来越广泛[3]。使用大数据分析和挖掘技术从IC卡刷卡数据、车辆GPS数据等公交大数据获取准确的公交出行OD(origin-destination)，用以研究公共交通问题和其他城市问题是当前的研究热点。本文提出使用公交大数据推算公汽满载率的方法，并以深圳市数据为例，推算全市大部分公共汽车的满载率，最后应用该数据对深圳市公汽101路的拥挤情况进行了试验，证明该方法的可行性。该方法相比人工调查方法具有获取范围广、获取时段长、成本低、获取便捷等优势，对公交线路规划、公交调度、公交服务评价等方面的研究有重要的意义。

1 基于大数据的满载率推算方法

1.1 满载率的定义

车辆满载率是指线路最大断面的客流量与同一断面运输能力的比较，即车厢内实际乘客人数与车型额定载客量之比。公共汽车上标识的额定载客量是按照国家《机动车运行安全技术条件》(GB 7258)的标准，即由每人站立面积不小于0.125 m2的标准计算得来。由于此站立面积设置过小，基于额定载客量得到的满载率一般不能真实反映乘客的舒适度，因此有学者提出了满载率更加合理的表示方法。文献[4]根据人体尺寸和心理安全空间计算得出一个合理的乘客站立面积(0.256 m2)，并将其运用到公交调度模型的研究中去。文献[5]依据单位平方米拥挤度提出了满载率的分级表示法，以实际案例说明了其在公交线路规划和服务评价的应用。这些对满载率的重新定义使得针对不同情况的公交问题研究更加科学合理，具有一定的学术价值和应用意义。

深圳市在2017年底已经实现了公汽的全部电动化，成为全球首个专营公汽全面电动化城市。全市运营的纯电动公汽车辆大多为比亚迪K8车型。该车长度为10.5 m，标定载客量87人，座位数31个。文献[5]根据深圳市2013年较为常见的11 m大巴，车内布局为“36座+5 m2站位”的结构，以76人为载客最大值，根据客舒适度将满载率划分为5个级别。其使用的车型大小和载客量与K8车型较相似，因此本文根据其满载率级别对乘客舒适度的研究，把最大载客量设为较合理的值76。已有研究表明满载率达到80%或站立达到4～5人将引起人们的不适[6]，本文把满载率大于80%视为高满载率。与线路流量不同的是，满载率体现的是以人为核心的表示方法，是乘客真实乘车体验的指标。过高的满载率不但导致乘客出现不适，也将影响乘客对于出行线路的选择[7-8]。准确可靠的满载率信息对于评价现状公交服务水平、提升未来公交服务质量具有重要的理论和实践价值。

1.2 公汽满载率推算方法

获取每辆车到达每个站点的上下车乘客数是推算公汽满载率的关键。目前比较常用的公汽客流获取方法即使用IC卡刷卡数据[9-10]。但目前很多IC卡数据的研究对于出行OD推导率不算太高，除了方法本身无法获取精确的下车站点外，限制还包括数据量、时间范围、数据完整度等方面[10-13]。

本文提出使用整个城市范围较长时期的数据，如一个月以上包含地铁和公汽的IC卡刷卡数据和公汽车辆GPS定位数据，对数据进行细致的预处理，保证数据的完善可靠，再综合利用多种下车站点推导方法得到下车站点和下车时间，以提高出行OD的推导率。有了出行OD数据再根据到站时刻表统计上下车乘客，可以得到每辆车在每个线路段上的载客量，根据该车的车型核载量计算得到公汽满载率(如图1所示)。

1.2.1 到站时刻表提取

到站时刻表是公汽每个车次实际到站的时间记录，用以根据刷卡时间提取上车站点、根据下车站点获取下车时间，以及根据出行OD统计车辆到站的上下车乘客数。它是满载率推算的数据基础，可以通过公汽GPS数据结合线路和站点数据提取得到。车辆到站时刻表提取步骤如下：

(1) 筛选正确的GPS定位点，筛选方法为在线路100 m缓冲区或者站点300 m缓冲区。

(2) 车次识别。设置起终点站300 m阈值，把最后一个离开起始站的定位点时间作为车次起始时间，第一个进入终点站阈值范围的定位点时间作为到站时间；根据起终点站识别车次和方向。

(3) 中间站点按照线路方向上的站点顺序，依此进行识别。设置到站距离识别阈值为100 m。

(4) 提取完所有站点后，还需要对漏过站点的到站时间进行插值补全，之后即可得到完整的公共汽车到站时刻表。

1.2.2 上车站点提取

得到车辆到站时刻表后，可根据车牌关联将刷卡时刻与到站时刻进行匹配。在两个到站时间内的刷卡数据匹配到上一站点。将到站时间前30 s内的刷卡识别为本站点，以减少因定位误差及刷卡机时钟偏差导致的误提取。对于在起始站上车的情况，设置比车次开始时间早5～10 min的时间作为起始站上车识别时间。最终根据到站时刻表提取上车站点后，得到刷卡数据的线路方向、上车站点、上车站点序号、上车时间。

1.2.3 下车站点推导

公汽下车站点推导主要方法有[10,14-15]：①基于连续出行链的方法；②基于换乘行为的方法；③基于通勤出行时空特征的方法；④基于历史出行频率的方法。本研究主要使用基于连续出行链的方法，结合换乘行为，然后依据通勤出行特征和历史出行推导下车站点，综合利用以上多种方法，以提高下车站点推导成功率。

本文使用的连续出行链方法原理如图2所示。一个人从家里出发，步行到公汽站点b1，乘坐公汽线路L1到达公汽站点b2，然后步行到地铁站点s1，进入地铁网络N1，之后从地铁站s2走出，步行到公汽站点s3，搭乘公汽线路L2回到离家较近的另一公汽站点b4，最后步行回到家中。该方法假设乘客仅依靠公交、地铁和有限的步行完成出行，中途不采用其他交通方式。这样乘客的下车站点可以通过下次乘车的上车站点进行推断。

整个下车站点的推导步骤如下：

(1) 基于连续出行链原理，假设上次乘车下车站点在下次乘车的上车站点附近，设置公汽站点换乘阈值为800 m，地铁站点换乘阈值为1000 m，在上次乘车站点之后的方向上搜寻距离下车乘车站点最近的站点，即推断为下车站点。

(2) 步骤(1)最多只能得到上次出行的下车站点，无法得到最后一次出行的下车站点。而一天的出行一般会返回到当天的起始位置附近。因此假设最后一次出行乘坐公汽的，其下车站点可能在当天上车站点(地铁和公汽)附近。阈值和下车站点推导同步骤(1)。

(3) 假设当天最后一次出行返回家里。家的位置推测可采用DBSCAN算法[16-17]。首先提取每天第1次出行的起始站点，然后使用DBSCAN算法求得聚类中心，即第1次出行站点最密集的地点，并以此中心作为家的位置。如果当天最后一次公汽出行的线路方向上有在阈值范围内且离家最近的站点，即可推断为下车站点。

(4) 根据通勤或历史出行规律推导下车站点。出行目的通常具有相似性，可以假设每天相同时间段在同一站点乘坐同一条线路的情况，其目的地相同，而在不同时间段乘坐线路反方向的可以假设其上下车站点相反，以历史出行频率判断其最可能的下车站点。

在得到上下车站点之后，可根据到站时刻表得到下车时间。

1.2.4 公汽满载率推算

由乘客上下车站点和时间，结合车辆到站时刻表，可以获取每辆车到站时的上下车乘客数，进而计算得到车辆运行时的车厢乘客数量。根据前面制定的满载量计算方法，最后推算得到基于刷卡数据的公汽车辆满载率。

2 深圳市公交大数据的基本特征

本文以深圳市为例，使用2017年9月的深圳通刷卡数据和公汽GPS定位数据，还有从百度地图抓取的地铁和公交的线路及站点数据。由于7—12日、24日这7 d的GPS数据有缺失，因此选取剩余23 d作为本文公汽满载率推算的时间范围。

深圳通刷卡数据为2017年9月30 d的数据，总卡数为885万张，总刷卡量为2.58亿条，其中地铁刷卡入站和出站共1.59亿条，公汽刷卡接近1亿条。深圳通刷卡数据字段有卡号、刷卡时间、刷卡类型(地铁入站、地铁出站、巴士)、刷卡价格、优惠后价格、设备编码、线路名、地铁站点名、公汽车牌、是否联程等。

GPS定位数据是公共汽车运营时的位置记录，采样间隔最短为10 s，大部分在60 s内。数据字段有车辆车牌、线路名、运营公司、经度、纬度、时间、速度和方向等。

线路和站点数据包含公交线路949条，站点6482个，地铁线路8条，站点共166个(根据不同线路名、站点名统计)。

根据上下车站点推导步骤得到公汽出行OD数据。最终共获取了15 888辆公共汽车、覆盖827条线路的上下车客流数据。车辆刷卡数据OD推导率在80%以上的有10 377辆，占推导后总车辆数的65.31%，推导率在60%以上的有13 925辆，占87.64%。

3 深圳市公汽高满载率时空分布特征

通过公汽满载率推算方法，获取了整个深圳市大部分公共汽车的满载率。基于此数据可以对出行热点线路进行分析，发现拥挤的时段和路段，以便采取调整措施，保障乘客的出行体验，提高公共交通服务水平。

3.1 全市范围内的高满载率路段分布

统计2017年9月16—22日各道路路段所承载的高满载率车次发现，周末(16、17日)的高满载率路段数量相比工作日非常少，显示出短时高密度出行需求主要集中在工作日。选择18—22共5 d工作日的早高峰时段(7：00—9：00)，对每一路段上公汽高满载率的车次数进行统计，结果如图3所示。可以看到高满载率路段在整个市区均有分布，并且沿着主要公交廊道延伸，其中主要是“关外”至“关内”的廊道，如从宝安西乡到南山中心，从石岩、西丽到南山科技园，从龙华到福田CBD，从龙岗、布吉到罗湖商业区。这几个廊道均是主要的入城通道，直观地反映了深圳市“关外—关内”往返通勤的拥挤现状。另外南山至福田、罗湖的3条东西向主干道(滨海大道、深南大道、北环大道)也显示出了较高的通勤拥挤程度。

3.2 单条公汽线路高满载率

深圳市公汽101路由火车站至西丽动物园总站，连接罗湖商业区、福田CBD、华侨城旅游度假区、南山科技园、西丽交通枢纽，是一条较为典型的常规公汽线路。包含运营车辆共49辆，非高峰时段发车间隔在6 min左右，早高峰时段在4 min左右。其东侧沿深南大道几乎与地铁一号线完全重合，而西侧则为地铁线路尚未覆盖的南山科技园北部。本文以101路为例，用推算得到的公汽满载率数据分析其可能出现的拥挤路段和时段。

使用9月16—22日一周的数据，对101路高满载率车次分析发现，其高满载率车次主要集中在工作日的7—9点、18—20点及21点附近。具体的，对101路早晚高峰各方向路段所承载的高满载率车次数进行统计，结果如图4所示。往火车站的去行方向，早上从九祥岭②开始到茶光①高满载率车次是逐渐上升的，达到较高的峰值之后快速下降，又在豪方现代豪园达到另一个小高峰。此方向上豪方现代豪园附近为居民区，因此也有较大量的上车乘客。晚上该方向前半程通往工作区，与下班客流方向相反，而东侧与地铁线路重合，有较多的替代线路，因此除了科技园附近有少量拥挤外，整条线路表现不太拥挤。往西丽动物园总站的回行方向，早上从火车站到白石洲①有少量的高满载率车次数，而在白石洲①至朗山路西高满载率车次较高，且逐渐降低。主要原因是作为深圳关内最大的城中村的白石洲，有大量前往南山科技园上班的乘客。晚上从深大北门②至松坪村高满载率车次数较高，且逐渐上升，之后一直到西丽法庭②逐渐下降，主要是从科技园返回松坪村附近居住区的客流，以及到茶光地铁站换乘的客流。

通过以上分析发现，101路的拥挤路段主要为西侧半程，拥挤时段主要在早晚高峰。为了缓解拥挤状况，提升乘客舒适度，可以采取的措施是在高峰时段的拥挤路段加开区间线路、缩短发车间隔。此处所分析的高满载率车次并不涉及总体客流量规模，而是短时间内高密度客流的时空分布，有利于提出针对性的服务质量提升解决方案。总体而言，从火车站至白石洲段还有相当大的客流量，但分布则较为平缓。

4 结语

公汽满载率指标是表示公汽车厢拥挤程度最直接的指标，在公交规划、调度、服务评价等方面有着重要作用。本文利用长时期大范围的IC卡数据、公共汽车GPS数据等公交大数据推导得到了成功率较高的OD数据，为公汽满载率的推算提供了基础，以此可以得到城市级别的公汽满载率数据。经深圳市案例分析，最终验证此方法具有可行性，在数据完整的情况下可以获取全市公交路网的乘客拥挤程度。通过对公汽满载率的进一步分析，可以对出行拥挤路段和时段进行精准识别。但是研究中对大数据处理的时间较长，未来可对大规模公交数据处理算法进行优化，以提高搜索效率。

基于公交大数据的满载率推算方法——以深圳市为例