杜青松 李慧 刘振渤 冯子豪 杨玉洁
摘 要:分析出租车载客热点区域有利于掌握城市居民出行的时空分布特征。在深圳市出租车GPS抽样数据的基础上,引入DBSCAN空间聚类算法,并通过地图匹配,对出租车载客点进行聚类分析,利用数据挖掘手段得出出租车载客热区。对5个典型载客热区进行分析,得出出租车载客量的时间分布特性,并探讨其原因。研究结论有利于出租车公司了解客流分布规律和特征,提升对出租车调度的可行性和针对性,降低出租车空载率,减少运营成本,可在一定程度上缓解交通拥堵。
关键词:空载率;DBSCAN空间聚类;载客热区
中图分类号:TP39;U121 文献标识码:A 文章编号:2096-4706(2023)19-0089-06
Analysis of Taxi Passenger Carrying Hotspots Based on DBSCAN Algorithm
DU Qingsong, LI Hui, LIU Zhenbo, FENG Zihao, YANG Yujie
(School of Automobile and Transportation, Xihua University, Chengdu 610039, China)
Abstract: Analyzing the hot area of taxi passenger carrying is beneficial for understanding the spatiotemporal distribution characteristics of urban residents' travel. On the basis of GPS sampling data of taxis in Shenzhen, DBSCAN spatial clustering algorithm is introduced, and through map matching, clustering analysis is conducted on taxi loading points. Data mining methods are used to obtain taxi passenger carrying hot areas. Analyze 5 typical passenger carrying hot areas to obtain the time distribution characteristics of taxi car passenger carrying volume and explore their reasons. The research conclusion is beneficial for taxi companies to understand the distribution pattern and characteristics of passenger flow, improve the feasibility and pertinence of taxi scheduling, reduce the empty load rate of taxis, reduce operating costs, which can alleviate traffic congestion to some extent.
Keywords: No-load rate; DBSCAN spatial clustering; passenger carrying hot area
0 引 言
出租車出行是城市居民出行的重要方式之一,挖掘出租车的载客热点区域能掌握城市居民出行的时空分布特征,同时为出租车司机提供有效的运营调度信息,帮助其降低空载率,减少运营成本。
目前已有诸多学者对出租车载客热点区域挖掘及特征进行了研究。孙立山等[1]采用改进DBSCAN(density based spatial clustering of applications with noise)聚类算法对出租车载客热区进行挖掘,并利用BP神经网络对出行需求进行了预测;韩勇等[2]利用DBSCAN聚类算法对出租车载客点数据进行聚类分析后,通过核密度分析方法对载客热区进行了热度评估;王郑委[3]搭建Hadoop集群处理了出租车GPS数据,并利用K-means聚类挖掘了出租车载客热点区域;LUO等[4]提出了一种基于混合特征的密度测量方法,改进了DBSCAN算法并验证了其可行性;Shen等[5]采用网格划分思想改进了DBSCAN算法并提取出乘客上下车热点;Yu等[6]建立了基于密度的带噪声时空聚类算法,提取了随时间变化的历史出租车乘客上下车热点区域;Qi等[7]提出一种改进的空间聚类算法RFDBSCAN,挖掘了出租车接送热点;田甜[8]利用出租车轨迹等数据分析了城市居民出行行为特征,并识别了城市交通热点、探究了出租车需求影响因素;Hu等[9]利用出租车GPS数据识别了载客热点区域,并分析了不同土地利用类型下司机搜寻乘客的时间序列分布动态特征;Yang等[10]通过分析乘客对出租车的需求、土地使用模式等的相关性,得出出租车很可能是地铁出行的补充,而与公交出行存在竞争关系。
对于出租车载客的热点区域挖掘已有多种聚类算法,由于DBSCAN算法无须确定簇的个数,在热点区域挖掘上比K-means聚类算法有一定的优势,故本文将使用DBSCAN聚类算法对出租车GPS数据进行聚类,再对聚类结果与实际地图匹配,推算载客热区,结合时间因素分析不同时间段出租车载客热点区域产生的原因及特征。
1 出租车载客出行规律
1.1 基础数据及预处理
本文以Desheng Zhang教授的深圳市2013年10月22日星期二的出租车开源数据为研究对象,对数据进行抽样,其包含字段如表1所示。對数据进行预处理,挖掘数据的基本信息,其步骤主要包括数据清洗、出租车载客状态识别以及出租车的载客点提取。
1.1.1 数据清洗
由于出租车是在建筑以及隧道较多的城市内运行,在采集GPS数据时可能会受到一定的干扰,出现部分噪声数据,首先就需要进行数据的清洗工作,保证数据的正确性。处理后的部分数据如表2所示。
1.1.2 出租车载客状态识别
由于出租车GPS数据仅提供出租车某时刻的载客状态,故需要将各个车辆按时间线展开,找出乘客上车与下车时的数据。当同一车辆ID的Open Status列数据由0变为1时,即代表出租车从空载状态变为载客状态,该点即为出租车上客点;同理,当该列数据由1变为0时,表示出租车从载客状态变为空载状态,该点即为出租车的下客点。
1.1.3 出租车的载客点提取
结合GPS轨迹数据和载客状态数据,提取出租车的载客点,利用Python可视化工具,绘制出租车载客点热力栅格图,如图1所示。可以看出出租车大部分的载客点均为深圳市区内,与客观相符。
1.2 出租车载客时间分布规律
对抽样数据统计一天内各小时订单量,如图2所示。从图中能明显看出,乘客在一天内早、中、晚均有一个出行需求的高峰。在00:00到04:00,乘客对出租车的需求骤降,在之后的06:00到08:00,出租车载客数量明显上升,而在12:00、18:00两个时间段,出现规律性的载客低谷期,而18:00后呈上升趋势,这可能与深圳平均下班时间较晚有一定的关系。
1.3 出租车载客时长分布规律
出租车完成1次订单所花费的时长即为出租车的载客时长。将载客时长转换成分钟制,利用Python绘制订单平均持续时间的箱型图,如图3所示。
由图3可知,一天中各时段深圳出租车的载客平均时长不会超过20分钟,而在07:00—09:00时段和16:00—18:00时段,出租车的平均载客时长会处在较高的水平,可能是由于这两个时段分别处于上下班高峰时段,乘客的通勤出行需求较大,导致了道路交通的拥堵,从而影响了出租车的出行速度,因而这两个时段载客时长较其余时段较长。
2 热点区域提取及分析
DBSCAN算法是一种常用的密度聚类方法,其最核心的思想就是先发现高密度的样本,把相近的高密度样本逐步连成一片,进而生成各种簇。而且可以在有噪声的数据中发现不同类型的数据集[11]。
2.1 算法参数确定
使用DBSCAN聚类算法需要首先确定搜索半径ε以及邻域内的最小包含点数MinPts两个参数。若搜索半径ε恒定,过大的MinPts会导致聚类后只有高密度的点归为簇,将识别出过多的噪声点;反之,会导致聚类后出现较多的簇,甚至将噪声点归入簇内。以研究区域内的数据为例,统计不同搜索半径ε条件下聚类生成的簇的个数随不同大小MinPts的变化,其具体结果如图4所示。
图4表明当MinPts值大于等于30时,该聚类生成的簇的个数在不同搜索半径下变化较小,趋于稳定因而本文将取MinPts的参数取为30。
若MinPts恒定,搜索半径ε的取值过大会导致聚类后簇内有较多噪声点;反之,会导致聚类后簇外噪声点过多。在取MinPts为30时,将不同搜索半径ε(0.001、0.002、0.003、0.004及0.005)下聚类结果的簇中心点进行可视化,如图5所示。
分析表明,当ε = 0.001、MinPts = 30时,聚类效果最佳,既保留了城市中心热点载客区域,也不至于将中型簇合并为一个大簇,符合城市中心区域出租车载客量较城市边缘地带多的实际。
2.2 热区提取
结合上节中选定的参数,对研究区域内出租车载客点进行DBSCAN聚类算法分析,一共得到了31个簇,即31个载客热点区域。为了获取各个热点区域的中心位置,方便后续处理,故对各簇内数据做均值化处理。其式为:
(1)
式中:Ji(x)表示求得的第i个簇的均值经度;n表示由DBSCAN聚类后第i个簇内经度数据个数;Lngm表示第i个簇内第m个经度数据。
同理,对簇内纬度数据做均值处理。
(2)
式中:Wi(x)表示求得的第i个簇的均值纬度;表示由DBSCAN聚类后第i个簇内纬度数据个数;Latm表示第i个簇内第m个纬度数据。
通过计算,获得出租车各载客点的中心位置坐标,部分数据如表3所示。
利用DBSCAN聚类算法得出的簇中,结合高德开放平台,载客量前5的位置坐标以及实际位置如表4所示。其余出租车载客热点区域分别为:国贸商业大厦、水围村、深圳北站、赛龙大院、深圳人才公园、深圳欢乐谷、荔枝公园、金威大厦、深圳市工人文化宫体育馆、深圳东站、深圳市人民医院、深圳大剧院、深圳市民公园、深圳购物公园、布吉一村、红岭中学(园岭校区)、建设天桥、汇商名苑、龙胜配件城、石芽岭公园、左庭右院南区、皇冠体育中心、红群楼小区、文心公园、卓越时代广场、KK mall。
2.3 热区提取
由2.2节获取的5个出租车载客热点区域,分别对各区域载客订单按时间排序,获取一天24小时各小时的载客订单量,对各热点区域进行特征分析。
2.3.1 深圳宝安国际机场区域
深圳宝安国际机场区域为全天载客量最高区域,利用Python可视化工具,获取一天各小时的载客订单量折线条形图,如图6所示。
结果表明,该区域一天中出租车订单量集中在夜间18:00—02:00时段,在02:00之后载客订单会逐渐减少,直到09:00之后才会逐渐上升,而夜间23:00—02:00之间的载客量最大,可能是由于夜间公共交通部分停运,乘客只能选择出租车出行,因而该时段载客订单量达到高峰。
2.3.2 皇庭居区域
皇庭居区域为全天载客量次高的区域。该区域住宅区较多,同時离地铁口较近且该地铁口包含两条地铁线路。利用Python可视化工具,获取一天当中各小时载客订单量,具体如图7所示。
结果表明,该区域00:00—01:00时段为出租车订单量高峰时段,可能由于地铁停运保养,出租车出行成为居民重要的出行方式。该区域虽然住宅区较多,但方便的轨道交通比出租车更具有吸引力,因而居民选择轨道交通出行较多。其余3个订单量小高峰时间段为通勤高峰时间段,乘客出行基数大,从而使得出租车订单量较其余时段更多。
2.3.3 港逸豪庭区域
港逸豪庭区域为全天载客量第三高的区域,深圳站坐落于该区域。利用Python可视化工具,绘制出该区域一天内各小时载客订单量如图8所示。
结果表明,该区域仅在04:00前后载客量有明显低谷,是由于夜间时段居民生产活动减少,因而导致了出租车订单量的减少。而在白天时段,由于该区域附近有火车站,居民出行活动频繁,对出租车的需求较大,因而出租车订单量较多。但该区域17:00前后出租车订单量也有一个小低谷,是由于该时段为出租车司机换班时段,出租车司机载客意愿下降甚至出现拒载现象,因而导致了订单量的下降。
2.3.4 越港商业中心区域
越港商业中心区域为载客量第四高的区域,该区域附近大多为商城购物中心,利用Python可视化工具绘制出的各小时载客订单量如图9所示。
结果表明,该区域在夜间20:00—02:00时段的载客订单量一直保持一个较高的水平,是由于夜间道路交通状况良好,且公共交通大多停运,乘客为了更快的出行而多选择乘坐出租车,并侧面反映出深圳市居民的夜生活较为活跃。而在10:00—12:00时段以及15:00前后为该区域出租车载客低谷期,是由于这些时段该区域居民出行活动减少,将出租车作为出行工具的乘客也相应减少。
2.3.5 深圳五洲宾馆区域
深圳五洲宾馆区域为载客订单量第五高的区域。附近除了宾馆外还分布着较多的商业大厦,为深圳市的中心区域。同样利用Python可视化工具绘制出该区域24小时内的载客订单分布,如图10所示。
结果表明,白天时段由于附近商业大厦较多,居民均在公司办公,出行活动较少,因此出租车订单量一直较少。而在夜间19:00—01:00时段随着下班后居民出行活动增加,并且夜间时段道路交通状况良好,对出租车需求随之增长,保持了较多且稳定的订单量。侧面还反映出深圳市平均下班时间较晚,尤其在22:00前后下班的员工较多。
3 结 论
研究深圳市出租车载客热点区域,通过DBSCAN聚类算法,对深圳市一天内载客订单量的前5位出租车载客热点区域进行了研究分析,得出了深圳市出租车前5位载客热点区域一天24小时各时段的载客订单量,分析各时段订单量分布的原因,为出租车司机提供有效的运营调度信息,帮助司机降低空载率,提高道路利用率,缓解交通拥堵。
在后续可以通过进一步获取更长时间跨度的出租车出行数据以及相关的气象等数据,深入挖掘出租车出行时空特性。同时,在研究方法上可以进一步考虑对聚类后区域中心点权重等多因素。
参考文献:
[1] 孙立山,贾琳,魏中华,等.基于GPS数据的出租车出行需求预测研究 [J].交通信息与安全,2021,39(5):128-136.
[2] 韩勇,樊顺,周林,等.基于聚类算法的出租载客点时空分布特征研究 [J].中国海洋大学学报:自然科学版,2019,49(S1):155-162.
[3] 王郑委.基于大数据Hadoop平台的出租车载客热点区域挖掘研究 [D].北京:北京交通大学,2016.
[4] LUO T,ZHENG X W,XU G L,et al. An Improved DBSCAN Algorithm to Detect Stops in Individual Trajectories [J/OL].ISPRS International Journal of Geo-Information,2017,6(3):[2023-03-05].https://doi.org/10.3390/ijgi6030063.
[5] SHEN Y,ZHAO L G,FAN J. Analysis and Visualization for Hot Spot Based Route Recommendation Using Short-Dated Taxi GPS Traces [J].Information,2015,6(2):134-151.
[6] YU H,LI Z N,ZHANG G H,et al. Extracting and Predicting Taxi Hotspots in Spatiotemporal Dimensions Using Conditional Generative Adversarial Neural Networks [J].IEEE Transactions on Vehicular Technology,2020,69(4):3680-3692.
[7] QI H,LIU P P. Mining Taxi Pick-Up Hotspots Based on Spatial Clustering [C]//2018 IEEE SmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computing, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation (SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/SCI).Guangzhou:IEEE,2018:1711-1717.
[8] 田甜.基于出租车轨迹数据的居民出行特征及影响因素研究 [D].重庆:重庆交通大学,2022.
[9] HU X W,AN S,WANG J. Taxi Driver's Operation Behavior and Passengers' Demand Analysis Based on GPS Data [J/OL].Journal of Advanced Transportation,2018,2018(1):1-11[2023-03-05].https://www.hindawi.com/journals/jat/2018/6197549/.
[10] YANG Z,FRANZ M L,ZHU S J,et al. Analysis of Washington, DC taxi demand using GPS and land-use data [J].Journal of Transport Geography,2018,66:35-44.
[11] 刘志远,张文波.交通大数据理论与方法 [M].杭州:浙江大学出版社,2020.
作者简介:杜青松(1998—),男,汉族,四川广元人,硕士研究生在读,研究方向:交通信息工程及控制;通讯作者:李慧(1976—),男,汉族,四川成都人,副教授,硕士研究生,研究方向:道路交通安全。
收稿日期:2023-04-05