基于数据挖掘的深圳市地铁刷卡数据可视化分析

2020-01-03 10:09殷玮宏杨健何兆东黄燕如杨明慧
现代信息科技 2020年14期
关键词:刷卡高峰深圳市

殷玮宏 杨健 何兆东 黄燕如 杨明慧

摘  要:我国公共交通智能化水平不断提升,公共交通系统内部产生的海量的运营数据,为城市的规划发展提供了新的研究视角。通过地铁刷卡数据的挖掘与可视化,结合网络拓扑结构分析、OD分析与过度通勤理论,对深圳地铁的网络拓扑特性与通勤空间特征进行了研究。研究结果表明,深圳地铁站点离散分布程度较大,地铁通勤存在过度通勤的现象,职住区分离现象日趋明显。

关键词:可视化;地铁网络拓扑;地铁OD;职住分离;通勤时长;数据挖掘

Abstract:The intelligentization of the public transportation in China has been developing continually. The data produced by the public transportation system offers a new angle for research on the city planning. The research is conducted and visualized through the SCD(smart card data),combining network topology,OD and excessive commuting theory. It aims at researching on the network topology and the commuting space features of the metro in Shenzhen. The results show that the degree of the discrete distribution of the metro stations in Shenzhen is great. The phenomenon of excessive commuting exists in subway commuting,and the separation of work and residential areas is becoming more and more obvious.

Keywords:visualization;metro network topology;metro OD;job-housing separation;commuting hours;data mining

0  引  言

城市公共交通作為低碳节能的交通方式,有助于降低社会出行总成本,成为国内外解决城市发展过程中面临的各种交通问题的重要出路,我国更是将城市公交优先发展上升到战略层面。通过研究乘客在乘坐公共交通工具出行的行为,分析其出行习惯及特征,对于建设更完善的公交服务系统具有重要意义。在互联网时代,大数据的作用日益凸显,伴随公众出行而产生的海量数据背后蕴含着丰富的信息。

目前国内外对公交出行数据的研究主要针对公共交通智能卡数据(SCD)进行挖掘。SCD数据结构比较简单,一般包含了乘客的ID、上车/下车具体时间和站点等。相比于传统的交通出行数据,SCD获取成本较低、连续性好、覆盖面广、信息全面、易于动态更新,且具有地理标识和时间标签[1]。国内外对SCD数据的挖掘分析工作主要集中在以下几个方面:(1)推算OD(Origin-Destination)矩阵。这是由于大量城市公共交通采用一票制(flat fare),仅仅要求乘客上车刷卡或下车刷卡,因此造成了出行信息的不完整,需要对数据进行补充,推算乘客出行的OD矩阵,而对于要求乘客上车下车均要刷卡产生的SCD则并不需要过多的推算与补充。(2)公共交通系统的运行与管理。SCD可以帮助决策者更好地理解公交系统的使用模式,从而对公交网络线路进行更加系统的规划。如SUN等[2]利用OD矩阵对地铁时刻表进行了优化。(3)持卡人的出行行为与社会网络分析,这一领域的研究目前的趋势是从所有人群到特定人群,从所有行为到特定行为。(4)城市空间结构分析,城市的居住、就业和职住平衡一直是城市研究的重要问题,OTHMAN等[3]利用地铁刷卡数据实现了轨道交通的智能体仿真系统,研究轨道交通系统中的动力学。ZHOU等[4]基于识别通勤出行,分析了北京的过度通勤。相关研究处于起步阶段,且多局限于可视化层次,少有形成机制分析。本研究利用了SCD数据所包含的时空信息进行研究。

1  研究区域概况

深圳市是中国的经济特区、全国性的经济中心城市以及国际化的大都市。位于中国大陆南部,珠三角东部,毗邻香港。深圳市水陆空铁口岸完备,是中国拥有口岸数量最多、出入境人员最多、车流量最大的口岸城市之一。截至2015年末,常住人口1 137.89万,下辖龙岗区、盐田区、坪山区、大鹏新区、宝安区、光明区、南山区、前海新区、龙华区、福田区、罗湖区。深圳市目前有罗宝线(1号线)、蛇口线(2号线)、龙岗线(3号线)、龙华线(4号线)、环中线(5号线)、西丽线(7号线)、梅林线(9号线)、机场线(11号线)共8条地铁线路,此外还有2条有轨电车线路,本次研究使用的SCD是来自于地铁线路的刷卡数据。

2  数据来源及处理

2.1  数据来源

原始数据包括了深圳市全市范围内2015年12月1日的所有IC卡交易记录表(包括公交、地铁刷卡记录,充值记录),共有14 876 859行。

经过对刷卡数据的初步分析,发现原始数据中存在与本研究无关的数据以及无效数据,经数据清洗后,共提取出了3 987 836条地铁刷卡数据,截取部分片段展示,如表1所示。其中,IDS代表每个刷卡者的唯一标识符,DTLXNCODE代表刷卡者行为,DTLDATE代表刷卡日期,DTLTIME代表刷卡时间,UNIT代表地铁线路标识符,LINES代表站点名称,PNUMS代表车辆标识符。

2.2  数据处理

2.2.1  出入站刷卡行为计数

地铁出入站刷卡行为是反映地铁客流量的重要指标,对于地铁通勤情况具有一定代表性。使用Python中的数据分析拓展包Pandas对各站点的出入站记录进行计数,生成各站点的出入站行为计数表;同时结合深圳交通早晚高峰的时间,生成早、晚高峰出入站行为计数表,并对该计数表进行分区统计,生成各区的早晚高峰出入站行为统计表。

2.2.2  OD矩阵建立

OD表通过特定的标识符,记录个体在空间中移动轨迹的起点与终点,可以反映个体的出行行为。使用Python提取出入站记录,配合刷卡者的个人特定标识符,将刷卡者的出站和入站记录整合,形成OD表;在OD表的基础上,使用相互连通的站点数据构建网络数据集,以站点间出入站刷卡次数为权重,建立OD成本矩阵,用于后续的分析。

3  研究方法

3.1  深圳市地铁网络拓扑结构分析

通过进行网络拓扑结构分析,可掌握深圳市地铁的网络拓扑特性,了解各站点在拓扑网络中的位置与分布情况。配合后续分析,可以为深圳市地铁线路的规划提供一定的参考。

3.1.1  研究模型

使用Space L方法对深圳市的地铁网络进行建模,在Space L模型下,网络中的各站点仅与相邻站点通过相邻的地铁线路连接[5]。根据2015年深圳地铁路网,建立地铁站点的邻接矩阵(矩阵大小为117行*117列)。将邻接矩阵导入Gephi,得到如图1所示的深圳市地铁网络拓扑结构图。

3.1.2  站点度分布

在Space L模型下,站点的度值用于表示该站点相邻站点的数目。假设某无向网络的节点个数为n,则其邻接矩阵A可以表示为:

使用Excel统计邻接矩阵中的站点度值,通过对站点度值进行分析,可以得到各站点的度分布情况。

3.1.3  平均路径长度

在Space L模型下,站点之间的最短距离指的是在地铁网络中连接这两点的最短路径所经过的边数。使用Gephi,计算出深圳市地铁网络的平均路径长度,可以得出地铁路网的运输效率。

3.2  OD分析

OD分析通过构建乘客的移动网络矩阵,描述持卡乘客的出行行为,可以用于城市交通、城市空间结构、职住平衡等问题的研究分析。

使用OD成本矩阵,利用ArcMap在深圳地铁站点上进行配对连线,得到OD分析图,使用不同颜色及粗细的线段对刷卡次数进行分级。通过OD分析图,可以较为直观地看出通勤的流量情况及其空间特征。

3.3  过度通勤理论与方法

过度通勤定义为实际平均通勤成本与理论最小平均通勤成本的差值[6],过度通勤率(百分比)的表达式为:

其中,E表示过度通勤率,Ta表示平均实际通勤时间,Tr表示平均理论最小通勤时间。

使用线性规划求最优解的方法[7],计算理论最小通勤時间。将OD成本矩阵导入Lingo软件,使用Lingo的线性规划模型来计算理论最小通勤时间。

在OD表数据的基础上进行平均通勤时长的计算,利用Python计算乘客的出站时间与入站时间之差的平均值,即得平均实际通勤时间。

4  研究结果分析

4.1  深圳市地铁网络拓扑结构特征

图2展示了深圳市地铁站点的度分布情况。

深圳市地铁站点的平均度为2.203;其中77.12%的站点的度值为2,为非换乘的小型普通站点,如位于4号线北端的红山站;度值大于2的站点占比16.10%,这些站点往往位于地铁网络的线路交叉处,有换乘的功能,如深圳北站、宝安中心站等地铁站;其中福田站的度值最大,为5,该站位于1、2、3号线与11号线(在建)的交叉处,是一个大型的换乘站,为深圳市重要的交通枢纽。可以看出,深圳市地铁网络呈现出以普通站点为主,中小型换乘站为辅的站点分布格局。

经过计算得出,深圳市地铁网络的平均路径长度为13.805个站点。总体而言,深圳市地铁从任意一个站点入站,到任意一个站点出站,平均需经过约14个站点,说明地铁站点离散分布程度较大;这与深圳市中心城区地铁线网较密集,边缘城区较稀疏的实际情况相符。

4.2  地铁通勤空间特征分析

4.2.1  地铁高峰出入站刷卡次数分析

通过对数据的分析,将7:00—9:00、17:30—19:30的两个通勤流量高峰时段作为早高峰、晚高峰。对比图3(a)和图3(b),早、晚高峰刷卡频率较高的站点分布存在较大的差异,早高峰流量较大的站点主要分布在西方、东北方的地铁线路,晚高峰流量较大的站点集中在西南方、南方的地铁线路。显然,地铁的入站和出站次数分别代表该站点入站、出站的人数,下面将对出、入站统计数据进行对比分析。

本研究所获取的数据日期为非特殊节日的普通工作日,对于工作日的地铁通勤情况具有一定代表性。部分站点的早高峰入站数、晚高峰出站数都较大,并且存在相当数量的重合部分,可以认为这部分重合的站点附近一定范围是承担了居住功能的区域,如:坪洲、白石洲、民治、龙华、白石龙、民乐等站。对比站点的晚高峰入站数与早高峰出站数,可发现重合的高峰站点,由此归为承担了更多就业功能的区域,主要有:福田、岗厦北、岗厦、购物公园、高新园、深大、科苑、车公庙、大剧院等站。综合对比,还存在着早晚高峰的出、入站人数相对持平的站点,这些站点附近一定距离的区域也可认为是兼备了就业和居住功能的区域,归为职住混合区,如:大新、桃园、石厦、福民、莲花北等站。

4.2.2  地铁高峰期客流流向分析

为了进一步分析地铁通勤的空间分布规律,结合深圳市行政区划,我们得出了地铁人流净流入和净流出的区域。如图4所示,深色区域为净流入区域,浅色区域为净流出区域,白色区域表示无地铁通行区域,颜色越深流量越大。可以认为,早高峰期间的净流入区域为深圳市主要承担就业功能的区域,这三个区域相连集中在核心位置,临近关口,毗邻香港;而主要承担居住功能的三个净流出区域分布在外围,呈现向外延伸扩展的趋势,工作的区域呈现被居住区域半包围的空间关系。

4.2.3  地铁OD数据分析

如图5所示,福田、岗厦等站点处于十字交叉中心,以此为中心,在其南北东西向分别延伸的地铁线路皆为较为密集的深色线条,通勤的流量相对较大。结合前文的分析,将就业和居住集中的区域分别进行标识(半径为1 km),如图5所示。可以看到就业集中区主要位于高新区以及福田周围,而居住区则分散在就业集中区的外围,呈现类似半环形分布包围就业集中区。

谢彦敏[6]等在基于地铁刷卡数据的深圳市过度通勤研究中通过分析2014年2月一周的地铁通勤数据得出了相应的居住集中区和就业集中区,通过对比,我们发现2015年12月的地铁通勤数据得出的结果相比2014年2月产生了一些变化,如就业集中区增加了大新、桃园区域。

4.2.4  过度通勤分析

根据过度通勤的计算方法,得到深圳市基于地铁通勤的过度通勤率,如表2所示。

从表2可知,深圳市的晚高峰实际通勤时间稍高于早高峰实际通勤时间,总体差距不大;与理论最小通勤时间差距约20分钟,差距较大;计算得出过度通勤率达63.13%的较高水平,说明深圳市地铁通勤存在较严重的过度通勤现象。结合极光大数据的《2018中国城市通勤研究报告》[8],以及基于地铁刷卡数据和问卷调查数据的深圳市过度通勤研究[9],对2014、2015、2018年的平均实际通勤时间进行对比,由表3可以发现,深圳市通勤时间及其增长率皆呈上升趋势,反映深圳市的长距离通勤状况正在不断加剧,职住分离现象日趋明显。

为了进一步分析,本研究截取了17:30—22:30的数据,并以一个小时作为区间,分别计算其平均实际通勤时间,并绘制成如图6所示的折线图。

图6  17:30—22:30平均实际通勤时间如图6所示,深圳市17:30—19:30(即晚高峰)的平均实际通勤时间存在一个高峰期,而在20:30—21:30则存在一个次高峰。根据工作人群的实际下班情况可以判断17:30—19:30期间为大部分人群的正常下班时间,因此对应产生了一个高峰期;而次高峰20:30—21:30则对应加班人群的下班时间,因此继晚高峰后再次迎来了次高峰。同时,地铁发车间隔会随着人流量和需求的增加而适当缩小,此时的通勤效率应有所提升;然而高峰期的平均通勤时间仍然增加,主要是由于通勤人群从刷卡进站到上地铁的时间延长了,易知人流量也是平均通勤时间的影响因素之一。

结合OD分析,我们选择了宝安区(典型居住区)西乡、坪洲(站)至南山区(典型就业区)桃园、深大、高新园(站),共5条线路,分别计算其早高峰、晚高峰、高峰期平均通勤距离及过度通勤率,进行局部分析,数据如表5所示。

其中西乡—高新园線路的通勤时长与过度通勤率最为逼近深圳市的平均值,其次是西乡—深大线路、坪洲—高新园线路及坪洲—深大线路,坪洲—桃园线路的平均通勤时长相对较短,过度通勤率较低于深圳市均值。由上文OD分析可知,随着两站点间实际通勤距离的增加,过度通勤率也会随之增高,而以上5条线路中西乡—高新园线路的实际通勤距离最长,过度通勤率最高,而坪洲—桃园线路的实际通勤距离最短,其过度通勤率也呈现较低值,说明工作区及居住区间的实际距离越长,过度通勤率越高,城市通勤浪费现象越凸显。

此外,由表5可见各线路的早高峰实际通勤时间及过度通勤率均高于晚高峰。由于早高峰通勤人群的上班时间集中,晚上通勤人群下班时间相对分散,正常下班与加班下班人群之间的通勤存在时差,因此城市中早高峰时的通勤最为集中,通勤压力最大。针对早高峰交通通勤特点结构进行集中分析,通过减缓早高峰的通勤压力,从而优化城市的通勤模式,是在未来城市的发展规划中值得探索的方向。

结合以上分析,可以发现深圳市的工作和居住区域是相对分离的,有较为明显的职住分离现象。CERVERO R[10]认为就业与住房的不匹配是导致人们长距离通勤的重要原因,特别对于低收入阶层而言,无法负担就业中心周围的高价住房,只能选择远离工作地点的居住区,导致其平均通勤距离要比高收入阶层更长。深圳市的职住分离情况对过度通勤现象产生着重要的影响,随着城市的不断扩张及郊区化的发展,深圳市的职住分离趋势必然有所加强,因此如何平衡区域职住功能,比如通过规划和税收政策鼓励在就业集中区建设配套住房,或在居住集中区增加就业岗位等[11],是城市发展中亟待思考的问题。对于城市的发展和规划来说,平衡区域的职住功能,是缓解城市通勤压力,提高通勤效率的可探索路径。

5  结  论

本文基于深圳市一工作日地铁刷卡数据,利用Python等工具对大数据进行挖掘,分析了深圳市地铁网络的拓扑结构,使用OD矩阵对客流进行可视化,刻画了深圳市居民通勤的时空特征,并结合过度通勤理论研究深圳的职住分离情况。研究结果表明,深圳市边缘城区地铁线网较稀疏,站点离散分布程度较大;地铁过度通勤现象与职住区分离现象日趋明显。因此,在未来的城市规划中,平衡区域的职住功能,是缓解城市通勤压力、提高通勤效率的可探索路径。

参考文献:

[1] 龙瀛,孙立君,陶遂.基于公共交通智能卡数据的城市研究综述 [J].城市规划学刊,2015(3):70-77.

[2] SUN L J,TIRACHINI A,AXHAUSEN K W,et al. Models of bus boarding and alighting dynamics [J].Transportation Research Part A,2014,69:447-460.

[3] OTHMAN N B,LEGARA E F,SELVAM V,et al. Simulating Congestion Dynamics of Train Rapid Transit Using Smart Card Data [J].Procedia Computer Science,2014,29:1610-1620.

[4] ZHOU J P,MURPHY E,LONG Y. Commuting efficiency in the Beijing metropolitan area:an exploration combining smartcard and travel survey data [J].Journal of Transport Geography,2014,41:175-183.

[5] 郑苏江.上海市地铁网络拓扑结构性质分析 [J].智能计算机与应用,2019,9(4):205-208.

[6] 谢彦敏,钱志诚,陈宇.基于地铁刷卡数据的深圳市过度通勤研究 [C]//2017中国城市规划年會.持续发展 理性规划——2017中国城市规划年会论文集(05城市规划新技术应用).北京:中国建筑工业出版社,2017:898-921.

[7] WHITE M J. Urban Commuting Journeys Are Not “Wasteful” [J].Journal of Political Economy,1988,96(5):1097-1110.

[8] 极光大数据.2018年中国城市通勤研究报告 [R/OL].(20 18-06-15).http://www.199it.com/archives/737728.html.

[9] 钱志诚.基于地铁刷卡数据和问卷调查数据的深圳市过度通勤研究 [D].深圳:深圳大学,2017.

[10] CERVERO R. Jobs-Housing Balancing and Regional Mobility [J].Journal of the American Planning Association,1985,55(2):135-160.

[11] 孟晓晨,吴静,沈凡卜.职住平衡的研究回顾及观点综述 [J].城市发展研究,2009,16(6):23-28+35.

[12] 梁美兰,郭玉香,胡嘉仪,等.中国城市地铁网络特征分析及分类 [J].测绘与空间地理信息,2018,41(11):155-159+162.

[13] 曹庭脉,汤黎明,赵渺希.基于地铁数据的广州市职住空间和通勤特征分析 [C]//中国城市规划学会,重庆市人民政府.活力城乡 美好人居——2019中国城市规划年会论文集(05城市规划新技术应用).北京:中国建筑工业出版社,2019:459-475.

作者简介:殷玮宏(1999.06—),男,汉族,广东佛山人,本科,研究方向:地理信息科学。

猜你喜欢
刷卡高峰深圳市
深圳市民办中小学教育工作推进会召开
难考的驾照
石庆云
早高峰
An Analysis of Mobile Equipment on Merits and Demerits and Development
深圳市模型运动协会第十九期遥控航空模型飞行员执照公示
刷卡
结账
刷脸就可以购物
第一次刷卡