利用共享单车大数据的城市骑行热点范围提取

2018-08-31 05:46杨永崇
测绘通报 2018年8期
关键词:用车热点单车

杨永崇,柳 莹,李 梁

(1. 西安科技大学测绘科学与技术学院,陕西 西安 710054; 2. 西安市交通规划设计研究院,陕西 西安 710082)

20世纪末中国城镇每百户自行车拥有量达180辆,之后的10多年中市民出行方式发生了翻天覆地的变化。轨道交通、公共汽车与私家车逐步代替自行车成为城市居民出行的主要交通方式,与此同时非机动车道规划也逐渐跟不上飞速建设的城市路网。在“创新、协调、绿色、开放、共享”的发展理念下,一方面共享单车以惊人的速度在城市中崛起,补充了传统城市交通方式,并在覆盖公交盲区、强化轨道交通优势、解决最后一千米及完善城市微循环中发挥了积极的作用[1];而另一方面运营公司对共享单车的饱和式投放、绿色出行的爆发式增长、市民骑行的离散式停靠与建设不周的城市道路格局发生矛盾,政府的规划不足与企业的管理缺失等因素使共享单车的绿色出行存在各种隐患。

荷兰是最早开始重视非机动车道路设施规划的国家,1890年建设世界上第一条自行车专行道,之后不断拓展完善,交通部对自行车专行道的修建制定了统一的标准,并鼓励各种交通工具与自行车交通衔接[2]。1980年日本建设省以神奈川县为试点开展共享单车业务,在神奈川县平塚站与县区设计了“车站—目的地—车站”轨迹方便人们出行,是世界上第一个基于共享单车的集约规划解决方案[3]。2008年以后随着有桩共享单车在全世界普及,越来越多的学者利用共享单车绑定GPS数据,分析数据踪迹,研究城市居民单车出行的日常惯例、文化影响、交通汛期动态特征[4],以及站在运营管理角度提出合理分配意见[5-7]。尽管如此,针对居民出行时空行为特征角度的探讨规划与引导无桩共享单车的研究少之又少,因此本文利用共享单车大数据,弥补传统研究方法中数据滞后和准确性不足的缺点,开展共享单车用户骑行规律的研究,有利于在存量规划的背景下,从动态发展的角度考虑城市绿色交通空间布局,基于需求的视角去更好地推进非机动车道路规划的合理化与高级化。

西安地处关中平原中部,市区内地势平坦,道路林荫,文化古迹众多。道路网继承了唐代棋盘式的路网布局,是国内为数不多的骑行友好(bike-friendly)指数较高的城市之一。西安拥有众多高校,以学生为代表的年轻力量驱使西安的共享单车推广热度位居前列。因此共享单车使用规范化迫在眉睫,已经成为主要的城市问题。在人本主义及后现代思潮影响下,城市问题的解决宗旨都离不开城市中“人”的社会行为特征分析[8]。随着信息技术的发展,各种新的数据类型和来源也大大扩展了城市规划的数据视野,我们能获取大量具有位置信息的动态数据,使用新的处理模式洞察这些海量、高增长、多样化的数据早已广泛使用在各领域的研究管理中[9],为科学规划提供了新的工具与方法,使用大数据进行城市道路规划也是一次新的尝试。

1 数据获取与研究方法

1.1 数据获取

城市人口活动相关数据获取的传统方法是使用问卷调查、跟踪调查或访谈等统计学的抽样原理得到有限的随机样本,再使用随机样本的分析结果代表总体特征。但这种方法样本的随机性难以保证,也因此从根本上动摇了总体特征分析的合理性与可靠性;另外使用随机样本的方法也只是在不可能收集所有数据信息的情况下做出的一种现实选择[10]。网络数据挖掘技术的发展为骑行特征研究提供了新的思路,本文使用Python语言编写循环语句,将浏览器头部伪装成手机浏览器,通过共享单车APP接口,抓取整个西安市的ofo单车位置数据;然后利用ignore语句对所有记录去重、存储、导出;最终得到全天候全天时、涵盖了西安市三环以内大约23万辆ofo共享单车的位置数据,可视化效果如图1所示。这些数据基于市民自发的骑行行为,可以科学、客观地反映城市骑行特征。

另外,大数据分析离不开公共基础数据的支持,包括:①城市建筑物轮廓数据,来源于城市航拍的正射影像;②城市道路网数据、城市轨道交通数据,来源于刚更新的西安市交路矢量图;③谷歌地图网站下载的2.3 m分辨率的含有POI信息的城市混合遥感影像。

图1 9月20日8时西安市ofo单车位置分布

1.2 数据处理

首先,通过将CSV数据的坐标点依据经纬度导入ArsGIS分析平台,与西安市行政区图叠加,删除三环以外的数据。然后,导出SHP数据并建立属性字段name、lng、lat和Z字段,其中Z字段为个体值为“1”的短整型字段,其目的是方便后期的定量密度分析。最后,导入建筑物轮廓数据、影像数据及路网数据,并进行坐标纠正及整合。路网数据是在个人地理数据库环境下构建网络数据集,并使用网络分析工具进行路网联通性检查。

1.3 研究方法与模型

在行为特征问题上比较常用的研究方法是密度分析法[11]、聚类分析法[12]、距离或可达性分析法[13-14]。本次研究使用大量的点数据,通过点密度准确衡量共享单车使用热点,将不同等级热点活跃范围的值匹配进路网数据,最后使用贪心算法[15]即以热点为中心、路网为载体,根据等级扩散提取骑行热点路段。具体技术路线如图2所示。

大数据空间分析的热点分析或密度分析在可视化效果中常使用热力图、矩形(六边形)格网专题图来表示,而轨迹重建或OD分析一般用连线图进行表达。因此在数据挖掘与规划实现部分,ArsGIS平台的空间分析与数据管理、数据转换工具集是本试验的操作关键。本试验的创新点在于使用格网对用车密度进行统计获取热力图,以及使用贪心算法改进路径缓冲原理提取热点路段。

2 西安市骑行空间分布特征

2.1 基于时间维度的单车使用情况

将相邻时刻的两个数据相互擦除得到时间段内活跃单车分布,进行热点分析。利用0—24:00的共享单车位置数据,对单日活动强度动态特征变化进行统计,如图3所示。6:00—10:00为早高峰时段,12:00—13:00的午休时段有较小的涨幅,17:00以后逐渐进入晚高峰,受城市夜生活的影响,用车高峰从夜间22:00开始回落。整体来看,共享单车活动特征随时间规律变化,具有明显的早晚高峰,与城市人口的日常作息规律呈正相关。这说明,一方面传统的作息规律仍然支配着居民的日常活动,时间与活动内容间的对应关系仍然存在;同时共享单车大数据与居民行为的对应关系,从而为后续研究提供依据。

图2 技术路线

图3 共享单车日活动强度动态特征变化折线

图中1:00—2:00、4:00—5:00单车出发、到达数量存在明显不一致,因此对1:00—2:00单车出发数据与单车到达数据依据单车编号进行属性的配对工作,发现大量单车信息无法配对,因此推测在这一时段,ofo共享单车公司对共享单车进行故障自行车的收纳与新车的投放调度工作,对这一猜想需要后期试验进行OD线路提取模型来加以验证。

2.2 基于空间的用车热点提取

热力图是一种基于密度换算的可视化表达,不同时段的单车活跃程度需通过密度分析运算结果。以9月20日7:00—8:00活跃单车数据为例,传统的核密度分析工具得到的单车活跃热力图的表达值都是相对的、无定量的极大或极小值(如图4所示),且不便于后续试验的精确统计与再分析。因此,本次热点提取利用栅格数据特殊的格网属性,计算出不同地区的活跃单车密度。数据预处理时添加的Z字段代表每一个单车的值,使用点转栅格工具,选取SUM像元分配类型,得到以格网为定量的单车活跃热力图(如图5所示),正方形格网边长为80 m,满足城市规划尺度。上述方法不仅能得到精确的结果,而且能对各时段的数据进行统计,以方便后续分析。

图4 基于核密度算法单车热力图

利用上述方法对全天时内出发、到达的48组数据进行热力分析,定义单位像元面积内活跃单车数大于100为高热度区域。将其转换为点数据并进行整合,提取出全天候单车活跃热点分布图。结合时间尺度可以看出,共享单车出发、到达的集中时间为凌晨、早晚高峰与午休时间。

热点提取之后就可以基于OD线段的放射、吸收模型匹配进行分类与验证。OD线段数据来源于单位时间段内同名出发、到达单车点的连线。考虑到单车可能被利用多次,但在短时间内仍然可以作为活动趋势的判定。提取的OD连线数据量大、重叠度高,无法进行清晰直观的观察,就需要对海量线段进行基于热点范围的提取。通过将全天出发、到达热点区域的出发、到达点数据与其时段内的OD连线进行匹配,提取全天热点区域放射、吸收模型图,有利于更科学地判断骑行热点的形成与特征。热点地区放射吸收模型分为3种表现方式,行为聚集型、运输位移型与内部流动型(如图6所示),所有模型信息见表1。

图6 不同类型的聚集模型

类型地区分类聚集/扩散规模运输位移型京昆高速汉城服务区物流出发西安华晨物流有限公司物流出发/到达普洛斯物流中心物流出发/到达永松路公交站住宅出发/到达西大新村住宅出发/到达行为聚集型丈八北路地铁站交通出发/到达西安文理学院北门学校/住宅出发电子正街中段住宅出发西安软件园写字楼出发高新九号写字楼出发/到达龙首原地铁站交通出发/到达鱼化寨地铁站交通到达西北工业大学研究生院北门学校到达吉祥村地铁站交通到达大明宫西地铁站交通到达高新六路中段写字楼到达劳动路地铁站交通出发/到达内部流动型西安交通大学思源阁食堂学校到达西北工业大学勇字楼学校到达西北工业大学西门学校到达

2.3 骑行时空特征分析

骑行时空特征是共享单车骑行特点的全面反映,也是非机动车道路设施规划的重要依据。通过分析结果结合实际,不考虑ofo公司对共享单车的运输行为及单位内部用车行为,对其他数据进行分析。6个用车热点分布在地铁站,地铁站成为早晚高峰时段共享单车聚集点,这种现象在一定程度上反映了两种交通方式的优化搭配原则,也是轨道站点的交通一体化规划设计的重要依据。另外,永松路周边的市政府小区、崇德坊社区等住宅聚集区、电子正街中段北山门住宅聚集区、西北大学新村成为共享单车调度运输目的地、早高峰出发地,反映出绿色出行模式早已广泛普及,共享单车成功地解决了居民出行的“最后一千米”问题。写字楼、高校附近共享单车的聚集说明年轻群体是共享单车用户的主力军。此外,令人期待的西安城墙内部的市中心区域骑行的空间聚集效应无明显特征,商业与住宅区域的错综复杂关系、老城区功能区聚类程度低等因素是解释这一现象的重要依据。

3 骑行热点路段提取

通过对2017年9月20日每个时段的共享单车变化进行空间可视化分析,得到20个用车热点,对这些热点再分析后利用可视化模型进行分类。行为聚集型是市民自发的骑行行为在早晚高峰、午休等时段的聚集效应;运输位移型是共享单车公司人为地对共享单车进行调度、运输,这种类型的最大特点就是聚集点缺少OD线段的匹配;内部流动型是指在学校内,校内人员对共享单车具有规律性的使用情况,如午饭时间校内单车向食堂聚集,下课时间向校门口聚集取快递的行为。城市非机动车用车热点路段提取显然需要依据行为聚集型模型进行分析,因此对骑行热点路段的提取就要围绕行为聚集型热点展开[16]。

基于大数据研究全天候的OD线状模型数据量大、重叠度高,无法进行分析与总结,在此利用核密度算法对OD线状模型分布特征进行提取分析[17]。具体思想是借助一个移动窗口,计算并输出每个栅格单元的OD线密度。设x1,x2,…,xn是从分布密度函数为f的总体中抽取的独立分布样本,估计f在某点x处的值f(x)[13]如下

式中,k( )为核函数;h>0,为带宽;x-xi为估计点到样本xi处的距离,完成的密度范围在0~83 207.570 31之间。采用Jenks提出的自然间断点分级法[18]将密度值分为7个等级后对结果进行重分类,并将结果转换为矢量面数据与路网数据进行叠加求交集,这种方法可以将密度值转为扩散强度(φ)定义在路网数据属性内(见表2),进行贪心算法分析。参照其他城市共享单车骑行数据统计,从骑行距离来看,平均单次骑行距离约1.69 km,70%以上都在2 km以内[19]。因此,定义的φ值来源于共享单车的骑行平均距离与距离累计百分比大于70%的骑行距离范围,即1.69~2 km之间,如图7所示,并定义紧邻热点的一级范围区域在150~300 m之内,作为规划单车停放路段。

图7 骑行距离分布

最后选取行为聚集型用车热点放置网络算法的目标点,进行贪心算法从而提取用车热点路段。贪心算法又称贪婪算法,在对问题求解时,总是做出在当前某种意义上的局部最优解,背包问题、Dijkstra算法都是贪心算法的经典案例。提取热点路段的第一步是基于目标点的网络缓冲分析,设道路网G=(V,E),它采用邻接矩阵作为存储结构,网结点i和j之间有直接边,设其权值为Wij,并建立一个一维数组S,标记已经找到的最短路径顶点。其中

S[i]=

表2 自然间断点分级结果

计算定级因子最短路径的距离时,权值Wij为网结点i和网结点j之间的直线距离,最短路径的距离为其上各边Wij的和。初始状态时,S[0]=1,对于其余的网结点Vj(Vj=V0),有S[j]=0;设置另一个一维数组distance存放源网结点到其余源网结点的当前最短路径长度,distance[i]=cost[orginal(V0),i][20]。利用上述过程重复执行n-1步就能得到按路径长度递增的顺序求源网结点到其余各网结点的最短路径。随后依次连接网结点形成基于路径缓冲的面数据。最后通过缓冲面数据提取热点道路。依据不同φ值重复以上方法两次,得到共享单车用车热点一级、二级范围,如图8所示。

图8 西安城区用车热点路段提取

4 结论与讨论

非机动车道路设施规划的重点就是热点区域单车的停放与市民骑行的体验指数。本文利用大数据挖掘与利用、GIS分析方法提取了西安市用车热点路段并且基于时间比例尺,最终合成西安城区用车热点路段图[21]。工作日用车热点呈“三片一线”分布,以龙首原、大明宫西为直径的圆形片区,以电子正街、含光路南口连线的椭圆片区,以科技路以南3 km带状片区,以及劳动路沿线为西安市工作日共享单车骑行热点地段。热点区域包含一、二级范围,一级范围主要针对共享单车停放容量进行控制,二级范围旨在区域内划分非机动车道,规范非机动车道路设施、标识,整治骑行交通规范。

当然,共享单车位置数据质量受数据抓取算法、数据清洗制约,研究维度受时间、统计算法制约,因此要想得到更为精准的用车热点,必须提高数据质量、扩展样本周期、完善算法分析,以保证分析结果的可靠性。

猜你喜欢
用车热点单车
热点
共享单车为什么在国外火不起来
飞吧,单车
热点
2019年全国两会用车“全面体检”
结合热点做演讲
对恶意破坏共享单车行为要“零容忍”
共享单车(外四首)
寻衅滋事大众T6对决奔驰V级
天天用车翟光龙:王兴教我的那些事