唐艳丽,蒋 超,郑伯红,李茜铭
(1.中南大学a.土木工程学院,b.建筑与艺术学院,长沙410075;2.岳阳市规划局,湖南岳阳414000)
目前,城市交通的主要解决方案是大力发展多层次多模式的公共交通,加大常规公交线网和轨道线网密度.以岳阳市(岳阳楼区、君山区和云溪区范围)为例,根据2017年开展的岳阳市综合交通规划调查获得的数据,2017年上半年岳阳市拥有48条公交线路,300 m站点覆盖率为49%,低于国家要求的50%;500 m站点覆盖率为91%,满足国家要求的90%.总体而言,岳阳市公交线网分布疏密不均,核心区外围城乡结合部存在较多公交覆盖盲区.因此,作为公交的补充,出租车在居民的常规出行中扮演着重要角色.
随着城市建设的发展和大数据技术的进步,在北京、上海、深圳、杭州等城市已经建立了出租车浮动车系统[1],即在出租车上安装GPS设备,定时将出租车所处位置、是否载客等实时信息传输至数据库中.与城市公交车有固定的服务时间窗不同,出租车车辆基本全天候作业,可以提供详细的实时交通路况及居民的出行规律.
已有根据出租车轨迹数据对载客出行特征进行的研究集中在分析其日均载客时间、载客里程等指标[2];载客出行的时长分布、距离分布、速度分布特性[3];出租车载客运营的空间分布特性,并在空间分布特性的基础上进行聚类分析,寻找片区之间的关联性[3-4];出租车载客运营的时间分布特性[5],并依据多个月份的数据,对比不同月份之间出租车载客出行量的异同[6];此外,在GPS轨迹大数据处理方法上,利用流行的大数据分析平台spark,提出分布式轨迹聚类算法和分布式轨迹模式处理算法,提高出租车轨迹大数据的处理效率[7].
已有研究一般在出租车GPS轨迹数据的基础上,融合道路网络数据进行相关的分析,可以得出出租车上下客的热点分布等信息,但缺少对不同状态下出租车载客出行特征的深层次原因分析.通过融入居民出行调查、宏观交通模型等交通分区相关数据,可以分析出租车载客出行特征与分区用地布局、人口岗位等之间的关联.本文以岳阳市为例,在出租车GPS轨迹数据的基础上,融合了综合交通规划的居民出行调查数据和研究期间当地的天气数据,对出租车载客出行特征进行建模分析.
本文的数据来源包含3部分:第1部分为2017年5月岳阳市出租车运营的GPS数据(带有是否载客记录功能的约900辆),车辆约每15 s产生1条数据,每条数据的相关字段如表1所示;第2部分为2017年岳阳市综合交通规划的居民出行调查数据,以及建立的宏观交通模型数据,主要包括宏观交通模型中各个片区的常住人口、岗位数、片区面积等;第3部分为2017年5月岳阳市天气状况数据,为了简化分析,将每天的天气根据是否下雨分为“晴”、“雨”2类.
根据是否载客将出租车运营状态分为2类,本文针对其载客出行状态进行研究.由于数据量较大,常规计算机无法直接处理,因此本文在spark平台下进行出租车载客出行OD的抽取.抽取过程如下:
Step 1将全部出租车运营轨迹数据读入spark,形成1个RDD.
Step 2以车牌号为key,其余字段为value,执行groupByKey,将同一key的数据整合到一起.
Step 3将每一个key对应的数据集按照日期时间升序排列,排序后的数据根据status取值对时间相邻的2条记录做合并处理,即如果相邻2条记录的status取值相同(同为1或者同为0),则合并这2条记录,新增状态开始和结束时间,以及对应的开始地点经纬度和结束地点经纬度,用来记录每辆车每次载客开始时间地点和结束时间地点,以及空驶的开始和结束时间地点.
Step 4对合并后的数据集依据status取值过滤,将status值为1即载客的记录过滤出来,过滤出的数据集即为2017年5月岳阳市出租车载客出行OD.
表1 出租车运营GPS数据字段描述Table 1 Fields description of taxi GPS data
出租车载客出行OD数据集包含表2所示字段.
表2 出租车载客出行OD数据字段描述Table 2 Fields description of passengers on board taxi OD data
在获得出租车载客出行OD后,首先基于日期将天气数据融入;再依据出租车载客出行的出发和到达经纬度,将交通分区数据(含分区面积、人口、岗位分布等信息)融入.融合过程如下:
(1)天气数据融入.
Step 1将天气简化为“晴”、“雨”2类,“晴”记为 1,“雨”记为 0.以日期和“晴”、“雨”构造天气字典,例如{20170501:1}表示2017年5月1日当天为晴天.
Step 2通过Spark读取1.2节中获得的出租车载客出行OD数据集,针对每条OD数据的出发日期,从天气字典中获取当天的天气状况代码,在原有数据集中新增字段“天气状况”,将天气状况代码写入该字段.
(2)交通分区数据融入.
Step 3将交通分区shapefile文件读入Spark集群,针对每条OD数据,通过GIS空间分析模型,分析出发、到达地对应的交通分区,并将相应的面积、人口岗位数等信息写入OD数据集.
融合后的数据集在表2基础上,新增字段描述如表3所示.
为了研究载客出行总量随时间的分布情况,将时间做离散化处理,即将1天24 h平均划分为48个时段(每个时段30 min),记为i,i∈{0,1,2,…,46,47},针对每次载客出行,以出发时间为基准标记每次出行所处的时段;根据是否工作日和当天天气(晴、雨)将数据集分为4种类型,记为α,α∈{工作日晴天,工作日雨天,周末晴天,周末雨天}.则每种类型的日期在1天不同时段的出租车载客出行量为
表3 数据融合后新增字段描述Table 3 Newly increased fields description of passengers on board taxi OD data
当天载客出行总量为
分时段比例为
图1为4类日期下分时段平均载客出行量占当天总出行量的比例.
图1 载客出行量比例时间分布Fig.1 Temporal distribution of passengers on board trip times
从图1中可以看出,工作日晴天和雨天在7:30-09:30和19:30-21:00的差异较大,其他时段出行比例基本一致.工作日7:30-9:30为出行高峰期,工作日雨天该时段的出租车载客出行量与平峰相近,可能存在因下雨部分弹性出行降低或者采用其他交通工具出行;而工作日雨天的19:30-21:00时段的载客出行量比例则高于工作日晴天同时段的载客出行量比例.周末晴天载客出行量比例的峰值出现在13:30-14:30和19:00-21:00;相比之下,周末雨天在9:00-9:30会出现一个峰值.
通过对每次出租车载客出行时长的分析可知,出行时长在3~50 min的出行量占99.5%以上,因此主要针对该出行时长范围进行分析.
图2为载客出行时长的分布情况.4类日期的载客出行量占比随出行时长的分布基本相同,因此本文仅针对“工作日晴天”这类日期分析.从图2可以发现,载客出行时长6 min及以上的载客出行量占比曲线与幂函数曲线相似,因此采用幂函数进行拟合分析.设幂函数为P(t)=αtβ,拟合得出α=364.19,β=-1.86,其中t≥6,相应的拟合优度R2=0.94.而载客出行时长3、4、5 min的载客出行量占比分别为4.28%,10.90%和11.06%.
图2 载客出行时长分布Fig.2 Travel time distribution of passengers on board
结合2017年岳阳市综合交通规划的宏观交通模型,以工作日晴天为例,得出岳阳市岳阳楼区、君山区和云溪区3个行政区的出租车载客发生、吸引的空间分布.图3为出租车载客出行的空间分布,可以发现,大部分出行发生和吸引点位集中在图4所示的铁西片区、南湖片区和八字门片区.
图3 出租车载客出行空间分布Fig.3 Spatial distribution of passengers on board trips
图4 出租车载客出行高密度区域Fig.4 High density districts of passengers on board trips
图5为各片区出租车载客出行发生吸引量分布,可以发现,铁西片区、南湖片区和八字门片区的出租车载客出行量占了全市的约80%.其中,南湖片区的出租车载客发生量占全市的60%以上,吸引量也超过了55%.南湖片区是岳阳市区的核心区,集中了大量出租车出行需求.
图5 各片区出租车载客出行量分布Fig.5 Passengers on board trips ratio of different districts
为了进一步探究区域常住人口数、岗位数、区域面积、工作日与周末、天气、每天各个时段等因素对出租车载客出行量的影响,本节分别用多元线性回归模型和RBF神经网络模型进行回归分析.自变量包括片区常住人口数(X1)、片区岗位数(X2)、片区面积(X3)、是否工作日(X4)、是否晴天(X5)及时段(X6),因变量为片区分时段出租车载客出行量(Y).
由于变量之间量纲不同且取值差异较大,因此在进行回归分析前,先对变量做min-max标准化处理,即对每个变量按式(4)处理.
式中:x*为x标准化之后的值;min(X)为向量X中的最小值;max(X)为向量X中的最大值.
完成数据标准化之后,即可进行多元线形回归分析和RBF神经网络回归分析.
取置信度为95%,对Y与X1~X6做多元线性回归分析.自变量回归系数和对应的P值结果如表4所示.
表4 多元线性回归结果Table 4 Results of multiple linear regression
从表4可以发现,在置信度为95%的条件下,常住人口数与是否工作日2个变量的P值远大于0.05,因此应剔除这2个变量.得到的R2=0.68,表明因变量与其余4个自变量之间有较强的相关性.从而可以得出Y与Xi的关系为
将标准化之后的全部6个自变量Xi作为输入,因变量Y作为输出,使用Matlab自带的RBF神经网络工具箱进行回归分析.为了验证模型有效性及防止过拟合,将归一化后的数据集随机等分为10份,进行10折交叉验证,每次以其余9份数据作为RBF神经网络的训练集,剩下的1份作为测试集,计算测试集的拟合优度R2,结果如图6所示.
每次的拟合优度R2落在0.64~0.81间,平均值为0.72,总体可以认为RBF神经网络模型对于全部6个自变量整体回归效果较好.
根据3.2节多元线性回归分析的结果,剔除常住人口数与是否工作日2个变量,仅考虑4个自变量,同样采用RBF神经网络进行回归分析并做10折交叉验证,结果如图7所示.
每次的拟合优度R2落在0.69~0.88之间,平均值为0.78,比用全部6个自变量拟合效果更优.同时,与多元线性回归模型相比,RBF神经网络回归模型拟合效果更好,且模型稳定.
图6 6个自变量RBF神经网络回归10折交叉验证拟合优度Fig.6 R2of 10-fold cross-validation on 6 independent variables RBF neural network regression
图7 4个自变量RBF神经网络回归10折交叉验证拟合优度Fig.7 R2of 10-fold cross-validation on 4 independent variables RBF neural network regression
通过多元线性回归模型分析,岳阳市各个片区出租车载客出行量与片区岗位数、片区面积、天气状况及出行时段有较强的线性相关性.而从RBF神经网络回归分析可知,片区常住人口数与是否工作日2个变量也在一定程度上对片区出租车载客出行量产生影响.
本文基于出租车GPS轨迹大数据、居民出行调查数据、城市人口土地利用数据及天气数据,首先对城市出租车载客出行进行了时空分布研究,得出对于岳阳市而言,大部分的出租车出行都是集中在城市核心区的结论.在此基础上,分别建立多元线性回归模型与RBF神经网络回归模型对出租车载客出行量与片区常住人口数、岗位数、片区面积、是否工作日、是否晴天、时段之间的关系进行分析,得出岗位数、片区面积、是否晴天和时段与出租车载客出行量之间具有较强的线性相关性.而RBF神经网络通过大量数据的学习,拟合的效果比多元线性模型更好.通过10折交叉验证,表明该模型具有较强的可靠性.
本文的不足之处在于1个月中周末数据的样本量较小,存在一定的偶然性,可能会对结果产生误差,后续研究可以增加数据量进一步分析.此外,在数据资源充足的情况下,可进一步探索与岳阳城市定位相似的其他城市出租车载客出行特征,寻找其中的异同点;同时,可将以岳阳市为代表的一类城市与国内大都市(北京、上海等)的出租车载客出行特征进行对比,作为该类城市交通发展的参考依据.
参考文献:
[1]周洋.基于出租车数据的城市居民活动空间与网络时空特性研究[D].武汉:武汉大学,2016.[ZHOU Y.Study on human activity space patterns and network spatial temporal characteristics in urban cities using taxi trajectory data[D].Wuhan:Wuhan University,2016.]
[2]吕振华,吴健平,姚申君,等.基于FCD的出租车运营特征分析:以上海市为例[J].华东师范大学学报(自然科学版),2017(3):133-144.[LV Z H,WU J P,YAO S J,et al.FCD-based analysis of taxi operation characteristics:A case of Shanghai[J].Journal of East China Normal University(Natural Science Edition),2017(3):133-144.]
[3]TANG J J,LIU F,WANG Y H,et al.Uncovering urban human mobility from large scale taxi GPS data[J].Physica A,2015(438):140-153.
[4]TU J F,DUAN Y C.Detecting congestion and detour of taxi trip via GPS data[C].IEEE Second International Conference on Data Science in Cyberspace,2017.
[5]PHIBOONBANAKIT T,HORANONT T.How does taxi driver behavior impact their profit?Discerning the real driving from large scale GPS traces[C].Ubicomp/ISWC’16 Adjunct,Heidelberg,Germany,2016.
[6]FANHAS R,SAPTAWATI G.Discovering frequent origin-destination flow from taxi GPS data[C].IEEE International Conference on Data & Software Engineering,2016.
[7]LIU J,YU X,XU Z,et al.A cloud-based taxi trace mining framework for smart city[J].Software:Practice and Experience,2017(47):1081-1094.
[8]YAO Z G,GENG S G,WANG B Q.Comparison of operational models in taxi industry based on performance assessment[J].Journal of Transportation Systems Engineering and Information Technology,2017,17(3):1-6.