基于非负矩阵分解的出租车时空行为聚类分析

2021-05-20 01:22邓育新
关键词:时段出租车时空

李 军,邓育新

(中山大学 智能工程学院,广东 广州 510006)

0 引 言

出租车是人们出行的重要交通方式之一,它能提供快捷、舒适、便利和灵活的运输服务。据统计,在广州、上海等大城市中,出租车日均客运量约占市内公共交通客运的9%。为了满足人们日常出行需求,出租车在城市道路中进行巡游并载客,在长期的运营过程中积累了大量的经验,结合经验和实际情况采取不同的服务策略,如早晚高峰选择在城郊区巡游,选择合适的载客路线以避开拥堵路段等[1-2]。尽管在相同的道路网中巡游,但是对路网的认知程度以及选择的服务策略有所不同,使得司机间的收入存在差异[3-5]。为了方便管理,出租车装载了GPS设备,能实时获取出租车的位置以及状态,由此产生了大量的出行轨迹数据。GPS轨迹数据隐含着出租车的行为特征,如时空选择行为,载客路线选择行为等,这也使得通过大量GPS数据挖掘出租车的时空行为模式成为可能[6-7]。研究出租车的时空行为有助于理解出租车行为与城市空间结构、城市出行活动的联系,对出租车以及城市的管理和发展具有参考意义。

近年来,学者们基于出租车GPS数据对城市人群的出行模式进行了研究,并涌现出大量的研究成果,相关研究可分为出行需求和出行供给两部分。

在出行需求方面,出行OD的时空模式是研究热点之一[8-10]。学者采用非负矩阵分解法研究居民出行模式,根据时空差异性将出行需求划分为家与工作地、工作地间和其它出行3类,区域间的OD流可视为3类基本出行流的线性组合[11]。在此基础上,有学者比较了出租车和顺风车,发现后者主要服务于家与工作地间的出行需求[12]。在这样的出行需求模式下,出租车在道路网中巡游,为居民提供出行服务,在服务过程中积累经验并逐渐形成特定的行为习惯。因此,出租车可能也存在特定的供给模式,即时空行为模式。

在出行供给方面,学者们从多个角度对出租车的供给行为进行了研究,包括路径选择行为、运营区域选择行为,并提出了热点区域、载客路径、寻客路径等多种推荐算法[13-14]。为了了解出租车的供给行为及司机收入情况,有学者根据收入对司机分类,并分析了不同收入司机的上下客点的时空分布特征[15-16]。ZHANG Sihai等[3]则引入熵的概念,计算出租车的上、下客网格的多样性,发现高收入司机的上下客区域比较集中,并由此推断高收入司机可能存在拒载行为。但是,以上研究都只对早晚高峰等特殊时段进行了定性描述,未能分析出租车在全时段多区域之间的行为差异。KANG Chaogui等[17]将武汉市划分成多个交通小区,采用非负矩阵分解算法研究了城市出租车的供需关系,但是忽略了出租车在不同时段的行为差异。

因此,笔者基于出租车的GPS数据,考虑了出租车在时间维度上的行为差异,同时从时间和空间两个维度对出租车行为进行研究。首先基于GPS数据进行出租车时空行为矩阵构建,然后采用非负矩阵分解进行时空行为聚类,最后以广州市为例,探讨广州市出租车的时空行为特征。

1 研究方法

出租车运营是一个循环往复的过程,一个运营周期可以划分为寻客、上客、载客和下客4个部分。在寻客过程,出租车根据当前位置和时间,结合经验选择合适的寻客策略,如在候车点等待乘客或在熟悉的路段上巡游。寻客策略的选择一定程度决定或直接影响上客点的时刻和位置,上客点的时空分布可认为是出租车司机主观选择行为的结果,即其包含了司机运营行为模式的信息。在载客过程,不管出租车采取哪条路径,最终目的都是将乘客送至目的地,下客点的分布是由出行需求本身决定的。因此,笔者考虑到出租车行为在时间和空间维度的差异性,将时间和空间划分成多个时空单元,基于出租车的GPS数据以上客点的时空分布特征表征出租车时空行为,构建时空行为矩阵,最后采用非负矩阵分解法进行聚类。

1.1 时空单元划分

为了研究出租车的时空行为,第一步是对时空单元进行划分。在空间上,按照一定的空间划分方式将研究范围划分成i个空间单元,常用的划分方法包括行政区、交通小区、网格等。在时间上,按照一定的时间间隔将研究时间段划分为j个时间单元,经过划分共可得到N=i×j个时空单元。

1.2 上客点提取

出租车GPS数据记录了车辆的ID、当前时刻、经纬度和状态等信息,根据状态变化可识别并提取出每次载客的上客点和下客点。如图1,状态4为空载,状态5为重载,当状态从空载变为重载时则为上客点(点A),相反则为下客点(点B),将上下客点及其之间的一系列GPS点顺序连接可得到载客轨迹。根据上客点的时刻和位置,将其分配至划分好的时空单元。

图1 提取上客点

1.3 时空行为矩阵构建及聚类

统计每辆出租车在已划分好的N个时空单元的上客点数量,当有M辆出租车时,则可构建出一个M×N的出租车时空行为矩阵V,然后采用非负矩阵分解法(nonnegative matrix factorization,NMF)对矩阵V进行分解。构建的时空行为矩阵中的元素均为非负,满足算法约束条件,算法对该问题也具有较强适用性。另一方面,NMF能有效实现模式识别并且对其聚类,可解释性强,现已被广泛应用于生物医学工程、计算机视觉等领域,在交通领域已被应用到路网状态、出行量时空分布模式的识别及聚类中[18-19]。

如图2,给定矩阵V和一个参数K,NMF算法将高维的出租车时空行为矩阵分解成一个系数矩阵W和一个基矩阵H。在基矩阵中,hkn为第k类行为在第n个时空单元的上客点数量。在系数矩阵中,wmk为第m辆出租车中第k类行为的权重系数,则上客点时空分布可视为出租车多种行为线性加权的结果。同时,该算法可根据权重系数进行聚类,当第k类行为的权重系数最大时,则认为该辆出租车属于第k类,因此K也是聚类个数。

图2 出租车时空行为矩阵分解

在算法中,最关键的参数是矩阵分解的秩K,常用度量标准包括同表象相关系数[20]、残差平方和等[21]。笔者采用同表象相关系数c作为度量标准,用于评价聚类结果。当该系数明显下降的最小K值即为最优值,计算公式为:

(1)

式中:dij为样本i和j的欧式距离;tij为层次聚类树中样本i和样本j的同表象距离;d和t为两种距离的平均值。

2 案例分析

2.1 数据集

本研究的对象区域为广州市的5个行政区,包括海珠区、荔湾区、越秀区、天河区和白云区南侧,共有3 123条路段,研究范围和道路路网如图3。本研究采用广州市13 754辆出租车的GPS记录作为数据源进行研究,时间范围为2014年2月24日至3月21日的每天7点至24点,约4.5亿条数据。在时空单元划分中,笔者以现有的行政区域边界将研究范围划分成5个空间单元,以1小时的时间间隔将研究时间段划分成17个时间单元,则共有85个时空单元。经过数据预处理、上客点提取和时空单元匹配得到上客点对应的时空单元编号,统计一个月内13 754辆出租车在85个时空单元的上客点数量,可构建出一个13 754×85维的矩阵V,并采用NMF算法进行分解。

图3 研究范围

2.2 参数K的确定

如图4,在K=2,3,4时,同表象相关系数均为1.0,表明在多次运行算法后,样本聚类的结果一致。当K=5时,同表象相关系数开始明显下降,即样本在多次聚类过程中,出现聚类结果不一致。因此,在本研究中选择K=4作为非负矩阵分解的秩,对出租车时空行为矩阵V进行分解。

图4 参数K的确定

2.3 时空行为矩阵分解

2.3.1 基矩阵H

经过非负矩阵分解后,可得到4×85维的基矩阵H,每一行代表一种时空行为(B1、B2、B3、B4)。为了方便比较,将其重新整合成4个5×17维的时空矩阵。总体上看,每种行为在空间上都表现为有一个主运营区域,在时间上则表现为一变一不变。变化的是主运营区域的上客量随着时间推移表现为先减少,再增大,后减少的趋势,在中午、下午及晚间时段出现明显转折,但主运营区域不会改变。

如图5,B1的主运营区为天河区,而在荔湾区和白云区的上客量较少。由于出行活动本身存在距离衰减特性,加之出租车司机会在熟悉及有限范围内巡游,因此其它区域的上客量与它们和主运营区域的距离呈现出负相关性。在时间上,该行为模式在7点至8点以及17点至18点在主运营区的上客量出现高峰,分别为换班后和换班前的时段,出租车司机会围绕换班地点及居住地进行运营,且出行量较大。在11点至13点以及18点至19点出现低峰,分别为吃饭和换班时间段,出租车司机服务时间较短,且出行量相对较小。与B1不同,B2的主运营区为越秀区,且其它区域上客量占有一定的比例,主要是越秀区是广州市的中心区域,与其它4个区域均相邻。在时间上,高峰延后至9点至10点,且下午时段的主运营区上客量不断减少。B3的主运营区为海珠区,时间上与B1相似。B4的主运营区为白云区,时间上与其他行为有较大不同,10点至12点主运营区和次运营区的上客量差别较小。

图5 4种时空行为

2.3.2 系数矩阵W

W是一个13 754×4维的系数矩阵,矩阵中的元素为每辆出租车每种时空行为(B1、B2、B3、B4)的权重系数,由权重系数最大值将出租车分为4类(C1、C2、C3、C4),结果如表1。4类出租车主要时空行为模式的权重系数为0.60~0.68,次要的为0.15~0.24,第1、3、4类出租车的次要时空行为均为B2,第2类出租车中B3和B4的权重系数基本相同。在数量上,第1类出租车最多,占了30.13%,第3类最少,占16.58%。

表1 出租车聚类

由基矩阵和系数矩阵可知,出租车司机形成了特定的时空行为模式,即一般围绕主运营区域进行载客,且不随时间的变化而变化,同时会在不同时间段服务其它相邻区域的出行。

2.4 时空行为分析

为了进一步理解每类出租车的时空行为,采用核密度分析法研究各类出租车的上客点的时空分布特征及挖掘热点上客区域。

如图6,第1类主要服务天河区的出行,热点区域为天河中央商务区、广州东站等。其中,天河中央商务区是经济、金融和商务等高端产业的集聚区,承担了商务、商业和居住等多种功能。第2类服务越秀区及荔湾区的出行,热点区域是北京路、淘金地铁和广州火车站等。北京路是一条集文化、娱乐、商业于一体的街道,是最繁华的商业集散地,淘金地铁站附近有花园酒店和白云宾馆两家大型酒店,广州火车站临近省、市客运站、流花车站等多个交通枢纽,且有诸多服装批发市场。第3类主要服务海珠区及越秀区的出行,海珠区的热点区域为客村及昌岗,均为大型商业楼群的聚集地。第4类的热点服务区域为三元里、新市墟等,三元里是国内中非国际贸易最为发达的地区,新市墟是一个吸引巨大人流、车流的商业商圈。强烈的商务商业活动使得这些区域都聚集了大量人流,并且产生了大量的出行需求。因此,在空间上,出租车表现出有明显的主运营区域,且是围绕区域商业活动中心集中运营的空间分布模式。城市中心区的出行由4类出租车共同服务,其它4个区域的出行主要由各类出租车服务。这也反映了出租车的空间行为模式与出行活动、城市空间特征存在紧密的相互关联性。

图6 4类出租车的热点服务区域

如图7,在时间上,出租车运营范围大小及聚集程度会随各时段的出行活动差异而有明显不同。以第1类出租车为例,在早晚高峰时段,该类出租车集中在天河区外围进行巡游载客,在中午及晚间时段则集中在天河中央商务区。出租车在早高峰前完成换班,且换班地点会靠近居住地,因此早高峰时段出租车司机会集中在城市外围进行巡游,且该时段出行以通勤类出行及商务办公类出行为主,出行方向多为从城市外围至中心,运营范围也相对集中在主运营区域。在晚高峰时段,出租车司机为了方便换班以及吃饭,会选择在换班地点或吃饭地点的一定范围内运营,运营范围相对较小,并且可能因此出现拒载行为。在中午时段,出行多为偶发性出行,出行量相对较少且比较分散,出租车为了减少空载率,会扩大运营范围,而且广州东站和广州火车站两个重要交通枢纽也成为了出租车运营的热门选择。在晚间时段,部分地铁线路停运,公交班次减少,出租车的快捷灵活优势逐渐凸显,且该时段出行主要是由于加班、休闲娱乐等活动的返家出行,出行量较大且集中在商业办公区,出租车则会围绕这些活动中心运营。这也表明出租车在时间上的行为模式与城市出行活动是相适应的,他们能自适应调整运营范围以满足不同时段的出行活动需求。

图7 C1的上客点时空分布

总体上看,出租车聚类结果主要体现空间维度上的差异,这与广州市的空间结构特征是相关的。珠江、白云山等自然障碍物将广州市分割成了多个行政区,区域内又建成了各自商业活动中心或是交通枢纽,并形成了出行活动中心,从而将出租车划分成明显不同的4类空间运营行为。虽然时间维度对聚类结果影响小,但出租车不同时段的行为也是有明显差异的,他们能根据时间自适应调整空间运营行为,从而满足不同时段不同区域的出行需求。

3 结 语

基于出租车GPS数据和非负矩阵分解法对出租车的时空行为进行了聚类分析。研究发现:出租车形成了特定的时空行为模式,并形成多个服务群体,以服务于人们在不同区域不同时段的出行需求。在空间上表现为有主运营区域,且呈现出明显的围绕区域商业活动中心集中运营的空间行为模式,在时间上表现为调整运营范围以适应不同时段出行活动的行为模式。笔者有效识别了出租车的时空行为模式,研究了其与城市空间结构、城市出行活动的关系,它能为出租车运营管理以及城市管理发展提供一定的参考作用。在未来的工作中,将考虑结合人们的出行需求模式和出租车的时空行为模式研究出租车市场的供需关系,并研究出租车时空行为与收入的关系。

猜你喜欢
时段出租车时空
跨越时空的相遇
镜中的时空穿梭
乘坐出租车
养阳的黄金时段到了
四个养生黄金时段,你抓住了吗
玩一次时空大“穿越”
凭什么
时空之门
开往春天的深夜出租车
李书福炮轰出租车