结合轨迹数据的居民出行模式及功能识别研究

2022-04-02 10:58温振威彭定永
北京测绘 2022年3期
关键词:张量时段轨迹

温振威 彭定永

(江西理工大学 土木与测绘工程学院, 江西 赣州 341000)

0 引言

从轨迹数据中识别居民出行模式并挖掘其他隐含信息是研究居民出行特征的重要途径。目前,已有众多学者利用轨迹数据进行居民出行模式识别及区域功能特征识别等相关研究,在出行模式识别方面,Liu Y[1]为模拟城市内人流特性,结合了出租车轨迹数据,并整合研究区域内的地理异质性和距离衰减效应,从而构建出蒙特卡洛模模型并挖掘出不同的居民出行行为模式。陈世莉等人[2]以广州市出租车全球导航卫星系统(global navigation satellite system,GNSS)数据作为主要数据源,以城市兴趣点(point of interest,POI)数据作为辅助数据,并结合时空计算方法使用多种模型对居民的出行数据进行聚类分析,得到城市功能的优势聚集区域的分布。在城市功能识别方面,韩昊英等人[3]为识别出北京市的不同功能类型的城市功能区域分布,将POI数据并与城市公交数据相结合进行分析。袁晶等[4]结合POI数据和人口流动数据两种数据类型,分析出北京市的功能区分布。通过轨迹数据识别城市居民出行模式特征及出行区域功能特征,是优化城市空间结构的重要途径,轨迹数据挖掘也因此成为地理信息系统(geographic information system,GIS)等相关学科的新兴研究热点[5]。本文将以海口市中心城区“滴滴出行”平台打车订单数据作为居民出行轨迹数据源,基于张量分解模型识别出城市居民的日常出行模式,并结合POI数据,分析不同区域模式的功能特性,从而为城市规划,城市建设提供一定的参考依据。

1 研究区域概况与数据来源

1.1 研究区域概况

海口市中心城区内部有着较为复杂的城市空间结构以及较为丰富的人流活动,是海口市的核心地带,适合于居民出行模式及出行区域功能特征的相关研究,因此,本文以海口市中心城区为研究区域,结合居民出行轨迹数据,从时间和空间两个维度挖掘居民的出行规律并进行出行区域功能特征识别。

1.2 数据来源及预处理

1.2.1 轨迹数据

本文从“盖亚”数据开放计划(https://gaia.didichuxing.com)申请下载了海口市2017年6月1日—6月30日的居民打车订单数据作为本文的居民出行轨迹数据来源,并进行数据清洗、坐标匹配以及分时段提取OD点[6]等预处理工作。

主要预处理工作包括数据清洗:由于获取的原始轨迹数据覆盖整个海口市的打车记录,而本文的研究区域为海口市中心城区范围,所以需将研究区域外的数据剔除,同时出行订单数据出现关键字段错误、缺失、重复等异常的轨迹记录,也予以剔除;坐标匹配:由于原始轨迹数据的经纬度等位置信息采用GCJ-02坐标系,被加密处理过,为了后续实验的准确分析,利用Python编写坐标转换程序将坐标全部统一为GCS_WGS_1984坐标系;分时段OD点提取:本文按日模式的不同分别对轨迹数据进行提取,得到工作日轨迹数据集和休息日轨迹数据集,再以小时为单位对轨迹数据进行提取,将轨迹数据划分为24个时段,得到工作日和休息日的不同时段的居民出行轨迹数据集,便于后续居民出行特征的分析研究。

1.2.2 路网数据

城市活动人群的出行一般以道路为参照物,同时,人们生产生活的各项城市设施也大都分布在道路两侧。因此,结合形态学理论,基于路网的区域划分,相较于网格划分具有更好的实用性和合理性。路网数据从免费的全球地图数据库(open street map,OSM)网站获得,并对路网数据进行路段清理、路段连接合并以及基于路网剖分研究区域等预处理工作。即是将城市内部主要道路如主干路、次干路以及高速路等,同时利用拓扑工具进行拓扑处理后,将重叠路段合并,将断头线结合电子地图进行取舍连接。最终,利用路网剖分研究区域,将城市内部区域划分为独立的2 023个子区域,

1.2.3 POI数据

本文所用POI数据来源于高德地图开发平台,包括餐饮服务、购物服务、生活服务、体育休闲等类别,共计133 495条记录,为保证研究结果准确可靠,对原始POI数据进行了数据清洗、坐标匹配以及POI重分类[7]等预处理工作。主要预处理步骤如下:

(1)数据清洗。将不再研究区域范围内的POI数据进行剔除;存在数据缺失、重复,异常的POI数据剔除;无法代表城市功能特征的POI数据如公测、快递点等也需进行剔除。

(2)坐标匹配。由于获取的原始POI数据的坐标系进行了加密处理,坐标系为GCJ-02坐标系,为了保证POI数据与其他空间数据的准确叠加,需要对POI数据的坐标进行转换,本文运用GeoSharp1.0软件中的将GCJ-02坐标系转换为GCS_WGS_1984坐标系。并将POI数据投影坐标设为WGS 1984 UTM Zone 49N。

(3)POI重分类。高德POI数据有其所属类别,其中大类是按照其体现的城市服务功能、作用等划分,如餐饮购物、休闲娱乐等,小类主要体现在POI的名称等,如超市、体育馆等,根据研究目的与需求,按大类对POI数据进行类别划分,某些大类的POI数据对城市功能划分影响较小,故在本实验中剔除,例如交通附属设施等。所以本文最终使用的POI数据共计13个类别(包括餐饮服务、风景名胜、公司企业、体育休闲服务、住宿服务等)。

2 研究方法

2.1 基于张量分解模型的居民出行模式识别

张量作为一个数学概念,最早是G.Ricci在19世纪末提出的。张量分解能够有效地保留原始数据各个维度之间的结构信息,得到的低维度分解结果更能够反映出原始数据的真实信息[8]。常见的张量分解方法包含Tucker分解和CP分解。但相比CP分解,Tucker分解能分析不同维度之间的相互联系,且获得的模型误差较小。因此,仅考虑张量的Tucker分解。本研究中所使用的居民出行轨迹数据不存在负值现象,经Tucker分解后的结果过将会与实际情况不相符,可解释性较差,需加入非负约束条件,同时,为了剔除干扰信息,获取数据的主要特征,并减少分解结果的歧义性,应考虑将分解结果尽可能地稀疏。因此,本文利用稀疏非负约束下的Tucker分解(SN-TUCKER)模型[9]进行居民出行张量分解,挖掘居民出行模式潜在特征,分析不同维度间的隐含关系以及实现居民出行区域的功能特征动态识别[10]。结合居民出行轨迹数据的SN-TUCKER模型的构建流程如下:

(1)统计不同时段各个子区域内的OD点数量,构造居民出行起/终点张量[11]。

(2)对于起/终点张量,使用稀疏非负约束[12]下的TUCKER模型,确定合理的分解模数,得到张量分解结果。

(3)将张量分解结果落实到地理空间,分析不同维度下的居民出行模式特征,结合POI数据,实现居民出行区域模式的功能特征动态识别。

2.2 基于POI频数密度的出行区域模式功能特征识别

通过张量分解模型得出的时空模式可以探究居民出行区域模式,难以确切识别出行区域功能,为了对居民出行区域模式的功能特征进行识别,本文利用POI频数密度(frequency density,FD)即每种出行区域模式内每类POI的密度,见式(7),式中表示为D

(7)

式中,N表示每类POI 数量;S表示每种出行区域模式总面积。

由于不同POI类别存在数量级差异会影响频数密度,因而需对频数密度进行min-max标准化处理为

(8)

式中,i为区域模式类别编号(i=1,2,…N);j为POI类型编号(j=1,2,…13);D(i,j)表示标准化前的频数密度;Dnor(i,j)表示标准化后的频数密度;min(i,j)为频数密度最小值;max(i,j)为频数密度最大值。

3 结果分析

3.1 居民出行模式识别

3.1.1 时间维度

(1)日期维度。在日期维度有工作日和休息日2种模式,如图1所示。其中2017-06-03(周六)、2017-06-04(周日)、2017-06-10(周六)、2017-06-11(周日)、2017-06-17(周六)、2017-06-18(周日)、2017-06-24(周六)和2017-06-25(周日)是休息日。在图1(a)中,虚线在休息日的模式值接近0,在工作日的模式值是高值且基本处于平稳状态,表明虚线在工作日特征信息较明显;实线在休息日的模式值达到高峰,而在工作日模式值接近0,表明实线在休息日特征信息较明显,因此虚线是工作日模式,实线是休息日模式。同理,在图1(b)中,虚线是工作日模式,实线是休息日模式。

(a)起点张量日期维度出行模式

(b)终点张量日期维度出行模式图1 日期维度居民出行模式变化规律

(2)时段维度。在时段维度有早高峰、日间、晚高峰和夜间4种模式,如图2所示。图2(a)的菱形连接线与图2(b)的菱形连接线在时段07:00:00—08:00:00达到高峰期,因此图菱形连接线对应早高峰模式。图2(a)的三角连接线分别在时段10:00:00—12:00:00和时段16:00:00—17:00:00期间达到高峰期,图2(b)的三角连接线分别在时段10:00:00—11:00:00和时段16:00:00—17:00:00期间达到高峰期,图2(a)的三角连接线与图2(b)的三角连接线在时段13:00:00—14:00:00存在低谷现象,低谷现象是由于人们处于午休时段,出租车需求略微下降,因此,图2的三角连接线对应日间模式。图2(a)的方形连接线在20:00:00—22:00:00时达到高峰状态,图2(b)的方形连接线在19:00:00—21:00:00时达到高峰状态,因此,图6的方形连接线对应晚高峰时段。图2(a)的叉形连接线与图2(b)的叉形连接线在时段00:00:00附近达到高峰,因此,图2的叉形连接线为夜间模式。

(a)起点张量时段维度出行模式

(b)终点张量时段维度出行模式图2 时段维度居民出行模式变化规律

3.1.2 空间维度

在2 023个子区域中具有6种空间维度下的上/下车出行模式,如图3和图4所示,审图号为琼S(2019)060号。

(a)模式O1

(b)模式O2

(c)模式O3

(d)模式O4

(e)模式O5

(f)模式O6图3 起点张量空间维度出行模式

(a)模式D1

(b)模式D2

(c)模式D3

(d)模式D4

(e)模式D5

(f)模式D6图4 终点张量空间维度出行模式

3.1.3 空间功能特征识别

通过张量分解得到起点/终点核心张量,然后建立居民出行的时间模式和空间模式的对应关系,根据时空交互联系判断居民出行空间的功能特征。

(1)工作日早高峰模式:O2、O4与D1较活跃,在该时段,人们一般会从居住区前往工作区或交通区,但由于D1分布较稀疏且涵盖交通枢纽较多,故可初步推测O2、O4为居住区,D1为交通区。

(2)工作日日间模式:O3、D2与D3较活跃,O3、D2与D3分布广泛,白天人流大且活动范围广,推测O3、D2与D3为工作、餐饮购物、交通等多种功能混合区域。

(3)工作日晚高峰模式:O1与O5居民上车量多,D6居民下车量多,但O1更多地分布于区域边缘地带,推测O1为景区;O5在休息日晚高峰时段也较活跃,推测O5为娱乐区,D6空间分布较广,人们晚高峰时段通常是回家或者到达娱乐场所,推测D6为居住、娱乐等多种功能混合区域;O6、D5在工作日夜间模式的较活跃,娱乐场所通常是居民出行的热点区域,但O6空间分布较为稀疏,推测O6为景区,D5为娱乐区。

(4)休息日早高峰模式:O2、O4、D1与D4较活跃,休息日早晨人们活动起点通常是居住地,目的地为景区或者交通枢纽,推测O2与O4为居住区,D1与D4对应景区或者机场车站;休息日日间时段:O4、D2与D4较活跃,O4白天人流较大且活动范围较广,由上文可知O4为居住区,D2为混合区,D4为景区或交通枢纽;休息日晚高峰时段:O5与D6较活跃,上文可知O5为商圈或娱乐区,D6为居住、娱乐、餐饮购物、交通等多种功能混合区域;休息日夜间时段:O6与D5较活跃,上文可知O6为交通枢纽或景区,D5为居住区/娱乐区混合区域。

3.2 基于POI数据的出行空间功能识别

为了验证张量分解城市功能区域特征识别的合理性,基于POI数据的数量及语义特征进行区域功能识别,发现其识别结果与基于核心张量分析得到区域功能特征基本保持一致,表明通过出行行为特征进行空间功能识别具有可行性,同时,两种识别结果的结合分析也进一步提高了区域功能识别的准确性。如表1所示,O1,O6区域中风景名胜的Dnor最大,为观光游玩功能;而O2,O4区域中居住的Dnor最大,并且配备了一定数量的餐饮、购物、生活、医疗等基础服务,可见,O2,O4主要对应为居住功能;O3区域中,公司企业,金融保险等商业设施的Dnor较大,为商业功能,而O5区域中,餐饮服务,购物服务以及体育休闲等休闲娱乐设施的Dnor较大,因而,O5主要对应为休闲娱乐功能。同理分析,D1主要对应交通运输功能,D2、D3和D6主要对应商业功能,D4、D5主要对应休闲娱乐。(注: 类型1~15分别表示餐饮服务、购物服务、生活服务、体育休闲、医疗保健、住宿服务、风景名胜、居住、政府机构、科教文化、交通设施、金融保险、公司企业)。

表1 起点/终点张量出行模式所属区域的POI指数分布

4 结束语

本文在路网划分的研究尺度下,根据海口市居民出行轨迹数据,采用非负稀疏约束下的张量分解探究居民的时空出行规律。研究结果揭示了居民出行存在出行时间模式和出行空间模式,并且两者之间存在一定的交互联系,根据这种交互联系分析可以识别居民出行区域的功能特征,识别结果与POI的数量特征和语义属性识别区域功能结果基本保持一致,表明了居民出行行为识别空间功能特征具有可行性,两种识别结果的结合分析也提高了功能识别的准确性。可见,通过结合轨迹数据的居民出行模式与功能识别、不仅丰富了城市功能识别的研究,可以为城市研究者研究城市内部功能结构提供一定的科学参考价值,也为城市管理者为了解决城市问题做出的决策提供参考依据。但本文仍存在一些不足,所用轨迹数据无法反映所有人群的日常出行轨迹,今后将结合其他出行数据源,以期更深入地挖掘人们出行机制,更加准确全面地进行功能区识别。

猜你喜欢
张量时段轨迹
解析几何中的轨迹方程的常用求法
浅谈张量的通俗解释
大规模高阶张量与向量相乘的一种并行算法
基于张量分解的噪声抑制算法研究
关于一致超图直积的循环指数
轨迹
轨迹
第70届黄金时段艾美奖主要奖项提名
西藏文物 迎来大修时段