基于数据场的出租车轨迹热点区域探测方法

2016-06-05 14:57勍,秦昆,2*,陈祥,李
地理与地理信息科学 2016年6期
关键词:武汉市热点轨迹

周 勍,秦 昆,2*,陈 一 祥,李 志 鑫

(1.武汉大学遥感信息工程学院,湖北 武汉 430079;2.地球空间信息技术协同创新中心,湖北 武汉 430079;3.南京邮电大学地理与生物信息学院,江苏 南京 210023)

基于数据场的出租车轨迹热点区域探测方法

周 勍1,秦 昆1,2*,陈 一 祥3,李 志 鑫1

(1.武汉大学遥感信息工程学院,湖北 武汉 430079;2.地球空间信息技术协同创新中心,湖北 武汉 430079;3.南京邮电大学地理与生物信息学院,江苏 南京 210023)

利用空间聚集模式探测方法可以从出租车轨迹中挖掘城市热点区域,从而为城市规划和交通管理提供支持。数据场借鉴物理学中场的理论,通过定量化计算数据对象间的相互作用,可分析空间数据的聚集模式。针对轨迹数据的特点,该文提出了一种利用数据场势值阈值法探测轨迹点的聚集模式,从而提取城市热点区域的方法。该方法首先在轨迹空间上划分网格,将轨迹点映射在网格中,并利用数据场势函数计算各网格单元的势值,然后利用单一阈值或多阈值分割法提取城市热点区域。以武汉市的出租车轨迹为例进行实验,利用单峰直方图阈值法进行高势值区域筛选,得到轨迹聚集区域,从而提取城市热点区域。且通过武汉市节假日与非节假日多时段的提取结果的对比分析,得到城市热点区域的时空分布模式。进一步研究将该文方法扩展到时空聚集模式探测,以多角度分析城市热点的时空动态变化。

出租车轨迹;空间聚集模式;数据场;阈值法;城市热点探测

0 引言

不断积累的出租车轨迹构成了蕴含人们出行模式和城市热点等信息的地理时空大数据。通过对轨迹数据进行时空挖掘,可以分析居民出行的移动时空特征,同时识别热点路径和区域[1],从而为城市道路交通规划和公共出行服务等方面提供辅助支持。

城市热点是指城市中居民出入次数较多、交通流量较大的区域,是人们密集出行的体现[2,3]。利用空间聚集模式探测方法从轨迹数据中提取城市热点区域已成为研究热点。目前,进行热点探测的方法主要有以G统计量方法为代表的局部空间自相关统计量方法[2,3]和空间扫描统计法[4-6]。其中,局部空间自相关统计量能揭示空间单元与其相邻近的空间单元属性特征值之间的相似性或相关性,可用于识别不同空间位置上可能存在的不同空间聚集模式。空间扫描统计采用移动窗口法,在研究区域内建立活动圆形窗口对数据进行扫描统计,通过所有位置在所有大小窗口中的最大对数似然比值探测最有可能存在聚集性的区域。但上述方法操作不够灵活,对于数据量大的轨迹数据的计算效率不够高,且对数据分析结果的空间可视化辅助手段不够直观。

受物理学中万有引力的启发,类比质点之间相互吸引的理论,数据场理论在数据空间中构造一个球形对称的虚拟引力,位于其中的每个数据对象视为具有一定质量的粒子,且受到其他对象的联合作用[7]。数据场理论已逐渐应用于相关领域,如图像分割[8-10]、人脸识别[11]和土地定级[12,13]等。将数据场应用在轨迹数据提取热点的分析中,既可发现任意形状的聚集类簇,也可区分各聚集类簇所代表的热点区域的热度差别。赵鹏祥和秦昆等将数据场与决策图理论相结合,并基于出租车上下车点进行了城市热点区域识别[14,15]。但决策图理论方法将每个轨迹点视为计算对象,其计算效率对于数据量大的轨迹数据集较低。本文将数据场与阈值法和网格法相结合,提出了一种轨迹数据集聚区域探测方法。该方法在出租车轨迹中划分网格,并将轨迹点映射至各网格单元中。以网格单元为数据对象构造数据场空间,视网格单元为计算对象,以此降低计算成本,提高计算效率。再采用阈值分割法,对利用势函数计算后的网格势值进行筛选,提取出高势值网格所覆盖的区域,从而探测出武汉市的城市热点区域,并分析其时空分布特征。

1 基本原理与方法

李德毅于2002年将场的概念引入数据挖掘领域,提出了数据场理论,这是一种利用物质粒子间的相互作用及其场描述方法刻画抽象数域空间的理论[16]。类似物理场的矢量强度函数和标量势函数描述,数据场理论引入势函数形式化描述数据间多对一的作用关系。物理场中的等势线或等势面也被引入数据场势值的可视化中,即通过对势值结果构造势表面以描述数据的分布[17]。

1.1 数据场主要理论

(1)数据对象辐射邻域。对于数据对象p∈D的辐射邻域NR(Pi)定义为以p为核心、R为辐射半径的球体区域,如式(1)所示:

NR(p) = {p∈D|dist(p,q)≤R}

(1)

式中:D为数据集;dist(p,q)表示D中点p和q之间的距离。其中辐射半径R定义为:

(2)

(2)势函数。数据场中各对象间的影响关系可由势函数得到的势值来量化。给定空间Ω,势函数需要满足以下条件[8]:1)φ(x)是其定义域空间上的连续、光滑的有限函数,这个条件主要使得势函数连续可导;2)φ(x)具有各同向性;3)φ(x)是对象O到场点x的距离的单值递减函数,距离为0时,φ(x)达到最大值,距离趋于无穷大时,φ(x)→0。

数据场将势值计算定义如下:已知空间Ω中任意一个数据对象y,其邻域内包含n个数据对象X={x1,x2,…,xn},任一数据对象x对数据点y的辐射影响如式(3)所示;数据对象y的势值即y受到邻域内所有数据对象的影响总和,如式(4)所示。

(3)

(4)

式中:m表示数据对象x的质量,本文轨迹点的质量视为1,网格单元质量视为网格内所含轨迹点的质量总和;‖x-y‖表示点x与y之间的距离;影响因子σ∈(0,+∞),其含义与最优解中的σ一致;k∈N,为距离指数,本文中k值选为2。

(3)势熵法确定最优σ。对于σ因子的确定,李德毅等[16]提出了一种利用势熵来确定最优解的方法,通过计算势熵来衡量势场分布的合理性,最终选取势熵最小的σ作为最优的影响因子。势熵H的计算如式(5)所示:

(5)

1.2 轨迹点聚集模式探测方法

出租车轨迹数据中涵盖着乘客的出行目的和移动模式。若某区域聚集的轨迹点越多,说明该区域对乘客的“吸引力”越大,且其相邻一定范围内的区域也会聚集着较多的乘客。这种区域对轨迹点的影响以及区域之间相互影响的现象符合数据场中数据质点相互“吸引”的假设理论,因此可用数据场中的势函数来量化这种影响。若某区域具有较高势值,便表明该区域聚集了较多的轨迹点,则可视为城市热点区域。

因此,本文利用网格划分法将轨迹数据进行区域单元划分,然后基于数据场理论,提出了一种探测轨迹点聚集区域的方法。该方法定义了一个由n个轨迹点对象构成的轨迹数据空间P={p1,p2,…,pn},一个由l个类组成的类簇C=(c1,c2,…,cl)。

算法的具体描述如下:

输入:数据集P={p1,p2,…,pn}。

输出:热点区域集合c1和非热点区域集合c2,以及热点区域个数NumHotspots和非热点区域个数NumNonhot。

步骤1:划分网格。以500 m×500 m为单元间隔,在轨迹数据空间上得到由s个网格单元构成的空间网格集合N=(N1,N2,…,Ns)。

步骤2:计算网格质量和质心。网格的质量可表明网格所在的区域单元对轨迹点的吸引力。假设落在网格单元Ni内的k个轨迹点集合为PNi={PNi1,PNi2,…,PNij,…,PNik},则该网格单元的质量MNi如式(6)所示。

(6)

式中:mPNij为网格Ni内的轨迹点PNij的质量。根据网格内的轨迹点,计算网格单元Ni的质心(XNi,YNi),如式(7)和式(8)所示。

(7)

(8)

步骤3:按式(2)筛选辐射范围涵盖Ni的网格点集合Qi。

步骤4:求解最优σ。首先任意选取几组σ,根据Qi,分别计算各σ下各网格单元Ni的势值。然后根据式(5)计算势熵,最后以势熵最小原则获取优化的影响因子。

步骤5:根据最优σ计算各网格单元势值。

步骤6:通过阈值分割热点。Rosin提出一种基于单峰直方图选取阈值的方法[18],即假设在直方图的低值区域会有一个明显的单峰。本文将该方法应用于势值频数直方图中(图1)。首先根据步骤5计算出的势值绘制频数直方图,并将频数峰值点与直方图最右最低点连成直线;然后求取各直方图顶点到该直线的距离。最后,根据最短距离所在的点确定阈值T。

图1 势值频数单峰直方图

除了上述自动计算单一阈值外,还可根据多段阈值分割方法对热点程度进行分级,如等间隔划分法(Equal Interval)、分位数分类法(Quantile)、标准差分类(Standard Deviation)和自然断点分类(Natural Breaks)等方法。

步骤7:根据步骤6计算出的阈值T,将轨迹网格分为两类,即热点和非热点。若采用多阈值分割法,则将轨迹网格分为多级热点区域和非热点区域。依次对每个网格点进行判定,若某网格点势值φ(Ni)>T,则该网格所涵盖的轨迹点为热点,并将该点加入到相应的热点集合中;反之,该数据点为非热点,将其加入非热点集合中。

步骤8:输出探测结果数据集并结束。

2 实验与分析

2.1 实验数据

本文选择武汉市2014年5月1日、7日和10日约2 500辆出租车的轨迹数据,分别代表节假日、工作日和周末3种状态下的轨迹。其中,针对每天的数据选取8:00-9:00、12:00-13:00、18:00-19:00和23:00-0:00 4个时段进行分析,每个时段约含50多万个轨迹点。

首先提取乘客上下车点。将车辆原始轨迹数据按照车辆ID和时间排序,“重车”和“空车”状态改变的轨迹点即为上下车点。其中,从“空车”状态变为“重车”状态的点为上车点,反之为下车点。本文对上述各个时段的数据进行上下车点提取,每个时段包含30 000多个上下车点。由于武汉市面积较大,分布在郊区的上下车点数据较少,所以本文主要选取武汉市三环内的上下车点数据进行实验分析。在上下车点数据空间中划分500 m×500 m大小的网格单元,约得到3 000多个网格单元(图2a),其中,包含轨迹点的网格约1 500个(图2b)。

图2 网格划分示意

2.2 算法的实验比较

如图3所示,本文以2014年5月1日8:00武汉市三环内的出租车轨迹数据为实验数据,分别利用基于数据场的轨迹点集聚区域提取方法和Getis-Ord G算法进行比较实验,以验证数据场方法的有效性。对于Getis-Ord G统计量的计算,本文将轨迹网格中各网格单元内的上下车点数量作为属性观察值,分析乘客上下车行为的高发区域,即城市热点区域。两种算法提取结果如图4(彩图见封3)所示。

图3 实验数据

如图4a所示,Getis-Ord G统计量可识别高值的空间聚集(热点区)和低值的空间聚集(冷点区)。对于基于数据场的轨迹点集聚区域提取方法,首先对轨迹网格数据进行势值计算,再利用等势线将计算结果可视化,以辅助热点区域的初步分析。如图4b所示,通过等势线直观的疏密情况可初步得到汉口区域和武昌火车站附近的热点区域。该结果与Getis-Ord G统计量方法得到的热点区域基本相符。

图4 聚集区域探测结果对比

但是Getis-Ord G统计量的热点区域探测结果范围过大,不够具体和直观,而由于可以对势值进行分析,因此基于数据场的轨迹点集聚区域提取方法对热点区域的分析更加灵活(图5,彩图见封3)。如图5a所示,数据场方法既可以通过自动计算单一阈值一次性得到势值的高值聚集区和低值聚集区,又可以通过多阈值设置,分割出不同热点程度的热点区域。图5b所示结果是利用考虑了数据分布统计特征的自然段点(Natural Breaks)方法进行的阈值划分,从而得到4个级别的热点区域,其中一级热点区域为轨迹点最聚集的区域。此外,数据场势值阈值分割后得到的热点区域更为具体。可将热点图层与OpenStreetMap图层叠加,将图5b中的一级区域放大得到图5c和图5d,可知5月1日8:00的一级热点网格所覆盖的区域正是汉口火车站和武昌火车站及其周边区域。因此,数据场阈值法对于从轨迹数据中挖掘城市热点既有适用性,也有更灵活、更直观的优势。

图5 基于数据场的轨迹点集聚区域提取方法

2.3 武汉市热点区域时空分析

利用基于数据场的轨迹点集聚区域提取方法对武汉市2014年5月1日、7日和10日的轨迹数据按时段进行聚集分析,选用单峰阈值法设定单一阈值提取热点区域,并将提取结果与OpenStreetMap带POI数据的底图叠加,以更好地分析热点网格所覆盖的城市区域。早、晚高峰时段热点分布如图6、图7所示(彩图见封3),图中红色区域即为势值高的热点区域,绿色区域为非热点区域。

为了更好地分析武汉市热点区域的时空分布特点,本文根据武汉市城市功能区域特征,将热点区域类型划分为车站、休闲娱乐中心、住宅区、医院、景点区和写字楼办公区域6类。从图6可见,早上(8:00-9:00)的城市热点区域主要分布在武汉市万松街青松社区和友谊社区等大型住宅区和武汉市第一医院等大型医院附近;在工作日,该时段内分布在写字楼办公区的上下车点较多;在节假日,该时段的热点区域还会分布在武昌火车站和汉口火车站。

中午(12:00-13:00)的城市热点区域(图略)在住宅区分布相对较少,而主要分布在武汉市光谷步行街和武汉国际广场等集餐饮、购物、娱乐一体的大型商业休闲中心附近。在节假日和周末,市民出游导致中午时段的热点区域分布在户部巷、黄鹤楼等景点区附近。在工作日,景点区附近的上下车点较少,除了商业休闲中心之外,写字楼办公区附近会成为热点。

从图7可见,傍晚(18:00-19:00)的城市热点区域主要分布在住宅区、写字楼办公区和休闲娱乐中心。因为在节假日时,该时段是市民就餐逛街的黄金时段,而在工作日时,该时段是市民下班返家高峰期。晚上(23:00-24:00)的热点区域(图略)主要分布在住宅区以及部分休闲娱乐中心,而医院等区域相对较少。在这个时段内,只有酒吧等部分休闲娱乐场所在营业,结束夜生活的市民会在这些娱乐中心附近打车。在工作日,加夜班导致部分写字楼办公区域也会在该时段出现热度不高的热点区域。

图6 武汉市8:00热点区域专题图

图7 武汉市18:00热点区域专题图

综上可见,武汉市热点区域中,既有随着时间变化分布的热点区域,也有持续型热点区域。变化型热点区域有办公区和大型医院所在处,该热点区域在工作日热点数量会显著增多,在节假日相对较少。这与办公区一般只在工作日开放以及医院部分科室节假日不上班等社会普遍现象相符。此外,户部巷和司门口等景点区域和休闲娱乐区域也是变化型热点区域,在节假日的热点数量会比工作日多,这与市民多选择在节假日和周末出游的现象相符。而武汉市的持续型热点区域有大型社区聚集地和火车站区域。作为居住场所,社区是市民出发和返回的日常选择点,常为热点区域。武汉市作为全国交通枢纽,火车站客流量位于全国前列,因而火车站附近也为持续型热点区域。

3 结论

本文提出一种基于数据场的轨迹点集聚区域提取方法,结合网格法对轨迹数据空间进行区域子单元划分以提高运算效率,对于计算出的势值,再采用阈值法对其进行分析。本文实验中选用单峰直方图选取单一阈值,将轨迹网格数据分为热点与非热点两类,从而探测武汉市热点区域。本文方法能够有效探测出租车轨迹数据的集聚区域,挖掘更为具体的城市热点区域。通过对2014年5月1日、7日和10日3天不同时段数据提取出的热点进行对比分析,并与实地POI区域叠加,得到武汉市具有持续热点的区域,如大型社区和火车站等;同时得到随时间变化而变化的热点区域,如办公区域、大型医院所在处以及景点区域。本文所使用的数据场阈值法还存在一些不足之处,如网格单元大小的划分、阈值自动设定方法的多样化等。后期将进一步基于数据场理论研究出租车轨迹的高效聚类以及出租车轨迹数据中的停留点等特征点的聚类。

[1] 马云飞.基于出租车轨迹点的居民出行热点区域与时空特征研究[D].南京:南京师范大学,2014.

[2] 陈一祥,秦昆,冯霞.一种使用局部空间统计量的高分辨率影像显著结构提取方法[J].武汉大学学报(信息科学版),2014,39(5):531-535.

[3] 王培安,罗卫华,白永平.基于空间自相关和时空扫描统计量的聚集比较分析[J].人文地理,2012,27(2):119-127.

[4] 马越,李晓松,张彦利.扫描统计量在传染病监测应用中的空间尺度选择[J].现代预防医学,2011,38(9):1601-1604.

[5] 唐咸艳,仇小强,黄天壬,等.空间扫描统计在广西肝癌空间格局中的应用研究[J].中国卫生统计,2009(2):114-116.

[6] 李小洲,王劲峰.空间扫描统计量方法中候选聚集区域生成的快速算法[J].地球信息科学学报,2013,15(4):505-511.

[7] 淦文燕,李德毅,王建民.一种基于数据场的层次聚类方法[J].电子学报,2006,34(2):258-262.

[8] WU T,QIN K.Data field-based mechanism for three-dimensional thresholding[J].Neurocomputing,2012,97:278-296.

[9] WU T,QIN K.Image data field for homogeneous region based segmentation[J].Computers & Electrical Engineering,2012,38(2):459-470.

[10] 吴涛,秦昆.利用云模型和数据场的图像分割方法[J].模式识别与人工智能,2012(3):397-405.

[11] 王树良,邹珊珊,操保华,等.利用数据场的表情脸识别方法[J].武汉大学学报(信息科学版),2010,35(6):738-742.

[12] 韩元利,王海军,夏文芳.基于k阶数据场的城镇土地定级模型[J].武汉大学学报(信息科学版),2009,34(3):370-373.

[13] 刘耀林,唐旭,何建华.基于数据场的空间分析技术及其在土地定级中的应用[J].武汉大学学报(信息科学版),2009,34(9):1009-1013.

[14] ZHAO P X,QIN K,YE X,et al.A trajectory clustering approach based on decision graph and data field for detecting hotspots[J].International Journal of Geographical Information Science,2016(1):1-27.

[15] ZHAO P X,QIN K,ZHOU Q,et al.Detecting hotspots from taxi trajectory data using spatial cluster analysis[A].ISPRS Annals of Photogrammetry,Remote Sensing and Spatial Information Sciences[C].2015,2(4):131-135.

[16] 李德毅,刘常昱,杜鹢,等.不确定性人工智能[J].软件学报,2004,15(11):1583-1594.

[17] 赵卫伟.数据场聚类及其实现[D].南京:中国人民解放军理工大学,2003.

[18] ROSIN P L.Unimodal thresholding[J].Pattern Recognition,2001,34(11):2083-2096.

Hotspots Detection from Taxi Trajectory Data Based on Data Field Clustering

ZHOU Qing1,QIN Kun1,2,CHEN Yi-xiang3,LI Zhi-xin1

(1.SchoolofRemoteSensingandInformationEngineering,WuhanUniversity,Wuhan430079;2.CollaborativeInnovationCenterofGeospatialTechnology,WuhanUniversity,Wuhan430079;3.CollegeofGeographicandBiologicInformation,NanjingUniversityofPostandTelecommunications,Nanjing210023,China)

The taxi trajectory data contains abundant information about urban functions,city structures and citizen activities.Analyzing spatial aggregation pattern of taxi trajectory data can detect some different distributions of urban function areas like city hotspots,traffic jam areas and so on,which can support urban planning and management.Referring to the field theory from physics,data field theory analyzes spatial aggregation pattern by quantifying the interaction among data objects.This paper proposes a method to extract city hotspots area which combines the data field theory and the threshold segmentation.Firstly,the grids are divided over the trajectory space in the method,and trajectory points are mapped to each grid cell.And then,the potential value of each grid is calculated based on potential function.After that,the threshold classification method which includes the single threshold method and multiple threshold method,is used to divide the grid data into hotspots area and non-hotspots area.Based on the data field detecting method and unimodal thresholding classification method,the paper finishes the trajectory data analysis in Wuhan City and obtains the characteristics of spatio-temporal distribution of hotspots at the different times of a day during the holiday and non-holiday.Further study will focus on extending the data field theory to the spatio-temporal level,and analyzing the dynamic change of city hotspots area at multi-perspective.

taxi trajectory data;spatial aggregation pattern;data field;threshold;detection of hotspots

2016-09-02;

2016-10-23

国家自然科学基金项目(41471326);中央高校基本科研业务费专项资金项目(2042015kf0183)

周勍(1991-),女,硕士研究生,研究方向为空间数据分析与挖掘。*通讯作者E-mail:qink@whu.edu.cn

10.3969/j.issn.1672-0504.2016.06.009

U491.1

A

1672-0504(2016)06-0051-06

猜你喜欢
武汉市热点轨迹
热点
武汉市勘察设计有限公司
武汉市中小学优秀自制教具评选活动成功举办
轨迹
轨迹
武汉市勘察设计有限公司
热点
轨迹
结合热点做演讲
进化的轨迹(一)——进化,无尽的适应