梁军辉,林 坚,杜 洋(1.北京大学城市与环境学院,北京 100871;2.北京大学深圳研究生院,广东·深圳 518055)
大数据条件下城市用地类型辨识研究 基于出租车GPS数据的动态感知
梁军辉1,2,林 坚1*,杜 洋1,2
(1.北京大学城市与环境学院,北京 100871;2.北京大学深圳研究生院,广东·深圳 518055)
摘 要:随着大数据的广泛应用以及城市规划管理的智慧化、精细化转变,土地管理需要丰富城市探查视角,开拓用地分类方式。传统遥感影像分类具有时效性低、不能反映真实用地功能的弊端,而基于价值密度低、时效性高的GPS数据进行土地分类可以有效克服这一不足。本文以深圳市福田区为案例,通过海量出租车GPS数据的时空挖掘,在验证居民活动、出租车上下车活动与城市用地类型之间相关关系的基础上,利用SVM监督分类算法和粒子群优化方法得出的最优参数对出租车GPS数据进行分类和准确率验证。结果显示:出租车GPS数据的分类结果与福田实际的土地利用类别匹配精确度高达97.16%,可以证明出租车GPS数据能够实现对城市土地利用类型实时、精确的动态感知。
关键词:城市用地;类型辨识;大数据分析;SVM算法;动态感知
近年来,随着信息革命的不断推进和人本主义思想的传播,城市管理向智慧化、精细化发展。土地利用管理领域也在积极转变,改变过去单一依赖遥感影像识别,带来的用地分类更新速度慢、仅反映地表物理光谱而不能反映真实的土地功能等弊端,试图改变过去对城市空间的探查视角,通过对大数据的挖掘,一方面实现对城市土地快速、实时的监控;另一方面,挖掘居民活动时空间特征,获取反映土地功能的城市用地分类。
在此背景下,国内外一些学者突破传统的遥感影像识别方法,使用手机信令数据、出租车活动的GPS数据、WiFi热点数据、地理位置标签等居民数字足迹实现对土地利用类型的动态感知。刘瑜提出了“社会感知”的概念,每个个体在城市空间中扮演“传感器”的作用,主张社会感知数据包含了空间互动与地方语义学的丰富信息,超出传统遥测数据的范畴,并使用上海的出租车GPS数据验证了理论的可行性[1];王静远在2014年BCL年会上提出“城市数据画像”的概念,即大数据可以像“X光片”一样穿透城市物理空间,探查城市空间与土地利用的真实状况,并通过北京市微博数据反映居民对城市土地利用的强度。现阶段,已有学者基于大数据进行了一些针对用地分类的实证研究。Soto等利用CDR(call detail records)数据,采用模糊C均值聚类算法和K均值聚类算法推断土地利用类型[2,3],其与现实用地类型基本相符;Calebrese等基于麻省理工学院里3000多个WiFi接收器的时间序列数据,借助特征分解方法,区分出宿舍、图书馆、教室等建筑物类型[4];J.Yuan等利用北京市POI数据点和出租车GPS数据,对不同区域的城市用地类型进行聚类分析[5];Jameson等应用随机森林分类算法对波士顿地区60多万匿名手机用户三周CDR数据进行分类,分析了其在居住用地、商业用地、工业用地、公园绿地以及其他用地上所表现的时序特征[6],以此推断城市用地类型;Gang Pan等利用4000辆出租车数据,采用改进的基于密度的空间聚类算法(DBSCAN),设计六个上下车的动态特征,利用SVM、KNN、LAD、BP四种分类方法进行比较,较好实现了城市土地利用类型的感知[7,8]。
不难看出,基于大数据对城市用地分类的理念和方法进行革新,已成为研究的重要方向。但是,总结已有研究,提高分类精度,实现时效性与分类精度二者之间的统一仍是现阶段尚未克服的难点。本研究利用深圳市出租车GPS数据,在研究居民活动特征、出租车上下车活动与城市用地类型关系的基础上,定性分析出出租车起讫点与城市用地类型之间的相关关系,利用粒子群优化方法和SVM监督分类算法定量衡量出出租车起讫点对城市用地类型的感知精度,最终证明出租车起讫点数据能够准确感知城市用地类型。
1.1 基于出租车GPS数据的居民活动特征与城市用地类型的关系分析
(1)居民活动、出租车上下车活动与活动场所及其用地类型的关系探讨
居民在一天内的活动包括一系列的工作活动和非工作活动,其往往沿时间顺序排列,而且表现出社群层面的相对一致性,如:在工作日,前一晚上在家睡眠,早上离家去工作,下午下班前往超市购物或参加娱乐活动或直接回家[9,10]。这些活动的发生依赖于相应的活动场所,活动场所性质的不同,在一天时间内的不同时间段吸纳的人流量也显著不同,换言之,透过不同活动场所在一天内的不同时段内吸纳人流量的差异特征,可以推演这一活动场所的用地性质。
居民在一天中完成不同类型的活动,活动场所随时间变化有一定的规律[11]。图1表示了居民工作日的活动示意图,横轴表示活动时间,纵轴表示活动发生地点之间的相对距离。拐点A表示在居住用地内活动结束,并开始产生交通行为;拐点B表示交通行为结束,并开始在工作地发生活动,A和B代表居民活动状态变化的临界点。
图1 居民日常出行活动示意图Fig.1 The spatio-temporal behavior pattern of residents’ daily activity
出租车作为城市重要的交通工具,一定程度上反映了居民的活动特征,通过对一个活动场所不同时间段的上车量和下车量之差异分析,可以反映该活动场所吸纳人流量的状况及时间分布特征。现实中,出租车GPS记录数据由7个字段构成:车牌号、采集时间点、经度、纬度、车辆状态、车速、行车方向。其中,车辆状态分为空载(即非打表)和重载(即打表),分别设定为0和1,从0变为1表示上车(起点),从1变为0表示下车(讫点)。无疑,上车代表在上车点区域内居民活动量减少,下车刚好相反。进一步分析,采用出租车下车活动剩余量(式1),可以刻画在某一个时间段内在某一个活动场所的吸纳人流量:
R=D-U(1)
式中,R为出租车下车剩余活动量;D为下车活动量;U为上车活动量。
为此,本文提出假设:将不同地块范围内不同时间段内出租车下车剩余活动量与城市用地类型进行关联,可以实现城市用地类型的感知。
(2)城市用地空间分布与出租车停靠点的联系特征提取
为了利用出租车GPS数据实现对城市土地利用类型的感知,首先需提取出租车GPS记录点中车辆行驶状态发生变化的点,即起讫点(由0到1或1到0),然后将其与土地利用现状图在ArcGIS10.0平台上进行叠加分析,根据距离临近原则,赋予每个起讫点临近地块的地类图斑属性(将道路沿中心线切分,归并到相邻地类),最终确定每一个起讫点所处的用地范围。对于每辆出租车一次出行产生的起讫点数据,同时具备了时间、位置属性以及赋予的,定义地类图斑属性(图2)。
图2 出租车坐标点赋予地类图斑属性示意图Fig.2 Taxi coordinates point given to the land use attribute
1.2 应用出租车GPS数据对城市用地分类的感知方法试验及精度检测
(1)应用出租车GPS数据点对城市用地分类的感知方法:SVM监督分类算法
支持向量机(Support Vector Machine,SVM)分类算法是1995年由Vapnik等人在统计学理论的基础上首先提出的[12],它是一种基于VC维理论和结构风险最小化准则的学习算法。SVM的优点在于能够通过定义核函数将低维空间的样本点向高维空间转变,然后在该空间中构造最优分类面,从而解决数据非线性可分的情况[13]。SVM主要包括有一对多法、一对一法、决策树法三种[14,15]。在此,本文选择根据一对一法设计的Libsvm多分类工具箱进行GPS数据点的分类,Libsvm是台湾大学林智仁(Lin Chih-Jen)教授开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归软件包。采用工具箱默认的C-SVC模型[16],函数形式为:
式中,i表示支持向量的个数;w代表支持向量的系数;b是常数;K(x,Xi)代表核函数(包括线性核函数、多项式核函数、高斯径向基核函数和两层感知器核函数等)。
在核函数K(x,Xi)类型选择上,以往的研究表明,各参数一致的情况下高斯径向基核函数作为映射函数,分类精度相对较好,其函数形式如下:
式中,g是核函数参数,为凭测试经验给定的常数;X表示支持向量,是分类模型对已知用地类型样本点进行学习训练后产生的能够将不同类别数据分开的数据点;x表示待分类数据点。
(2)SVM监督分类算法的关键参数优化:粒子群优化算法
在利用SVM进行数据分类时,有些情况下,在高维空间中仍然会存在一些离群点。考虑到函数的容错性,在函数分类过程中引入惩罚因子C≥0(凭测试经验给定的常数),控制对错分样本的惩罚程度。惩罚因子C用于控制模型复杂度和逼近误差,在确定的特征空间中调节SVM算法的置信范围和经验风险的比例,其值越大,则数据的拟合精度越高。同时,g主要影响样本数据在高维特征空间中分布的复杂程度,对模型的分类精度有着重要影响。因此,对SVM核函数参数g和惩罚因子C进行优化具有重要意义。
粒子群优化算法(PSO)由Kennedy和Eberhart于1995年提出,是计算机智能领域基于群体智能的优化算法,它同遗传算法类似,通过个体间的协作和竞争实现全局搜索[17]。该算法的优势在于简单易行,求解速度快,目前已得到广泛应用。为此,本文利用PSO算法对g和c进行优化选择。
(3)应用出租车GPS点数据对城市用地分类辨识方法的精度检测
SVM结果的分类准确率检测也是验证方法可行性的重要环节。用地分类辨识过程结束后,将通过分类准确率予以验证(式4)。
式中,A代表分类准确率,r代表正确分类个数,f代表错误分类个数。
2.1 研究区域与研究数据
本文以深圳市福田区为研究区。福田区位于深圳特区中部,面积78.8km2,由24km2的中心城区和深南大道两侧带状经济开发区域及部分丘陵、山地、海滩组成,是深圳市重点开发建设的中心城区。选取该研究区域的原因在于:(1)土地利用类型丰富,各类用地在该区域均有体现;(2)处于中心城区,人口流动量大,可以提供海量的出租车GPS数据进行问题分析。
本文所使用的数据为深圳市2011年土地利用现状数据和2011年4月18日至26日1亿多条深圳市出租车GPS数据。其中,针对2011年土地利用现状数据,本文结合深圳市福田区用地特征,将其分为为绿地(包括园地、林地、草地等)、商服用地、工矿仓储用地、住宅用地、公共管理与公共服务用地五大类(图3)。
图3 深圳福田区区位图Fig.3 The location of Futian district in Shenzhen city
2.2 基于出租车GPS数据的居民活动特征与城市用地类型的关系分析
以五大类用地为居民活动特征数据统计和分类的基本单元。图4显示工作日和休息日里各地类范围内下车剩余活动量的时序特征分布。可以看出,无论在工作日还是休息日,居住用地范围内下车剩余活动量在早上7点会出现负峰值,而下午6点以后逐渐增加;与之相对应,在工作日时,商服用地在早上8点左右会出现一个峰值,而在下午7点以后活动剩余量迅速下降,在休息日时,商服用地的活动剩余量呈现规律与工作日相近,但峰值降低。除此之外,公共管理与公共服务用地、工矿仓储用地、绿地等也分别呈现出不同的下车剩余活动量变化特征。
图4 不同地类范围内出租车下车剩余活动量时序特征图Fig.4 Temporal characteristics of residual activity of taxis in different categories
由于福田区各类用地面积以及从业人员数量的不同,导致地类内的上下车活动剩余量在数量级上存在一定差别,如工业用地平均每天在9点左右的下车剩余活动量还不到100,而商服用地则达到了400左右。为了便于活动特征的比较,本文对出租车下车剩余活动量进行Z-score标准化处理,使不同地类相同时间段内的居民活动特征变化在同一个数量级上(图5)。结果表明,在工作日,居民从居住地出发分别到工业用地、商服用地以及公共服务用地工作,此时居住用地为一天活动的起始点,其下车剩余活动量则会出现波谷,而工矿仓储用地、公共管理与公共服务用地、商服用地由于整体的上班机制和出行距离的不同,下车剩余活动量会在不同时间段依次出现波峰。比如商服用地上的活动强度在8:30左右达到波峰,而工业用地在9:00左右才达到,公共服务用地在7:00和9:00左右分别有一个波峰,但其活动强度相对工矿仓储与商服用地弱;到晚上,居民陆续回到居住地休息,居住用地下车剩余活动量明显增加,特别是在休息日7:00~9:00期间,该用地整体活动明显比工矿仓储和商服用地要活跃。
由以上分析可知,针对不同类型的城市用地,其出租车下车剩余活动量的时序特征在工作日、休息日有很强的规律性。通过出租车起讫点及其临近地类、时间信息等,推算不同时间、地段的出租车下车活动剩余量时空特征,可以推演和感知相应的城市用地类型。
图5 不同地类范围内出租车下车剩余活动量时序特征标准化图Fig.5 The standard of the time series of the residual activity of the taxi in different categories
2.3 应用出租车GPS数据对城市用地分类的感知方法试验与精度检验
为了较好地衡量出租车GPS数据点对用地类型的感知能力,本文利用粒子群优化算法(PSO)来寻找C-SVC模型参数g和c的最优值[18],g和c的寻优范围分别设定为[10-2,103]和[10-1,102],最大迭代次数设定为200,寻优结果如图6、图7所示。
从图6可以看出,测试样本的预测分类大部分落在实际分类区间,最佳参数c和g则如图7所示。此时c=77.2354,g=893.7747,最佳的样本分类准确率达到90%以上。优化参数后的C-SVC模型函数形式如式5。
图6 实际分类与预测分类图Fig.6 The actual classification and prediction classification
图7 PSO参数寻优准确率曲线Fig.7 The accuracy rate curve of PSO aprameter optimization
利用福田区不同用地类型的出租车起讫数据点对C-SVC模型进行学习训练和准确率检测,以确定GPS数据点对应的用地类型和最终的分类准确率。实验发现,随着训练集样本的增多,分类准确率逐渐提高。本文利用全体数据的25%作为训练集,利用剩余的75%的数据点作为测试集进行分类准确率验证,结果表明整体准确率达到97.16%,其中,各地类分类准确率如表1所示。将分类后的数据点转成栅格数据与用地现状图比较发现,GPS数据所识别出的用地类型和位置与现状图具有较高的匹配度,如图8所示。
表1 各地类分类准确率Table 1 Classification accuracy rate of each land use category
图8 用地现状图(左)与GPS数据点分类图(右)对比Fig.8 The comparison of land use category (L) and GPS data points classification (R)
进一步将分类后的GPS数据点与用地分布图进行叠置,为便于观察,本文将相同地类的GPS数据点与地类图斑以不同颜色显示(如图9)。结果显示,绝大部分数据点分类结果与地类图斑是完全对应的。从右侧局部图可以看到,错分点均出现在地类交接区域(即道路中心线附近),这种现象的产生一方面是因为出租车GPS点定位存在精度误差,另一方面是由于分类模型对这种交错地带数据点分类能力不强,但这些极少数的错分点并不影响GPS数据点对用地类型准确感知的能力。
图9 GPS错分数据点与用地现状图对比Fig.9 The comparison of GPS data points misclassification and land use category
本文是众多大数据挖掘尝试的一部分,主要探讨居民出行产生的数字足迹在城市用地类型动态感知中的应用。针对深圳市福田区案例,通过分析不同用地类型出租车下车活动剩余量的时序特征,观察到不同城市用地类型在不同时间段的出租车下车剩余活动量具有显著的差异,并且符合居民活动和活动场所间的时空联系规律,支持了应用出租车GPS数据开展用地动态感知研究的假设;在此基础上,基于SVM监督学习分类算法对样本点进行分类,采用优化的模型参数提高了分类精度,研究表明,采用C-SVC模型,应用出租车GPS数据对城市用地类型的感知精度高达97.16%,具有较好的可行性。
然而,本文分析发现,SVM分类算法虽然获得了非常好的分类效果,但由于数据量庞大、运算工具硬件要求高等限制,使得用地分类和辨识速度相对较慢,降低了SVM的分类运算优势。此外,出租车GPS数据只是居民出行产生的足迹之一,类似WiFi热点数据、地理位置标签数据、手机活动数据、私人汽车数据、POI数据等都值得加以利用,若在分析过程中能结合这些数据,将有利于更精细化地感知出更为不同的城市用地类型,这也是值得探索的大数据挖掘工作。
参考文献(References)
[1] Liu Y,Liu X,Gao S,et al.Social sensing:A new approach to understanding our socioeconomic environments[J].Annals of the Association of American Geographers,2015,(4):512-530.
[2] Soto V,Frias-Martinez E.Automated land use identification using cell-phone records[C]//Proceedings of the 3rd ACM international workshop on HotPlanet’11,Bethesda,Maryland,USA,2011.
[3] Soto V,Frias-Martinez E.Robust land use characterization of urban landscapes using cell phone data[C]//Pro-ceedings of the 1st workshop pervasive urban application pervasive,2011:1-8.
[4] Calabrese F,Reades J,Ratti C.Eigenplaces:Segmenting space through digital signatures[J].IEEE Pervasive Computing,2010,9(1):78-84.
[5] Yuan J,Zheng Y,Xie X.Discovering regions of different functions in a city using human mobility and POIs[C]//ACM KDD’12 Beijing,China,2012.
[6] Toole Jameson,Ulm Michael,González Marta,et al.Inferring land use from mobile phone activity[C]//Pro-ceedings of the ACM SIGKDD international workshop on urban computing,2012.
[7] Pan G,Qi G D,Wu Z H,et al.Land-use classification using taxi GPS traces[J].IEEE Transactions on Intelli-gent Transportation Systems,2013,14(1):113-123.
[8] 潘纲,李石坚,齐观德,等.移动轨迹数据与智慧城市[J].中国计算机学会通讯,2012,8(5):31-37.Pan G,Li S J,Qi G D,et al.Mobile trajectory data and wisdom city[J].Communication of the China Com-puter Federation,2012,8(5):31-37.
[9] 赵一斌,石心怡,关志超.基于GIS支持的出行行为时间空间及序列特征研究[J].中山大学学报(自然科学版),2010,49(S1):43-47.Zhao Y B,Shi X Y,Guan Z C,et al.An analytical framework for travel-activity pattern analysis:A GIS ap-proach[J].Acta Scientiarum Naturalium Universitatis Sunyatseni,2010,49(S1):43-47.
[10] 申悦,柴彦威.基于GPS数据的北京市郊区巨型社区居民日常活动空间[J].地理学报,2013,68(4):506-516.Shen Y,Chai Y W.Daily activity space of suburban megacommunity residents in Beijing based on GPS da-ta[J].Acta Geographica Sinica,2013,68(4):506-516.
[11] 周素红,邓丽芳.基于T-GIS的广州市居民日常活动时空关系[J].地理学报,2010,65(12):1454-1463.Zhou S H,Deng L F.Spatio-temporal pattern of residents' daily activities based on T-GIS:A case study in Guangzhou,China[J].Acta Geographica Sinica,2010,65(12):1454-1463.
[12] Cortes C,Vapnik V.Support vector networks[J].Machine Learning,1995,20(3):273-297.
[13] 肖芳.支持向量机在数据挖掘中的应用[C]//第十二届全国数学地质与地学信息学术研讨会,2013.Xiao F.Application of support vector machine in data mining[C]//The 11st national workshop on mathematical geosciences and geoiinformatics of China,2013.
[14] 孙德山.支持向量机分类与回归方法研究[D].长沙:中南大学博士学位论文,2004.Sun D S.The research on support vector machine classification and regression methods[D].Doctoral disser-tation,Changsha:Central South University,2004.
[15] 焦春鹏.基于二分类SVM的多分类方法比较研究[D].西安电子科技大学硕士学位论文,2011.Jiao C P.Comparison study on multi-category classification with binary SVMs[D].Master's thesis,Xi'an:Xidian University,2011.
[16] Chang C C,Lin C J.LIBSVM:A library for support vector machines[Z].2009.
[17] 谷文成,柴宝仁,滕艳平.基于粒子群优化算法的支持向量机研究[J].北京理工大学学报,2014,34(7):705-709.Gu W C,Chai B R,Teng Y P.Research on support vector machine based on particle swarm optiminzation[J].Transactions of Beijing Institute of Technology,2014,34(7):705-709.
[18] 王小川,史峰,郁磊,等.MATLAB神经网络43个案例分析[M].北京:北京航空航天大学出版社,2013.Wang X C,Shi F,Yu L,et al.The cases analysis of MATLAB neural network[M].Beijing:Beihang University Press,2013.
Research on the identification of urban land use under the big data condition:Dynamic awareness based on taxi GPS data
LIANG Jun-Hui1,2,LIN Jian1,DU Yang1,2
(1.College of Urban and Enνironmental Sciences,Peking Uniνersity,Beijing 100871,China;2.Shenzhen Graduate School,Peking Uniνersity,Guangdong Shenzhen 518055,China)
Abstract:This paper uses the Shenzhen Futian district as a case study,to mine the massive amounts of taxi GPS data through time and space,for testing the correlation between the activities of residents,on and off taxi,and the urban land use pattern.It classifies the taxi GPS data and verifies its accuracy using the SVM classification algorithm,while the optimal parameters are determined using the particle swarm optimization method.The results show that,the matching accuracy of the classification of the taxi GPS data and the actual land use pattern of Futian district can be as high as 97.16%,which proves that the taxi GPS data can be used for real-time,accurate,dynamic awareness on urban land use pattern.
Key words:urban land use;type identification;big data analysis;SVM algorithm;dynamic awareness
基金项目:国家自然科学基金项目(41371534)*通讯作者:林坚(教授/博导/北京大学城市与环境学院城市与区域规划系主任):jlin@urban.pku.edu.cn.
作者简介:梁军辉(1989-),男,硕士生,主要研究方向为城市与区域规划.
修订日期:2015-02-04
收稿日期:2015-01-25
doi:10.3969/j.issn.2095-1329.2016.01.007
中图分类号:F293.22
文献标志码:A
文章编号:2095-1329(2016)01-0028-05
电子邮箱:1175088379@qq.com
联系电话:010-62751176