基于时空轨迹数据的出行特征挖掘方法

2014-07-07 02:12张健钦仇培元杜明义
交通运输系统工程与信息 2014年6期
关键词:居住地作息出租车

张健钦,仇培元,杜明义

(1.北京建筑大学 测绘与城市空间信息学院,北京100044;2.现代城市测绘国家测绘地理信息局重点实验室,北京100044;3.中国科学院 地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京100101)

基于时空轨迹数据的出行特征挖掘方法

张健钦*1,2,仇培元3,杜明义1,2

(1.北京建筑大学 测绘与城市空间信息学院,北京100044;2.现代城市测绘国家测绘地理信息局重点实验室,北京100044;3.中国科学院 地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京100101)

在车联网应用发展的背景下,许多城市的私家车和出租车上安装了配备GPS设备的智能终端,产生着大量的时空轨迹数据.为挖掘这些数据蕴含的驾驶员出行特征,本文以北京市出租车时空轨迹数据为例,基于时空GIS的视角提出并实现了驾驶员居住地挖掘方法和作息规律性分析方法.样本实验结果一方面展示了驾驶员居住地空间分布,另一方面表明作息规律性总相似度在0.6-1之间的驾驶员数量较多,占到了总数的73.75%.通过本文方法挖掘的信息可为出租车的管理提供辅助决策,方法同样适用私家车时空轨迹数据的挖掘,对私家车出行规律的研究和掌握更有意义.

城市交通;信息技术;出行特征;时空数据挖掘;出租车时空轨迹

1 引 言

目前信息通讯技术、移动定位技术已经深入到城市生活的方方面面.这些技术在为人们提供多样化、个性化服务的同时,也生产了大量的个体时空数据.例如,使用全球定位系统技术可以跟踪记录城市中车辆移动的实时位置;使用手机定位技术可以记录手机用户在时空中的位移变化等等.基于这些技术的个体时空数据获取方式,相较于传统日志调查的数据采集方式而言,具有操作灵活性大、耗时短、数据采集量大、精度高、价格低廉,带有明显的时间和空间特性等多个方面的优点.如何充分利用这些时空数据,为交通规划和管理提供实时动态的有效的决策信息,是目前交通工程学科,计算机学科,地理信息学科共同关注的研究热点[1].时空轨迹是指当一个物体在时空中运动时所留下的一道印记.例如,某居民一天的出行活动就会构成一个24小时的时空轨迹.当轨迹中的点被系统地记录下来时,就形成了一系列具有时间先后顺序的空间坐标集合,由这些坐标集合定义的点集就构成了一条时空轨迹记录.时空轨迹数据也可以视为时空四维空间中一系列点相连所组成的线.大多数在时空中不断运动的对象都可以用轨迹数据描述,如出租车一天的时空轨迹(参见图1).

传统的交通地理信息研究中,人们常常只关注于某一时刻对交通对象的属性与空间位置的分析,这实际上只是描述了研究对象的一个快照,没有对连续的时态数据作专门处理.但时间、空间和属性作为交通对象本身固有的3个基本特征,是反映交通对象的状态和演变过程重要组成部分[2].交通对象的位置、属性都可能随着时间的推移而发生变化,人们不仅需要知道某一对象的属性和空间信息,更要了解该对象的演变过程,以便对其形成原因作出评估,对未来情况进行预测.时空轨迹数据恰能有效地表达交通时空对象的这些特性,通过挖掘分析对象时空轨迹数据中所隐含的模式,有助于对人类出行行为、交通物流、应急疏散管理,以及交通模拟仿真等各个领域进行研究[3].目前,在车联网发展的背景下,许多城市的私家车和出租车上已经安装了GPS设备,产生着大量的时空轨迹数据.这些数据蕴含着城市道路交通系统的时空动态信息,引起了跨学科的广泛关注,并催生了大量的相关研究[4,5].

本文基于北京市出租车时空轨迹数据研究提出并实现了驾驶员居住地挖掘方法和作息规律性分析方法,并对实验结果做了分析.通过本文的方法挖掘相关信息可为出租车的运行管理提供辅助决策,方法同样适用私家车时空轨迹数据的挖掘,对未来私家车出行规律的研究和掌握具有重要意义.

图1 一辆出租车6天的时空轨迹可视化展示图(黑点为每天停留时间最长位置)Fig.1 A visualization display of taxi trajectories for 6 days(the black point is the position staying for longest time every day)

2 驾驶员居住地挖掘方法

2.1 数据预处理

本文的时空轨迹原始数据为从相关单位获取的出租车位置记录数据,数据采集的时间间隔为1分钟,总共包括12 255辆车连续6天的定位数据.获取的原始文本数据主要包括记录关键字、车辆编号、日期时间、经度、纬度、方向、瞬时速度等主要信息.通过提取观察其中一辆出租车的时空轨迹,可以看出出租车驾驶员与一般人群不同,没有固定的工作地点,居住地成为他们一天之中停留时间最长的停留点(参见图1),累积的停留时间远远大于其他停留点,并且考察的轨迹数量越多该特征越明显.以此为基础,用停留的时空特征(即连续多天在同一地点停留超过一定时长)作为出租车驾驶员居住地挖掘的主要依据,本文设计了出租车驾驶员的居住地挖掘方法.

首先根据原始的出租车GPS轨迹记录文本和行程识别算法(行程识别算法参见文献[6])得到停留活动表(见表1).该表主要存储停留活动的时空信息,主要有出行者编号、停留开始时刻、停留结束时刻,停留点的经纬度,开始时刻对应的位置点编号等.然后进行出租车驾驶员居住地挖掘.

表1 停留活动表Table 1 Data table of stay

2.2 方法流程

获取一辆出租车6天时空轨迹,经行程识别算法得到停留活动表.

出租车驾驶员居住地挖掘方法的流程图如图2所示,主要步骤如下.

图2 出租车驾驶员居住地挖掘流程图Fig.2 Flow of taxi drivers’residence mining

步骤1将第一个停留点Stay1作为一个聚类r1,Stay1的坐标设置为r1的聚类中心坐标,Stay1的停留时长设置为r1的停留时长.

步骤2判断是否还有未处理的停留点,如果有,读取一个停留点Stayi,转到步骤3;如果否,结束聚类过程,转到步骤6.

步骤3计算停留点Stayi与各聚类rm之间的距离dm,判断距离最小值dj是否小于200 m,如果是,转到步骤4;如果否,转到步骤5.

步骤4停留点Stayi加入对应的聚类rj中,用时间加权的方法重新计算rj的聚类中心坐标,将Stayi的停留时长累加到rj的停留时长,转到步骤2.

步骤5停留点Stayi作为新的一个聚类rm+1,Stayi的坐标设置为rm+1的聚类中心坐标,Stayi的停留时长设置为rm+1的停留时长,转到步骤2.

步骤6遍历各聚类,找出停留时长最大的聚类rn,判断其停留时长是否超过6 h,如果是,将该聚类的聚类中心作为出行者的居住地位置,中心坐标作为居住地的坐标;如果否,则居住地挖掘失败.

其中步骤4中使用时间加权方法重新计算rj聚类中心的公式如下:

式中 wighti——停留点Stayi的权重值;

Stayi·Δt——停留点Stayi的停留时长;

rj·Δt——聚类rj的停留时长;

rj·x——rj聚类中心经度坐标;

rj·y——rj聚类中心纬度坐标;

Stayi·x——Stayi停留中心经度坐标;

Stayi·y——Stayi停留中心纬度坐标.

2.3 实验结果和分析

对所有样本的出租车驾驶员的居住地进行挖掘(算法中对居住地的判定依据为连续6天,每天在同一位置停留超过6 h),得到的居住地经纬度坐标保存到数据库中.通过在本研究开发的出行轨迹表达分析环境中,将挖掘得到的居住地信息与出租车轨迹同时显示在三维场景中,如图1所示.其中,时空路径为一辆出租车6天出行轨迹,黑点为出租车驾驶员的居住地位置.图3为所有样本经挖掘方法处理后,得到的出租车驾驶员居住地(黑色点位)分布图,其中黑色点位数为9 559个,由于样本中包含一部分双班制驾驶员,本算法对所有样本识别成功率为78%.从实验结果空间分布可以看出,驾驶员居住地在北京中心区域,如东城区、西城区、海淀区、朝阳区,以及丰台区、石景山区分布相对密集.南部的房山区、大兴区和东部的顺义区、通州区的驾驶员居住地数量相对稀疏,北部和西部山区的驾驶员居住地数量很少.表明北京平原地区特别是北京市中心仍旧是经济文化活动频繁的地区,产生大量的出行活动,驾驶员居住在这些位置可以得到更多的载客机会,并减少空载返回居住地耗费的成本.

图3 出租车驾驶员居住地分布图Fig.3 Distribution of taxi drivers’residence

3 驾驶员作息规律性分析方法

从驾驶员的出行时空轨迹中挖掘其平常作息活动的规律程度,对掌握道路交通系统的规律具有重要的现实意义,能够为制定相关的交通管理措施提供有价值的决策信息.作息活动的规律性主要以时空轨迹之间的相似程度作为评价标准,需要在对轨迹数据处理的基础上选择合适的相似性度量方法.

3.1 轨迹数据处理

对作息规律的研究偏重于休息活动发生的时间顺序和长度,需要对原始轨迹进行处理,形成一个表达作息活动的时间序列.考虑到出租车驾驶员在非居住地发生长时间休息活动的概率很低,主要考察其在居住地发生的休息活动.对原始轨迹数据处理,以10分钟为一个区间,将全天时间划分为144个区间,提取驾驶员一天的行车时空轨迹,结合行程识别结果和居住地挖掘得到的居住地位置,判断每个区间驾驶员是否在居住地发生停留活动,如果发生停留则将该区间标记为1,否则标记为0.这样,就将轨迹转化为反映休息活动的作息时间序列(w-r sequence),如图4所示.图中(a)为某一驾驶员一天的停留点信息,其中“SMODE”字段中的“athome”值表示该停留活动发生在居住地.图中(b)为根据停留点信息转化得到的作息时间序列.

图4 轨迹数据转化为作息时间序列示意Fig.4 From track data to w-r sequence

3.2 序列相似性计算

度量事物或对象之间的相似性的主要观点有距离观、特征集合观和结构组合观.距离观认为事物或对象之间的距离反映了他们之间的相似程度,距离越近则相似性越高.特征集合观认为事物之间的相似程度既由他们之间相同的部分决定,也由他们之间不同的部分决定,主要有差异模型和比率模型两种相似性计算模型.结构组合观则将事物细化为若干个组分,进一步考虑对应组分的特征相似程度,从而度量事物整体的相似性.本文参考线性图形相似性的计算方法,结合特征集合观中的比率模型,使用休息时间比的方法来计算作息时间序列间的相似程度.

按顺序读取需要比较的作息时间序列R_Seq1和R_Seq2的各个区间,如果序列的某一区间值为1,则各自的休息区间个数R_Count1、R_Count2加1,如果两者对应区间的区间值均为1,则共有休息区间个数R_Count(1,2)加1.以共有的休息区间个数作为两个序列R_Seq1、R_Seq2的相似特征,以不共有休息区间个数作为R_Seq1和R_Seq2的不同特征,序列R_Seq1和R_Seq2的相似度sim(1,2)可以用以下公式计算:

由该公式得到的作息时间序列相似度的取值范围在0到1之间,如果两个序列的作息时间完全相同,则有R_Count1=R_Count2=R_Count(1,2),相似度即为1.如果两个序列的作息时间完全不同,则R_Count(1,2)=0,相似度即为0.

确定了两个序列间的相似度计算公式后,计算同一驾驶员6天作息时间序列两两之间的相似度,以其平均值作为该驾驶员多天作息序列的总相似度SIM,用总相似度评价作息活动的规律性,即总相似度越高,作息活动的规律性越强,总相似度越低,作息活动越不规律.总相似度计算公式如下:

3.3 实验结果与分析

采用上述方法计算所有样本的驾驶员的作息序列总相似度,其统计分布如图5所示.从图5可以看出,序列总相似度在0.6-1之间的驾驶员数量较多,占到了总数的73.75%.从0.9-1,0.8-0.9,0.7-0.8,0.6-0.7这四个区间中各随机选取20位驾驶员时空轨迹样本,将他们多天的时空轨迹在本研究开发的出行轨迹表达分析环境中显示,观察作息规律情况,图6为各个区间中选择的代表性驾驶员行车时空轨迹,(a)、(b)、(c)、(d)所代表的区间分别为0.9-1、0.8-0.9、0.7-0.8、0.6-0.7.可以发现,总相似度在0.8-1之间的驾驶员作息活动规律性较强,总相似度在0.6-0.8之间的作息活动规律性开始减弱.因此,认为总相似度在0.8以上的驾驶员具有较稳定的作息习惯和规律,该部分驾驶员数量占到总数的40.87%,也就是说仍有大部分驾驶员休息时间和工作时间不规律,需要加强引导和建立健全完善的排班制度.

图5 驾驶员作息序列总相似度统计图Fig.5 Statistics of s-r sequence’s similarity

图6 各相似度区间中代表性驾驶员6天行车时空轨迹Fig.6 6 days’spatio-temporal trajectory of representative taxi in deferent s-r sequence

4 研究结论

出租车时空轨迹数据是一种广泛存在、容易获取的公共交通数据,它包含了城市人群移动与城市交通的宏观规律信息.本文通过研究出租车时空轨迹数据,提出了驾驶员居住地挖掘方法和作息规律性分析方法,并开展了实验和结果分析.但是,城市交通系统是一个复杂系统,出租车数据只能反映城市交通系统的一个方面,在很多时候具有一定的局限性.随着传感技术的发展与算法理论的进步,未来可以获得全面的交通数据,特别是在目前车联网推进的时代背景下,针对私家车的时空轨迹数据基于本文研究方法开展分析和研究,将对大城市私家车出行的时空分布规律掌握具有重要意义.将对相关的城市规划,交通道路规划,交通管理措施的制定提供重要的参考信息,为改善城市交通服务质量发挥重要作用.

[1] 陈洁.个体时空活动数据的表达与分析:时间地理学方法[D].中国科学院研究生院,2010.[CHEN J, Exploratory data representation and analysis of individual-level spatiotemporal data:A space-time GIS approach[D].Graduate University of Chinese Academy of Sciences Doctoral Dissertation,2010.]

[2] 王家耀,海平,成毅,等.时空GIS的研究与进展[J].海洋测绘,2004,24(5):1-4.[WANG J Y,HAI P,CHENG Y.Research and development of spatiotemporal GIS[J].Marine Surveying and Mapping,2004,24(5):1-4.]

[3] 齐观德,潘纲,李石坚,等.当出租车轨迹挖掘遇见智能交通[J].中国计算机学会通讯,2013,9(8):30-37.[QI G D,PAN G,LI S J,et al.When the taxi trajectory mining meet intelligent transportation[J]. China Society of Computer Communication,2013,9(8):30-37.]

[4] C Chen,D Zhang,P S Castro,et al.IBOAT:Isolationbased online anomalous trajectory detection[J].IEEE Trans.Intell.Transp.Syst,2013,14(2):806-818.

[5] X Li,et.al.Prediction of urban human mobility using large-scale taxi traces and its applications[J].Frontiers of Computer Science,2012,6(1):111-121.

[6] 张健钦,仇培元,徐志洁,等.一种基于手机定位数据的出行行程识别方法[J].武汉理工大学学报(交通科学与工程版),2013,37(5):934-938.[ZHANG J Q, CHOU P Y,XU ZH J,et al.A method to identify trip based on the mobile phone positioning data[J].Journal of Wuhan University of Technology(Transportation Science&Engineering),2013,37(5):934-938.]

Mining Method of Travel Characteristics Based on Spatio-temporal Trajectory Data

ZHANG Jian-qin1,2,QIU Pei-yuan3,DU Ming-yi1,2
(1.Beijing University of Civil Engineering andArchitecture,Beijing 100044,China;2.Key Laboratory for Urban Geomatics of NationalAdministration of Surveying,Mapping and Geoinformation,Beijing 100044,China;3.State Key Lab of Resources and Environmental Information System,Institute of Geographical Sciences and Natural Resources Research,ChineseAcademy of Sciences,Beijing 100101,China)

With the development and application of mobile positioning technology,more and more private cars and taxis are equipped with GPS,and produce a great deal spatio-temporal trajectory data.In order to mine the characteristics of drivers based on these data.This paper studies spatio-temporal trajectory data of taxi in Beijing city from the perspective of time geography,the driver residence mining method and rule analyzing method of work and rest is put forward and is realized,and the experimental results are analyzed. Sample experimental results show the space distribution of the driver residence,and show that the number of driver routines of the total similarity between 0.6-1,accounted for 73.75%of the total.The information mined through the method can provide decision support for the management of the taxi,and the method application for private car has important significance.

urban traffic;information technology;trip characteristics;spatio-temporal data mining;taxi spatio-temporal trajectories

2014-05-08

2014-09-16录用日期:2014-10-08

现代城市测绘国家测绘地理信息局重点实验室开放基金项目(20111216N);北京市优秀人才培养资助个人项目(2011D005017000005).

张健钦(1977-),男,河北保定人,博士,副教授. *

zhangjianqin@bucea.edu.cn

1009-6744(2014)06-0072-07

U121

A

猜你喜欢
居住地作息出租车
爱心健康作息表
你熟悉“成长经典”吗
乘坐出租车
超级秀场 作息规律
鸟类居住地
凭什么
联合多元作息的激光雷达点云多核分类方法研究
流动人口参与居住地选举的困境及其实现路径
开往春天的深夜出租车
李书福炮轰出租车