卫 龙,高红梅
(1.西南交通大学信息化与网络管理处,四川 成都 610031;2.西南交通大学交通运输与物流学院,四川 成都 610031)
基于轨迹数据挖掘的居民出行特征研究进展
卫 龙1,高红梅2
(1.西南交通大学信息化与网络管理处,四川 成都 610031;2.西南交通大学交通运输与物流学院,四川 成都 610031)
轨迹数据的挖掘方法为研究居民出行特征提供了研究新思路,近年来国内外学者开展了大量的相关研究工作。文章从轨迹数据挖掘、人类出行行为模型及利用轨迹数据挖掘提取居民出行特征三个方面,总结了基于轨迹数据挖掘的居民出行特征研究进展,并提出了目前存在的一些问题以及未来的研究方向。
轨迹数据;数据挖掘;居民出行特征;研究进展
在信息时代,人类产生并积累了大量的位置数据,如手机的通话记录、出租车轨迹、公交卡、社交网络位置签到信息等,这些数据记录了移动对象的行为特征,包括位置、时间、速度、方向等属性。这些数据按照时间形成序列,就构成了轨迹数据。移动互联网、智能设备、大数据、云计算、传感器网络、计算机存储等技术的快速发展,使得这些轨迹数据能够保存下来,并被处理。
这些轨迹数据不仅记录了人在时间序列上的位置信息,而且在背后暗含了人与人之间的关系,人与社会之间的关系,人与城市之间的关系等信息。对单一对象而言,个体的活动能够反映个体自身的行为特征。对于群体对象而言,众多个体的活动反映了该群体共同的行为特征。同一城市大量移动对象的活动,则反映了该城市总体的社会活动特征。
城市居民出行特征反映了城市交通的特征。传统的城市居民出行特征可通过经济普查、人口普查及居民出行调查等方法获取,这些方法不但耗时耗力,而且实时性较差、成本较高。大数据时代的到来,为研究获取城市居民出行特征提供了丰富的数据资源,通过轨迹数据挖掘居民出行特征也成为研究热点之一。较传统的研究方法相比,基于轨迹数据挖掘的居民出行特征方法,有研究数据海量化、不需要追加额外的安装和维护费用、投资成本少等优点。
居民出行特征在城市交通和物流等方面有广泛的应用。国内外学者很早就对居民出行特征进行了一定的研究。但是由于技术的限制,当时的居民出行特征获取大多是通过调查的方式来进行,费用比较高。毛海虓(2005)[1]在他的博士论文中提到:上海市在1981年初次进行交通调查时,花费了约100万人民币,作者在1994年参加汕头市的交通调查时,60万人口的城市花费了40万人民币。同时他对居民的出行特征和背后的原因进行了分析。国内外很多学者也通过其他因素分析了居民出行特征。邓毛颖等(2000)[3]通过分析广州市1984年、1998年居民出行调查数据,发现居民以生活购物为目的的出行范围最短,而上班出行范围最远,上学与娱乐介于两者之间。
居民出行特征也是一个动态变化的过程。周钱(2007)[2]通过综合分析社会经济发展情况,并研究相关的居民出行调查资料,发现随着社会经济和城市的发展,我国城市居民出行特征有了显著的变化:经济发达地区中大城市的居民出行特征开始接近于发达国家水平,而中小城市和欠发达地区城市的出行特征和国外的差别还是比较大。不同城市的居民出行特征是不同的。沈俊江(2011)[10]通过对安宁市2009年调查数据的分析,发现中小城市出行次数高、出行距离不长,以上班上学出行为主,体力出行比较多,与大城市的出行模式不同。罗典等(2010)[4]用广州市作为案例,分析了1984年与2005年前后两次居民出行调查数据,发现随着经济的发展和城市空间的变化,居民出行特征也发生了变化。由于城市空间的扩展,居民出行距离增加,出行频率也有所提高,居民采用机动车出行的比例大幅度提高。
居民出行特征与性别、年龄也有关系。Kwan(1999)[5],Kwan etal(2003)[6]发现不同特征群体出行范围具有显著差异。Yuan etal(2011)[7]发现女性的平均活动半径略高于男性;Kang etal(2010)[8]按照年龄把居民分为四组:20岁以下为少年,20岁到39岁为年轻人,40岁到59岁为中年人,60以上为老年人,他们发现少年人和老年人一般没有工作,倾向于围绕一个点做比较短的出行,而年轻人和中年人的出行距离要远得多;Lenormand et al(2015)[9]则分析了影响出行特征的一些因素,例如性别、年龄和收入等,男人、年轻人和活跃的人相对于女人、老年人和不活跃的人而言,出行要短一些,而且出行大多是围绕他们的生活中心进行。文献[8]中的研究数据来源于中国,文章[9]研究的数据来源于西班牙的巴塞罗拉和马德里,他们得出的结论也有不同。
大量轨迹数据的积累和数据挖掘方法的发展为研究居民出行特征提供新的思路。与较传统的研究方法相比,基于轨迹数据挖掘的居民出行特征方法,有研究数据海量化、不需要追加额外的安装和维护费用、投资成本少等优点。因此,基于轨迹数据挖掘的居民出行特征提取,具有比较广阔的研究价值和应用前景,也成为了国内外学者的研究热点之一。
2.1 数据挖掘和轨迹数据挖掘
技术的发展使得人类的历史移动数据能够被持久化保存,从而形成了时空轨迹数据。每条轨迹由一系列的时空采样点构成,采样点有可能包含采样位置、时间、运动速度等属性信息[11]。轨迹数据具有时空属性,与一般的数据有着不同的特点。轨迹数据具有重要的用途,能够应用于交通、能源、智慧城市等方面。轨迹数据挖掘目前已经成为数据挖掘研究领域中的一个重要分支和新兴的研究内容。
数据挖掘(Data Mining,DM)从提出到现在,已经得到了长足的发展。它指从大量的数据通过特定的算法来发现隐藏在数据背后的信息,提取出人们感兴趣的内容。数据挖掘(Data Mining,DM)与知识发现(Knowledge Discovery in Database,KDD)有着紧密的联系,数据挖掘可以看成是知识发现的一个重要步骤。Fayyad定义“KDD”是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程[12]。数据挖掘从20世纪提出到现在已经形成了一些比较成熟的技术,例如统计技术、关联规则分析、决策树、神经网络、回归分析等。
目前,针对轨迹数据的挖掘成为数据挖掘领域的前沿课题,很多学者做了大量的研究[13-16]。特别是Yu Zheng(2015)[13]对轨迹数据挖掘做了一个综述,提出了轨迹数据挖掘的范例。他从轨迹的数据来源、轨迹数据的预处理、轨迹数据的管理、轨迹数据的不确定性、轨迹模式的数据挖掘、异常检测、轨迹数据转换成其他形式等多个方面对轨迹数据挖掘进行了一个比较全面的综述。
2.2 人类出行行为模型
一些学者在研究人类移动性的基础上提出了一些模型。居民出行特征为这些模型提供了数据参考和实证分析工具。
Song(2010)[18]、Gonzalez(2008)[19]等人研究发现,人类的个体行为虽然表面上看起来是随机的、无序的,但实际上在时间上和空间上具有高度的规律性,人类的某些活动行为的可预测性甚至可以达到93%。从这个意义上讲,人类的出行行为可以通过模型来描述和分析。Han(2011)[20]提出了一个层次的地理模型来模拟实际的交通系统,来分析人类轨迹的分布规律。Hu(2011)[21]提出了一个人类和动物进行迁移的通用模型。Simini[2012][22]在分析重力模型的基础上,引入随机过程,提出了辐射模型,并通过实例发现该辐射模型比较符合实际。周涛(2013)[17]对人类行为时间特性的实证分析和建模,人类行为空间特性的实证分析和建模,以及人类行为统计分析的应用研究进行了综述,并提出了若干模型。陆锋(2014)[23]提出随着定位数据的扩充,使得个体移动轨迹和相互作用定量化成为可能,同时信息技术、地理信息科学等交叉学科的发展为研究提供了有力支撑,他将人类移动性的研究归纳为面向人和面向地理空间两大方向。Meng(2015)[24]提出了三种模型来预测人类的出行模式,并利用实际数据来验证这些模型。
这些模型表明人类出行特征具有一定的规律性,从轨迹数据里可以研究居民出行特征。
2.3 利用轨迹数据提取居民出行特征
随着技术的进步,产生了大量的轨迹数据,例如GPS、出租车数据、通话记录等等。很多学者利用这些数据,结合大数据的处理手段,提出了很多方法来研究居民的出行特征。
移动电话的通话记录含有用户的位置信息(这个信息通过基站地位可以获取,定位精度较低),很多学者通过通话记录中的位置信息来研究居民的移动特征。Ahas等(2005)[25]提出,利用手机的定位数据,可以监测人口数量以及居民出行轨迹,可以预测居民的聚集情况,从而提前做出响应。轨迹数据挖掘结果的展示也是一个热点问题,Ratti等(2006)[26]在分析手机数据的基础上,利用热点图来展现城市居民活动时空变化的结果。Sohn等(2008)[27]通过研究提出一种基于手机经过观测点的时间和路径选择概率来间接取数据的方法。Vieira等(2010)[28]通过研究手机通话和短信数据来研究居民出行的密度变化,他们发现在城市中心区,工作日上午的人类密集程度最高,到了下午,密集程度有所下降,而郊区周末时,早上和下午的人类密集程度最高。Phithakkitnukoon(2010)[29],Di(2011)[30]从手机定位数据,利用外部POI(Point of Interest)和土地利用类型来挖掘人类出行模式。Sevtsuk等(2010)[31]研究了罗马398个基站的手机通话数据,发现人类活动特征受到人口、设施以及环境等多种因素的影响。Zhang Da qiang(2012)[33]考虑利用手机轨迹数据来预测用户的位置。他们从MIT Reality Mining的数据库中106人,11508个电话记录,350000小时的记录数据中判断用户的位置。他们提出了一个新的机制NextMe,挖掘在同一个时间段内访问同一个地点的用户轨迹模式,来提高结果的准确性。赖见辉(2014)[34]在博士论文中提出利用移动通信定位数据,采用模糊模式识别方法来进行用户就业地和居住地识别。他以人口普查数据和经济普查数据为基础进行了验证,表明方法具有较高的实用性。
随着车载GPS的普及和应用,尤其是出租车的GPS轨迹信息获取更为容易。GPS的定位数据比较准确,一些学者利用GPS轨迹来获取居民移动特征。Hua(2014)[35]结合地图信息,从GPS轨迹中挖掘人类运行模式。他们先把轨迹分段,寻找特征点,再将特征点与地图进行匹配,最后获取一个地区的人类流动模式。张俊涛(2015)[36]针对出租车轨迹数据,考虑了轨迹的方向和数量特征,将人类活动与高斯定律类比,提出了一种基于高斯定律思想的轨迹挖掘方法,来发现城市居民的出行行为特征。JianXun Cui(2016)[37]利用哈尔滨城市2013年的出租车GPS数据来分析哈尔滨居民的出行需求和运输网络,并在结果的基础上分析城市交通所隐藏的问题。
一些学者融合了多源数据分析居民出行特征。毛峰(2015)[38]结合了出租车车载GPS数据和时空社交媒体数据以及居民出行调查数据来进行识别居民的通勤行为。
一些学者基于马尔科夫模型来预测居民出行行为。Sadilek(2012)[39]构建了一套系统从数据中构建社会关系图,Baraglia(2013)[40]利用机器学习的方法,从历史数据来预测人类未来的出行位置。乔少杰(2015)[41]提出了大数据环境下,移动对象自适应轨迹的预测模型,他引入基于隐马尔科夫模型的自适应轨迹预测模型SATP,对大数据环境下移动海量轨迹利用基于密度的聚类方法进行位置密度分区和高效分段处理,减少HMM的状态数量,并做了实验。实验表明,针对速度随机改变的移动对象,其平均预测准确率为84.1%,高于相同情况下的朴素预测算法。
目前时空轨迹数据的挖掘是数据挖掘研究中的一个热点问题。轨迹数据挖掘方法的发展为研究居民出行特征提供了新的思路。但是利用轨迹数据挖掘居民出行特征的方法还存在一些问题:
(1)数据覆盖面不足。如利用出租车GPS数据来挖掘居民出行特征时,一些很少利用出租车出行的居民的出行特征就无法识别出来。
(2)目前的一些数据,由于保护隐私或者其他原因,缺乏如性别、职业等特征的数据,这样在判断居民出行特征时可能缺乏一些关键参数。
(3)数据挖掘中隐私保护的问题。这个问题与第(2)个问题成为一个矛盾。数据关于个人参数的项越多,个人的隐私的保留的可能性就更大。如何在保护个人隐私和挖掘出有用信息之间找到平衡,是一个值得研究的问题。
(4)轨迹数据数量体量庞大,处理这些数据需要技术的发展和进步。轨迹数据本质上是非结构化数据,目前大数据处理的几个关键技术:Mapreduce[43]技术和Hadoop[42]平台以键值对的形式组织和处理数据,并不太适合处理时空数据模型。
本文主要对基于轨迹数据挖掘的方法来研究居民出行特征的研究进展做了综述。以下方向值得深入探究:
(1)多源数据融合研究。单一数据的覆盖面有限,通过多源数据融合挖掘,能够提高研究居民出行特征的准确性。但是多源数据的挖掘方法与单源数据的挖掘方法是不同的,需要新思路和新手段。
(2)数据隐私保护方法研究。个人数据暴露越多,个人隐私的暴露风险就越大。需要设计合适的算法,通过适当的扰乱对个人原始数据进行不可逆加密,但不影响最终的数据挖掘结果,这就需要多学科交叉以及新的创新。
(3)针对居民出行特征的轨迹数据挖掘框架研究。轨迹数据规模非常庞大,迫切需要高性能的轨迹数据挖掘算法。挖掘的数据和目的不同,数据挖掘的算法和思路也不同。可以针对居民出行特征来设计数据挖掘框架和高效的挖掘算法。
[1]毛海虓,中国城市居民出行特征研究[D].北京:北京工业大学,2005.
[2]周 钱,陆化普,徐 薇,城市居民出行特性比较分析[J].中南公路工程,2007(32):2.
[3]邓毛颖,谢 理.广州市居民出行特征分析及交通发展的对策[J].城市规划,2000,24(11):45-49.
[4]罗 典,甘勇华.城市空间发展对居民出行特征的影响研究:以广州为例[J].交通与运输:学术版,2010(1):11-14.
[5]Kwan M P.Gender and individual access to urban opportunities:a study using space-time measure[J].The Professional Geographer,1999,51(2):210-227.
[6]Kwan M P,Lee J.2003.Geovisualization of human activity patterns using 3D GIS:a time-geographic approach[C].//Goodchild M F,Janelle D G.Spatially integrated socialscience.examples in best practice.Oxford,UK:Oxford University Press:48-66.
[7]Yuan Y,Raubal M,Liu Y.Correlating mobile phone usage and travel behavior:a case study of Harbin,China.Computers,Environment and Urban Systems[J].2011,36(2):118-130.
[8]Kang C,Gao S,Lin X,et al.2010.Analyzing and geo-visualizing individual human mobility patterns using mobile records//Liu Y,Chen A.The 18th international conference on geo informatics.Beijing,China:IEEE:1-7802.11a,Part II:Wireless LAN Medium Access Control(MAC)and Physical Layer(PHY)Specification[S].
[9]Lenormand M,Louail T,Cantúros O G,etal.Influence of sociodemographics on human mobility[J].Scientific Reports,2015,5.
[10]沈俊江,何保红,孙静怡中小城市居民出行特征分析及交通发展对策研究公路工程[J].2011(36):1.
[11]许佳捷,郑 凯,池明旻,等.轨迹大数据:数据、应用与技术现状[J].通信学报,2015,36(12):97-105.
[12]FayyadUM,Piatetsky-ShapiroG,SmythP.Knowledge discovery and data mining:towards a unifying framework[C].//Proceedings of KDD-96:International Conference on Knowledge Discovery and Data Mining.Portland,Oregon:AAAI Press,1996:82-88.
[13]Yu Zheng,Trajectory Data Mining:An Overview.ACM Transaction on Intelligent Systems and Technology,[J].2015,9(6):3,1-41.
[14]吉根林,赵 斌.面向大数据的时空数据挖掘综述[J].南京师大学报:自然科学版,2014(1):1-7.
[15]吉根林,赵 斌.时空轨迹大数据模式挖掘研究进展[J].数据采集与处理,2015,30(1):47-58.
[16]刘大有,陈慧灵,齐 红,等.时空数据挖掘研究进展[J].计算机研究与发展,2013,50(2):225-239.
[17]周 涛,韩筱璞,闫小勇,等.人类行为时空特性的统计力学[J].电子科技大学学报,2013,42(4):481-540.
[18]Song C,Qu Z,Blumm N,etal.Limits of predictability in human mobility[J].Science,2010,327(19):1018-1021.
[19]González M C,Hidalgo C A,Barabási A.Understanding individual human mobility patterns[J].Nature,2008,453(7196):779-782.
[20]Han X P,Hao Q,Wang B H,etal.Origin of the scaling law in human mobility:Hierarchy of traffic systems[J].Physical Review E,2011,83(3):036117.
[21]Hu Y,Zhang J,Huan D,etal.Toward a general understanding of the scaling laws in human and animal mobility[J].Europhysics Letters,2011,96(3):38006.
[22]Simini F,González M C,Maritan A,etal.A universal model for mobility and migration patterns[J].Nature,2012,484(7392):96-100.
[23]陆 锋,刘 康,陈 洁,大数据时代的人类移动性研究[J].地球信息科学,2014(16):5.
[24]Meng Chen a,Xiaohui Yu a,b,Yang Liu,Mining moving patterns for predicting next location[J].Information Systems 54(2015)156-168.
[25]Ahas R,Mark U.Location Based Services-New Challenges for Planning and Public Administrations?[J].Futures,2005,37:547-561.
[26]Ratti C, Frenchman D, Pulselli R M, etal.Mobile Landscapes: Using Location Data from Cell Phones for Urban Analysis[J].Environment and Planning B-Planning & Design,2006,33(5):727-748.
[27]Sohn K,Kim D.Dynamic origin-destination flow estimation using cellular communication system[J].Vehicular Technology,IEEE Transactions on.2008,57(5):2703-2713.
[28]Vieira M R,Frias-Martinez V,etal.Characterizing Dense Urban Areas from Mobile Phone-Call Data:Discovery and Social Dynamics[C].IEEE.Second International Conference on Social Computing(Social Com),Minneapolis:(IEEEXplore),2010.
[29]Phithakkitnukoon S,Horanont T,Di Lorenzo G,etal.Activity-aware map:Identifying human daily activity pattern using mobile phone data[M].In:Albert Ali Salah,Theo Gevers,Nicu Sebe,et al.Human Behavior Understanding.Berlin Heidelberg:Springer,2010:14-25.
[30]Di Lorenzo G,Calabrese F.Identifying human spatio-temporal activity patterns from mobile-phone traces[M].Intelligent Transportation Systems(ITSC),2011 14th InternationalIEEE Conference on.IEEE,2011:1069-1074.
[31]Sevtsuk A,Ratti C.Does Urban Mobility Have a Daily Routine?Learning from the Aggregate Data of Mobile Networks [J].Journal of Urban Technology,2010,17(1):41-60.
[32]Lu X,Wetter E,Bharti N,etal.Approaching the limit of predictability in human mobility.[J].Scientific Reports,2013,3(10).
[33]Daqiang Zhang,Athanasios V.Vasilakos,Prediction Location Using Mobile Phone Calls[J].Acm sigcomm Computer Communication Review,2012,295-296.
[34]赖见辉,基于移动通信定位数据的交通信息提取及分析方法研究[D].北京:北京工业大学,2014.
[35]Hua Yuan,YuQian,RuiYang,MingRen,Human mobility discovering and movement intention detection with GPS trajectories[J].Decision Support Systems,2014 39-51.
[36]张俊涛,武 芳,张 浩,利用出租车轨迹数据挖掘城市居民出行特征[J].地理与地理信息科学,2015(31):6.
[37]JianXun Cui,Feng Liu,Jia Hu,Davy Janssens,Geert Wets,Mario Cools,Identifying mismatch between urban travel demand and transport network services using GPS data:A case study in the fast growing Chinese city of Harbin[J].Neurocomputing,2016(181):4-18.
[38]毛 峰,基于多元轨迹数据挖掘的居民通勤行为与城市职住空间特征研究[D].上海:华东师范大学,2015.
[39]Sadilek A,Kautz H,Bigham J P.Finding your friends and following them to where you are[C].//Proceedings of the fifth ACM international conference on Web search and data mining.ACM,2012:723-732.
[40]Baraglia R,Muntean C I,Nardini F M,etal.LearNext:learning to predict tourists movements[C].//Proceedings of the 22nd ACM international conference on Conferenceon information & knowledge management.ACM,2013:751-756.
[41]乔少杰,李天瑞,韩 楠,等.大数据环境下移动对象自适应轨迹预测模型[J].软件学报,2015,26(11):2869-2883.
[42]The Apache Software Foundation.Welcome to Apache Hadoop[EB/OL].[2013-08-10]http://hadoop.apache. org.
[43]Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
Research Progress on Resident Travel Characteristics Based on Trajectory Data Mining
WEI Long1,GAO Hong-mei2
(1.Information Technology and Network Administration Division,Southwest Jiaotong University,Chengdu,Sichuan,610031;2.School of Transportation and Logistics,Southwest Jiaotong University,Chengdu,Sichuan,610031)
The trajectory data mining method provides a new research idea for the study of resident travel characteristics extraction,thus in recent years,the domestic and foreign scholars have done a lot of related research work.From three aspects of trajectory data mining,human travel behavior model,and resident travel characteristics extraction by using the trajectory data mining,this article summarized the research progress of resident travel characteristics based on trajectory data mining,and proposed some existing problems and future research directions.
Trajectory data;Data mining;Resident travel characteristics;Research progress
国家自然科学基金“大都市区物流企业区位选择模式及演化机理研究:以成都为案例”;(项目号:41501123)
U491.1+22
A
10.13282/j.cnki.wccst.2016.10.022
1673-4874(2016)10-0087-06
2016-09-06
卫 龙(1977—),工程师,在读博士研究生,研究方向:居民出行特征、网络安全、数据挖掘;
高红梅(1981—),工程师,在读博士研究生,研究方向:职住地分布、通信信息、数据挖掘。
四川省重大前沿项目“基于信息理论安全的分布式云存储系统”(项目号:2015JY0282)