基于手机数据的城市交通大区OD分布估计
——以旧金山市为例

2016-12-14 23:28航,孙黎,王
城市交通 2016年1期
关键词:手机用户大区小汽车

龚 航,孙 黎,王 璞

(中南大学交通运输工程学院,湖南长沙410075)

基于手机数据的城市交通大区OD分布估计
——以旧金山市为例

龚 航,孙 黎,王 璞

(中南大学交通运输工程学院,湖南长沙410075)

在大数据时代,手机数据因普及率高、采集成本低等优点逐渐受到人们的重视。手机通信运营商在为手机用户提供通信服务的同时会记录每次服务的时空信息,因此利用手机数据可以挖掘出用户的位置信息,并应用于城市居民出行OD分布估计。提出以手机数据为基础对城市交通大区之间OD分布进行估计的方法。利用居民手机数据估计美国旧金山市各交通大区之间的出行分布,并结合居民出行调查数据对估计结果进行检验。结果显示基于手机数据的出行估计具有较高的可靠性。

交通规划;交通需求预测;手机数据;OD分布估计;旧金山市

0 引言

手机已经成为人们日常生活的必需品。当一个手机用户使用手机通话、发送(接收)短信、浏览网页时,为其服务的手机基站以及服务时间均被记录下来,形成手机账单数据。手机数据具有采集方便、实时性高等特点。随着计算机技术的快速发展,对海量手机数据的采集与挖掘已成为可能,大数据分析开始逐渐成为解决交通调查问题一种崭新、有效的途径[1-2]。使用手机数据对居民出行进行预测已取得众多成果。文献[3]发现,居民出行有很高的可预测性,出行者位置预测的准确率最高可达93%;文献[4]提出行为空间(Behavior Space)的概念,并利用特征向量进行特征行为分析,预测出行者在各个时段的位置等。这些研究成果为使用手机数据预测交通OD提供了理论依据。通过对手机数据的分析挖掘来获取交通信息,越来越受到研究者的关注[5-7]。

本文利用手机数据提取交通信息,提出一种有效的方法来估计城市交通大区间的OD,并以美国旧金山市为例,将估计得到的出行需求OD和实际调查数据进行对比以验证方法的有效性。

1 OD分布估计方法

1.1 利用手机数据估计交通出行的原理

手机账单数据记录了某一时刻、某一基站向用户提供的通讯服务,可由此获得用户的时间位置记录。通过Voronoi图确定每个手机基站所服务的区域,这些由基站所划分的多边形区域被称为基站小区。

由于手机用户何时何地使用手机存在不确定性,故用户的位置信息可能存在缺失。如图1所示,一个手机用户被观察到先后在基站小区B和C使用了手机,但是出行的起点和终点可能位于基站小区A和D,在这种情况下部分出行信息会缺失。但是,基站小区A和B可能同属于交通大区I,基站小区C和D可能同属于交通大区II,出行信息缺失所造成的影响在研究交通大区间出行需求时会有所减少。因为交通大区覆盖的面积较大,当用户进行交通大区之间的出行时,大区之间的较远距离会使出行时间更长,用户的位置变化会更加明显,在较长时间内用户使用手机的可能性也会增加,所以实际出行的起讫点和手机数据记录的出行起讫点会有更大的可能分别属于同一大区。因此,尽管使用手机数据只能捕捉到用户出行中的部分信息,但仍然可以记录大部分交通大区之间的出行。

1.2 筛选手机用户

图1 手机用户出行路径模拟Fig.1 Travel route simulation of a mobile phone user

由于需要足够多的时间位置记录才能挖掘手机用户出行特征,进而保证交通需求预测的准确性。因此,第一次筛选选取有足够多时间位置记录的手机用户。

第二次筛选需选取具有住址信息的手机用户,以便知悉其住址所在基站小区。21:00—7:00被认为是用户的在家时间。用户的时间位置记录中在该时段内出现次数最多的基站小区,可被定义为手机用户住址所在的小区。如果该时段内用户没有时间位置记录,则无法确定该用户的住址小区。

1.3 估算基站小区间的出行总量

使用手机数据估计居民出行特征时,需要观察手机用户在不同时刻的位置,这需要较长时间内连续的用户位置记录。为获取用户在不同区域出行的高精度数据,只选取位置在较短时间窗内发生变化的时间位置记录。为保证居民出行信息的提取,需选取足够长的时间窗,并且将一次出行定义为一个时间窗之内发生的位置变化。

在估算各个基站小区间的出行量时,由于手机用户只占全体居民的一部分,手机数据中所包含的用户也只是所有手机用户中的一部分,所以当对每个基站小区间的居民出行特征进行估算时需要进行扩缩样。如果一个用户在选定时段内相邻两次时间位置记录发生改变(即有不同基站为其服务),且这两次位置记录的时间间隔小于一个时间窗,则认为该用户进行了一次出行。任意两个基站小区的出行量

式中:Fij指一个时间窗内由小区i至小区j的手机用户出行总量;N代表筛选后的手机用户总量;代表用户n在该时段内由小区i至小区j的出行量。

通过数据筛选,被筛选出的每个手机用户都有一个住址所在基站小区,对各个基站小区内的手机用户数量进行求和,可以得到每个小区的手机用户总量。每个基站小区的居民人口和手机用户间的扩缩样系数

通过对用户、小区的逐级求和并进行扩缩样处理,得到基站小区间的居民出行总量

式中:ODall表示基站小区间的出行总量;代表小区k的用户n在某时段由小区i至小区j的出行量;是第k个小区的手机用户总量;A为小区总量。

1.4 估算基站小区间小汽车出行量

得到基站小区之间的出行总量后,需要从中挑选出小汽车出行,包括单独驾车出行和拼车出行。将出行方式划分为小汽车出行和其他出行方式(步行、自行车、公共交通等),各个小区的小汽车使用比例[8]

计算得到每个小区的小汽车使用比例后,将该小区的手机用户按照VURsta随机分为小汽车出行者和其他交通方式出行者,则小区i和小区j之间的小汽车出行量

根据研究区域的每日出行总量和出行量在时间上的分布,可以估算出小区间每小时的小汽车出行量

1.5 计算交通大区间小汽车出行量

在获得每个小区间小汽车出行量后,将每个小区归并到相应的交通大区中,同时对各个小区间的出行进行归并。若两个基站小区属于不同交通大区,则二者间的出行记为交通大区之间的出行;若两个基站小区同属于一个交通大区,则认为二者间的出行为交通大区内部出行。最终得到研究区域内的交通大区OD。

2 旧金山市交通大区OD分布估计

2.1 数据

本文使用的数据主要包含手机数据和实际通勤数据两种。手机数据用来获得用户位置并估计其出行,实际通勤数据用来检验估计结果的准确性。由于获得的手机数据覆盖了美国加州整个湾区,而实际通勤数据只覆盖旧金山市,因此将旧金山市作为研究对象。旧金山市是加州第四大城市,人口85万,市区面积119 km2。所使用的旧金山市路网数据包含高速公路和主干路,共有2 823条路段和1 144个道路交叉口(见图2)。

本文所使用的手机数据来自文献[6-7],由美国某通讯运营商提供,包含40多万用户在3个星期的3.7亿多条手机记录,涉及手机基站892个(见图3)。为保证服务区域的有效性,根据湾区行政边界对位于边界上的基站小区进行修正。

2.2 OD分布估计步骤

2.2.1 手机用户筛选

原始手机数据来自于429 598个手机用户,对每一个用户建立时间位置记录表(见表1)。按照手机记录超过10条的标准[6]进行第一次筛选,共筛选出369 614个手机用户。

图2 旧金山市路网和基站小区Fig.2 Road networks and base station tracts of San Francisco

表1中,记录1—5为早高峰时段的手机记录。记录1和记录2的时间差大于1 h,而记录2和记录3位置未发生改变,故记录1—3无效;记录3—5有效,记录3—4与记录4—5分别记为一次出行。记录8—10为晚间记录,72号基站出现次数最多,故将其作为用户的住址小区。第二次筛选共得到326 565个用户。

图3 湾区及旧金山市手机基站小区Fig.3 Base station tracts of BayArea and San Francisco

表1 用户手机时间位置记录示例Tab.1 Examples of mobile phone users'space-time records

图4 旧金山市居民早高峰时段出行时长分布Fig.4 Distribution of travel time for San Francisco residents in the morning peak period

2.2.2 基站小区间出行量

高峰时段是一天出行集中的时段,最容易反映交通存在的问题又不失一般性,故选择早高峰时段作为研究时段。根据文献[6-7],选取早上6:00—10:00作为早高峰时段。利用旧金山市出租汽车GPS数据计算得到每条路段实际行驶时间,对旧金山市早高峰所有出行按照最短路径算法选择路径,得到每次出行所需时间。由图4可以看出,旧金山市的出行时间均小于30 min。在保证出行信息能够提取的情况下,选取1 h作为一个时间窗,并且定义一次出行是指在规定时段(6:00—10:00)1 h内发生的位置变化。

使用时间位置记录表计算每个手机用户的出行量,运用公式(1),(2),(3)得到湾区基站小区间的居民出行总量。

2.2.3 湾区各小区间早高峰小汽车出行量

湾区人口数据中包含每个基站小区驾车单独出行和拼车出行的居民人口比例,加州地区拼车出行的平均人数为2.25人[9]。运用公式(4)得到每个小区的小汽车使用比例(见图5)。由图5可见,旧金山市小汽车使用比例低于湾区郊区。

美国人均日出行次数约为4次,湾区每天产生约2 200万人次的出行[9]。根据出行量在时间上的分布,可以估算出湾区每小时出行量Wh[10]。经计算,湾区早高峰每小时小汽车出行量达847 056车次。依照公式(6)得到基站小区之间早高峰每小时的小汽车出行量。

2.2.4 提取与旧金山市有关的出行

通过以上步骤获得了整个湾区基站小区间的早高峰每小时小汽车出行量根据以下条件挑选出与旧金山市相关的出行起点小区和终点小区均在旧金山市内的出行起点小区和终点小区一个在市内一个在市外的进出城出行出行起点小区和终点小区均在旧金山市外的过境出行

在起点小区和终点小区内随机取一个交叉口作为出行起讫点,采用Dijkstra算法计算这些出行所使用的路径。对于进城出行,将进入旧金山市的第一个基站小区为起点小区;对于出城出行,将出旧金山市前的最后一个基站小区作为终点小区;对于过境出行,选取进入旧金山市的第一个小区和出旧金山市前的最后一个小区作为起点和终点小区。最终共得到与旧金山市有关的小汽车出行量111 143车次,其中市内出行和进出城出行共106 609车次,市内出行33 340车次,过境出行4 534车次。

2.2.5 基站小区OD归并到交通大区

交通大区一般会以行政区域划分,或者以明显的山川河流划分[11]。由于旧金山市没有更小的行政区划,也没有对交通产生明显影响的山川河流界限,因此按照方位大致将几个基站小区合并成一个交通大区(见图6)。对各个基站小区间的出行进行归并,得到交通大区之间的早高峰出行量(见图7a)。

2.3 获得交通调查数据中交通大区通勤OD分布

鉴于早高峰出行近似等于早高峰通勤出行,所以使用旧金山市的通勤数据来检验手机数据估计的结果。旧金山市的通勤OD数据来自美国人口普查局网站(www.census.gov),由街区尺度上的居民家庭位置和工作位置构成[12]。由于居民出行会采取不同出行方式,例如单独驾车、拼车、公共交通、自行车和步行等,根据出行方式划分数据,可以利用类似于公式(4)的方式得到每个人口小区的小汽车使用比例

为了方便将人口小区(即街区)归纳到交通大区中,这些通勤OD被投影到旧金山市路网的道路交叉口上。投影规则为选取距离每个街区形心最近的道路交叉口,然后基于旧金山湾区每小时出行总量Wh,调整早高峰通勤OD中小汽车出行量,最终得到早高峰每小时的小汽车通勤OD[13-14]。

实际调查获得的通勤出行总量为140 986车次,其中市内出行和进出城出行共124 595车次,市内出行31 293车次,过境出行16 391车次。最后,将旧金山市路网中1 144个交叉口归属到9个交通大区中,得到基于人口普查数据的旧金山市交通大区通勤出行量(见图7b)。

2.4 检验

将得到的结果分为全部出行、市内出行和进出城出行以及市内出行三种情况进行T检验。由于过境出行量只涉及旧金山市主要出入口道路所在的少数几个小区,故本文不对过境出行进行检验。T检验可以检测两个样本差异的显著性,在此用来检验交通调查数据与手机数据估计结果的差异。本文取显著性水平α=0.05,两个样本设定为配对样本。由表2可见,三种情况下p值均大于显著性水平0.05,故可以认为没有显著差异,从而验证了手机数据估计结果的可靠性。

图5 湾区各基站小区小汽车使用比例Fig.5 Private vehicle using rate within each tower station tract in the BayArea

图6 旧金山市交通大区划分Fig.6 Mega TrafficAnalysis Zones in San Francisco

对大区之间出行量进行对比,发现大部分估计值与调查值相差不大,但也存在个别偏差较大的情况,例如图7右侧中间大区与一些大区间的出行量相差较大。原因可能在于该大区手机数据采样率较低,对估计结果影响较大。

3 结语

本文介绍了一种利用手机数据估计OD分布的方法,对旧金山市早高峰时段的交通大区OD分布进行估计,并与实际调查数据进行对比,证明了使用海量手机数据估计城市OD分布的可行性和可靠度。利用手机数据预测居民出行,提供了一种更加便捷、低成本的途径来实现城市交通调查。手机数据具有实时性强、覆盖率高等优势,可以实现城市交通问题的及时反馈、实时处理,进一步提高交通管理的智能化水平。但是,由于手机数据本身稀疏、无规律,以及本文使用的数据采样率偏低、时间跨度短、忽略了扩缩样误差等原因,部分大区间交通需求预测存在较大偏差。未来研究可从以下方面对该方法进行改进,提高运用手机数据估计城市通勤OD的准确性:1)使用采样率更高、时间跨度更大的手机账单数据;2)运用浮动车GPS数据等多元数据对方法进行修正;3)使用记录更加详细、数据密度更高的手机信令数据。

图7 交通大区出行OD分布对比Fig.7 Comparison between obtained OD with surveyed OD

[1]丘建栋,陈蔚,宋家骅,段仲渊,赵再先.大数据环境下的城市交通综合评估技术[J].城市交通,2015,13(3):63-70.Qiu Jiandong,Chen Wei,Song Jiahua,Duan Zhongyuan,Zhao Zaixian.Comprehensive Assessment of Urban Transportation Using Big Data[J].Urban Transport of China,2015,13(3):63-70.

[2]王璞,黄智仁,龚航.大数据时代的交通工程[J].电子科技大学学报,2013,42(6):806-816.Wang Pu,Huang Zhiren,Gong Hang.Transportation Engineering in the Big Data Era[J].Journal of University of Electronic Science and Technology of China,2013,42(6):806-816.

[3]Song C,Qu Z,Blumm N,et al.Limits of Predictability in Human Mobility[J].Science,2010,327(5968):1018-1021.

表2 T检验结果Tab.2 T-test results

[4]Eagle N,PentlandAS.Eigenbehaviors:Identifying Structure in Routine[J].Behavioral Ecology and Sociobiology,2009,63(7):1057-1066.

[5]杨飞.基于手机定位的交通OD数据获取技术[J].系统工程,2007,25(1):42-48.Yang Fei.The Technology of Acquisition Traffic OD Based on Mobile Location-based Data[J].Systems Engineering,2007,25(1):42-48.

[6]Wang P,Hunter T,Bayen A M,et al.Understanding Road Usage Patterns in Urban Areas[J].Scientific Reports,2012,2(12):1-6.

[7]Wang J,Wei D,He K,et al.Encapsulating Urban Traffic Rhythms into Road Networks[J].Scientific Reports,2014,4(7488):4141.

[8]Caliper Website.Travel Demand Modeling[EB/OL].[2015-10-05].http://www.caliper.com/TCTravelDemand.htm.

[9]University of South Florida.State Averages for Private Vehicle Occupancy,Carpool Size and VehiclesPer100Workers[EB/OL].[2015-10-05].http://www.nctr.usf.edu/clearinghouse/censusavo.htm.

[10]United States Department of Transportation.National Household Travel Survey[EB/OL].[2015-10-05].http://www.rita.dot.gov/bts/sites/rita.dot.gov.bts/files/subject_areas/national_household_travel_survey/index.html.

[11]中国百科网.交通规划的基础内容与客流OD矩阵估计[EB/OL].2013[2015-10-05].http://www.chinabaike.com/t/10383/2013/0827/1461602.html.

[12]US Census Bureau.The 2010 Census[EB/OL].[2015-10-05].http://www.census.gov/geo/www/tiger/tgrshp2010/tgrshp2010.html.

[13]Xu Z,Sun L,Wang J,Wang P.The Loss of Efficiency Caused by Agents'Uncoordinated Routing in Transport Networks[J].Plos One,2014,9(10):e111088-e111088.

[14]Sun L,Liu L,Xu Z,et al.Locating Inefficient Links in a Large-scale Transportation Network[J].Physica A:Statistical Mechanics and ItsApplications,2015,419:537-545.

Using Mobile Phone Data to Estimate Trip Distribution of Urban Mega Traffic Analysis Zones:A Case Study in San Francisco

Gong Hang,Sun Li,Wang Pu
(School of Traffic and Transportation Engineering,Central South University,Changsha,Hunan,410075)

When stepping into Big Data Era,mobile phone data attract more and more attentions by transportation domain because of its high penetration rate and low collecting cost.Mobile phone operators record temporal and spatial information of users when providing services.This new data stream turns to be a promising resource to estimate trip distribution pattern due to the fact that each record is able to provide the space-time information.This paper proposes a method to estimate OD distribution among urban mega traffic analysis zones based on mobile phone data mining.A case study of San Francisco,US is selected to implement mobile phone data mining-based OD extraction by proposed method.The outcome is further statistically validated by household survey data.Results reveal that the proposed mobile phone data miningbased approach is able to generate a promising result.

transportation planning;travel demand prediction;mobile phone data;OD estimation;San Francisco

1672-5328(2016)01-0037-06

U491.1

A

10.13813/j.cn11-5141/u.2016.0106

2015-08-25

龚航(1990—),男,河南信阳人,硕士研究生,主要研究方向:交通规划、数据挖掘等。E-mail:gonghang@csu.edu.cn

猜你喜欢
手机用户大区小汽车
涪陵:工业大区打开绿色新场景
小汽车
智利第一大区HNX矿区IOCG型铜矿床地质特征
我的玩具小汽车
拼一拼
基于蓝牙技术的蓝牙路况测险仪设计研究
基于安卓手机用户行为的人口学信息预测
基于手机用户认知视角的“双十一”期间网络广告效果研究
数 字
聚集力量 蓄势待发——力至优各大区隆重召开年会