基于手机话单数据的通勤出行特征分析
——以深圳市为例

2016-12-14 23:27张玉梁
城市交通 2016年1期
关键词:话单深圳市基站

杨 超,张玉梁,张 帆

(1.同济大学道路与交通工程教育部重点实验室,上海201804;2.中国科学院深圳先进技术研究院,广东 深圳,518055)

基于手机话单数据的通勤出行特征分析
——以深圳市为例

杨 超1,张玉梁1,张 帆2

(1.同济大学道路与交通工程教育部重点实验室,上海201804;2.中国科学院深圳先进技术研究院,广东 深圳,518055)

通过手机话单数据提取用户的出行特征具有可行性。然而,手机话单数据的稀疏性对提取居民出行时间特征造成困难。通过对深圳市手机话单数据的挖掘分析识别居民职住地,得到居民特征通勤序列,进而基于早、晚不同情况对居民通勤特征进行描述和分析。对比分析显示,通过手机话单数据得到的居民通勤距离和时间特征与居民出行调查结果较为一致,说明该方法可用以描述居民通勤特征。研究表明,深圳市居民通勤开始时间受通勤距离影响不大,大于10 km的中长距离通勤出行对应的平均通勤时间维持在一个比较稳定的值(45~50 min)。

交通规划;通勤出行特征;手机话单数据;通勤距离;通勤时间;深圳市

0 引言

至2015年8月,中国移动电话用户已接近13亿[1]。出行群体中的手机拥有率和使用率已达到较高比例。手机作为一种理想的交通探测器的价值逐步得到重视[2-8]。手机数据为居民出行信息分析提供了很好的技术选择,可作为现有交通数据采集技术的重要补充之一[9]。

研究者已经将手机数据应用于居民出行的诸多方面。文献[10]分别用MOLA软件数据和手机通话费用数据进行统计,证明使用手机费用数据可以得到OD矩阵。文献[11]通过计算匿名手机用户移动轨迹混乱程度(熵),发现用户93%的出行可预测。文献[12]提出使用被动手机定位数据(手机通话、短信或者上网产生的手机数据)为移动电话用户定位居住地、工作地或二级出行点等有意义点(Meaningful Place)的模型。由于手机的广泛使用和全球数据格式的相似性,手机数据(被动的)可以很好地用于监控地理信息和居民出行;通过与实际人口注册的职住数据进行对比,发现模型有较好的实用性,并对将来定位服务有较好的潜在使用价值。对用户特殊点的定位可用于人类行为特别是通勤研究,当定位到用户的居住地和工作地时,就可以对用户的通勤特征展开研究。

在通勤出行方面,早期研究多基于居民出行调查。2010年美国社区调查发现,美国不同规模城市的通勤时间为25~35 min[13]。文献[14]用1998年荷兰国家出行调查数据发现通勤时间保持在工作时间的10%左右。文献[15]研究表明人一天平均出行时间为1.1 h,证明通勤时间在一定程度上趋于稳定。2010年在美国麻省理工学院举办的移动手机网络分析研讨会上,文献[16]用手机话单数据对大纽约地区和洛杉矶地区的通勤距离进行估计。文献[17]用手机话单数据判断用户职住地,并用四个区域的手机数据和一个区域的小汽车GPS数据对不同区域用户的通勤特征进行描述和分析。结果表明,一般情况下各个区域内部通勤时间的分布和平均值与通勤距离相互独立,不同区域通勤时间特征不同,但在小汽车出行比例极大的情况下,通勤时间受到通勤距离的影响。然而,由于手机通话数据的稀疏性,作者在判断职住地和通勤时间方面做了很多假设,并对用户的通话频率要求较高,这导致数据筛选过程不够随机;同时由于手机使用习惯存在个体差异,如此筛选将导致样本偏差,从而影响最终结果。

综上所述,通过手机话单数据提取用户的出行特征具有可行性。然而,手机话单数据的稀疏性对提取居民出行时间特征造成困难,研究过程不免加入额外的数据筛选条件和诸多假设。本文通过对用户多天手机话单数据的横向分析,定义用户的特征通勤序列,以此作为最接近用户实际通勤情况的序列分析通勤特征。在用户的选择上,平均每天只有两条记录的用户也可以作为研究样本,使得到的结果更具代表性。

1 基于手机话单数据的通勤特征模型

1.1 数据选取

本文使用深圳市某移动通讯公司2013年8月17日—10月30日(中间部分天数据缺失)的手机话单数据,其中工作日41天。通过手机基站定位用户的定位精度为100~2 000 m[18],基站密度越大,定位精度越高。手机基站区域用Voronoi图确定(见图1),由基站的经纬度位置共定义3 884个基站小区(对经纬度相同、作用于同一区域的基站进行合并),共获取1 114 380 704条原始数据。话单数据中用户编号用以识别用户;基站控制器(BSC)、小区标志、扇区标志三个字段用以确定用户所在基站小区;呼叫标志包括四类数据:主叫为0,被叫为1,硬切换为2,无效值为3(见表1)。

原始数据中存在字段缺失、无法与基站数据匹配以及用户编号错误、记录重复等问题,因此首先对原始数据进行清洗,删除有问题的记录。清洗后共得到704 472 882条数据。

1.2 用户职住地识别

为判断用户的工作地和居住地,本文将深圳市企事业单位工作时段(9:00—18:00)[19]定为居民最可能的工作时段;将20:00—次日8:00定为居民最可能的居家时段。

图1 深圳市手机基站布局Fig.1 Distribution of mobile phone base station in Shenzhen

表1 手机话单数据样本示意Tab.1 Sample of mobile phone calling records

统计用户分别在工作和居家时段产生至少一条通话记录的天数,产生通话记录超过10天的用户数仅为546 594个,这与运营商所服务对象的经济、社会属性和数据质量有关。统计用户在工作和居家时段产生通话记录的天数分布(见图2)可以看出,用户更倾向于在工作时段通话,这与实际情况相吻合。

两周的记录可呈现一定的规律性,用以判断用户职住地特征。为提高工作地和居住地判断的准确性,以10天(相当于两周的数据)作为阈值,筛选在工作及居家时段产生通话记录的天数均大于等于10的用户。

1)居住地判断。

根据居民生活及睡眠习惯,以3:00作为两日分界划分用户一天活动的结束和第二天活动的开始,得到用户每天产生通话的最早记录(3:00之后)和最晚记录(3:00之前)。将8:00之前、20:00之后的记录定为有效的最早、最晚记录。统计各区域产生有效最早、最晚通话记录的频次。为保证结果不受偶然因素影响,将频次大于等于10的用户数据作为有效数据。

2)工作地判断。

将用户在工作时段产生通话记录最多的区域作为用户的工作地。将工作时段中在工作地产生通话记录天数大于等于10的用户数据作为有效数据。

图2 工作日通话记录累积天数对应的用户数量Fig.2 Number of users corresponding to number of days with weekday calling records

1.3 通勤距离计算

用户定位由手机话单数据对应基站确定,无法反映用户的准确坐标。这会产生一定误差,但误差在可接受范围内,而且在整体集计水平下误差会有所削减。

文献[20]指出,在通勤距离大于5 km的情况下,用大圆距离(the great circle distance)修正系数φ可以较为精确地计算已知经纬度的两点的通勤距离

式中:φ为修正系数,一般取1.3~1.4;Radius为地球半径,一般取6 371 km。

在通勤距离小于5 km的情况下,公式(1)中的修正系数随不同交通方式波动较大。为统一分析,本文采取大圆距离计算用户的通勤距离,以1.35作为修正系数。

1.4 特征通勤序列

由于通话的随机性,用户在离开居住地和到达工作地的时刻恰好产生通话记录的概率较小,这也是用手机话单数据提取用户通勤时间特征面临的最大问题。但从用户所有记录天数的情况来看,可以从用户每天产生的居住地—工作地(或者工作地—居住地)连续通话序列的时间差中提取最小时间差(时间差需满足合理的通勤时间范围,本文取大于5 min小于2 h),这一时间差最接近用户实际通勤时间。本文将最小时间差的序列定义为用户的特征通勤序列,表征用户通勤特征。用特征通勤序列的时间差代表用户的通勤时间,将特征通勤序列的开始时间和结束时间作为通勤开始和结束时间的估计。

2 通勤特征分析

本文对12 846个手机用户进行通勤特征分析,用户居住地和工作地分布见图3。可以看出,用户覆盖了深圳市绝大部分区域,能在一定程度上代表深圳市居民的整体情况。将开始于12:00之前的通勤行为定义为早通勤,开始于14:00之后的通勤行为定义为晚通勤,并对早晚通勤特征进行对比分析。

2.1 通勤距离

由用户的通勤距离分布(见图4)可见,大部分通勤集中在10km以内,长距离通勤用户比例较小。用户的平均通勤距离为6.04 km,而深圳市2010年居民出行调查结果为5.40km,结果较为接近(由于数据来自2013年,随着城市扩张,居民的通勤距离有增长的可能)。用户通勤距离分布与对数正态分布函数(见图5)具有较好的拟合度,可决系数R2为0.997 5,该结果也与很多关于人类行为研究的结果相吻合。

2.2 通勤时间

用户早晚通勤时间分布较为相似(见图6),平均通勤时间为29.3 min。考虑到手机话单数据的稀疏性,通勤时间的估计略大于实际情况。而且用户在通勤过程中的其他行为(例如购物、就餐等)也会导致结果偏大。

图3 用户居住地和工作地空间分布Fig.3 Spatial distribution of users'residence and work place

图4 用户通勤距离分布Fig.4 Distribution of commuting distance

深圳市2010年居民出行调查结果中,步行和自行车出行比例为56%,平均出行时耗为17 min;机动化出行比例为44%,平均出行时耗为44 min。由此得到不分方式的平均出行时耗为28.9 min[21],经校验本研究结果比较合理。

将晚通勤时间分布与负指数分布函数进行拟合(见图7),除了通勤时间较短的情况(小于10 min)外,拟合结果较好,可决系数R2为0.999 4。早通勤时间分布也同样符合负指数分布。

图5 用户通勤距离分布拟合Fig.5 Fitting results of distribution of commuting distance

图6 早晚通勤时间分布Fig.6 Distribution of commuting time during morning and evening time periods

图7 晚通勤时间分布拟合Fig.7 Fitting results of distribution of commuting time during evening period

图8 不同距离的平均通勤时间分布Fig.8 Distribution of average commuting time by trip length

图9 通勤开始时刻分布Fig.9 Distribution of commuting departure time

从用户平均通勤时间随通勤距离变化的分布(见图8)可以看出,通勤距离在10 km之内的出行平均通勤时间较短;中长距离(大于10 km)出行的通勤时间较为稳定(45~50 min),在一定程度上符合马切提恒值(Marchetti's Constant),充分反映了居民的通勤距离和时间之间的相互平衡。不同通勤距离造成不同出行行为,体现在不同交通方式间的选择、出行过程的紧凑性等方面。

2.3 通勤开始时刻

用户早通勤和晚通勤开始时刻分布如图9所示,考虑到话单数据的缺陷,这一分布与实际情况相比峰值偏左。早高峰出现在7:00—9:00,晚高峰出现在 17:00—20:00,这与深圳市实际情况相吻合。2010年深圳市居民出行调查中,道路早晚高峰由2 h延长至3~4 h。从本文的结果中也可以看出:早高峰比较集中,近似符合正态分布,峰度较小,并没有表现出延长的趋势;而晚高峰明显表现出延长的趋势,峰度较大。这也与居民的日常行为特性有关,早通勤行为较为固定和集中,晚间可能由于加班等原因导致下班时间较为分散。

通勤开始时刻与通勤距离没有显著关系(见图10),以第一个通勤距离区间(<2.5 km)为基础,分别求得其他通勤距离区间与其相对均方误差

式中:n为通勤开始时刻区间划分个数;yi为通勤距离区间为i的居民通勤开始时刻分布;为通勤距离区间为<2.5 km的居民通勤开始时刻分布。

各通勤距离区间相对均方误差结果见表2,可以看出,通勤距离对通勤开始时刻的影响较小。但随着通勤距离的增加,通勤开始时刻有向左偏移的趋势,并集聚性减弱。

3 结语

本文通过手机话单数据识别用户职住地,据此分析用户的通勤特征,所得结果与实际调查结果较为接近。研究发现,深圳市通勤交通中,早通勤开始时刻分布较为集中,而晚通勤开始时刻的分布具有较大的分散性,使得晚通勤的高峰时间延长,这与深圳市居民日常行为习惯一致。深圳市居民通勤开始时刻受通勤距离的影响不大,这与通勤时间随通勤距离的变化较为稳定有关。在短距离通勤出行中,通勤时间变化较小,而中长距离通勤出行所耗费的平均通勤时间则基本为45~50 min。本研究方法能够较为快速、准确地得到城市居民通勤特征,节省传统交通调查耗费的大量人力、物力成本。

手机话单数据在时间判断的准确性方面存在误差,本文通过多天横向筛选,得到比较稳定的结果。手机数据可以得到比交通调查更加详细的信息,例如用户在通勤途中经过的位置序列。虽然由于话单数据的稀疏性,并不能完整地再现用户位置变化序列,但当数据天数较大时,则有较大的概率捕捉到用户通勤中间的停留信息。这可以对用户的通勤习惯做进一步分析,进而获得用户与通勤相关的活动特征,这也是本文后续研究的方向。

图10 不同距离的通勤开始时刻分布Fig.10 Distribution of commuting departure time by trip length

表2 相对均方误差计算结果Tab.2 Results of relative mean square error

[1]中华人民共和国工业和信息化部.2015年8月电话用户分省情况[EB/OL].2015[2015-12-01].http://www.miit.gov.cn/n1146312/n1146904/n1648372/c4324187/content.html.

[2]Pan Changxuan,Lu Jiangang,Di Shan,Ran Bin.Cellular-based Data-extracting Method For Trip Distribution[J].Journal of the Transportation Research Board,2006,1945:33-39.

[3]Qiu Zhijun,Cheng Peng,Jin Jing,Ran Bin.State of the Art and Practice:Cellular Probe Technology Applied in Advanced Traveler Information System[J].World Review of Intermodal Transportation Research,2009,2(2):247-260.

[4]Qiu Zhijun,Cheng Peng,Ran Bin.Issues of Using Cell Phone Probes to Estimate Traffic in the Developing Country[C/OL].The 11th World Conference on Transportation Research,June 24-28,University of California,Berkeley.Lyon:World Conference on Transport Research Society.[2015-12-01].http://xueshu.baidu.com/s?wd=paperuri%3A%28ee9 f3555e8817424efc6606d4d9e62bd%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22 v&sc_vurl=http%3A%2F%2Ftrid.trb.org%2Fview.aspx%3Fid%3D889686&ie=utf-8.

[5]Qiu Zhijun,Cheng Peng,Ran Bin.Investigate the Feasibility of Traffic Speed Estimation Using Cell Phones as Probes[J].International Journal of Services Operations and Informatics,2007,2(2):53-64.

[6]Cheng Peng,Qiu Zhijun,Ran Bin.Traffic Estimation Based on Particle Filtering with Stochastic State Reconstruction Using Mobile Network Data[C]//TRB.TRB 85th Annual Meeting Compendium of Papers CD-ROM.Transportation Research Board 85th Annual Meeting,January 22-26,2006,Washington DC.Washington DC:TRB,06-2395.

[7]Qiu Zhijun,Ran Bin.Kalman Filtering Applied to Network-based Cellular Probe Traffic Monitoring[C]//TRB.TRB 87th Annual Meeting Compendium of Papers DVD.Transportation Research Board 87th Annual Meeting,January 13-17,2008,Washington DC.Washington DC:TRB,08-1984.

[8]刘杰,胡显标,傅丹丹,陈明威.基于无线通信网络的人员出行信息分析系统设计与应用[J].公路交通科技,2009,26(S1):151-154.Liu Jie,Hu Xianbiao,Fu Dandan,Chen Mingwei.Design and Application of Trip Information Analysis System Based on Wireless Communication Network[J].Journal of Highway and Transportation Research and Development,2009,26(S1):151-154.

[9]冉斌.手机数据在交通调查与交通规划中的应用[J].城市交通,2013,11(1):72-81.Ran Bin.Use of Cellphone Data in Travel Survey and Transportation Planning[J].Urban Transport of China,2013,11(1):72-81.

[10]White J,Wells I.Extracting Origin Destination Information from Mobile Phone Data[C]//IEE.Proceedings of the 11th International Conference on Road Transport Information and Control.London:IET,2002:30-34.

[11]Song Chaoming,Qu Zehui,Blumm N,et al.Limits of Predictability in Human Mobility[J].Science,2010,327(5968):1018-1021.

[12]Ahas R,Silm S,Järv O,et al.Using Mobile Positioning Data to Model Locations Meaningful to Users of Mobile Phones[J].Journal of Urban Technology,2010,17(1):3-27.

[13]U.S.Census Bureau Website.American Community Survey(2010)Commuting(Journey to Work)[EB/OL].2011[2015-12-01].http://www.census.gov/hhes/commuting/.

[14]Schwanen T,Dijst M.Travel-time Ratios for Visits to the Workplace:The Relationship between Commuting Time and Work Duration[J].Transportation Research Part A:Policy and Practice,2002,36(7):573-592.

[15]Schafer A,Victor D G.The Future Mobility of the World Population[J].Transportation Research Part A:Policy and Practice,2000,34(3):171-205.

[16]Isaacman S,Becker R,Cáceres R,et al.A Tale of Two Cities[C]//Petrioli C,Cox L,Whitehouse K.Proceedings of the Eleventh Workshop on Mobile Computing Systems&Applications.New York:ACM,2010:19-24.

[17]Kung K S,Greco K,Sobolevsky S,et al.Exploring Universal Patterns in Human Home-Work Commuting from Mobile Phone Data[J].PloS ONE,2014,9(6):e96180.

[18]杨东援,段征宇.大数据环境下城市交通分析技术[M].上海:同济大学出版社,2015.

[19]Xu Ning,Yin Ling,Hu Jinxing.Identifying Home-Work Locations from Short-term,Large-scale,and Regularly Sampled Mobile Phone Tracking Data[J].Geomatics and Information Science of Wuhan University,2014,39(6):750-756.

[20]Chalasani V S,Engebretsen O,Denstadli J M,et al.Precision of Geocoded Locations and Network Distance Estimates[J].Journal of Transportation and Statistics,2005,8(2):1-15.

[21]深圳市规划国土发展研究中心.2010年居民出行调查及分析[R].深圳:深圳市规划国土发展研究中心,2011.

Commuting Characteristics Analysis Based on Mobile Phone Calling Records:A Case Study in Shenzhen

Yang Chao1,Zhang Yuliang1,Zhang Fan2
(1.Key Laboratory of Road and Traffic Engineering of the Ministry of Education,Tongji University,Shanghai 201804,China;2.Shenzhen Institutes of Advanced Technology,Chinese Academy of Sciences,Shenzhen Guangdong 518055,China)

It is feasible to use mobile phone calling records to analyze commuting characteristics.However,the sparsity of calling records could potentially hurdle the data acquisition for commuting time estimation.This paper identifies location of users'residence and work place using mobile phone calling records in Shenzhen,which can be used to analyze residents'commuting characteristics during morning and evening commuting times.The analyses show that the similar commuting characteristics are observed from both data sources,i.e,the conventional travel surveys and mobile phone calling records,which approves phone calling records can be utilized for commuting studies.The results also reveal that there is no significant differences between commuting departure time and commuting distance in Shenzhen,and commuting time relatively remains constant(45~50 min)for commuting trips longer than 10 km.

transportation planning;commuting characteristics;mobile phone calling records;commuting distance;commuting time;Shenzhen

1672-5328(2016)01-0030-07

U491.1

A

10.13813/j.cn11-5141/u.2016.0105

2015-09-05

国家自然科学基金项目“城市居民日常活动需求产生机理及行为模型”(71171147)、中央高校基本业务费资助项目“基于非期望效用理论的城市居民活动决策行为研究”

杨超(1974—),男,上海人,博士,教授,博士生导师,主要研究方向:交通规划、网络优化、交通大数据等。E-mail:tongjiyc@tongji.edu.cn

猜你喜欢
话单深圳市基站
深圳市鑫钻农牧科技有限公司
深圳市朗仁科技有限公司
深圳市元征科技股份有限公司
河北大名话单元音韵母、单字调及双音节非轻声词连调的实验语音学初探
深圳市元征科技股份有限公司
基于移动通信基站建设自动化探讨
可恶的“伪基站”
基于GSM基站ID的高速公路路径识别系统
小基站助力“提速降费”
移动数据流量业务阀值提醒短信下发时延的优化与应用