邓红星,韩树鑫
(东北林业大学 交通学院, 哈尔滨 150040)
城市居民出行分析在城市交通规划中起着重要作用,其出行特征随着季节变化存在一定的相关性。在特定的城市,季节性差异尤为明显且更加有研究意义。
手机信令数据覆盖面全、动态性强、精度高且有较强的信息相关性,其中丰富的用户行为信息能够为交通规划分析提供数据基础。将获得的信令数据映射到对应的交通单元,经过数据的降噪和扩样等处理,获取城市居民出行数据。通过手机信令数据,可获取区域人口统计(分时、分天、分网格)、交通小区OD统计、画像统计(性别、年龄、话费、来源地)等信息,还可以提取出较完整的居民出行链,满足城市居民出行时空分布研究、区域需求热点调查等需求。以哈尔滨市为例,基于手机信令数据分别从夏、冬两季分析居民出行特征的季节性差异,对城市交通区域间的出行特性进行量化,分析居民出行的季节性规律。
目前,通过大数据进行出行特征分析的研究逐渐增多。Liu等[1]以昆山为例通过提取手机信令的OD信息,分析居民医疗出行特征,为城市公共医疗服务设施供需评估和布局优化决策提供基础数据支撑。Su等[2]通过多种大数据融合分析居民出行特征,并与传统方法进行对比,突显了多元数据融合分析方法的可靠性。Liu[3]基于信令数据实证研究,发掘城际公路交通出行特征与城市各项发展水平的相关性。Etminani-Ghasrodashti等[4]对伊朗居民出行进行实证调查,通过构建SEM模型,以家庭为单位分析出行特征与社会各方面的联系。Papadimitriou[5]以雅典市为研究区域,采用机器学习模型,从道路、交通、人为3个方面分析行人的出行行为特征。
汪磊等[6]基于手机信令数据分析了多种出行特征,并结合机器学习模型,对出行方式进行了识别。唐语灏[7]在对手机信令数据处理之后,运用交通出行模型分析了城市居民OD特征。丘建栋等[8]以深圳为研究区域,利用手机信令数据研究居民的出行行为特征,发现无论是否居住在深圳市内,其职住的通勤吸引力都很强。曹晓蕊[9]通过时空DBSCAN聚类算法从信令数据中提取移动轨迹,利用轨迹分析了居民出行特征。王京伟等[10]以吉林市为例,对比夏季冬季调查数据,对出行强度密度、出行方式结构、出行特征等都进行了分析,对于寒地城市交通规划发展有着积极作用。杨喜平等[11]将研究对象按年龄、性别、是否是工作日分别分析,利用手机信令数据定量分析了出行特征差异。
研究数据来源是哈尔滨某运营商手机用户在2019年6月和11月产生的手机信令数据。共包含约400万用户,通过扩样可代表哈尔滨市居民在这2个季节的行为特征。
原始数据的处理流程:将原始数据中的用户识别码作为用户数据的唯一ID进行处理以方便利用;提取出原始数据的有效信息,删去残缺编码,改变起始时间的格式(年月日时分秒),并排序;把位置坐标信息同步到所处基站位置编码,便可以得到较为完整的数据[12]。
数据清洗主要针对在手机信令数据采集中产生的2种现象:乒乓效应和数据漂移。
对于乒乓效应,结合手机信令特性,采用空间-时间约束平滑方法技术,提取信令数据用户的出行链。以当前信令数据所在位置为圆心画圆,当下一条信令数据在特定时间内跳转到圆外,并返回原位置时,用户被视为停留。根据调查与分析计算,空间位移500 m以内视为停留,信令采集时点静止不超过30 min视为正常。
对于数据漂移,采用速度检测筛选。由于数据漂移的发生往往在一瞬间,这就导致该时段的居民出行速度急剧升高。通过手机信令数据获取的地理位置信息计算漂移的距离(最小距离约500 m):
(1)
cos(Latn+1)cos(Latn)haversin(Lotn+1-Lotn)
(2)
根据式(1)和式(2)计算出相邻时间下两点的距离后,可以得出该时间段内的速度。若求得的速度大于哈尔滨市内交通最大值,则将该条数据认定为漂移数据并删除。
采用时间间隔进行检测筛选。数据漂移现象的产生时间相当短,提取第m号数据及其前后两条数据,分别计算第m号数据与其前后两条数据的地理距离。将计算出来的结果代入式(3)进行比较,若比值大于3,则将第m条数据认定为漂移数据并删除[12]。
(3)
其中:d(m)为该数据与下一条数据的距离,d(m-1)为该数据与上一条数据的距离。
以哈尔滨市主城区为研究区域,从居民出行时空特征和出行强度特征两大方面进行量化分析,结合多种指标来研究哈尔滨市居民出行特征。
2.1.1出行时间分布特征的预测与分析
掌握居民出行时间特征有利于提前部署交通规划方案,能够有效缓解交通拥堵、交通流分配等问题。按一天内的出行时点分析,分别提取哈市居民在夏、冬2个季节的一周工作日数据,并根据出行时间分布制作夏季、冬季一周工作日出行时点分布图,见图1。
图1 夏季、冬季一周工作日出行时点分布图
可以看出,哈尔滨市居民在夏季和冬季的早晚高峰出行量占比的爬升均比较明显,且在中午都存在高峰时段,但夏季晚高峰持续时间较长,晚上出行持续时间长,在凌晨会有出行小高峰。相对于夏季,冬季晚高峰时段略有提前,而且20∶00以后道路流量下降速度明显快于夏季。
按1个月内的出行时点分析,提取夏季和冬季各1个月的居民出行量情况,见图2。可以看出,夏季出行量波动较大,冬季则较为平缓。居民在夏季更多选择在周末出行,在冬季则会选择天气更适宜出行的日期出行。
图2 夏季冬季一月内出行时间分布图
居民在1个月内的每日出行总量归根结底是时间序列。采用差分整合移动平均自回归(ARIMA)模型,分别对夏季、冬季居民每日出行总量这2个时间序列进行未来预测。建立ARIMA模型步骤为:获取观察值序列;平稳性检验(平稳则跳过下一步);差分运算;白噪声检验;ARIMA拟合。
ARIMA(p,d,q)模型可以表示为:
(4)
其中:L为滞后算子;d∈Z,d>0。
首先结合自相关图对原始序列进行平稳性检验,自相关图见图3、4。
图3 夏季序列自相关图
图4 冬季序列自相关图
通过自相关图可知,夏季和冬季原始序列单位根统计量的p值如表1,均显著小于0.05,可判断2个序列是平稳序列,故可以不进行差分,直接进行白噪声检验。输出p值如表2,均远小于0.05,所以两时间序列均是平稳非白噪声序列,对2个序列进行偏自相关图识别,可知p、q均取3,应对原序列建立ARIMA(3,0,3)模型,两序列偏自相关图见图5、6。结合标准误差、置信区间得出的平均预测结果见表2, 预测结果见图7。
表1 两序列p值
表2 未来30 d预测结果
图5 夏季序列偏自相关图
图6 冬季序列偏自相关图
图7 预测结果
对2组预测值与实际值的均方根误差值(RMSE)进行计算,可知预测精确度可以满足需求,见图8、9。
图8 夏季预测值拟合情况与RMSE值
图9 冬季预测值拟合情况与RMSE值
由预测结果可知,夏季交通出行量持续波动,而冬季由于受恶劣天气等情况影响,人们的出行意愿变化不大,交通出行量在较长一段时间里比较稳定,而在特定的情况下(如恶劣天气来临前、温度回升等),交通出行量会有显著波动。
对2个时间序列进行相关性分析。时间滞后互相关(TLCC)定义2个序列之间的相关性与方向性。在一定时期内,二者中的引导序列会初始化一个响应,而另一个序列则会重复响应。该方法通过将其中一个时间序列逐步错位移动并不断计算与另一个时间序列的相关性(本文采用皮尔逊系数)来测量。如图10,黑线为两序列初始状态,红线为错位移动后相关性最高位置,该位置为冬季序列被推进了13帧。该结果说明夏季、冬季的出行时间序列存在相关性,但夏季出行随时间变化,更具规律性,受其他因素影响程度更小。
图10 时间滞后互相关图
为了分析粒度更细的变化情况,计算时间窗口的互相关来观察两序列的相互作用。图11为滑动窗口时间滞后互相关图。观察图11不难发现,图像整体呈现倒金字塔型,这是月时间序列的数据量级小导致的。在1个月内,大部分时间,夏季时间序列在相关性中起主导地位。
图11 滑动窗口时间滞后互相关图
2.1.2出行空间分布特征的统计与分析
居民出行空间分布特征与城市路网规划和交通基础设施建设息息相关。居民在信号基站小区间的流动就是空间分布特征的体现。如某部分区域的单位时间内用户数量增加,则说明该时段居民出行偏向于流入该区域,反之则偏向于流出该区域。
为了更加清晰地了解居民出行的流动性情况,基于信号基站的经纬度,将主城区小区栅格化处理。使用k-mediods聚类算法,根据经纬度坐标将基站小区进行聚类,并逐个编号。聚类后小区(簇)数量K的取值采用轮廓系数法计算。轮廓系数是常用的衡量聚类效果的指标,轮廓系数的范围是(-1,1),轮廓系数数值越大聚类效果越好,代表所有样本与该簇内样本相似度越高。单个样本的轮廓系数计算式为:
(5)
其中:a为单个样本与簇内样本的相似度;b为单个样本与其他簇样本的相似度。
通过经验分析,K值不宜过小也不宜过大,将K的取值规定在(6,30)区间内,通过轮廓系数的计算,不同K值计算轮廓系数如图12。不难看出,当K值为10时轮廓系数最大,故K值取10。聚类后的小区分布如图13。
图12 不同k值下的轮廓系数
图13 聚类后小区分布图
在聚类后区域的基础上计算莫兰指数,了解居民出行在市域空间上的相关性。莫兰指数分为全局莫兰指数(global Moran’sI)和局部莫兰指数(local Moran’sI)。全局指数能够体现空间内是否出现了聚集或者异常值[13],局部指数能够指明哪里出现了聚集和异常值。莫兰指数值的范围在[-1,1],Moran’sI值越大,表明数据存在的空间正相关性越强。
全局莫兰指数表示为:
(6)
(7)
统计的zI得分按照以下形式计算:
(8)
E[I]=-1/(n-1)
(9)
V[I]=E[I2]-E[I]2
(10)
局部莫兰指数表示为:
(11)
(12)
莫兰指数计算中有2个重要指标来评价空间自相关程度。P值:表示概率,当P很小时(一般指P<0.1),意味着所观测到的空间模式不太可能产生于随机过程(小概率事件)[15],因此可以拒绝零假设。
Z得分:标准差倍数。标准差能反映一个数据集的离散程度。Z值越大,分析越贴合实际。
(13)
其中:r为样本平均值;N为样本个数。
分别取夏季与冬季的各1周工作日进行全局莫兰指数的计算,指数计算结果如图14、15。可以发现,冬季居民出行的空间流动聚集行为在整体上较夏季要少;相对于夏季,冬季发生过聚集的区域也有所减少,其中p值为0,Z得分均较大,说明分析结果贴合实际,观测到的空间模式不产生于随机过程。
图14 夏季全局莫兰指数计算结果
图15 冬季全局莫兰指数计算结果
结合基站小区聚类后的10个区域,分析计算哈尔滨主城区的区域莫兰指数情况,如图16—21。10个聚类分区的莫兰指数情况见表3。其中,High-High(HH)区域为莫兰指数的高值聚集区,High-Low(HL)区域为高值被低值包含的区域,Low-High(LH)区域为低值被高值包含的区域,Low-Low(LL)区域为低值聚集区。
图16 夏季早高峰局部莫兰指数情况
图17 冬季早高峰局部莫兰指数情况
图19 冬季午高峰局部莫兰指数情况
图20 夏季晚高峰局部莫兰指数情况
图21 冬季晚高峰局部莫兰指数情况
表3 聚类分区莫兰指数
经过对比分析可以发现,从整体上看,交通发生聚集地大都在3、7、9号区域(道里区、香坊区和南岗区及其交界),以哈尔滨火车站为中心、南直路和和兴路为边界的市中心区域。而1、4号区域出行发生最少、最稀疏。多处分散聚集地(LH)以学校、医院、景点等居多,高聚集地中的低聚集点(HL)以高档小区、交通难以到达的区域等情况为主。
从季节层面上看,夏季主城区中心交通发生聚集地面积比冬季大11%,且其他分散聚集地更多、更密集;而冬季主城区边缘的低聚集地区面积比夏季大13%,且分布更广,交通发生聚集地面积收缩。
从出行高峰时点层面上看,早高峰交通出行聚集地数量较午晚高峰多10%、13%,且更为分散;午高峰聚集地以主城区中心区域为主,夹杂其中的众多住宅小区为交通出行低聚集区域;晚高峰高聚集区域最为紧凑,且低聚集地数量相对于早、午高峰都减少了8%左右。
居民出行的强度会影响道路服务水平和城市拥堵情况,能够反映居民出行的意愿,故从出行频率和出行距离2个角度对居民出行强度进行分析。
2.2.1出行频率
根据提取的用户出行轨迹数据,将一段轨迹记为1次出行,一段轨迹包含2个驻留点和中间的若干个移动点,原则上用户在同一位置停留超过30 min形成驻留。
通过对每个用户出行次数的汇总,可以得出哈尔滨市主城区居民出行的当日平均出行次数。经过分析计算得出主城区在夏季和冬季的调查日的居民平均出行次数分别为2.1和1.7,根据这一数据可以预估该日的出行人流量。据此制定针对措施可以有效疏通交通流,提高出行效率。
2.2.2出行距离
出行距离指居民出行的远近程度,结合由信令数据提取的出行轨迹,可以测算居民出行距离。图22为城市居民在不同出行距离情况下的出行交通量比例。由图22可知,2个季节出行距离在2 km以下的占全部出行的比例分别为61.6%、78.5%;出行距离在2~10 km的占全部出行的比例分别为37.1%、19.3%;出行距离大于10 km的仅占全部出行的1%~2%。从总体上看,哈市居民出行主要选择距离较短的方案。通过出行距离比例对比可以了解到哈尔滨居民在2 km以下的短途出行中,冬季占比高于夏季,而在2~10 km的中程出行中却相反。这与气候、生活习惯等因素密不可分。
图22 不同出行距离情况下的出行交通量比例
1) 信令数据的问题。手机信令数据仍具有较多局限性。一方面,在用户不使用手机的情况下只能通过周期性检测位置更新,而以目前的采集技术条件,采集周期(30~60 min)过长,对于短时间停留点较难识别,应在合理范围内增加采集频率;另一方面,网络不畅、设备不佳和运营商运作机制等原因都可能导致每一条信令数据不能百分百被采集到,应加强运作,避免非全样本检测。
2) 寒地城市气候的特殊性对居民出行特征的影响。本文冬季研究部分并未单独选取雨雪天进行分析,故应结合实际情况对比分析,充分考虑不同情况下的居民出行需求。
居民出行特征研究是城市交通规划布局的重要一环。居民出行特征研究涉及方面广泛,故每一项指标都要经历数据筛选、结合,实现较为繁琐。而相较于传统交通数据采集方法,利用手机信令数据进行研究明显更加省时省力、全面准确。
对出行时间、空间、频率、距离进行了较为全面的分析,并结合手机信令数据,充分发挥了大数据分析的优势,对科学预测交通情况、规划交通需求规模、制定合理的交通管制政策具有参考价值。
在对哈尔滨市夏季与冬季手机信令交通调查的基础上,客观分析了夏季与冬季不同情景下的居民出行特征,从出行时空特征、出行强度特征的角度剖析了寒地城市居民出行特征的不同,揭示了居民出行特征的季节性差异,为科学预测寒地城市居民交通出行需求提供理论依据。