岳锦涛,杨新苗,殷广涛
(1.清华大学 交通研究所,北京 100084;2.中国城市规划设计研究院,北京 100037)
郊区公路为推进乡村振兴、促进城市群协同发展提供了基础保障,充分及时地掌握公路交通状态,可为公路系统的精细化管理与规划建设提供依据。现阶段在公路交通状态分析的多种技术中,收费站数据分析视角过于宏观,且无法应用于未设收费站的普通公路,肖润谋[1]、崔梅[2]等利用收费站数据分析了国家或区域范围内高速公路运输的时空变化趋势;地磁线圈、视频检测等技术则过于聚焦,只可基于关键节点监测数据进行全路段预测,沙薇等人利用地磁检测技术仅研究了苏嘉杭高速个别断面的拥堵状态[3]。此外,客货运公司的运营数据等也存在数据获取、交通方式涵盖类型等方面的局限。
随着移动通信技术的发展,基站分布密度已相当可观,手机与基站间频繁的主被动交互,生成包含用户ID、空间坐标、时间等字段的信令数据。信令数据具有空间覆盖广、时间平滑度高、来源充足、时效性强等优势,是交通分析的有效数据源。目前信令数据被重点应用于城市交通与高速公路领域,丁鹏程[4]、海晓东[5]、黄伟[6]、Steenbruggen[7]等人应用手机信令数据,进行空间人口分布与城市通勤特征分析,刘华斌[8]、周南[9]、葛梦雪[10]等人研究了信令数据对城市交通量预测及其对交通规划方法的改进;刚红润[11]、章玉[12]基于信令数据分别研究了高速公路车速估计算法,吕梦蛟[13]、崔艳玲[14]、王久辉[15]、Andreas Janecek[16]等人提出了以信令数据进行高速公路路况检测的算法。
由于城市内部的基站间隔普遍在500 m左右,按照时间序列连接信令坐标数据,即可基本拟合用户的出行路径;高速公路由于路线相对独立,通过信令数据直接相连也可获得较为明确的出行轨迹。郊区基站间距大多在1 000 m以上,且郊区公路网密度较高,不同等级道路纵横交错,无法直接识别出准确的出行路径,进而获取准确的交通状态。本文针对郊区普通公路这一研究场景中的真空区域,探索基于手机信令数据识别出行轨迹,并进行交通状态分析,提出可操作性强的分析流程,为郊区公路的规划与管理提供基础路况信息。
由于信令数据精度有限,同时为了突出研究重点,需在实际路网基础上建立既反映路网真实状况,也适用于信令数据分析的路网模型。从路段与节点两方面阐述路网模型的构建思路。
郊区公路根据功能定位可分为以下3类:
1)区域性干线,服务于不同行政区间的联系,技术等级多为高速公路与一级公路;
2)中心区延伸线,以延伸至郊区的城市环线及放射线为主,承担与中心城区的联系;
3)内部联系线,连接上述较高等级道路,以及服务于郊区内部的交通需求,通常为低等级公路或等外公路。
区域性干线与中心区延伸线流量规模与道路等级较高,故路段选择以该两类公路为主,同时考虑通过初步数据分析或在交通调查中识别出的流量较大内部联系线。
以研究区域内行政中心、经济中心、交通枢纽、道路交叉口、互通、文旅景观等作为主要节点,以各路段与研究区域边界的交点作为虚拟节点,并对实际线的线路节点拓扑关系进行适当简化。
信令数据规模庞大,其中中国联通在北京市一天的信令数据高达620G,对数据处理硬件与算法均提出了较高要求。为兼顾数据分析效率与准确性,首先依据空间范围筛除与公路出行无关的数据以降低数据量。以路网模型中的矢量线位为中线,建立带宽1 km的缓冲区,获取缓冲区内基站记录到的全体出行者集合IDbuffer:(ID1,ID2,…,IDN),从原始数据中提取IDbuffer中所有出行者的完整记录,将出行者IDi的所有轨迹点记录按时间升序排列可得Point_tracki:{pi,1(timei,1,lngi,1,lati,1),pi,2(timei,2,lngi,2,lati,2),…,pi,n(timei,n,lngi,n,lati,n)}。
由于受到设备质量、突发事件、外界干扰、数据采集原理等内外部因素影响,原始数据存在多种噪声数据,需进行清洗处理。
1.3.1 重复数据
当出行者IDi在某地长时间停留或活动范围较小时,会产生大量重复数据,显著降低数据处理效率,采用滑动窗法剔除重复数据。设置大小为3、初始窗口为(pi,1,pi,2,pi,3)的滑动窗,若满足下列条件
lngi,1=lngi,2=lngi,3,且lati,1=lati,2=lati,3.
(1)
则删除pi,2记录,后续数据向窗口内递补;若不满足条件(1),则窗口直接向前移动1个单位。重复上述判断,直至遍历Point_tracki内所有数据。
1.3.2 离群点数据
检测故障会导致出现位置明显偏离正常轨迹的离群点。由式(2)、式(3)可得相邻两点pi,j,pi,j+1间的直线距离ΔDi,j与时间差Δti,j。
(2)
Δti,j=timei,j-timei,j-1.
(3)
式中:a,b分别为相邻两点经纬度(弧度制)差值;R为地球半径,取R=6 371.393 km。
根据信令采集周期与基站分布间距设定离群点判定的空间与时间阈值Dth1、tth1,若ΔDi,j,ΔDi,j+1>Dth1,且Δti,j,Δti,j+1 1.3.3 乒乓切换数据 乒乓效应是指当同一区域有多个基站覆盖时(见图1阴影部分),信号的强弱变化会使短时间内同一出行者的信令数据在多个基站间频繁切换,产生大量冗余数据。遍历Point_tracki中的数据,若同时满足 (lngi,j-1,lati,j-1)=(lngi,j+1,lati,j+1)≠ (lngi,j,lati,j), (4) Δti,j,Δti,j+1 (5) 则认为pi,j点发生了乒乓切换,对其进行标记,当Point_tracki中数据遍历结束后,删除其中所有被标记数据。其中tth2为乒乓切换判定时间阈值,通过对数据进行抽样统计确定。 信令数据的坐标变化轨迹(见图1①→②→③→④)与出行者出行路径(见图1A→B→C→D→E)虽方向性基本一致,但也存在不可忽视的偏差。从海量的信令数据中准确地识别公路出行者轨迹,并精准匹配至实际路网,是进行郊区公路交通状态分析的基础。以停留点将完整出行链划分为若干出行,通过单次出行的路径识别,最终整合得到出行者全出行链的出行路径。 图1 信令坐标轨迹与出行轨迹 2.1.1 停留点识别 本研究对仅以空间距离为聚类标准的DBSCAN聚类算法加以改进,增加时间维度,通过时、空双标准将信令数据分为若干簇。各簇内数据点的几何中心坐标即为停留点坐标,最小时间与最大时间均值即为停留点的特征时间。将从Point_tracki中识别到的停留点纳入集合Point_stayi:{pi,1(timei,1,lngi,1,lati,1),pi,2(timei,2,lngi,2,lati,2),…,pi,m(timei,m,lngi,m,lati,m)}。 邻域半径(Eps)与最小点数(MinPts)是DBSCAN算法的主要参数,因此,结合出行链划分惯例[17-18]、出行链划分[19-20]、基站分布间距、信令数据采集周期等因素综合考虑,取空间邻域半径Epss=1 000 m,时间邻域半径Epst=300 s。行驶速度、路径沿线基站分布的密度差异会导致不同出行者信令数据轨迹点的密度与数量也各不相同,提出基于邻域内点数的MinPts确定方法。 (6) 式中:Ptsi为轨迹点i在时空邻域内的点数,n为该出行者全出行链中的轨迹点数量。 2.1.2 路径匹配 图2 路径校核与修正 公路基本路段受车辆分合流与交织区影响较小,在路网模型中各OD间的基本路段处设置观测断面,根据路径匹配结果,统计单位时间T内通过各观测断面的车辆数N,从而可得流量为 (7) 由地图API工具可得到出行者IDi在某路段l上的出行距离ΔSi,l与出行时间ΔTi,l,根据式(8)可得出行者IDi在路段l上的平均速度为 (8) 观测时间内路段l的交通流平均速度为 (9) 式中:N为观测时间内经过路段的出行者总人数。 为得到整体交通状态,需要对数据的样本分析结果进行扩样。根据式(10)计算扩样系数 α=P/Ps. (10) 式中:P为研究区域内总人口数,Ps为数据样本中出行者总数。 信令数据反映个体出行信息,为表征公路机动车交通状态,需按照不同车辆的平均载客量进行修正,修正系数如表1所示。 表1 载客量修正系数 怀柔区地处北京市东北,2019年末全区共有常住人口42.2万人,公路总里程达1 674.1 km[21]。怀柔是北京东部发展轴上的重要节点,承担重要物流的通道功能,同时以慕田峪长城、青龙峡为代表的丰富旅游资源也吸引了大量旅游交通出行,形成包括日常生活、通勤、客运、物流、旅游等多种类型在内的公路交通流。 本研究采用2017-08-01的中国联通手机信令数据,数据前期已脱敏,包含时间戳(time)、IMSI号(ID)、经度(lng)、纬度(lat)4个字段。通过多方案比选,选用PostgreSQL数据库作为信令数据储存平台,采用SQL与Python作为主要数据处理语言,QGIS为数据可视化与编辑平台。 随时间推移至工作时间,怀柔区城区人口分布热力略有消散,公路沿线热度逐渐上升,呈现出G111国道、S308省道、慕田峪长城景区3个主要流向(见图3)。 图3 怀柔区全天人口分布热力 以行政村镇及邻近的公路交叉口、互通为主要节点,以区内国省干道以及部分流量较高的县乡道路为主要路径,对复杂节点、路段拓扑关系进行适当简化,建立怀柔郊区路网模型(见图4)。 图4 怀柔区路网模型 通过追溯以客运与物流枢纽为代表的出行OD,进行营运方式识别。通过研究可知:路网中非营运车辆占比高达91.9%,营运客车占比4.2%,其中62.28%分布在G111国道,由于慕田峪景区吸引了较多旅游专线,X009县道长途客运量也显著高于其他路段,占比9.6%;营运货车占比3.9%,仍由G111国道承担主要部分,占比达63.68%。 抽取某出行者10:00—11:00间的信令数据样本,对停留点识别与路径匹配算法进行验证。该出行者信令数据轨迹如图5(a)所示,通过改进DBSCAN算法,轨迹点形成A,B,C 3个簇与若干噪声点,计算各簇内轨迹点的几何中心,即获得对应停留点。将样本出行划分为A→B和B→C两段,分别进行路径匹配,通过连通性校核与修正,得到该出行者的真实出行轨迹,如图5(b)所示,判断该出行者从怀柔城区出发,前往慕田峪长城景区。 图5 停留点识别与路径匹配案例 2017年8月1日在所研究的路网中共有出行者17.91万人,共产生27.29万人次出行,人均出行次数1.52次/(人·d),其中过境交通占比64.41%。上行(出京方向)总流量11.99万人次,下行(进京方向)总流量15.30万人次。全路网流量规模如图6所示,时序变化如图7所示。 图6 全路网流量规模 图7 全路网流量时序 上行交通流在07:00—08:00出现通勤高峰,此后开始阶梯状缓慢下降;下行交通流呈不规则马鞍状,在10:00和15:00分别出现两次峰值,由于返程通勤与下午进京流量相叠加,使得第二次峰值高于前者,持续时间也更长。上下行流量的叠加使总流量表现出3个峰值,早高峰于07:00首次出现,出现速度较快但持续时间短,10:00达到最高峰;午间流量略微下降,但随即回升;晚高峰于15:00出现,出现速度与消散速度均较为缓慢。 研究范围内各等级公路流量变化如图8所示,国道流量显著高于省县乡道,且有明显早晚高峰,是区域交通流量的主要承担者;省道与县道流量规模与变化特征基本一致,均呈现出不规则的马鞍状特征;乡道全天流量较低,起伏变化不明显。 图8 各等级公路流量时序 以交管部门提供部分路段线圈检测流量为基准,对信令数据分析结果进行校核,相对误差均在15%以内,如表2所示,在一定程度上说明了本研究算法的准确性。 根据《公路工程技术标准》中的相关标准进行计算,各路段V/C值与服务水平如表3所示,均满足《标准》中对各等级公路设计服务水平的要求[22]。同一路线近郊区路段服务水平低于远郊区,路网整体上行方向服务水平略高于下行方向。 表3 各路段V/C值与服务水平 续表3 各路段全天交通流量及方向不均衡系数如表4所示,方向不均衡系数在0.5~0.7之间。 表4 各路段全天交通量及方向不均衡系数 各等级公路速度在一天内虽有小幅震荡,但并未发生显著变化,如图9所示,交通运行情况基本稳定。 图9 各等级公路车速时变 根据《公路网运行监测与服务暂行技术要求》中的划分标准[23],各等级道路平均速度与拥堵状态如表5所示。 表5 各等级路网拥堵状态 不同等级公路速度分布如图10所示,国道车辆行驶速度集中在60~90 km/h,占比为64.9%;省道、县道车辆行驶速度分布特征较为一致,集中在30~60 km/h,占比分别为69.2%、67.4%;乡道车速进一步降低,集中在30~50 km/h,占比为69.1%,10 km/h以下的低速区间占比高达6.3%。整体交通流对限速遵守较为严格,国道有97.8%路段控制在100 km/h以内,省道、县道98.9%以上路段控制在80 km/h以内,乡道97%路段控制在60 km/h以内。 图10 速度频率分布与累积分布 综合上述各项分析结果,怀柔区公路网运行整体处于良好稳定状态。车流量主要集中在G111国道及X005、X009县道邻近城区路段,上述路段也是大型车混行较多路段,在怀北镇、于家园村、口头村、琉璃庙镇、汤河口镇、长哨营、喇叭沟等多条公路交汇处,应加强大型车辆管理,有条件的路段可设置大型车专用车道。 由流量不均衡系数可得大部分路段进京方向为主流向,怀柔主城区及北京城区对周边区域的虹吸效应较为明显。而且由于本研究采用数据时间正值学生暑假,进京旅游、访友的交通流量较大。应做好节假日道路交通管理预案,根据交通流量变化规律,调整管控的重点方向。 低等级乡道的低速区间占比较高,且分布相对独立,分析其原因主要有两点: 1)乡道路况较差,迫使大量车辆缓行; 2)乡道交通流多为内部交通,沿线居民的步行或骑行会产生大量低速记录。 在穿越村镇、人流较密集的乡道交通管理中,应重点关注机动车与行人、非机动车混行情况,合理布设警示和隔离设施,降低安全隐患。 本文建立了应用手机信令数据进行郊区公路交通状态分析的方法,为提升公路管理水平、推动公路交通智能化建设与精细化发展提供数据支撑。结合北京市怀柔区公路网进行实例研究,得到路网各路段流量与速度变化情况,采用溯源法进行营运交通识别,获取营运客货运比例,并通过与线圈检测数据对比,证明算法基本准确。由于所获数据量有限,未能进行长时间周期性的研究以辨识常住人口与过境交通的占比关系。在即将到来的5G时代,基站分布密度与轨迹描绘精度将进一步提高,数据来源也会更加充足,将进一步促进手机信令数据在郊区公路交通状态分析中的应用。2 郊区公路交通状态提取算法
2.1 出行轨迹识别
2.2 流量与速度
2.3 营运方式识别
2.4 扩样与修正
3 实例分析
3.1 路网建立
3.2 营运方式分析
3.3 出行轨迹识别
3.4 全路网流量动态监测
3.5 速度分布
3.6 路网交通状态评价
4 结 语