考虑交通状态影响的服务区凝聚层次聚类入区判别模型

2024-03-14 11:43张婷婷姚成北曹鹏超
关键词:门架平均速度交通流

章 玉,张婷婷,姚成北,曹鹏超

(1. 中铁长江交通设计集团有限公司,重庆 401121; 2. 重庆交通大学 交通运输学院,重庆 400074)

0 引 言

高速公路服务区是驾乘人员的重要休息场所,是高速公路品质服务的重要窗口。准确分析服务区车辆驶入情况有利于服务区布局选址、建设规模、设施配置的合理规划,还有利于管理部门对停车资源、汽油储量、餐饮服务的精准调控,进而提高服务区运营管理水平,提供更高效、优质的服务。目前,国内外学者针对服务区驶入率已开展不少研究,根据其研究方法可大致分为3类。

第1类是基于历年驶入率或推荐值展开研究。如刘亚非等[1]将数理统计的方法与弹性系数法相结合,构建了服务区驶入率预测模型;刘长明等[2]结合国内服务区建设现有标准和现状调研法,提出了服务区规模测算技术方法。该类方法简单且适用范围广,但驶入率会随着道路等级、驾驶时长、服务区规模等因素发生改变,基于历年数据或推荐值不能较好地反映实际停歇需求,服务区驶入率测算精度较低。

第2类是基于驶入率生成机理展开研究。如王建伟等[3]将物理学势能理论与服务区驶入率测度方法相结合,提出了服务区驶入率测度模型;李霞等[4]从不同车型的停歇需求入手,通过分析客车、货车连续行驶时间分布规律,提出了基于车辆连续行驶时间的驶入率计算方法。与传统数学模型相比,基于机器学习的驶入率预测模型不受固定模型限制,可有效降低影响因素随机性对预测精度的干扰。如SHEN Xiaoyan等[5]结合小波神经网络的广泛映射能力和遗传算法的全局搜索能力,构建了服务区驶入率预测模型;刘嘉等[6]从断面交通量、服务区区位和人体生理需求等多维特征对BP神经网络模型进行训练、学习,进而预测驶入率。然而,该类方法在建模过程中需考虑驶入率与多种影响因素之间的非线性映射关系,计算指标较多且数据依赖程度高,由于我国大部分服务区缺乏交通信息采集设备,在现实中难以得到广泛应用。

第3类是基于数据挖掘分析技术展开研究。随着高速公路ETC系统全面落实以及智能交通技术发展,从ETC数据中提取和分析交通特征规律已成为可能。如CAI Qiqin等[7]结合ETC收费数据,在详细分析影响服务区驶入率的主要因素的基础上,构建了VR-XGBoost驶入率预测模型;刘光雄[8]通过深入挖掘ETC门架数据的特征,提出基于最优平均速度划分的服务区驶入率测算模型。该类方法结合高速公路收费数据库,构建基于数据驱动的服务区驶入率测算模型,可保障服务区驶入率测算的实时性和精确度。然而,该类方法大多以高速公路交通状态是自由流为前提,尚未探讨非自由流条件下车辆驶入服务区情况,具有一定的局限性。LIAO Lüchao等[9]基于ETC门架数据探讨了服务区驶入率与高速公路运行状态识别之间的影响关系;刘群等[10]在高速公路交通量预测研究中指出,早晚高峰预测误差均比平峰状态误差大。以上研究表明,考虑交通运行状态的潜在影响对提高服务区入区判别精确度是有必要的。

针对该问题,笔者从新的角度出发,结合状态识别研究成果[11]进一步探索自由流与非自由流条件下的车辆行驶特性和规律。以ETC门架数据为数据源,将高速公路运行状态识别与服务区入区判别结合,在研究车辆进入服务区路段交通流特征基础上,引入层次聚类判断交通运行状态进而构建高速公路车辆进入服务区的入区判别模型,并结合不同运行状态下入区临界条件进行验证分析。

1 数据源及特征分析

1.1 数据源

研究数据来源于高速公路ETC门架系统通行和收费数据,通过高速公路互通立交间建设的ETC门架通信设施实现对通行车辆路径的精准采集。在高速公路收费未全国联网前,收费数据通常以收费站为节点,两个收费站之间路段为最小单元[12]。在距离较长的收费站路段中不能精准判别交通状态。全国高速公路收费联网后,车辆每经过一个门架就会采集一条通行信息,并产生一条完整的OD行驶轨迹,与传统高速公路收费数据相比可更精确地描述OD对交通运行状态。ETC门架通行数据字段类型包含车牌号、计费车型代码、门架编号、通过时间、上一门架编号、通过上一门架时间等,关键字段如表1。

表1 ETC门架数据关键字段Table 1 Key fields of ETC gantry data

1.2 行程时间特征

门架路段行程时间是指车辆通过两个相邻门架所需时间,反映高速公路车辆运行状况和车辆通行的连续性。邻近服务区门架路段和服务区门架路段位置关系如图1。根据ETC门架通行数据与收费站明细数据获取车辆行程时间,对邻近服务区门架路段和服务区门架路段车辆连续8 d的行程时间分布如图2。分析发现,邻近服务区门架路段的车辆行程时间整体趋于稳定且分布较为均衡;服务区门架路段的车辆行程时间分布更分散且呈现出明显的周期相似性。一方面,由于驾驶员存在不同停歇需求,如餐饮、加油、休息或者其他活动,进入服务区车辆的行程时间远大于主线行驶车辆;另一方面,在服务区门架路段某一时期可能存在交通拥堵状态,从而导致行程时间高于正常值。

图1 服务区门架路段位置关系Fig. 1 Location diagram of gantry section in service area

图2 门架路段行程时间对比Fig. 2 Comparison diagram of travel time of gantry section

1.3 行程速度特征

基于车辆通过相邻门架的时间和门架距离可获取车辆在该门架路段的行程速度。对邻近服务区门架路段与服务区门架路段的行程速度按每5 km/h间隔进行分布统计,如图3。在邻近服务区路段,客、货车速度占比分布呈正态分布,行程速度低于40 km/h的客、货车占比分别为0.18%、0.31%。在服务区路段,客、货车速度占比呈“高峰+低峰”的双峰分布,客车高峰区间基本处于60~120 km/h,低峰区间基本处于0~60 km/h;货车高峰区间基本处于40~100 km/h,低峰区间基本处于0~40 km/h。与邻近服务区路段相比,客、货车行程速度低于40 km/h的占比区间明显增加,分别为8.19%、18.70%。

图3 门架路段行程速度分布直方图Fig. 3 Histogram of travel velocity distribution in gantry section

2 凝聚层次聚类入区判别模型

2.1 判别思路

结合车辆在门架路段行程时间和行程速度特征分析发现,邻近服务区路段和服务区路段的行程速度差异主要体现在是否存在低速区间,而导致低速区间产生的主要因素除了车辆驶入服务区之外,还可能是交通流处于拥堵状态。基于此,为了降低交通拥堵状态对判别结果的干扰,首先对邻近服务区门架路段的交通状态进行识别,利用滑动窗口技术计算状态评价指标,结合三相交通流理论分析门架路段的交通流稳定性,通过凝聚层次聚类确定交通流状态变化的临界条件;其次基于车辆在高速公路行驶速度的一致性,借助服务区邻近路段交通状态判别条件判断服务区路段交通状态;然后根据上、下游路段交通状态类型及服务区与车辆行驶路径,分别对速度变化程度量化建模,分析车辆进入服务区路段前后行程速度的变化程度,利用凝聚层次聚类明确不同运行状态的入区判定条件,技术路线如图4。

图4 服务区入区判别流程Fig. 4 Flow chart of service area entry discrimination

2.2 判别模型

2.2.1 计算交通状态评价指标

ETC收费数据只能精确到车辆通过相邻门架区段的时间,意味着只能获得车辆的行程速度,无法获得瞬时车速。用区间速度本身描述门架路段内车流状态变化,精度将有所限制,而平均速度差分量为单位时间内的平均速度与上一单位时间内的平均速度之差,其常用来描述具有时序特性的交通状态变化情况,可通过缩小时间粒度弥补区间平均速度的限制[13]。平均速度差分量标准差在一定程度上可以反映交通相离散度变化趋势,当车辆处于自由流状态,车辆驾驶最为随机,速度变化离散程度最高,平均速度差分量的标准差最大;当车辆进入拥挤状态时,速度变化程度随着密度增大逐渐减小,离散程度开始减弱,平均速度差分量标准差随之减弱,车辆车速进入较为平稳的状态[14]。因此,除了选取交通流3个参数(流量、速度、密度)外,还选取平均速度差分量和平均速度差分量标准差作为交通状态评价指标,计算方法如式(1)~ 式(3):

(1)

(2)

(3)

通过分析客、货车平均速度差分量的离散度和交通密度的关系(图5)发现,客车的速度差分量波动幅度比货车大,更能体现路段运行状态变化趋势,因此选取客车平均速度差分量的标准差作为交通流状态识别指标。

图5 密度-平均速度差分量关系Fig. 5 Relationship of density and mean velocity difference component

2.2.2 运行状态识别

考虑到交通流的演变过程包含大量随机因素,用传统的线性解析模型难以明确车辆是否驶入服务区的界限,而机器学习不受固定模型限制,具备良好的非线性映射能力,可降低交通流变化的随机性对状态判别造成的干扰。因此,提出一种基于凝聚层次聚类划分交通流状态,确定相位临界点和服务区入区临界条件的方法。

凝聚层次聚类基本原理是通过计算簇与簇之间的距离确定相似度,将距离最小的两个簇合并为新簇,不断重复上述过程,直至达到预期簇。在众多相似性度量方法中,选取常用的欧氏距离计算簇内样本点的聚合程度,用离差平均和法衡量簇与簇之间的聚合程度,其计算过程如式(4)、式(5):

(4)

(5)

以交通密度作为研究序列,利用滑动窗口技术,在时间序列数据中通过“滑动窗口”截取序列片段,将若干个滑动窗口的密度上限值及其对应的标准差作为状态识别的判别指标。根据凝聚层次聚类相关公式,将判别指标的距离矩阵作为聚类输入变量,聚类结果中临界密度K′即为时序数据的“跃迁点”。

2.2.3 入区车辆判别

基于车辆在服务区路段与邻近服务区路段行程速度概率分布的特点,通过关联车辆在上、下游路段的交通运行状态,分析车辆行驶状态和行程速度变化的关系,降低交通拥堵运行状态对服务区判别结果的干扰。根据交通流所属路段空间位置及状态识别阶段确定的临界密度K′,将上、下游路段的交通运行状态划分为以下4种类型,如式(6):

(6)

式中:Kre-up为相对上游路段车辆的交通密度;Kre-down为相对下游路段车辆的交通密度。状态1表示车辆从相对上游路段到相对下游路段交通流状态由畅通保持畅通状态;状态2表示交通流状态由畅通转换为拥堵状态;状态3表示交通流状态由拥堵保持拥堵状态;状态4表示交通流状态由拥堵转换畅通状态。

车辆速度变化程度用服务区邻近门架路段区间平均速度与服务区门架路段区间平均速度比值表示,根据车辆行驶路径不同,速度变化程度需采取不同量化方法。结合服务区与高速公路匝道空间位置,车辆行驶路径可分为3种(图6)。图6中:路径1表示行驶车辆通过服务区上、下游路段;路径2表示车辆通过服务区上游路段在服务区路段下道;路径3表示车辆在服务区路段上道并通过服务区下游路段。路径1~3采用式(7)进行计算:

(7)

图6 高速公路车辆行驶路径示意Fig. 6 Schematic diagram of vehicle driving path on highway

式中:f(n)为第n辆车区间平均速度的比值;fR1or2(n)为通过路径1或路径2的速度比值;fR3(n)为通过路径3的速度比值;vup(n)为第n辆车通过邻近上游门架路段的区间平均速度;vser(n)为第n辆车通过服务区门架路段的区间平均速度;vdown(n)为第n辆车通过邻近下游门架路段的区间平均速度。

以服务区路段区间速度vser(n)和速度比值f(n)作为输入变量,结合凝聚层次聚类对4种类型交通流分别进行聚类分析,得到不同运行状态下的临界速度v′ser和临界速度比值f′作为入区判别临界条件。当车辆行程速度vser(n)低于临界速度v′ser并且速度比值f(n)大于f′时,判定车辆驶入服务区,否则判定为没有驶入服务区。

3 分析与验证

以包茂高速大观服务区出城方向为例进行验证分析,大观服务区位于大观收费站下游,如图7。

图7 实例分析研究对象Fig. 7 The research object of the case study

首先,选取连续8 d的ETC门架和收费数据,对原始数据进行清洗、处理和加工,形成完整的车辆行驶路径,以5 min为单位时间计算客、货车区间平均速度及速度差分量、交通量、交通密度等交通状态评价指标。在计算交通状态评价指标时,根据门架数据和收费数据中车辆进出收费站的时间节点,应考虑高速公路上、下匝道车流对主线车流的影响,有助于更全面地体现交通流动和密度变化,从而提高模型判别精度和实际应用价值。通过滑动窗口技术,计算密度区间样本量的标准差,利用凝聚层次聚类明确不同交通流状态的临界点,结果如图8。由图8可知,簇1与簇2的密度分界点为23 pcu/km。整体来看,标准差随着密度增加呈降低趋势,当达到一定程度后出现小幅度的震荡,说明在该点附近发生了状态跃迁。因此,文中以K′=23 pcu/km为临界条件,K<23 pcu/km为畅通状态,K≥23 pcu/km为拥堵状态。

图8 状态识别聚类结果Fig. 8 Clustering results of state identification

基于交通状态评价指标,生成密度-速度时变曲线验证交通状态识别结果有效性,以2021年8月13日数据为例,结果如图9。当0 pcu/km

图9 密度-速度时变曲线Fig. 9 Time varying curve of density-velocity

然后,结合状态识别确定的临界密度明确车辆在上、下游路段的行驶状态,基于4种状态交通流的行程速度生成概率密度拟合曲线,如图10。对比分析邻近服务区门架路段与服务区门架路段发现,在邻近服务区门架路段不同交通状态的车辆行程速度差异明显,其中状态1的行程速度最高,状态4的行程速度最低,客车的行程速度受交通状态影响较大;在服务区门架路段,由于部分车辆驾驶行为发生改变,各类交通流的行程速度均呈“双峰”分布,但在低谷临界处其分布形态并不一致,说明车辆运行状态对基于速度变化的入区判别条件有不同程度的影响。

(a) 邻近服务区门架路段

其次,对不同运行状态下的交通流进行层次聚类确定判别条件,以状态1为例,其聚类结果如图11,得到客、货车入区判别条件如表2。

图11 入区判别聚类结果Fig. 11 Clustering results of entering service area identification

表2 客车、货车入区判别条件Table 2 Identification conditions for passenger cars and trucks entering the service area

最后,根据判别条件对ETC通行数据进行入区判别,并利用服务区卡口数据进行入区模型验证,比较考虑车流运行状态与不考虑车流运行状态情况下服务区入区判别的准确率,对比结果如图12。由图12可知:在畅通状态下,两种判别模型驶入量误差均较小;在拥堵状态下,不考虑车流运行状态的驶入量远大于卡口数据驶入量。选取相对误差作为误差评价指标,在不考虑车流运行状态情况下,全日客、货车的绝对误差分别为4.4%、11.1%;考虑车流运行状态下客、货车的相对误差分别为1.5%、7.0%;客、货车判别模型精度分别提高了2.9%和4.1%。

图12 服务区入区判别交通量验证Fig. 12 Verification of traffic volume entering the service area

4 结 论

结合ETC门架数据,充分挖掘有效信息,提出一种低成本、高精度、全覆盖的服务区入区判别模型,在对比分析服务区门架路段与邻近门架路段行程时间和行程速度分布特征的基础上,利用凝聚层次聚类构建了包含交通状态识别和入区状态识别两个阶段的服务区入区判别模型。实例分析表明,考虑车流运行状态的判别模型可有效提高在交通拥堵状态下入区判别结果精度,有利于提升高速公路管理与服务水平,在一定程度上可替代服务区卡口设施的作用,具有较好的经济性。主要结论如下:

1)服务区门架路段与邻近门架路段行程速度概率分布存在明显差异性。邻近门架路段行程速度概率分布曲线呈现“单峰”正态分布,行程速度低于40 km/h的客、货车占比分别为0.18%、0.31%。服务区门架路段行程速度概率分布曲线呈现“双峰”正态分布,行程速度低于40 km/h的客、货车占比提高至8.19%、18.70%。

2)针对高速公路收费数据在OD行程时间粒度的局限性,提出了适于区间平均速度划分交通状态的判别指标“平均速度差分量”,通过对比分析客车和货车平均速度差分量离散程度发现,客车平均速度差分量更能体现高速公路交通状态变化。

3)关联车辆在上、下游路段的交通运行状态并划分为4种状态类型,对比车辆在服务区门架路段和邻近门架路段行程速度的概率密度分布发现,4种状态的拟合曲线在临界处存在不同程度的形态差异,这说明不同运行状态下,基于速度变化划分的入区判别条件不同。

4)运用凝聚层次聚类分别对考虑车流运行状态与不考虑车流运行状态的交通流进行了聚类分析,并对聚类结果进行验证。结果表明,在考虑车流运行状态情况下,客车和货车判别模型精度分别提高了2.9%和4.1%,具有更优的判别效果。

限于数据研究周期较短,在后续研究中将延长数据周期,探讨在工作日与非工作日、节假日与非节假日场景下不同车流运行状态的速度分布特征,进一步优化入区判别模型参数,使判别结果达到更高的准确性。

猜你喜欢
门架平均速度交通流
“运动的快慢”“测量平均速度”知识巩固
基于新能源技术的高速公路ETC门架供电系统
ETC门架防雷技术浅析
探究物体的平均速度
把脉平均速度的测量
交通流随机行为的研究进展
路内停车对交通流延误影响的定量分析
3200/1600t溜尾门架
测平均速度演示仪
具有负压力的Aw-Rascle交通流的Riemann问题