基于高速收费数据的路径速度还原与流量推断

2020-03-23 10:10

公路工程 2020年1期

(华南理工大学土木与交通学院，广东广州 510640)

高速公路的建设在提升国家经济水平、城市招商引资、产业结构升级等方面具有巨大影响力。关注高速公路的交通流状态，对社会、经济、文化的发展都是有积极影响的。在越来越重视高速建设的过程中，交通拥堵却成为了一个严重问题[1]。研究拥堵情况就是高速的交通流状态，包括流量、速度和密度[2]。高速交通流量作为影响路况的一大要素，本文对其进行深入研究。

随着数据时代的来临，获取数据的方式增多，借助数据进行高速公路流量研究势在必行依靠高速公路收费数据进行高速公路相关研究的已经越来越多了。张俊峰[3]使用收费数据获得车辆出行OD，然后根据OD及最短路径算法，求取了OD间的最短路径，以此为车辆真实路径，根据每个入口的出入车辆数推断路段的流量。张姣姣[4]同样使用收费数据获得车辆出行OD，然后统计日均流量及特征，建立仿真模型，根据仿真结果进行高速公路状态估计。单飞[5]使用收费数据的出入站时间计算流量，再结合行驶里程，计算平均速度，得到路段的平均速度和车道占有率，然后根据三项数据进行BP神经网络判别，得到路段的拥挤情况。赵怀鑫[6]使用收费数据计算每辆车的行驶时长，通过快速峰值聚类算法对车辆的时长进行聚类，与K均值算法比较，得到各个车型通行比例变化，并与实际情况进行了对比。胡继启[7]利用收费数据计算的出入站时刻与里程计算速度，然后建立方程组计算出交通拥堵的初发点。

除了仅使用高速收费数据以外，还有很多研究选择其他数据与高速收费数据结合使用。胡郁葱[8]使用浮动车GPS数据和收费数据进行了多源数据的融合，计算高速路段上的平均速度，并比较了只采用一种方法与融合后的误差。邵孙建[9]使用收费数据获得OD量，使用平均速度数据获得各路段的平均速度和车流密度，再根据结果预测车辆的行程时间，并验证可靠性。曾智慧[10]针对数据异常的收费数据和车检器数据进行研究，分析了数据的实际质量问题，并进行了异常数据的识别与修复。

可以发现，近年来对高速公路的研究很多都依赖于收费数据。但在一些跨高速的数据上，很多研究并不重视车辆的行驶轨迹。实际上车辆并不一定会按照最短路径行驶，而是会选择车主认为方便的路径，这会导致计划与实际的冲突。其次，对车速的分析太过笼统，直接用车辆行驶里程除以出入口时间差得到车辆的运行速度，或是在此基础上增加修正系数来稀释车辆的排队等延误。

本文针对提到的这两个方面，提出车辆路径还原的算法，对车辆速度的计算方法进行细化、优化，并对不同时段内的不同路段进行流量的推断。

1 车辆行驶路径分析

1.1 路径分析必要性

收费数据中包含了车辆的基本行驶信息，包括出入高速时间、站名、里程、路径信息等。与地铁网络一样，高速公路网存在多路径问题，同一OD可能有着多条可达路径。由于不同路径的里程和价值不一样，所以收费是不一样的，因此高速收费数据中会有路径信息，表现为车辆经过的标识站编号。但是因为高速开通时间参差不齐，原本的唯一路径可能不需要标识站，新高速开通后导致了存在多路径选择，可是原高速没建立标识站，只在新高速添加了，这样会导致一个多路径的OD会有标识站不齐全，无法完整表示路径的问题。虽然这对已经设计完备的收费系统无影响，可是对我们研究分析产生巨大障碍，因此需要对每条记录进行路径还原，得到车辆的实际经过路段。

1.2 路径还原

路径还原主要分为路径搜索与路径选择两部分。

1.2.1路径还原相关算法

考虑到高速路网的结构，可以运用图论的方法去解决问题。

把高速路作为结点，互通立交作为图的边，可以得到与当前高速直接可达的高速，从而可以得到高速公路邻接图。考虑到高速邻接图的特点，选择广度优先搜索算法搜索路径。

广度优先搜索算法是图的一种搜索算法，它从根节点开始，按层遍历节点，直到找到目标节点。如果找不到目标，则会遍历完这个图，如果图是无限大的，则不会收敛。

如图1，对这个图进行遍历。V0为根节点，首先就搜索V0的相邻节点，即V1和V2，然后按照顺序搜索V1和V2的相邻节点，已经搜索过的就忽略，以此类推，最终搜索出的节点顺序为：V1→V2→V3→V4→V5。

图1 广度优先搜索示例Figure 1 Example of the breadth-first searching

如要搜索V0到V4的路径，根据遍历的顺序，可以得到下面的步骤。

S1： V0→V1，V0→V2；

S2： V0→V1→V3，V0→V2→V4，V0→V2→V5；

S3： V0→V2→V4，V0→V2→V5→V4。

最后找到了两条路径。一开始往V1结点的路径由于走到尽头还无目标结点，所以路径不可行，舍弃。

所以使用广度优先搜索算法可以有效地找到两结点间的所有可行路径。于是将其用于搜索车辆路径上。

1.2.2路径搜索

路径搜索是利用数据中出入口信息获得路径的首尾，然后通过标识站信息补充路径。标识站信息为长度不定的十六进制字符串，每个标识站用四位表示，前两位代表高速编号，后两位代表标识站序号。如“1D021D050102”指车辆经过了29号高速的02号与05号的标识站和1号高速的02号标识站。因此可以利用标识站信息获得车辆经过的高速集合。

对标识站的所在高速按顺序插入路径中，可以得到从入口到出口的路径列表，则车辆的从入口到出口的路径就可以看成路径列表中相邻高速的路径组合，那么寻找路径就可以看成寻找列表中所有相邻高速间的路径。

然后运用广度优先搜索算法，搜索所有相邻高速的可能路径。每段路径集再合并，获得完整路径集。

1.2.3路径选择

路径选择是对搜索出来的路径集合进行选择，找出最符合真实车辆路径的路径。

不同路径的里程是有区别的，而数据中含有里程信息，以里程作为判断标准来选择路径可行。计算路径集内所有路径的里程，然后取与原始数据里程差值最小的路径为最后选取的路径。最后选取的路径里程也需要得到一个可信度，如果与原始数据的里程相差200 m以内，可以认为选取的路径就是车辆行驶的真实路径。

如果不满足条件，有两种情况：路段里程叠加产生累积误差，导致最终里程的误差过大；或是没有找到对应路径。如这些数据量达到总数据量的1%，就需要建立模型判断车辆是哪种状况，再还原；如果达不到，对整体流量影响很小，则可以暂时不考虑这些数据使用。

设定寻找的路径的行程时间允许范围与里程误差允许范围。时间范围为车辆在高速限定速度范围v1～v2内的时间t1～t2，设里程误差允许范围为e，数据中的行驶里程为L，选择的里程为M，需要满足：

如不满足，可以认为没有找到合适的路径，此数据不能使用。

1.3 行驶路段组成

车辆在高速上行驶的路段，以图2为例，包括了入口匝道(en1，en2)、出口匝道(ex2，ex3)、高速主线(m1，m2)、同一个出入口间的距离(p2)，除此之外，还有连接不同高速的互通立交。

图2 高速公路单向路段分解Figure 2 Analysis of one-way section of highway

分解车辆行驶的路段，有助于分析在不同路段上车辆行驶的状态，而不是笼统地认为车辆从头到尾进行着匀速运动。

2 交通流量推断分析

2.1 行程时间分析

根据前一章的路段分解，可以把路段的时间分别计算。在计算前，需要先分析车辆在不同路段上的行驶状态。

首先，认为车辆在高速主线上是匀速行驶，进入主线前做是匀加速行驶，离开主线后是匀减速行驶[11]。因为无论是出入口匝道和互通立交都没办法达到主线匀速时的速度，所以加减速的过程不仅仅在匝道范围内实现，也占用了部分主线的路段。而互通立交与出入口匝道不一样，因为有车速限制，可以认为在匝道内也进行匀速行驶，加减速是发生在进入立交前与离开立交后。

得到车辆运行状态后，就要考虑与路段无关的影响时间因素。在这里主要指车辆收费方式，分为现金收费与电子收费(ETC)两种。收费数据里记录着车辆经过收费站的时间，即通过起落杆的时刻。ETC收费车辆有着不停车的特点，按照ETC通道的限速通过收费站。现金收费则需要进入人工收费通道排队拿卡和缴费[12]。因为数据记录的时刻，出口的排队缴费时间是算在了总行程时间内的，因此现金收费车辆除了上文提到的时间外，还需要计算排队时间。出入高速时间可由下面公式求出。

其中，ten为进入高速加速时间;tex为离开高速时间;n为出口人工车道数;s为每辆车收费时间,s;Q为人工收费车辆流量;m为加减速占用了主线长度,m；ren为入口匝道长度;rex为出口匝道长度;v0为ETC车道限速;vt为加速末速度和减速初速度。

设互通立交的车辆行驶速度为vs，亦可求得通过互通立交所需时间。

算出非主线的时间，数据中也有总行程时间，主线行驶时间tm自然出来了。

tm=t-ten-tex-ts

2.2 单车行驶速度

行驶速度指的是主线行驶速度，因为变速过程的初末速度已设定好，互通立交的行驶速度受限制，都无需计算。在时间已知的情况下求速度，需要获得车辆主线的行驶里程。

与行程时间不一样，数据中的行驶里程并不是主线上的里程，也不是收费站起落杆间的完整距离，而是包含主线与出入口匝道，不含立交长度的里程。设主线长度为l，数据中的行驶里程为L，有下面的等式。

L=l+ren+rex

根据运动学公式，并假设车辆通过了c个互通立交，可以得到主线行驶速度的计算公式。

2.3 流量分析

2.3.1确定车辆位置

某时段的路段流量是根据每辆车在这个时段内所在位置计算的。根据车辆在各路段的行驶速度以及进入路段的时刻，可以推断车辆在路段内经过的时间。

图3 高速公路单向路段示例Figure 3 Example of the one-way section of highway

如图，假设车辆从上图中1点进入高速，6点处离开高速。设车辆在n点的时刻为Tn，两点间的距离用l来表示，可以知道，车辆经过的高速主线长度为l16，我们需要求车辆在l12、l34和l56经过了哪些ΔT时间段，即需要获得上图每点的时刻。在假定车辆在主线进行匀速运动的前提下，我们可以有以下公式。

即只需要知道经过前一路口的时刻，就能求得经过路口时的时刻。如lm，m+1是车辆经过的一段互通立交(包括加减速路段)，根据上文提到的方法，可以得到下面的时刻计算公式

2.3.2流量推断

得到车辆在不同时间段的位置，车辆在每个ΔT内的位置也确定了。遍历数据，对所有收费记录进行统计，得到每个ΔT内所要统计路段的车辆数，就可以得到路段的流量。

3 案例分析

本文使用大湾区内26条高速的收费数据，对广清高速2018年9月5日的流量进行研究。

对所有5号数据进行路径还原，找出所有途经广清高速的车辆数据。5号共有数据1 644 975条，其中途径广清高速的数据有134 980条。路径选择过程中发现有125条数据的里程误差过大，所以在此次计算时将这125条数据舍弃。

以15 min为统计间隔，把1 d分为96个时间段进行流量推断，分别取3:30 — 5:30和17:00 —19:00两个时间段的北行方向为例，观察流量情况。结果如表1、表2。

表1 3:30—5:30北行方向流量Tab.1 Northbound traffic volume from3:30 to 5:30veh/h时间路段1路段2路段3路段4路段5路段6路段7路段8路段9路段103:303522162002522401721561361281603:45344268208264260180116961041604:002842122402842761921881081161404:153242642362762641681401401442044:30368304252296264200144112921444:45300248208300344192184961241365:003123082843443081881681721401405:15376280224308332316232112108256

表2 17:00—19:00北行方向流量Tab.2 Northbound traffic volume from17:00 to 19:00veh/h时间路段1路段2路段3路段4路段5路段6路段7路段8路段9路段1017:002 2441 9721 7562 3482 2321 3049807768401 01217:152 0561 8921 7922 3122 1481 16091273681286817:301 9321 8881 8362 3802 3441 39689276475286417:451 8801 7921 6282 2722 2241 1967368368881 12018:001 9161 9761 7882 3922 3041 19286468862097618:152 0561 7521 6362 3522 1681 26893682890486018:302 3522 2801 9162 4042 2201 19286074083298818:451 9241 8441 7682 3762 1561 236900772764864

计算的流量为Q，对比流量为q，相对偏差的计算公式为：

结果如表3和表4。

可以发现，在车流量较大的时段里，相对偏差

表3 3:30—5:30北行流量相对偏差Tab.3 Relative error of northbound traffic volume from 3:30 to 5:30%时间路段1路段2路段3路段4路段5路段6路段7路段8路段9路段103:302.271.856.001.591.676.987.698.823.1310.003:451.161.491.921.523.086.673.454.173.850.004:0012.683.770.001.410.008.330.0018.523.4520.004:151.231.523.394.354.559.522.865.710.007.844:301.093.953.174.056.066.008.3310.7113.0422.224:450.006.451.926.674.656.250.004.176.4520.595:001.281.302.824.653.904.2611.902.330.0034.295:153.191.430.005.194.821.276.903.5714.817.81

较小，车流量较小时，相对偏差较大。各时段路段的相对偏差参差不齐，说明方法对直接取平均速度的方法是有修正能力的，而且偏差是无直接关系的，不是增加修正系数就能解决的。

因此分路段考虑车辆运行状态的平均速度估计过程是有必要的。

4 结论

本文首先利用高速公路收费数据，使用广度优先搜索算法对车辆的路径进行了还原，然后对车辆在各路段的行驶状态进行分析，得到车辆状态模型，计算出车辆在各状态所需的时间，从而得到车辆主线的平均行驶速度。根据车辆行驶速度及加速减速时间，获得车辆进入和离开各路段的时刻，进行统计，得到各路段在不同时间段内的流量估计结果。使用本文的速度模型与细化前的速度计算方式进行了结果对比，发现了状态细化的必要性，把全路段视为匀速的方法有可能会引起较大的误差。由于两种模型间的无规律性，也导致了无法简单的使用一些系数进行流量修正。

本文对流量进行估计，得到了阶段性成果，为进一步研究高速公路状态打下基础。