一种面向公路交通情况调查信息的数据质量控制方法研究

2019-01-13 09:48王英平孙硕申雷霄王强撒蕾
中国管理信息化 2019年23期

王英平 孙硕 申雷霄 王强 撒蕾

[摘    要] 公路交通情况调查(以下简称“公路交调”)数据可为政府部门、研究机构及社会公众提供决策依据,因此数据的完整性和可靠性至关重要。研究基于江苏省普通交调数据,分析了交通流量数据完整性,并提出了一套完整的异常数据判别规则,最后通过实际数据验证结果表明:插值比预测更适用于公路交调异常数据的修复,拉格朗日插值算法更适用于公路交调数据的修复工作。

[关键词] 公路交调;数据质量控制;判别规则;数据修复

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2019. 23. 065

[中图分类号] U491    [文献标识码]  A      [文章编号]  1673 - 0194(2019)23- 0152- 04

0      引    言

公路交通情况调查工作是指通过对公路的交通情况进行统计、调查和监测以掌握公路交通情况,进而为宏观政策制定、交通运输行业经济运行分析、公路网规划与调整、公路建设投资评价、路网运行监测与评价、公路养护计划于管理、公路应急处置、公众出行等提供有力支撑[1]。但由于设备质量问题(目前市场上对交调设备准确率要求是90%)、网络传输问题、天气气候等因素,经常会导致最终汇总的公路交调数据存在缺失、错误等数据质量问题。因此对公路交调数据的数据质量控制研究是非常必要的[2]。

研究提出针对公路交调数据质量控制策略:分析江苏省普通公路实际数据,总结提出异常数据判定规则,将数据分成正确数据、错误数据和缺失数据。正确数据进入数据库进行分析应用,错误数据进行剔除,并针对缺失数据采用插值法、预测法等修复算法进行数据修复。图1所示为位数据质量控制路线。

1      数据质量完整性分析

研究以2017年江苏省连续式交调站全年分小时分方向数据为分析对象,进行数据质量现状分析。针对连续式公路交调站点,一天24小时,一月共有31天,分上下行,则一个连续式观测站一个月要有1 488条小时流量数据,经统计,目前江苏省交调报送管理系统中普通公路共有362个连续式站点有小时数据,全年分小时分方向数据共计5 784 829条,数据完整率91.21%,可以支撑研究需求。

2      异常数据判别规则

异常数据指不在期望的范围内或不满足已有的原理与规则(如交通流理论),在检测周期中发生突变,不符合客观事实和逻辑的无效数据。异常数据的判别是对原始数据中交通流参数记录值进行检验,由于无效的概念比较模糊,相对不易判别。异常数据判别方法有交通流参数合理阈值原理、交通流机理及阈值原理和交通流机理结合的3种,此外,还需判别异常数据是否为事件数据(事故、道路维修等),若为事件数据则无需识别修正[3]。

通过交调设备获取的交通流参数由于受到外界因素的影响,会存在缺失、突变、错误等异常情况,不能直接作为交通管理系统的数据输入,针对交调数据,研究采用多种判别方法相结合的方式判别异常数据。

2.1   有效性检验

有效性检验主要目的是检测上传的记录数据格式是否规范、是否存在数据缺失、是否出现错误代码等最基本的检验,具体检测内容包括:①是否存在错误代码;②是否存在数据缺失;③各字段是否有效;④时间间隔是否正确;⑤是否存在重复记录。

以上检验项结合具体的通信协议即可确定,属于最基本的数据有效性检验,规则简单明确,执行速度快,应当作为基本的检验首先进行。

2.2   交通流单参数阈值检验

交通流参数阈值检验主要通对交通流参数中的流量、速度、占有率分别确定阈值区间,筛除明显不符合实际情况的记录。

2.2.1   流量阈值

国内外根据不同的采集周期,对单车道的流量上限和下限进行了研究,并计算出了折算上限,且由于较短的采集周期由于波動性较大,通常采用较高的阈值。采集周期为5 min时,流量的阈值上限基本都集中在250到260辆(即3 000~3 120辆/小时),部分实际应用中对于较短的采集周期也采用接近的值。由于可能会出现5分钟内无车辆通过的情况,流量的阈值下限可以直接取为0。

针对江苏普通公路交调数据的分析,单车道流量上限的阈值建议定位3 100辆/小时。

2.2.2   速度阈值

考虑到拥堵的可能性,国外已经研究的速度阈值下限一般都采用0或者较小的值,同时采样周期越短,考虑到个体车辆对于周期平均速度的影响越大,速度阈值上限设置的也相对较大。采样周期为5分钟的速度上限阈值通常设置为130~160 km/h。

2.3   基于交通流规律的检验

基于交通流规律的检验在部分文献中又称为多参数阈值规则,即基于交通流等理论,利用交通多个参数间的相关性,设定相应的阈值区间检验以识别异常数据。

2.3.1   0值检验

根据国外应用经验,在实时处理阶段通常采用较为保守的0值检验。0值检验是基本的多参数检验,主要特征是在考虑交通流基本规律的同时,围绕流量、速度、占有率三参数的基本关系,联系在实际中设备对数据的处理方式设定一系列逻辑检验,共同特点是对某一参数为0与否时的情况进行判断,具体包括:

若速度v=0,流量Q=0,则检测数据无效

若速度v=0,流量Q=0,则检测数据无效

若占有率O>0,流量Q=0,速度v=0,则检测数据无效

若占有率O=0,则流量Q应当小于一定的阈值

2.3.2   AEVL检验

仅采用0值检验可能会造成漏检部分不符合交通流规律的数据。为了对参数间相互关系进行进一步的检验,可以利用检测得到的流量、速度、占有率参数估算平均有效车辆长度,如下式:

AEVL=■(1)

式中,AEVL是平均有效车辆长度,单位米,检测结果应在适当的允许取值范围以内,超过该范围则可认为数据存在异常;v是平均速度,单位km/h;O是占有率,百分数;Q是小时交通自然量。

由于检测会存在误差等因素,根据数据分析结果,推荐AEVL取值区间为2.6~20米。

2.4   连续性检验

连续性检验是对采集到的多组数据进行时间、空间上连续性、一致性的检验。由于实时异常数据识别需要实时查询,要求尽量反映变动的道路交通情况,为了能够较好地反映突发事件,宜采用较保守的处理策略,仅进行基本的处理。

2.4.1   时间连续性检验

时间连续性检验是将采集到的数据与基础历史数据进行比较,判断是否差异过大。基础的历史数据可以是前一年、前几个月同一天、前几个星期同一天等数据。这里为了突出动态检验的特点,出于尽量保留数据特征反映交通实时交通情况的考虑,采用前几个没有被判断为数据错误的数据采集周期的数据作为基础历史数据进行数据时间连续性的检验。

2.4.2   空间连续性检验

空间连续性检验是将采集到的数据结合相关联的基础空间数据进行比较,判断是否差异过大。相关联的基础空间数据可以是上下游检测站数据等,其中如果上下游检测站相距较远还应当考虑时间上的延后。

这里为了突出动态检验的特点,出于尽量保留数据特征反映交通实时交通情况的考虑,采用相同断面同方向同一时间邻近车道的数据作为相关联的基础空间数据进行数据空间连续性的检验。因此该方法仅适用于多车道道路。

2.5   连续相同记录检验

2.5.1   流量为0的检验

在低流量情况下,车辆可视为随机到达,到达的规律将近似服从泊松分布。对于单个0流量检测值的记录,可以采用泊松分布计算在当前交通需求情况下单个记录流量为0 的概率。泊松分布如下式:

P(x)=■     x=0,1,2,…(2)

式中,P(x)是采集周期内到达x辆车的概率;M是采集周期内平均流量,可取为前几个周期流量的均值;x取为0。

根据泊松分布,若流量均值大于6.9而流量在某一时刻为0,则该时刻的流量即为异常。

2.5.2   连续相同不为0记录的检验

根据国内外经验,检测数据中可能出现连续记录的流量、速度和占有率完全相同的情况,因此应当设置连续相同记录数量的上限阈值,若连续相同记录超过该值则认为存在数据异常。

可以看出,虽然采集周期不同,但国外应用系统对连续相同记录上限的阈值均设定为8。考虑到实际交通情况随机波动的性质,多个不为0的参数连续完全相同的可能性很小,出于较保守检验的考虑,参照连续0流量的最大记录数规律,考虑到国外应用系统取值,根据不同位置,连续相同记录取值区间为4~8小时。

2.6   交通状态异常检测

交通状态异常值标定的核心是对一次标定中的交通特殊状态(拥堵、超速、无车)进行分析,从而对其进行二次标定。对于在某一固定时段的路段而言,若某一特殊状态在连续的n天或者连续的上下时刻中只出现一次,则被认为是一条异常记录。图2为异常值分析的具体流程。

一种面向公路交通情况调查信息的数据质量控制方法研究

插值结果MAPE值为9.15%,即数据准确率为90.85%,算法可以很好地使用于交通流量调查数据的修复工作。为了证明拉格朗日插值算法更适合公路交调数据的修复工作,研究对比了不同插值算法和预测算法的MAPE值,如表1所示。

结果表明,相較于预测算法,插值更适用于交通流量数据的修复工作,构建的函数更贴合交通流的实际规律,插值的结果更符合交调数据的真实值,误差因此较小。

4      结    论

研究通过分析江苏省普通公路交通流量情况调查数据,对公路交调数据提出了一套完整的数据质量控制流程。针对交通流数据中的异常数据提出了一套完善的判别流程,并使用多种插值及预测算法对缺失的数据进行修复。结果表明相较于预测,插值能更好地修复交通流量数据,同时拉格朗日插值算法更能反映交通流的内在规律,从而为缺失数据完成更好的插值。研究结果为交通流量调查数据修复工作提供决策依据,对于交通流量数据质量控制的发展具有重要意义。

主要参考文献

[1]王英平,杨建国,顾明臣等.公路数据调查与融合[J].中国公路,2016(3):94-98.

[2]王珺,吴兵,王靖阳,等.ITS实时检测交通数据的质量控制技术探讨[J].交通与运输:学术版, 2005(1):30-32.

[3]徐程,曲昭伟,陶鹏飞,等.动态交通数据异常值的实时筛选与恢复方法[J].哈尔滨工程大学学报, 2016,37(2):211-217.

[4]姜桂艳,江龙晖,张晓东,等.动态交通数据故障识别与修复方法[J].交通运输工程学报,2004, 4(1):121-125.

[5]丁闪闪,季锦章,刁含楼,等.基于小波分析和拉格朗日的交通异常数据处理[J].公路与汽运, 2015(4):59-63.