,,
(浙江工业大学 计算机科学与技术学院,浙江 杭州 310023)
伴随全球信息技术的迅猛发展,城市信息化建设实时产生并积累了海量的数据,催生了“数据”城市.近年来,云计算技术的发展让数据价值备受关注,并引爆了全球对于大数据研究的浪潮[1].基于数据驱动的智能交通系统[2]是交通治理的重要手段.随着检测技术逐步成熟、交通参与者信息共享,越来越多的交通数据可以被人们采集、记录.如何处理分析这些数据,对交通状态作出准确识别,成为智能交通系统及时、正确和智能交通管控的关键.然而由于来源、频率和表现形式的不同,数据种类格式繁多、质量参差不齐,很难被有效利用.国内外也有不少学者对数据的分析与处理展开了相关研究.Chen等[3]提出了逐天统计的检测算法,实现了检测器在各个时间段内的故障数据检测.Min等[4]针对空间维度缺失数据和时间维度缺失数据分别采用相邻地点检测数据修复和相邻时间检测数据修复的算法.郭海锋等先后研究了基于模糊卡尔曼滤波的短时交通预测[5]与基于马尔可夫过程的路网交通状态预测方法[6],其数据预测方法对数据修复过程也有一定参考作用.这些研究为单数据源的处理提出了有效的方法,在实际应用中复杂的多源交通数据仍存在一定的局限性[7].
针对城市交通数据种类繁多、质量参差不齐和输出格式不规范的特点,对交通数据的分析处理方法展开研究,提出一套针对城市多源交通数据进行数据重构、质量诊断、时空修复、置信分析和多源融合的算法体系,并利用实际数据对算法合理性进行验证.该算法已在杭州“城市大脑”项目中得到有效应用,社会价值显著.
交通数据由于来源的不同可以分为交警数据(视频卡口、微波、线圈和信号机等设备检测运行产生的数据)、交通行业数据(出租车、网约车和公交车等的GPS数据)和泛交通相关数据(运营商数据、天气和舆情等数据等)[8-9].
受到各类检测设备稳定性、检测数据种类的单一性的影响,这些数据往往不能完全满足信号控制智能化的需要,数据的异常、缺失现象也影响着信号控制算法的效果,这就需要对这些数据进行分析处理获得规范的交通参数.这些数据由于来源、采集频率和数据种类不同,在对其进行分析处理前,要先对数据进行转换.基于对各类数据的完整性、准确性分析,提出多源数据分析处理体系,如图1所示.数据池中的不同来源数据分别经过提取与转换后进入数据分析处理模块,经过处理后依据相互的关联关系对数据进行置信分析,将带有数据置信度的数据存入数据仓库,为交通态势分析、信号控制、效果评价和事件检测等交通应用提供规划、稳定的数据支撑.
图1 多源数据分析处理流程Fig.1 Multi-source data analysis and processing diagram
数据重构是数据从一种形态到另一种形态的转换过程[10],对多源交通数据而言是将交通原始结构化数据转换为交通通用数据的过程,包括交通变量标准化、采样频率统一化这2个步骤.
1) 交通变量标准化
交通变量标准化是指将不同来源或同一来源的相同物理含义数据进行标准化统一的过程,包括量纲统一、物理含义统一和标准当量折算3类情况.
量纲统一是指将同物理含义数据进行统一度量的过程,例如电警、卡口检测器和GPS检测器等产生的速度统一度量为m/s或km/h;物理含义统一是指将部分模型计算数据进行标准化的过程,如时间占有率、空间占有率和排队长度等数据统一为绿灯相位或周期相位参数,上述2个标准化过程相对比较简单.标准当量折算是指将有些数据中的检测对象统一折算为标准参照物的过程,例如公交车、卡车和小轿车等车辆由于规格不同,占地面积、通行速度上存在差异,在进行流量及相关衍生参数的统计时需要对其进行标准当量折算.利用元胞自动机模型对不同类车的通行特征进行分析,示意图如图2所示.
图2 不同类车辆通行特征示意图Fig.2 The schematic diagram of different types of vehicles characteristics
图2中A为公交车模型,B为大货车模型,C为小轿车模型.在空间维度上,由于车辆间距、车身长度的不同,3种交通对象可以建立图3中所示的折算关系.在时间维度上,实际通行过程中不同对象的行驶速度存在差异,因此可以建立不同车辆及非机动车标准车当量折算模型(以大货车为例),其表达式为
(1)
(2)
式中:lb为大货车饱和通行时相邻两车的车头间距,m/veh;vb为饱和流量通过交叉口时的平均行驶速度,m/s;h0为标准车饱和通行的车头时距,s/veh;γ为修正系数,用以修正不同流向或特殊通行行为;kb为折算系数.由于交通对象的行为具有一定的随机性,通常需要进行大量的数据调查,标定出合理的折算系数k.
2)采样频率统一化
不同来源的交通数据,往往呈现出不同的输出频率.例如视频过车数据每秒实时上传,流量检测器数据以信号机触发每相位或每周期输出,出租车GPS数据每15~20 s更新1次,地图服务商数据每2 min左右刷新1次状态.因而需要对数据采样频率进行统一化,通常将数据转化为周期频率或Δt,存在连续的多个采样频率数据内容相同的情况.
每种来源的数据经过提取转换后,进入数据分析处理模块,该模块关键技术包括多维度的数据质量诊断、基于时空数据的关联修复和基于置信度的数据分析.经过分析处理后的可应用数据存储进入数据仓库.存入数据仓库的数据可以供进一步分析发掘应用,有些处理过程也会根据数据应用需要对数据进行预测.单独来源数据分析处理流程示意图如图3所示,本节将对数据分析处理关键技术步骤进行阐述.
图3 单独来源数据分析处理流程示意图Fig.3 The flow schematic diagram of single source data analysis and processing
数据在检测、传输和存储过程中可能出现异常[11],这些异常表现为数据缺失、数据超出阈值或数据合理性偏差[12],有些异常仅通过简单的筛选很难发现.以流量、速度和占有率等交通常用基本参数为例,提出一种通过阈值法、交通机理判断法和时空关联筛选法依次对数据进行全面科学诊断的方法.
3.1.1 数据阈值诊断
1)流量阈值诊断
城市地面道路主要可分为主干道、次干道和支路3类,每1类道路有着不同的设计标准,这些标准也一定程度上决定了道路的最大通行能力.每类道路的最大通行能力即为该类道路流量的默认阈值.针对实际应用,这一阈值还受到实际道路条件、通行车辆驾驶习惯的影响,需要对其进行修正,修正参数需要利用数据进行标定,因而实际路段通行能力可以表示为
C=fc·C0
(3)
式中:C为实际道路通行能力,pcu/h;C0为道路最大通行能力,由道路设计标准决定,pcu/h;fc为修正系数,可以通过实际数据标定确定.
流量数据的合理范围为0≤q≤C,当流量数据q∈[0,C]时,数据初步诊断正常;当q∉[0,C]时,数据诊断为阈值类,需进行数据清洗与修复.
2)速度阈值诊断
城市道路在设计时每条道路也有路段限速,绝大部分车辆均在限速内行驶,也有部分车辆的瞬时速度会略大于限速,速度阈值范围为
0≤v≤kvvmax
(4)
式中:v为实际车速,km/h;vmax为道路设计上限速度,km/h;kv为修正系数,根据实际车辆行驶行为特点对阈值作出修正.
当速度数据大于道路限速时,认为数据为异常数据,需进行数据清洗与修复.
3)占有率阈值诊断
占有率o即车辆的时间密集度,就是在一定的观测时间T内,车辆通过检测器时所占用的时间与观测总时间的比值.其合理范围为
0≤o≤100%
(5)
当占有率大于1时,认为数据为异常数据,需进行数据清洗与修复.
3.1.2 交通流机理诊断
对于一种数据源而言,当数据为0时,无法直接判断其正确性,此时如果还能得到其他相关交通参数,可以综合多个交通参数,利用其内在逻辑机理行判断,交通3大基本参数流量、速度和占有率之间的关系已有相关文献进行过分析[13],如表1所示.
表1 基于交通流机理判断规则表Table 1 Filtering rules based on the traffic flow theory
鉴于交通数据在时间、空间两个维度的关联性,可以建立相应的时空关联修复方法[14-15],对数据质量诊断为异常的数据进行修复[16],依据时空关联数据质量的差别,可以同时评估其修复后数据的置信度.针对真实路面数据具体建立时空关联数据修复模型,即
(6)
式中:Datai,j为当前时刻前j个数据采样时间的非信任数据;mpre有效数据个数;Datai,k为当前时刻前k个历史同期信任数据;nhis为有效数据个数;Dataloc,p为当前时刻临近同功能车道信任数据;nloc为有效数据个数;α,β分别为权重系数,可根据数据信任程度差别进行调整.
将修复后数据置信分析分为时间维度、空间维
度2个部分,最终取两者间的最大值作为修复数据置信度,定义空间维度计算置信度Fs和定义时间维度计算置信度Ft.其表达式分别为
(7)
(8)
式中:nadj为实际有效数据相邻车道个数;α为修正系数,用于修正车道个数与修复后置信度符合程度;npre为当前时刻对应历史信任数据个数;nori为前多个Δt时段信任数据个数;δ为权重系数,用于分配历史当前时刻数据与前n个Δt时段数据权重;β,γ分别为修正系数,用于修复历史信任数据个数与修复后置信度符合程度.
将时空维度置信度整合,取两者中最大值为该修复数据的置信度F,即
F=max{Fs,Ft}
(8)
通过调节α,β,γ,δ可以整定出与现实情况相符合的置信度评价函数,而对于无需修复的数据,置信度记为100%.
选取“城市大脑”项目所在城市杭州市萧山区2017年7月9日0:00—24:00真实路口、路段数据经过数据重构后的结构化数据为样本,对其数据的异常情况进行诊断与修复.原始流量数据如图4(a)所示,为某路口单个直行车道电警卡口检测流量数据;原始速度数据如图4(b)所示,为某路段平均车速数据,该路段取自道路中间且不与任何入口相连,因此几乎可以忽略信号控制对车速的影响,仿真主要针对异常数据识别、数据修复及修复后完整性、准确性评估.
图4 某市某路口单个直行车道原始数据Fig.4 The original data of one through lane in a day
上述数据以5 min为时间间隔,将1 d分为288个时间段.由于真实环境中设备短时异常、通信线路问题等原因数据偶尔会出现连续时间缺失现象,如图4流量与速度曲线中空白区域,属于正常现象.结合原始车道流量与路段速度数据的情况,对非缺失点进行数据诊断.诊断按文中方法分3步:阈值判断、交通流机理和多维度回归模型对异常流量及速度数据进行诊断,诊断结果如图5所示.
图5 异常数据识别结果Fig.5 The result of abnormal data recognition
图5中星号标记的数据为诊断出的异常流量(或速度)数据.流量数据共诊断出缺失数据38个,异常数据18个;速度数据共诊断出缺失数据49个,异常数据33个.利用所述的时空关联数据修复方法对异常数据进行修复,结果如图6所示.图6中虚线部分为修复后结果,实线部分为原始数据参照.流量数据修复前缺失率为13.19%,修复后无缺失;速度数据修复前缺失率17.01%,修复后无缺失.同时,以同一路口(路段)相同时段历史数据为均值,计算得到流量修复前数据与均方差为18.29,而修复后数据均方差降至10.65,置信度相应提升15%,速度修复前数据均方差58.72,而修复后数据均方差降至30.30,置信度提升18%.对数据进行修复后,数据的完整度得到大幅提高,数据的异常突变情况得到有效改善,更符合交通数据的连续性、规律性.
图6 数据修复结果Fig.6 The result of data restoration
针对交通数据存在种类繁多、质量参差不齐和输出格式不规范等问题,为提高数据的稳定性、完整性和可用性,提出了一套多源交通分析处理流程体系.并以交通基本参数流量和速度为例,详细介绍了体系中数据重构、多维时空关联诊断、时空关联修复和置信分析等方法.最后结合实际道路,以卡口流量、卡口速度和高德速度为例,对上述方法进行了验证.结果表明:该方法能够有效提高数据的完整性与数据质量,对交通多源数据的综合利用有着重要的价值.该数据分析处理体系流程涉及的方法也在杭州市“城市大脑”项目中得到应用,体现了该方法的实用价值.
参考文献:
[1] 周春梅.大数据在智能交通中的应用与发展[J].中国安防,2014(6):33-36.
[2] 陆化普,孙智源,屈闻聪.大数据及其在城市智能交通系统中的应用综述[J].交通运输系统工程与信息,2015,15(5):45-52.
[3] CHEN C, KWON J, RICE J, et al. Detecting errors and imputing missing data for single-loop surveillance systems[J]. Transportation research record journal of the transportation research board,2003,1855:53-57.
[4] MIN W, WYNTER L. Real-time road traffic prediction with spatio-temporal correlations[J]. Transportation research part C:emerging technologies,2011,19(4):606-616.
[5] 郭海锋,方良君,俞立.基于模糊卡尔曼滤波的短时交通流量预测方法[J].浙江工业大学学报,2013(2):218-221.
[6] 郭海锋,蔡华波,朱超,等.基于马尔可夫过程的路网交通状态预测方法[J].浙江工业大学学报,2017(4):421-426.
[7] 吴子啸,付凌峰,赵一新.多源数据解析城市交通特征与规律[J].城市交通,2017,15(4):56-62.
[8] WU X, JIN H. Multi-source traffic data fusion method based on regulation and reliability[C]//IEEE International Symposium on Parallel and Distributed Processing with Applications. Chengdu:IEEE,2009:715-718.
[9] 姚庆华,和永军,缪应锋.面向综合智能交通系统的多源异构数据集成框架研究[J].云南大学学报(自然科学版),2017(S1):41-45.
[10] LIN L, LI J, CHEN F, et al. Road traffic speed prediction:
a probabilistic model fusing multi-source data[J]. IEEE transactions on knowledge & data engineering,2017(99):1.
[11] 陈德旺,郑长青,章长彪.快速路交通流异常数据判断算法研究及实证[J].中国安全科学学报,2006,16(7):122-127.
[12] 耿彦斌,于雷,赵慧.ITS数据质量控制技术及应用研究[J].中国安全科学学报,2005,15(1):82-87.
[13] 徐程,曲昭伟,陶鹏飞,等.动态交通数据异常值的实时筛选与恢复方法[J].哈尔滨工程大学学报,2016,37(2):211-217.
[14] 谢羲.基于时空关系协同作用的交通数据预处理方法研究[D].西安:长安大学,2015.
[15] WANG J, FANG J, HAN Y. A multi-source data organization and management method for intelligent transportation[C]//Web Information System and Application Conference. Yangzhou:IEEE,2014:324-327.
[16] 邹晓芳.城市快速路交通流故障数据修复方法研究[D].北京:北京交通大学,2014.