王 方,李 华,杜金玲
无检测器道路交通流数据质量检测方法
王 方,李 华,杜金玲
(西安电子科技大学经济与管理学院,西安 710071)
一般交通流数据质量检测方法要求的原始数据量较大,而无检测器道路可获得的交通流数据又非常有限。为此,提出一种基于灰色系统理论的无检测器道路交通流数据质量检测方法。该方法将不同检测点获得的原始交通流数据处理成一组数据序列,通过对数据序列的灰生成、灰色关联度计算及标准化处理,求得不同数据序列相互间关系的密切程度参数λ,根据需求选出阈值,比较λ与之间的大小,实现无检测器道路交通流异常数据检测的目的。运用杭州市某一局部路网的浮动车交通流原始数据,将该方法与基于相似系数和的检测方法进行对比实验,结果证明,该方法的检测效果优于基于相似系数和的检测方法,平均错检率降低了21.00%,平均准确率提高了28.64%。
智能交通;交通流;脏数据;数据清洗;数据质量;灰色系统理论
自20世纪30年代智能交通诞生起便在全球迅速引起关注[1],经过几十年的发展,它已经成为人们生活中的一部分,成为解决交通拥堵、交通事故、交通污染等问题的有效途径之一。实时准确的短时交通流预测作为实现城市交通控制与道路诱导系统的关键,是智能交通系统(Intelligent Transportation System, ITS)建设的核心内容[2]。目前,交通流预测的模型和方法已经非常丰富[3-5],综合起来有:线性方法,如时间序列预测方法[6];非线性方法,如小波分析方法[7];智能模型方法,如神经网络法[8];组合方法,如季节性支持向量机和混沌免疫算法的组合应用[9]。科学技术的迅速发展,交通流数据的来源呈多元化趋势(如线圈、视频等),这使得基于数据融合技术的交通流预测成为另一种有效提高预测精度的途径[10-11]。然而,现实中常常由于交通流数据检测器处于非正常工作状态或传输通信设备的故障、环境因素的变化等原因,检测器获得的数据不可避免地存在丢失、冗余、错误等质量问题,通常称为脏数据。显然,质量不高的交通流数据不但会影响短时交通流预测效果,而且会给智能交通系统后续的交通应用(如数据融合)带来诸多问题[12-14]。鉴于此,国内外学者就如何检测交通流异常数据、清洗脏数据,提高数据质量进行了一定的研 究[15-16]。总之,国内外对有检测器道路交通流数据的预测与质量研究较多。
在智能交通建设过程中,国外部分先进国家的大部分交叉口都安装了检测器,道路基础交通流数据都可通过检测器获得。而我国城市路网过大、交叉口过多、政府资金投入不足等因素导致检测器并非覆盖所有交叉口[17],无检测器道路交通流数据的获取手段显得非常有限(如浮动车、人工采集等)。无检测器道路交通流数据的缺失,不利于无检测器道路的交通流预测,不利于我国城市整个路网智能化管理的实现。国内部分学者对无检测器道路的交通流预测进行了研究[18-20],而他们仅在预测前对交通流某一种或几种数据质量问题进行了简单处理,并没有给出一套完整的无检测器道路交通流脏数据清洗方法[21-22]。
本文在已有研究成果的基础上,充分考虑无检测器交通流数据的随机性和灰色特征[18-19],基于灰色系统理论提出无检测器道路交通流数据的灰色清洗规则,并运用杭州市某一局部路网的浮动车交通流数据与已有基于相似系数和的方法进行对比实验。
在脏数据的清洗过程中,清洗规则发挥了关键作用。文献[12]针对交通流数据的错误、丢失、冗余这3种经常发生的现象给出了相应的清洗规则,该方法对于通过检测器(环形线圈检测器)获得的大量道路交通流数据是有效的。而无检测器道路交通流数据通常是由浮动车或人工采集的方式获得,数据量不但相对不足,而且随机性和灰色特征更加突出,这就要求有适合无检测器道路交通流数据的清洗规则。
浮动车作为一种新型的城市交通信息采集平台,得到了国内外ITS专家和企业的高度重视[23]。目前,北京、上海、杭州、宁波、西安等城市已经拥有了一定规模的浮动车采集终端(由于个人出行的隐私性,出租车是当前唯一能够支持大规模应用的浮动车数据采集源),这些浮动车为获得城市无检测器道路交通流数据提供了有效途径。浮动车GPS数据生成格式[24]及举例如表1所示。
表1 浮动车GPS数据生成格式及举例
然而,由于民用GPS精度限制、地面建筑物遮挡、车载GPS设备故障,及部分浮动车驾驶员在道路上任意停放、不规则变道和加减速等随意性较大的驾驶行为等原因[25],浮动车交通流存在脏数据在所难免。因此,本文基于浮动车GPS数据格式提出了城市无检测器道路交通流脏数据清洗规则,如图1所示。
图1 城市无检测器道路交通流灰色清洗规则
灰色系统理论是针对既无经验,数据又少的不确定性问题,即少数据不确定性问题提出的[26]。灰色关联分析是灰色系统理论的一个重要内容,其基本思想是根据曲线间几何形状的比较进行因素分析,认为几何形状越接近,则发展变化态势越接近,关联程度越大。另外,灰色关联分析模型的建立,每一序列可少到3个数据。于是,本文选用灰色关联分析中的灰色自关联矩阵,结合阈值理论[27]提出了无检测器道路交通流异常数据的灰色清洗规则。
(1)
为进行灰色关联分析,对采集到的交通流数据需进行灰生成。本文结合阈值理论选用区间化生成规则,即:
灰生成后,考虑到并不能确定哪些检测点获得的交通流数据质量较高,即并不能确定哪个检测点的数据可作为参考序列(标准序列),基于此,本文选用灰色系统理论中的灰色自关联矩阵实现对无检测器道路交通流数据质量的检测。灰色自关联矩阵法能够将每一检测点获得数据本身既作为比较序列又作为参考序列进行处理,进而可以知道各个检测点获得数据间关系的紧密程度。另外,对于多属性的交通流数据而言,多属性恰恰可以构成一个数据序列,通过计算不同检测点获得的交通流数据(不同数据序列)间的灰色关联度,便可了解交通流数据的整体情况。灰生成后,检测点x与x间的灰色自关联矩阵构造[26]过程如下:
1)果园深翻。秋季采果后结合秋施基肥进行,只要方法合适,春、夏、秋季都可进行深翻,其中以秋季果实采收后至落叶期进行为好。针对贵州苹果产区中的山区薄土层果园,土壤深翻,能够加厚活土层,促进岩土的风化和熟化,提高土壤蓄水保肥能力。
差异信息集:
灰色关联差异信息空间:
(4)构造检测点x与x间的灰色自关联矩阵:
表2 浮动车部分原始数据
令浮动车交通流数据的速度、经度和纬度构成一个数据序列。其中,x是第个检测点的数据序列;分别代表第个检测点交通流数据的速度、经度和纬度值。结合文献[24]知:= 78,=10,=120.245 253,=120.170 070,=30.289 044,=30.274 070。
表3 10组异常数据序列引入正常数据序列中计算的λi
表4 存在单个异常数据序列时的检测结果对比
其中,=10。由表4结果可知,本文基于灰色关联度提出的浮动车交通流数据质量检测方法的效果明显优于基于相似系数和的检测方法,表现为前者的平均错检率较后者降低了21.00%,前者的平均准确率较后者提高了28.64%。
表5 4组异常数据序列引入正常数据序列中计算的λi
表6 同时存在多个异常数据序列时的检测结果对比
由表6的结果可知,当多个异常数据序列同时存在时,本文基于灰色关联度提出的检测方法效果同样优于基于相似系数和的检测方法,表现为前者的平均错检率(0)小于后者的平均错检率(5%)、前者的平均准确率(100%)明显大于后者的平均准确率(70%)。同理,对速度小于10 km/h的 5组数据序列分组实验的结果同样显示,本文提出的检测方法效果优于基于相似系数和的检测方法,表现为前者的平均错检率较后者下降了13.33%,且前者的平均准确率较后者提高了13.85%。
表7 2种方法检测有效性对比结果
图2 交通流异常数据错检率对比
本文提出的灰色清洗规则综合考虑了无检测器道路交通流数据的灰色特征、多属性和随机性,为解决无检测器道路交通流数据(浮动车数据)质量问题,克服因交通流数据多属性而逐一检测所引起的时间复杂度增加和多属性间关联割裂等问题提供了一种新的思路。
[1] Machado J A T, Figueiredo L. Special Issue on Modelling and Control of Intelligent Transportation Systems(ITS)[J]. Non- linear Dynamics, 2007, 49(4): 443-444.
[2] 沈国江, 王啸虎, 孔祥杰. 短时交通流量智能组合预测模型及应用[J]. 系统工程理论与实践, 2011, 31(3): 561-568.
[3] 高 慧, 赵建玉, 贾 磊. 短时交通流预测方法综述[J]. 济南大学学报: 自然科学版, 2008, 22(1): 88-94.
[4] 郭 敏, 肖 翔, 蓝金辉. 道路交通流短时预测方法综 述[J]. 自动化技术与应用, 2009, 28(6): 8-16.
[5] 徐健锐. 短时交通流预测中的若干问题研究[D]. 镇江: 江苏大学, 2010.
[6] Ahmed M S, Cook A R. Analysis of Free Way Traffic Time Series Data by Using Box-Jenkins Technique[EB/OL]. (2003- 09-10). http://www.trb.org/Publications/Pages/262.aspx.
[7] 杨立才, 贾 磊, 何立琴, 等. 基于混沌小波网络的交通流预测算法研究[J]. 山东大学学报: 工学版, 2005, 35(2): 46- 50.
[8] Lint J W C, Hoogendoorn S P, Zuylen H J. Accurate Freeway Travel Time Prediction with State-space Neural Networks Under Missing Data[J]. Transportation Research Part C: Emerging Technologies, 2005, 13(5/6): 347-369.
[9] Hong Wei-Chiang. Application of Seasonal SVR with Chaotic Immune Algorithm in Traffic Flow Forecasting[J]. Neural Computing & Applications, 2012, 21(3): 583-593.
[10] Faouzi N E E, Leung H, Kurian A. Data Fusion in Intelligent Transportation Systems: Progress and Challenges——A Survey[J]. Information Fusion, 2011, 12(1): 4-10.
[11] Bachmann C, Abdulhai B, Roorda M J, et al. A Comparative Assessment of Multi-sensor Data Fusion Techniques for Freeway Traffic Speed Estimation Using Microsimulation Modeling[EB/OL]. (2013-04-10). http://dx.doi.org/10.1016/j. trc.2012.07.003.
[12] 王晓原, 张敬磊, 吴 芳. 交通流数据清洗规则研究[J]. 计算机工程, 2011, 37(20): 191-193.
[13] Chen Shuyan, Wang Wei, Zuylen H. A Comparison of Outlier Detection Algorithms for ITS Data[J]. Expert Systems with Applications, 2010, 37(2): 1169-1178.
[14] Ferraris G B, Manenti F. Outlier Detection in Large Data Sets[J]. Computers and Chemical Engineering, 2011, 35(2): 388-390.
[15] Lin Dung-Ying, Boyles S, Valsaraj V, et al. Reliability Assessment for Traffic Data[J]. Journal of the Chinese Institute of Engineers, 2012, 35(3): 285-297.
[16] Ding Nan, Tan Guozhen, Zhang Wei, et al. Distributed Algorithm for Traffic Data Collection and Data Quality Analysis Based on Wireless Sensor Networks[EB/OL]. (2011- 02-14). http://www.hindawi.com/journals/ijdsn/2011/717208.
[17] 徐玉霞. 大规模路网动态交通流预测模型和算法研究[D].大连: 大连理工大学, 2006.
[18] 孙 燕, 陈森发, 周振国. 灰色系统理论在无检测器交叉口交通流量预测中的应用[J]. 东南大学学报: 自然科学版, 2002, 32(2): 256-258.
[19] 陈新全, 侯志祥, 吴义虎, 等. 无检测器交叉口交通流量预测的灰色神经网络模型[J]. 系统仿真学报, 2004, 16(12): 2655-2656.
[20] Xiao Xinping. Grey Linear Regression Model and Its Application[C]//Proc. of IEEE International Conference on Grey Systems and Intelligent Services. [S. l.]: IEEE Press, 2011: 177-181.
[21] Li Xingyi. Short-term Traffic Flow Time Series Forecasting Based on Grey Interval Forecasts Method[C]//Proc. of International Conference on Educational and Information Technology. [S. l.]: IEEE Press, 2010: 384-389.
[22] Zhang Jian, Li Hua. Traffic Forecasting at Non-detector Roads Based on City Road Network[C]//Proc. of the 19th International Conference on Industrial Engineering and Engineering Management. [S. l.]: Springer, 2012: 1235-1238.
[23] 刘 春, 黄美娴, 杨 超. 浮动车数据缺失道路的速度推估模型与实现[J]. 同济大学学报: 自然科学版, 2010, 38(8): 1255-1260.
[24] 杨 涛. 基于浮动车技术的路段交通流量推算研究[D]. 北京: 北京交通大学, 2006.
[25] 辛飞飞, 陈小鸿, 林航飞. 浮动车数据路网时空分布特征研究[J]. 中国公路学报, 2008, 21(4): 105-110.
[26] 邓聚龙. 灰色系统理论教程[M]. 武汉: 华中理工大学出版社, 2002.
[27] 秦 玲, 郭艳梅, 吴 鹏, 等. 断面交通检测数据检验及预处理关键技术研究[J]. 公路交通科技, 2006, (11): 39-41.
[28] 中华人民共和国建设部. GB50220-95 城市道路交通规划设计规范[S]. 1995.
编辑 顾逸斐
Quality Detection Method for Non-detector Road Traffic Flow Data
WANG Fang, LI Hua, DU Jin-ling
(School of Economics & Management, Xidian University, Xi’an 710071, China)
Conventional data quality detection method requires large number of initial data while traffic flow data at non-detector road is very limited. A new non-detector road traffic flow data quality detection method based on grey system theory is put forward to deal with the contradiction. The raw traffic flow data obtained by different detection points is processed into a set of sequence data. Through grey generating, calculating and standardizing of the set of sequence data, the closeness of the parametersλwhich reflect the mutual relations between different data sequence is obtained. The purpose of detecting outliers is realized through the comparison of the size ofλandwhich is the selected threshold based on demand. Using the probe car traffic flow data which covers a local road network of Hangzhou, the efficiency of the proposed method is verified by comparing with the detection method based on similarity coefficient. The proposed method is better than the method based on similarity coefficient. For example, the average false detection rate of this method is lower than the method based on similarity coefficient by 21.00%, and the average accuracy rate is 28.64% higher than the latter one.
intelligent traffic; traffic flow; dirty data; data cleaning; data quality; grey system theory
1000-3428(2014)03-0218-06
A
TP18
2012年西安市科技计划基金资助项目“道路交通与应急指挥系统研发”(CX1240)。
王 方(1987-),男,博士研究生,主研方向:智能交通系统,决策分析;李 华,教授、博士生导师;杜金玲,博士研究生。
2013-01-15
2013-04-11 E-mail:wf.369.abc@163.com
10.3969/j.issn.1000-3428.2014.03.046