彭栋栋,曹 凯,陈 峰
(山东理工大学交通与车辆工程学院,山东淄博255091)
随着城市汽车保有量的快速增长,我国交通特别是城市交通发生了前所未有的变化,给城市道路交通带来了巨大压力.尽管采取了各种方法和措施缓解道路拥挤状况,但是在目前国家严格控制土地资源的政策导向下,城市交通拥挤状况必将持续下去.为了缓解城市道路交通拥挤的压力,在城市路网中提供实时路况信息显得尤为重要,而对交通拥挤水平进行分类是实时路况信息发布的基础.我国同济大学的郝媛等[1]依据城市快速路交通流实测数据,在对交通流状态进行划分的基础上,定性和定量地分析了常发性交通拥挤的特征,进而提出了“状态跳转”的概念和判别方法,揭示了拥挤形成过程;北京交通大学的石征华等[2]提出了与交通流三参数有关的拥挤度系数的概念,并针对快速路的实际状况,运用模糊数学中的综合评价方法,对城市快速路拥挤度进行判别;Pattara-Atikom W等[3]从CDT(Cell Dwell Time)和道路交通拥挤程度的关系研究入手,依据主干线上的CDT测量数据采用单阈值和模糊逻辑方法来估计道路交通拥挤程度;Porikli F等[4]提出一个无人监督、低延迟的交通拥挤估计算法,该算法直接在压缩域提取拥挤特征,并采用高斯混合隐马尔可夫模型(GM-HMM)来检测交通状况,通过计算信度评分,评估检测结果的可靠性.
本文通过构建一个决策树学习模型以分类道路交通拥挤水平,利用数据平滑技术降低噪声,使用滑动窗口瞬时抽样技术得出车辆运行模式,并结合驾驶员的感知评价,验证并校正决策树学习模型的分类精度,以期最大限度地减少对数据的依赖性.
交通数据的采集是做好交通拥挤水平划分至关重要的一部分.文中采用了一套全球定位系统(GPS)进行道路数据采集,采集的数据包括时间、日期、车辆行驶的速度以及位置坐标等信息.此外,我们还使用摄像机(固定在测试车辆的前仪表盘附近)获取车辆行驶过程中道路的交通状况.
以往的研究将交通拥挤水平的评价指标分为:时间、速度、服务水平、交通信号周期等[5],这些指标中一些指标便于客观采集,而另一些指标却只能给出主观评价.为了消除指标的主观干扰,减少指标数据维度,提高算法的实时性,这里只采用车辆行驶即时速度作为交通拥挤水平的主要评价指标.在车辆行驶中,会出现车辆行驶速度与交通拥挤状况不相匹配的现象,例如在通过弯道或者交通路口时车速会明显降低,而此时的道路通行状况可能良好.图1是拥挤水平和即时速度的分布图,从图1中可以观察到当车速较低(如5km/h)时,交通拥挤水平可能同时呈现出1=Jam,2=Heavy和3=Light 3种状态.
图1 即时速度和拥挤水平分布示意图
为此,本文在实验过程中,挑选驾龄在5年以上有经验的11名测试者,通过观看测试车辆行驶过程中录制的视频资料,获得他们对道路交通3种状态(Light,Heavy和Jam)的感知评价,应用多数投票的方法将道路拥挤水平按3种状态进行分类,去除不真实数据.通过驾驶员的感知评价,可以弥补采集数据对道路交通状况的不真实揭示.
在繁忙的道路交通环境中,采集的车辆即时行驶速度数据具有波动大、且分布不均的特性,影响分类精度.为此,本文采用滑动平均法[6]对数据进行预处理,设MVt为t时刻的移动平均速度,且
在计算中取ξ=3,得到的结果如图2所示.
图2 车辆即时速度与平滑速度(ξ=3)
在城市道路交通中,车辆的行驶状态必然受到交通流量疏密变化的影响,也必然改变着车辆的移动方式.因此,一般意义上讲,通过对车辆移动模式变化的发掘和提取,可以揭示道路交通拥挤状态变化规律.为此,通过对GPS设备采集到的车辆行驶即时速度的平滑处理和驾驶员投票分类处理,可去除数据波动对移动模式变化的影响,从而为准确发掘和提取车辆移动模式提供条件.
为了揭示车辆移动模式,以车辆的历史即时速度数据为基础考察车辆行驶速度与对应的道路交通拥挤水平之间的关系.图3展示了某一时间段内速度变化与对应路段拥挤水平之间的契合度,纵向坐标同时反映了拥挤水平,其中拥挤水平分别为10=Jam,20=Heavy和30=Light.
从图3可以看出,当车辆以较高速度行驶时,同时也表明道路交通状况为自由流(即图3的1~4时间段);当车速降到一个较低的范围时,意味着道路交通处在拥挤状态(即图3的5~7时间段).当车速降到更低的范围时,意味着道路交通处在堵塞状态(即图3的13~27时间段).
图3 车辆的行驶速度及道路交通拥挤水平
为了从不断采集的数据中发掘和提取车辆移动模式,本文采用滑动窗口技术[7],即在数据流上设定一个窗口,在每一个窗口S0,S1,…,Sδ-1内瞬时抽取车辆速度数据,δ(δ>0)称为窗口长度.为了提高数据处理速度,将参数值δ设置为3,这就意味着可以通过一系列的3个连续的行驶速度来获取车辆移动模式.
将3个连续时间点移动平均速度的表示定义如下:
MVt:t时刻的移动平均速度;
MVt-1:t-1时刻的移动平均速度;
MVt-2:t-2时刻的移动平均速度.
此外,引入一个新的参数AMVt来表示每一个窗口下车辆平均速度,以此反映车辆移动模式的变化.参数AMVt是通过计算MVt(ξ=5)来实现的.表1给出了t时刻MVt、AMVt计算以及移动方式提取过程.AMVt计算过程如下:AMVt在时刻t=17:00:30的值是通过从时刻t=17:00:00到t=17:00:30的即时速度求平均值得到的.最后一列Level表示驾驶员对于拥挤度水平的主观评价.
表1 通过即时速度计算平均速度的样例
在捕获车辆移动模式过程中,由于MVt和AMVt的计算省略了前3个数据,因此,从时间17:00:00到17:25:30每隔10s记录的数据中共挖掘出154个车辆移动模式事例,其中60个表示堵塞(Jam),65个表示拥挤(Heavy),只有29个表示自由流(Light).显然,由于数据采集中噪声的干扰和属性缺失等因素,数据挖掘中表现为“拥挤”的类样本数量较多,而表现为“自由流”的数据过少,造成类分布不平衡.Weiss实验研究表明,以分类精度为准则的分类学习通常会导致少数类样本的识别率较低,这样的分类器倾向于把一个样本预测为多数类样本.因此,分类不平衡将会导致在数据分类学习中比较差的准确性[8-9],需要对数据进行平衡分布处理.
为此,本文采用基于错分样本点改进过抽样法处理不平衡数据[10],该方法采用AdaBoost-SVM-OBMS算法来解决不平衡数据集分类中少数类分类困难的问题.该算法在错分样本点周围按照一定规则产生新的样本点,以错分样本点指导产生新样本,在一定程度上避免了目前算法盲目产生新样本点的缺点,使得非平衡过抽样更具有针对性.从本质上讲,该算法利用后验知识即错分样本信息,指导合成新的样本.数据类平衡处理产生348个车辆移动模式事例,其中116个表示堵塞(Jam),122个表示拥挤(Heavy),只有110个表示自由流(Light).
将预处理的数据用来训练和评估分类模型,为此本文选择5个属性作为训练模型的输入参数.前3个属性是MVt、MVt-1、MVt-23个连续的平均速度所代表的移动模型,第4个属性是AMVt,最后一个属性是Level.我们选用决策树(J48)算法,利用Weka软件平台进行数据处理,产生决策树模型来对道路拥挤水平进行分类.
此模型的目标属性是评价水平Level,采用10重交叉验证,分析时的参数采用默认设置,即:缺省置信值confidenceFactor设定在25%,覆盖实例数量最小值minNumObj的缺省值是2,numFolds是决定用于减少误差修剪法的数据的数量,其中一枝用于修剪,其余的用于建立决策树,这里设置为3.分类模型树如图4所示,生成的决策树有47个节点,其中有24个叶节点.构建这个模型花费0.03s,模型的根节点AMVt是确定道路交通拥挤水平最重要因素.
图4 J48生成的决策树
本文将市区主要干线的交通状况作为数据采集对象,这些路线连接主要商业区域,公司企业及高密度住宅区,车流量较大,是市区交通流主要疏导线路.数据的收集选择在17:00:00~17:25:30的晚高峰进行.行车的速度取决于驾驶员对周围车辆流量的判断,同时车载摄像机将实时记录整个行车过程.
根据决策树(J48)算法进行数据运算,得到训练结果,训练结果显示:拥挤水平评价的准确度达到89.94%,平方差为0.226 9,精确范围从0.864到0.942.模型分类评价分别采用“真阳性率”(True Positive Rate,TP Rate)和“假阳性率”(False Positive Rate,FP Rate)表示,其变化范围是0.808~0.950和0.031~0.067.表2为拥挤度分类精度结果,其中Jam行的真阳性率的含义是:实际为Jam而且被评价为Jam的比例,假的性率的含义是实际不为Jam而被评价为Jam的比例,等等.
表2 拥挤度分类精度结果
从表2中我们可以看到,最高的真阳性率是出现在Light等级的0.95,这就表示当道路拥挤水平是Light的时候,分类模型对道路拥挤水平评价的真阳性率为95%.最低的真阳性率是出现在Heavy等级,可以解释为当道路拥挤水平为Heavy时,分类模型对道路拥挤水平评价的真阳性率为80.8%的正准确率.一般而言,在Heavy拥挤等级中会出现一些错误的评价,因为Heavy等级正好处于Light和Jam的等级之间.在划分不是很清楚的时候,会把Heavy错误评价为Light或Jam.这些错误的评价加入到模型中时,会被认为是噪音并且需要清除掉.
图5表示的拥挤度水平错误分类,图中‘×’号代表着分类正确的例子,‘□’代表着分类错误的例子.
图5 拥挤度水平错误分类分布图
本文采用的研究方法对交通数据的依赖性较低,仅利用GPS设备采集的数据就可以满足数据量的要求.训练结果显示拥挤水平评价的准确度达到89.94%,平方差为0.226 9.因此,该方法能够较准确地评价道路拥挤水平.
[1] 郝媛,徐天东,孙立军.城市快速路常发性交通拥挤分析[J] .交通与计算机,2007,25(2):91-94.
[2] 石征华,侯忠生.城市快速路拥挤度判别方法研究[J] .交通与计算机,2006,24(5):20-23.
[3] Pattara.atikom W,Peachavanish R.Estimating road traffic congestion from cell dwell time using neural network[C] //The 7th International Conference on ITS Telecommunications(ITST 2007).Sophia Antipolis:2007:1-6.
[4] Porikli F,Li X.Traffic congestion estimation using hmm models without vehicle tracking[C] //Intelligent Vehicles Symposium.Parma:2004:188-193.
[5] Lomax J T,Tuner S M,Shunk G,et al.National cooperative highway research program report 398:quantifying congestion:final report[R] .Washington D.C.:Transportation research board,1997.
[6] 裴益轩,郭民.滑动平均法的基本原理及应用[J] .火炮发射与控制学报,2001(1):21-23.
[7] 李俊奎,王元珍.可重写循环滑动窗口:面向高效的在线数据流处理[J] .计算机科学,2007,34(12):51-53.
[8] Drown D J,Khoshgoftaar T M,Narayanan R.Using evolutionary sampling to mine imbalanced data[C] //Proceedings of the 6th International Conference on Machine Learning and Applications(ICMLA 2007).OH:2007:363-368.
[9] 杨明,尹军梅,吉根林.不平衡数据分类方法综述[J] .南京师范大学学报:工程技术版,2008,8(4):7-12.
[10] 王春玉,苏宏业,渠瑜,等.一种基于过抽样技术的非平衡数据集分类方法[J] .计算机工程与应用,2011,47(1):139-143.