李红梅,唐 岚(西华大学 汽车与交通工程学院,成都 610065)
基于weka的交通流预测研究
李红梅,唐 岚
(西华大学 汽车与交通工程学院,成都 610065)
摘 要:随着智能交通系统ITS的广泛研究和应用,对智能交通系统采集的海量交通数据进行数据挖掘成为国内外专家学者研究的热点。数据挖掘是一门实验性非常强的学科,Weka工作平台汇集了当今最前沿的数据预处理工具和学习算法,它为数据挖掘实验的整个过程提供了广泛的支持。本文主要研究基于weka平台的M5P模型树对交通流数据中的交通速度进行预测,包括对数据的准备、预处理、结果的表达及解释。
关键词:智能交通系统; Weka; 交通流预测研究
城市路网信号监控周期一般在120-300s之间,最长不会超过600s,而车辆的行驶速度一般在10-60km/h之间,每个监控路段内的行驶时间一般为1-5分钟。本文中使用的数据为四川某市2014年8月的交通流数据,其中包含多个路段,数据录入间隔为5分钟。内容如图1所示。
从图中看出有多个字段,由于本文主要分析交通流数据中的速度数据,故只提取与本文速度预测相关的字段。包括VID_LANE_ ID(设备采集信息),LANEID(第几条道),SPEED(速度),TRAFFICDATA(时间)。将数据整理成本文所需内容,并将日期标准化后如图2所示。
将数据另存为基于weka的交通流预测.csv格式保存,在weka中打开基于weka的交通流预测.csv文件,并另存为基于weka的交通流预测.arff,这样就保存为weka可以打开直接处理的数据格式了。
本文数据为随机选取的某一天的某一路段数据,因此在预测过程中可以将日期和前两个属性去掉。
2.1 算法的发展
时代的进步依靠的是科技的进步与发展,无论是在什么技术领域,它都随着科技的进步而发展,其中算法技术就是其中的一种。通过我们对算法的调查研究之后发现,现阶段应用较为广泛的就是M5P算法,它相对于其他算法而言约束条件少,运算便捷。那么什么是M5P算法呢?下面就让我们从具体的应用之中来了解一下吧。
2.2 M5P算法
(1)树的生长。M5P模型树是将输入和输出参数之间的非线性关系换成了分段式线性关系。M5P模型树的劈分思想与决策树的思想是基本相同的,但劈分的原则不同。决策树的劈分原则是信息增益原则,而M5P模型树的劈分原则是样本属性差异化原则,即SDR(Standard Deciation Reduction):
(2)树的修剪。M5P算法就通过回归线方程的建立将树木的枝丫、节点与树木整体进行连接,通过方程的建立来规划最优修剪位置,同事在修剪的时候应该遵循预测误差减少量的原则。
(3)树的平滑。Quinlan提出树叶子节点的平滑方法。在每个叶节点处都有一个按线性回归算法拟合的多元线性回归方程,该方程能有效的弥补相邻两叶子节点之间的不连续性。
2.3 基于M5P模型树预测交通速度
基于weka,运载M5P模型树算法,并将预测结果加以显示,可以看到预测结果与真实值之间的差距。如图3所示。
查看预测准确率和绝对平均误差值分别为85.44%和0.083%,得到了较好的预测效果。
参考文献:
[1]马寿峰,贺国光,刘豹.智能交通系统中短时交通流预测系统的研究[J].预测,2004,23(02):28-34.
DOI:10.16640/j.cnki.37-1222/t.2016.12.251
作者简介:李红梅(1987-),女,四川渠县人,硕士研究生,研究方向:汽车性能测试技术、汽车大数据挖掘等。