刘长生
(1. 长沙航空职业技术学院,湖南 长沙 410124;2. 智能信息感知及处理技术湖南省重点实验室,湖南 株洲 412007)
车辆行驶轨迹是驾驶员主观意识与道路客观限制条件下形成的结果,从海量的车辆轨迹中挖掘道路交通信息,建立轨迹模型,通过线性参照系统的处理,加快检索速度,加强轨迹的稳定性;通过移动目标主体相似性与时空相似性,降低检索的次数,以提高挖掘数据的准确性,对交叉口与一般路段进行挖掘,并提取相关的交通信息,采用数据挖掘算法得到路况信息,并对路况信息进行分析,为复杂的交通网络提供理论依据。
数据挖掘是一个迭代的过程,对数据进行研究,然后通过分析工具对数据进行检索,然后再从不同的角度对数据进行分析,根据需求对数据进行修改,然后再从头开始。数据挖掘的步骤如图1所示[1]。
图1 数据挖掘的一般过程
数据挖掘技术是从海量的数据中寻找规律,挖掘数据背后潜在的信息。将数据挖掘算法应用到车辆的行驶轨迹中具有重要的现实意义。
(1)交通流量预测
为交通运输系统提供准确的交通流量预测,为人们出行带来便利。公路交通是一个动态的变化过程,交通流量不仅与该路段的状况有关,还会受到天气、节假日的影响,都会给交通流量预测带来较大的难度,使用数据挖掘算法能够解决交通流量中的预测。为交通信息采集设备提供有用的信息,对数据进行统计分析并建立预测模型。
(2)交通事故数据挖掘
挖掘交通事故资料的规律性需要借助公安系统与保险公司的交通事故的数据,从这类数据中挖掘出有用的信息。对构建交通安全具有重要意义。
(3)交通区域划分
将整个交通道路划分成不同的区域,并协调各个不同区域之间的交通方案,从而优化整个交通网络布局。传统的区域调整都是通过人工的方式,效率低下。而采用数据挖掘技术能够对交通网络进行合理的划分,实时高效,有效的缓解交通压力[2]。
车辆轨迹由人的主观意愿与环境限制共同完成,人的主观意愿是显性的,从轨迹的起点和终点的距离可以得到;环境限制是隐性的,容易受到外部条件的约束,外部条件约束又分为拓扑约束与时空约束。客观存在、不会发生变化的约束条件有道路路网限制、河流、建筑物等;时空约束得失会受到人为或者法律的限制,比如交通信号、限号、禁止占道等。公式分别为:
分析路网结构,如果对道路中所有的约束条件进行编排,就可以构成一个约束矩形,如表1所示。表1中,轨迹会受到约束因子的影响,为方便计算,约束因子的值为{1,0},影响因子权重可以选取不同的值。约束因子矩阵中的约束因子,容易受到车辆轨迹的影响,而车辆轨迹也容易手受到约束因子的影响[3]。
表1 约束矩形
由GPS定位系统采集到的车辆轨迹数据主要有车辆行驶的路线、速度以及行驶方向等,在交通道路领域普遍采用的是线性参考系统,与分段技术建立坐标参考系,R、W、N分别表示该轨迹在路网中的路段、车道、采样点与垂足点之间的距离。根据车辆行驶的轨迹历史数据,对轨迹的位置进行预测,算法公式为:
对车辆轨迹进行扩展,提出了相关策略。如:当移动对象在a时间段时,roadi和lanej的时间间隔t较小,在a=a1+t时间段内,移动对象会保留在与a时刻相同的车道中;对偏移位置进行调整时,需要对同一时间段、同一方向的车辆按照偏移距离进行排列X、Y、Z,...如果轨迹采样点中有一个采样点的位置超出了道路的最大范围,则X、Y、Z,...等轨迹的采样点将会向同一个方向的距离进行偏移,并都落在合理的范围之内。数据预处理能够提高轨迹检索的速度,降低轨迹采样点的不确定性[4]。
轨迹相似度不仅有时空相似度的计算方法外,还可以计算移动对象主体。公式为
SD表示空间距离;TD表示时间距离。
每两段距离估计的空间距离是所有轨迹节点的平均值,而时间距离则包含了时间范围、提起范围等。
在对轨迹相似度进行计算时有一个很重要但是经常容易被忽略的因素,就是移动对象主体相似度,比如,道路限速后形式速度为100km/h,但是对于大卡车而言是没有任何的约束意义存在的。在数据挖掘中,如果挖掘的对象中混入了大量与挖掘主体不同的数据,会影响挖掘结果的准确性。比如在公交专用车道,如果对小轿车车辆进行数据挖掘,将会有对象混入公交车的轨迹数据中,让数据挖掘的结果不准确。主体相似性含有移动对象、运行区域、最大速度[5]。公式为:
ES:移动对象的主体相似性;ET:移动对象类型相似性;RR:运行区域;EU:用途;MS:最大形式速度。
在道路交叉口最重要的交通信息是改变行车路线,比如是否左转、右转,关键就在于计算轨迹对道路的支持度,对选取的轨迹进行裁剪,只保留在道路较差口附近的轨迹,裁剪后对轨迹做进一步分析,只保留轨迹的起点和终点,公式为:
道路交叉口附近的轨迹可以用表2表示。
表2 道路交叉口附近轨迹片段简化结果
道路交叉口的道路连接的是可以不经过任何道路就可以到达,支持度为(Rm,Ri),连接车辆的总次数与经过该条交叉路口的比值,最终车辆形式的目标路段不是重点,因此可以将其简化为:
公式中,单行道与目标车道连接的数量与经过该路口的总车辆可以通过SQL进行实现。如果计算的支持度大于设定的范围,需要满足“≈0”“≈π/2”,用语言表达就是允许执行、允许左转[6]。
在道路交叉口的一般路段中,关注的重点是道路的整体情况,是否通畅,因此挖掘对象不仅需要挖掘轨迹的位置信息,还要挖掘速度信息。采样点的起始点可以忽略,且轨迹可以进行如下转换:
式(8)中,S表示车辆的行驶速度。S符号取决于轨迹运行的方向。采用SQL语句对“封闭道路”进行编写:
“道路繁忙”SQL语句为:
当SQL的语句计算值大于某一个值时,则该路段是拥堵状态,单行道的提取需要根据车辆的方向进行判断,如果一个方向的流量大于或者小于另一方向的流量,则该路段是单行道,并且是允许通往该方向的。
车辆轨迹行驶过程中,包含了大量的外部限制因素,数据挖掘能够将这些隐含的信息进行提取,为智能交通服务贡献微薄之力。本文提出了用户约束用以量化形成的轨迹路线,并对形成的环境因素进行了分析;提取了与主体相似性的轨迹计算;针对不同的交通道路采用挖掘算法解决交通问题。需要重点研究的方向就是如何增加参数的同时降低挖掘算法的复杂度,解决交通中存在的实际问题。