基于车流速度的混合Gaussian分布模型

2016-11-28 02:08谌业文胡尧王旭琴李丽
统计与决策 2016年20期
关键词:密度估计交通流车道

谌业文,胡尧,王旭琴,李丽

(贵州大学理学院,贵阳550025)

基于车流速度的混合Gaussian分布模型

谌业文,胡尧,王旭琴,李丽

(贵州大学理学院,贵阳550025)

为了更好的描述城市道路车流运行状态,文章利用χ2检验、核密度估计、Gaussian分布和EM算法,提出了基于交通流速度的混合Gaussian分布模型。利用χ2检验验证了不同车道占用对道路通行影响程度存在显著差异;对混合模型速度数据,采用核密度方法估计独立子Gaussian分布数目,并利用所建模型描述不同车道占用引起的车流速度变化差异;最后利用该模型进行了城市道路混合车型识别。实践表明,混合Gaussian分布模型在拟合数据与展现车流状态方面具有良好效果,为道路设计与交通组织管理提供了一定的理论依据。

交通工程;混合Gaussian分布;χ2检验;核密度估计;EM算法

0 引言

交通流模型将车流视为大量车辆构成的可压缩连续流体,通过速度、密度、流量等参数构建颗粒流动力学方程,既描述了交通流空间分布,又反映了随时间变化规律,基于速度、密度、流量等参数关系及其变化规律的研究得到了广泛应用[1]。研究表明交通速度参数通常服从Gaussian分布,但由于受道路条件、坡度、混合车型等因素影响,其分布也会发生变化,呈现偏态、多峰等特性。道路交通实际是由不同状态的交通流组合而成,对于某时刻的特定道路,自由流速度能表示成多个独立自由流速度分布加权和[2]。Ko和Guensler[3]按速度建立分布模型,针对分布特征,Dey等[4]提出了车辆速度混合分布模型,通过若干有限独立Gaussian分布线性加权平滑逼近[5]。研究表明,速度数据集是能由多个Gaussian分布拟合的。

然而,城市道路交通流属于间断交通流[6],存在一定的分割效应,驶离信号交叉口的车辆常被分成某种特定队列。此外,对于不同的驾驶条件,行驶速度存在差异,小型车速度较快、大型车较慢,有时会出现特定路段,交通拥挤时有利于穿插的车辆(如摩托车)其速度则较快,反之则较慢。因此,研究混合Gaussian分布模型展现城市道路混合车流交通状态,具有一定的现实意义。在已有研究基础上,本文构建了基于车流速度的混合Gaussian分布模型,利用χ2检验表明不同车道占用对道路通行影响程度存在显著差异,模型也验证了混合Gaussian分布辨别交通状态差异、识别车型具有一定的效果。实践表明,混合Gaussian分布模型在拟合数据、展现城市道路交通状态具有良好效果,为道路设计与交通组织管理提供一定的参考依据。

1 模型建立

1.1 指标选取

交通流速度作为反映交通流状态和交通运行特征的基本参数之一,在交通安全、事故鉴定、道路交通状态与运行效率等分析中均具有重要地位,利用它研究交通运行已得到了比较理想的效果。文献[7]研究表明速度变量能较好反映交通拥堵强度的变化情况;相对于交通密度和流量而言,文献[8]得出了速度在交通流分类中有作用最大且效果最好的结论。

基于以上考虑,本文选取速度指标来研究城市因道路施工、交通事故等原因造成车道被占用引起的交通流变化,以及道路畅通情况下利用速度变量的混合Gaussian分布对道路车型进行类型识别。

1.2 不同车道被占用对道路交通状态影响程度的差异显著性

为了检验不同车道被占用对道路通行情况的影响是否存在显著差异,本文采用非参数统计量(1)式进行χ2检验判定。理论证明,当样本量足够大时,该统计量近似服从:

式中n表示不同条件的车道被占用数目,fi表示第i个条件下车道被占用时实际观察到的当量小客车辆数(PCU,Passenger Car Unit),f0表示不同车道被占用理论上应该观察到的车辆数目。

1.3 混合Gaussian分布模型

2 模型求解

2.1 Gaussian子分布数确定

通常并不知道城市道路不同条件下数据源到底来自多少个独立子Gaussian分布,因此进行EM算法求解模型参数的前提是确定数据源的子Gaussian分布数,在此按以下步骤进行确定。

第一:绘制原始数据频率直方图通过频率直方图观察到频率分布情况,确定子分布数,一般波峰的数量就是子Gaussian分布个数。但有时频率直方图并不容易判断波峰个数,则可进一步借助核密度估计方法,使该问题能得到较好的解决。

第二:对原始数据进行核密度估计设X1,X2,…,Xn是来自一元连续总体的随机样本,任意点x处的概率函数f(x)的核密度估计为:

其中,Φ(x)为核函数,h为窗宽。根据(3)式选取恰当的h并描绘关于x与其密度估计式的平面曲线图,通过观察波峰数即可对模型子分布数给出合理估计。

2.2 混合Gaussian分布参数估计的EM算法

混合模型结构确定以后,选择合适的参数估计方法是逼近速度真实分布的关键,混合Gaussian分布参数估计通常采用最大期望即EM(EXpectation-MaXimization)算法。EM算法本质是在(2)式中寻找参数最大似然估计或者最大后验估计的算法,是求解参数期望(E步)和最大值(M步)不断交替的优化过程,算法如下。

上式两边取对数

对于(4)式,用一般似然估计寻求极值点的方法是行不通的,因此,在这里采用分步迭代期望最大化算法。v是非完全数据,则有完全数据yi=(xi,vi),Θ为参数向量以及f(xi,vi; Θ)为yi的概率密度函数,其中xi的边缘概率为P(xi=k)=wk, k=1,2,…,M。此时f(vi|xi=k,Θk)=φk(v;Θk),关于完全数据求其似然函数得:

其中

由(5)式与(6)式得完全数据的似然函数:

所以,EM算法的具体迭代步骤如下。

第1步参数初始化

方法1模型权重相等

方法2利用多元统计K均值聚类算法通过对样本进行聚类得到各类均值可作为,并计算,之后通过聚类结果利用各类样本占总样本的比例作为权值。

第2步E步(求期望)

设Θ(r)为第r次迭代值,则:

所以

式中Pik为xk的后验概率。

第3步M步(求最大值)

第4步收敛判断

3 实证分析

3.1 车速服从混合Gaussian分布模型的实例验证

3.1.1 数据源

模型实验数据采集于贵阳市中心城市区主干道延安中路(紫林庵至喷水池方向)三车道断面(图1所示)。

表1、表2分别统计了不同车道被占用和道路畅通状态时同一断面的通过车辆数以及平均速度。其中表1指标解释:Situation1(或Situation2)表示车道1、车道2(或车道2、车道3)处于封闭状态,此时,车辆只能从车道3(或车道

图1 数据采集地点

1)正常通过;Situation3表示断面正常通行。

表1 不同车道被占用与道路畅行时断面通过标准车当量数

表2 车辆速度样本数据(单位:km/h)

3.1.2 标准车当量总数差异性的χ2检验

(1)考虑“畅通状态”时的情况

在这里,f0为表1中三种情况下通过断面的标准车当量数1353 pcu,而f1、f2、f3分别表示Situation1、Situation2与Situation3条件下通过断面的当量车辆总数。由(1)式可知,当f0越大,近似效果越好。显然fi与f0相差越大,χ2值就越大;反之,χ2值就越小。因此,χ2统计量能够用来表示fi与f0相差程度。

由χ2检验思想与(1)式得:

χ2=由于,因此,认为表1中的三种情况对交通流的影响程度存在显著差异。

(2)不考虑“畅通状态”时的情况

由于加入了畅通情况,很自然的就会怀疑,表1中的三种情况会存在差异(这与(a)情况下的检验结果一致)。那么,为了验证Situation1和Situation2对交通影响“显著差异”,将畅通状态即Situation3的数据排除。类似(a)方法得:

由于χ2=12.84>(2)=7.879,表明Situation1和 Situation2对交通流量所带来的影响程度也是不一样的。

不同车道被占用对路段影响程度存在显著差异,三种情况的车流速度样本源数据来自不同总体,且不同源数据进行的正态K-S(Kolmogorov-Smirnov)检验表明均来自正态总体。因此,以下基于混合车流速度数据估计混合Gaussian分布模型参数,并将进行验证分析。

3.1.3 车速服从混合Gaussian分布模型

通过分析,不同车道被占用对交通状况(特别是速度)的影响程度是不一样。图2给出了表1中三种情况下的车辆平均速度频率直方图,呈现多峰分布特点,这是由于不同条件速度存在的较大差异所致。以下利用混合Gaussian分布考察Situation1和Situation2交通状况影响程度的差异性。

在利用EM算法估计未知混合Gaussian模型参数之前,首先确定子Gaussian分布数目。虽由图可看出原始数据源于三个Gaussian分布,为了验证核密度估计算法与频率直方图峰值近似的特点,对数据进行核密度估计,这是因为在观察频率直方图不能明确判断子Gaussian分布个数情况下,应用核密度估计来判断子Gaussian分布数目是行之有效的。本文均选取核函数为标准正态密度函数,核密度估计曲线如图2所示。

图2 三种情形车辆速度频率直方图和核密度估计图

因此,混合模型(2)式的子Gaussian分布数为三,通过R语言利用EM算法估计混合Gaussian模型参数。进一步利用K-S(Kolmogorov-Smirnov)对模型进行拟合优度检验,所得结果如表3所示。

表3 三种情形下混合Gaussian分布EM算法参数估计结果

K-S检验的P值为0.9935,故没有理由拒绝速度数据服从混合Gaussian分布模型。其中Situation1、Situation2和Situation3分别服从于Gaussian分布I、Gaussian分布II与Gaussian分布III,三种情况的权重ω占有率分别为28.08%、30.04%和41.88%。比较表1,此处运用的EM算法判断混合模型中各个子Gaussian分布所占比重较接近实际(如图3所示)。

图3 三种情形混合Gaussian分布的EM算法估计图

3.1.4 不同车道被占用引起的交通状态差异性分析

(1)对比分布Gaussian I、Gaussian II与Gaussian III。首先,从表3得到,道路畅通状态下的平均速度63.40km/h大于车道1、车道2被占用时的30.13km/h与车道2、车道3被占用时的15.44km/h,从图3可清晰看出三种情况下车速的变化情况及其相互之间的联系,表明任何两条车道被占用对交通正常运行所带来的影响是显著的,相关部门应加强类似行为和相关事件的强行管制。其次,分布Gaussian III的标准差9.46km/h大于前面8.05km/h和2.19km/h,表明道路在畅通状态下,车辆的速度变化范围比其他两种情况偏大。

(2)通过将Gaussian分布I与Gaussian分布II对比,发现前者的平均速度30.13km/h大于后者的15.44km/h,表明车道2、车道3被占用对交通流的影响大于车道1、车道2被占用对交通流带来的影响。从表3与图3发现,Situation1时的车速变化范围比Situation2车速变化范围大。

(3)上述实例验证表明,混合Gaussian分布模型对于描述多正态总体的交通流速度规律是非常方便有效的,而将EM算法应用于混合Gaussian分布参数估计,不仅对参数估计有效而且还能较好的估算出子Gaussian分布所占比重,这对于分析交通流状态是非常适用的。应用该模型可进一步了解特定交通流状态,以下针对Situation3进行车辆类型识别。

3.2 车速服从混合Gaussian分布模型应用—城市道路交通车型识别

3.2.1 数据源

表4数据采集同样基于贵阳市中心城区主干道延安中路(紫林庵至喷水池方向)路段断面的928辆不同车型平均速度,描绘其频率直方图(如图4所示)。

表4 该路段畅通状态下“三个车道”的多类型车辆速度样本数据(单位:km/h)

图4 三车道多类型车辆速度频率直方图和核密度估计图

从图4可以看出,三车道多类型车辆由于自身特性所致的速度呈现多峰特点,不同类型的车速通常是不一样的,本文具体包括小轿车、公交车以及其它车种(如摩托车、三轮车)等三种类型。若采用传统的对数正态、Gaussian、Gamma以及Weibull等单峰分布模型去拟合速度都不能很好的呈现真实交通现象,因此,混合Gaussian分布模型对该类交通现象进行分析是有现实意义的。

3.2.2 参数估计

若仅从源数据图形仍无法判定源总体,子Gaussian分布数目难以确定。可以借助类似前面核密度估计算法,拟合核密度估计曲线(如图4所示)。图中看到视频数据来自三个Gaussian分布,利用EM算法估计混合Gaussian模型未知参数,估计结果见表5。

表5 道路畅行时混合Gaussian分布EM算法参数估计结果

在表5中,给定置信水平0.95,由于K-S检验P值0.0803大于0.05,因此,没有充分理由拒绝源数据(视频)是来自表5中所得的混合Gaussian分布模型,各类车型拟合曲线如图5所示。

图5 道路畅通状态下高斯混合分布的EM估计图

3.2.3 结果分析讨论

(1)从表5可知,混合交通流中小轿车、大型车和其他车型所占比例分别为59.69%、28.61%与11.70%。由于城市道路中摩托车抢道、三轮车及大型车(如公交车)的存在,从而导致交通流速降低。通过源数据对路段混合交通流车型比例估计以及速度分布的确定,有助于了解交通压力源,进而制定道路交通组织管理策略。

(2)从期望μ即速度平均值可知,小轿车的速度(61.56km/h)高于其它车种(18.82km/h)及大型车(30.76km/h),图5也清晰展现三种车型的速度变化分布情况。通过混合Gaussian分布模型能够有效得到并且区分不同类型车辆的速度分布规律,为不同车型的强制交通管理提供了一定的参考依据。

(3)小轿车由于自身优势,最大速度一般高于大型车和其他车型,但尽管在道路畅通状态下,仍然可能遇到拥挤堵塞等车辆排队现象(如车辆超车、抢道,行人横穿道路等造成),因此,它的最低速度与大型车、其它车型相差不大,导致其方差比较大。因而,表5中小轿车车速的标准差11.1km/h大于大型车的6.17km/h、其他车型的2.23km/h。

(4)模型检验结果显示,由于混合交通流速度中含有多种类型的车辆运行数据,导致车流速度呈现出多峰或偏正态现象。因此,在研究类似问题时,无论在交通还是其他领域,对于来自多源样本数据,充分利用混合Gaussian分布模型多峰特点,能够较好的反映真实场景,解决问题能达到理想效果。

4 结语

本文以χ2检验、核密度估计算法、混合Gaussian分布与EM算法为基本研究方法对道路交通参数(速度)进行了分析探讨。首先,通过利用χ2检验表明不同车道被占用对交通流的影响是显著的,并实例验证,为交管部门正确诱导车辆行驶、审批占道施工、道路设计渠化、路边停车和非港湾式车站等组织管理措施的制定提供了一定的参考依据。其次,核密度估计算法对确定混合Gaussian分布模型中独立子分布数目简单易行。最后,基于城市道路交通流间断性、复杂性、混合性与非均衡性等特点,建立了基于车流速度服从混合Gaussian分布的交通流状态模型,对判定路段混合交通流的车型数目是有效的,为交通组织管理区域或路段交通状况并制定相关措施提供了可行合理的理论参考依据。

[1]Kerner B S.Three一phase Traffic Theory and Highway Capacity[J]. PhysicalA:StatisticalMechanicsand Its Applications,2004,(333).

[2]王曦,祝付玲.基于高斯混合分布的交通拥堵评价模型[J].公路交通科技,2011,28(2).

[3]Ko J,Guensler R.Characterization of Congestion Based on Speed Di一stribution:A Statistical Approach Using Gaussian Mixture Model [C].w ashington D.C:The Proceeding of the 82nd Annual Meeting of the Transportation Research Board.Transportation Research Board. 2005.

[4]DEy P P.Chandra S,Gangopadhaya S.Speed Distribution Curves Under Mixed Traffic Conditions[J].Journal of Transportation Engineeri一ng,2006,132(6).

[5]袁礼海,李钊,宋建社.利用高斯混合模型实现概率密度函数逼近[J].无线电通信技术,2007,33(2).

[6]巫威眺,沈旅欧,靳文舟.假设速度服从截断正态分布的公交车队密度离散模型[J].华南理工大学学报(自然科学版),2013,(2).

[7]任其亮,肖裕民.城市路网交通拥堵H一Fuzzy评判方法研究[J].重庆交通大学学报(自然科学版),2008,27(5).

[8]杨祖元,黄席樾,杜长海等.基于FFCM聚类的城市交通拥堵判别研究[J].计算机应用研究,2008,25(9).

(责任编辑/易永生)

U491

A

1002-6487(2016)20-0087-05

国家统计局重点项目(2014LZ46);贵州省自然科学基金资助项目(黔科合J字[2014]2058号)

谌业文(1989—),男,贵州贵阳人,硕士,研究方向:应用统计。胡尧(1971—),男,贵州贵阳人,教授,研究方向:应用统计。王旭琴(1991—),女,贵州贵阳人,硕士,研究方向:应用统计。李丽(1991—),女,贵州贵阳人,硕士,研究方向:应用统计。

猜你喜欢
密度估计交通流车道
基于LSTM的沪渝高速公路短时交通流预测研究
面向鱼眼图像的人群密度估计
京德高速交通流时空特性数字孪生系统
北斗+手机实现车道级导航应用
避免跟车闯红灯的地面车道线
基于MATLAB 的核密度估计研究
一种基于改进Unet的虾苗密度估计方法
基于自适应带宽核密度估计的载荷外推方法研究
浅谈MTC车道改造
低速ETC/MTC混合式收费车道的设计与实现