李 扬,胡 尧,2*,商明菊,杨 超,周江娥
(1.贵州大学 数学与统计学院,贵州 贵阳 550025; 2.贵州省公共大数据重点实验室,贵州 贵阳 550025)
目前,世界各大中城市几乎都面临着交通拥堵问题。交通拥堵给人们的生活带来很多负面影响,例如降低人们的出行效率,对社会造成经济损失以及拥堵时尾气排放等问题。交通拥堵在很大程度上阻碍一个城市的发展,因此构建合理且易于实施的拥堵预测模型对人们尤为重要。
关于构建交通拥堵预测模型,有很多学者进行了研究。熊励等[1]构建基于MapReduce 的多元对数线性回归拥堵预测模型,预测效果良好;崔承颖等[2]运用累积Logistic回归方法对各路段的拥堵概率进行估计;刘梦涵等[3]将似然比方法和累积Logistic 回归模型结合运用到交通拥堵评价模型中。近年来,机器学习和深度学习也被广泛应用在交通拥堵预测上[4-8],然而大多数预测仅限于对当前的车流量状态进行预测,而根据当前的交通流状态,进行新增车辆通行拥堵预测的问题研究较少。
本文选取深圳市交通数据进行分析,运用聚类方法对交通状态进行划分,建立累积Logistic回归模型,分析新增车辆对交通运行状态的影响,并将构建的累积Logistic回归模型与支持向量回归机模型结合预测出新增车辆的通行时间。
累积变量指的是各个类别之间存在顺序关系。当因变量y为累积变量时,应采用累积Logistic回归模型。假设因变量y有K个类别,分别记为y=1,y=2,…,y=K。一般地,累积Logistic回归模型可表述为
累积Logistic回归模型由K-1个回归表达式组成,其中每个表达式的截距项αk都不尽相同,但回归系数βj在所有的累积Logistic回归表达式中都是相同的。βj表示在其他解释变量不变的情况下,当解释变量xij每增加一个单位时,发生比将是原来的exp(βj)倍,累积概率公式可表示为
分别求出累积概率Pr(y≤k),因变量的取值等于某个指定类别的概率即
注:Pr(yi=1)+Pr(yi=2)+…+Pr(yi=K)=1。
本文把交通流拥堵状态看成累积变量,包括顺畅、阻滞、拥堵3个有顺序的变量, 用自然数1,2,3表示,K=3。因此,交通流拥堵状况(记为y)达到顺畅水平的概率可表示为Pr(y≤1),达到阻滞及以上水平的概率可表示为Pr(y≤2),交通流拥堵状况恰好处于拥堵的状态的概率可表示为Pr(y≤3)-Pr(y≤2)。
由支持向量机(Support Vector Machine,SVM)发展而来的回归方法通常称作支持向量回归机(Support Vector Regression,SVR)。基本思想是将数据x通过一个非线性映射函数φ(x)映射到高维特征空间Rh中进行线性回归,从而构建高维特征空间下的最优决策函数f(x),最大优势在于能够很大程度上克服高维数据带来的求解问题和局部极值问题。其中,最优决策函数可表示为
f(x)=ωφ(x)+b。
式中,ω为权值向量,b为阈值。引入不敏感的ε使得SVR具有良好的稀疏性,进而得到损失函数
c(xi,yi,fi)=max{0,|yi-f(xi)|-ε}。
当xi的观测值yi与预测值f(xi)的差别小于ε时,损失值为0。 SVR实质上是在满足ε的条件下,使得ω最小,即
式中,C为惩罚参数,m为样本数。
采用对偶原理将上式转化为二次规划问题,建立相应的拉格朗日方程,对偶形式为
k(xi,xj)=φ(xi)φ(xj),
本文选取偏差较小的径向基核函数,表达式为
则(1)式变为
最终求解得到回归函数为
为量化该模型的预测精度,采用均方误差(Mean Square Error,MSE)对模型进行评价。计算公式
研究数据来源于深圳尚龙数学中心网站(http://m2ct.org/)公布的深圳市交通数据。选择的路段位于北环大道新洲立交西往东方向,长度575 m,离其最近的卡口为10100206卡口,选择该路段2018年3月26日至2018年3月28日的数据,整理数据得出在该时段1~3车道的车流量(每两分钟过车数)、外地车(非粤B)汇入比和黄牌车(大车包括公交车)比例;此外,将白天设为1,黑夜设为0,将限行时段(7:00—9:00,17:30—19:30)设为1,非限行时段设为0,总结出时间属性;计算路段的路段通行时间(长度除以通行速度),上述数据粒度为2 min(全天共有720个时刻,3天2160个时刻)。表1为整理后的该路段部分数据。
取2018年3月26日和3月27日的数据作为训练集,3月28日的数据作为测试集,得到卡口这3天每两分钟的过车数和通行时间时序图,如图1所示。
从图1可看出:3月26日和3月27日的过车数时序图趋势相差不多,而3月28日的过车数趋势在早上大约10点后下降,与实际情况相差较大,可能是数据的质量造成的; 3月26日为星期一,其通行时间的早高峰(约8:00)较3月27日和3月28日明显,与实际情况相符。
表1 部分研究数据展示Tab.1 Partial research data display
图1 两分钟的过车数和通行时间时序图Fig.1 Two-minute traffic volumes and travel time sequence diagrams
2.2.1基于Logistic回归的交通运行状态评估
将训练集(3月26日和3月27日)的车流量和通行时间(长度/通行速度)进行K-Medioids聚类,得到3类交通运行状态聚类结果,设为1(顺畅),2(阻滞),3(拥堵)。根据聚类结果,结合滑动窗口构建解释变量集,将交通状态(顺畅,阻滞,拥堵)作为响应变量建立累积Logistic回归模型,经过多种模型的选择,得到三个模型。
其中:q(t)为t时刻车流量,S为时段(白天黑夜),W(t)为t时刻外地车比例,H(t)为t时刻黄牌车比例,α为时段S与外地车比例W(t)的交互作用;x为限行时段,β为车流量和限行时段的交互作用;γ为限行时段x和外地车比例W(t)的交互作用。AIC为在逐步回归时以AIC信息统计量为准则,通常选取最小的AIC作为最优模型。
模型一考虑车流量、时段(白天黑夜)、外地车比例、黄牌车比例以及时段与外地车比例的交互作用,建立累积Logistic回归模型,如表2所示。
表2 模型一的累积Logistic回归系数(AIC=1 366.118)Tab.2 Cumulative Logistic regression coefficient of model 1(AIC=1 366.118)
经模型检验,得出累积概率形式:
令a=1.554-0.015q(t)-5.470S+3.259W(t)+7.827H(t)-3.695α,
b=8.206-0.015q(t)-5.470S+3.259W(t)+7.827H(t)-3.695α,
(2)
(3)
由累积概率表达式(2)(3)得出S=1 (白天)时,车流量q(t)、外地车比例W(t)、黄牌车比例H(t)对交通状态都有影响。当外地车比例W(t)和黄牌车比例H(t)不变时,车流量q(t)的发生比为exp(0.015)=1.015,表明当流量每增加一辆车时,交通状态从顺畅变为阻滞或拥堵时的概率是原来的1.015倍;当车流量q(t)和黄牌车比例H(t)不变时,外地车比例W(t)发生比为exp(3.695-3.259)=1.547,即外地车比例W(t)每增加一个百分比,交通状态从1(顺畅)变为2(阻滞)或3(拥堵)时的概率是原来的1.547倍。因此应该对外地车进行限时通行。
模型二只考虑车流量、限行时段(早晚高峰)、车流量和限行时段的交互作用等因素,得到结果如表3所示。
表3 基于累积Logistic回归模型二的系数(AIC=1 172.489)Tab.3 Cumulative Logistic regression coefficient of model 2(AIC=1 172.489)
经模型检验,得到累积概率形式:
令c=4.635-0.083q(t)-21.254x+0.184β,
d=10.928-0.083q(t)-21.254x+0.184β,
(4)
(5)
由累积概率式(4)(5)得到:当不在限行时段内(x=0)时,只有车流量q(t)对通行时间有影响。车流量q(t)的发生比为exp(0.083)=1.087,表明此时车流量每增加一辆车时,交通状态从顺畅变为阻滞或拥堵时的概率是原来的1.087倍。
模型三考虑车流量、黄牌车比例、限行时段(早晚高峰)、外地车比例以及限行时段和外地车比例的交互作用,模型结果如表4所示。
表4 基于累积Logistic回归模型三的系数(AIC=1 429.461)Tab.4 Cumulative Logistic regression coefficient of model 3(AIC=1 429.461)
经模型检验,得到累积概率形式:
令m=4.290-0.063q(t)+18.606H(t)-
1.597x-7.025W(t)-28.135γ,
n=9.734-0.063q(t)+18.606H(t)-1.597x-7.025W(t)-28.135γ,
(6)
(7)
由式(6)、(7)可得:当在限行时段内(x=1)时,x和外地车比例W(t)有交互作用。有车流量q(t),黄牌车比例H(t)和外地车比例W(t)对通行时间有影响。外地车比例W(t)和黄牌车比例H(t)不变,车流量q(t)发生比为exp(0.063)=1.065,车流量每增加一辆车时,交通状态从1(顺畅)变为2(阻滞)或3(拥堵)时的概率为原来的1.065倍,这意味着y=2(阻滞)和y=3(拥堵)的概率会增加。
为评估各模型的预测效果,将该路段3月26日和3月27日作为训练数据预测3月28日(一天共720个数据)的交通状态,并将预测状态与真实状态作对比(当预测状态和真实状态一致表示预测正确,不一致则表示预测错误),分别计算三个模型预测的正确率。其中3月28日真实状态为距三种状态的聚类中心最短距离时所对应的交通状态。设T1、T2、T3分别表示真实状态为顺畅、阻滞、拥堵状态,P1、P1、P3分别表示预测状态为顺畅、阻滞、拥堵状态。表5描述三个模型在各情形下的数据个数,其中每个模型下的9个数加起来为3月28日数据的总数量即720。
表 5 各模型基于累积Logistic回归预测道路状态结果表Tab.5 Predicting road state results based on cumulative Logistic regression for each model
注:当预测状态与真实状态相同时,表示预测正确(用*标注),不同则表示预测错误。
从表5计算正确率可得,模型一为59.58%,模型二为82.36%,模型三为80.28%,比较各模型AIC信息统计量,模型二最小,因此在三个模型中,模型二能较好地测算出车辆增加时路段交通状态的变化。
2.2.2基于支持向量回归机的通行时间预测
上一节通过累积Logistic回归模型得出新增车辆对路段交通状态的影响,本节对新增车辆的通行时间进行预测。将累积Logistic回归的三个模型代入支持向量回归机中[9],运用滑动窗口法对窗口数h进行选择,如图2所示 (图中用“o”表示MSE达到最小的滑动窗口数)。
表6列出三个支持向量回归机(SVR-1,SVR-2,SVR-3) 对通行时间的预测结果,可以看出:对于滑动窗口数,三个模型相差不大;但对比MSE,模型三的训练MSE和预测MSE在这三个模型中最小。因此针对新增车辆的通行时间预测,模型三在这三个模型中是最好的。
图2 各模型基于SVR的滑动窗口对比结果Fig.2 Comparison of sliding window based on SVR for each model
表6 各模型基于SVR通行时间预测结果对比
Tab.6 The prediction results of each model are compared based on SVR
模型滑动窗口数h训练MSE预测MSESVR-12531.756130.477SVR-22634.477134.952SVR-32531.045119.392
图3 基于SVR各模型的通行时间预测值和真实值对比图Fig.3 Comparison chart of predicted and true travel time values of each model based on SVR
图3更加直观的展现了SVR三个模型的通行时间真实值和预测值的对比,可以看出模型三比其他两个模型拟合效果稍好,但三个模型在下午4点至6点拟合效果不好,这可能是由于图1中3月28日的车流量数据(过车数)与实际不符造成的。整体来说,三个模型能够较好的预测出通过该路段的通行时间,可为市民提供参考建议。
通过对深圳市交通数据建立累积Logistic回归模型,研究结果表明:当只考虑车流量、限行时段和二者之间的交互作用时,模型正确率达到最高为82.36%,此时车流量在非限行时段每增加一辆车,发生比从顺畅状态转为非顺畅状态的概率是原来的1.087倍;结合支持向量回归机较好地预测出新增车辆的通行时间,其中考虑车流量、黄牌车比例、限行时段、外地车比例及限行时段和外地车比例的交互作用时 ,模型MSE最小,效果最优。此外基于Logistic回归的模型还说明,当外地车比例增加时,拥堵的概率会增大,因此应该对外地车进行限时通行来缓解高峰期时的交通拥堵状态。本文研究结果可为交通相关部门提供参考。