基于SVM的高原川道型城市通勤者出行方式选择研究

2021-12-17 10:44王剑坡
关键词:小汽车公共交通准确率

彭 辉,王剑坡,张 娜

(长安大学 运输工程学院,陕西 西安 710064)

0 引 言

高原川道型城市受地形条件限制,地形狭长,客流走廊集中,城市人口聚集。交通走廊都是单一通道,没有网络概念。走廊客流聚集效应相对于平原城市更强,平均出行距离更长,公交分担率更高,有利于公共交通线路的布置和运行。通勤出行为主要出行行为,交通结构相对于其它城市较为简单,居民出行方式选择较为常规,主要包括步行、公交、小汽车、出租车。针对这类城市典型特征,若能够有效预测出行者的出行方式选择,能为城市交通设施的规划提供参考依据,对交通管理意义重大。到目前为止,涉及到高原川道型城市居民出行方式选择研究的文献较为有限,已取得的居民出行方式预测成果,因方法传统且假设条件过多,适用性受到局限。作为解决分类问题的新方法支持向量机(SVM)[1-8],被学者们广泛利用,并有效地解决了诸多交通问题。

在研究居民出行方式选择上,程龙等[7]利用抚顺市居民出行调查数据,基于低收入通勤者的出行特征,采用SVM模型进行预测,得到出行方式选择的最佳预测结果;宋永朝等[9]利用多源数据,基于最短路径算法以及公共交通选择算法,对通勤高峰期居民的出行方式进行预测;梁泉等[10]针对公交通勤出行个体,借助图谱可视化表达优势,分析了公交通勤个体出行特征。然而,针对具有典型特殊性的高原川道型城市通勤者的出行特征方面,目前还没有利用新方法对其进行研究。笔者在借鉴各学者研究实践的基础上,建立SVM模型系统分析高原川道型城市通勤者出行方式选择行为,探讨该模型对出行方式选择行为预测的精准性和适用性,同时为具有类似特征的城市出行者的交通选择行为提供一定的参考。

1 数据来源与描述统计

居民出行调查能够全面、系统地把握城市交通现状,了解居民出行需求。笔者数据来源为2016年5月9—29日青海省西宁市居民出行调查,采用最优分配分层等距抽样法,共发放问卷10 186份,实际调查人数30 558人,其中有效问卷9 029份,调查有效人数为27 086人,合格率为89%。从问卷可以得出西宁市的居民出行目的中,上班、上学、回程出行比例较高,约占了居民出行总量的78.70%。出行方式主要是步行、公交、出租车和小汽车,占出行比重达92.41%,各交通方式分担率如表1。笔者主要针对小汽车与公交车2种交通出行方式进行识别,小汽车为私人交通,公交车为公共交通,根据出租车的出行特征,将其与小汽车同作为私人交通类。根据以上条件,笔者只研究通勤者选择私人交通和公共交通的出行记录,笔者所指私人交通为小汽车和出租车,公共交通为公交车,共筛选出29 960次出行样本。调查内容主要分为3部分内容:① 家庭特征;②个人特征;③出行特征,具体调查情况见表2。

表1 西宁市各交通方式分担率Table 1 Sharing rate of traffic modes in Xi’ning city

表2 调查统计表Table 2 Survey statistics

调查数据涉及参数包括个人及家庭社会经济属性,主要9项变量。为了识别并提取出行方式选择的决策变量,确保有效性模型的构建与分析,对变量间关系进行显著性检验。在表2中各变量均是离散变量,故采用卡方检验(pearson’s chi-squared)对各变量与出行方式选择之间进行显著性检验。由检验结果可知,除描述职业类别的变量外,出行方式的选择与其余各变量都具有显著相关性。鉴于此,除职业变量之外,建模时将其他8项变量作为决策变量。

2 研究方法

2.1 支持向量机SVM基本原理

支持向量机 (support vector machine, SVM)是VAPNIK教授等在1990年代提出的基于统计学习理论的机器学习算法[11]。SVM不仅能解决非线性回归问题,还能解决分类问题。对分类问题,假如数据不能线性可分,可以将低维线性不可分数据映射到高维后,变得线性可分,并找到无数个超平面将数据分开,从其中找到最好的一个。对于SVM就是希望超平面与最近的数据点之间的距离最大化,不仅要将样本数据正确分类,对离超平面近的点也要有足够大的确信度将其分开,这样的超平面泛化能力强,对未知数据具有更好的分类预测能力。

SVM的最终优化问题转化为了凸二次规划求解问题,对于线性可分的训练样本集T={(x1,y1),(x2,y2), …, (xi,yi), …, (xm,ym)},其中xi为n维特征向量,yi∈{-1,1},i=1,2,3,4,…,m。求解样本集的最优问题,如式(1):

(1)

s.t.yi((w·xi)+b)≥1 (i=1,2,3,…,m)

式中:w为所求超平面的法向量;b为常数项;xi为第i个样本的特征向量;yi为xi所属的类。

当数据在低维空间线性不可分时,可以通过引入核函数K(xi,xj)将数据从低维空间映射到高维空间,实现对数据的线性可分。通过引入非负松弛变量εi≥0和惩罚因子C作为综合权重来处理,则式(1)的优化问题将变为式(2):

(2)

s.t.yi[(w·xi)+b]≥1-εi(εi≥0,1,2,3,…,m)

式中:εi为非负松弛变量;C为惩罚因子。

通过引入拉格朗日系数αi,并将其转化为对偶问题,如式(3):

(3)

用二次规划法对此问题进行求解,得到分类超平面。

2.2 建模流程

构建基于SVM的高原川道型城市通勤者出行方式选择预测,建模流程如下:

1)通过筛选并预处理8项决策变量的样本数据,得到建模所需数据集,分为训练样本集和测试样本集;

2)通过学习训练样本集数据,确定带有合适惩罚参数的径向基核函数(RBF)作为SVM核函数。由文献[12]可知,采用多项式核函数、RBF构建的SVM模型对居民出行方式预测精度较高,优先选择RBF核函数,其次是多项式核函数。RBF核函数如式(4):

(4)

3)对优化问题进行求解,利用网格搜索法和5折交叉验证对参数进行寻优。5折交叉验证是用于评价模型的精度,将训练集划分为5组,将4组子集用于训练,其余1组子集用于验证,将每个子集数据分别作为一次验证集,这样会得到5个模型。这5个模型最终的验证集的分类准确率的平均值被作为此5折交叉验证下分类器的性能指标。网格搜索算法用于对惩罚参数C和核函数参数r进行寻优,该算法属于启发式算法;

4)通过寻找最优解构建的最优分类超平面,利用测试样本数据集预测其他通勤者的出行方式选择结果。

3 分析与预测

3.1 SVM的建模

基于python的sklearn库实现对SVM模型参数的标定。按4∶1的比例将数据随机分为训练集(含验证集)和测试集,采用训练集对模型参数进行标定,寻找最优参数。利用5折交叉验证和网格搜索法对参数(C,r)进行优化,当训练集验证的分类精度最高时,C=2,r=1。此时,训练集的分类准确率为81.45%,这样就可以训练出一个学习过程模型,该模型将用于对测试集数据进行预测。

为了减少数据随机分配产生的误差,笔者选择了不同的随机因子对数据进行划分,共做8次试验,以减少数据随机分配产生的误差。表3总结了8次试验的分类精度。结果表明,构建的SVM分类器在训练集上的分类精度(85.61%)高于测试集上的分类精度(81.81%)。在样本较大的情况下,分类器的分类准确率较高,公共交通样本数为18 309,私人交通样本数为11 652,在训练集与测试集中,公共交通的平均分类准确率比私人交通的平均分类准确率分别高出了16.88%和18.93%。说明对于大样本数据,SVM有很好的分类能力。

表3 SVM的分类准确率Table 3 Classification accuracy of support vector machine %

3.2 BL模型预测与SVM对比

对比SVM和BL (Binary logistic)模型,以预测高原川道型城市通勤者出行方式的选择。基于相同数据,BL模型同样进行8次试验,每次实验方式和SVM一致,结果如表4。

表4 BL模型的分类准确性Table 4 Classification accuracy of BL model %

笔者选取分出行方式的分类预测准确率、总体预测准确率和平均绝对偏差3个指标对2种模型进行比较。分出行方式的分类预测准确率,是指某一种交通方式的预测准确率的样本数量占该方式的总样本数的比值。总体分类预测准确率,是指所有交通方式的预测准确的样本数占总样本量的比例。分方式的分类预测准确率变化与总体预测准确率变化如图1。

图1 2个模型分方式预测准确率变化Fig. 1 Change of prediction accuracy of two models in different ways

从表3 、表4 可知,私人交通方式预测中,SVM的预测准确率比BL模型的预测准确率高出8.08%,公共交通高出了2.76%。SVM的总体分类准确率(81.81%)高于BL模型的预测准确率(76.99%)。

用预测值与实际值差值占实际值百分比的算术平均值,来表征平均绝对百分比误差,如式(5):

(5)

式中:Ti为实际选择第i种交通方式的样本数;Fi为第i种交通方式预测的样本数。

各指标比较结果如表5,SVM预测的平均绝对百分比误差均小于BL模型。总体上,8次试验的SVM预测的平均绝对百分比误差小于BL模型。

表5 平均绝对百分比误差Table 5 Average absolute percentage error %

通过分方式的分类预测准确率、总体预测准确率、平均绝对离差对比可以看出,针对高原川道型城市的通勤者出行方式选择预测,SVM比BL模型有更好的预测能力,SVM在处理数据分类问题方面具有更高的能力,在出行方式选择预测上有较好的适用性。

3.3 一维敏感性分析及效果预测

一维敏感性分析是指当交通方式的某一属性值改变一个单位,而其他属性值保持不变时,出行者选择交通方式i前后概率的变化[13],笔者基于小汽车拥有量,公交卡拥有率2个属性对高原川道型城市居民出行方式进行敏感性分析,结果如下:

1)提高小汽车拥有率

将没有小汽车的居民全部提高为拥有1辆小汽车,小汽车拥有率提高后各出行方式分担率预测结果如表6。小汽车拥有率提高会増加私人小汽车出行方式的选择概率,小汽车的分担率从30.31%提高至32.53%。公交的分担率有所下降,下降了2.22%。

表6 小汽车拥有率提高后方式分担率预测结果Table 6 Prediction results of mode sharing rate after the improvement of car ownership rate %

2)提高公交卡拥有率

表7显示了公交卡持有量增加后,各出行方式的分担率预测结果。随着公交卡拥有率的提高,选择公共交通的可能性也会增加,公共交通的比例提高了2.99%。由于私人交通包括小汽车出行和出租车出行,这部分客流最有可能是来源于出租车客流。

表7 公交卡拥有率提高后方式分担率预测结果Table 7 Prediction results of mode sharing rate after the increase of bus card ownership rate %

4 结 语

基于高原川道型城市西宁市居民出行调查数据,发现高原川道型城市的通勤者出行方式较为单一,受地理条件与天气因素影响,通勤者的出行方式主要为步行、公交、小汽车、出租车共4种。笔者主要选择具有机动性的交通工具进行预测,基于所调查的属性特征训练了SVM分类模型,将其用于预测通勤者的出行方式选择,通过与BL模型的预测能力比较,私人交通方式预测中,SVM的预测准确率比BL模型的预测准确率高出8.08%,公共交通则高出了2.76%。SVM的总体分类准确率比BL模型的预测准确率高出4.82%。在一维敏感性分析上,当提高小汽车拥有率后,私人交通的分担率提高了2.22%,当提高公交卡拥有率后,公共交通的分担率提高了2.99%。以上表明SVM在分类数据处理方面具有良好的分类能力,在出行方式选择预测中具有更好的适应性,研究结论将为高原川道型城市的居民出行行为分析提供新思路。但是,笔者研究仅考虑了2类主要的机动性交通工具出行方式,仅分析了SVM与BL模型预测能力的对比,以后将进一步考虑SVM与Nested Logit等的预测能力的对比。

猜你喜欢
小汽车公共交通准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
小汽车
2015—2017 年宁夏各天气预报参考产品质量检验分析
我的玩具小汽车
拼一拼
高速公路车牌识别标识站准确率验证法
基于NB-IOT技术的公共交通显示牌设计
在未来,我们不需要路
基于计算实验的公共交通需求预测方法