, ,
(江苏大学 汽车与交通工程学院,江苏 镇江 212013)
在过去的20年里,我国接受高等教育的人数一直呈现持续增长的趋势,据中华人民共和国统计局发布的统计信息显示:2014年,全国研究生在校学生数为184.768 9万人,普通本专科在校学生数为2 547.7万人,2类人数总和约占中国总人口的2%。在我国,绝大多数大学生集中住在宿舍里,且大学生的课程安排具有间隙性,这就允许学生在他们课后时间从事各种各样的活动,无形中增加大学校园周边的交通需求量,特别是在每天下午五点至晚上九点的时间段内,大学生出行会呈现爆发式的增长,可能会导致局部交通供需失衡,进而对城市的交通网络产生重大影响。为了降低大学生大量出行对局部交通乃至城市交通网络的影响,需要对大学生的出行规律进行研究。而研究大学生的出行规律,需先对大学生的出行方式进行研究。
近年来,已有许多学者对大学生的出行方式进行研究[1-2],但这些研究所用数据基本上是基于传统调查方法——问卷调查方法获取到的。传统调查方法本质上是依赖被访问者对行程的回忆以及他们主观认知,这样不可避免地会存在访问回应率低和数据质量差等问题[3]。相对于传统调查方法,基于智能手机GPS的调查方法具有实质性的优势,如可以实时对出行者进行调查;可以减少出行者的负担;可以提高数据的质量等[4]。最近,已有许多利用智能手机GPS获取人们的出行数据,并基于获取的数据进行出行方式识别研究。
文献[5]利用智能手机GPS记录45位居民6个月的出行数据,并选取长度、平均速度、速度期望值、最大的3个速度和最大的3个加速度等作为贝叶斯网络(Bayesian Net,BN)、决策树(Decision Tree,DT)、支持向量机(Support Vector Machine,SVM)和条件随机场(Conditional Random Field,CRF)这4种方法的输入变量,利用这4种方法进行识别研究,其中,DT的识别精度最高,达到74%。文献[6]利用手机GPS分别记录16位调查者(8男8女)的75 min出行数据,与此同时提出一种混合模型——决策树和一阶离散隐马尔科夫模型进行出行方式识别,并选取GPS速度、加速度方差和加速计离散傅里叶转换系数作为混合模型的输入变量。研究结果表明,此文献提出的混合模型的识别精度达到93.6%。文献[7]利用智能手机获取的137条出行轨迹数据,并利用提出的两阶段模型(第二阶段是SVM)进行识别研究。研究结果显示模型的识别精度为93%。文献[8]请15名自愿者利用手机记录自己2个月的出行轨迹数据,并选择5%位速度、中位速度、95%位速度、加速度、减速度和方向改变值等作为一种概率分类与离散隐马尔科夫结合的识别模型的输入变量。其研究结果显示:模型的识别精度范围为65%(地铁、火车)到95%(自行车)。针对BP神经网络(Backpropagation Neural Networks,BP-NNs)在训练过程中网络参数容易陷入局部最优的缺陷,文献[9]提出粒子群优化神经网络(Particle Swarm Optimization Neural Networks,PSO-NNs)模型,并选取低速度率、出行距离、平均速度、平均绝对加速度、中位速度和95%位速度作为模型的输入变量。根据对比结果可得,PSO-NNs模型的识别精度优于其他常用的识别模型(SVM、多项Logit模型和BP-NNs)。文献[10]提出一种改进的贝叶斯网络出行方式识别模型,在模型4个输入变量(平均速度、95%位速度、平均绝对加速度和出行距离)的基础上,增加2个输入变量(低速度率、平均车头转向),最终获得92.74%的识别精度。文献[11]提出粒子群优化支持向量机(Particle Swarm Optimization and Support Vector Machine,PSO-SVM)的方法进行出行方式识别研究,其出行方式识别精度达到95.1%,并将实验结果与DT、BP-NNs和基于网络搜索的支持向量机的结果进行对比,其结果表明PSO-SVM是有效的出行方式识别模型。
综上所述,在已有出行方式识别模型里,文献[11]提出的PSO-SVM识别精度相对较好,但PSO存在一定缺陷,如早熟收敛[12]。针对这个缺陷,本文提出一种改进粒子群优化支持向量机(Improved Particle Swarm Optimization and Support Vector Machine,IPSO-SVM)模型。以繁殖PSO算法为基础,引入遗传操作机制(即选择、交叉和变异操作),并IPSO对SVM的惩罚参数和核函数参数进行参数寻优。
SVM模型于1995年首次被提出,是基于统计学习理论和结构风险最小化原则发展起来的一种新的通用学习方法[13]。面对小样本、非线性和高维数的模式识别问题时,SVM表现出较强的泛化能力[14]。依据已有文献[15]的研究结果,本文研究选择径向基核函数进行大学生出行方式识别研究。
PSO算法于1995年提出一种优化算法。相对于其他优化算法,如遗传算法和蚁群算法,在大多数情况下,PSO算法不仅拥有较低的计算复杂度,而且全局搜索能力更优、收敛速度更快[10,13]。但是,PSO算法仍存在一些问题,如容易早熟收敛。
在现有研究中,PSO算法容易早熟收敛问题的解决方法已有很多,如基于参数选择策略的改进方法和基于增加种群规模的改进方法,但这些方向存在一定缺陷,如基于参数选择策略的改进方法需以多次仿真实验为基础,且不同优化问题,其参数选择存在差异;基于增加种群规模的改进方法,增加了算法的运算量,且不利于与其他算法的结合。基于文献[16]的研究结果,本文利用以繁殖PSO算法为基础,引入遗传操作机制(即选择、交叉和变异操作)的IPSO来优化SVM。
基于IPSO-SVM模型如图1所示。首先采用大学生智能手机中的出行轨迹记录软件收集其出行数据,并对收集的数据进行处理,接着利用IPSO对SVM进行参数寻优,然后使用优化的SVM对数据进行训练,最后对大学生出行方式进行识别研究。
IPSO-SVM模型进行大学生出行方式识别研究的具体流程如图2所示。
在执行遗传操作机制并更新个体和全局最优位置的步骤时,按交叉概率选择适应度值较好的粒子作为父代粒子,并按式(1)与式(2)进行交叉操作,计算子代粒子的适应度值:如果子代粒子适应度值优于父代粒子的适应度值,就进行替代。变异操作需按照变异概率和式(3)来执行,其作用是避免陷入局部最优。在执行更新粒子的位置及速度的步骤时,是按照式(4)和式(5)来更新所有粒子的速度与位置信息。
(1)
(2)
(3)
(4)
(5)
本文研究在江苏大学招募37名在校大学生(5名研究生和32名本科生)作为数据收集自愿者,并要求这些学生在自己的智能手机上安装SpeedView轨迹记录软件。在收集出行轨迹数据时,自愿者须同时打开SpeedView软件、移动数据及手机GPS定位系统。大学生出行轨迹数据收集时间为2015年6月29日至7月5号。这37名大学生一共收集到691条有效出行数据,其中,步行290条,自行车97条,电动车54条,校园公交53条,公交车165条,出租车32条。
在我国,因为大学生没有经济来源,所以其选择的出行方式与城市居民存在差异性,如城市居民驾驶小汽车出行的情况十分普遍,但是在我国,大学生开车上学的可能性较小。基于大学生的出行特点,本文选取步行、自行车、电动车、校园公交、公交车和出租车等6种出行方式进行识别研究。
在出行方式识别研究中,出行特征变量的选择对模型的识别精度有很大影响[10]。选择速度相关的出行特征变量用来进行出行方式识别的研究已有很多。文献[5]选择出行距离和最大加速度这两个出行特征变量对步行、自行车、公交车和小汽车这4种出行方式进行识别研究。文献[17]选择中位速度、95%位速度和95%位加速度等3个出行特征变量进行识别研究。文献[10]选择平均速度、95%位速度、平均绝对加速度、出行距离、车头转向和低速度率等6个出行特征变量作为识别模型的输入变量。基于已有研究,本文选择出行距离、平均速度、中位速度、95%位速度、95%位加速度、平均绝对加速度、低速度率等7个出行特征变量作为IPSO-SVM模型的输入变量,并利用箱线图和单变量组间均值相等检验对选取的出行特征变量的有效性进行验证分析。
2.2.1 箱线图法
利用箱线图(Boxplot)描述6种出行方式的各出行特征变量值,如图3~图9所示。由图3可知,平均速度箱线、中位速度箱线和95%位速度箱线有相似的分布形状,这种相似性表明,这3个出行特征变量拥有相似的鲁棒性[12]。基于图3和图4,可以将6种出行方式分成4类,如步行、自行车和校园公交各自为一类,其余的3种出行方式为第4类。但是由图5和图6可知,电动车的95%位速度值的分布与公交车和出租车存在较大差异,可以有效地进行出行方式划分。由图7~图9可知,电动车、公交车和出租车这3种出行方式的平均绝对加速度分布、95%位加速度分布和地速度率分布存在差异(如由于公交车需要沿途停靠公交站台,其低速度率值在这3种出行方式中是最高的,其次是小汽车、最低的是电动车),可进行有效的出行方式划分。
图3 6种出行方式的平均速度
图4 6种出行方式的中位速度
图5 6种出行方式的95%位速度
图6 6种出行方式的出行距离
图7 6种出行方式的平均绝对加速度
图8 6种出行方式95%位加速度
图9 6种出行方式的低速度率
2.2.2 单变量组间均值相等检验
文献[18]指出大多数出行方式识别研究在选择出行特征变量时,并没有给出选择的统计基础,利用单变量组间均值相等检验来选择出行特征变量,并选择Wilks’ Lambdaλ值和组间F值(Between-GroupF)作为选择指标。本文基于文献[18]的出行特征变量选择方法,对已选取的7个出行特征变量进行验证分析。基于获取到的691条有效出行数据,进行单变量组间均值相等检验,其结果如表1所示。
表1 单变量组间均值相等检验
Wilks’ Lambdaλ是组内平方和总平方和之比。当所有观测到的组均值相等时,Wilks’ Lambdaλ值为1;当组内变异与总变异相比越小时,Wilks’ Lambdaλ值越接近于0。Wilks’Lambdaλ值在[0,1]之间,且其值越小表明其贡献越大。组间F值越大表明该出行特征变量对出行方式识别结果的影响力越大。表1显示了7个出行特征变量的Wilks’ Lambdaλ值和Between-GroupF值,且Wilks’ Lambdaλ值都小于0.4,Between-GroupF值都大于221,参照文献[18]的出行特征变量选取结果,说明本文选取的7个出行特征变量都有效,其有效性(从小到大排序)依次为平均绝对加速度、低速度率、出行距离、95%位加速度、中位速度、95%位速度及平均速度。
本文是以江苏大学37名大学生收集的有效出行轨迹数据为基础,利用IPSO-SVM模型对大学生的出行方式进行识别研究。本文随机挑选其中的518条数据组成训练集,剩下的173条数据组成测试集。利用提出的IPSO-SVM模型对训练、测试数据进行多次仿真,选择其中识别精度最好的5次,取5次结果的平均值作为IPSO-SVM模型的识别精度。与此同时,让BP-NNs、DT、SVM和PSO-SVM采用相同数据进行训练和出行方式识别,并经过多次仿真,选取识别精度最高的5个结果,取其平均值。各模型出行方式平均识别精度如表2所示。
表2 各模型出行方式平均识别精度 %
由表2可知,不同模型对每种出行方式的识别精度都存在一定差异:在步行出行方式识别上,IPSO-SVM和PSO-SVM的识别精度都达到98%,且两者的差异很小,这2种方法的识别精度均高于BP-NNs、DT和SVM;在自行车出行方式识别上,IPSO-SVM的识别精度最高,达到95.24%,PSO-SVM的识别精度次之,达到91.47%,BP-NNs、DT和SVM对自行车的识别精度都低于90%。IPSO-SVM在电动车出行方式识别精度上低于PSO-SVM的识别精度,但高于BP-NNs、DT和SVM的电动车识别精度。在校园公交出行方式识别上,识别精度从高到低依次为IPSO-SVM、PSO-SVM、BP-NNs、SVM和DT。在公交车出行方式识别上,IPSO-SVM的识别精度最高,BP-NNs的识别精度最低。在出租车出行方式识别上,IPSO-SVM的识别精度最高,达到94.12%,而DT的识别精度最低,只有87.94%。不同模型对大学生出行方式的平均识别精度存在一定差异:IPSO-SVM模型的平均识别精度最高,达到94.22%;PSO-SVM模型的识别精度次之,达到 91.91%;接着是SVM的识别精度,然后是BP-NNs识别精度,DT识别精度最低。
总体而言,相对于BP-NNs、DT、SVM这3种模型,IPSO-SVM模型在大学生出行方式识别精度方面具有较大的优势,同时整体上也优于PSO-SVM模型。
本文以37位大学生用SpeedView出行轨迹记录软件收集到的691条有效数据为基础,选择出行距离、平均速度、中位速度、95%位速度、95%位加速度、绝对平均加速度和低速度率等7种出行特征变量,并利用提出的IPSO-SVM模型对大学生的6种出行方式,即步行、自行车、电动车、校园公交、公交车和出租车进行识别研究。实验结果证明了箱线图法和单变量组间均值相等检验法验证选取的出行特征变量的有效性,本文提出的IPSO-SVM模型在大学生出行方式识别精度方面优于其他常用的识别模型(BP-NNs、DT、SVM和PSO-SVM)。
[1] WHALEN K E,PáEZ A,CARRASCO J A.Mode Choice of University Students Commuting to School and the Role of Active Travel [J].Journal of Transport Geography,2013,31(6):132-142.
[2] CHRISTIAN A K,THOMAS F.A Multi-level Approach to Travel Mode Choice—How Person Characteristics and Situation Specific Aspects Determine Car Use in a Student Sample[J].Transportation Research Part F Traffic Psychology & Behaviour,2011,14(4):261-277.
[3] 张治华.基于GPS轨迹的出行信息提取研究[D].上海:华东师范大学,2010.
[4] ZHOU J,GOLLEDGE R.Real-time Tracking of Activity Scheduling/schedule Execution Within a Unified Data Collection Framework[J].University of California Transportation Center Working Papers,2004,41(5):444-463.
[5] ZHENG Yu,LIU Like,WANG Longhao,et al.Learning Transportation Mode From Raw GPS Data for Geographic Applications on the Web[C]//Proceedings of International Conference on World Wide Web.Washington D.C.,USA:IEEE Press,2008:247-256.
[6] REDDY S,MUN M,BURKE J,et al.Using Mobile Phones to Determine Transportation Modes[J].ACM Transactions on Sensor Networks,2010,6(2):662-701.
[7] ZHANG L,DALYOT S,EGGERT D,et al.Multi-stage Approach to Travel-mode Segmentation and Classification of GPS Traces[J].ISPRS——International Archives of the Photogrammetry,Remote Sensing and Spatial Information Sciences,2012,25(4):87-93.
[8] NITSCHE P,WIDHALM P,BREUSS S,et al.Supporting Large-scale Travel Surveys with Smartphones——A Practical Approach[J].Transportation Research Part C:Emerging Technologies,2014,43:212-221.
[9] XIAO Guangnian,JUAN Zhicai,GAO Jingxian.Travel Mode Detection Based on Neural Networks and Particle Swarm Optimization [J].Information,2015,6(3):522-535.
[10] XIAO Guangnian,JUAN Zhicai,ZHANG Chunqin.Travel Mode Detection Based on GPS Track Data and Bayesian Networks[J].Computers,Environment and Urban Systems,2015,54:14-22.
[11] 李 喆,柏 丛,孙 健,等.基于PSO-SVM的出行方式识别研究[J].计算机应用研究,2016(12):3527-3529.
[12] 王晓霞,王 涛,谷根代.基于改进粒子群优化的神经网络及应用[J].华北电力大学学报,2009,36(5):99-102.
[13] 王建国,张文兴.支持向量机建模及其智能优化[M].北京:清华大学出版社,2015.
[14] 安 旭,张树东.基于支持向量机的模糊特征分类算法研究[J].计算机工程,2017,43(1):237-240,246.
[15] 王 园.基于SVM_AdaBoost模型的上市公司退市预警研究[D].广州:华南理工大学,2013.
[16] 胡程磊.数据驱动的建筑电能耗预测方法研究[D].镇江:江苏大学,2016.
[17] BROACH J,MCNEIL N W,DILL J.Travel Mode Imputation Using GPS and Accelerometer Data from a Multi-day Travel Survey[C]//Proceedings of Transportation Research Board the 93rd Annual Meeting.Washington,D.C.,USA:[s.n.]2014:256-268.
[18] BOLBOL A,CHENG T,TSAPAKIS I,et al.Inferring Hybrid Transportation Modes from Sparse GPS Data Using a Moving Window SVM Classification[J].Computers Environment & Urban Systems,2012,36(6):526-537.