基于主成分法优化的轨道交通通勤出行方式选择研究

2013-11-04 06:54康文峰
交通信息与安全 2013年3期
关键词:小汽车命中率建模

康文峰 孙 宝

(江苏省交通规划设计院 南京 210005)

0 引言

1 结合主成分分析法的轨道交通通勤出行多项Logit模型的标定和检验方法

以南京轨道1号线居民出行调查为依据,通过现场发放、回收的方式对不同性质的地铁站对进出地铁站的上下站乘客进行调查,获得调查表,调查数据为本次建模的基础依据。其中数据的准备编码工作见表1,同时根据影响因素相关性表对影响因素进行分类,进而对相关性较高的变量进行主成分分析,最后对合成变量和相关性较低的变量进行建模及模型检验,其具体流程见图1。

图1 改进的多项Logit模型流程图Fig.1 Flowchart of improved Logit model

1.1 影响因素分类

根据表2对影响因素进行分类,在主成分分析中对变量的相关性系数ρ没有作明确的规定,考虑到在下一步中还需对分析的必要性进行检验,本次中将相关性系数的绝对值为0.4作为标准,其中相关性系数大于0.4的有收入、学历、有无小汽车、有无驾照4个变量,其中收入与其余3个变量的相关性依次为0.513、0.491、0.574。由于有无小汽车、有无驾照情况与个人经济条件(收入)直接相关,而在我国学历与收入呈现出一定的相关性也是可以理解的,因此这4个变量之间具有较高的相关性与现实也是相符的。其余变量由于没有比较明显的高相关性将其直接作为建模的因子。

1.2 主成分分析

1.2.1 KMO及球形检验

该步骤在主成分分析过程中异常重要,直接决定了能否进行主成分分析。KMO及球形检验结果见表2。其中表格第1行为KMO统计量,数值为0.713,稍大于0.7,根据前面的介绍其做主成分分析的效果尚可。表格第2行为球形假设,其结果(第4行)表明变量之间的球形假设被拒绝,4个变量之间并非独立,取值之间具有一定的关系。因此,2项检验结果表明可以对上述4个变量进行主成分分析。

表1 调查数据编码表Tab.1 Encoding table of survey data

表2 KMO及球形检验Tab.2 The KMO and spherical test

1.2.2 公共因子数量的提取

公共因子数量的提取主要依靠的主成分列表(见表3),在该表按照特征根从大到小的顺序依次列出了所有的主成分。在所有的主成分中,特征根大于1的有第1个与第2个主成分。第1、2个主成分的特征根分别为1.568、1.080,占了所有解释变量的49.190%与36.990%。第3个特征根虽然占了解释变量的9.642%,但是由于其为0.778,小于1,这说明该变量的解释力度还不如直接引进原变量来的大。因此,在4个变量中引入2个主成分。

表3 主成分列表Tab.3 Listing of principal component

另一方面,碎石图(见图2)表明前2个因子的特征值较大(大于1),折线的斜率相应的较大,从第3个因子开始,折线趋于平缓,也表明引入2个变量即可。

图2 碎石图Fig.2 Scree plot

1.2.3 新因子的表示

本文以某综合建筑物为例展开分析,此项目总面积31万平方米,包括5栋塔楼(110~120 m高)、中心裙房(3层)、地下室(4层),此项目建设目标是成为城市地标性建筑(图1)。为确保建筑物施工、运营安全,必须落实建筑物沉降监测工作,有效预测建筑物变形趋势,进一步验证、修改设计、施工方案。

上述分析过程表明公共因子数量取值为2,计算得主成分分析矩阵(见表4)。对于系数矩阵,其数值都为正数,这主要是由于学历、驾照情况、有无小汽车、收入4个属性对交通方式选择效用函数的效果都是同向的。新合成的2个变量t1,t2可由学历(x1)、驾照(x2)、小汽车(x4)、收入(x5)表示如下。

表4 因子得分系数矩阵表Tab.4 Component score coefficient matrix

1.2.4 改进模型的标定

在所有的变量中根据式(3)在SPSS中合成2个新变量用于取代原来的学历、驾照、小汽车、收入等4个变量。在SPSS影响因素选择中将所有变量作为影响因素,进行多方式选择建模,得到改进多项Logit模型的标定参数及相应的检验。

1.2.5 模型参数的解释

标定过程中,选择的参考出行方式为自行车,根据上节的介绍,当参数为正时表明随着该变量数值的增加,出行者偏向于选择机动化较高的出行方式。否则,出行者偏向于选择自行车作为其出行方式。其中,年龄、职业、出行距离、合成的2个新变量其参数数值都为正,这些变量的正负号与其相应的解释意义是相符的。而对于出行费用,等车时间,有无自行车等变量其标定的参数数值都为负数也是可以理解的。鉴于变量对方式选择的意义较明显,不对其意义一一进行解释。

1.2.6 模型的标定

在5%的显著水平上对变量参数进行t检验。在所有的t检验中,性别=1的变量其小汽车参数的与职业变量在出行方式为公交车的t检验值的绝对值小于1.96,其余所有参数都通过检验。

对于模型的命中率,总命中率为81.2%,各方式的命中率为78.0.2%,79.3%和84.00%,具体数值见表6。根据t检验值对模型进行进一步改进可相应的提高模型的总体命中率,为了便于对不同的模型进行比较,未将进一步模型的数据进行列举。模型的麦克法登系数数值为0.296,介于0.2~0.4之间,处于合理的范围,说明模型建模效果较好。

2 模型的比较

比较传统的多项Logit模型,Nested Logit模型,改进的多项Logit模型3类模型。其中多项Logit模型根据选择因素的不同可以建立较多的模型,选择其中比较有代表性的2类,不考虑变量之间交互作用的全因素多项Logit(ML2)模型和考虑了变量交互作用的采用逐步回归法进行因素选择的多项Logit模型(ML3)。

4类模型在命中率方面有所差别,其中全因素多项Logit模型为69.5%,根据逐步回归法建立的多项Logit模型的命中率为72.3%,双层Logit模型命中率略高为75.4%,基于主成分分析法的改进的多项Logit模型命中率为81.2%。对于全因素建立的多项Logit模型,其命中率稍低于考虑了影响因素之间相互作用的其他3类模型,这也在一定程度上验证了影响因素直接交互作用对建模的影响。

图3 模型命中率Fig.3 Hit rate of different model

对于上面所建立的几个模型,“逐步回归法”建立的模型要较多的试算与尝试,需要浪费较多的时间,在这方面,全因素多项Logit模型更为简便,但是全因素多项Logit模型由于没有考虑影响因素之间的交互作用,在命中率方面没有得到保证。而对于Nested Logit模型,在建模过程中不仅需要考虑选择树的构造符合分析的需要,且在建模之后需要根据尺度参数对构造的模型进行检验,若构造合理,相对于传统的多项Logit模型有明显的优势,但也需要消耗较大的精力。对于处理影响因素建立的非集计模型,基于主成分分析法改进的多项Logit模型具有思路清晰,计算量较小等特点。模型的比较见表5。

表5 模型优缺点比较Tab.5 The advantages and disadvantages of different models

3 灵敏度分析

灵敏度分析是指模型某一因素发生改变对最终结果的影响程度。根据ML3模型,采用代表性通勤者的方法对模型的敏感度进行分析,即用调查样本各方式的自变量的均值作为该自变量的值代入模型,求得代表性通勤者选择不同出行方式的概率,并以此作为相应各方式的出行比例。在对特定的变量进行灵敏度分析时,其余变量值不变,观察各交通方式选择概率变化的大小及方向。在研究的影响因素中,对可控性变量进行分析,主要包括:自行车、小汽车、驾照拥有情况,收入、出行距离、出行费用、等车时间、到地铁站的距离等变量。将自变量进行增减10%,得到各出行方式的选择概率变化如表6。

各影响因素对出行方式影响大小分析包括交通条件、出行者特性、出行特性等几个方面,下面囿于篇幅仅讨论出行特性:

出行特性包括出行距离、出行费用、候车时间3个因素。当出行距离增加时,公交出行有略微的增加,而小汽车出行增加比例更大,对地铁出行方式的影响最大。这一方面表明了随着出行距离的增加,出行工具机动化方式会相应的提高。另一方面表明也重新验证了地铁出行优势没有得到充分的发挥,选择地铁的出行者其出行还是以中短出行为主。对于出行费用,随着出行费用的增加或减少,公交、小汽车、轨道出行会相应的降低或提高。

对于候车时间,随着公交、地铁2种出行方式候车时间的增加,出行者将会相应的将出行方式转到自行车和小汽车这两种不需要候车时间的出行方式上,其中提高10%的候车时间其转移到自行车与小汽车的比例约为5∶1。

表6 灵敏度分析表Tab.6 Sensitivity analysis

4 结论

多项Logit模型具有能够反映现实问题,计算速度快,表达容易的特点,论证针对常用的Logit模型中解释变量之间存在相关性,建模过程中需要主观的选择解释变量的问题,在主成分分析方法的基础上对常用的多项Logit模型进行改进,并且在南京轨道1号线通勤出行调查数据获得的基础上利用SPSS软件实现对参数的标定与检验,通过与模型比较效果表明基于主成分分析法的改进的多项Logit模型命中率较高,相比传统的“逐步回归法”,可以节省大量的试算过程,在考虑变量相关性时是一种较好的建模方法,并且最终对模型的灵敏度进行分析。

[1]Frank S.Koppelman,Chieh-Hua Wen.Alternative nested logit models:structure,properties and estimation[J].Transportation Research Part B:Meth-odological,1998,32(5):289-298.

[2]Vovshva P.The cross-nested logit model:application to mode choice in the Tel-Aviv metropolitan area[R].Transportation Research Record 1607.1997 TRB.Washington,DC:National Research Council,1997:6-15.

[3]Bunch D S.Estimability in the multinomial probit model[J].Transportation Research Part B:Methodological,1991,25(1):1-12.

[4]Bolduc D.A practical technique to estimate multinomial probit models in transportation[J].Transportation Research Part B:Methodological,1999,33(1):63-79.

[5]Lemp J D,Kockelman K M.Strategic sampling for large choice sets in estimation and application Transportation Research Part A[J].Policy and Practice,2012,46(3):602-613.

[6]郝黎仁,樊 元,郝哲欧,等.SPSS11统计分析教程[M].北京:高等教育出版社,2006.

猜你喜欢
小汽车命中率建模
小汽车
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
我的玩具小汽车
拼一拼
夜夜“奋战”会提高“命中率”吗
2015男篮亚锦赛四强队三分球进攻特点的比较研究
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
投篮的力量休斯敦火箭
试析心理因素对投篮命中率的影响