刘海玥, 付川云,2, 夏亮
(1.西南交通大学 交通运输与物流学院, 四川 成都 611756;2.西南交通大学 综合交通运输智能化国家地方联合工程实验室, 四川 成都 611756)
交通违法行为是导致交通事故的主要原因之一。相对于研究交通事故,研究交通违法行为更具有价值,因为其尚未造成后果,且可研究样本较多。现有研究表明,驾驶人的社会人口特征与自我报告的交通违法行为密切相关,即具有某些社会人口特征的驾驶人更倾向于交通违法。
社会人口特征包括性别和年龄。Kontogiannis T.等认为男性比女性更易发生交通违法行为,这和大部分研究结论一致。部分研究则提出了相反的观点,如Susilo Y. O.等认为女性摩托车骑车人交通违法行为多于男性骑车人。除性别外,年龄也影响驾驶人交通违法行为。相关研究表明,年轻驾驶人违反交通法规的次数比年长驾驶人多,年轻男性驾驶人是最具交通违法行为倾向的群体。受教育程度、驾龄等社会人口特征亦影响驾驶人交通违法行为。Akaateba M. A.等认为教育程度与超速有关,受教育程度较高时,超速频率下降;Tseng C. M.则认为受过高等教育的驾驶人更倾向于超速。在驾龄方面,Zhang G. G.等认为驾龄小于2年的驾驶人更易超速;Sagberg F.、Mohammed N. P.等认为随着驾驶经验的增加,违反交通规则的可能性会增加。已有文献主要研究社会人口特征与交通违法行为之间的关系,但鲜有研究探索社会人口特征对多次交通违法行为(一年内交通违法2次及以上)的影响。因此,该文通过线上及线下问卷调查,搜集驾驶人社会人口特征及其最近一年内交通违法次数等信息,分析多次交通违法的影响因素,为遏制交通违法行为提供方向。
1.1.1 问卷设计
通过问卷调查搜集驾驶人社会人口特征及其最近一年内交通违法次数等信息。为保证样本数和研究质量,同时开展线上和线下问卷调查,问卷内容一致,涉及被调查驾驶人社会人口特征、日常驾驶车辆类型、最近一年内交通违法次数共7类问题。根据现有研究成果,社会人口特征包括性别、年龄、驾龄、学历和月收入。性别和年龄根据被调查者实际情况填写;将驾龄划分为1~2、3~5、6~10、11~15、16年及以上;学历包括小学、初中、高中或职高、中专、本科或大专、硕士和博士;月收入包括3 000元以下、3 001~5 000、5 001~10 000、10 001~15 000及15 001元以上。另外,问卷还考虑驾驶人日常驾驶车辆类型,包括出租车、小客车、中客车、大客车、公交车、校车、小货车、中货车、大货车、拖挂车和特殊车辆。被调查驾驶人最近一年内交通违法次数包括0、1、2~3、4~6、7~10、11次及以上(见表1)。
表1 调查问卷设计
1.1.2 线上及线下问卷调查
线上调查将问卷做成网页,于2017年10月26日—11月30日通过网络通讯平台邀请全国各地驾驶人填写调查问卷。线下问卷调查于2017年11月22、23、28日在成都市人流密集地开展。剔除异常数据、信息不完整的问卷后,共搜集到404份线上调查问卷和202份线下调查问卷。
对线上和线下问卷调查数据均未进行信度和效度检验。这是因为问卷设计较简单;调查对象流动性大而无法进行重复调查;针对社会人口特征、日常驾驶车型和最近一年内交通违法次数的调查不涉及被调查者主观意识,准确性高。
根据调查问卷内容,从社会人口特征和车型因素两方面确定自变量。借鉴文献[16],将年龄划分为≤24、25~33、34~44、45~59和≥60岁5个区间,并将≤24岁设置为基变量。其他因素分别以女性(性别)、1~2年(驾龄)、小学(学历)、3 000元以下(月收入)、出租车(车型)作为基变量,剩余变量均设置为哑变量(见表2)。
为便于研究,根据被调查驾驶人最近一年内交通违法次数确定其是否多次交通违法。将多次交通违法作为因变量,包括是(即多次交通违法)和否(即未多次交通违法)两个值。
采用二元Logit模型分别对线上及线下问卷调查数据进行分析。为确定多次交通违法行为研究的建议模型,同时采用二元Probit模型对问卷调查数据进行分析。
二元因变量的广义线性模型表达式为:
(1)
式中:y*为假设的不可观察的因变量;β为系数;x为自变量;ξ为随机误差,以零为均值系统地分布。
表2 自变量描述
假设y表示可观察的一个二元因变量,即多次交通违法,y=1表示多次交通违法,y=0表示未多次交通违法,它与不可观察因变量y*间的关系为:
(2)
于是,有:
(3)
式中:F为ξ的累积分布函数。
1.3.1 二元Logit 模型
假设ξ服从logistic(u=0,σ=1)分布,其累积分布函数为:
(4)
根据式(3)和式(4),得:
(5)
对式(5)变形,得到二元Logit模型的表达式:
(6)
从而得:
(7)
1.3.2 二元Probit 模型
假设ξ服从Normal(u=0,σ=1)分布,其累积分布函数为:
(8)
根据式(3)和式(8),得:
(9)
进而得到二元Probit模型的表达式:
(10)
利用IBM SPSS Statistics 19分别对二元Logit模型和二元Probit模型的参数进行估计。模型拟合效果的好坏通过Pearson卡方检验来判断,Pearson卡方值的计算如下:
(11)
式中:k为单元格数;Ai为i水平下的观察频数;Ei为i水平下的期望频数,Ei=npi;n为总频数,n较大时,χ2统计量服从k-1个自由度的卡方分布;pi为i水平下的期望频率。
若Pearson卡方检验的P>0.05,则表明期望频数和观察频数相差较小,拟合良好;若P<0.05,则拟合较差。
2.1.1 基于线上问卷调查数据
对线上问卷调查数据进行描述统计分析,结果见表3。被调查的404名驾驶人中,男性占65.3%,女性占34.7%;多数驾驶人年龄为25~33岁,占37.1%,60岁以上仅占2%;被调查者整体学历较高,其中本科/大专学历占45%,硕士以上占40.1%;驾龄主要为1~2(37.4%)和3~5年(23.7%);月收入以3 001~5 000(24%)和5 001~10 000元(32.7%)为主;绝大多数被调查驾驶人(94.3%)驾驶小客车;最近一年内有、无多次交通违法行为的驾驶人分别占40.6%和59.4%。
表3 基于线上问卷调查数据的描述统计
续表3
2.1.2 基于线下问卷调查数据
对线下问卷调查数据进行描述统计分析,结果见表4。被调查的202名驾驶人中,男性占70.8%,女性占29.2%;多数驾驶人年龄为25~33岁(37.1%),60岁以上仅占1.5%;被调查者整体学历较高,本科/大专学历占54%;驾龄6年以下的占55%;月收入以3 001~5 000(37.2%)和5 001~10 000元(30.2%)为主;多数被调查驾驶人(92.6%)驾驶小客车;最近一年内有、无多次交通违法行为的驾驶人分别占46%和54%。
2.2.1 基于线上问卷调查数据
分别利用二元Logit模型和二元Probit模型对线上问卷调查数据进行拟合,参数估计结果见表5。两模型的参数估计结果表明:年龄、驾龄、学历、车型对多次交通违法行为无显著影响,仅性别和月收入对多次交通违法行为有显著影响。其中男性驾驶人比女性驾驶人更易发生多次交通违法;相对于月收入低于3 000元的驾驶人,月收入处于其他水平的驾驶人更倾向于多次交通违法,即月收入越高的驾驶人多次交通违法的可能性越大。该结果与Alver Y.等的研究结论相同,后者认为高收入者比低收入者更易发生超速行为。月收入处于10 001~15 000元的驾驶人多次交通违法的可能性最大。
表4 基于线下问卷调查数据的描述统计
表5 基于线上问卷调查数据的模型参数估计结果
对比二元Logit模型和二元Probit模型参数估计结果,前者是后者的1.62~1.66倍。二者的Pearson卡方检验结果见表6。二者的P值均大于0.05,均拟合较好;前者的Pearson卡方值远小于后者,二元Logit模型的拟合效果更好。
表6 基于线上问卷调查数据的模型Pearson卡方检验结果
2.2.2 基于线下问卷调查数据
分别利用二元Logit模型和二元Probit模型对线下问卷调查数据进行拟合,参数估计结果见表7。二者的参数估计结果显示:仅性别和月收入对驾驶人多次交通违法行为有显著影响。值得注意的是,与基于线上问卷调查数据的结果有所不同,此处仅月收入为15 001元以上的驾驶人比月收入低于3 000 元的驾驶人更易发生多次交通违法行为。这可能是因为线下问卷调查样本数偏少。
表7 基于线下问卷调查数据的模型参数估计结果
如表8所示,二元Logit模型和二元Probit模型的拟合效果均较好,前者更优,与基于线上问卷调查数据的分析结果一致。
表8 基于线下问卷调查数据的模型Pearson卡方检验结果
通过线上及线下问卷调查搜集驾驶人社会人口特征、驾驶车型及交通违法次数信息,应用二元Logit和Probit模型分析多次交通违法行为的影响因素,得到以下结论:
(1) 男性驾驶人比女性驾驶人更易发生多次交通违法;月收入越高的驾驶人发生多次交通违法的可能性越大。
(2) 二元Logit模型比二元Probit模型更适用于模拟多次交通违法行为。