王丹 胡尧 吴楠 商明菊
摘 要:随着车辆日益增多,交通事故频繁发生,找出影响交通事故发生的真正因素是目前交通管理部门要解决的主要问题。基于贵阳市交通管理部门开放的交通事故数据,采用多项Logistic回归模型和Apriori算法,发现多项Logistic回归模型能很好地拟合数据且能找出影响城市交通安全的显著性因素,Apriori算法通过识别或发现交通事故数据中所有的频繁项集,能够挖掘出人、车、道路、天气因素之间的关联对交通事故类型的影响,数据分析结果可为交通管理相关部门提供参考。
关键词:交通安全;多项Logistic回归模型;Apriori算法
中图分类号:O212
文献标识码: A
道路交通安全问题是世界上所有国家面临的难题[1]。我国的交通安全形势与其它国家相比更为严重,尤其是近年来越来越多的汽车走进千家万户,交通事故频繁发生,
对社会造成了严重危害。由于每次交通事故的发生具有诸多诱因,在较长时间内一个地区发生的交通事故又具有一定的规律性,因此找出影响道路交通事故发生的因素是解决交通安全问题的关键途径。
一般认为交通事故的发生是由人、车、道路、环境等要素组成的系统失去平衡造成的[2]。国内外关于道路交通事故成因分析的理论主要经历了三个阶段[3]即单因素理论、多因素理论和系统致因理论。单因素理论顾名思义即将交通事故的发生归结为某一因素,主要偏重于人;多因素理论主要从人、车、路三因素分析;系统致因理论在20世纪80年代被提出,主要对多个因素及其关系进行分析研究。近年来对交通事故成因的研究方法主要有故障树[4]、贝叶斯网络[5]等。关于交通事故成因的研究更多的是从管理的角度提出对事故的预防对策,而针对交通事故内在致因的相关性分析则研究较少,对影响事故发生的因素与事故类型之间的联系也没有得到充分挖掘。
本文根据交通事故数据中9种事故类型特征建立多项Logistic回归模型及采用关联规则中Apriori算法对道路交通安全影响因素进行研究。首先对数据进行预处理,对多种事故因素和交通事故类型建立Logistic回归模型,探索交通事故内在致因相关性,找到对交通事故类型有显著性影响的因子;其次,采用关联规则中Apriori算法挖掘人、车、道路、环境多个因素之间的关联对交通事故类型的影响;最后,得出分析结论可为交通相关部门提供参考。
1 数据预处理
研究数据来源于2015年贵阳市56651条交通事故数据及历史天气数据,包含肇事类型、肇事者性别、年龄、驾龄、车辆归属地、违法历史及肇事时间等多个属性。首先对数据进行缺失值分析,如图1所示,由左侧缺失比例可知驾龄、驾校及车辆品牌缺失较多,在15%以上,其他变量缺失较少。对于缺失数据简单采用众数方法进行填补,可降低标准误差,由于数据量较大,填补数据不会对分析结果造成较大影响。
对填补后的数据进行整理,其中时间段划分标准见表1。图2展示了贵阳市10个区域分别发生9种交通事故类型的数目,可知事故类型1(追尾)和事故类型7(未按规定让行)发生次数较多,从上到下曲线分别表示云岩区、南明区和乌当區(接近重合)、花溪区、白云区,可知这几个区发生交通事故次数较多,其他区域如开阳县、修文县等发生交通事故次数较少。
2 多项Logistic回归模型
2.1 模型介绍
多项指分类数大于等于3的分类因变量,本研究中数据交通事故类型共9类,即因变量有9个取值且无序,而一般的线性回归分析无法准确地刻画变量之间的因果关系,因此可对交通事故类型建立多项Logistic回归模型[6-8]。
2.3 模型结果
在对9种事故类型建立多项Logistic回归模型之前,首先对自变量间的多重共线性进行检验,本文采用方差膨胀因子(VIF)[10]和条件索引来综合判别多重共线性,对共线性较强的一些变量只保留一个,如对天气情况中风力风向等属性只保留是否下雨。筛选后的变量及共线性诊断结果见表2。
一般认为,当VIF>10时,认为变量间存在较严重的共线性,由表2可知11个变量的方差膨胀因子均在1左右,共线性较弱。此外,条件索引在10~30之间认为具有弱共线性,在30~100之间认为具有中等共线性,大于100认为具有严重共线性。由表2知11个变量的条件索引均小于30。综合来看,选取的11个解释变量均通过多重共线性检验,可对其进行建模。
对肇事者事故类型建立多项Logistic回归模型,显著性0.001<0.05,模型通过检验,皮尔逊卡方检验的拟合优度为0.865,接近于1,说明模型对原始数据的拟合通过检验且拟合效果较好。
由表3似然比检验显著性知,肇事者年龄、性别、肇事地点、车辆颜色、车辆品牌、肇事者驾龄,这些变量对模型构成均有显著性贡献。
通过对56651起交通事故数据建立多项Logistic回归模型,得到道路交通安全影响因素(11种)与事故类型(9种)的回归结果如表4所示,这里仅列举事故类型1(追尾)和事故类型2(逆行)的部分分析结果。其中B为模型变量的回归系数,正负分别表示自变量对交通事故类型有正影响与负影响,Wald值是对偏回归系数进行Wald检验的结果,Exp(B)为每个自变量的优势比。
由事故类型1的分析结果可看出对于驾驶员因素,男性发生交通事故的优势比大于1,表明男性比女性更易发生追尾事故。对于道路因素,开阳的优势比最大为5.383,可知危险程度相对较高,与开阳地型地貌变化多样,地型起伏大,易发生追尾事故有关。
.
由事故类型2,对于驾校因素,驾驶员所报考驾校如鑫鑫驾校等,对事故率有正影响,优势比为1.334。对于车辆因素车辆颜色为灰色的优势比较大,为3527,可能与灰色车辨识度较低有关。别克牌和长安牌汽车对事故率有较大的正影响,优势比分别是4.17、4.135,可知危险度相对较高,该类品牌车辆车型繁多,危险性是否与车辆品牌安全性能有关,有待进一步考证;对于道路因素,修文的优势比最大为15.493,可能与修文奇特的地势及驾驶员安全意识薄弱有关。
3 关联规则
关联规则挖掘[11]是数据挖掘中最为活跃的研究方向之一,其本质是挖掘大量数据中项集之间的关联,由Agrawal[12]等人于1993年首次提出。关联规则算法不需要对原始数据进行训练,是一种无监督的机器学习方法,可以挖掘出数据中的潜在关系。设A是一项集,事务T包含A当且仅当AT,则关联规则是形如{A}{B}的蕴涵式,其中AI和BI分别称为这条规则的左手边项集(Left-hand-side, LHS)和右手边项集(Right-hand-side, RHS)且A∩B=。理解为“在相同的事务中,当A中的事件发生时,B中的事件也发生”。如对事故类型1关联结果中的规则:{东北风/东北风,男,起亚牌,青年,时间段2} =>{事故类型1},花括号中的Item集合即为项集,箭头左边为左手边项集,箭头右边为右手边项集且两者不能有交集。
3.2 关联结果分析
采用R语言中arules包以事故类型1和事故类型7为例进行关联,其他事故类型类似。
综合分析人、车、道路、天气因素对交通事故的影响,根据关联规则挖掘数据的结果,通过提升度进行排序,在提升度最高的规则中分析可行部分。
对事故类型1挖掘出来的关联规则以提升度lift排名前5条进行展示,见表5。如第二条规则可解读为以72%以上的置信度可确定无违法历史的男司机在开阳县发生追尾事故的情况约是其他情况的2.5倍,其他规则类似可进行分析。
图3为事故类型1的关联规则特征组成图,颜色越深表明提升度越高,关联性越强,可知开阳县、无违法历史、长城牌、青年等特征与事故类型1关联较强。
图4为关联规则的平行坐标图展示,颜色越深代表提升度越高,由图可知具有3个及以上因素若造成交通事故则发生事故类型1的概率较大,如倒数第二条解读为未参与驾校培训具有0~2年驾驶经验的非贵A新手男司机在时间段2(7:00~9:00),若发生交通事故则发生“追尾”事故的情况概率较大。
对事故类型7挖掘出来的关联规则以提升度lift排名前5条进行展示,见表6。如第二条规则可解读为以75%的置信度可确定十一培驾校的男司机驾驶长安牌汽车在时间段4(12:00~14:00)有雨的天气下发生事故类型7(未按规定让行)约是其他情况下的2.85倍。
图5展示了事故类型7关联规则的分组图,圆圈尺寸的大小表示支持度,圆圈的颜色深浅表示提升度。从图中可清楚的看出时间、风力、长安牌汽车、非贵A等属性与事故类型7关联性较强。
4 结论
论文通过对贵阳市交通事故数据建立多项Logistic回归模型,拟合效果较好,分析了单因素对交通事故类型的影响,结合关联规则中Apriori算法挖掘了多个因素的关联作用对事故类型的影响,全面分析了影响道路交通安全的因素,可为交通相关部门提供管理依据,部分分析结论如下:
(1)男性青年驾驶员发生追尾的事故率较高;女性若发生交通事故,依法负全责的情形较多;驾龄在5年以上、无违法历史的中年驾驶员因逆行发生的事故率较高。
(2)开阳县由于追尾发生交通事故的概率较高,修文县由于逆行发生的交通事故概率较高。
(3)青年男司机、无违法历史、开阳县、云岩区与“追尾”事故关联度较高;十一培驾校、风力风向、时间段、长安牌汽车、中年司机与“未按规定让行”的关联度较高。
(4)车辆颜色对交通事故发生也有显著性影响,如逆行事故中灰色车的事故率较高,推测和人的视觉有关,可进一步分析研究。
参考文献:
[1]刘勇. 基于贝叶斯网的道路交通事故分析[D].长沙:长沙理工大学,2009.
[2]洪国,周立,鲁光泉.中国道路交通安全现状、成因及其对策[J].中国安全科学学报,2004,14(8):34-38.
[3]孙平,宋瑞,王海霞.我国道路交通事故成因分析及预防对策[J].安全与环境工程, 2007,14(2):97-100.
[4]胡艺馨,刘唐志.长大下坡伤亡事故致因故障树分析[J].科技通报,2017,33(06):238-241.
[5]Mbakwe A C, Saka A A, Choi K, et al. Alternative method of highway traffic safety analysis for developing countries using Delphi technique and Bayesian network[J].Accident Analysis & Prevention,2016,93(1): 135-146.
[6]王世通,杨艳红.基于多项Logistic回归的地铁应急疏散行为影响因素分析[J]. 城市轨道交通研究,2014,17(05):73-76+80.
[7]Geraghty D, OMahony M. Urban Noise Analysis Using Multinomial Logistic Regression[J]. Journal of Transportation Engineering,2016, 142(6): 04016020.
[8]劉亚洲.基于方差分析与Logistic回归模型的公路交通事故率研究[J]. 公路交通技术,2016(06):144-147.
[9]孟生旺.回归模型[M].北京:中国人民大学出版社,2015.
[10]刘钢,宋亚倩.基于有序Logistic回归的水库移民住房感知实证研究[J]. 长江流域资源与环境,2017,26(04):519-529.
[11]Gupta M,Solanki V K, Singh V K. A Novel Framework to Use Association Rule Mining for classification of traffic accident severity[J]. Ingeniería solidaria, 2017, 13(21):37-44.
[12]Agrawal R,Imieliński T, Swami A. Mining association rules between sets of items in large databases[C]//Acm sigmod record. ACM, 1993, 22(2): 207-216.
[13]李渊韬,张 楠,刘 峰,等.基于信息论优化的Apriori算法在交通事故分析中的应用[J].信息系统工程,2016(10):80-84.
[14]Huh J H, Kim H B, Kim J. A Method of Modeling of Basic Big Data Analysis for Korean Medical Tourism: A Machine Learning Approach Using Apriori Algorithm [C]//International Conference on Information Science and Applications. Springer Singapore, 2017:784-790.
(责任编辑:曾 晶)