张 坤,梅诗冬,景国勋,3,三上喜贵
(1.河南理工大学安全科学与工程学院,河南 焦作 454000;2.日本长冈技术科学大学 原子能系统安全工程系,日本 长冈 940-2188;3.安阳工学院,河南 安阳 455000)
早在20世纪70年代欧美等发达国家已经建立了相对完善的交通事故信息系统,现已成为交通事故数据收集和分析必不可少的一种工具[1-3]。近年来,我国国家安全生产监督管理总局网站事故查询系统作为分析道路交通事故的一个重要信息来源,已被国内的一些学者重视并利用,除了利用该系统提供的关键词进行检索可得到简单的统计数据外,系统中对道路交通事故进行描述的文本数据中也含有大量有价值的信息,但这些信息必须利用先进的数据挖掘技术才能提取出来。
面对数据库中规模庞大的数据,仅凭经验和专业知识有时已不能对其进行确切的分类,随着计算机技术和多元统计技术的发展,利用数学方法进行更科学的分类不仅非常必要而且完全可能。聚类分析方法能根据样本自身的属性,用数学方法定量地确定样本之间的亲疏关系并对样本进行聚类,已被一些学者应用于道路交通事故数据的统计分析方面。如采用聚类分析法对道路交通事故发生的形态、地区等特点进行了分析,并对区域道路的交通安全情况进行了评价[4-9]。此外,道路交通事故的发生是多种因素综合作用的结果,某种因素对事故影响程度的大小通常可用相关性分析法来进行评价。如一些学者利用相关性分析方法对道路交通事故、交通违章以及交通安全保护措施的使用情况等进行了分析和总结[10-11]。但综合利用数据挖掘、聚类分析和相关性分析方法对道路交通安全状况进行综合评价的研究还比较少见。
本文基于我国国家安全生产监督管理总局的事故查询系统,利用数据挖掘技术从中抽取重大交通事故的信息,以交通事故发生数量、死亡人数和受伤人数作为道路交通安全水平的评定指标,并依据我国社会经济发展水平、地势阶梯、人口密度等区域特征的划分标准[12-14],将除了香港、澳门和台湾之外的我国31个省级行政区进行分组,同时利用SPSS软件的聚类分析功能对各省级行政区不同道路类型的道路交通安全水平进行等级划分,利用SPSS软件的相关性分析功能对各省级行政区域不同道路类型的道路交通安全水平等级与相应的区域特征进行相关性分析,以为我国交通事故预防措施的制定提供客观和直接的依据,为降低交通事故的发生率发挥作用。
登陆中国国家安全生产监督管理总局事故查询系统[15],在2004年1月1日至2014年12月31日死亡人数为3人以上的“非煤”类型数据中(该系统事故类型选项分为“全部”、“非煤”、“煤矿”3类,交通事故包含于“非煤”事故类型中),以“道路交通事故”为关键词进行检索,提取到8 156件重大交通事故的数据;再通过文本数据挖掘技术从事故简况中筛选出具有行政道路类型(国道、省道、县道和乡村道路)和事故发生地点的数据,作为样本数据进行分析。通过上述方法收集到的我国交通事故发生数据为2 383件,按照省级行政区和道路类型进行统计后的结果,见表1。
表1 我国31个省级行政区在不同道路类型上的交通事故发生数、死亡人数和受伤人数统计结果
本文利用SPSS软件聚类分析中的K-means算法进行数据处理,选取事故发生数量、死亡人数和受伤人数作为聚类分析时道路交通安全水平的评定指标,取聚类数K=5,对道路交通安全水平情况进行分析[6],将道路交通安全水平分为5个等级:高(A)、较高(B)、中等(C)、较低(D)和低(E)。
为了更加全面地评价我国各省级行政区域的道路交通安全状况,进一步将各省级行政区域按照社会经济发展情况、地势阶梯、人口密度等进行了分类。对于社会经济发展情况的分类,依据国家统计局2011年公布的经济区域划分方法,将省级区域归类于东部、中部、西部和东北四大经济地区;对于地势阶梯的分类,依照《中华人民共和国年鉴》中的描述,将各省级行政区域按海拔高度归类于第一阶梯、第二阶梯和第三阶梯;对于人口密度的分类,依据中国第六次人口普查结果,按照人口稠密的程度分为密集区、中等区和稀少区3类。
本文利用SPSS软件将收集到的2 383件重大交通事故按道路类型进行聚类分析后,得到了如表2所示的聚类中心,表中各指标的值越低表示该道路交通安全水平越高。由表2可见,聚类中心的第2类,事故发生数量、死亡人数和受伤人数3个指标值均为最低,即道路交通安全水平最高(A等级);第4类(B等级)次之,之后依次是第5类(C等级)、第3类(D等级);第1类(E等级)的3个指标值均最高,即道路交通安全水平最不理想。
按照表2中的聚类中心,将我国31个省级行政区在不同道路类型上的道路交通安全水平按照A、B、C、D、E五个等级进行划分,表3列出了我国31个省级行政区在不同道路类型上的道路交通安全水平等级。
表2 我国不同道路类型重大交通事故最终聚类中心
表3 我国31个省级行政区在不同道路类型上的道路 交通安全水平等级
由表3可见,北京、天津、河北、吉林、上海、海南、青海、宁夏、辽宁和江苏10个省级行政区域的道路交通安全状况最好,4种道路类型的行政交通安全水平都为A级;其余省级行政区域的道路交通安全水平在不同道路类型之间存在着差异,存在差异的省级区域占比约为68%;广东、广西、四川、云南和贵州等省级行政区域各种道路类型的道路交通安全水平等级基本属于D级和E级,说明其道路交通安全状况较差。从道路类型方面来看,国道、省道、县道和乡村道路上道路交通安全水平处于A级的比例分别为45%、58%、62%、52%,处于B级的比例分别为26%、3%、3%、6%,A级和B级之和分别为71%、61%、65%、58%;在乡村道路上D级和E级所占比例分别达26%和13%,合计达39%。经对比可以发现,国道的道路交通安全水平为“高”和“较高”的占比较大,道路交通安全状况相对较好,乡村道路的道路交通安全水平最低,特别是安全水平为 “较低”和“低”的占比较大,与其他道路类型相比明显偏多,可能是源于交通设施条件的不足。
由表3还可以看出,我国31个省级行政区域不同道路类型的道路交通安全水平存在着差异,这些差异与交通设施的完备程度、交通管理水平等存在一定的关系。同时,道路交通安全水平与区域性的社会经济发展状况、地势阶梯、人口分布等特征也有着一定的联系,这种联系的有无和联系程度的大小可以通过相关性分析来验证。
表4为我国31个省级行政区按社会经济发展情况、地势阶梯、人口密度进行分类后的区域特征,为了评价31个省级区域特征与道路交通安全水平之间的联系,本文利用SPSS软件对它们之间的相关性进行了分析,表5为道路交通安全水平与各种分类的区域特征进行相关性分析的结果。根据显著性p值(p<0.05具有显著性)和 Pearson相关系数r(|r|≤0.3为微弱相关,0.3<|r|≤0.5为低度相关,0.5<|r|≤0.8为中度相关,|r|>0.8为高度相关,|r|=1为完全相关)的大小可以判断不同道路类型道路交通安全水平与区域特征间的关联程度。
由表5可见,我国4种道路类型的道路交通安全水平与第三阶梯、东部经济区和人口密集区都呈现出显著相关性(p<0.05),但随着道路交通安全水平等级的降低其相关程度呈递减趋势;4种道路类型的道路交通安全水平与东北部经济区无显著相关性(p>0.05);国道的道路交通安全水平与第二、三阶梯、东西部经济区和人口密集区呈现出极显著相关性(p<0.01);省道的道路交通安全水平与第三阶梯、东部经济区和人口密集区呈现出极显著相关性(p<0.017),与第二阶梯和西部经济区呈现出显著相关性(p<0.05);县道的道路交通安全水平与东部经济区和人口密集区呈现出极显著相关性(p<0.01),与第二、三阶梯和西部经济区呈现出显著相关性(p<0.05);乡村道路的道路交通安全水平与第三阶梯和人口密集区呈现出极显著相关性(p<0.01),与东部经济区呈现出显著相关性(p<0.05)。但是,国道的道路交通安全水平与人口稀少地区(0.991,0.084)、乡村道路的道路交通安全水平与人口中等地区(0.982,0.121)有高度相关性但不显著。
表4 我国31个省级行政区区域特征分类
注:经济区域划分,I为东北部、Ⅱ为东部、Ⅲ为中部、Ⅳ为西部;地势阶梯划分,I第一阶梯与Ⅱ 第二阶梯分界线为昆仑山脉—祁连山脉—横断山脉、Ⅱ第二阶梯与Ⅲ 第三阶梯分界线为大兴安岭—太行山脉—巫山—雪峰山;人口密度划分,I为人口密集区(>100人/km2)、Ⅱ为人口中等区(25~100人/km2)、Ⅲ为人口稀少区(1~25人/km2)。
表5 我国不同道路类型交通安全水平等级与区域特征间的相关性分析结果
注:“**”表示相关性在 0.01水平(双侧)上显著相关(简称极显著相关);“*”表示相关性在 0.05水平(双侧)上显著相关(简称显著相关);“-”表示无相关性;N表示样本量。
对于能提取到交通事故信息的我国31个省级行政区域,4种道路类型的道路交通安全水平进行聚类分析后的结果显示:北京、天津、河北、吉林、上海、海南、青海、宁夏、辽宁和江苏等省(市或自治区)的道路交通安全水平整体较高;而广东、广西、四川、云南和贵州等省(或自治区)的道路交通安全水平相对较低,这与吕卫平等[8]在SPSS聚类分析应用中得到的结果一致。通过对比发现,我国68%的省级行政区域的道路交通安全水平在国道、省道、县道和乡村道路上存在着差异性,如黑龙江和重庆在国道上的道路交通安全水平是B级,在省道和县道上是C级,在乡村道路上分别是D级和C级。
基于经济区域、地势阶梯和人口密度3个区域特征对我国31个省级行政区域进行分组,各组与不同道路类型的道路交通安全水平等级间存在着一定的关系,尤其是地势平坦的第三阶梯和经济发达的东部地区与各种道路类型的道路交通安全水平呈现出显著相关关系,人口密集地区与各种道路类型的道路交通安全水平呈现出极显著相关性。结合表3和表4可以看出满足这三个条件的省级行政区域道路交通安全水平较高(如北京、天津、上海、江苏等),这也符合一些研究者[16-20]分别得到的分析结果。因为地势对交通线路的分布密度和道路线形会产生一定的影响,我国第三阶梯以平原为主,各类交通线路多且密度大,多呈走向平直的网状分布,道路环境好;根据医疗卫生和道路交通基础设施状况对交通事故百万人口伤亡率的作用呈边际递减的规律[18]来看,我国东部地区经济条件较好,医疗卫生和道路交通基础设施都优于西部地区,因此西部经济欠发达地区的道路安全水平会比东部地区差。另外,第二、三阶梯、东部和西部经济区以及人口密集区与各种道路类型的道路交通安全水平的显著相关性随着安全水平等级的降低而降低。这些信息可以帮助我们了解不同道路类型的道路交通安全水平情况的区域性特征,为更好地提高交通安全管理水平提供参考依据。
我国各省级行政区域在不同道路类型上的道路交通安全水平具有差异性,因此各部门应该根据不同道路类型的道路交通安全水平情况的区域性特征,有针对性地制定交通事故预防措施[21-24]。Benot等[25]的研究表明聚类分析是分析同类交通事故的有效方法。本文采用聚类分析方法对我国31个省级行政区域的不同道路类型的道路交通安全水平进行等级划分,分析结果具有一定的实际意义,验明了聚类分析方法在道路交通安全分析方面的有效性;同时,通过相关性分析验证了道路交通安全水平与区域特征间的关联关系。可见,聚类分析方法和相关性分析方法的结合应用,能从原始数据中挖掘出更多有价值的信息。
本文通过对我国国家安全生产监督管理总局事故查询系统中的数据进行挖掘,从2004—2014年间发生的重大交通事故中筛选出具有道路类型信息的2 383件交通事故数据,将该数据按照省级行政区和道路类型进行聚类分析,将道路交通安全水平等级划分为5个等级,并将我国31个省级行政区域的道路交通安全水平进行了归类,同时利用相关性分析方法分析了社会经济发展水平、地势阶梯和人口密度等三个区域特征与该区域道路交通安全水平之间的关系,得到了以下结论:
(1) 将数据挖掘技术应用于事故查询系统可以得到简单统计数据之外的信息,为进一步提高道路交通安全水平提供了可靠的理论支持。
(2) 对大量交通事故信息进行处理时,可以利用聚类分析方法对道路交通安全水平进行分级。通过对我国31个省级行政区域在不同道路类型上的道路交通安全水平等级进行划分的结果表明:68%的省级行政区域在不同道路类型上的道路交通安全水平存在差异,说明在进行交通事故预防和交通设施改善时,有必要按照道路类型进行考虑。
(3) 利用相关性分析发现道路交通安全水平与社会经济发展水平、地势阶梯、人口密度等区域特征有较强的相关性,我国东部地区、地理上的第三阶梯以及人口密集地区道路交通的安全水平较高,而这种相关性随着道路交通安全水平等级的降低呈现出降低的趋势。
(4) 本研究过程中,用作数据挖掘分析的道路交通相关信息是从数据查询系统中的交通事故文本信息中抽取出的,在人工提取信息时发现,这些文本数据所包含的内容具有一定的随意性,信息的描述模式也不统一,导致了像路表情况、交通信号方式等相当一部分项目的信息覆盖率低于10%[26],而这些信息对于深入了解交通事故发生的环境和原因具有重要的意义。由于文本信息中有的信息存在缺失[26],这会影响抽取出的数据质量,同时给进一步的数据挖掘分析带来了困难,并影响分析结果。此外,由于文本信息结构不统一、特征属性不易清楚定义和界定,在对相关信息抽取时会出现遗漏现象甚至影响用于进一步挖掘分析的数据质量和分析结果,因此对数据挖掘技术在道路交通安全评价中的应用还需要进一步的完善。
[1] Liu X,Li L,Cui H,et al.Evaluation of an emergency department-based injury surveillance project in China using WHO guidelines[J].InjuryPrevention,2009,15(2):105-110.
[2] Ma S,Li Q,Zhou M,et al.Road traffic injury in China:A review of national data sources[J].TrafficInjuryPrevention,2012,13(S1):57-63.
[3] Luoma J,Sivak M.Characteristics and availability of fatal road-crash databases in 20 countries worldwide[J].JournalofSafetyResearch,2007,38(3):323-327.
[4] Zheng Y,Wang J,Li X,et al.Driving risk assessment using cluster analysis based on naturalistic driving data[C]//2014IEEE17thInternationalConferenceonIntelligentTransportationSystems,October 8-11,2014,Qingdao,China.New York:IEEE,2014:2584-2589.
[5] 马社强,邵春福,左忠义,等.基于主成分和聚类分析的区域道路交通安全综合评价[J].武汉理工大学学报(交通科学与工程版),2010,34(6):1090-1094.
[6] 许洪国,刘兆惠,王超.道路安全等级定权聚类评价模型及因素辨析[J].交通运输工程学报,2007,7(2):94-98.
[7] Murat Y S,Sekerler A.Modelling traffic accident data by cluster analysis approach[J].TechnicalJournalofTurkishChamberofCivilEngineers,2009,20(3):4759-4777.
[8] 吕卫平,张晓梅.基于SPSS的聚类分析应用[J].福建电脑,2013,29(9):20-23.
[9] 陶刚,闫永刚,刘俊,等.基于主成分-聚类分析的事故热点识别方法研究[J].交通标准化,2014,42(23):22-26.
[10]李生权,罗庆,陈松灵,等.交通事故与高等级公路线形相关性研究[J].公路交通科技,2006(5):165-167.
[11]Zhu H,Zhang R H,Fan L J.Correlation analysis between transportation infrastructure and traffic accidents based on fuzzy evaluation[C]//15thCOTAInternationalConferenceofTransportationProfessionals,July 24-27,2015,Beijing,China.Reston,VA:American Society of Civil Engineers,2015:2926-2934.
[12]国家统计局.东西中部和东北地区划分方法[EB/OL].(2011-06-13).http://www.stats.gov.cn/ztjc/zthd/sjtjr/dejtjkfr/tjkp/201106/t20110613_71947.htm.
[13]中华人民共和国年鉴.地形[EB/OL].[2017-09-02].http://www.gov.cn/test/2005-06/24/content_17362.htm.
[14]中华人民共和国国家统计局.2010年第六次全国人口普查主要数据公报[R].北京:中华人民共和国国家统计局,2011.
[15]国家安全生产监督管理总局.事故查询系统[DB/OL].[2017-09-02].http://media.chinasafety.gov.cn:8090/iSystem/shigumain.jsp.
[16]Milton J C,Shankar V N,Mannering F L.Highway accident severities and the mixed logit model:An exploratory empirical analysis[J].AccidentAnalysisandPrevention,2008,40(1):260-266.
[17]韩向方,李晓杰.道路交通事故分析及交通安全对策[J].中国地质大学学报(社会科学版),2013(S1):30-32.
[18]任英,彭红星.中国交通事故伤亡人数影响因素的实证分析[J].预测,2013,32(3):1-7.
[19]房曰荣,沈斐敏.道路交通事故发展趋势分析与预测[J].中国安全生产科学技术,2012,8(3):141-146.
[20]徐鑫.我国道路交通事故规律特点及预防对策分析[J].中国安全科学学报,2013,23(11):120-125.
[21]龙科军,刘勇.基于贝叶斯网的交通事故机理分析[J].安全与环境学报,2010,10(1):150-154.
[22]赵学刚,魏朗.道路条件安全性分析[J].安全与环境学报,2008,8(3):140-144.
[23]柳坐宫,钱勇生,曾俊伟.不同道路特大交通事故特征分析及预防对策研究[J].中国公共安全(学术版),2015(3):71-75.
[24]孙平,宋瑞,王海霞.我国道路交通事故成因分析及预防对策[J].安全与环境工程,2007,14(2):97-100.
[25]Depaire B,Wets G,Vanhoof K.Traffic accident segmentation by means of latent class clustering[J].AccidentAnalysisandPrevention,2008,40(4):1257-1266.
[26]张坤,梅诗冬,景国勋,等.道路交通事故信息文本预处理技术研究与实践[J].安全与环境工程,2017,24(4):112-116.