张兴强,刘 雪,朱艺焱,宋勇刚,王 欣,王学媛
(北京交通大学a.城市交通复杂系统理论与技术教育部重点实验室;b.综合交通运输大数据应用技术交通运输行业重点实验室,北京100044)
城市道路交通事故一方面造成了人员伤亡和财产损失,另一方面也造成交通拥堵等损害后果.李雪等[1]基于交通安全因素分析,采用交通综合死亡率、车速差和路面平整度,建立云模型评价方法以界定道路安全等级;H.A.S.Sandhu等[2]根据死亡、重伤、轻伤和财产损失数据建立事故严重度模型,运用GIS进行可视化,采用核密度估计法鉴别事故黑点;Dereli等[3]结合GIS的空间统计,对比泊松回归、负二项回归和经验贝叶斯法,提出经验贝叶斯方法更适于事故黑点鉴别.Park S.等[4]为提高交通事故预测的准确性,采用Hadoop处理大流量数据,提出基于MapReduce的不平衡数据分类的数据挖掘过程;Hashmienejad S.H.A.等[5]结合用户偏好,提出一种预测交通事故严重程度的多目标遗传算法(NSGA-II),从支持度、置信度和准确性等指标的评估结果发现其更优于ANN,SVM和常规DT等分类方法.但现有的地点交通安全评价没有考虑城市交通事故会对交通产生影响的特点,同时较少利用互联网数据的海量性、实时性来提高分析的准确性.因此本文基于互联网文本事故数据结构化的基础上,对事故属性进行文本聚类,进行事故交通影响等级划分.从事故频率、后果损失、交通影响建立的城市道路等效事故模型,该模型通过交通影响的等效损失工日数标定模型参数.建立了累计频率曲线和K-means聚类组合模型,可以从事故易发位置、事故实际发生的次数、事故严重度、事故交通影响程度等多角度对城市道路地点安全度进行分析.
资源描述框架RDF是由W3C组织提出的为基于语义网的各种Web应用提供信息描述规范.1条RDF由主语、谓语和宾语构成,即Resource=〈Subject,Predicate,Object〉.主语常用统一资源标识符表示网络上的某个实体;谓语表示实体的某一属性类型;宾语表示对应的属性值,常用URL、字面值如字符串或数字进行表示.图1为互联网事故数据的RDF示例.
图1 互联网事故数据RDF示例Fig.1 RDF example of internet accident data
结合图1,定义互联网数据事故属性为
式中:DatFrm为互联网事故数据形式,本文采用文本数据;AccFreq为绝对事故次数(次);AccTime为事故发生时间;AccLoc为事故发生位置,如xx桥xx方向/xx路xx方向xx公里处;AccImpc为事故交通影响的文本关键词描述;OcpLane为事故占用车道的位置及数量;AccDam为事故损害后果的文本描述;RdTyp为道路类型,如快速路、非快速路;AccTyp为事故类型;AccH为事故处理情况,包括未处理、正在处理、处理完毕等.
事故属性中对地点交通产生影响的变量主要包括AccTime、OpcLane、RdTyp、AccH、AccImpc等,因此事故交通影响等级可表示为
城市交通事故的发生,一方面造成了如人员伤亡等直接损失,同时也造成大量交通延误等间接损失.因此地点等效事故频次是受事故发生次数AccFreq、事故交通影响I(AccLoc)、事故的损害后果AccDam影响,可以表示为
根据互联网交通影响文本描述的模糊性,本文建立了基于模糊和系统聚类法的交通影响等级I(AccLoc),计算AccFreq词频和权重,以模糊聚类原始数据矩阵储存交通影响频数.
式中:xij为第i个交通影响关键词xi在第j年中出现的频数,i=1,2,…,n;j=1,2,…,m.
采用极差标准化变换进行数值行标准化,数值区间在(0,1)之间,标准差为1.
采用欧几里得距离,界定类与类之间的距离为
计算新类Gr与其他类Gt间的距离为
依次得Di(i=1,2,…,(n-k)),从而聚为K类交通影响G(α α=1,2,…,K).
当交通影响文本描述AccImpc不明确时,事故交通影响主要受事故发生时间AccTime、事故占道OcpLane影响,则交通影响等级的判别规则为
由式(3),地点等效事故次数模型为
式中:Nri(i=1,2,3)分别为r事故地点的事故次数NAccFreq、损害后果的等效事故次数NAccDam、交通影响的等效事故次数NI(Acc)(次);n为第r个地点的事故次数;L为事故交通影响等级;α1,α2分别为受伤、死亡事故的权重系数;Prj,Qrj分别为第r个地点的第j次事故受伤、死亡数(人);Arjk为第r个地点的第j次事故产生第k级交通影响对应的单次损失时间(h),k=1,2,…,m;Crjl为第r个地点的第j次事故占用l条车道损失的通行能力(pcu/h);l为占用车道数;T为事故持续时间(h);S为每辆车的载客人数(人);t为单日工作时间(h);D为死亡损失工作日(天).
本文建立了基于累计频率曲线、K-means聚类的城市快速路地点安全组合分析方法,从城市快速路事故发生频率及事故的交通影响及损失后果对城市快速路地点安全进行分析.
以F(Nr)为横坐标,以f(F(Nr))为纵坐标,绘制累计频率曲线图,将事故累计频率大于80%~95%的b个地点选定为事故多发地点.以数据矩阵形式储存地点r(r=1,2,…,b)所发生的事故损害后果等效次数Ni2和交通影响等效次数Ni3.将r个地点设置为K个类别,选取K个初始聚类中心,划分(α=1,2,…,K)类.
以北京市快速路为研究对象,利用Python中的Spyder编写网络爬虫程序,从交通信息服务平台、交通信息中心、微博和新闻媒体网站等挖掘出2012—2017年6 393组交通事故属性文本数据,其交通影响关键词分为8类:①行驶缓慢,②绕行,③影响后车通行,④拥堵,⑤车流量大,⑥排队,⑦行驶不畅、⑧不完备信息.对其进行词频和权重统计,得到各类交通影响关键词频数,如表1所示.
表1 各类交通影响关键词频数Table 1 Frequency of various traffic impact keywords
交通影响关键词聚类树状图如图2所示.由图2可知事故交通影响分为4类:G1(8,即不完备信息),G2(1,即行驶缓慢)、G3(5、6,即影响后车通行、行驶不畅)、G4(2、3、7、4,即绕行、排队、车流量大、拥堵).根据我国LOS水平的划分,本文将城市道路交通事故发生后的等效交通状态分为L1影响不大、L2行驶缓慢、L3拥堵、L4严重拥堵4个等级.对于G1,根据式(9)采用事故发生时间AccTime、事故占道情况OcpLane来判断事故对交通影响的类别,如式(14)所示.
图2 聚类树状图Fig.2 Clustering tree graph
(1)模型参数标定.
①事故损害后果权重α1、α2:根据我国道路交通造成的死伤,以及对社会个人造成的影响大小,取[7]α1=0.5,α2=1.
②单次损失时间Arjk:采用调查问卷方式确定单次损失时间,调查结果如图3所示.
根据图3问卷结果,严重拥堵等级一般延误时间为1 h,拥堵延误时间为45 min,行驶缓慢延误时间为20 min,影响不大延误时间为10 min.
③事故持续时间T:根据北京122报警系统中交警记录的事故持续时间[8],界定事故持续时间为30 min.
④车辆载客数确定S:根据北京市车辆组成比例(小车88.22%,客车11.78%)[9],界定载客数量为4人.
⑤损失通行能力Crjl:通过VISSIM仿真界定交通事故导致的道路通行能力的损失为Caccident1=0.4C,Caccident2=0.7C.其中Caccident1、Caccident2分别表示交通事故发生占用道路1条和2条车道的损失通行能力.
⑥死亡损失工作日D:根据我国工伤事故分类标准(GB6441—86)[10],界定死亡损失工日数为6 000天.
图3 延误时间问卷结果Fig.3 Traffic delay questionnaire results
(2)等效事故次数.
对计算所得的北京六环内城市道路交通事故等效次数进行分组,统计事故地点结果如图4所示.
图4 北京市六环内交通事故地点Fig.4 Traffic accident locations within Beijing six ring
统计发生等效事故次数的地点频率,绘制累计频率曲线图,如图5所示.根据北京交通工程研究所[11]将道路黑点定义为5年发生50起以上交通事故的路口(段),图5中事故数为50时,其累计频率约为86%,以此为判定事故多发点的判定标准.这些地点一共发生3 614起交通事故,占全部事故的57%,其具体事故地点分布及事故次数总占比如图6所示.
图5 等效事故次数累计频率曲线Fig.5 Cumulative frequency curve of equivalent accident
图6 北京六环内交通事故多发位置Fig.6 Traffic accident-prone locations within Beijing sixth ring
根据损害后果和事故交通影响等效事故次数,采用K-means聚类法将北京市事故多发位置的事故属性进行聚类,聚类结果如表2所示.北京市事故多发位置可分为6类,每一类分别对应地点个数为17、12、2、4、7、3.在北京市事故多发地点中,事故交通影响与事故损害后果基本上呈现正相关,即损害后果小的事故地点,其事故交通影响也小(类别1和2),这些地点占总事故易发地点的64%.事故损害后果大的事故地点,其事故交通影响也大,这些地点占总事故易发地点的29%(类别3、4、5).但也有3个事故地点,其事故后果小但其交通影响大.
表2 北京市事故易发位置聚类结果Table 2 Clustering results of accident-prone locations in Beijing
各类事故易发地点具有如下特点:
(1)第1、2类事故易发位置一般发生在快速路路段、快速路与其他等级道路的立体交叉范围内,占这两类地点总数的79%,发生在高峰段的事故占64%,车辆运行速度慢,事故类型多为追尾和刮蹭,分别占46%和18%.
(2)第3、4、5类事故易发位置一般都位于快速路与快速路的立体交叉范围内,这些地方一般交通量大,如四惠桥、健翔桥、国贸桥等;周边有交通枢纽或吸引交通的建筑物,如国贸桥位于CBD中心、六里桥附近有客运主枢纽、北京西站位于莲花池东路等;立体交叉形式复杂,如沙窝南桥、西直门桥等;货运车辆多,如新发地桥.
(3)第6类事故易发位置数为3个,其位置为快速路与快速路的立体交叉附近、北京CBD中心,如上清桥、肖家河桥和京广桥,这些地点发生的交通事故虽然损害后果较小,但其交通影响却很大,这些地点日常交通量大,为北京市经常拥堵的地点.
(1)基于RDF框架,构建城市道路交通事故属性模型,并对事故地点交通影响和地点等效事故频次的变量进行了界定.采用模糊系统聚类法对事故交通影响文本关键词进行聚类,划分了严重拥堵、拥堵、行驶缓慢和影响不大等4个交通影响等级.
(2)根据城市道路的特点,构建考虑了事故交通影响的等效事故次数模型,该模型考虑了事故交通影响对应的单次损失时间、车道损失的通行能力、事故持续时间等因素,以死亡损失工作日数进行事故次数的等效,并对其进行了参数标定.
(3)建立了基于等效事故数的城市快速路地点安全评价方法,该方法采用累计频率曲线法进行事故易发地点鉴别,K-means聚类对事故易发地点的事故损害后果和交通影响进行聚类,分析结果表明,北京市快速路事故易发位置可分为6类,事故交通影响与事故损害后果基本正相关.