典型道路交通事故致因关联规则挖掘研究

2021-03-24 13:05陈彬于鹏程张奇
汽车与安全 2021年12期
关键词:Apriori算法关联规则

陈彬 于鹏程 张奇

摘 要:道路交通事故总量居高不下,严重威胁百姓的生命财产安全。本文通过Apriori算法对高速公路和城市道路两种典型交通环境下的交通事故致因进行关联规则挖掘,用以发现事故致因间的关联关系,从而可对道路交通事故防控起到一定的指导作用。

关键词:事故致因;关联规则;Apriori算法

中央级公益性科研院所基本科研业务费专项资金资助项目:基于道路交通事故再现的风险意识评估与提升技术研究(111041000000180001201101)

根据公安部交通管理局发布数据显示,自2018年全国接报道路交通事故起数同比上升21.8%后,基本维持稳态波动。道路交通事故的发生是由涉及到人员因素、车辆因素和交通环境因素等多方面客观和主观因素导致,传统的道路交通事故分析已不能满足事故防控需求。因此,为了切实找到事故发生的客观规律,需要通过关联规则分析对事故发生的影响因素进行耦合分析[1],寻找其潜在的关联规则,探寻事故发生的内在规律,从而对实现事故“减量控大”[2],指导各地制定有针对性措施提供有益借鉴。

1关联规则

挖掘关联规则[3]就是寻找多要素间的频繁项集合。为了量化表现项集间的关系,需要使用到两个度量值:支持度(support)和可信度(confidence)。

其中,Support(X)表示X项目的支持度,number(X)表示X项集的频数,number(N)表示数据集总项集的频数。公式表示为该项集记录占数据集总记录的比例。而“最小支持度”则是根据经验预设定的一个阈值。

此外,针对具体问题具体分析,有学者在选取最小支持度和最小可信度时,不采用设置阈值做对比的方法,而是直接将计算结果的前百分之N(N一般选用20)作为选取结果。寻找频繁项集,就是筛选出达到已设定的最小支持度的项集。找出频繁项集,是挖掘关联规则的第一步,也是最重要的一步,然后再从频繁项集中,计算项集之间的可信度。只有支持度和可信度都得到之后,才能够挖掘出强关联规则,即支持度与可信度同时满足最小支持度与最小可信度的阈值设定,该关联规则就是强关联规则。

2 Apriori算法

Apriori算法[4]是通过遍历输入数据集,从单元素开始计算支持度,筛选出满足最小支持度的频繁一项集,再从这些频繁一项集中连接各个元素生成两个元素的候选二项集,计算支持度,筛选出频繁二项集,以此类推,直到不能生成新的频繁项集为止。自此,得到所有频繁项集,从频繁二项集开始计算可信度,每个频繁项集间的所有元素都可互相计算可信度数值。由于所有频繁项集都是满足最小支持度阈值的,所以此时仅考虑并筛选出满足最小可信度阈值的关联关系,即为强关联规则。

3实验分析

3.1 实验数据和关联属性

实验分析使用道路交通事故抽样数据,经数据处理后,发现有16项事故影响属性可能与事故发生存在强关联关系,如表1所示。

3.2 实验条件和实验结果

本文选取了高速公路和城市道路[5]两种交通场景进行关联性分析,为了保证实验结果不遗漏有效信息,实验设置上相对选取了较小的最小支持度(min_Sup)阈值和最小可信度(min_ Conf)阈值,且因为不同场景的数据采样量不同,所以参数设置上也有所差异。

3.2.1 高速公路场景

高速公路场景下,取最小支持度min_Sup= 90/N(高速公路),其中N(高速公路)为高速公路场景下数据采样量总量。取最小可信度min_Conf = 0.05。通过python编程,经Apriori算法计算,结果按照可信度由高到底,取前10条违法行为和事故形态间的强关联规则,如表2所示。

3.2.2 城市道路场景

城市道路场景下,取最小支持度min_Sup = 100/N(城市道路)、最小可信度min_Conf = 0.05。通过python编程,经Apriori算法计算,结果按照可信度由高到底,取前10条违法行为和事故形态间的强关联规则,如表3所示。

3.3 实验分析和总结

抛开数据样本本身的局限性来说,由两组实验的结果可见,高速公路和城市道路场景下的强关联规则既有相同性,也有差异性。

相同性在于在发生事故的前提下,发生“碰撞运动车辆”的事故形态的强度都很高,最高由“违法变更车道”的行为发生时,会有约90%的概率导致“碰撞運动车辆”的事故结果;最低由“违法上道路行驶”的行为发生,会有约11%的概率导致“碰撞运动车辆”的事故结果,可见在这两种场景下,违法行为都很容易导致车辆间的碰撞事故。

差异性主要体现在以下几个方面:

(1)高速公路场景下的强关联规则在强度上明显弱于城市道路场景。在城市道路场景中,前10项关联规则中最高关联强度可达约90%,最低也在57%左右,而在高速公路场景,最高约60%,最低则只有11%左右;

(2)不同场景下的强关联规则不同。在高速公路场景下,强关联规则的违法行为主要集中在“疲劳驾驶”“违法上道路行驶”和“超速行驶”上,而在城市道路场景,强关联规则的违法行为分布均匀;在城市道路场景下,强关联规则的事故形态主要集中在“碰撞运动车辆”,而在高速公路场景,主要集中在“追尾碰撞”和“碰撞运动车辆”。

(3)不同场景下相同违法行为导致相同事故形态的关联度差别大。“违法上道路行驶→碰撞运动车辆”的关联,在高速公路场景的关联度只有11%左右,而在城市道路场景约58%。

(4)不同场景下相同违法行为导致不同事故形态比例差别也很大。在城市道路场景中,“违法上道路行驶”只与“碰撞运动车辆”具有强关联,而在高速公路场景中,其强关联要素还包括“刮撞行人”和“追尾碰撞”。

4结束语

使用Apriori算法对事故数据进行关联规则挖掘分析,可以准确找到各属性间的关联关系,对事故防控可以一定的指导作用。下步除了将关联规则分析由违法行为和事故形态向多维度挖掘外,还将进一步拓展交通场景,最终形成事故致因的关联规则库,为道路交通事故“减量控大”提供支撑。

参考文献

[1]马庚华,郑长江,邓评心,李锐.关联规则挖掘在道路交通事故分析中的应用[J].西华大学学报(自然科学版),2019,38(03):93-97+112.

[2]交宣.公安部交管局:深入推进道路交通事故预防“减量控大”工作 全力确保道路交通安全形势稳定[J].汽车与安全,2020(10):9-11.

[3]王冬秀,赖先涛,李辉,苏宇.道路交通事故中关联规则挖掘研究[J].计算机与现代化,2012(08):206-208+217.

[4]李英,汤庸.基于关联规则与相似度的数据挖掘算法研究[J].华南师范大学学报(自然科学版),2021,53(05):121-127.

[5]城市道路交通事故特点分析[J].汽车与安全,2019(07):13-14+2.

猜你喜欢
Apriori算法关联规则
基于Hadoop平台的并行DHP数据分析方法
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于云平台MapReduce的Apriori算法研究
基于关联规则和时间阈值算法的5G基站部署研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于RFID的汽车零件销售策略支持模型
关联规则在高校评教系统中的应用