基于改进的Apriori算法的铁路事故风险源关联分析方法

2023-10-26 08:30:01王宁昌锡铭杨欣吴建军

山东科学 2023年5期

王宁昌锡铭杨欣吴建军

摘要：为了预防铁路事故的发生，需要对造成铁路事故的风险源因素进行探索和分析，揭示铁路事故的发生规律。提出利用改进的Apriori算法，对铁路事故与风险源进行数据挖掘分析。考虑铁路事故伤亡的严重程度，提出新的支持度、置信度指标计算方法，对铁路事故因素进行加权量化。同时添加时间约束，探索不同时间的铁路事故风险源关联规则。利用英国铁路事故数据，挖掘铁路事故与风险源之间的关联规则，针对实际案例制定切实有效的预防措施。结果表明，利用改进的Apriori算法能够得到更多的铁路事故与风险源之间的关联规则，对于预防铁路事故的发生具有重要的作用。

关键词：风险源;铁路事故;关联规则;Apriori算法;数据挖掘分析

中图分类号：U298.5 文献标志码：A 文章编号：1002-4026（2023）05-0067-08

Association analysis method for railway accident hazards based on the improved Apriori algorithm

WANG Ning，CHANG Ximing*，YANG Xin，WU Jianjun

（State Key Laboratory of Rail Traffic Control and Safety， Beijing Jiaotong University， Beijing 100044）

Abstract∶The causes of railway accidents are difficult to determine as several hazards can lead to accidents. To prevent the occurrence of railway accidents， the hazards responsible for railway accidents should be analyzed， and the occurrence rules of previous railway accidents should be revealed. In this study，data mining analysis on railway accidents and hazards was conducted using the improved Apriori algorithm.Considering the severity of accident casualties， a new calculation method for support and confidence indicators was proposed to weigh and quantify railway accident factors.Furthermore， time constraints were added to explore association rules of hazards with corresponding railway accidents at different times. Using the actual UK railway accident data， the association rules between railway accidents and hazards were discovered， and effective preventive measures were formulated for actual cases. Results show that the improved Apriori algorithm can explore more association rules between railway accidents and hazards， which can play an important role in preventing railway accidents.

Key words∶hazards;railway accidents;association rule;Apriori algorithm; data mining analysis

随着铁路运营里程和铁路运输量的增加，与铁路有关的事故屡屡发生。例如，2011 年7月23日，D301次列车与D3115次列车追尾事故，造成40人死亡、172人受伤；2020年3月30日，T179次列车撞上塌方体，导致空调发电车起火，部分车厢脱轨倾覆事故，导致128人伤亡；2021年6月4日，K596次列车与作业人员相撞，造成9人死亡[1]。铁路运输安全风险时刻在威胁着铁路运输的健康发展和人员的生命安全，造成事故发生的风险源因素十分复杂。因此，有必要对铁路事故中的风险源因素进行分析，挖掘风险源与事故之间隐含的关联关系，以便认识铁路事故发生的规律，进一步保障铁路运输安全。

目前广泛使用的关联规则算法为Apriori關联规则算法，是典型的数据挖掘算法。利用关联规则算法对各领域的分析研究已相对成熟。在医学数据挖掘领域，张萌等[2]使用Apriori算法对病人的就诊资料进行了挖掘，得到了病人的病症和疾病之间的关联规则。降惠等[3]利用Apriori关联规则算法探讨了长治市手足口病与气象因素的关联关系。陈治等[4]利用Apriori关联规则算法对宫颈癌样本数据集进行了分析，得到了不同因素对宫颈癌的影响情况。刘媛等[5]利用了关联规则和网络药理学方法对治疗消化性溃疡的用药规律进行了探索，对其作用机制有了更深一步的了解和认识。在工业智能化生产领域，何林等[6]利用k均值聚类算法（k-means）和改进的Apriori关联规则算法对工业大数据进行挖掘分析，得到了有利于企业生产调整智能化的关联规则并最大化利用了资源。在海洋灾害预警数据挖掘方面，程岩等[7]采用改进的Apriori模型形成了海洋预警决策的支持库，预测风暴潮水发生的可能性并预警海洋灾害。zaydln等[8]使用贝叶斯网络和关联规则挖掘方法分析了全长12 m及以上的土耳其渔船未报告的职业事故数据。Lan等[9]使用关联规则技术确定了与全损海事事故的发生和严重程度相关的模式，了解了全损事故的特点，制定针对性的预防措施。

在交通领域，刘文雅等[10]建立了考虑故障关联的改进的Apriori算法，得到的关联规则有助于地铁故障的影响分析。许未等[11]应用传统的Apriori算法，构建了铁路事故致因网络，探索了铁路事故致因因素的内在联系，这些研究在使用Apriori算法进行数据挖掘的过程中未将事故后果的严重程度进行考虑。因此在铁路事故预防领域相对应的研究仍存在不足之处。与铁路事故发生有关的风险源数据往往是大量的，利用改进的Apriori算法挖掘风险源因素与事故因素之间的关联关系，可以获得事故中的有用信息。本文提出了考虑事故危害加权的关联规则指标进行铁路事故风险源和事故的关联性分析，并在时间上进行约束，以期挖掘更多隐含铁路事故的关联规则，为铁路安全管理提供更加智能化与精细化的管理建议，预防铁路事故的发生。

1 事故风险源关联分析方法

1.1 传统的关联规则

当前各学者对于结构化的数据多有研究，提出卷积神经网络的二分类结构化非平衡数据分类算法、敏感属性识别与分级算法等[12-13]，探讨结构化数据的有效信息。但是对于非结构化数据，如铁路事故数据报告的研究并未深入。而Apriori算法作为经典的频繁项集挖掘算法，可以针对非结构化数据进行挖掘，从数量庞大的非结构化铁路事故数据中挖掘出频繁出现的风险源与事故的集合，并将挖掘到的隐含铁路事故的信息进行直观呈现。根据挖掘到的规则，可以关注到不同风险源与事故之间的关联关系，针对风险源关联规则进行防控，从而对铁路系统进行有效的安全管理。

在铁路事故数据集合中，将铁路事故的类型与造成铁路事故发生的事故风险源记作一个事务集合H，H={H1，H2，H3，…，Hn}，H中包含n个项，即所有风险源与铁路事故的数量总和。M、N均表示为非空项集，M?H，N?H。如果M中包含k个项，则M为k项集。记不同事务之间的关联规则为M?N，即表示项集M和项集N间的关联关系，此时M∩N=? 。

在关联规则挖掘中，常用支持度、置信度两个指标来对关联规则进行挖掘与衡量，分别对这两个指标进行定义。

（1）支持度指标

关联规则M?N的支持度表示的是M、N项集同时出现的概率，如式（1）所示：

式中，number（M，N）代表项集M、N同时出现的事务数量；number（A）代表事务数据库中所有事务的数量。

（2）置信度指标

关联规则M?N的置信度表示的是一个项集M出现以后，另一个项集N出现的概率，如式（2）所示：

式中，number（M）代表项集M出现的事务数量。

1.2 基于改进Apriori算法的关联规则

传统的关联规则在进行数据挖掘时，将事务中的项均视为同等重要。然而在铁路事故当中，不同的事故与风险源所造成的危害是不同的，利用传统的关联规则将风险源与事故数据一起进行数据挖掘是不严谨的。因此本研究提出了改进的支持度、置信度指标，采用加权的关联规则对铁路交通事故数据进行分析。对铁路事故进行加权，铁路事故加权指标的设定通过造成的铁路事故后果来进行设定。铁路事故后果通过事故造成的人员伤亡严重程度来衡量，伤亡严重程度通过表1所示的死亡和加权伤害来量化。

改进的支持度指标Imp-Sup（M?N）见式（3）：

改进的支持度指标表示M、N项集同时出现的概率。当项集M或项集N中出现铁路事故信息时对其进行加权计算，未出现铁路事故信息时保持原指标结果。式中，ω（M）为M项集的加权，ω（M，N）为ω（M）与ω（N）中权值较大者，B表示铁路事故数据。

置信度指标Imp-Conf（M?N）见式（4）：

改进的置信度指标表示项集M出现之后，另一个项集N出现的概率。当项集M或项集N中出现铁路事故信息时对其进行加权计算，未出现铁路事故信息时保持原指标结果。

传统的Apriori算法是挖掘数据关联规则的经典算法，其思路是对数据进行逐一层次的迭代，不断产生更高维度的频繁项集和强关联规则。本文在Apriori算法的基础上添加时间约束，从时间角度对关联规则进行划分，并利用改进的提升度和置信度指标来筛选的强关联规则，步骤如下：

步骤1 设定最小支持度、最小置信度指标的值，所设定的指标是后续产生频繁项集与强关联规则的基础。

步骤2 对整个铁路事故风险源数据的集合进行扫描。第一次扫描产生候选1项集，记W1。根据时间约束，将W1划分为日间和夜间数据集分别为Wd1和Wn1，根据步骤1设定的最小支持度指标的值，由候选1项集Wd1和Wn1生成频繁1项集Vd1和Vn1。

步骤3 由候选1项集Wd1和Wn1直接生成候选2项集Wd2和Wn2，再根据步骤1设定的最小支持度指标的值，生成频繁2项集Vd2和Vn2。

步骤4 不断重复步骤3，依次产生候选k项集和频繁k项集，直至无法产生新的候选k+1项集Wdk+1和Wnk+1时，得到了所探索数据集的全部频繁项集。

步骤5 根据步骤1设定的最小支持度、置信度指标，得到不同时间下，数据集合中风险源与铁路事故之间的强关联规则。

图1为改进的关联规则算法流程图。

2 铁路事故数据挖掘

本研究通过英国政府网站https：//www.gov.uk/raib-reports获取了2011—2020年共计10年的英国铁路事故数据报告176份，从每份事故报告中提取发生的事故类型和风险源。在研究中所用到的事故数据并未包括地铁事故和有轨电车事故。值得注意的是，在对事故类型进行统计时，存在一份事故报告中记录发生多种类型事故的情况，如在编号为R072011的事故报告中，记录表明先发生了失控事故再发生了脱轨事故，將这两种类型的事故都进行了统计。收集到发生的事故类型分别为碰撞、脱轨、失控、坠落、超速、拖拽、触电、未遂事故共计8种类型。各事故类型的分布情况如图2所示。

统计风险源为人员、设备、环境、管理4种类型，共计89种风险源。将风险源进行编号，89种风险源分别编号为H01～H89。其中H01～H34的风险源为人员类型风险源，H35～H55的风险源为设备类型风险源，H56～H70的风险源为环境类型风险源，H71～H89的风险源为管理类型风险源。由于篇幅限制，这里仅选取部分人员、设备、环境和管理类型风险源进行列举如表2所示。详细的各类风险源及描述详见OSID科学数据与内容附表。

铁路事故的后果通过在事故中造成的人员伤亡的严重程度来衡量，伤亡严重程度通过表1所示的死亡和加权伤害（fatalities and weighted injuries， FWI）来量化。通过计算，得到每种事故的危害，以此确定铁路事故的加权。表3为编号H90～H97的事故类型及危害后果量化值。

3 案例分析

根据上述实际铁路事故数据，采用改进的关联规则算法挖掘风险源之间、风险源与铁路事故之间的关联关系。铁路事故的发生频率较低，所造成的事故损失是巨大的，设定不同的最小支持度和最小置信度的指标组合进行实验，得到不同的关联规则数量，如图3所示。可以看出，改进后的关联规则在相同的最小支持度和最小置信度指标组合下，所得到的强关联规则数量更多，获取的有利于铁路事故防控的信息也更加充分。

在本文中，设定不同的指标组合，其得到包含铁路事故信息的关联规则均占比增加，如图4所示。其中，设定在日间的最小支持度为0.05，最小置信度为0.1，得到70条强关联规则。相较于未进行加权计算的关联规则，所获得强关联规则中包含铁路事故的关联规则占比由85.7%提升到了97.1%。设定在夜间的最小支持度为0.06，最小置信度为0.8，得到87条强关联规则。相较于未进行加权计算的关联规则，所获得强关联规则中包含铁路事故的关联规则占比由81.8%提升到了97.7%。在这两个时间段获取的包含更多铁路事故信息的关联规则占比均提高，得到的包含铁路事故与风险源之间关联关系的规则也更多，有利于进一步探索风险源与铁路事故之间的关联关系，有利于后续进行铁路事故的预防和控制。

在不同时间得到的部分强关联规则如表4所示。针对此类结果，可以提出具体的预防措施如下：（1）在日间往往由于人员的误判以及一些人员不遵守交通规则的行为导致碰撞事故的发生，需要进一步加强对行人、乘客、骑行者等人的规范和引导。（2）在夜间，失控事故的发生往往伴随着碰撞事故的发生，因此在发生失控事故时，需要注意对事故进行及时干预，防止碰撞事故的进一步发生。（3）在夜间，车辆、机械设备等操作员的违规操作或操作错误往往会使车辆或者设备不安全运行，从而导致碰撞事故的发生。因此需要重点加强铁路作业车辆、设备等人员的管理培训，预防事故的发生。（4）夜间列车司机也容易产生过大的压力或者作业疲劳分心，从而导致碰撞事故的发生，针对这一情况需要进一步合理安排司机作业时间，并在司机上岗前确认其身体状况，从而保障铁路列车的安全运行。

4 结语

本研究所提出的改进的Apriori算法根据不同的铁路事故造成的危害不同，在进行支持度与置信度指标计算时，考虑了事故的权重，挖掘到了包含更多铁路事故信息的关联规则。同时添加时间约束，包含铁路事故与风险源的强关联规则数量在不同时间维度下均有所提高。最后针对典型强关联规则提出具体的预防措施，有利于铁路的安全管理。

本文仍存在一些不足，需要在今后的工作中进一步研究和改进。可以考虑使用更加丰富且具有一致性的数据，便于关联规则的探索研究。也可以将风险源的重要性程度进行考虑，在进行支持度和置信度指标的计算过程中对风险源的重要性程度进行科学合理的加权量化分析，以便进一步探讨探讨风险源之间关联关系，为铁路安全管理提供更加切实有效的预防措施。

参考文献：

［1］国家铁路局.“6.4”兰新线K596次旅客列车与作业人员相撞铁路交通事故调查处理情况公告［EB/OL］. ［2022-08-10］. http：//www.nra.gov.cn/zzjg/jgj/lzgl/gglz/202107/t20210729_337941.shtml

[2]张萌，梁正，祝思清. 基于关联规则的数据挖掘在医疗诊断中的应用[J]. 山东科学， 2008， 21（1）： 80-82.

[3]降惠，尹振保，武丽娟，等. Apriori算法在手足口病与气象因素关系分析中的应用[J]. 智能计算机与应用， 2021， 11（7）： 124-128. DOI： 10.3969/j.issn.2095-2163.2021.07.023.

[4]陈治，吴娟娟. 基于关联规则的医疗数据挖掘研究[J]. 统计与决策， 2020， 36（6）： 174-177. DOI： 10.13546/j.cnki.tjyjc.2020.06.040.

[5]劉媛，孙辉，许苑南，等. 基于数据挖掘及网络药理学探讨中药治疗消化性溃疡的用药规律及作用机制[J]. 山东科学， 2022， 35（5）： 37-45. DOI： 10.3976/j.issn.1002-4026.2022.05.005.

[6]何林，刘宇红，张荣芬. 基于关联规则对工业铀测量数据挖掘分析研究[J]. 计算机技术与发展， 2022， 32（5）： 147-152. DOI： 10.3969/j.issn.1673-629X.2022.05.025.

[7]程岩，任国兴，杜立彬. 基于Apriori模型的海洋灾害预警数据挖掘技术[J]. 山东科学， 2009， 22（2）： 57-60.

［8］ZAYDIN E， FISKIN R， UGDD）]URLU ， et al. A hybrid model for marine accident analysis based on Bayesian Network （BN） and Association Rule Mining （ARM）［J］. Ocean Engineering， 2022， 247：110705. DOI： 10.1016/j.oceaneng.2022.110705.

［9］LAN H， MA X， MA L， et al. Pattern investigation of total loss maritime accidents based on association rule mining［J］. Reliability Engineering & SystemSafety， 2023， 229：108893. DOI： 10.1016/j.ress.2022.108893. [ZK）]

[10][ZK（#]刘文雅，徐永能. 基于改进Apriori算法的地铁故障关联规则挖掘[J]. 兵器装备工程学报， 2021， 42（12）：210-215. DOI： 10.11809/bqzbgcxb2021.12.033.

[11]许未，何世伟，刘朝辉，等. 基于关联规则的铁路事故致因网络构建与分析[J]. 铁道运输与经济， 2020， 42（11）： 72-79. DOI： 10.16668/j.cnki.issn.1003-1421.2020.11.13.

[12]徐红，矫桂娥，张文俊，等. 基于卷积神经网络的结构化非平衡数据分类算法[J]. 计算机工程， 2023， 49（2）： 81-89. DOI： 10.19678/j.issn.1000-3428.0063871.

[13]何文竹，彭长根，王毛妮，等. 面向结构化数据集的敏感属性识别与分级算法[J]. 计算机应用研究， 2020， 37（10）： 3077-3082. DOI： 10.19734/j.issn.1001-3695.2019.05.0187.