摘 要:煤矿企业安全问题一直以来都是国家煤矿战略要点之一。由于在各种隐患过程中产生的数据复杂繁多,而企业对这些数据的管理又缺乏系统性、科学性,文章利用数据挖掘算法研究煤矿安全隐患问题,利用数据库技术导入数据,最终采用基于Apriori算法的数据挖掘技术进行挖掘得出关联规则。实验结果表明,通过该方法得出的关联关系可作为煤矿企业安全管理的科学依据,具有重要的参考价值。
关键词:数据挖掘算法;数据库;安全隐患
中图分类号:TP391 文献标识码:A文章编号:2096-4706(2022)04-0141-04
Research and Application Analysis of Coal Mine Hidden Danger Warning Based on Data Mining Algorithm
LIN Xujie
(College of Computer Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China)
Abstract: The safety of coal mining enterprises has always been one of the key points of national coal mining strategy. Due to the complexity of data generated in the process of various hidden dangers, and the management of these data by enterprises is lack of systematicness and scientificity, this paper uses data mining algorithm to study the hidden dangers of coal mine, uses database technology to import data, and finally uses data mining technology based on Apriori algorithm to mine association rules. The experimental results show that the correlation obtained by this method can be used as a scientific basis for safety management of coal mining enterprises and has important reference value.
Keywords: data mining algorithm; database; hidden danger
0 引 言
在新時代的中国工业中,多数工业都与人工智能、云计算等高科技相关联,将这些高科技运用到工业当中,既可以加快工业发展的速度,又能够在一定程度上保证工人的人身安全。为顺应时代发展的要求,煤矿产业必须要借助于高科技技术,向智能化方向发展。
众所周知,对煤矿安全隐患的排查是煤矿管理工作的重中之重,通过对煤矿进行大力度的检查与评估,发现各种煤矿安全隐患比比皆是。
近些年,大数据技术在智能矿山领域的应用越来越广,通过各类数据挖掘算法对煤矿安全管理进行深度挖掘[1],从中获取有价值的信息,这对煤矿安全隐患的排查与发展起到至关重要的作用。然而,煤矿安全管理系统的数据庞大繁杂,很难从中快速找出有价值的数据,因此需要对海量数据进行降维处理[2],而后通过相应的算法运算得出结论。
国内有很多学者对煤矿安全领域做了大量的研究,姜琳等利用云计算技术设计煤矿监察管理系统的架构,采用Hadoop技术构建模型,为煤矿安全设备的研发提供指导性思路[3]。吴群英等提出标准化、协同化、一体化的智慧矿山理念,并且将智能控制、三维可视化等技术应用于智慧矿山中,从而加快我国采矿业的发展。高士岗等提出煤矿智能一体化概念,将供电、排水等技术应用于同一个平台当中,实现智慧矿山的一体化管理。尹志民等基于数据挖掘算法设计了隐患数据模型,对数据进行分析,获得隐患数据之间的关联性,为实现煤矿业的安全与发展提供参考。钱旭等利用Web技术对煤矿数据源进行挖掘,建立智能化的Web站点,其对矿山的良性发展具有重要的指导意义。安全系统是煤矿安全生产的重要支撑,当前安全系统的技术不够先进、功能不够完善,需要更多的科研人员和工作人员共同努力,创造出能够将风险降至最低的安全生产环境。
综上,文章利用数据挖掘中的Apriori算法对煤矿安全生产中的隐患数据进行降维,挖掘其中的关联关系,从而预测风险概率,最大限度地降低煤矿事故的发生[4]。
1 数据挖掘
数据挖掘是指从大量数据中发现隐含的信息和知识的过程,通常需要对数据进行清洗、选择、集成、转换等[5]。
关联规则是数据挖掘中一个重要的课题,主要是指从大量数据中发现其潜在的关系,从而解决一些问题[6]。本文采用Apriori算法对数据库中庞大且复杂的数据进行深度挖掘,以获取有价值的数据。
1.1 Apriori算法
Apriori算法最初用于解决“啤酒与尿布”问题,学者们发现买啤酒的人也会买尿布。我们通过Apriori算法中的关联关系得知,Apriori算法是经典的用于挖掘频繁项集和关联规则的数据挖掘算法[7]。
1.2 Apriori算法计算过程
该算法一般采用支持度(Support)和置信度(Confidence)作为频繁项集的标准。
支持度为:
(1)
置信度为:
(2)
频繁项集是指项集的频率大于等于最小支持度[8]。
强关联规则是指同时满足最小支持度和最小置信度。例如B—A的强关联规则为:
(3)
Apriori算法的核心思想:递归的扫描事务数据库,直至生产全部频繁项集,找到满足条件的关联规则。其大致思路为:
(1)扫描数据库,累积各个项的计数(称为集合项C1),依据提前设定的最小支持度找出频繁1项集的集合[9],称为L1。
(2)将L1作为项集和C2,扫描所有事务,基于最小支持度删除不必要的项集,剩下的则为频繁项集2,称为L2[10]。
(3)依此类推,将L(k-1)作为项集和Ck,扫描所有事务,基于最小支持度删除不必要的项集,剩下的则为频繁项集K[11],称为Lk。
2 煤矿事故分析
2.1 煤矿事故统计分析
根据中国煤炭统计数据,提取了我国2011—2020年近十年的煤矿安全事故表,对发生事故起数、死亡人数和百万吨死亡率进行了统计和分析,如表1所示。
从表1和图1可以看出,近十年来全国煤矿安全事故总量持续下降,可以得出国家就煤矿安全生产的合理控制取得了一定成效,但煤矿安全生产任重而道远,仍需加大力度整改[12]。
2.2 煤矿事故原因讨论
通过对近十年全国煤矿安全生产事故的深度了解与分析,发现人的失误行为是引起煤矿事故的主要原因。在煤矿工作的人员由于疲劳工作,未能机警及时发现危险信息(或者是无视危险信息),对一些设备使用不当,如此等等,煤矿工人这种消极怠工的状态会间接导致一些不必要的事故发生。
除人为因素之外,物的因素也概莫能外,主要表现为传感器或通风设备等发生故障,一些附属设备功能不完善,以及工作场所有一些易燃物没有得到及时有效的处置等。
综上,对于煤矿安全生产必须增强安全防范意识,如果在各个测点能够及时发现某设备存在问题并予以解决,则会在很大程度上减少煤矿事故发生的概率。
3 数据准备
3.1 数据获取
本文选取2021年4月某煤矿的安全隐患数据作为研究对象,对数据进行降维处理后得到有效的安全隐患数据(包括管道瓦斯、环境瓦斯、粉尘、管道压力、馈电器设备异常等隐患属性),该煤矿部分原始数据如表2所示。
3.2 数据预处理
由于原始数据庞大且复杂,需要對其进行降维处理,根据原始数据属性及其内容,将隐患数据用字母表示,以方便后续工作的开展,这样大大提高了算法效率。将一天二十四小时的工作时间分为三段:8点到16点为早班工作时间(Mo);16点到00点为午班工作时间(Af);00点到8点为夜班工作时间(Ni)。对于测点位置,这里需要对其进行合并,比如将10101采面T1、10101采面T2、10101采面T3合并为10101。根据这种合并方法,对其他测点位置也进行相应的合并,将10101称为A,10103称为B,10105称为C,1025称为D,106称为E,风井回风称为F,高负压管道称为G,煤仓口称为H,生存仓称为I,一采区称为J,永久避难硐室称为K,运输大巷称为L,1026称为Y。此外,对异常数据进行分析并用字母标记,管道瓦斯异常称为M,环境瓦斯异常称为N,馈电器异常称为O,局部通风机异常称为P,风速异常称为Q,断电器断电称为R,粉尘异常称为S,机轨异常称为T,管道压力异常称为U。对隐患数据进行分析并对其进行降维优化,如表3所示。
3.3 Apriori算法挖掘过程及其结果分析
利用Java语言基于Apriori算法对数据进行计算,连接预处理好的数据,通过式(1)和式(2)得出关联规则,再根据式(3)的强关联规则得出结果,这里会出现一个条件得到的结果,也会出现多个条件得到的结果,我们将支持度和置信度分别设置为0.1和0.2,下面先来分析由一个条件得到的关联规则,如表4所示。
由表4可以得出,通过条件得到的结果,比如序号4,C推出M,即测点10105工作面出现管道瓦斯异常的概率偏大,因此着重关注测点10105工作面,并且能够及时处理该工作面。再比如序号7,O推出J,即馈电器异常多半出现在测点一采区,因此加强该测点的监管工作,减少风险发生的概率,通过对置信度的值分析关系,对安全生产有着重要的作用。
以上为单个条件所得出的结论,接下来再来观察两个及以上条件所得出的结论,并对其进行分析,由于两个及以上条件所得出结论的置信度更高,关联性更强,因此,这里应更多关注多个条件所得出的结论,如表5所示为部分两个及以上条件所得出结论的关联关系。
从表5中可以看出,在由多个条件得出结论的时候置信度随之增加,效果也会更加明显,更容易分析其内在关联性。由序号3可知,(B,Mo)推出U,其置信度为1,即测点10103工作面在早班的时候更容易出现管道压力异常,因此着重在该工作面并且在早班的时候检查异常,这样可以及早发现异常,减少事故发生的风险。再比如序号8,(F,Af)推出M,其置信度为1.0,即在午班的时候,测点风井回风工作面更容易出现管道瓦斯异常,需要对其进行重点检查,提前做好防范。依此类推,对于置信度高的关联关系进行分析,并且给出防范事故发生的建议,达到预防煤矿安全事故发生的目的[13]。
4 结 论
针对当前煤矿行业所面临的问题,科研工作者和煤矿工作人员为实现产量最大化、风险最小化而做出了不懈努力,文章利用数据挖掘中的Apriori算法,对煤矿所记录的原始数据进行降维处理,继而进行分析,得出一定的关联关系,从而工作人员可以扎实有效地做好煤矿安全防控工作,总结为以下几点:
(1)利用基于数据挖掘中的Apriori算法,对煤矿数据进行分析得出关联规则,发现其潜在的关系。
(2)经分析发现由多条件得出的结论置信度更高,合理性更高,并且也更可靠,将所得出的结论应用于煤矿安全生产中既能提高生产效能,又能减少煤矿事故发生的概率。
(3)Apriori算法具有空间复杂度小、具有两个先验性质等优点,当然也存在因扫描数据库次数多而产生大量候选项集等缺点(即存在算法复杂度高的问题),因此还需要进一步优化算法,切实有效地得出关联规则,这是我们未来研究工作的方向。
参考文献:
[1] 张丁.基于煤矿预警监测的数据挖掘算法应用研究 [J].山西电子技术,2019(6):85-87.
[2] 孙国营.基于大数据的煤矿安全隐患数据挖掘分析 [J].福建电脑,2018,34(12):38+68.
[3] 杨建全,李筱,李雅斌.基于大数据的瓦斯报警甄别研究 [J].测控技术,2019,38(6):82-85.
[4] 姜琳,孙超,付恩三.基于云计算的矿用设备监察管理系统设计 [J].中国煤炭,2021,47(3):87-95.
[5] 黄玉鑫,闫振国,范京道,等.基于Apriori算法的煤矿双重预防信息系统 [J].工矿自动化,2020,46(10):92-98+118.
[6] 高腾飞,门凤臣,刘宝军,等.基于数据挖掘的火电企业安全生产和技术监督评价系统 [J].热力发电,2021,50(9):49-54.
[7] 钱宇虹.数据挖掘算法在瓦斯安全预测中的应用 [J].煤炭技术,2018,37(5):207-209.
[8] 王向前,朱佳,孟祥瑞,等.一种基于本体与关联规则的煤矿安全监控预警模型 [J].矿业安全与环保,2019,46(3):27-31.
[9] 聂盼盼,李英海,王永强,等.基于Apriori算法的水库优化调度规则提取方法[J].水利水电技术(中英文):2121,52(10):164-171.
[10] 高榮翔.煤矿安全监控数据智能分析与处理技术研究 [D].青岛:山东科技大学,2018.
[11] 高晓旭,申阳阳,门鸿.煤矿双重预防机制信息系统研究与应用 [J].煤炭科学技术,2019,47(5):156-161.
[12] 杨康,高晶.数据库的安全保护研究 [J].电子世界,2018(1):29-30.
[13] 吴永平.大数据技术在油田勘探开发生产中的应用 [J].现代信息科技,2018,2(12):122-123+126.
作者简介:林旭杰(1996—),男,汉族,安徽明光人,硕士研究生在读,研究方向:数据挖掘。