丁 振 ,张 驎
(1.华北科技学院 安全工程学院,北京 东燕郊 101601;2.国家安监总局培训中心,北京 100713)
数据挖掘技术在平煤四矿监测系统的应用研究
丁 振1,张 驎2
(1.华北科技学院 安全工程学院,北京 东燕郊 101601;2.国家安监总局培训中心,北京 100713)
系统介绍数据挖掘的概念、常用的挖掘工具和算法。运用R语言对“平煤四矿”矿井监测系统的数据进行深入挖掘和分析。对工作面环境参数进行关联规则分析,挖掘参数之间的强规则。对某特定工作面瓦斯浓度进行回归预测分析,确定主要影响因素。此外并对挖掘的结果进行专业分析,结合矿井实际情况提出意见和建议。进一步辅助矿井安全生产决策,提高矿井安全管理技术。
煤矿安全;数据挖掘;相关规则;回归分析
在国家的严格要求下,每对生产矿井必须装备可靠先进的监测系统,实时监测矿井生产情况,随之也就产生了大量的、丰富的监测数据,但对数据的利用大都停留在直观层面:绘制浓度曲线图、设置警报值、超限预警、查询等等,难免形成“数据丰富,知识匮乏”的尴尬局面。没有有效的深层次挖掘隐藏在数据中的模式和规则辅助安全监测,也就没有充分发挥监测系统的潜能。如何从海量的各种信息中迅速、准确地获取有用的、珍贵的知识,更好地服务于决策者,及时作出科学有效的生产决策?这是进一步提高矿井安全形势的重点,需要有一种基于计算机与信息技术的智能化知识获取工具,来提取埋藏在数据中的各类知识,数据挖掘技术就是解决这个问题的一种行之有效的工具[1]。
1.1 数据挖掘概念
数据挖掘(Data Mining)就是从大量的数据中获取有效的、潜在的、人们事先不清楚的知识和模式的过程。又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),是一种深层次的数据分析方法[2-3]。数据挖掘技术处理的原始数据是多种形式的,可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形图像数据等;也有的是数值型的,如瓦斯浓度、粉尘浓度、CO浓度等监测数据等。一般来说,数据挖掘是一个利用多种分析工具和算法在规模庞大的海量数据中建立模型,并从中分析数据之间的关联的过程,得到的挖掘结果用来辅助管理者做出决策[4-5]。
1.2 数据挖掘工具和方法
数据挖掘技术涉及数据库、统计学、人工智能、和机器学习等多个领域,用统计学手段揭示数据之间的客观联系,从中发现有趣的模式和规则。主要采用的方法有关联规则、贝叶斯方法、聚类分析、决策树算法、神经网络、遗传算法、序列模式、粗糙集等等,每种算法可适用于多个领域[6-7]。
数据挖掘的工具也非常丰富,主要有WEkA、MATLAB、SPSS、SAS、EXCEL、R语言等。每一种分析工具都有比较强大的处理功能,应用领域广泛。
本文主要采用R语言作为分析工具,采用关联规则和回归分析作为挖掘方法。
1.3 R语言简介
R语言是S语言的一个分支,一种实现。拥有一套完整的数据处理、计算和制图的软件系统。主要功能包括:数据存储和处理、数组运算、统计分析与绘图、可编程,控制数据的输入和输出,实现分支、循环和用户自定义等功能。
R语言的优势不仅在于它是向大众免费的,还是开源的,因此很灵活、更新速度快。在数据分析方面它具有以下几方面的优势[8-9]:
(1) 具有强大的数学统计分析功能,综合了所有标准的统计测试、模型和分析。
(2) 拥有7000多个高质量的、来自多个领域的程序包,均可从网上下载。程序包涉及到统计计算、金融分析、机器学习、生物信息、社会网络等众多领域。
(3) 具有强大的数据可视化功能,提供各种统计分析机图形显示工具,并与多种图形设备相匹配。
(4) 是一种相当完善、简洁和高效的、面向对象的、开源的统计编程语言。
2.1 平煤四矿简介
平煤四矿矿井位于平顶山矿区中部,属于高温矿井。二水平己三采区,在己16、17煤层中掘进时,曾发生过煤与瓦斯动力现象。因此,三水平应属煤与瓦斯突出煤层。己16、17煤层经鉴定为突出煤层,-390以深为突出危险区;基建期间己15煤层实测瓦斯压力达到2.5 MPa,经鉴定为煤与瓦斯突出煤层,-634 m以深为突出危险区。据测定煤尘有爆炸危险,己15、己16、17煤层均属自燃煤层,但自开采以来一直未出现过自然发火。
2.2 数据抽取和集成
2.2.1 关联规则数据准备
根据关联规则,挖掘井下工作面环境参数之间的关联关系,从监测数据库中筛选出丁5-6-19052备采面、戊9-10-19130采面、戊9-10-19170机巷、戊9-10-19170风巷、三水平31040机巷高抽巷等多个采集点11月份的甲烷、风速、温度、CO、粉尘、相对湿度等环境参数的信息,建立数据表(见表1)。
表1 参数数据表
续表
关联规则无法对连续的数值进行分析,分析之前,对数据进行离散化处理。按照挖掘规则和矿井实际情况,将以上数据进行离散处理,依据下表各分为三个等级,并用二元表示,构建购物篮数据表(见表2)。
数据的二元表示,使用0、1两个数字表示数据处在某一等级的情况,0表示“不处于”,1表示“处于”。
对以上数据表进行二元表示,建立相应的购物篮数据表(见表3)。
表2 参数等级表
表3 购物篮数据表
2.2.2 回归分析数据准备
己15-x采面开始初采初放,瓦斯涌出量达到20.06 m3/min,严重制约采面正常生产。从监测系统源数据中筛选己15-x采面进尺、瓦斯浓度、三个水平风机负压、三水平抽放泵站相关抽放参数、己三抽放泵站相关抽放参数、已16-17-x机巷瓦斯浓度和进尺等数据,并以15-x采面瓦斯浓度为因变量,余下变量为自变量,建立挖掘数据表(见表4)。
以监测系统源数据中的数据为研究对象,集合成回归分析数据表(见表5)。
表4 变量编码表
表5 回归分析数据表
3.1 相关规则挖掘及结果分析
3.1.1 相关规则挖掘过程
从CRAN(Comprehensive R Archive Network)http://cran.r-project.org上下载适合 windows操作系统的R×64 3.3.3的安装包,安装运行。运行界面如下:
输入代码,进行挖掘工作。经过调试,设置不同支持度和置信度,挖掘出的规则个数不同。设置支持度为0.3,置信度为0.7,进行关联挖掘,挖掘的规则个数11个。从挖掘规则中选择5个强规则进行分析(见表6)。
表6 挖掘规则表
图1 R运行界面图
3.1.2 挖掘结果分析
(1) 规则1{C1,E1}=>{D1},support=0.30,confidence=0.74,lift=1.18,采面瓦斯浓度在第一等级C1(0,0.1]、粉尘浓度处于E1(0,5],有可能其CO浓度也在第一等级D2(5.0,15.0]。
(2) 强规则2{ C1,D1} => {A2},support=0.30,confidence=0.86,lift=1.74,采面CH4浓度处于第一等级C1(0.0, 0.1]、CO浓度处于第一等级D1(0.0,5.0],规则可以推出采面的粉尘浓度有可能处于E1(0,5.0]。
(3) 强规则3{ D1,E1} => {C1},support=0.30,confidence=0.80,lift=1.64,同理,测点CO浓度处于第一等级D1(0.0,5.0]、粉尘浓度处于第一等级E1(0.0,10.0],可以推出CH4浓度处于C1(0,0.1]。
(4) 强规则4{ D1,F3}=>{B3},support=0.31,confidence=0.97,lift=1.47,工作面CO浓度处于第一等级D1(0,5.0]、相对湿度处于第三等级F3(85,100],推出工作面的温度可能处于B3(26,35]。则巷道的相对湿度有可能处于第三等级E3(85.0,100.0]。
(5) 强规则5{ B3,D1}=>{F3},support=0.31,confidence=0.78,lift=1.33,工作面的温度处于第三等级B3(26.0,35.0]、CO浓度处于第一等级D1(0.0,5.0],由规则得出工作面的相对湿度可能处于F3(85,100]。
规则1、2、3主要描述的是采面或者掘进面CH4浓度、CO浓度和粉尘浓度之间的相互关系。CH4主要来自于割煤时煤层中游离状态的气体向外涌出,粉尘主要来自煤层的物理破碎,CO主要来自于采空区破碎遗煤的缓慢氧化。据规则可知,这三个参数具有较高的相关性,彼此相互影响。
规则4、5描述的是工作面温度、湿度和CO浓度之间的相关关系。在工作面这个狭小的空间里,机械设备运转放热、围岩放热、风流做功放热、人体放热、热水涌出放热等增加了工作面的温度,温度升高,工作面空气的饱和湿度提高,加之,采煤机降尘喷雾、巷道积水等水源丰富,形成了工作面的高温高湿环境。
3.2 回归分析挖掘及结果分析
3.2.1 回归分析挖掘过程
回归分析数据中,自变量的个数比较多,无法直观了解哪些自变量与因变量(己15-x采面瓦斯浓度)的关系显著,若一一剔除关系不显著的变量,工作量会加大。所以采用逐步回归方法,按照偏相关系数的大小顺序依次将自变量引入方程。
运行R,将数据表读入R,挖掘工作自动进行(见图2)。
图2 运行结果图
由运行结果可知,回归模型的拟合优度R2=0.767,说明拟合的效果良好;F检验十分显著(P值很小),说明方程中的检验是显著的。通过逐步回归得到基于AIC选择的最优模型,拟合的回归方程表达式为:
(1)
经残差诊断、影响分析等手段监测,该模型能够客观描述变量之间客观存在的相依关系。
3.2.2 挖掘结果分析
分析所得回归方程可知:
(1) 影响己15-x采面瓦斯浓度的主要因素为已15-x采面进尺(x1)、二水平风机负压(x3)、己三固定泵站¢500管道流量(x7)、己三固定泵站¢500管道压力(x8)、三水平抽放泵站¢500管道甲烷(x12)。其中x1、x3、x12的偏相关系数为负值,说明这三个变量对己15-x采面瓦斯浓度起负影响,x3、x12对其起正影响。
(2) 己15-x采面本煤层的瓦斯主要来自于采掘进尺新暴露煤层游离状态瓦斯的释放,平均每进尺一米,瓦斯浓度增加0.013个百分点。二水平风机是己15-x采面通风除瓦斯的主要动力来源,二水平风机负压平均每降低1kpa,瓦斯浓度下降0.718个百分点。己三固定泵站、三水平抽放泵站是己15-x采面的主要抽放系统,己三固定泵站¢500管道流量平均每增加1m3/min,瓦斯浓度降低0.001个个百分点;己三固定泵站¢500管道压力平均每增加1kpa,瓦斯浓度0.019个百分点;三水平抽放泵站¢500管道甲烷浓度平均每降低1个百分点,己15-x采面瓦斯浓度降低0.584个百分点。
(1) 治理工作面CH4、CO和粉尘,需综合考虑三者之间的关系,控制煤炭产量,以风量和CH4浓度定产量;减少采空区漏风量,控制涌入采掘空间的CO浓度。
(2) 己15-x采面瓦斯浓度偏高,采用通风降瓦斯的措施,效果有限。当二水平风机负压增大到一定值时,不仅不能继续降低采面瓦斯浓度,反而增加了瓦斯浓度,这是因为负压过大,可能将煤层底板渗透的瓦斯、采空区的瓦斯更多地吸入了工作面,造成瓦斯量增大。
(3) 己三固定泵站¢500管道布置在高位抽放巷,从煤层上部抽放瓦斯,随着管道流量和压力的升高,采面瓦斯浓度在一定程度上下降。三水平抽放泵站¢500管道布置在己15-x机巷位置,钻孔的影响区部分重叠,形成煤层裂隙,在抽放的同时也加大机巷瓦斯的涌出量,随着风流吹向工作面。应合理布置钻孔,减少钻孔的相互影响,同时有效封堵钻孔,最大限度地抽放瓦斯。
(4) 关联规则挖掘是对矿井环境参数关系的描述,回归分析是对某特定工作面瓦斯浓度的预测。两种方法挖掘侧重的方向不同,但可以结合一起用于工作面生产环境的描述,并以此为参照预测瓦斯浓度趋势。
(5) 在今后的研究中,将各个子系统的数据融合起来,针对不同的挖掘任务和目标建立挖掘数据库,运用相应的算法快速准确的挖掘出隐藏在数据数据中的知识和规则。
[1] 刘兴安.煤矿信息数据挖掘方法的研究[J].煤炭技术,2007(2):26-27.
[2] Pang-Ning Tan Michael Steinbach Vipin Kumar.范明,范宏剑等译.数据挖掘导论[M].北京:人民邮电出版社,2011.
[3] 刘红宾,杨前.煤矿安全数据挖掘模型的构建及应用[J].中州煤矿,2009,167:3-5.
[4] 王清,高原.矿井生产灾害信息化管理模型探讨[J].煤矿安全2008(3):90-91.
[5] 董建新.计算机数据挖掘技术在煤矿行业的应用[J].煤炭技术2012,31(4):87-89.
[6] 付雯,李响.对矿井自动化监控技术的应用探究[J].煤炭技术,2013(1):224-226.
[7] 马正华.数据挖掘技术及其在煤炭企业中的应用研究[J]. 煤炭工程,2005(12):80-81.
[8] 温国锋,陈立文.煤矿安全管理数据仓库的建立与应用研究[J].中国矿业,2009(1):12-13.
[9] 屈元子,李茹.基于数据仓库的煤矿历史数据分析[J].电脑开发与应用,2008(1):11-13.
Applied research on data mining technology on the monitoring systems in Pingdingshan No.4 Coal Mine
DING Zhen1,ZHANG Lin2
(1.CollegeofSafetyEngineering,NorthChinaInstituteofScienceandTechnology,Yanjiao,101601,China;2.StateAdministationofWorkSafety,Beijing,100713,China)
The system introduces the concept of data mining, common data mining tools and algorithms, using R language to do the in-depth mining and analysis on the basis of the data from mine monitoring system of “Pingdingshan No.4 Coal Mine”. We analyzed the association rules of mining environment parameters, excavating strong rules between the mining parameters. For a certain working face, we did regression forecast analysis to gas concentration and determining the main influencing factors.In addition, we did the professional analysis to the results of the mining, putting forward opinions and suggestions combining with the actual situation of the coal mine, helping them to make safety production decisions, and improving safety management technology of coal mine.
coal mine safety;data mining;related rules;regression analysis
2016-03-15
中央高校基本科研业务费资助(3142015057)
丁振 (1985-),男,安徽淮北人,华北科技学院安全工程学院在读硕士研究生,主要研究方向:矿业安全。E-mail: 381046663@qq.com
TP274+.2
A
1672-7169(2016)03-0087-06