宋立兵,董东林,王振荣,李 果,杨茂林
(1.神东煤炭集团公司,陕西 神木 719315;2.中国矿业大学(北京)地球科学与测绘工程学院,北京 100083)
随着煤矿的开挖深度的不断增加,矿区内水文地质条件愈发复杂,矿井突水事故已成为威胁煤矿安全生产的5大灾害之一[1-4],对矿井突水水源进行快速、客观、准确的判别也成为了煤矿开采至关重要的环节[5]。保德矿地处黄河东岸的山西省保德县境内,井田内地形切割严重,总体地势呈“V”字,中部低、南北高,矿区与佘家梁、张家沟、炭岭沟、河石盘等小煤矿相临。保德矿主采8#煤层采掘活动在奥灰水位以下,属于带压开采,潜在威胁着8#煤层的安全开采,同时随着矿井采空区面积增加,矿井老空水对保德煤矿未来深部煤层的采掘也具有一定威胁。因此,本文选用保德矿为研究示范区,以期在保德矿及其相似矿区矿井开采中发生突水时提供有效可靠的突水水源识别模型,保证未来开采工作安全、稳定的进行。
近年来,众多学者基于数学函数理论,采用统计学、机器学习等相关模型对突水水源识别做出了大量研究[6-13]。其中,支持向量机(SVM)[8]、BP神经网络10]、极限学习机(ELM)[11]、Fisher判别分析法[12]、Bayes判别分析法[13]等方法为比较常用的方法,但单一的判别模型在应用中均存在一定的局限性,如SVM核函数的不同会使数据呈现不同的分布结构,进而影响SVM模型的判别结果;BP神经网络收敛速度慢,且初始参数设置容易造成模型陷入局部最优解;ELM虽通过模型迭代可获得唯一的输出权值,克服了传统的BP神经网络的不足,但其随机选取的初始连接权值和阈值可能造成输出结果误差、模型网络不稳定等问题;Fisher判别分析法对样本结构和样本间关联性要求较高;Bayes判别分析法在样本各离子间相关性较小时才具有较好的判别效果。目前,已有学者对现有突水水源识别模型做出有效改进,如陈志远等[14]建立了Fisher-SVM的线性降维与非线性组合模型,可有效地提取原始样本数据特征,提升水源识别的准确率;毛志勇等[15]在利用核主成分分析(KPCA)对原始水样数据进行降维后将粒子群算法(MPSO)与LM结合进行突水水源判别,有效地提高的识别模型的整体性能;黄平华等[16]建立了Piper-PCA-Fisher识别模型并用于焦作煤矿,结果表明该方法在水源识别中具有较高的准确性;邓清海[17]将PCA与Bayes结合,对水化学参数进行处理,确定了鹤壁矿区的水源样本数据主成分,为该突水水源防治工作提供了依据。上述方法虽在实践工作中的到了有效的实证运用,但在综合分析矿区水文地质概况、各含水层水化学特征以及各离子间内在联系基础上建立突水水源判别模型的研究却相对较少。本文建立了耦合Piper-PCA-OT-Regression-Bayes的突水水源判别方法,不仅利用Piper三线图和PCA对研究区水源样本进行了水化学特征分析和水样主成分确定,并且引入OT-Regression对待测样本的离群值进行校正,以增加样本间的区分度,最后采用Bayes判别分析法有效地对保德矿待测水样进行了分类识别。
表1 保德矿训练样本水样数据
表2 保德矿待测样本水样数据
主成分分析法即利用数学降维的思想,将多个指标转化为少数几个可反映原始变量信息的综合指标的方法,降维后所得的综合指标即为主成分[18]。其相关理论及计算步骤如下[19]:
将原始数据矩阵X的p个向量X1、X2、…、Xp的线性组合为Y=AX,即:
式中,ai1+ai2+ai3+,…,+aip=1;Yi与Yj(i≠j;i、j=1,2,…,p)之间不相关。
1)将原始变量数据标准化处理,然后计算各变量之间的协方差矩阵Σ=Zij。
2)将计算好的协方差矩阵特征值按从大到小排列,即λ1≥λ2≥,…,≥λp,相应的单位特征向量为T1、T2、…、Tp,则第i个主成分Yi的方差就等于Σ的第i大特征根λi。
3)第k个主成分的Yk的方差贡献率为:
(2)
4)第m(m
5)若第m个主成分的累积贡献率达到85%以上[20],则可视为主成分的个数为m。
贝叶斯判别法多用于处理多元分布的数据,该方法通过计算假设概率的方法来达到判别的目的。首先根据贝叶斯公式,综合未知参数的先验信息与已知的样本信息,进而得出后验信息,最后用于推断出未知参数[17,20]。计算步骤如下[21]:
从G个样本集中抽取了n个样本,这n个样本有p个变量,即可以假设存在一个p维空间,这n个样本为空间中存在的n个离散的点。在对样本进行分类时,如果出现归类错误便产生损失量,如果当某一未知样本X划分为任意类别时都会产生损失,但是未知样本在类别为Ag时,产生的损失量最小,那么即可认为这个未知样本为Ag类。
如果已知g个母体的概率分布为fg(x),设将一本应该属于母体Ag的未知样本错误的划归为母体Ah的概率是:P{h/g},则下式成立:
此时产生的平均损失为:
设每个母体的先验概率ph为已知,则G个母体错误归类的平均损失为:
同理,设将一本应该属于母体Ah的未知样本错误的划归为母体Ag时产生的损失记为:L(g/h),则:
当Bayes推导出划分空间{R}满足的一下条件时,可将样本错误划归时产生的损失量降到最低:
因此,当将未知样本划归为Ag的后验概率比该样本被划归为其他类别的后验概率大时,即可认为该样本属于Ag。qgfg(x)最大即表明后验概率最大。故可以得出,判别任意一个样本属于某一类别时的判别函数表达式如下:
(13)
exp[-1/2(x-ag)′∑-1(x-ag)]
(14)
式中,x=(x1,x2,…,xp)′;ag为Ag的均值;∑为协方差矩阵;g=1,2,…,G。
进一步计算可得正态母体多类线性判别函数:
Z(x)=b0g+b1gx1+…+bpgxp
(15)
式中,xp为样本集中的第p个指标的数值;bpg为判别系数。
最后比较Z1(x)至Zg(x)的数值大小,最大值所对应的类别即为待测样本所属类别。
离群值检验是利用样本数据的最小值、下四分位数、中位数、上四分位数、最大值五个统计量来绘制样本的箱线图,如图1所示,进而比较样本的对称性、分散程度等信息,达到描述样本数据的目的。计算步骤如下:
图1 箱线图
1)将水样中各离子的观测值从小到大排列。
2)依据观测数据,分别计算各离子的下四分位数(Q1)、中位数(Q2)、上四分位数(Q3)。
3)根据上四分位数与下四分位数,计算盒子长度(IQR):
IQR=Q3-Q1
(16)
4)计算最大值max和最小值min:
max=Q3+1.5×IQR
(17)
min=Q1-1.5×IQR
(18)
若样本中存在观测值超过上四分位数加1.5倍四分位差,或者小于下四分位数减1.5倍四分位差,则视为离群值,在箱线图中被单独以点汇出。
回归填补法可通过水样中各离子的相关系数矩阵,建立线性回归模型,校正水样中异常值,达到增加样本间区分度的目的。具体步骤如下:
1)计算水样的相关系数矩阵。
2)根据箱线图和相关系数矩阵的确定自变量。
3)利用线性模型拟合函数,建立自变量与其余各指标间线性回归模型。
4)利用线性回归模型求出各指标的回归值并填入原始数据,完成异常值的校正。
综合判别模型步骤如下:
1)选取保德矿水样实测数据,绘制Piper三线图确定各含水层水样水化学特征,剔除偏离水样中心的异常水样,剩余水样即为各含水层代表性水样。
2)利用PCA将样本进行降维处理,选取代表水样的主成分数,并进行归一化处理,将其作为综合判别模型的训练集。
3)采用箱线图离群值检验法对待测水样进行异常值检测,找出待测水样中的异常值并利用回归填补法建立测试水样各主成分间线性回归函数,进而对测试水样进行异常值校正。
4)建立Bayes判别函数,分别对异常值处理前后的待测数据进行归类判别,得出模型判别结果并比较其优越性。判别模型流程如图2所示。
图2 判别模型流程
图3 各含水层水样Piper三线图
由图3(a)可知,采空区水源样本中第2、5、8三组水样数据偏离含水层水样中心,与其他水样水质类型差别较大,故视其为异常水样;由图3(b)可知,二叠系砂岩含水层水源样本中第18组水样偏离地层中心,与其他水样水质类型差别较大,故视其为异常水样;由图3(c)可知,石炭系砂岩含水层水源样本中分布较为集中,可全部作为石炭系砂岩含水层代表水样;由图3(d)可知,奥灰含水层水源样本中第37、39组水样偏离地层中心,与其他水样水质类型差别较大,故视其为异常水样。上述6组异常水样排除后,剩余水样即为个含水层代表水样,可作为水源判别模型的训练样本集进行水源判别。
为减小测试水样中的大量冗杂信息对模型判别准度的影响,采用主成分分析法对水化学分析后所得各含水层代表水样进行主成分分析。测试样本六大水化学指标的协方差矩阵和解释方差率分别见表3、表4。由表3可知,各水化学指标间存在明显的相似性,即各水化学指标间存在多余重叠信息,对水源样本进行主成分分析,不仅可减少计算量,更能排除冗余信息对判别模型的影响。由表4可知,前四个水化学指标的方差贡献率较大,其累积方差贡献率可达94.817%,即前四种水化学指标对整体水样的影响较大,可作为综合指标对整体样本进行有效概括。因此,在后续的模型中,将前四种水化学指标作为水源样本的主成分进行水源判别。
表3 各水化学指标协方差矩阵
表4 各指标解释方差率
图4 待测样本各离子箱线图
表5 待测水样相关系数矩阵
表6 异常值校正后待测水样
Ca2+=-0.1819(Na++K+)+79.6367
Mg2+=0.5427Ca2+-0.4767
为确保水源模型准确性,首先将水化学特征分析以及主成分分析后确定的代表水样归一化处理后进行模型回判训练,训练结果表明,所有训练样本均能准确识别。在此基础上,对模型开展实证运用,分别将保德矿20组校正前后的待测水样分别进行归一化处理,然后代入Bayes判别模型中进行水源判别,判别结果如图5所示。由图5可知,待测样本未进行离群值检验和回归值填充时,共3组待测样本判别错误,模型判别准确率为85%,而校正后的测试结果表明,仅第4组采空区水样判别错误,其它水样判别结果均与实际水样类别相符合,判别准确率高达95%。由此可见,Piper-PCA-OT-Regression-Bayes相结合的突水水源判别模型不仅可对大量的水化学数据进行分析处理,而且在判别准确率上也具有明显的优势,可应用于保德矿进行突水水源识别。
图5 模型判别结果
由上述两个模型判别结果可知,A4组样本在两次判别中均出现误判情况。由图3(a)和图3(c)可知,采空区训练样本存在部分水样与石炭系砂岩含水层水样水化学离子浓度相近,在Piper三线图菱形中分布区域相同,这可能是造成误判的原因之一。此外,由表1、表4可知,校正前后该组待测水样数据各离子浓度与采空区其余训练样本各离子浓度相差较大,而与石炭系砂岩水待测水样数据各离子浓度比较贴近,原因可能是该组水样离子浓度测试结果有误,或者取样地点的含水层间产生了水力联系,所取水样为两个含水层的混合水样,故造成模型判别错误。综上,在今后的研究中,应增加更多的水样数据,确保数据的可靠性,同时可在模型中增加其他相关水化学离子信息以及pH值、总碱度、矿化度等相关指标,进而增加水样的辨识度,保证模型判别结果的准确率。
1)分析了保德矿各含水层水样的水化学特征,确定采空区水质类型为HCO3-Ca·Na·Mg型;二叠系砂岩含水层水质类型为HCO3-Na型;石炭系砂岩含水层水质类型同样为HCO3-Na型;奥灰含水层水质类型为HCO3-Ca型。同时,根据各含水层水质类型排除了训练样本中异常水样,初步保证了训练样本数据的可靠性。
4)利用Bayes判别模型对线性回归模型校正前后的水样数据分别进行水源判别,判别结果准确率分别为85%和95%,即本文建立的突水水源综合判别模型判别结果准确率高,具有一定应用价值。