随机森林模型预测岩溶区酸性煤矿井水锰污染

2021-05-08 03:23:52
中国煤炭地质 2021年3期
关键词:井水泉水酸性

李 冲

(中国煤炭地质总局水文地质局,河北邯郸 056000)

在我国,酸性煤矿井水对地下水的污染情况越来越严重。煤矿中含有大量的黄铁矿等含硫矿物,在煤矿的开采过程中,破坏了原有的还原环境,导致硫化物因暴露氧化,生成硫酸,进而使矿井水呈酸性[1-3]。由于pH值比较低,化学组成复杂,Fe、Mn等元素含量高,酸性煤矿井水对矿山周围的居民健康状况和当地生态坏境危害性较大[4-6]。在岩溶发育地区,居民多以岩溶地下水为生活供水水源。由于煤矿井工开采对上覆岩层的破坏,当导水裂隙波及到岩溶含水层时,含水层的水汇流至采空区,水煤反应后产生酸性废水排泄,污染当地水环境[7-10]。

锰是酸性煤矿井水的主要污染物之一,过量的锰会严重毒害当地的动、植物,损伤人体的中枢神经系统,出现多种临床症状[11-15]。目前,针对地下水锰污染监测的主要方法是在岩溶区地下水受酸性废水影响严重的区域布设地下水监测网,对水质进行动态监测[16]。由于人工投入和分析测试等,该方法成本较高。因此,在现有监测数据的基础上,进行深入研究、挖掘数据间的潜在关系,利用易获取的水位、流量、pH值等数据,建立模型,获得测试成本高的污染离子浓度的参考值,可以作为一种降低成本的水质监测辅助手段。

研究表明,受影响地下水中的金属离子含量与岩溶水位、采空区水位、pH值等有一定相关性,但由于地下溶洞发育、通道复杂,用简单的线性模型无法表征[17-20]。针对上述问题,本文提出了一种基于随机森林回归模型的岩溶区酸性煤矿井水锰污染的预测方法,利用容易获得的水位及测试成本较低的pH值、流量数据预测锰离子含量,有效地降低成本和测试难度,准确度较高。

1 方法原理

随机森林回归模型本质是一种集成算法,通过构建多个基评估器,每棵树的训练子集都是由Bootstrap重复抽样得到,然后进行评价并采用多数表决或求平均的原则决定评估的结果,准确度显著提高[21]。由于通过平均决策树,降低过拟合的风险,随机森林回归抗过拟合能力较强。此外,模型对噪声、异常值不敏感,稳健性强,而且泛化能力强,在训练完成后,能够给出各自变量的重要程度[22-23]。考虑到样本数不大,本次试验按比例划分训练集和测试集,并用测试集进行模型精度测试。

如图1,将随机森林回归预测岩溶区酸性矿井水锰污染的方法和步骤归纳如下:

图1 随机森林回归模型预测锰离子浓度流程Figure 1 Flow chart of manganese ion concentration prediction through Random Forest regression model

1)从原始数据中提取各种不同的特征变量数值,作为自变量;将对应的锰离子浓度作为因变量。将因变量和自变量组合成样本数据集。

2)将样本数据以一定比例随机划分为训练集和测试集,再将训练集划分为n个训练子集分别建立回归树。

3)将各训练子集的回归树结果求平均得到随机森林回归模型。

4)将测试集数据代入模型,测试精确度。

本次试验选取均方误差(MSE)、平均绝对误差(MAE)、平均百分比误差(MAPE)作为模型精度参数,各参数计算方法如下:

(1)

式中:MSE区间为[0,+∞),当预测值与真实值完全吻合时等于0,即完美模型;误差越大,该值越大。

(2)

式中:MAE区间为[0,+∞),当预测值与真实值完全吻合时等于0,即完美模型;误差越大,该值越大。

(3)

式中:MAPE区间为[0,+∞),MAPE为0%表示完美模型,MAPE 大于100%则表示劣质模型。

2 应用实例

研究区位于贵州省凯里市大风洞镇鱼洞河流域龙洞泉。龙洞泉西部有一座飞龙煤矿,矿区面积3.163 5km2,矿井产能9万t/a;斜井开拓,房柱式开采,开采煤层为二叠系梁山组M1煤层,煤层厚度0.8~1.3m,采用巷道炮采采煤工艺,顶板采用全部垮落法管理顶板。于2017年3月份关闭,现已成为无主煤矿。

2.1 地质特征

研究区属于典型的喀斯特地质地貌,溶丘、洼地、漏斗分布普遍。区内地层自寒武系至第四系,缺失石炭系,东面主要出露二叠系下统梁山组和中统栖霞和茅口组,其余零星分布[8,17]。区内主要含煤地层为二叠系下统梁山组。

研究区处于黔北与黔南不同构造变形面貌的过渡地带,呈现复杂多样的构造变形。其中以南北向构造形迹最为显著,岩层走向与山形水势都有极明显的反映,属贵州东部南北向构造带之组成部分。东西向构造受南北向构造横跨重跌削弱而隐伏地下,见之踪迹,也大多为次级断裂,燕山运动强烈。形成背斜宽缓、向斜紧密的隔槽型褶曲[24-25]。

2.2 水文地质特征

区内出露地层多,水文地质岩组极其复杂,根据岩性、岩溶化程度、富水性特征划分4个岩溶含水岩组,详见表1。研究区内岩溶含水岩组属于第一类别——强岩溶含水岩组,岩溶地层为二叠系中统茅口组和栖霞组[17]。区内岩溶水水位埋深基本位于栖霞组顶界面以下40m左右,水位标高为867.69~935.40m,总体流向为自北西流向南东,在南东部各岩溶泉处排泄。

表1 区域岩溶含水岩组划分

2.3 污染现状

2017年6月30日龙洞泉水质突然变差, 水质浑浊,含大量红色悬浮物,水流过处留下红色沉淀物。根据水质化验结果,泉水主要污染特征为高铁高锰高酸,泉水呈红色。经过水文地质调查、物探、钻探等一系列勘查手段,最终确定泉水污染是由飞龙煤矿采空水引起的。煤矿生产时持续排水,矿井内积水相对较少,积水区水位较低,关停后矿井水不再抽排,煤层顶板岩溶水通过导水裂隙带不断补给,强降水过后,矿井水在某些部位获得岩溶水快速补给使采空区积水水位上升,沿导水通道与泉连通,导致泉水污染[8-10,17]。

2.4 数据初步分析

试验截取2017-2019年由中煤地华盛水文地质勘察有限公司对该区域水体污染期间的监测数据,并筛选出与锰污染相关的采空区水位、岩溶水位和龙洞泉流量、pH值、电导率数据以及对应的泉水锰离子浓度,数据统计见表2。可以看出,采空区水位、岩溶水位、pH值、锰离子浓度数据间差异小,比较稳定;而泉水流量、电导率数据由于强降雨、污染加重等原因导致存在极端值,差异较大。本次采样88个点,初步分析上述变量与锰离子浓度的相关性,结果如图2所示。

表2 样本数据统计

由图2可以看出,这些变量与锰离子浓度间的关系并不明显,只有采空区水位、岩溶水位、泉水流量、电导率和锰离子浓度间有微弱的相关性。

图2 各变量与锰离子浓度的散点图Figure 2 Scatter diagram of variables and manganese ion concentrations

2.5 随机森林回归模型拟合

将数据代入随机森林回归模型按9∶1划分训练集和测试集,经前期调试回归树数目定为616棵,进行训练和测试,误差参数结果为MSE0.02,MAE0.11,MAPE6.36%。,模型精度较高,准确度(Accuracy=1-MAPE)达到93.64%。

图3中各变量的重要程度顺序为泉水流量>采空区水位>电导率>pH值>岩溶水位。泉水流量是地下水最直观的属性,流量大小直接反映了酸性煤矿井水的供水量;采空区水位代表酸性煤矿井水的容量,是地下水污染的主要控制因素之一;电导率和pH值是泉水中离子浓度的反映,是泉水污染的间接因素;岩溶水是泉水和酸性煤矿井水的补充水源之一。可以看出,模型给出的各变量重要程度较为合理,对于污染治理工程具有一定的指导意义。

图3 自变量重要程度条形图Figure 3 Bar chart of arguments importance level

图4展示了预测值和实际值的对比情况,结合误差参数MAE(0.11)、MAPE(6.36%)来看,模型的预测值与实际值差别较小,在折线图中的变化趋势近似,表明并无异常预测值产生,预测结果具有参考价值。

图4 预测值与实际值折线图Figure 4 Line chart of predicted and measured values

3 讨论

本次试验重点是研究随机森林回归模型在酸性煤矿井水污染预测方面的适用性,分析其能否给出较为准确的污染离子浓度参考值,也是机器学习方法在预测酸性煤矿井水污染中的初步应用。在今后的工作中,可以将该方法作为一种辅助手段,或者应用其他的机器学习模型,结合动态监测网,更加有效的对污染情况进行监测,具有一定的指导意义与经济价值,可以降低部分分析测试和人工的成本。

同时,试验也存在一些不足之处:一是分析样品数量较少导致准确度难以再度提升。 由于条件限制,本次试验只采用了88组数据。随机森林是一种数据统计方法,涉及大量的非线性计算,样本数目较小会导致模型简单,抗干扰能力不足,不利于数据潜力的充分挖掘。在后续工作中,应不断添加监测数据,进一步提高模型的精度和稳定性。二是原始数据存在一些极端值,如强降雨后的泉水流量、污染严重时的电导率,导致数据连续性较差,不利于进行连续变量回归。三是由于酸性煤矿井水和岩溶水在裂隙通道中迁移需要一定的时间,采空区水位和岩溶水位对泉水污染的影响有滞后性,导致二者与锰离子浓度相关性降低,进而使模型精度下降。

4 结论

1)由模型误差结果可以看出,随机森林回归在酸性煤矿井水锰污染的预测中误差较小,准确性较高;预测值与实际值差别较小,折线图发展趋势相同,并无异常值出现。

2)各自变量对因变量影响的重要程度顺序为泉水流量>采空区水位>电导率>pH值>岩溶水位。当降雨量增加时会大量补充采空区酸性煤矿井水,使其涌出并汇于泉口,污染加重,泉水流量是最为直接的特征属性,采空区水位次之;电导率和pH值受污染的间接影响,会随之增减;岩溶水位是泉水和采空区水位的补充水源之一,对污染贡献较小。可以看出,自变量的重要程度与实际情况相符,为后续污染治理工程提供参考。

3)随机森林回归模型在预测酸性煤矿井水锰污染中具有可行性。在实际应用中,模型可作为非极端情况(如强降雨)下的锰离子浓度监测方法,降低人工监测分析的频率,以达到节约成本的目的。

猜你喜欢
井水泉水酸性
青年是“从0到1”创新的主力军
教育家(2022年18期)2022-05-13 15:42:15
酸性高砷污泥稳定化固化的初步研究
云南化工(2021年10期)2021-12-21 07:33:28
井水的奥秘
论证NO3-在酸性条件下的氧化性
柠檬是酸性食物吗
嗜酸性脂膜炎1例与相关文献浅析
泉水与盐水
盘一井水氡异常落实与分析
黄骅埕古1井水位异常研究
一起非震兆井水发热事件引发的思考
河南科技(2014年22期)2014-02-27 14:18:23