李婷 李艳军 吕英英 杨娟娟 白岩立
摘要:在进行矿井地下水污染风险预测过程中,由于选择的特征与污染风险相关性较低,导致预测精度较差,对此,提出基于改进集成学习的矿井地下水污染风险预测研究,首先利用主成分分析法对矿井地下水污染数据特征进行提取,然后利用SOM网络进行矿井地下水数据聚类处理,最后采用ENN模型进行矿井地下水污染风险预测。实验结果表明,所提方法的污染物浓度预测RMSE和MAPE分别为22mg.L-1与9.26%,矿井地下水污染风险指数与实际值拟合度高,且R2值较大,说明所提方法的风险预测能力较好,具有实用性。
关键词:改进集成学习;污染风险预测;SOM网络;Elman神经网络
中图分类号:X820.4 文献标志码:B
前言
中国地域辽阔,煤炭资源储量丰富,然而长期的矿产开采对生态环境造成了严重影响。特别是煤矿开采中产生的矿井水问题,给地下水系统带来了巨大的污染风险。随着煤矿开采活动的进行,地下矿井水会被泵出,其中包含了大量的悬浮颗粒物、溶解的无机物质和有机物质。如果未经有效处理直接排放,这些矿井水就会污染地表水和地下水,在一定程度上导致水质恶化,甚至影响人类用水和农业灌溉。在矿井地下水污染风险预测的过程中,需要考虑多种因素,如矿井的地质条件、开采方式、水文地质特征、水力参数等,以评估可能的污染扩散路径和影响范围。及早预测和识别矿井地下水污染的风险至关重要。相关学者对该方面进行研究,如:
杨海东等人基于有限差分法和贝叶斯推理建立风险预测模型,利用Metropolis-Hasting抽样法优化模型参数,实现风险预测。赵春兰等人采用模糊C均值聚类为地下水数据建立隶属度序列,利用时间序列预测不同子隶属度序列,通过去模糊化实现风险预测。以上方法没有在预测风险前降维数据,导致污染物浓度预测RMSE和MAPE高、风险预测能力不理想的问题。为了解决上述方法中存在的问题,提出基于改进集成学习的矿井地下水污染风险预测研究。
1 矿井地下水数据特征提取
在预测矿井地下水污染风险前需要对矿井地下水数据进行特征提取,采用主成分分析法提取到对污染影响较高的特征。
用X表示矿井地下水数据矩阵,具有m个监测点。将原始矿井地下水数据矩阵由n维空间降低到d维空间,主要特征提取步骤如下所示:
(1)对矿井地下水数据标准化和归一化变换处理,采用xj和σj表示数据第j个变量平均值和标准差。
(2)将标准化变换处理后新矩阵正交变换.获取矩阵X的协方差矩阵,记作C=(Cij)n×n,C为一个实对阵矩阵,cij表示矩阵中元素,采用特征值λ和特征向量A构建正交矩阵A=(aij)n×n,aij表示矩阵中元素。
(3)计算C的特征值和特征向量,可得到CA=λA,将矿井地下水数据矩阵X分别与等式两边相乘并令AX=Y,则有CAX=λAX→CY=λY,由此可得到由矩阵X=(x1,x2,…,xn)组合后的新矩阵Y=(y1,y2,…,yn),且Y同样为与λ对应的特征向量,具体形式如式(3):
累积贡献率Ed选取的前d个主成分作为提取出来的特征,有效降低后续计算复杂度。
2 矿井地下水污染风险预测
2.1 SOM聚类处理
将提取到的特征数据作为SOM的训练集进行聚类处理,SOM聚类数据主要步骤如下所示:
(1)初始化SOM学习速率初始值η(0)、连接权值初始值wij(0)、各神经元j的邻域半径初始值rj(0)和总迭代次数K;
(2)计算输入层样本向量与竞争层每个神经元之间欧氏距离dj和最小距离dj,确定最优神经元,dj和dj的计算方式如式(6)、式(7)所示:
式(6)-式(7)中,n表示神经元总数,xj表示被选中向量,wij(k)表示第k次迭代中输入层神经元i与竞争层神经元j的连接权值,j为得到的最优神经元。
(3)在邻域半径内更新最优神经元权值,更新规则如式(8)所示:
式(8)中,η(k)表示第k次迭代中学习速率,D表示可变化系数,p表示竞争层神经元,q表示最优神经元,rq(k)表示第k次迭代中最优神经元邻域半径。
(4)依据下式更新学习速率η(k)和邻域半径rj(k):
式(9)-式(10)中,INT[]表示取整运算。
(5)当k=K时,训练结束,反之令k=k+1,返回步骤(2)重复执行。
假设预处理后共得到M个矿井地下水数据,经过SOM后M个数据被划分为Ⅳ个类别,基于此完成数据的聚类处理。
2.2 ENN风险预测
将通过SOM聚类处理后的矿井地下水污染数据作为ENN训练集,通过ENN预测矿井地下水污染风险的主要步骤如下所示:
(1)初始化ENN结构,确定ENN每层的神经元数量,输入层神经元数量为d,输出层神经元为m,隐含层神经元数量h则由两者共同决定,即h=rand(1,根号下(d+m)+α)。
(2)在每次迭代中,ENN由输入矿井地下水数据至输出污染物浓度预测结果共经历以下三个阶段:
①输入层至隐含层阶段:用xm(k)表示第k次迭代中d个隐含层向量,f1表示隐含层传递函数,w1表示承接层与隐含层连接权值,xc(k)表示第k次迭代中承接层反馈向量,w2表示输入层至隐含层连接权值,x(k-1)表示第k-1次迭代中输入至输入层的矿井水污染样本向量.则输入层至隐含层阶段可表示为式(11):
xm(k)=f1rj(k){ω1xc(k)+ω2[x(k-1)]} 式(11)
②承接层反馈阶段:承接层反馈阶段可表示为如下形式:
xc(k)=xm(k-1)x-(k) 式(12)
③隐含层至输出层阶段:用y(k)表示第k次迭代输出层向量,f2表示输出层传递函数,ω3表示隐含层至输出层连接权值,则隐含层至输出层阶段可表示为如下形式:
y(k)=f2[ω3xc(k)] 式(13)
经过对ENN的反复训练可确定其最优结构。
(3)在Matlab神经网络工具箱中通过sim( )函数运行最优结构ENN,将预处理后矿井地下水污染数据输入改进的集成学习模型,输出污染物浓度值预测结果。
(4)建立矿井地下水污染风险评估体系,所提方法将评估体系划分为健康和生态两个方面,并以地下水中可挥发性有机物VOCs为例加以阐述,如下所示:
①健康风险评估体系:分别选取非致癌风险指数NCR和终生致癌风险指数ILCR作为健康风险的评估指标,NCR和ILCR如式(14)、式(15)所示:
式(14)-式(15)中,ci表示污染物i浓度,V表示人类日饮水量,TF表示煮沸后VOCs残留比,ED表示暴露延时,EF表示暴露频率,AT表示人类预期寿命,BW表示人类体重均值,RfDi表示污染物i参考剂量,SFi表示饮水途径下污染物i致癌斜率因子。
②生态风险评估体系:生态风险评估体系用于评估矿井地下水中一种或多种污染物质可能或正在发生的不良影响可能性,选取风险商RQ模型作为生态风险评估模型,用MEC表示环境中VOCs浓度,PNEC表示对水生生物不产生影响的VOCs浓度,ChV表示慢性值,AF表示评价因子,则RQ如式(16)所示:
综合健康风险评估体系和生态风险评估体系构建矿井地下水污染风险预测模型R,如式(17)所示:
R=ω1NCR+ω2ILCR+ω3RQ 式(17)
式(17)中,ω3、ω2和ω1表示各指标权重。
依据污染物浓度值预测结果和风险预测模型,即可实现对矿井地下水污染风险的预测。
3 实验与结果
为了验证基于改进集成学习的矿井地下水污染风险预测研究整体有效性。选择某地的矿井作为实验对象,确定监测点的数量和布局。将矿井地下水污染范围划分成4个区域,每个区域设置2个监测点,进行矿井地下水污染数据的获取。
分别采用所提方法、文献[3]方法和文献[4]方法对某矿井地下水VOCs浓度加以预测,相比于重金属,VOCs可以通过空气和土壤风化等途径释放到环境中,并在地下水系统中迁移,增加对地下水质量的潜在威胁。因此,对VOCs浓度进行预测可以更全面地评估地下水的污染风险。VOCs各成分实际浓度和三种方法预测结果见图1。
由图1可以看出,所提方法的预测浓度平均值更接近于实际值,即所提方法的预测更加准确,因为所提方法在预测矿井地下水污染物浓度前对数据降维处理,减少数据中对整体结果影响较小的因素,提升预测准确度。
将RMSE和MAPE作为实验指标,三种方法的RMSE和MAPE结果见表1。
由表1可以看出,所提方法的RMSE和MAPE分别为22mg·L-1与9.26%,均小于对比方法,表明所提方法对污染物浓度预测更准确。
通过式(14)对风险指数加以计算,并与实际值拟合比较,预测结果越接近于实际值且R2值越大,则对应方法的风险预测性能越强,检测结果见图2。
由图2可以看出,采用所提方法得到的矿井地下水污染风险指数与实际值拟合度更高,更接近实际结果,且R2值较大,因为在污染物浓度预测中.所提方法表现出更为优异的性能,进而能够在风险预测中取得更好的效果。
4 结束语
矿井地下水污染风险源点多面广,且污染隐蔽性较强,在污染发生后,修复程度和治理难度都会大幅度上升,因此在污染发生前对风险准确预测至关重要。为了解决目前存在的污染物浓度预测RMSE和MAPE高、风险预测能力不理想问题,提出基于改进集成学习的矿井地下水污染风险预测研究,通过主成分分析法提取矿井地下水数据特征,然后使用SOM网络对这些特征进行聚类处理。最后,采用ENN模型进行矿井地下水污染风险预测,帮助预测可能出现的水质问题。实验结果表明:该方法能够有效降低污染物浓度预测的RMSE和MAPE,矿井地下水污染风险指数与实际值拟合度高,能够获得更理想的风险预测结果,为矿井地下水污染控制和治理提供依据。
基金项目:陕西省科协青年人才托举计划项目(20220403)