陈 颖,杨 惠,肖春艳,赵学亮,,李 康,庞丽丽,史彦新,刘峥莹,李少华
1. 燕山大学电气工程学院河北省测试计量技术及仪器重点实验室,河北 秦皇岛 066004 2. 河南理工大学资源与环境学院,河南 焦作 454000 3. 中国地质调查局水文地质环境地质调查中心,自然资源部地质环境监测工程技术创新中心,河北 保定 071051 4. 河北先河环保科技股份有限公司,河北 石家庄 050035
土壤重金属污染问题一直备受人们广泛关注,土壤重金属不易被分解,且易于累积,不仅会随着食物链进入人体,危害人体健康,更会影响生态系统的平衡。目前土壤中重金属元素的检测方法有紫外可见分光光度法[1]、原子吸收光谱法[2]、电感耦合等离子体质谱法[3]、化学消解法[4]等。这些传统检测方法存在检测速度慢、操作复杂、易造成污染、精度低等问题,而本实验采用XRF法对土壤重金属元素进行检测,具有检测速度快、精度高、操作简单等优点,可同时对土壤中多种元素进行检测,能更好的满足实验的需求[5]。
近几年,深度卷积神经网络及XRF法已经得到了快速的发展,被广泛地应用在生物学、地质学、食品学、医学以及合金材料等领域。Chen等[6]采用一种由数据驱动的阈值策略的小波去噪方法,并将该方法应用于检测除风机轴承旋转机械故障中,具有很好的实用性; Ng W等[7]建立卷积神经网络分类模型,结合近红外光谱根据土壤中微塑料的浓度将采集的土壤样本分类为不同的污染等级,提高了分类的准确性; 李灵巧等[8]采用深度卷积网络模型,对药品近红外光谱进行分析研究,建立不同厂商、不同药品的分类模型,将该模型与多种浅层神经网络分类模型相对比,通过大量实验数据验证,该方法可以对不同厂商、不同药品的近红外光谱数据进行准确可靠的分类预测。目前人们将卷积神经网络算法实际多用于人脸识别、语音识别和检测以及图片处理分类等领域,卷积神经网络是被认为学习图像内容的最佳技术之一,通过查阅文献可知基于深度卷积神经网络模型在近红外光谱处理领域研究较多,而在X射线荧光光谱处理以及对土壤中重金属元素含量预测方面应用较少。
本文提出基于深度卷积神经网络-X射线荧光光谱法对土壤中重金属Zn元素含量预测模型,将X射线荧光光谱法与深度卷积神经网络相结合,通过粉末压片法制作土壤压片,采集土壤荧光光谱数据,结合箱型图、熵权法、多元散射校正、Savitzky-Golay平滑去噪法以及线性本底法对光谱数据进行预处理,根据卷积神经网络对图数据处理的优越表现,将获取的一维光谱数据向量,采用构建光谱数据矩阵的方式来进行处理,将同一含水率下、同一重金属浓度下的5组平行光谱数据向量转化为二维光谱信息矩阵的形式,以此作为深度卷积神经网络模型的输入,同时探究了不同学习率、不同迭代次数下该预测模型的预测性能,并与BP,ELM和PLS等模型相对比,为土壤中重金属Zn元素含量的精确预测提供了新思路。
仪器: CIT-3000SYB能量色散X荧光分析仪(四川新先达测控技术有限公司),艾泽拉小型研磨机(艾泽拉有限公司),瑞绅葆PrepP-01 100T XRF用大吨位压片机(瑞绅葆分析技术上海有限公司),电动搅拌器,佰辉电热鼓风干燥箱,不同规格土壤筛等。
试剂: Zn标准溶液,去离子水,工业酒精等。
实验土壤样本取自河北省保定市周边村庄,由于土壤表层易受雨水冲刷,风力迁移等自然条件的影响,会导致表层土壤重金属元素含量的流失,而重金属元素由于长时间的沉积会富集在土壤表层下具有诊断意义的亚表层,故采用网格法布点采集地面10~40 cm处土壤作为实验样本,去除土壤杂质,采用粉末压片法来制作土壤压片,放入研磨机中研磨并过200目筛,再置于烘干箱中烘至恒重,确保去除土壤中水分。配置100,200,400,600和800 mg·kg-1等5个不同重金属浓度的Zn元素重金属溶液,将其与烘干过筛后的土壤均匀混合搅拌,由于华北平原土壤的含水率区间在10%~25%之间,故将Zn标准溶液采用加去离子水及烘干标液法来控制土壤压片的含水率在10%~25%之间。当含水率在10%~15%之间时,制备的土壤压片表面平滑,可用于荧光光谱的采集,当含水率在15%以上时,制备的土壤压片粘连,表面不平整,无法进行检测,故采用样品盒代替压片进行测试[9]。
在X射线荧光光谱采集之前先将能谱仪预热5 min以保持仪器正常稳定工作,然后将制作好的土壤压片放入能谱仪样品腔中进行检测,检测时间为2 min,即可获得含有多种重金属元素的土壤荧光光谱数据。
本研究主要以检测土壤中重金属元素Zn为主,通过XRF法获得土壤压片原始光谱数据,由重金属元素Zn的特征X射线标定其特征峰位置,荧光强度为标定特征峰的净峰面积。将光谱数据进行预处理,包括异常光谱数据剔除、样品盒数据校正、光谱去噪、本底扣除等操作,将同一浓度、同一含水率下的5组平行光谱数据向量转化为二维光谱信息矩阵形式,以此来作为深度卷积神经网络的输入,提高了预测模型对土壤中重金属元素Zn含量的预测精度,并将深度卷积神经网络预测模型与BP,ELM,PLS三种预测模型进行对比,验证了该模型的优越性。
在光谱数据获取过程中,由于周围环境因素、人为因素等导致光谱数据出现异常,使后期模型预测结果误差较大,故在建立模型之前需要对光谱数据进行异常值剔除操作。本实验采用箱型图去除异常光谱数据,利用箱型图可以很直观识别光谱数据中的异常点,数据点在Q1—Q3之间为正常光谱数据,数据点高于上限或是低于下限为极端异常值,应予以剔除,数据点在Q3至上限之间或在下限与Q1之间为温和值,不予剔除。取五组光谱数据进行检测,由图1可知第二组光谱数据有一个异常数据点为7.636,应予以剔除。
图1 异常值剔除Fig.1 Outlier rejection
在土壤压片样本制作过程中,在含水率区间10%到25%之间设置10个等含水率梯度,当采用含水率大于15%的土壤进行压片时,在10 MPa压力下,压片易粘连变形,导致土壤压片检测面不平整,无法进行测量,故用样品盒代替土壤压片进行测量。由图2(a)光谱曲线可知,在同一浓度,同一含水率条件下,采用样品盒土壤测得的荧光光谱曲线相比于压片测得的荧光光谱曲线中Zn元素的特征峰波峰下降,波宽变窄,相应的净峰面积减少,所以需对样品盒光谱数据进行校正,减少测量误差。首先对同一重金属浓度,同一含水率条件下4个压片数据进行处理,通过熵权法根据光谱数据的变异程度,利用信息熵对每一个压片数据指标的权重进行修正,使得压片指标权重更为客观,以此来获得平均压片光谱数据[10]。再通过多元散射校正来对样品盒数据进行校正,以平均压片光谱数据作为理想光谱数据,对样品盒光谱数据进行修正,由图2(a)和(b)所示,经校正后的样品盒数据更贴近土壤压片数据,可以有效地消除土壤样品颗粒大小,装填密度等不同引起的散射影响,有效的提高光谱的信噪比[11]。
图2 土壤样品盒光谱校正图(a): 校正前光谱对比; (b): 校正后光谱对比Fig.2 Soil sample box spectral correction chart(a): Spectrum comparison before correction;(b): Comparison chart of corrected spectrum
由于测量环境和能谱仪在采集光谱,获取光谱以及传输光谱的过程中,受到各种噪声的干扰[12],影响光谱数据的分析,因此要对光谱进行去噪处理,本实验采用5点2次Savitzky-Golay卷积平滑去噪法来对光谱进行处理,该方法操作简单,功能强大,在光谱去噪处理中被广泛应用。图3(a)为去噪处理后光谱数据对比图,经过处理后提高了光谱的平滑性,降低了光谱噪声的干扰。另外利用X射线荧光光谱法快速检测样品时,X射线与样品间相互作用产生的相干及非相干散射、康普顿散射等,会导致X射线信号峰生成本底,产生基线漂移现象,为此在光谱解析前必须扣除本底,本研究采用线性本底法有效地扣除了光谱本底,图3(b)为扣除本底后光谱对比图。
图3 土壤光谱数据处理(a): 土壤光谱去噪对比; (b): 本底扣除对比Fig.3 Processing of soil spectral data(a): Comparison of soil spectral denoising;(b): Background deduction comparison
由于深度卷积神经网络特殊的深度学习结构,需先对光谱数据进行归一化处理,再将提取归一化后的光谱数据向量转化为二维光谱信息矩阵,以适应卷积层的操作要求,充分发挥深度卷积神经网络预测模型的表达能力。取道址范围100~700区间内600个光谱数据点作为模型的输入,共取245组光谱即(245×600),输出为土壤中重金属Zn元素的含量值,由于卷积神经网络结构的特殊性,实验过程中,对同一含水率、同一重金属浓度下测得5组平行光谱数据,即以5组平行光谱数据构建光谱信息矩阵,对应输出一个土壤中重金属Zn元素含量预测值。如此就将245×600的光谱数据转化为49×5×600形式,对应输出49组土壤重金属Zn元素的含量,图4为深度卷积神经网络预测模型结构图。
本研究采用三层深度卷积神经网络预测模型,三层卷积核尺寸都设置为3×1、步长设置为1×1,卷积核个数每层依次为16,32和64,模型使用ReLU激活函数激活,池化层采用最大池化方式,池化步长设置为2×1以减少数据的维度,提高训练效率。在全连接层和输出层之间加入Dropout层,防止过拟合,使用ADAM优化器对预测模型进行优化[13]。首先将总光谱数据划分为39个训练集和10个测试集,通过样本LOSS,MAE,MRE以及MSE来评价预测模型的好坏,预测模型的LOSS越小,代表预测值与真实值之间差异越小,模型的鲁棒性越好。本次研究采用LOSS,MAE和MRE等三项指标来确定三层卷积神经网络最优的学习率及迭代次数,如表1所示。
图4 深度卷积神经网络结构图Fig.4 Structure of deep convolutional neural network
表1 卷积神经网络参数Table 1 Convolutional neural network parameters
由表1数据可以发现,在深度卷积神经网络预测模型中,当固定模型迭代次数次η=2 000时,学习率ε=10-3时,模型的预测效果最好,同理固定模型学习率ε=10-3时,迭代次数η=3 000时,模型的预测效果最好,因此,当深度卷积神经网络预测模型的学习率ε=10-3,迭代次数次η=3 000时,模型的LOSS,MAE和MRE都最小,模型具有较好的预测效果,预测模型的MSE为5.466×10-7、RMSE为7.393×10-4、R2为0.955 9,通过预测模型计算的Zn含量预测效果如图5(a)和(b)所示。
将基于深度卷积神经网络预测模型与浅层神经网络预测模型进行对比分析,对比模型包括BP神经网络预测模型、ELM预测模型、以及PLS预测模型,通过MSE,RMSE以及R2来分析比较基于深度卷积神经网络预测模型的好坏,对比结果如表2所示。
由表2可以发现,深度卷积神经网络的MSE以及RMSE分别达到5.466×10-7和7.393×10-4,相比于浅层神经网络预测模型,深度卷积神经网络预测模型预测的重金属Zn元素的含量值要更加精确,另外卷积神经网络预测模型的决定系数为0.958 3,相比于BP,ELM和PLS三种预测模型,曲线的拟合程度也比另外三种预测模型效果要好,因此利用深度卷积神经网络-X射线荧光光谱法对土壤中重金属Zn元素含量预测具有较好的准确性和精确度,具有可行性。
图5 Zn元素含量预测图(a): 四种预测模型测试集数据对比;(b): 3-CNN训练集数据对比Fig.5 Zn element content prediction chart(a): Data comparison of four prediction model test sets;(b): 3-CNN training set data comparison
表2 预测模型对比Table 2 Comparison of prediction models
通过粉末压片法制作土壤压片,采用XRF法获得土壤X射线荧光光谱数据,利用箱型图、熵权法、多元散射校正、Savitzky-Golay平滑去噪法以及线性本底法等对土壤X射线荧光光谱数据进行处理,并建立基于深度卷积神经网络-X射线荧光光谱法的预测模型来对土壤中重金属Zn元素含量进行预测,可以得到如下结论:
(1) 采用熵权法,根据采集到的光谱数据的差异性客观分配权重,以此获得平均压片光谱数据,再结合多元散射校正,将平均压片光谱数据作为理想光谱数据来对样品盒光谱数据进行校正,减少了预测模型的预测误差,使预测结果更加精确。
(2) 研究分析了在不同学习率、不同迭代次数等条件下,预测模型的预测性能,确定了深度卷积神经网络预测模型最优的学习率为10-3以及最优的迭代次数为3 000。
(3) 根据卷积神经网络的深度学习结构,采用构建光谱信息矩阵的方式,将同一含水率、同一重金属浓度下5组平行光谱数据向量转化成二维光谱信息矩阵的形式能更好的适应卷积层的操作要求,利用卷积神经网络局部连接、权值共享、卷积池化操作以及多层结构特点,能有效提取土样压片X射线荧光光谱数据的局部特征,充分发挥了卷积神经网络预测模型的表达能力。
(4) 将深度卷积神经网络预测模型与BP预测模型、ELM预测模型、PLS预测模型进行对比,通过预测模型的MSE,RMSE和R2可知基于XRF-CNN的预测模型具有很好的精确度和准确性。
在土壤重金属污染中,Zn元素只是重金属污染所包含元素之一,该预测模型的建立对土壤中其他重金属如Cr,Cd,As,Pb等元素含量的预测也具有重要的借鉴意义,为未来土壤污染中重金属元素的定量检测提供了相应的技术支持。