水体透射光谱结合主成分分析(PCA)改进化学需氧量(COD)含量估算研究

2024-03-04 00:42王彩玲位欣欣
中国无机分析化学 2024年4期
关键词:有理高斯预处理

王彩玲 位欣欣

(西安石油大学 计算机学院,西安 710065)

化学需氧量(Chemical Oxygen Demand,COD)是表征水体被还原性物质污染程度的指标,该指标作为有机物相对含量的综合指标之一,列入我国主要污染物总量控制指标,根据其排放浓度衡量水体污染程度[1]。传统的COD测量方法主要是基于化学分析,耗时较长,操作专业性高,不利于快速、实时地获取水体中COD的信息[2]。而高光谱技术结合人工神经网络模型可以快速、准确地估算水体中的COD含量,从而为环境监测和水质调控提供了有效手段。

近年来,关于利用高光谱遥感技术评价和监测水资源水质信息状况方面的研究愈发深入[3]。高光谱技术是一种通过对目标物体光谱信息的收集和分析,实现对目标物体性质的识别和定量测量的技术。利用高光谱技术,可以实现对水体中COD含量的快速、无损检测。国内外学者利用高光谱技术结合各种算法进行了大量水质检测技术的研究。YES等[4]应用UVE-SPA-LS-SUV的方法实现了对COD的建模预测;KIMBERLY等[5]构建出偏最小二乘最佳高光谱 Chl-a 浓度估算模型;ORTIZ等[6]利用高光谱技术检测出水体总悬浮固体浓度;曹引等[7]建立偏最小二乘水体浊度高光谱反演模型,为水体浊度大面积遥感检测提供了技术支持;张贤龙等[8]提出高光谱技术水质参数浓度反演模型;蔡建楠等[9]采用 GA 遗传算法实现了基于偏最小二乘法高光谱 COD 检测模型的优化。

本文以水体COD含量为研究对象,通过多元散射校正(MSC)、标准正态变换(SNV)、最大最小归一化(MMN)三种不同的高光谱数据预处理方法对采集到的高光谱数据进行预处理,建立相应的高斯过程回归模型(Gaussian Process Regression,GPR)和BP神经网络模型,并对模型进行改进。结合主成分分析(Principal Component Analysis,PCA)方法对预处理后的数据进行主成分分析,通过数据降维,保留足以解释90% 的方差的成分,从预处理后的光谱数据中提取22个主成分,筛选出相关性较好的波段,建立改进的GPR水体COD含量估算模型和BP神经网络模型水体COD含量估算模型。实验结果表明,基于PCA改进的模型的预测精度均明显提高,其中标准正态变量变换特征PCA-BP神经网络模型的R2高达0.994 0,均方根误差为0.022 540,模型性能最优,能够实现水体中COD含量的检测。

1 实验部分

1.1 光谱仪

实验用仪器为 Ocean Optics 公司出品的 OCEAN-HDXXR 微型光纤光谱仪,该光谱仪采用高清晰度光学系统,具有高通量、低杂散光和高热稳定性的特点,适用于精确测量溶液中的分析物,具有体积小,容易集成到许多工业应用的生产过程环境的优势。

1.2 透射光谱数据获取

选择配比溶液为 0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0 mg/L的 COD标准溶液,更换光谱仪的狭缝为 10 μm,相同时间间隔各自重复采集10次上述标准溶液200~1 030 nm的高光谱透射率数据,共得到100条数据。

采用白板校正分别得到所采集的三种高光谱数据的光谱透射率值[10],如式(1)所示:

(1)

其中:Ro为原始光谱数据,RW为白板数据。

2 实验结果

2.1 COD原始透射光谱

图1(a)为10种浓度COD原始透射光谱,从图1中可以看出,不同浓度溶液的COD光谱曲线的趋势类似,在紫外线波段180.1~400 nm,COD光谱曲线呈先下降后上升的趋势,这说明随着有机物含量的增加,水体COD含量越低,其光谱曲线特征越发明显。

图1 透射光谱图Figure 1 Transmission spectrograms.

2.2 数据预处理

对于高光谱数据,除了COD的特征信息外,还可能有光谱采集过程中产生的背景噪声辐射以及信号转换过程中产生的附加噪声[11],分别采用不同的预处理方法进行处理,如图1(b)~1(d)所示。其中,采用多元散射校正有效消除由于散射水平不同导致的光谱数据的差异,增强光谱与数据之间的相关性[12];采用标准正态变量变换降低固体颗粒大小、表面散射以及光源变换等对光谱信息的影响[13];采用最大最小归一化在不同程度上消除了光谱散射和背景干扰的影响[13]。

2.3 模型的建立

采用高斯过程回归模型和BP神经网络模型以上述预处理后的高光谱数据为自变量,将不同浓度的COD样本与光谱数据进行拟合,为了防止在模型的训练过程中出现过拟合的现象,采用五折交叉验证方法。输入为光谱数据,输出为COD样本的浓度。然后分别建立各类自变量的高斯过程回归模型和BP神经网络模型。

2.3.1 高斯过程回归模型建立

高斯过程回归(GPR)是一种建立在贝叶斯框架下的统计学习方法,模型性质完全由均值函数和协方差函数确定[14]。它有严格的统计学理论基础,对处理高维数、小样本、非线性等复杂回归问题具有良好的适应性[14];该算法还具有容易实现,参数自适应获取,输出结果具有概率意义等优点[14]。

将预处理后的透射光谱数据作为模型的输入,建立高斯过程回归模型。使用MATLAB中自带的 Quadratic Rational Gaussian Process Regression算法对高斯过程回归模型进行学习训练。本次实验中将该算法的基函数设置为常量,核函数选用二次有理函数,同时在训练过程中对高光谱数据进行标准化,优化数值参数,以达到最优效果。模型输出结果如图2所示。

图2 高斯过程回归模型预测结果Figure 2 The prediction results of Gaussian process regression model.

2.3.2 BP神经网络模型建立

使用MATLAB中自带的 Scaled Conjugate Gradient Backpropagation算法对 BP 模型进行学习训练。该算法根据缩放共轭梯度法更新权重和偏差值,同时占用更少的内存,适用于高光谱数据,选择三层神经网络模型进行训练,第一层神经元个数设置为20,第二、三层设置为10,该算法中迭代次数(Epoch)阈值为 1 000,激活函数设置选用Sigmoid函数,探究不同预处理方法对BP网络模型回归准确率影响。模型输出结果如图3所示。

图3 BP神经网络模型预测结果Figure 3 The prediction results of BP neural network model.

2.3.3 模型结果评估

以均方根误差RMSE和决定系数R2为标准对所建立的各个模型进行精度检验与比较。其中:均方根误差RMSE越小,说明模型选择和拟合更好;决定系数R2越接近1,说明模型拟合的效果越好。检验结果如表1所示。

表1 未改进模型精度检验结果Table 1 Testing results of unimproved model accuracy

由表1可知,与全波段的模型相比,经过预处理后的二次有理GPR模型和BP神经网络模型的性能均有所提高。其中,预处理后的二次有理GPR模型其R2最高达0.982 6;其RMSE最低为0.038 168;预处理后的BP神经网络其R2最高达0.979 3,比全波段R2高出0.039 2,其RMSE最低为0.041 567;与全波段的模型相比,预测精度均比原数据较高。说明采用预处理方法对数据进行处理可以有效提取有效光谱信息,排除干扰信息,从而提高光谱数据与 COD浓度之间的相关性,使得模型的性能提高,预测效果更好。

2.4 基于PCA改进模型的建立

利用主成分分析法(PCA)对模型进行改进,建立基于PCA的BP神经网络定量估算模型以及二次有理GPR的定量估算模型。PCA是一种使用最广泛的基于线性映射的特征提取技术,该算法通过一定的变换将高维数据映射到一个新的低维空间,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依此类推,这些主成分能够反映绝大部分的变量信息[15]。本文实验中设置PCA保留足以解释90% 方差的成分。模型训练后,提取22个主成分。每成分的解释方差(顺序排列):37.0%、 18.4%、9.1%、4.3%、3.0%、2.0%、1.7%、1.5%、1.4%、1.3%(隐藏最不重要成分的方差)。

2.4.1 基于PCA改进的高斯回归模型

将 COD数据集作为PCA-二次有理GPR模型的输入。模型输出结果如图4所示。

图4 改进的高斯回归模型预测结果Figure 4 The prediction results of improved Gaussian regression model.

2.4.2 基于PCA改进的BP神经网络模型

将 COD数据集作为PCA-BP神经网络模型的输入。模型输出结果如图5所示。

图5 改进的BP神经网络预测结果Figure 5 The prediction results of improved BP neural network model.

2.4.3 基于PCA改进的模型结果评估

从输出的结果可以看出,预测值与真实值差异较小,具有很好的相关性。对所建立的各个改进的二次有理GPR模型以及 BP神经网络模型进行精度检验并进行比较。改进模型检验结果如表2所示。

表2 改进的模型精度检验表Table 2 Testing results of improved model accuracy

由表2可知,与未改进的模型相比,基于PCA改进模型的预测精度均有所提高。其中,多元散射校正特征PCA-二次有理GPR模型的R2增长为0.990 9,多元散射校正特征PCA-BP神经网络模型的R2增长为0.990 8,其RMSE均有所减少;标准正态变换特征PCA-二次有理GPR模型的R2增长为0.992 0,标准正态变量变换特征PCA-BP神经网络模型的R2增长为0.994 0,可以发现改进后的标准正态变量变换的R2更接近于1,且RMSE均明显减少,精度较为提高;最大最小归一化特征PCA-二次有理GPR模型和最大最小归一化特征PCA-BP神经网络模型的R2增长为0.988 3和0.984 4;其RMSE减少为0.031 195和0.036 048,预测精度相比未改进的模型也有所提升。说明采用 PCA对预处理后的数据进行数据降维,可以实现 COD含量估算模型的优化。

3 结论

分别采用多元散射校正、标准正态变量变换、最大最小归一化对光谱透射率数据进行预处理,并建立二次有理高斯回归模型和BP神经网络模型,对于不同的模型,探究不同特征输入对模型精度的影响,结果表明:3种预处理方法可以有效降低噪音对数据的干扰,且二次有理GPR模型相比BP神经网络模型有较好的预测精度;基于PCA对各预处理后的透射光谱数据进行数据降维,筛选出相关性较好的波段,从而建立改进的二次有理GPR模型和BP神经网络模型。其中,标准正态变量变换特征PCA-BP神经网络模型决定系数达到了0.994 0,均方根误差为0.022 540,依据R2最大、RMSE最小原则,采用PCA改进的标准正态变量变换特征BP神经网络模型可以建立精度较好的COD定量估算模型。

猜你喜欢
有理高斯预处理
有理 有趣 有深意
《有理数》巩固练习
数学王子高斯
天才数学家——高斯
基于预处理MUSIC算法的分布式阵列DOA估计
圆周上的有理点
浅谈PLC在预处理生产线自动化改造中的应用
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法
某些有理群的结构