基于LLE-SVR的水质COD紫外光谱检测方法研究

2019-01-12 02:18
传感器世界 2018年9期
关键词:降维预处理光谱

北京信息科技大学 自动化学院,北京 100192

一、引言

化学需氧量(Chemical Oxygen Demand,COD)是能够反应水体有机污染程度的一项重要的指标[1]。基于紫外光谱分析的水质监测是通过建立紫外吸光度和有机物以及部分无机物浓度的相关模型来评价水体污染程度,具有环保、低成本、便携等优点,是水质监测仪器的重要发展方向[2]。在一定程度上,基于紫外可见光谱法测定COD,其测量精度严重依赖于所建立的数学模型。因此,如何选择合适的数学模型以提高预测精度,成为目前紫外可见光谱COD测量研究的重点[3]。目前,基于紫外可见吸收光谱分析中,模型分析方法主要有人工神经网络(Artificial Neural Network,ANN)[4-5]、主成分回归(Principal Component Regression,PCR)[6-7]、支持向量机回归(Support Vector Regression,SVR)[8-9]以及偏最小二乘(Partial Least Squares,PLS)[10]等,在线性分析建模中,比较常用的是PLS。

张森[11]等运用偏最小二乘法结合支持向量机的方法,解决了水质因子多重相关问题,提高了预测精度,预测值与实际值相对误差均低于1%,最大为0.7759%,平均相对误差为0.39%。俞禄[12]等以总有机碳(Total Organic Carbon,TOC)、COD为指标,分别建立PLS、PCR、偏最小二乘回归(partial least squares regression,PLSR)、最小二乘支持向量机(Least Squares Support Vector Machine,LSSVM)预测模型,结果表明,LSSVM的预测精度最高。陈武奋[13]等以水温、溶解氢、电导率、浊度数据为影响因子,建立基于SVR的水质pH值预测模型,结果表明,基于SVR预测模型训练集决定系数为0.854、测试集决定系数为0.897,平均相对误差为1.419%,该模型为水质评价提供了一定的参考价值。

由于水体具有一定的多样性和复杂性,紫外吸收光谱信号通常在全波段进行扫描采样。但是全波段光谱信息作为非线性建模输入变量会导致模型的复杂度增加,减低计算速度,使检测的实时性难以保证,同时会导致不确定干扰因素的引入,进而降低准确度[14]。

对原始数据降维是一种有效的消噪并且提取有用信息的方法。流形学习是从高维映射到低维流空间,来达到数据低维、可视的目的,从而找到内在规律[15-16]。局部线性嵌入式算法(Locally Linear Embedding,LLE)是Roweis和Saul[17]于2000年提出的非线性降维方法,其本质是利用局部线性去逼近全局非线性,对原始数据点进行重构,来保持整体的特性。LLE 方法具有低复杂度、少参、高效、容易实现等优点[18-19]。

本文对室内光谱仪测量的水样紫外光谱进行研究,光谱信息量庞大、维数过高,存在着噪声干扰,需要对数据降维。首先通过LLE 对紫外可见吸收光谱数据进行非线性降维,然后建立基于SVR的预测模型,由此结合LLE和SVR的优点,建立了基于水质COD预测模型。结果表明,LLE-SVR方法建立的预测模型效果显著。

二、实验材料

实验中,共获得54组样本,取自于某市生活废水、河流地表水以及工业排放废水,本实验采用的是BIM-6002A光谱探测器(杭州Brolight公司生产)采用交叉非对称C-T光路结构,光学分辨率高达0.35nm~1nm,光源选择LS~3000型50W卤素灯,工作波长范围为200nm~900nm。根据GB11914-89《重铬酸盐法水质化学需氧量的测定》来获得每个样本的COD真值[20]。图1为54组样本的光谱曲线,光谱采集的范围为190nm~400nm。

三、结果与性能评价

本实验总共获得54个实验样本,将这些样本划分为训练集和预测集,其中训练集样本42个,用来建立数学模型,预测集样本12个,用来检验模型的精度和预测能力。

1、光谱数据预处理与初步建模分析

在数据采集的过程中,由于仪器设备的高频噪音、人员操作、外界环境等因素,往往会导致一些无关因素参与到模型的建立,从而影响所建模型预测精度,选择合适的预处理方法能够提高模型的预测精度。对光谱数据分别进行S-G平滑滤波(Savitzky-Golay smoothing filter,SG)、标准正态变换(Standrd Normal Variate,SNV)、一阶微分(First Derivative,FD)以及小波变换(Wavelet Transform,WT)的预处理,再通过PLSR和SVR两种方法进行建模分析,来分析比较不同预处理方法对模型预测结果的影响。

本实验采用均方误差(Mean Square Error,MSE)作为性能指标评价模型的建模和预测能力。

通过表1可以得出,通过不同预处理的光谱数据得出了不同的预测效果,通过比较训练样本和测试样本,WT+SVR获得的预测模型精度最高。WT可以有效的抑制无用噪声,并保留有用信息,采用SVR建模在总体上优于PLSR,其原因可能是SVR能够有效利用光谱信息中隐含的与水质COD浓度相关的非线性关系。

表1 不同预处理方法误差

2、光谱数据的再处理

在水质检测中,利用全光谱参与模型建立会增加模型复杂度,计算时间长,效率低,不利于模型的应用和推广。由于全光谱数据中可能含有一些无关信息参与模型建立,运用以上预处理方法仍旧不能很好的改善模型预测精度。通过数据降维,一方面可以降低维数,减小复杂度,另一方面可以更好地提取有用信息。下面分别运用LLE和主成分分析(Principal Component Analysis,PCA)算法对数据降维,再分别结合SVR建立COD浓度预测模型。

(1)PCA-SVR

PCA算法能够在数据空间中发掘出能尽可能使数据从高维降到低维的向量,以此来得到原始数据空间对应的最低维空间的算法。通过对预处理后的光谱数据进行PCA降维,得到其各主成分分量以及所占比例,如图2示。

取累计贡献率达到85%以上的前14维数据,采用SVR进行建模分析,得出训练样本MSE=0.216076,测试样本MSE=0.317303,模型预测值与实际值比较曲线如图3所示。

(2)LLE-SVR[21]

假设有n个水样紫外光谱数据样本,X={x1,x2,…,xn}为初始光谱样本,且xi=Rp,原始光谱维数为p。映射到低维空间的样本为Y={y1,y2,…,yn},yi∈Rd,d为降维后数据维数(d<p),d为预先设定的值。

LLE算法的步骤如下:

LLE方法是映射数据集X={x1,x2,…,xn},xi=Rp到数据集Y={y1,y2,…,yn},yi∈Rd(d<p),主要包括3步:

第1步,局部邻域,计算出每个样本点xi与其他n-1个样本之间的欧氏距离,选取xi的k个近邻点,k为预设值;

第2步,重新计算对每个样本点xi以及它的k个近邻点的权值;

其中,ωij—xi和xj之间的权值,且当xj不属于xi的近邻时,ωij=0;

第3步,根据重建权值,将所有样本数据点映射到低维空间中,得到低维输出,且尽量保持高维空间中的局部线性特征,使重构误差函数最小。

要求满足下面两个条件,即:

k和d为LLE算法的两个可调参数。k和d的大小不同,训练样本和测试样本也会得到不同的预测结果,k的选择受样本个数的影响,本实验为小样本,选取的k值较小;而d的选择受光谱数据中干扰因素大小及多少的影响,维数过小导致提取信息不够充分,维数过高则加大噪声等无用信息对模型建立的影响。

本文运用六折交叉验证的方法,k从10取到20,d从10取到30,得到最佳的k为13,最佳的d为27。图4为参数选择结果图。

SVR不敏感损失系数ε取0.021、惩罚系数C取10000、RBF核函数的宽度系数γ取7.2,训练样本MSE=0.076030,测试样本MSE=0.06147,模型预测值与实际值比较曲线如图5所示。

从图3、图5可以看出,LLE-SVR模型预测结果的拟合精度相对于PCA-SVR有很大的提高,以MSE为评价标准,进一步对比两个模型的预测性能,相对PCA-SVR模型训练样本MSE=0.216076,测试样本MSE=0.317303,LLE-SVR模型训练样本MSE=0.076030,测试样本MSE=0.061477,模型精度显著提高,由此可见,LLE-SVR模型有效提取了光谱中的非线性特征,预测效果优于PCA-SVR模型。

四、结束语

由于水体成分复杂,无关因素干扰比较多,若以全波段作为输入,对于所建模型精度必将有很大地影响。本文采用局部线性降维(LLE)和支持向量机回归(SVR)相结合的方法,建立了水样紫外可见光谱吸光度与COD浓度之间的预测模型。得到以下结论:

(1)分别用不同的预处理方法结合SVR和PLSR,发现运用WT结合SVR建立的模型效果最好;

(2)预处理后的光谱数据结合LLE非线性降维工具,并与PCA降维进行比较,采用LLE降维后的预测效果更理想;

(3)本文利用LLE这一非线性降维工具结合SVR建立预测模型,揭示了水质COD浓度和吸光度之间的非线性关系,提高了模型预测精度,为紫外可见光谱法检测水质COD浓度提供了一种可行的分析方法。

猜你喜欢
降维预处理光谱
基于三维Saab变换的高光谱图像压缩方法
混动成为降维打击的实力 东风风神皓极
求解奇异线性系统的右预处理MINRES 方法
降维打击
基于预处理MUSIC算法的分布式阵列DOA估计
浅谈PLC在预处理生产线自动化改造中的应用
一种改进的稀疏保持投影算法在高光谱数据降维中的应用
星载近红外高光谱CO2遥感进展
基于膜过滤的反渗透海水淡化预处理
苦味酸与牛血清蛋白相互作用的光谱研究