基于高光谱定量反演模型的污水综合水质评价

2019-12-06 03:11陈俊英张智韬劳聪聪栗现文王海峰
农业机械学报 2019年11期
关键词:波段反演光谱

陈俊英 邢 正 张智韬 劳聪聪 栗现文 王海峰

(1.西北农林科技大学水利与建筑工程学院, 陕西杨凌 712100;2.西北农林科技大学中国旱区节水农业研究院, 陕西杨凌 712100)

0 引言

近年来,利用高光谱遥感技术评价和监测水资源水质信息状况方面的研究愈发深入[1]。而应用高光谱技术检测水体水质的关键在于水质的综合评价和光谱数据与水质参数间数学模型的建立。对于光谱数据和水质参数间数学模型的建立,国内外学者对影响水体质量的几个主要参数指标的遥感估算进行了大量的研究,如化学需氧量(Chemical oxygen demand, COD)、浊度、总磷、生物耗氧量(Biological oxygen demand, BOD)、总氮等。YE等[2]应用UVE-SPA-LS-SVM的方法实现了对COD的建模预测;吕航等[3]利用 HJ-1A卫星HSI高光谱遥感数据,建立了9个水质参数与水体光谱反射率之间的估算模型;曹引等[4]建立了水体浊度的高光谱定量反演模型,为水体浊度大面积遥感监测的业务化管理提供了技术支持;BANSOD等[5]通过高光谱的图像数据,对恒河的水质参数进行了反演评价。在对于水质单一参数的高光谱数据反演模型建立上,目前已经达到可以定量的效果[6-9]。但影响水体质量的水质因子数目众多,利用单独的某项水质参数来描述水质的信息状况不够全面,因此往往会对水质进行综合评价。对于水质的综合评价,目前的研究也较为成熟。马小雪等[10]利用主成分分析法对温瑞塘河流域多项水质参数进行时空分异特征分析和潜在污染源的识别;徐国宾等[11]利用模糊标识指数对水质达标状况、水质类别和主要污染因子进行综合评价。这些水质综合评价方法通过已有的水质参数资料能够很好地表征水质的信息状况,但在实时性方面存在不足。因此,需建立高光谱结合水质综合评价方法反演水质模型,充分发挥高光谱遥感的实时性、大范围性与水质综合评价方法的全面性、准确性的优势。目前对于高光谱结合水质综合评价方法反演水质模型的研究较少。

本文将一组来自污水处理厂各处理工艺处的水体样品分成两份,一份经由室内理化试验,检测各项水质参数,并利用主成分分析对水体水质进行综合评价,得到水质综合评价因子;同时对另一份水体样品进行高光谱数据的采集,将采集到的光谱数据进行不同的预处理,采用偏最小二乘法、逐步回归法和极限学习机法对光谱数据和水质综合评价因子进行建模预测以及验证。比较各预处理方法及对应的建模方法的验证结果,选出更适合用于水质综合评价高光谱反演的数据预处理及对应建模方法,为建立高光谱结合水质综合评价方法反演水质模型,实现对水质信息状况的大范围实时监测提供可行的路径。

1 试验材料与方法

1.1 样本采集及样本水质指标的测定

试验用水水样取自某生活污水处理厂,取水位置分别为生活污水处理的不同工艺处,即进水口、厌氧池、好氧池、沉淀池、出水口,对照的水样为纯净水。各水样的各项水质参数经由室内理化试验测定,结果见表1(部分)。

1.2 光谱测定

污水样品采用ASD Field Spec 3型地物光谱仪测量高光谱数据。光谱仪波长范围为350~2 500 nm,采样间隔为1.4 nm(350~1 000 nm)和2 nm(1 000~2 500 nm),重采样间隔为1 nm。光谱测量在暗室中进行,光源为DH-2000型氘卤钨灯光源[12]。

1.3 光谱数据预处理

本试验中87个样品获得的光谱波段为350~2 500 nm。由于试验条件以及其他因素的影响,测量的光谱中可能包含了一些冗余信息以及噪声,因此需要对获得的光谱波段进行选择以提高建模的准确度。

由图1可看到,在350~400 nm、2 300~2 500 nm波段范围由于处于边缘噪声较大,不适用于建模。而大于2 000 nm波段,反射率很小,可利用的信息很少,难以找出不同样本光谱图的差别。故本研究选用400~2 000 nm的光谱波段。在建模前需要对光谱数据进行一定的预处理以削弱由测试环境及其他干扰因素导致的影响,提高数据信噪比。本文采用预处理方法有Savitzky-Golay(SG)平滑、标准正态化(SNV)、去包络线(CR)和倒数之对数(LR)预处理等。

1.3.1Savitzky-Golay平滑处理

平滑滤波是光谱分析中常用的预处理方法之

表1 主要水质参数Tab.1 Main water quality parameters

图1 全波段原始光谱反射率曲线Fig.1 Full-band original spectral reflectance curves

一,通常利用Savitzky-Golay方法进行平滑滤波。Savitzky-Golay方法是一种在时域内基于局域多项式最小二乘法拟合的滤波方法。其最大的特点在于在滤除噪声的同时可以确保信号的形状、宽度不变,可以提高光谱的平滑性,并降低噪声的干扰[13]。本次处理中移动窗口宽度为5及多项式次数为3。

利用Savitzky-Golay滤波法对所有光谱数据(400~2 000 nm)进行平滑、去噪,取去噪声后的部分光谱数据曲线如图2a所示。

1.3.2标准正态化处理

标准正态变量变换(SNV)预处理针对一条光谱进行处理,主要是消除光程变化、散射和颗粒大小之间的干扰[13]。计算公式为

(1)

式中Xi——i个样品光谱的平均值(标量)

m——波长点数

n——校正集样品数

采用标准正态变量变换(SNV)对所有光谱数据(400~2 000 nm)进行处理,取处理后的部分光谱数据曲线如图2b所示。

1.3.3去包络线处理

去包络线(CR)处理将光谱曲线归一化到0~1之间,能够突出光谱曲线的吸收和反射特征,增强光谱曲线各波段之间的对比性[14]。

采用去包络线(CR)对所有光谱数据(400~2 000 nm)进行处理,取处理后的部分光谱数据曲线如图2c所示。

1.3.4倒数之对数处理

在高光谱研究中,常将反射率进行倒数之对数变换,该变换形式有利于处理非线性问题,增强相似光谱之间的差异,并适当减少随机误差[15]。

采用倒数之对数处理方法对所有光谱数据(400~2 000 nm)进行处理,取处理后的部分光谱数据曲线如图2d所示。

平滑光谱反射率SG、LR在ViewSpec Pro V6.0.11软件中处理获得,指标CR利用ENVI 5.1的Continuum Removed模块处理得到。其他数据预处理通过The Unscrambler X 10.4实现。

1.4 模型建立与验证

1.4.1样品集的划分

样品集的划分采用Kennard-Stone算法(简称K-S)。K-S算法是根据已经被选择的样品计算未被选择的样品的最小欧氏距离,然后通过选择经由计算的欧氏距离最大的样品进入校正集,以此反复,直至选出的样品数达到指定要求[16]。K-S算法在选择具有代表性的样品方面已经被证明有着较好的效果[17]。本研究选取58个水质样本作为建模集,29个水质样本作为验证集,分别用于模型的建立以及精度验证。

图2 不同预处理后的光谱反射率曲线Fig.2 Spectral reflectance curves after different pretreatments

1.4.2模型方法和评价指标

采用偏最小二乘回归法(PLSR)、逐步回归法(SR)和极限学习机(ELM)这3种回归方法建立高光谱遥感对水质综合评价的反演模型。其中PLSR在建模过程中具有降维、信息集成和波段优选等方法极大地提高了系统提取主成分的能力,得到了广泛地应用,可较好地解决自变量之间存在的共线性问题[18-20]。而SR是一种便捷高效的模型优化方法,对高光谱数据的“降维”具有较好的作用[21-22]。ELM是一类基于前馈神经网络的机器学习算法,与传统的前馈神经网络相比较,ELM 有着学习效率高、精度高且参数调整简单等优点[23-25]。

(2)

(3)

(4)

式中yi、i——验证样本的观测值和预测值

n——验证样本数

SD——样本观测值方差

RMSE——均方根误差

2 结果与分析

2.1 不同污水样本高光谱曲线特征分析

选12条较为典型的污水样本经过平滑(SG)、倒数之对数(LR)、去包络线(CR)、标准正态化(SNV)4种预处理后的光谱曲线,见图2。

由图2a可以发现,12条光谱曲线波形基本相似。图2b、2c、2d分别是水体原始光谱经标准正态化(SNV)、去包络线(CR)、倒数之对数(LR)3种预处理后的反射率。从图2a、2b可以看出,在410、480 nm波段处有明显的反射峰值,在440、760、900、1 000 nm处有明显的吸收峰值。这与吕航等[3]的研究较为符合,是由于在410、470 nm波段处有较多的水质参数对反射更为敏感,而在440、760、900、1 000 nm处有较多的水质参数对光谱的吸收更为敏感。从图2c、2d可以看到,经由去包络线CR和倒数之对数LR处理后,放大了1 000~2 000 nm处的光谱波段,使得光谱吸收带变得更加明显,可以看到在1 400 nm附近处和1 900 nm附近处也有着光谱的吸收敏感波段区,也验证了CR预处理能够突出光谱曲线的吸收和反射特征,增强光谱曲线各波段之间的对比性,以及 LR预处理在增强相似光谱之间差异的优越性。

2.2 水质综合评价

水质系统是一个由各种水质污染指标变量组成的复杂系统,其内里蕴含众多能够影响水体质量的水质因子,每一种水质因子都只从某一方面表征了水体质量,而这些水质因子之间又往往有着不同程度的相关性,因此在对水质进行评价时,将这些水质因子都利用起来有一定的难度[27]。

主成分分析(Principal component analysis,PCA)是一种多元统计分析方法,其主要是利用降维的思想,把最初错综复杂的多个变量归纳总结成为少数几个综合变量,其中每一个综合变量都是原始变量的线性组合,各综合变量之间不存在相关性,从而实现利用少数几个综合变量来反映原始变量的绝大部分信息,且所含的信息互不重叠[28]。

主成分分析法(PCA)分析水质参数的基本思想是将n个水体样本的P个污染指标变量Xj(j=1,2,…,P),通过对这P个污染指标变量相关性的研究,重新组合构造出m(m

2.3 PLSR建模及预测

偏最小二乘回归PLSR具有主成分分析、典型相关分析和多元线性回归等的优点。运用The Unscrambler X 10.4软件将全波段(400~2 000 nm)4种光谱指标(SG、LR、SNV、CR)作为自变量,以水质综合评价因子作为因变量,通过将均方根误差(RMSE)和决定系数R2对主因子数作图的方法确定最佳主因子数,建立PLSR回归模型。建模以及验证结果见表4。

表2 特征值贡献率Tab.2 Eigenvalue contribution rate

表3 水质分级标准Tab.3 Water quality classification standards

表4 水质指标的偏最小二乘模型Tab.4 PLSR model of water quality indicators

2.4 SR建模及预测

逐步回归是一种线性回归模型自变量选择方法,其基本思想是将自变量逐个引入,根据自变量对因变量的解释程度或显著性,将对因变量解释程度小或者显著性低的自变量进行剔除,保留显著的解释变量,如此反复,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止,完成对数据的大幅降维,得到了最优的解释变量集。本文运用全波段4种光谱指标(SG、LR、SNV、CR)作为自变量,水质综合评价因子为因变量。变量入选和剔除的显著水平分别设为0.15和0.25,由“最优”解释变量集所建立模型的结果见表5。

表5 水质指标的SR模型Tab.5 SR model of water quality indicators

由表5可以看出,逐步回归方法通过对波段的“筛选”,剔除了大量对水质综合评价因子不显著的波段数据,仅保留了原数据约1%的显著波段数据,其降维效果非常显著。在SR建模对数据的“降维”过程中,原始光谱SG保留的波段数目最多,表明在“降维”过程中,原始光谱的波段和水质综合评价因子间具有较好相关性;而LR处理后的光谱数据保留的波段数目最少,表明在“降维”过程中,原始光谱的波段数值和水质综合评价因子间具有较差的相关性。

2.5 ELM建模及预测

极限学习机(ELM)是由HUANG等[32]提出来的求解单隐层神经网络的算法。ELM的网络训练模型由输入层、隐含层和输出层组成。其中,模型的训练效果受隐含层的神经元数量影响较大,且隐含层的神经元数量需人为确定。输入层和输出层的神经元数量取决于所分析问题的自变量和因变量数量。具体推导过程及训练步骤详见文献[33]。ELM最大的特点是可以在保证学习精度的前提下相对于传统的神经网络的学习算法速度更快。

以经过逐步回归SR降维后的4种光谱指标(SG、LR、SNV、CR)的光谱数据作为自变量,水质综合评价因子为因变量建立SR-ELM模型。建模以及验证结果见表6。

表6 水质指标的极限学习机模型Tab.6 ELM model of water quality indicators

作为机器学习的一种算法,ELM在本组数据建模中,隐含层的神经元数量对训练效果的影响较大。从表6可以看出,建模预测效果较好的SG-SR-ELM模型和SNV-SR-ELM模型的相对最佳隐含层单元数高于建模预测效果较差的LR-SR-ELM模型和CR-SR-ELM模型,反映了SG和SNV数据和水质综合评价因子间更具有相关性。总体来说,ELM模型在本组数据中对于光谱的拟合和预测具有很好的效果。

2.6 模型对比

运用3种不同的回归方法对4种光谱指标进行建模,各个模型对污水水质的预测效果见图3。

图3 水质综合评价反演模型Fig.3 Inversion model for comprehensive evaluation of water quality

2.7 讨论

高光谱遥感在定量反演水质参数时,由于具有光谱分辨率高和波段连续性强等特点,可以获得更为全面广泛的光谱波段数据,而由于光谱测量中的某些人为和自然因素的干扰,光谱数据需要进行不同的数学变换以增强信噪比,从而提高光谱数据与水质参数的相关性,进而提高模型的预测精度[22]。

虽然高光谱遥感在实际应用中,可以获得更为精细的光谱信息,但因此也造成了数据和计算量的冗杂,为实现数据的筛选和模型的简化,本文通过逐步回归方法对光谱数据进行分析筛选建模。结果表明,逐步回归方法能够有效地对数据进行大幅度的降维(可达到99%),使得筛选后留下的数据既是重要的,又没有严重的多重共线性。同时SR模型也有着很好的精度和预测效果,而以经过逐步回归筛选后的波段所建立的SR-ELM模型的精度和预测效果明显比PLSR模型和SR模型更优越,这为下一步的对高光谱数据通过波段筛选和数据降维以实现模型的简化提供了可行性。由水质综合评价因子和光谱数据建立的水质综合反演模型较由单项水质参数建立的反演模型精度有所下降,没有能够很好地表征各不同的单项水质参数对于光谱数据各波段的影响和作用,有待进一步探索各水质参数对于光谱不同波段数据的单独影响和作用以及综合的交互影响和作用。另外,由于内陆水体光学特征的复杂性、水质影响因子的多样性,如何更好地将水质信息状况的综合评价与高光谱技术相结合,以达到通过高光谱遥感技术实时全面地反映水体的污染程度,主要污染物的类别、来源、成因、时空分布规律以及变化趋势,值得去进一步深入地研究和探索,是下一步研究的方向和目标。

3 结论

(1)PLSR模型、SR模型、SR-ELM模型均能得到具有很好精度和预测效果的模型,其中SR-ELM模型的精度高于其他两个模型,更适用于处理本组的水质综合评价因子。

(3) ELM模型预测水质综合评价因子时具有很好的效果,为机器学习在水质参数反演预测方面的应用验证了可行性,其中SNV-SR-ELM模型为水质的综合评价方法和高光谱反演模型的结合提供了参考。

(4)基于标准正态化变换指标建立的偏最小二乘模型、逐步回归模型与极限学习机模型,其决定系数和RPD均最高,反演精度最优,SNV为本组光谱数据的最佳预处理方法。其中SNV-SR-ELM模型决定系数为0.954,RPD为4.651,为本组数据的最佳模型。

(5)水质综合评价方法和高光谱技术反演水质参数的结合具有可行性,其模型的建立可以为水体的快速监测和综合评价提供参考。

猜你喜欢
波段反演光谱
基于三维Saab变换的高光谱图像压缩方法
反演对称变换在解决平面几何问题中的应用
最佳波段组合的典型地物信息提取
基于3D-CNN的高光谱遥感图像分类算法
基于ADS-B的风场反演与异常值影响研究
利用锥模型反演CME三维参数
高光谱遥感成像技术的发展与展望
一类麦比乌斯反演问题及其应用
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块