章佩丽 宋亮楚 王 昱 宋小晴 古兵华
(台州市污染防治工程技术中心,浙江 台州 318000)
传统河道监测手段多样,但一般监测成本高、耗时长、同步性差[1]。遥感技术因其高效及可大面积观测等优势被广泛应用于水质监测中[2]。最初的遥感水质监测针对的是大型水域,如MERIS、MODIS等中分辨率卫星传感器广泛应用于内陆大型水域水质监测[3],随着卫星产品的不断发展,目前逐渐使用高分辨率传感器监测水质,常见的遥感数据包括Landsat、Sentinel-2A等[4]。得益于遥感水质监测研究的不断深入,可监测水质参数逐渐从水色参数扩展到非水色参数[5]。然而,卫星遥感技术在时间、空间和光谱分辨率之间相互矛盾,对城市河流水质的监测仍具有挑战[6]。
随着无人机技术的发展,配备不同类型传感器的无人机可以获得丰富的遥感图像,从而成为水质遥感的新方向[7]。尤其在水质成分复杂的狭窄河道(如城市河流),无人机遥感技术可以实现水质采样点实测数据的集合,获得丰富而全面的水质现状和空间分布信息,促进高效、高质量的城市河道水质监测和保护[8]。水质参数的传统反演模型基于遥感数据的统计回归分析[9],通过波段组合寻找敏感波段作为特征变量来预测水质参数,从而获得更好的反演结果,具体回归方法包括线性回归、多项式回归、主成分分析(PCA)等[10]。刘彦君等[11]1241-1249使用无人机多光谱影像基于线性与非线性回归模型,对浙江农林大学东湖的总磷(TP)进行反演,决定系数(R2)达到0.782 9;JIANG等[12]利用无人机高光谱数据采用Extra Trees回归,构建总氮(TN)浓度反演模型,反演得到极低的均方根误差;CHEN等[13]将无人机多光谱影像应用于城市河流典型河段水质监测,采用遗传算法极值梯度提升法进行建模,TP、TN反演结果的R2分别为0.699、0.787。目前,针对无人机多光谱水质参数反演的研究多是集中于特定时间且特定研究区的水质参数反演,鲜有报道涉及不同区域且不同时段的模型构建。
鉴于此,本研究选取台州市水质差异明显的两条河道作为研究区域,利用无人机获得高分辨率多光谱图像,结合多元线性回归算法构建高锰酸盐指数、TP和TN的单河道反演模型和双河道综合反演模型,并验证模型的稳定性和适用性,尝试构建适用于不同河道的通用模型,研究结果可为实时诊断水体状况提供理论基础和关键技术。
台州市水系发达,具体细分为金清河网、椒北河网、椒江水系、三门河流、玉环河流五大水系。据《2020年台州市水环境质量报告》显示,椒北河网水质良好,满足水功能要求,但金清河网存在不能稳定达标情况,因此综合考虑台州市水系特征后,分别于椒北河网、金清河网各选取1条河流进行水质监测,分别为椒北干渠和三条河。于2021年1月18日在台州市椒江区椒北干渠布设53个采样点采集水体样品,于2021年4月20日在台州市路桥区三条河布设63个采样点采集水体样品,形成一个水质多样化的样本集合。按照《水和废水监测分析方法(第四版)》规定进行采集、运输、储存和分析水样,随后进行高锰酸盐指数、TN和TP参数的测定。
相对卫星遥感,无人机多光谱影像处理过程较为简单,因此将获取的多光谱数据导入大疆智图软件中进行影像拼接,同时利用黑白板进行辐射校正后即可得到光谱反射率数据[11]1243,将波段1至波段5的光谱反射率分别记为b1~b5。根据每个采样点的经纬度坐标,使用ArcMap 10.8提取每个采样点的多光谱反射率数据。
对以往水质遥感反演研究中使用较多的多光谱波段组合公式进行筛选[14],选定对高锰酸盐指数、TP和TN较为敏感的波段及波段组合进行模型构建,采用PCA去除异常数据后,挑选70%样本数据作为建模集,30%作为验证集构建水质参数浓度反演模型,采用平均相对误差(ARE)、均方根误差(RMSE)、相对均方根误差(rRMSE)来评价反演模型精度。
受光照、飞行速度、风速等客观因素影响,部分光谱数据存在异常,导致整体数据相关性不足,因此采用PCA对每个采样点的理化特征和光谱数据整体结构进行探索性分析,根据95%的置信椭圆去除异常数据,剩余样本数为108。
由椒北干渠和三条河水样的实际监测数据,两条河流的水质特征具有一定的差异(见图1),但同一条河流中的高锰酸盐指数、TP和TN的变化波动相对较小。对两条河流水质参数进行Person相关性分析,结果表明椒北干渠的高锰酸盐指数、TP和TN显著低于三条河(P值均小于0.05)。根据《地表水环境质量标准》(GB 3838—2002),椒北干渠水质总体优于三条河水质,其中椒北干渠高锰酸盐指数、TP、TN分别集中在Ⅲ类、Ⅲ类和Ⅴ类标准,而三条河高锰酸盐指数、TP、TN则分别集中在Ⅳ类、Ⅴ类和劣Ⅴ类标准。
椒北干渠和三条河对5个波段的光谱反射率均存在显著差异(见图2),P值均小于0.01。鉴于椒北干渠和三条河水样水质显著不同,因此原始光谱反射率的显著差异可能是由于水质空间分布差异较大所致。
2.3.1 相关性计算
高锰酸盐指数、TP和TN为非水色参数,与单光谱反射率间的相关性一般,无法确定相关性高的敏感波段,可采用波段的和、差、比值等组合方式有效放大这些参数的光谱特征[15],因此本研究对5个波段进行组合运算来筛选与高锰酸盐指数、TP及TN敏感性高的光谱特征。将水质参数与构建的光谱参数进行Person相关性分析,当P值小于0.05时,表明水质参数与光谱参数显著相关,据此筛选出符合要求的光谱组合共23组,具体见表1。
水质参数反演模型大多基于统计回归构建,为减少模型变量并提高模型精度,尝试将23组光谱参数进行PCA降维得到10个主成分,其中主成分1、2、3、4的方差贡献率分别为63.2%、33.9%、1.8%、0.6%,合计能反映原始数据99.5%的信息,因此剔除主成分5~10,将主成分1、2、3、4的特征值(分别记为Z1、Z2、Z3和Z4)作为自变量,分别构建高锰酸盐指数、TP及TN的主成分多元线性回归(PCA-MLR)模型。为了对比PCA-MLR模型与多元线性回归(MLR)模型的反演效果,选取原始光谱反射率(b1~b5)作为自变量,分别构建高锰酸盐指数、TP及TN的MLR模型。
㉙吕芳上:《蒋介石:一个“继承性创业者”初期人际网络的建立》,载汪朝光主编《蒋介石的人际网络》,社会科学文献出版社2011年版,第23页。
2.3.2 基于椒北干渠数据的单河道反演模型
根据2021年1月18日椒北干渠光谱影像和检测数据,为不同水质参数建立单河道水质参数遥感反演模型,模型反演精度见表2。
由表2可见,采用两种模型对椒北干渠验证集数据进行反演时,MLR模型高锰酸盐指数、TP和TN的ARE、RMSE及rRMSE总体均小于PCA-MLR模型,说明MLR模型的反演精度优于PCA-MLR模型;将两种模型应用于2021年4月20日三条河遥感影像,对照三条河实际水质参数检测结果进行反演精度检验,仅高锰酸盐指数的ARE为10%左右,可能两条河流高锰酸盐指数的浓度差别不大,但TP和TN的ARE均超过40%,RMSE及rRMSE也大幅上升,因为两条河流的TP和TN浓度差异明显。可见,基于椒北干渠单河道数据构建的反演模型无法用于三条河水质预测,缺乏适用性和通用性。
2.3.3 基于双河道集合数据的综合反演模型
将基于椒北干渠单河道数据构建的反演模型应用三条河遥感光谱反演时,由于两条河流的污染物浓度差异明显模型通用性差。为此,根据2021年1月18日椒北干渠和2021年4月20日三条河采样数据,建立普遍适用于双河道水质的综合反演模型,模型反演精度见表3。
表1 光谱组合与高锰酸盐指数、TP、TN的相关系数1)Table 1 Correlation coefficients between spectral composition and permanganate index,TP and TN
表2 基于单河道数据反演模型的水质反演精度Table 2 Inversion accuracy of water quality parameters by single-river data based inversion model
总体看来,基于双河道集合数据构建的两种综合反演模型中,MLR综合模型的反演精度优于PCA-MLR综合模型,与单河道反演模型结论一致。可能是由于MLR方法能够保证原始光谱之间的差异最大化,PCA-MLR方法中光谱参数的增加反而提高了数据的冗杂性,导致精度降低。此外,增加三条河样本集数据后,MLR综合模型并未大幅降低对椒北干渠验证集的反演精度,但三条河验证集各水质参数的ARE、RMSE及rRMSE均大幅降低,说明样本集的增加总体可提高模型的准确度。
表3 基于双河道集合数据的综合反演模型精度Table 3 Inversion accuracy of water quality parameters by double-river set data based comprehensive inversion model
2.4.1 反演精度验证
选择基于双河道集合数据构建的MLR模型作为水质参数的最终反演模型,利用32组验证集数据进行高锰酸盐指数、TP、TN实测值与模型估测值的线性拟合,结果见图3。由图3可见,高锰酸盐指数拟合线的斜率为0.572,R2为0.779 2;TP拟合线的斜率为0.693 5,R2为0.788 2;TN拟合线的斜率为0.760 2,R2为0.823 2;3个水质参数验证集数据点位总体与1∶1趋势线贴近,说明模型估测水平较为平稳,估测值与实测值接近,可用于对台州市部分水域的水质参数空间分布状况进行估算。
2.4.2 模型估测结果分析
根据实际应用需求,采用基于双河道集合数据构建的MLR模型对椒北干渠和三条河中水质为Ⅲ类及更差水样数量进行估测,模型反演精度见表4。该模型对高锰酸盐指数、TN的水质类别反演精度较高,分别为94.4%和83.3%,TP反演精度较低,仅为61.0%,可能是因为TP不仅会受到水中浮游生物的生长繁殖影响,同时会受到悬浮物的吸附、迁移等影响,光学特征不明显;虽然TN水质类别反演精度高达80%以上,但21个Ⅴ类水样中仅反演正确3个,说明本次构建的模型具有一定局限性,只在一定TN浓度条件下适用性较强。
表4 水质类别反演精度Table 4 Inversion accuracy for water quality parameters category
(1) 与PCA-MLR模型相比,MLR模型对水质参数反演精度相对更高,可能是由于MLR方法能够保证原始光谱之间的差异最大化,PCA-MLR方法中光谱参数的增加反而提高了数据的冗杂性,导致精度降低。
(2) 基于椒北干渠的单河道MLR反演模型无法用于三条河水质预测,缺乏适用性和通用性;而基于双河道集合数据的MLR综合模型虽并未大幅降低对椒北干渠验证集的反演精度,但对三条河水质参数的反演精度大幅提高,说明样本集的增加总体可提高模型的准确度。
(3) 为了提高模型对水质参数的反演精度,未来可以通过对台州市水质特征明显的多个河道进行水体采样,从而构建更大范围、更多区域的光谱数据样本集,以期建立更精确、通用性更强的多光谱反演模型。