石磊,王正昕,贾蔡,,李俊,唐婷,周成凤,夏敏,胡芳
(1.安徽省地质矿产勘查局311地质队,安徽安庆 246003;2.安徽师范大学,安徽芜湖 241003;3.全图通位置网络有限公司,北京 100000)
随着经济发展与人类活动加剧,水体富营养化已成为世界性的水环境问题。近年来,我国滇池、太湖[1]、巢湖等内陆淡水湖多次发生大规模蓝藻集聚现象,严重破坏水生态系统稳定,威胁当地人们生活生产用水安全[2]。因此湖泊水质时空变化特征的识别对于评价流域污染防治效果,确定防治措施具有重要意义。内陆水体的叶绿素a(Chl-a)浓度、pH、高锰酸盐(CODMn)[3]、氨氮(NH3-N)、化学需氧量(COD)、TP、TN 等参数是评定水体污染程度的影响因子,其中叶绿素a(Chl-a)是评价湖泊富营养化程度的重要指标之一。各类水质参数会影响水体的固有光学特性,进而改变水体的光谱特征,利用这一点可以通过遥感反演的方法建立遥感反演模型对水体的水质参数进行动态识别[4]。
国内外有大量关于建立遥感反演模型进行内陆湖泊水质参数时空动态变化的研究。徐小倩等利用Landsat 8 OLI-TIRAS 遥感影像数据,建立遥感反演模型,借助实测数据进行南漪湖水体水质参数的特征识别,得出南漪湖水体在2015—2019年保持在轻度富营养化,2017年存在下降趋势[5]。在内陆湖泊水质参数特征识别的研究上,梁中耀提出一种利用贝叶斯方差分析法进行湖泊水质时空变化特征识别,以异龙湖稳态转换条件下富养化指标浓度变化特征和滇池外海特征污染物浓度达标率的时空变化特征为例,对比传统的统计学方法,得出了贝叶斯方差分析法在湖泊水质特征动态识别上的可行性与精确性,为国内在研究内陆湖泊水污染方面提供了崭新的思路[6]。国内大量湖泊遥感反演研究中采用了波段比值法、一阶微分法等模型。李素菊等在检测巢湖叶绿素a 浓度中,采用波段比值法和一阶微分模型有效地估测了巢湖水体叶绿素a 浓度,并验证了其精确性[7]。胡雯等基于NOAA 卫星遥感影像数据,利用NDVI指数检测巢湖叶绿素浓度,识别巢湖水质特征[8]。杨煜等采用环境一号卫星的高光谱遥感数据,利用基于生物光学模型构建的叶绿素a浓度反演半分析模型(三波段模型)进行巢湖水体叶绿素a浓度的反演,得出结论:三波段模型实现对叶绿素a 浓度的最优估测[9]。冯龙庆等利用一阶微分的方法构建太湖的CDOM浓度预测模型,结果表明一阶微分模型反演精确度较高[10]。吴志明等引入机器学习算法,建立了基于哨兵-3A OLCI 传感器的国内湖泊水体CDOM 浓度随机森林反演模型。并通过评价反演精度,得出了波段比值模型、一阶微分模型、半分析模型[11]、BP 神经网络模型等基于随机森林算法的遥感反演模型,反演精度得到了显著的提升[12]。
遥感技术可以迅速、大范围地完成水体水质参数的识别。本研究以随机森林算法为基础建立反演模型,利用高分系列卫星影像数据并结合实测数据以南漪湖为例研究水质时空变化特征。
本研究区域为安徽省宣城市南漪湖,中心坐标是31°05′26″N,118°58′34″S,面积148.4 km2,集水区域面积998 km2,以入湖河流径流和湖面降水补给为主。流域内属亚热带季风湿润气候,年平均气温15~16℃,多年平均降水为1143.2 mm,接纳广德、郎溪和宣州区部分河流汇水,经水阳江与长江相通,具衔接南漪湖流域与水阳江流域、维持区域生态体系稳定的战略性生态空间功能[13]。南漪湖为当地人们重要的水资源,对其周边的生态经济发展等发挥着重要作用。
用于南漪湖水质反演的影像为国产高分卫星,其中包含高分一号卫星8 m 分辨率、高分二号卫星4 m分辨率以及高分六号卫星8 m 分辨率影像,波段为4段,蓝(波长0.45~0.52 μm)、绿(波长0.52~0.59 μm)、红(波长0.63~0.69 μm)、近红外(波长0.77~0.89 μm),并有2016年2 月至2020年10 月共13 个时期的高分卫星影像。为减少大气消光等作用对光谱信息的干扰,获取地物真实的反射率,对遥感图像进行大气校正,并以高分辨率影像为基准影像对数据进行几何校正,将RMS 误差控制在较低范围内,并利用ENVI获取研究区域矢量文件。
本研究实测数据由野外采集获得。选取2019年1 月—2019年12 月中与高分遥感数据对应时段采集的南漪湖月水质监测数据样本,并对数据进行统计分析。检测数据主要包括:叶绿素a(Chl-a)浓度、pH、溶解氧、高锰酸盐指数、氨氮、总磷等。南漪湖大体可分为西湖与东湖,且水质较为均匀,实测数据分固定站点和非固定站点(图1)。根据流域地理特征,生态环境差异,水文、水力特征以及出入湖河流特性等因素,本研究将南漪湖湖区分为4 个子区:东湖区、西湖区、入湖口、出湖口。根据上述湖区形态特征,本研究在全湖共布设46个水质监测站点。
图1 站点分布Figure 1. Distribution of sampling points
预测水质参数的光谱指数主要根据遥感影像中水质光谱特征选取合适的波段组合提取植被指数、水体指数等,再使用数学建模方法建立光谱特征与水质参数的定量模拟预测模型。通常选取对叶绿素a浓度变化较为敏感的波段。不同的波段组合可以突出水体的不同物理、化学、生物信息。常用的几种水质预测模拟光谱指数为比值植被指数(EVI)、归一化植被指数(NDVI)、归一化水体指数(NDWI)等(表1)。同一区域的水体在不同时期叶绿素a的浓度变化和透明度变化较大,而叶绿素a 的浓度和透明度会影响水体的固有光学特性,进而影响水体的光谱特征。考虑到这种因素的影响,本研究中采用归一化差值水体叶绿素a指数(NDWC),选取2016年4月至2020年10月部分高分遥感影像数据提取归一化差值水体叶绿素a指数(NDWC),以此数据为基础进行模型反演。
表1 光谱植被指数Table 1. Spectral vegetation indexes
本研究采用目前主流的机器学习算法即随机森林算法构建水质参数预测模型。随机森林模型的基本思想是通过bagging 抽样技术抽取多个样本,再分别以每个bagging 样本建立决策树模型并集成为综合分类器,通过该分类器中各个决策树模型投票计算得出分类预测结果(图2)。该算法最早由Breiman 提出[14]。相比其他机器学习方法,随机森林方法主要特点有:不易出现过度拟合、对异常值和噪声具有较好的容忍度、可以获得无偏的误差估计、可以评估变量的重要性等[15~16]。基于随机森林算法的水质参数模拟模型可以量化各预测指标对水质参数影响的相对重要性大小。
选取2016年4 月至2020年10 月部分高分遥感影像提取的46个样本点敏感波段反射率作为输入数据,以同时段对应的地面监测水质参数数据作为目标数据,构建一个随机森林模型(图2),并通过调整参数对模型进行反复训练,直到模型的r方达到最优为止,即r方不再上升。最后将训练完成的随机森林模型应用于其余的遥感图像数据,进行水质参数的预测模拟。
图2 随机森林模型示意图Figure 2. Schematic diagram of the random forest model
基于随机森林算法的水质参数模拟模型可以量化各预测指标对水质参数影响的相对重要性大小。根据图3,以往研究者在模拟水质参数所通常选用的归一化差值植被指数(NDVI)的相对重要性最小,而归一化差值水体叶绿素a 指数(NDWC)的相对重要性最大,说明本研究采取的归一化差值水体叶绿素a 指数(NDWC)指标符合实验要求,更适用于南漪湖水质参数的预测模拟。
图3 各预测指标相对重要性(%)Figure 3. Relative importance of each predictor
叶绿素a 是浮游生物分布的指标,可以衡量水体富营养化程度。应用建立的基于随机森林遥感模型的2020年9 月南漪湖叶绿素a 浓度月分布情况如图4所示。
图4 叶绿素a浓度2020年模拟结果Figure 4. Simulated chlorophyll-a concentrations in 2020
2016年,80%以上湖区叶绿素a 质量浓度低于0.021 mg/L。2017年,湖区叶绿素a 质量浓度有所下降,全湖大致低于0.018 mg/L。2018年,除了近岸湖区可能由于围湖养殖、工业废水排放等原因导致水体氮磷含量激增、藻类疯狂生长外,其他湖区叶绿素a质量浓度均低于0.018 mg/L。2019年湖区叶绿素a浓度降低,80%以上湖区低于0.010 mg/L。2020年,湖区叶绿素a 质量浓度明显较低,均低于0.009 mg/L。2016—2020年,湖区叶绿素a 质量浓度整体呈下降趋势。2016年、2017年、2020年湖区叶绿素a 质量浓度呈现西北区浓度较高,东北部浓度较低。
从遥感反演结果得知,2019年1 月80%以上湖区总磷浓度低于0.08 mg/L,5 月份浓度低于0.09 mg/L,东湖区稍高于西湖区。9月份,近岸水位下降,湖体叶绿素a 浓度无较大变化,湖体浓度大致低于0.12 mg/L。总磷浓度总体无明显季节差异,近岸湖区浓度稍高(见图5)。
图5 总磷浓度2020年模拟结果Figure 5. Simulated total phosphorus concentrations in 2020
2016年,全湖氨氮质量浓度主要集中于0.57~0.58 mg/L。2017年,湖区氨氮质量浓度有所下降,集中在0.43~0.50 mg/L,西湖区浓度稍低于东湖区。2018年,湖区氨氮质量浓度持续下降,60%以上湖区浓度集中在0.37~0.38 mg/L。2019年,湖区氨氮质量浓度上升,90%以上湖区高于0.49 mg/L,存在反复性。2020年,湖区浓度均低于0.35 mg/L,东北湖区浓度相对较低(见图6)。
图6 氨氮质量浓度2020年反演结果Figure 6. Inversion results of ammonia nitrogen mass concentrations in 2020
模型性能通过4 个指标进行评估:决定系数(coefficient of determination,R2)、相关系数(Pearson’s correlation coefficient,r)、平均绝对误差(mean absolute prediction error,MAE)和均方根误差(root mean square error,RMSE)。其中,R2和r的值越大、MAE和RMSE的值越小代表模型的性能越优秀。
本研究对比了线性回归模型和随机森林算法进行叶绿素a 反演的精度。结果表明(表2),新光谱指数反演模型的决定系数(R2)从0.35 提升至0.64,均方根误差RMSE小于传统光谱指数反演模型,说明基于随机森林算法的模拟模型精度更高。
表2 叶绿素a的反演Table 2. Inversion of chlorophyll-a
本文利用多检测站点多时段实地检测与高分系列卫星遥感数据,以南漪湖为例建立了基于随机森林算法的遥感反演模型。不同预测指标对水质参数影响的相对重要性大小不同,在各类预测参数的对比下,用归一化差值水体叶绿素a 指数(NDWC)进行模拟预测考虑了不同时期叶绿素浓度和透明度对水体光谱特征的影响,特别是当水体光谱特征以叶绿素a为主导时,模型拟合预测结果精度较高,更加适用于南漪湖水质参数特征识别。
通过反演模型得出叶绿素a(Chl-a)、总磷(TP)和氨氮(NH3-N)的结果,为验证模型的可靠性与准确性,对比了线性回归模型和随机森林算法对叶绿素a反演的精度。结果表明,新光谱指数反演模型的决定系数(R2)从0.35 提升至0.64,均方根误差RMSE小于传统光谱指数反演模型,说明基于随机森林算法的模拟模型精度更高,更加适用于内陆水体的遥感反演。
同时从实测数据以及遥感反演结果看,南漪湖受到外部污染负荷较高,城镇生活污水以及工业废水输入量巨大,直接导致南漪湖水质呈现富营养化趋势[17]。