基于无人机遥感和集成学习的苏州市河流悬浮物浓度反演

2023-10-26 04:01易虹辰谷一平施骄阳
中国环境科学 2023年10期
关键词:悬浮物分析方法学习策略

余 成,唐 毅,潘 杨,易虹辰,谷一平,褚 峰,施骄阳

基于无人机遥感和集成学习的苏州市河流悬浮物浓度反演

余 成1,唐 毅2*,潘 杨2,易虹辰2,谷一平2,褚 峰2,施骄阳2

(1.苏州科技大学地理科学与测绘工程学院,江苏 苏州 215009;2.苏州科技大学环境科学与工程学院,江苏 苏州 215009)

针对单一模型容易过拟合的缺陷,通过4种不同的集成学习策略实现多种机器学习方法之间的优势互补,从而提升模型的精度和泛化性,并以苏州市为研究区,无人机采集的多光谱遥感影像和实地测量的悬浮物浓度数据为基础建立集成学习反演模型.同时,4种常用的回归分析方法和3种经典的机器学习方法被作为对比方法以探究集成学习策略的有效性.结果表明,集成学习策略能够克服单一模型各自的缺陷,显著提升遥感反演的精度和泛化性,其中表现最优的集成学习反演模型的验证集决定系数达到0.821,相比回归分析方法提升38.21%,相比单一机器学习方法提升16.79%.此外,集成学习方法反演的绝对误差集中于较小值,其绝对误差均值和中值均优于传统方法,以期提高城市悬浮物浓度反演精度,为无人机遥感河流悬浮物浓度反演提供指导.

河流悬浮物浓度;无人机遥感;多光谱;集成学习;机器学习

在经济高速增长、城市化进程快速发展以及人口持续上升的局势下,城市内部的生活废水、工业污水排放加剧,冲破了河流纳污能力极限,城市河流水质恶化日趋严重.其中,河流中的悬浮物浓度(SSC)严重威胁到了水体透明度、水下光场分布以及河流生态系统的平衡性,及时有效地对城市河流中的悬浮物浓度进行定量监测,对于挖掘其时空变化规律,做到精准有效的防护治理有重要的现实意义[1].传统的水体悬浮物浓度监测手段需要实地采集水体样本,存在技术耗时长、工作量大、经济成本高等问题[2].遥感技术具有时效性强、宏观性强、经济成本低、人力成本低等优点,能够从全局反映研究区水体水质状况及空间分布特征[3].其中,无人机遥感凭借短时间快速获取、高分辨率精细覆盖、长时序动态追踪等优势成为水体悬浮物浓度监测的可靠方法[4-5].

当前,基于遥感的悬浮物浓度反演算法多采用经验/半经验模型[6-8],然而,由于城市河流所处的环境条件具有多样性,水体的光学特征表现出复杂性,以经验/半经验模型对城市河流开展悬浮物浓度反演工作,难以准确地反映河流光谱特性与悬浮物浓度之间的复杂关系.得利于计算机科学与技术的发展,机器学习方法被引入悬浮物浓度反演领域. Silveira等[9]采用Sentinel-2和多种机器学习方法实现了密苏里河与密西西比河的SSC反演.Peterson等[10]基于Landsat多光谱影像数据,利用极限学习机反演密苏里河1982年至2018年SSC,平均2达到0.91.Nazeer等[11]采用神经网络反演香港沿海的悬浮物浓度,精度相比传统经验模型提升近10%.基于更高效的数学方法与数据处理方式,机器学习方法具备更高维度的数据处理能力,能够更好地兼顾悬浮物浓度与河流光学特征之间的非线性关系,更适合用于遥感影像与悬浮物浓度间的复杂关系模拟工作[12-14].然而,单一机器学习方法存在过参数化问题,对反演结果的负面影响不可忽视.

集成学习通过集成多个不同模型的反演结果,采用特定规则将这些结果组合,产生更加稳健的反演结果,提高模型的泛化能力和精度[15-17].已有学者采用集成学习方法开展悬浮物浓度反演工作.陈点点等[18]采用多种机器学习方法对闽江下游悬浮物进行反演,发现其悬浮物浓度分布存在“西低东高”特征.DeLuca等[19]利用MODIS影像数据和RF方法反演切萨皮克湾悬浮物浓度,Dehkordi等[20]分别采用RF和SVR对密苏里河SSC进行反演,实验证明RF反演的2相比SVR提升14%.Kwon等[21]在考虑光谱变异性的情况下联合高斯混合模型与RF开发了SSC反演模型,相比传统RF模型精度提升10.81%.这些研究证明了集成学习在SSC反演方面的优越性,但现有研究多基于星载卫星数据开展粗分辨率反演,在基于无人机遥感的悬浮物浓度精细反演方面研究有所欠缺.同时,研究多集中于单一集成学习策略,而缺乏对不同集成学习策略的对比和分析.

基于此,本文以苏州市为研究区,探究无人机遥感技术和集成学习策略在城市河流SSC监测方面的潜力.首先,本文分别通过无人机遥感和实地测量的方式获取研究区的多光谱遥感影像和SSC监测数据.其后,以多种常用的机器学习方法为基模型,分别利用引导聚集(Bagging)、提升(Boosting)、堆叠(Stacking)和投票(Voting)等4种集成学习策略建立了多种SSC集成学习反演模型.与此同时,为了探究集成学习策略的有效性,4种常用的回归分析方法和3种经典的机器学习方法也被用于建立无人机遥感SSC反演模型,以期找到适用于城市河流SSC反演的最优模型.本文研究成果有望提高城市河流SSC反演精度,为无人机遥感SSC反演提供指导.

1 研究区与数据

1.1 研究区与SSC测量数据

苏州市位于中国江苏省东南部,处于长江中下游,城市地形平坦,内部河港交错,有“一江、百湖、万河”的独特水网,且经济发达,人口众多.在经济快速发展、城市化进程不断深化的过程中,生活废水与工业污水的排放使得城市河流水质恶化,对苏州市的城市河流生态造成了巨大威胁.尽管近年来苏州市积极推动城市河流污染治理工程,河流污染形势得到较大改观,但城市河流水质问题仍存在超标、难以彻底根除的问题.本文着眼于苏州市内部与生活区、工业区紧密相连的河流,设置两个研究区,其中,样区1为工业区,周围分布着诸多的工业厂房,有大量的工业废水排放;样区2为生活区,该区域分布着住宅楼、学校及医院等建筑,污水排放以生活废水为主,研究区位置如图1所示.

图1 研究区示意

1.2 无人机影像与SSC实地测量数据

本文的无人机多光谱影像数据由大疆多旋翼无人机搭载的MicaSense RedEdge相机拍摄.该传感器以轻便、小体积的优势成为中小型无人机遥感的常用传感器,能同时提供5个波段的影像,其主要波段信息及参数信息见表1.

表1 MicaSense RedEdge相机参数

分别于2022年2月和4月对两个样区附近的河流进行无人机多光谱影像获取、水质采样及采样点坐标记录工作,数据采集时航高与航速分别设置为200m与5m/s.为了保证遥感影像与水体采样结果的匹配关系,水体样本数据采集与遥感影像数据获取同步进行,二者时间差不超过2h.最终在工业样区和生活样区共获取了90组实地采样数据,获取到的无人机多光谱影像数据及SSC实地采样点如图2所示.由图可知,所获取的无人机影像覆盖了两个样区内主要的细小水体,且SSC采样点在样区内均匀分布,数据具有代表性.对实地采样获取的悬浮物浓度进行统计,结果如表2所示.由表可知,工业样区内河流的SSC(平均值为52.7mg/L)显著高于生活样区(平均值为41.4mg/L),且工业样区内河流的SSC变化也较生活样区明显(标准差为18.0mg/L).

图2 无人机影像及采样点位示意

表2 野外实地采样SSC浓度

2 方法

为探究集成学习在城市河流SSC反演中的作用,本文以多种机器学习方法为基模型,采用Bagging、Boosting、Stacking和Voting等4种策略建立集成学习模型.同时,4种回归分析方法和3种传统的单模型机器学习方法也被分别用于SSC反演模型的建立,以对比分析集成学习策略的有效性.

2.1 传统反演方法

回归分析是探索变量之间关系最常使用的方法,通常具有原理简单,结果易于解释等优势.因此,多元线性回归(MLR)、偏最小二乘回归(PLS)、岭回归(Ridge)和套索回归(LASSO)等4种常用的回归分析方法被用于城市河流SSC反演模型的建立.PLS是一种常用的线性回归方法,它通过将原始自变量转换为一组新的综合变量,并利用这些变量建立预测模型[22].PLS相较于传统MLR具有适用性广、对噪声和冗余信息适应性高和能够处理自变量共线性等优势[23].Ridge回归通过对系数正则化以削弱过拟合问题,具有过拟合概率低、能够处理高维数据、稳定性强等优势[24-25].LASSO与Ridge回归类似,同样加入正则化项以约束模型复杂度,但二者的正则化项和惩罚系数并不相同[26].总的来说,Ridge回归更适用于存在显著多元共线性的数据,而LASSO则更适用于具有稀疏性的数据[27].

随着计算机技术的发展,各种机器学习方法被提出,以最大化地挖掘数据中的潜在信息,并在各种反演任务上表现出强大的性能.因此,SVR、决策树(DT)和K邻近(KNN)等3种经典的机器学习方法被用于SSC反演模型的建立.SVR具有适用于非线性回归和可以处理高维数据等优势,是最常使用的机器学习回归方法之一[28-29].DT类似二叉树,其核心原理是基于信息增益或基尼系数等指标来选择最佳的划分节点[30].KNN模型将来自所有数据点的特征值(目标值)存储在输入数据集中,并使用训练数据集和预测数据集之间的特征相似性来查找相似的数据点(目标值)并预测数据集的目标值,具有非参数化、鲁棒性强和高可扩展性等优势,被广泛应用于回归和分类任务[31].

2.2 集成学习方法

集成学习通过构建多个单模型机器学习方法组合策略的方式完成数据集的学习任务,实现单模型机器学习方法之间的优势互补,从而提高模型的精度及泛化能力,还在一定程度上减少了模型对数据集的依赖程度.本文选用Bagging、Boosting、Stacking和Voting等4种不同的集成学习策略进行研究工作.各方法原理如下.

(1)Bagging

Bagging法通过对原始数据集进行自助采样(Bootstrap)随机采集与训练样本集个数相同的子样本集,然后在每个子样本集上训练独立的回归器,最终通过投票或求概率均值的方式集成这些回归器来得到最终的回归器[32].该方法通过随机采样来降低方差,从而提高模型的泛化性和准确性,具有稳定性强、适用性广等特征.随机森林(RF)是最为典型的Bagging方法,它通过在原始数据集的随机子集上构建多棵决策树,并使用投票或平均值等方式集成这些决策树的结果,得到最终的分类或回归结果[33].该方法具有鲁棒性强、高维数据适应性强和可扩展性强等优势,是最常用的机器学习方法之一[34].

(2)Boosting

Boosting的基本思想是通过加权迭代训练多个回归器,使得每个回归器都能够对前一个回归器的错误纠正,最终通过集成这些回归器的结果来得到最终的回归器.自适应提升算法(AdaBoost)是Boosting策略的代表算法之一,它采用错误加权的策略来训练基回归器,并根据其在训练集上的表现来动态调整样本权重,使得下一个基回归器更加关注错误的样本[35].GBDT是Boosting策略的另一个代表,它主要使用梯度提升技术来构建一个强大的回归器[36].GBDT能够很好处理特征因子间的关系,提高模型泛化能力,并且对数据缺失敏感较弱,可以有效降低偏差,提高模型整体精确度.

(3)Stacking

Stacking是由Wolpert提出的一种基于模型组合的集成学习策略,它的核心思想是将多个不同模型的预测结果作为新特征输入到一个元模型中,用于最终的预测[37].Stacking相比于Bagging和Boosting等其他集成学习策略可以在不同的数据空间角度和数据结构角度来观测数据,可以利用不同模型之间的优势,提高预测性能[38].此外,由于Stacking集成学习过程中将数据集划分为多个子集,并使用不同的训练数据集和验证数据集来训练和验证模型,可以有效降低过拟合的概率.

(4)Voting

Voting是一种简单但有效的集成学习策略,它通过对多个模型的预测结果进行投票来得出最终的预测结果[39].Voting策略具有简单易实现、鲁棒性强等优势,但其效果取决于所集成的基模型之间的差异性.若基模型之间的相似度较高,则集成效果会受到影响.

2.3 精度评价指标

为了确定最适用于SSC反演的模型,采用平均绝对值误差(MAE)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)、决定系数(2)等4种指标对各反演模型的精度进行定量评价.MAE表征了反演值和实测值之间的绝对误差的平均值,RMSE则对异常值具有高敏感性,能直观地反映反演值和实测值的偏差.此外,为了削弱数据范围的影响,引入MAPE作为定量指标以分析误差与实测值之间的百分比关系.2则表征反演值与预测值之间的拟合优度,其值越大,说明模型的拟合度越高.各指标的计算公式如下:

3 结果与分析

3.1 数据分析和单模型SSC反演

地表反射率是遥感影像最重要的特征,水体及其中的悬浮物对不同波长辐射的响应是遥感SSC反演的基础.由图3可见一些典型水体样本的遥感反射光谱曲线,SSC与近红外波段反射率呈现出典型的正相关,近红外波段反射率越高,SSC通常越高.水体通常在绿光波段和红边波段存在反射峰,尤其以红边波段最为显著,这可能与水中的藻类有关.

图3 典型水体样本的反射光谱曲线

为了进一步探究无人机多光谱影像与悬浮物浓度之间的关系,使用Pearsonr相关系数、Spearmanr相关系数和互信息指数(MI)等方法分析影像波段与悬浮物浓度之间的相关性.由表3可知,近红外波段与悬浮物浓度相关性最高(Pearsonr=0.940, Spearmanr=0.942, MI=1.025),红光波段次之(Pearsonr=0.793, Spearmanr=0.792, MI=0.564),而红边波段相关性最低(Pearsonr=0.433).所有波段的Pearsonr和Spearmanr相关系数均非常显著(<0.001),且三种相关性评价方法结果吻合.

综上,无人机多光谱影像与悬浮物浓度之间存在显著的相关性,使用无人机遥感影像反演河流悬浮物浓度具有理论依据和可行性.

表3 影像各波段与悬浮物浓度的相关性

接下来,分别使用2.1节所述的4种回归分析方法建立SSC反演模型.无人机多光谱遥感影像的5个波段全部被作为特征,实地采集的SSC值被作为标签.其中,采集的SSC测量数据中的70%被作为训练集,剩余的30%数据被作为验证集.最终得到4种方法在验证集上的反演结果及其误差(图4).由图可知,LASSO回归方法取得了4种回归分析方法中最优的精度(RMSE=10.623mg/L, MAPE=18.987%,2=0.594),Ridge回归的精度次之(RMSE= 23.776mg/L, MAPE=23.776%,2=0.525),而MLR方法精度最低(RMSE=12.540mg/L, MAPE=20.515%,2=0.434).值得注意的是,Ridge回归方法虽然取得了次优的2,但其实测-反演拟合曲线与对角线的吻合程度较低,且MAPE指标也显著地高于其他方法.

其后,采用同样的策略,基于2.1节所述的3种传统的机器学习方法建立SSC反演模型.3种方法在验证集上的反演结果及其误差如图5所示.由图可知,SVR方法反演精度最低,其验证集2仅为0.488,略次于回归分析方法中的Lasso回归,且实测-反演拟合曲线与对角线差异巨大,显示出该方法在遥感SSC反演方面的适应性较低.DT方法精度次之,其RMSE和2分别达到10.559mg/L 和0.599.KNN方法的RMSE和2分别达到9.086mg/L 和0.703,其反演精度不仅优于4种回归分析方法,也显著地优于其他两种机器学习方法.

图4 回归分析方法反演结果

图5 经典机器学习方法反演结果

综上,遥感影像与城市河流SSC之间存在着显著的相关性,回归分析方法能够在一定程度上捕获SSC与遥感影像的关系,4种回归方法建模的2平均值和最大值分别达到0.504及0.594.而机器学习方法则能够提升反演模型的拟合能力,其平均2为0.597,高出回归分析方法对应值17.86%;2最高值为0.703,高出回归分析方法对应值18.35%,相比回归分析方法精度提升显著.

3.2 集成学习SSC反演

3.1节的实验证明了机器学习方法在遥感信息获取和反演方面的强大能力.然而,单一的机器学习模型具有各自的缺陷,在复杂的现实场景下容易出现欠拟合和过拟合等问题.因此,采用2.2节介绍的集成学习策略,以多种回归分析和机器学习方法为基模型,建立多个集成学习SSC反演模型,以期克服单一模型各自的缺陷,达到最佳反演效果.

四种集成学习策略实现方式及其对应的反演精度如表4所示,各策略最优方法的反演结果如图6所示.由表和图可知,Bagging和Boosting策略的最优方法分别为RF和GBDT,其2分别达到0.778和0.787,优于前述最优的回归分析方法和单一机器学习方法.Stacking策略的最优方法为SVR、MLR、DT和KNN模型的组合,其RMSE和2分别达到7.239mg/L和0.811.Voting策略的最优方法为MLR、SR、DT和KNN模型的组合,其RMSE和2分别达到7.046mg/L和0.821.

由以上统计结果可知,集成学习策略在单模型机器学习方法的基础上进一步提升了拟合能力,其最差的RMSE和2分别为8.073mg/L和0.765,优于前述所有的回归分析方法和单一机器学习方法的结果(最优RMSE和2分别为9.086mg/L和0.703).集成学习策略反演的平均2为0.799,最高值为0.821,平均2高于单模型机器学习方法34.512%.

表4 集成学习方法反演精度

图6 集成学习方法典型模型反演结果

特别地,基于Voting策略组合的MLR、SR、DT和KNN模型虽然取得了最低的RMSE和最高的2,然而其MAPE却高于基于Stacking策略组合的SVR、MLR、DT和KNN模型(16.332%),这可能是由于基于Voting的方法更好地拟合了全体SSC,而基于Stacking策略的方法更好地拟合了SSC低值,因此基于Voting策略的方法在MAPE上表现次于基于Stacking策略的方法.这表明对于SSC反演不仅需要关注各种精度指标,还需要考虑各种方法的误差分布情况.因此,使用箱形图进一步分析SSC反演的误差分布,结果如图8所示.由图可知,三种方法中,集成学习方法的误差整体较小,其绝对误差均值和中值分别为6.521mg/L和5.410mg/L,低于回归分析方法和单一机器学习方法的对应误差.同时,无论是单一机器学习方法还是集成学习方案,其绝对误差的最大异常值均相对较小(低于30mg/L),而回归分析方法绝对误差的最大异常值则高于50mg/L.

进一步地,使用小提琴图分析四种集成学习策略中各自最优的两种方法的反演误差分布,结果如图8所示.由图可知,基于Bagging和Boosting策略的方案绝对误差集中于5mg/L附近.基于Voting策略对应的误差分布小提琴呈葫芦型,其绝对误差集中于2mg/L和8mg/L附近.相比之下,基于Stacking策略的误差分布小提琴呈梭形,其绝对误差集中于较小值(2mg/L附近).

图7 各建模策略误差分布

综上,基于集成学习的方法相比回归分析方法和传统的单一机器学习方法在无人机多光谱遥感城市河流SSC反演方面具有显著的优势,其中最为突出的是基于Stacking策略的方法,该方法不仅具有相对最优的精度,而且绝对误差多集中于较小值,相比其他集成学习方法具有更稳定的性能,是理想的SSC反演方法.

3.3 河段SSC反演

3.1节和3.2节的实验证明了集成学习方法相比回归分析方法和单一机器学习方法在SSC反演方面的显著优势.因此,本节以3.2节中表现最优的基于Stacking策略组合的SVR、MLR、DT和KNN模型为反演模型,对苏州市生活区部分水体的SSC进行反演,结果如图9所示.由图9(a)可知,苏州生活区SSC呈现典型的东高西低,细小水体SSC较低、而河流主干SSC较高的趋势.图9(b)显示生活区左下部,即苏州市学府路、科技路附近部分河段和苏州科技大学内湖SSC较低,而临近石湖的部分河段SSC相对较高.图9(c)显示杨素路、友新路等部分路段附近的细小水体SSC较低,而生活区中部和南部京杭运河河段SSC显著高于其他河段.

同样地,使用基于Stacking策略组合的SVR、MLR、DT和KNN模型为反演模型,对苏州市工业区部分水体的SSC进行反演,结果如图10所示.由图10(a)可知,工业区SSC整体也呈现东高西低的趋势.以长江路为界,长江路东侧马运河部分河段SSC较高,而长江路西侧马运河部分河段以及前桥港、珠江路附近河段SSC相对较低,但工业区整体SSC仍显著高于生活区.特别地,图10(c)中佳能(苏州)有限公司工业园区左侧部分河段SSC呈现出典型的分布不均的情况.河道右侧靠近佳能(苏州)有限公司工业园区的部分河段SSC呈现低值,而该部分河段中部靠近桥梁部分河段SSC相对较高,反映了本文反演方法对悬浮物浓度变化的敏感性.

图9 生活区河流悬浮物浓度

图10 工业区河流悬浮物浓度

4 讨论

4.1 机器学习SSC反演

近年来,无人机遥感凭借着其空间分辨率高、数据实时性强、成本低廉且灵活性高等优势,被广泛应用于各种地表监测和倾斜、正射影像采集任务[40–43].回归分析是探索变量间关系最常使用的方法,具有原理简单、结果易于解释等优势[44–46],但在模型拟合能力上却所有欠缺,导致其反演精度相对较低.机器学习方法在各种遥感反演任务上表现出远超回归分析方法的性能[47].3.2节实验结果也证明了联合无人机遥感技术和机器学习方法在SSC反演方面的潜力(最优RMSE=9.086mg/L,最优2=0.703,分别优于回归分析方法最优精度16.92%和18.35%).

然而,现有的基于机器学习方法反演SSC的研究主要使用单一模型,而机器学习方法的解空间维度通常较高,各方法具有较强的拟合能力,却由于方法各自的缺陷容易陷入局部最优解(即“过拟合”)[48–53].同时,由于遥感辐射传输的机理复杂,单一机器学习模型难以应对复杂的现实场景,也加剧了单一机器学习模型的过拟合问题,限制了机器学习方法在遥感SSC反演方面的能力.

4.2 集成学习SSC反演

集成学习以多个单一机器学习模型作为基模型,采用不同的策略将各个基模型进行组合以实现基模型方法之间的优势互补,最大程度地发挥机器学习方法的潜力[54],从而提升模型在SSC反演方面的精度和泛化性.本文以MLR、SVR、DT和KNN等方法为基模型,分别使用4种集成学习策略对这些基模型进行组合.3.1和3.2节实验显示基于集成学习的方法在无人机遥感SSC反演方面显著优于回归分析方法和传统单一机器学习方法,其中基于Stacking策略组合的SVR、MLR、DT和KNN模型取得了最优的反演效果,其验证集RMSE为7.046mg/L,相比回归分析方法最优RMSE提升50.76%,相比单一机器学习方案最优RMSE提升28.95%;其验证集最优2为0.821,相比回归分析方法最优2提升38.21%,相比单一机器学习方法最优2提升16.79%.此外,集成学习方法反演的绝对误差集中于较小值,其绝对误差均值和中值分别为6.521mg/L和5.410mg/L,低于回归分析方法和单一机器学习方法的对应误差,说明了集成学习方案在总体精度和误差分布两方面均优于传统单一模型.

4.3 遥感SSC反演局限

由于辐射传输的复杂性,无人机影像采集时间、气象条件和反演河流特性等会对SSC反演造成影响[55].本研究在数据获取过程中尽量保持了数据采集时间和气象条件的一致性,但不同河段的河流特性仍存在较大差异.同时,样本数量显著影响着遥感反演精度,尤其是机器学习遥感反演精度.集成学习策略能够克服各种单一模型的缺陷,显著提升了遥感SSC反演精度和泛化性,在遥感地表监测和信息提取方面表现出巨大的潜力.然而,受限于天气和数据采集成本等主客观条件,本文所采集的无人机影像数据和SSC实地监测数据量相对较小,所建立的反演模型仅适用于春季时苏州市部分水体.后续的研究将重点考虑获取更长时间尺度和更大空间范围的数据,以提升反演模型的适用性.同时,考虑将河流流速、深度等信息加入反演模型,以削弱河流特性对反演的影响,进一步提升反演精度.

5 结论

5.1 无人机遥感技术在城市河流SSC反演方面具有巨大的潜力,无人机遥感影像各波段与SSC实测值具有显著的高相关性,使用无人机遥感技术反演城市河流SSC具有理论基础和可行性.

5.2 机器学习方法相比回归分析方法在遥感SSC反演方面具有更强的拟合能力和更高的反演精度,而集成学习策略通过联合多种模型,有效地克服了单一机器学习方法容易“过拟合”的缺陷,其反演精度相比单一机器学习方法具有显著提升.

5.3 基于Stacking的集成学习模型在SSC反演的多种精度指标和误差分布两方面均取得了最优的结果,其中最为典型的是基于Stacking策略组合的SVR、MLR、DT和KNN模型,其验证集2相比回归分析方法提升近1/3,相比单一机器学习方法提升近1/6,且反演绝对误差多集中于较小值,是苏州市城市河流SSC反演的最优方法.

[1] 卢世军.Ⅱ类水体悬浮物遥感研究进展[J]. 现代计算机(专业版), 2016,(32):34-39. Lu S J. Research progress on the retrieval of suspended sediment from II water [J]. Modern Computers, 2016,(32):34-39.

[2] 王 波,黄津辉,郭宏伟,等.基于遥感的内陆水体水质监测研究进展[J]. 水资源保护, 2022,38(3):117-124. Wang B, Huang J H, Guo H W, et al. Progress in research on inland water quality monitoring based on remote sensing [J]. Water Resources Protection, 2022,38(3):117-124.

[3] Hong S M, Cho K H, Park S, et al. Estimation of cyanobacteria pigments in the main rivers of South Korea using spatial attention convolutional neural network with hyperspectral imagery [J]. GIScience & Remote Sensing, 2022,59(1):547-567.

[4] 杨 振,卢小平,武永斌,等.无人机高光谱遥感的水质参数反演与模型构建[J]. 测绘科学, 2020,45(9):60-64,95. Yang Z, Lu X P, Wu Y B, et al. Retrieval and model construction of water quality parameters for UAV hyperspectral remote sensing [J]. 2020,45(9):60-64,95.

[5] 臧传凯,沈 芳,杨正东.基于无人机高光谱遥感的河湖水环境探测[J]. 自然资源遥感, 2021,33(3):45-53. Zang C K, Shen F, Yang Z D. Aquatic environmental monitoring of inland waters based on UAV hyperspectral remote sensing [J]. Remote Sensing for Natural Resources, 2021,33(3):45-53.

[6] 丁 波,李 伟,胡 克.基于同期光学与微波遥感的茅尾海及其入海口水体悬浮物反演[J]. 自然资源遥感, 2022,34(1):10-17. Ding B, Li W, Hu K. Inversion of total suspended matter concentration in Maowei Sea and its estuary, Southwest China using contemporaneous optical data and GF SAR data [J]. Remote Sensing for Natural Resources, 2022,34(1):10-17.

[7] 盖颖颖,王章军,杨 雷,等.金沙滩近岸水体叶绿素a和悬浮物遥感反演研究[J]. 国土资源遥感, 2020,32(3):129-135. Gai Y Y, Wang Z J, Yang L, et al. Remote sensing retrieval of chlorophyll - a and suspended matter in coastal waters of Golden Beach [J]. Remote Sensing for Land and Resources, 2020,32(3):129- 135.

[8] 禹定峰,周 燕,马万栋,等.基于HICO模拟数据的杭州湾水体悬浮物浓度遥感反演[J]. 国土资源遥感, 2018,30(4):171-175. Yu D F, Zhou Y, Ma W D, et al. Retrieval of total suspended matter concentration in Hangzhou Bay based on simulated HICO from in situ hyperspectral data [J]. Remote Sensing for Land and Resources, 2018, 30(4):171-175.

[9] Silveira Kupssinskü L, Thomassim Guimarães T, Menezes de Souza E, et al. A method for chlorophyll-a and suspended solids prediction through remote sensing and machine learning [J]. Sensors, 2020,20(7): 2125.

[10] Peterson K T, Sagan V, Sidike P, et al. Suspended sediment concentration estimation from Landsat imagery along the Lower Missouri and Middle Mississippi Rivers using an extreme learning machine [J]. Remote Sensing, 2018,10(10):1503.

[11] Nazeer M, Bilal M, Alsahli M M M, et al. Evaluation of empirical and machine learning algorithms for estimation of coastal water quality parameters [J]. ISPRS International Journal of Geo-Information, 2017,6(11):360.

[12] 王思梦,秦伯强.湖泊水质参数遥感监测研究进展[J]. 环境科学, 2023,44(3):1228-1243. Wang S M, Qin B Q. Research progress on remote sensing monitoring of lake water quality parameters [J]. Environmental Science, 2023,44 (3):1228-1243.

[13] 杨宇锋,武 暕,王 璐,等.基于随机森林模型的辽河高时间分辨率氮、磷浓度模拟与预测[J]. 环境科学学报, 2022,42(12):384-391. Yang Y F, Wu J, Wang L, et al. Simulation and prediction of nitrogen and phosphorus concentrations with high time resolution in Liao River using random forest model [J]. Acta Scientiae Circumstantiae, 2022, 42(12):384-391.

[14] Pahlevan N, Smith B, Alikas K, et al. Simultaneous retrieval of selected optical water quality indicators from Landsat-8, Sentinel-2, and Sentinel-3 [J]. Remote Sensing of Environment, 2022,270: 112860.

[15] 嵇晓燕,杨 凯,陈亚男,等.基于ARIMA和Prophet的水质预测集成学习模型[J]. 水资源保护, 2022,38(6):111-115. Ji X Y, Yang K, Chen Y N, et al. An ensemble learning model for water quality forecast based on ARIMA and Prophet. Water Resources Protection, 2022,38(6):111-115.

[16] 王成贺,宋 宁,王京禹,等.基于时空演变多重特性建模的近海叶绿素浓度时序预测[J]. 信号处理, 2022,38(6):1232-1239. Wang C H, Song N, Wang J Y, et al. Temporal prediction of chlorophyll concentration in coastal waters based on multi- characteristics modeling of spatio-temporal evolution [J]. Journal of Signal Processing, 2022,38(6):1232-1239.

[17] 李雪清,郑 航,刘悦忆,等.基于多源数据机器学习的区域水质预测方法研究[J]. 水利水电技术(中英文), 2021,52(11):152-163. Li X Q, Zheng H, Liu Y Y, et al. Multi-source data machine learning-based study on method for regional water quality prediction [J]. Water Resources and Hydropower Engineering, 2021,52(11):152- 163.

[18] 陈点点,陈芸芝,冯险峰,等.基于超参数优化CatBoost算法的河流悬浮物浓度遥感反演[J]. 地球信息科学学报, 2022,24(4):780-791. Chen D D, Chen Y Z, Feng X F, et al. Retrieving suspended matter concentration in rivers based on hyperparameter optimized CatBoost algorithm [J]. Journal of Geo-information Science, 2022,24(4):780- 791.

[19] DeLuca N M, Zaitchik B F, Curriero F C. Can multispectral information improve remotely sensed estimates of total suspended solids? A statistical study in Chesapeake Bay [J]. Remote Sensing, 2018,10(9):1393.

[20] Dehkordi A T, Ghasemi H, Zoej M J V. Machine learning-based estimation of suspended sediment concentration along Missouri River using remote sensing imageries in Google Earth Engine [C]// 2021 7th International Conference on Signal Processing and Intelligent Systems (ICSPIS). IEEE, 2021:1-5.

[21] Kwon S, Seo I W, Noh H, et al. Hyperspectral retrievals of suspended sediment using cluster-based machine learning regression in shallow waters [J]. Science of The Total Environment, 2022,833:155168.

[22] Abdi H. Partial least squares regression and projection on latent structure regression (PLS Regression) [J]. WIREs Computational Statistics, 2010,2(1):97-106.

[23] Wold S, Sjöström M, Eriksson L. PLS-regression: A basic tool of chemometrics [J]. Chemometrics and Intelligent Laboratory Systems, 2001,58(2):109-130.

[24] Hoerl A E, Kennard R W. Ridge regression: Biased estimation for nonorthogonal problems [J]. Technometrics, 1970,12(1):55-67.

[25] Hoerl A E, Kennard R W. Ridge regression: applications to nonorthogonal problems [J]. Technometrics, 1970,12(1):69-82.

[26] Tibshirani R. Regression shrinkage and selection via the lasso [J]. Journal of the Royal Statistical Society. Series B (Methodological), 1996,58(1):267-288.

[27] Tibshirani R. The lasso method for variable selection in the Cox model [J]. Statistics in Medicine, 1997,16(4):385-395.

[28] Drucker H, Burges C J C, Kaufman L, et al. Support vector regression machines [C]//Advances in Neural Information Processing Systems. MIT Press, 1996.

[29] Suykens J A K, Vandewalle J, De Moor B. Optimal control by least squares support vector machines [J]. Neural Networks, 2001,14(1): 23-35.

[30] Kamiński B, Jakubczyk M, Szufel P. A framework for sensitivity analysis of decision trees [J]. Central European Journal of Operations Research, 2018,26(1):135-159.

[31] Cover T, Hart P. Nearest neighbor pattern classification [J]. IEEE Transactions on Information Theory, 1967,13(1):21-27.

[32] Breiman L. Bagging predictors [J]. Machine Learning, 1996,24:123- 140.

[33] Breiman L. Random forests [J]. Machine Learning, 2001,45(1):5-32.

[34] Painsky A, Rosset S. Cross-validated variable selection in tree-based methods improves predictive performance [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(11):2142-2153.

[35] Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting [C]//Vitányi P, ed.// Computational Learning Theory. Berlin, Heidelberg: Springer, 1995: 23-37.

[36] Piryonesi S M, El-Diraby T E. Data analytics in asset management: Cost-effective prediction of the pavement condition index [J]. Journal of Infrastructure Systems, 2020,26(1):04019036.

[37] Wolpert D H. Stacked generalization [J]. Neural Networks, 1992,5(2): 241-259.

[38] Breiman L. Stacked regressions [J]. Machine Learning, 1996,24(1): 49-64.

[39] Littlestone N, Warmuth M K. The weighted majority algorithm [J]. Information and Computation, 1994,108(2):212-261.

[40] 周志伟,邓 化,施华宏.基于无人机遥感与机器学习的岸滩大型塑料垃圾监测方法[J]. 海洋环境科学, 2023,42(1):141-150. Zhou Z W, Deng H, Shi H H. Monitoring of marine macro-plastic litter in the coastal zone based on UAV remote sensing and machine learning. Marine Environmental Science, 2023,42(1):141-150.

[41] 毛正君,石硕杰,王贵荣,等.基于无人机遥感的区域黄土滑坡识别及发育特征分析[J]. 灾害学, 2023,38(1):63-71. Mao Z J, Shi S J, Wang G R, et al. Identification and development characteristics analysis of loess landslide based on UAV remote sensing [J]. Journal of Catastrophology, 2022,38(1):63-71.

[42] 申华磊,苏歆琪,赵巧丽,等.基于深度学习的无人机遥感小麦倒伏面积提取方法[J]. 农业机械学报, 2022,53(9):252-260,341. Shen H L, Shu X Q, Zhao Q L, et al. Extraction of lodging area of wheat varieties by unman [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022,53(9):252-260,341.

[43] 谢运鸿,荆雪慧,孙 钊,等.基于实例分割的高郁闭度林分单木树冠无人机遥感提取[J]. 林业科学研究, 2022,35(5):14-21. Xie Y H, Jing X H, Sun Z, et al. Tree crown extraction of UAV remote sensing high canopy density stand based on instance segmentation. Forest Research, 2022,35(5):14-21.

[44] Dethier E N, Renshaw C E, Magilligan F J. Rapid changes to global river suspended sediment flux by humans [J]. Science, 2022,376(6600): 1447-1452.

[45] Overeem I, Hudson B D, Syvitski J P M, et al. Substantial export of suspended sediment to the global oceans from glacial erosion in Greenland [J]. Nature Geoscience, 2017,10(11):859-863.

[46] Park E, Latrubesse E M. Modeling suspended sediment distribution patterns of the Amazon River using MODIS data [J]. Remote Sensing of Environment, 2014,147:232-242.

[47] Umar M, Rhoads B L, Greenberg J A. Use of multispectral satellite remote sensing to assess mixing of suspended sediment downstream of large river confluences [J]. Journal of Hydrology, 2018,556:325-338.

[48] Sabzekar M, Hasheminejad S M H. Robust regression using support vector regressions [J]. Chaos, Solitons & Fractals, 2021,144:110738.

[49] Yu Q, Liu Y, Rao F. Parameter selection of support vector regression machine based on differential evolution algorithm[C]//2009Sixth International Conference on Fuzzy Systems and Knowledge Discovery. Tianjin, China: IEEE, 2009:596-598.

[50] Moses D, Deepa B, Patri T, et al. A review of decision tree algorithms for predictive analysis in data mining [J]. Journal on Software Engineering, 2017,12(1).

[51] Alsagheer R H, Alharan A F, Al-Haboobi A S. Popular decision tree algorithms of data mining techniques: a review [J]. International Journal of Computer Science and Mobile Computing, 2017,6(6):133- 142.

[52] Losing V, Hammer B, Wersing H. KNN classifier with self adjusting memory for heterogeneous concept drift [C]//2016IEEE 16th International Conference on Data Mining (ICDM). IEEE, 2016:291- 300.

[53] Bagnall A, Lines J, Bostrom A, et al. The great time series classification bake off: a review and experimental evaluation of recent algorithmic advances [J]. Data Mining and Knowledge Discovery, 2017,31(3):606-660.

[54] Zhou Z-H. Ensemble methods: foundations and algorithms [M]. CRC press, 2012.

[55] Romero-Trigueros C, Nortes P A, Alarcón J J, et al. Effects of saline reclaimed waters and deficit irrigation on Citrus physiology assessed by UAV remote sensing [J]. Agricultural Water Management, 2017, 183:60-69.

Inversion of suspended sediment concentration in rivers of Suzhou based on UAV remote sensing and ensemble learning.

YU Cheng1, TANG Yi2*, PAN Yang2, YI Hong-chen2, GU Yi-ping2, ZHU Feng2, SHI Jiao-yang2

(1.School of Geography Science and Geomatics Engineering, Suzhou University of Science and Technology, Suzhou 215009, China;2.School of Environmental Science and Engineering, Suzhou University of Science and Technology, Suzhou 215009, China)., 2023,43(10):5235~5246

The inversion of suspended sediment concentrations of urban rivers by remote sensing has important practical significance for water environmental management. To address the problem of overfitting in individual models, this study attempts to improve the accuracy and generalizability of the inversion model by realizing the complementary advantages among four different ensemble learning strategies. Ensemble learning inversion models were established based on multispectral remote sensing images collected by unmanned aerial vehicles and field-measured suspended sediment concentrations of Suzhou in this study. Four commonly used regression methods and three classic machine learning methods were used to validate the effectiveness of the ensemble learning strategies. The results demonstrate that the ensemble learning strategies effectively mitigate the limitations of individual models, substantially improving the accuracy and generalizability of the remote sensing inversions. The stacking strategy achieves the best performance with a validation set’s coefficient of determination of 0.821, show casing a 38.21% enhancement compared with the regression methods and a 16.79% improvement compared to the individual machine learning methods. The absolute error of the ensemble learning method is concentrated on small values, with its mean and median absolute errors surpassing the traditional methods. This study can improve the accuracy of urban suspended sediment concentration inversion and provide guidance for unmanned aerial vehicle remote sensing of river suspended sediment concentration inversion.

river suspended sediment concentration;unmanned aerial vehicle remote sensing;multispectral;ensemble learning;machine learning

X87

A

1000-6923(2023)10-5235-12

2023-03-01

国家自然科学基金资助项目(41801148)

* 责任作者, 高级工程师, tangyi4k3@163.com

余 成(1987-),女,湖北仙桃人,讲师,博士,主要从事土地利用变化的水环境效应.发表论文10篇.yucheng823@126.com.

余 成,唐 毅,潘 杨,等.基于无人机遥感和集成学习的苏州市河流悬浮物浓度反演 [J]. 中国环境科学, 2023,43(10):5235-5246.

Yu C, Tang Y, Pan Y, et al. Inversion of suspended sediment concentration in rivers of Suzhou based on UAV remote sensing and ensemble learning [J]. China Environmental Science, 2023,43(10):5235-5246.

猜你喜欢
悬浮物分析方法学习策略
悬浮物对水质氨氮测定的影响
基于EMD的MEMS陀螺仪随机漂移分析方法
一种角接触球轴承静特性分析方法
中国设立PSSA的可行性及其分析方法
高中生数学自主学习策略探讨
废水悬浮物国标检测方法的修改建议
压裂返排液中悬浮物去除的室内研究
雷州湾海域悬浮物浓度遥感监测研究
一种使用反向学习策略的改进花粉授粉算法
基于微博的移动学习策略研究