黄卫丽,梁海荣,张海东,吴振廷
(1. 内蒙古自治区林业科学研究院,内蒙古 呼和浩特010010; 2. 内蒙古农业大学 草原与资源环境学院,内蒙古 呼和浩特010018)
随着全球气候变暖,土壤碳库作为陆地生态系统最大碳库受到了广泛关注[1],土壤碳库主要包括有机碳库和无机碳库,由于土壤有机碳对土壤安全、土壤质量和生态系统等方面的重要作用[2],很多研究主要集中在土壤有机碳库方面,无机碳研究相对较少。无机碳约占全球总碳库的 38%,是陆地生态系统中第二大碳库,绝大多数的无机碳存在于干旱和半干旱地区[3],而我国干旱和半干旱地区约占国土总面积的 47%[4]。所以,掌握土壤无机碳分布特征有利于对干旱和半干旱区生态系统碳固存的认知。有学者在研究干旱和半干旱地区土壤碳循环时发现,有较大量级的二氧化碳负通量无法解释[5],土壤无机碳作为最有可能引起二氧化碳含量变化的因子,就成为这些学者的主要研究对象,而土壤中缺乏碳酸盐可能会影响土壤的缓冲能力,对生物化学和物理化学过程产生负面影响[6]。
目前,对于土壤无机碳的估算及其变化研究方法主要包括灭菌法[7-8]、干烧法[9]、13C同位素法、中红外光谱法[10]和可见近红外高光谱法[11],这些方法各有优缺点。例如,灭菌法会造成环境污染而且影响碳酸盐的溶解性,引起额外的实验误差[12];干烧法由于干烧温度和时间的不确定性导致土壤中无机碳的损失;13C同位素法测量准确性较高[13],但是13C丰度变率大,表现出一定的不确定性;中红外光谱法准确性较高[14],但是使用中红外的吸收强度过大,容易光谱畸变和非线性。高光谱技术以其特有高分辨率,使得空间对地观测时可以获得更为全面的地面信息状况,因此,受到国内外专家学者们的广泛关注与应用。基于前人研究成果,本研究评述了土壤无机碳的高光谱特征、土壤无机碳室内和野外建模的研究进展,并探讨了高光谱技术应用于土壤无机碳预测中存在的问题和发展趋势,为进一步应用高光谱技术预测土壤无机碳提供理论参考。
土壤的光谱反射特性是土壤基本特性之一,土壤中不同的组成物质对应着各自特殊的光谱特征。探明土壤无机碳的高光谱特征规律是高光谱技术估测土壤无机碳含量的理论基础,一般而言,土壤无机碳在可见近红外区域光谱吸收特征主要是CO32-分子中C-O键伸缩振动。多位研究者将光谱特性与其所含的官能团对应进行了解释,结论略有差异。Gaffey[15]研究了方解石、菱镁矿和白云石等矿石,发现碳酸钙含量越高反射率越高,呈正相关关系,通过实验室测量土壤碳酸钙特征波长为2 341 nm。土壤无机碳在可见近红外(400~2 500 nm)区域内成分简单,由于碳酸质成土母质的风化作用,在土壤中可以出现的碳酸盐岩矿物主要是方解石和白云石。Clark等[16]证明最强的吸收带出现在2 500~2 550 nm、2 300~2 350 nm、2 120~2 160 nm、1 970~2 000 nm和1 850~1 870 nm这5处宽波段处。Ben-Dor和Banin[17]研究了土壤中碳酸盐矿物和反射光谱的相关关系,提出了证明这一相关关系的3个波段:1.80 μm、2.35 μm和 2.36 μm。碳酸盐中C-O键的光谱吸收特征为使用光谱测定土壤中的碳酸盐矿物提供了强有力的依据。Riefolo等[18]提出碳酸钙分子中C-O伸缩振动吸收峰出现在2 345 nm处。洪长桥等[19]通过对滨海土壤光谱反射曲线的研究发现,碳酸盐含量与光谱反射率在近红外波段相关性大于可见光波段,滨海土壤碳酸钙特征吸收波长是2 340 nm,土壤光谱反射率与碳酸盐含量相关关系与Gaffey[15]结论一致。吴倩等[20]总结出黄绵土中碳酸钙较明显的吸收特征位于1 610 nm、2 220 nm、2 340 nm、2 270 nm等处。以上研究表明,采用高光谱预测土壤无机碳含量有一定的理论基础,解释性较强。
现有的高光谱建模反演研究多集中在土壤含水量、有机质含量、氮含量、氧化铁等与土壤反射率的定量反演,而针对土壤碳酸钙的高光谱定量估测研究相对较少。图1为高光谱预测土壤无机碳的流程图,以下从光谱建模几个步骤进行分别阐述。
图1 高光谱预测土壤无机碳流程图Fig.1 Flow chart of hyperspectral prediction of soil inorganic carbon
土壤样品结构特性的变化以及光谱辐射计的工作状态和条件可能会导致光谱和成分浓度之间的非线性,从而导致随机噪声、基线漂移和光谱中的多重散射效应。因此,在利用高光谱数据进行定性或定量分析之前,需要进行光谱数据预处理,以消除背景噪声的影响。较常用的数据预处理方法有平滑校正、微分校正和散射校正等,如Savitzky-Golay平滑是平滑去噪声;标准正态变换和去除散射校正作用是消除颗粒大小的影响[21];微分校正属于数学预处理用于减少基线变化和增强光谱特征[22]。对光谱数据进行预处理可以直观地反映光谱吸收率特征,突出特征波段并提高估测精度[23]。
Riefolo等[18]研究低密度耕作碱性土壤光谱预测土壤无机碳时发现,将一阶微分用作预处理技术时,会对预测产生更好的结果。吴倩等[20]利用一阶微分、二阶微分和连续统去除几种方法对原始光谱数据进行预处理,经过数学变换后有效提高了土壤碳酸钙含量与光谱反射率之间的相关性,其中二阶导数效果最好。Brown等[24]用一阶导数对美国蒙大拿州中北部剖面土壤光谱数据进行预处理,用单独选择的场地独立验证,6个场地中2个场地预测失败。Sankey等[25]利用一阶导数处理过的光谱数据建立了美国蒙大拿州光谱数据库。秦倩如等[26]对碳酸钙预测模型中预测精度最高的是倒数对数的一阶微分光谱变换。与一阶导数相比二阶导数可以更好地消除基线效应,增强微小吸收特征,然而,二阶导数对噪声更敏感,并降低光谱质量,而且倒数变换增强光谱特征的同时也放大了噪声,要和平滑算法联合使用。
综上所述,目前没有一种单一的预处理方法或方法组合能够很好地处理来自不同研究区域的数据,选择的预处理方法依赖于独立区域和光谱数据。因此,需要根据所预测土壤的性质和光谱数据选择合适的预处理方法。
由于土壤反射光谱数据的复杂性,越来越多的多元数据分析技术被用于建立土壤属性与反射光谱之间的关系模型,最常用的方法有多元逐步线性回归、偏最小二乘回归、人工神经网络、支持向量机、回归树、随机森林等[27]。其中,偏最小二乘回归已成为校准土壤反射率到单个土壤参数和估计这些参数的最常用的多元统计方法,主要是因为此方法在处理高维多重共线性方面优于传统方法,并集成了主成分分析、典型相关分析和线性回归分析的优点。如Gomez等[28]利用可见近红外光谱估算法国南部土壤的碳酸钙含量表明,偏最小二乘回归方法估算效果优于连续统去除方法;马赵扬等[29]采集了陕西省5个不同县市的黄土土样,采用连续统去除、偏最小二乘回归、广义回归神经网络3种方法对土壤碳酸钙进行估算,表明偏最小二乘回归算法的估算精度最高;洪长桥等[19]通过相关分析筛选出特征波段,比较了偏最小二乘回归、主成分回归以及多元逐步回归3种建模方法对苏北滨海土壤碳酸钙含量的估算能力,结果表明偏最小二乘回归的估算能力较强,决定系数R2达到 0.87。Wijewardane等[30]利用偏最小二乘回归预测了美国内布拉斯加州湿土壤无机碳。Brown等[24]构建了土壤剖面多点的偏最小二乘模型,不论是用验证场地全部数据集还是随机选择 30% 的数据集,无机碳的R2均大于 0.85。Chang等[31]利用向土样中添加碳酸钙、腐殖酸和堆肥材料预测土壤中有机碳和无机碳含量,无机碳的预测值和实测值R2均大于 0.85。
多元自适应回归样条[32]是一种非参数多元回归方法。它能够通过将局部回归曲线拟合到光谱子区域,并包括响应变量和预测变量之间的高阶预测因素之间相互作用,建模响应变量和预测变量之间的线性和非线性关系。Bilgili等[33]采用偏最小二乘法和多元自适应回归样条估算了土耳其北部地区土壤碳酸钙含量,多元自适应回归样条在交叉验证情况下预测精度优于偏最小二乘法,但是使用单独的样本集进行校准和验证时,两者之间的结果没有太大差异。Ben-Dor和Banin[34]采用多元线性回归模型对以色列地区的土壤碳酸钙含量进行了估算,R2为 0.69。Chang等[35]运用主成分回归方法,对土壤碳酸钙含量进行估算,R2为 0.80。
随着人工智能的蓬勃发展和计算机技术的高效应用,非线性的机器学习算法对土壤理化性质反演建模的预测精度更高[36],近年来得到了广泛应用。随机森林是基于分类和回归树延伸出的机器学习新算法,对多元共线性不敏感,结果对缺失数据和非平衡数据比较稳健[37],被誉为当前最好的数据挖掘算法之一[38]。Sreenivas等[39]使用随机森林模型对印度无机碳密度建立估测模型,发现采样点的数据分布对随机森林模型的预测结果没有显著影响。Filippi等[40]采用两步随机森林混合模型对澳大利亚威尔士州西南部Lachlan河谷下游半干旱灌溉棉花种植区的底土(0.3~0.5 m)无机碳含量进行建模,可以预测整个区域内一定深度土壤无机碳含量。Wang等[41]研究了土壤侵蚀对土壤无机碳迁移的影响,通过增强回归树预测了沉积物中土壤无机碳含量。增强回归树是统计技术与机器学习技术的结合,其模型复杂性和预测性的融合可以解决多重共线性问题,并在防止过度拟合的同时有效拟合复杂响应函数[42]。
综上所述,我们发现土壤线性模型对小区域、大量数据集的土壤无机碳含量预测效果较好,而非线性模型对大区域、高空间的预测效果较好,但是非线性模型参数较多,数据处理较慢且应用更复杂。因此,在选择建模方法时,估计精度和模型复杂性是两个重要的评价因素,怎样选择合适的模型还需要进一步研究。
化学计量学和数据挖掘技术易于使用,不需要对光谱学有深入了解,只需要在给定光谱数据集和实验室测量数据校准的情况下快速生成预测模型,然而,这些方法拟合过程尚不明确,与任何高维统计方法一样容易过度拟合,那么合适且准确的模型验证方法也是提高模型稳健性不可缺少的因子。
预测模型通常采用交叉验证和独立验证两大类,交叉验证有留一交叉验证(Leave-one-out)、十出交叉验证(ten-out cross-validation)等。并利用R2、均方根误差(RMSE)以及测定值标准偏差与标准预测误差的比值(RPD)作为精度评价指标,验证R2及RPD越大,RMSE越小,说明预测效果越好。另外,当 1.5
Bilgili等[33]采用十出交叉验证(ten-out cross-validation)方法,测试基于整个样本数据集的土壤变量预测精度。在预测新的未知样本方面,交叉验证方法预测效果偏高。通过可见近红外光谱构建的模型是经验性的,因此使用独立于校准数据集的单独样本集可以更好地进行验证。McCarty等[11]比较了随机去除1/3建模样本的验证集与别处单独取样的验证集预测效果,结果是含少量新样品的验证集可以校正相同取样地引起的偏差。Brown等[24]的研究结果表明,相对于独立验证的“伪独立验证”(在非独立测试样本中随机选择验证集)存在高估预测结果准确性的现象,需要合理配置校准集和验证集,以确保验证样本的独立性能达到与预期模型用途相匹配的程度。目前,大量针对土壤各种属性的光谱预测的研究中,因每个研究者使用的校正方法存在差异,所以模型普适性标准对于同类型土壤的模型预测效果较好。
室内光谱是野外光谱的基础,野外光谱与同步获取的航空/卫星高光谱图像在自然状态上最接近[44],所以,野外光谱是多源(实验室、野外、航空、卫星)光谱数据的联结,野外土壤光谱受水分含量、土壤质地、土壤团聚体、土壤表面平整度、光照等影响较大,实地获取的光谱估计精度很低,但由于其实时性和不破坏土壤的优点,而具有重要的应用价值。利用野外测量的光谱预测土壤属性时必须要考虑这些影响因素,数据处理和模型预测也会更复杂。目前,解决土壤无机碳野外模型影响因素的研究较少。
Wijewardane等[30]利用外部参数正交化、直接标准化、全球湿度建模、斜率偏差矫正和波长选择建模5种方法消除水分因素对光谱的影响,直接预测土壤有机碳和无机碳。室内模型用于湿光谱预测的基本原则是,湿度校正方法的偏差不随土壤含水量变化而变化。Morgan等[45]比较了风干地表土和剖面芯土,发现土壤均质化会影响土壤无机碳的建模精度。增加土壤颜色、土壤pH值和土壤对HCl反应为预测因子时,土壤的野外预测模型精度得到了提升。目前利用高光谱预测土壤无机碳的野外原位研究较少,对土壤无机碳的时空变化缺少可用数据,所以,对表层和剖面土壤无机碳的预测是今后重点研究方向。
高光谱应用于土壤无机碳的预测已经有多年的研究历程,并取得了较好的研究成果,证明可见近红外波段对预测土壤无机碳特征方面具有很大应用空间。
通过研究不同土壤类型土壤无机碳的光谱特征,虽然发现土壤无机碳与光谱之间存在着非常显著的相关性,但是还未确定预测无机碳的特征波段位置。目前,土壤无机碳光谱预处理以一阶和二阶微分为主,有必要进行更多的预处理探索。常用土壤无机碳预测的光谱分析模型仍以线性偏最小二乘回归、非线性随机森林模型相关统计分析为主,而鲜见神经网络算法、小波分析、遗传算法以及支持向量机的应用。在应用高光谱数据预测土壤无机碳时,有必要采用非线性的统计学方法分析和识别各种因素的非线性作用。同时,模型验证方法分为独立验证和交叉验证两类,每类里包含不同的验证集划分标准,到目前为止模型验证方法还不够完善。
现有的研究方法各异,没有统一的标准,尚不能做到土壤数据和光谱数据的共享。那么统一的土壤处理方法、光谱处理方法和建模方法急需被开发,相比于传统的线性回归,机器学习[46]和深度学习对土壤无机碳反演建模精度更好,适用范围更广,是土壤光谱建模发展的方向。
室外实测光谱是室内光谱与遥感信息的中介,是建立两者之间关系的桥梁。目前的研究主要集中在室内数据测试建立土壤无机碳预测模型,如何将室内模型应用于野外原位,预测效果有何改变将是今后研究重点。主要趋势是加强土壤高光谱野外实验,消除外部环境因素对建模的影响,促进光谱技术应用。
目前,土壤无机碳高光谱预测中还没有应用变量选择方法,变量选择可以有效降低数据冗余问题,提高预测能力,降低模型复杂性,如遗传算法、无信息变量消除和连续投影算法等[47],可用于选择信息波长和消除非信息波长,应进一步研究变量选择方法,结合预处理技术,以提高高光谱模型的预测能力。
虽然土壤无机碳高光谱预测研究较土壤有机碳少,但是预测效果均好于有机碳,而我国土壤无机碳含量约为 77.9 Pg[48],通过基于化学分析的传统方法,想全面了解我国土壤无机碳分布情况是一个巨大的挑战。高光谱近年来广泛应用于土壤性质预测,被认为是可行的土壤属性预测方法。因此,在利用高光谱技术对土壤无机碳定量化预测方面具有广阔应用前景。