张娟娟,牛 圳,马新明,王 健,徐超越,时 雷,Bação Fernando,司海平*
1. 河南农业大学信息与管理科学学院,河南 郑州 450002 2. 河南粮食作物协同创新中心,河南 郑州 450002 3. Universidade Nova de Lisboa,NOVA Informantion Managment School,Lisboa,1070-312,Portugal
砂姜黑土是我国珍贵的土壤资源,其发育于河湖相沉积物、河间洼地和岗丘间洼地环境,经前期草甸潜育化过程和后期耕作熟化过程所形成的一种半水成土,全国面积计有370万 hm2左右,主要分布于淮北平原,其特点是质地黏重,结构松散[1]。全氮作为砂姜黑土肥力的重要组成部分,准确、快速地估测其含量对农田砂姜黑土生产力、粮食安全和农业可持续发展具有重要意义,也是加快精确农业发展的重要手段[2]。目前,砂姜黑土养分的分析仍以传统的实验室化验分析方法为主,测试过程费时、费力。近年来,高光谱分析技术以其快速、简便、不破坏等特点[3],为土壤养分的快速诊断提供新的思路和技术手段。
国内外学者利用高光谱技术反演土壤全氮已有较多研究。目前,利用高光谱进行土壤养分估测多是首先对光谱进行预处理,如对原始光谱反射率进行一阶导数,二阶导数、对数、连续统去除和平滑等处理[4],然后结合不同的建模方法进行模型的构建和验证。预处理方法和建模方法的不同选择,均显著影响模型的预测精度。如Cheng等[5]通过估算土壤重金属含量表明,将光谱数据进行一阶导数、二阶导数变换可以消除实验室光谱中的基线漂移和多次散射效应。随着非线性模型算法的出现,较多研究结合不同的机器学习方法开展了土壤养分含量的光谱模型构建,并取得了较好的精度。如孙小香等[6]将全波段原始光谱作为输入变量,结合偏最小二乘、BP神经网络和支持向量机3种建模方法,构建全氮含量高光谱估测模型。任红艳等[7]采用偏最小二乘回归方法建立了基于全波段高光谱反射率的全氮含量预测模型。胡贵贵等[8]在主成分方法特征提取基础上,结合K邻近和支持向量机模型高效定量分析了土壤有机质含量。然而,上述研究多利用全波段进行建模,而土壤全氮因受到水分、粒径和微量元素等土壤组分的干扰[9],全氮光谱吸收特征较为微弱。为凸显或提取土壤光谱中的全氮信息,降低数据的冗余性,筛选与研究对象相关的光谱特征和变量成为提高建模精度的一种有效方法[10]。
离散小波是一种通过对数据在时域和频域上的分解实现更加精确的局部分析以及信号特征的分离,将光谱信号分解为不同的层,各层所包含的信息与土壤不同成分有关。低频信息决定土壤光谱基本形状的物质,高频信息反映光谱采集过程的各种噪声及土壤微量成分在原始光谱的特征[11]。王延仓等[12]利用小波变换和偏最小二乘算法构建土壤有机质含量估测模型,结果表明小波变换可以提高模型的估测能力。郭云开等[13]运用小波变换获得小波系数,放大了土壤高光谱特征信息,而且降低了数据的维度,结合模型预测土壤重金属铬含量是可行的。土壤全氮含量较低时,在土壤光谱中的吸收特征较为细弱,噪声会对光谱信息造成很大的干扰,因此,如何将土壤光谱数据内噪声信息剔除,并最大限度地保留原始土壤光谱信息,是进一步提高土壤全氮预测精度的关键。
因此,以砂浆黑土为研究对象,利用离散小波变换对土壤全氮进行光谱特征提取,将低频信息和高频信息的分离,并确定土壤全氮最佳母小波和分解层次选择,同时结合支持向量机和K邻近算法构建土壤全氮估测模型,以期为同类研究提供技术参考。
1.1.1 土壤数据
供试土壤样本取自河南省商水县国营农场的小麦氮肥处理试验区,试验施氮量分别为0 kg·hm-2(N0)、90 kg·hm-2(N6)、180 kg·hm-2(N12)、270 kg·hm-2(N18)、360 kg·hm-2(N24)。氮肥使用尿素,分别于播种期和返青期按5∶5施入。如图1,研究区地势开阔,土地养分充足,是河南省粮食主产区。土壤类型为砂姜黑土。野外采样时,将每个采样点地表植物清除,在每个单元按照五点取样法的原则采集0~20 cm的表层土壤,将土样置于阴暗通风处风干。为避免土壤粒径带来的土壤光谱异向、噪音问题,对土样进行研磨、分别过筛0.9和0.15 mm处理,供光谱测试和化学分析使用。
图1 研究区位置Fig.1 Location of study area
1.1.2 光谱数据
土壤光谱数据获取采用美国ASD公司生产的FieldSpec4地物光谱仪(光谱波段范围350~2 500 nm)。测试在暗室进行,选择稳固的平台利用卤素光源和标准白板完成测量。把适量经处理的土壤样品倒入黑色盛样皿中,厚度为1.5 mm,用玻璃棒压实,使其表面尽可能平整。测量时为了减小土壤样品非目标因素的影响,测量过程中将样品旋转3次,每次采集10条共采集30条,计算30条曲线的平均值作为样本的光谱反射率数据。删除350~399和2 451~2 500 nm信噪比低、噪声大的锯齿波段,共获得2 051个波段数据。砂姜黑土耕层浅薄,较其他土壤类型光谱差异不明显。为扩大样本之间的光谱特征差异,对光谱曲线进行了一阶导数变换。
1.1.3 土壤全氮测量
土壤全氮测定采用凯式定氮法[14],表1为土壤样本全氮含量统计特征。
表1 土壤全氮含量统计(g·kg-1)Table 1 Statistics of total nitrogen content in soil (g·kg-1)
1.2.1 相关分析
相关分析(CA)是分别对原始光谱、一阶导数光谱的各个波段与全氮含量的相关计算,计算选定的土壤样本的全氮含量与每个波段的相关系数。在光谱波段范围的相关系数曲线中,选取相关系数曲线的波谷和波峰作为输入波段。相关系数的计算公式如式(1)
(1)
1.2.2 离散小波
离散小波变换的背景和原理可以被描述为有限长度信号和离散小波基的内积,其通过平移和缩放等运算功能可对光谱信号进行多尺度的细化分析[15]。可利用低通与高通滤波器将信号分解为一系列高频和低频信号,高频信号(DC)为原始信息中的细微信号,低频信号(AC)为原始信息中的宏观信号[16]。二者可从细微和宏观角度深入分析原始信息,同时还可以降低高光谱数据的维度。
1.3.1 支持向量机
支持向量机(SVM)是由Vapnik[17]等提出的一种统计学理论,是用作分类和回归的机器学习方法,可以在有限数据下表现出良好的泛化能力和抗噪声能力[18]。其目的是寻找数据之间的规律并依此来预测估计数据未来的变化趋势,在解决小样本、高位模式识别、大规模数据集的同时,可以有效地处理非线性问题。本研究中,采用高斯核函数作为核函数,使用GridSerachCV函数发现最优参数,其中,惩罚系数代价=10和gamma=0.001。
1.3.2 K邻近
K邻近算法(KNN)是由Cover和Hart提出的,其原理是通过测量不同样本特征值之间的距离进行分类,同时该算法也可用于回归问题处理[19]。邻近距离度量使用欧氏度量法,它定义于欧几里得空间中两点间直线距离,来衡量样本特征值之间的相似性。距离越远,即相似性越低。K邻近算法采用python中的“sklearn.neights”包,交叉验证法用于确定K值,K=3。
采用决定系数(R2)、均方根误差(RMSE)、相对分析误差(RPD)对估测模型进行评价,其计算公式分别为
(2)
(3)
(4)
已有研究表明,对光谱进行一阶导数变换能较好地消除背景信号或噪声、突出光谱曲线特征、去除或减弱其他因素的影响。将土壤全氮含量与原始光谱、一阶导数光谱分别进行相关性分析,见图2。从图可以看出,原始光谱与土壤全氮的相关系数介于-0.48~0.59。经一阶导数变换后的光谱与土壤全氮的相关性更显著,峰值点清晰,相关系数介于-0.82~0.84之间。综合比较可知,一阶导数光谱可以去除不同地背景噪声和基线漂移,解决重叠光谱特征,获取曲线中拐点和极值点,提高光谱与全氮的相关系数。其中,在1 373 nm处一阶导数光谱与全氮含量相关系数最高,为0.84。选取一阶导数与全氮相关系数最高的10个峰值对应的波长作为全氮的特征波段,分别为643、1 003、1 373、1 417、1 862、1 918、2 029、2 195、2 211和2 281 nm,用于后续的建模分析。
图2 土壤全氮与原始光谱及一阶导数光谱的相关性Fig.2 Correlation between soil total nitrogen and original spectrum and first derivative spectrum
利用常见的5种母小波函数对一阶导数光谱进行分解,并用重构相似指标比较,分析不同母小波参数和分解层数的变化特征。随着分解水平增加,越来越多能够响应土壤的有用信息会被剔除,导致反射光谱的信息含量减少。DWT系数的数量描述了数据压缩的程度,如表2所示,小波变换系数的数量随着母小波和分解级别而变化。从L1—L13趋于下降,下降稳定在L11。5个母小波中,sym8压缩能力最强,而coif5最弱。例如,本研究中的波段总数为2 051个(400~2 450 nm),在分解级11后,母小波为sym8的DWT系数数量为15,而coif5有29。小波分解可以根据信号的长度和小波基长度,重复进行波长分解,直到达到最大尺度。
表2 不同母小波和分解层数下的小波系数个数Table 2 The number of wavelet coefficients under different mother wavelets and decomposition levels
由于低频系数被认为是光谱全局信息的一个指标,分解级别1—11的每级变换光谱的低频系数被用来重构,以便发现低频系数如何描述反射光谱。反射光谱和重构信号之间的相关性如图3所示,相关系数从L4一直下降到L11,表明低频系数对光谱的解释和信号恢复能力从L4到L11逐渐下降;分解到7级后,相关性系数迅速下降到0.6以下,L11时一阶导数光谱相关系数为0.4左右;母小波db10比其他母小波函数更不稳定。考虑到数据压缩有效性、母小波的稳定性和保持光谱信息质量的能力,选择L1—L11分解层的母小波sym8进行小波变换,用于分析与全氮含量的相关性。
图3 每个分解级不同母小波重构和一阶导数光谱之间的相关性Fig.3 Correlations between reconstructed signals and FD spectra for different mother wavelets at each decomposition level
利用离散小波将土壤光谱数据分解为11个尺度的低频数据与高频数据,由于小波变换分析的高频系数代表光谱中的噪声或微小的吸收,图3显示,光谱信号和分解级1—5的AC重建信号之间的相关系数接近1,这表明L1—L5处的DC振幅非常小(接近0),可以在信号信息内容没有重大损失的情况下去除,因此,利用各尺度低频数据作为输入结合机器学习方法构建模型。图4为不同分解级的低频系数结合SVM和KNN模型构建的土壤全氮含量建模和验证决定系数。
图4 不同模型的决定系数与分解水平的关系Fig.4 Relationship between determination coefficient and decomposition level of different models
表3 低频系数不同分解级土壤全氮回归分析Table 3 Regression analysis of soil total nitrogen with low frequency coefficient at different decomposition levels
图5 基于L5近似系数的K邻近算法建模(a)及检验(b)Fig.5 K proximity modeling (a) and testing (b) based on L5 approximate coefficient
进一步将全波段和经过相关性分析后选择的10个特征波段分别作为输入,结合支持向量机和K邻近建立土壤全氮模型,见表4。基于特征波段构建的模型验证决定系数均在0.90以上,全波段构建的模型验证决定系数均在0.85以上。其中,以特征波段结合KNN建模及验证结果表现最好,建模决定系数为0.91,RMSE为0.08 g·kg-1,RPD为3.30,验证决定系数为0.94,RMSE为0.07 g·kg-1,RPD为3.72。
表4 不同波段输入土壤全氮模型比较Table 4 Comparison of soil total nitrogen models with different wave bands
小波变换是信号处理的一种新型技术,利用低通与高通滤波器将光谱数据分离为低频信息与高频信息。高频信息是光谱信号中包含的噪声和特殊信息,低频信息是光谱信号全局行为的一种表达,对应信号中的主趋势[20]。已有研究表明土壤全氮的有益信息多集于低频信息内,而高频信息内含噪声较多,信噪比相对较低[21]。本文采用离散小波处理土壤光谱,并与传统降维方法进行对比建模。由表3和表4对比分析可知,基于不同输入量构建的SVM模型中,模型性能如下:近似系数1—7>相关分析>全波段>近似系数8—11。基于近似系数的最优模型的预测精度比相关分析模型和全波段模型精度提高6.7%和11.6%。基于不同输入量构建的KNN模型中,模型性能如下:近似系数2—6>相关分析>近似系数1>近似系数7>全波段>近似系数8—11。基于近似系数的最优模型的预测精度比相关分析模型和全波段模型精度提高3.2%和9.0%,表明离散小波可有效提升光谱对土壤全氮含量的敏感性,压缩了光谱自变量并增加了各组分之间的区别,进而提升模型的预测精度和稳定性,这与其他学者的研究结果相似[22-23]。
机器学习被应用到遥感数据的建模中,但不同方法在构建模型时精度差别较大。Xu等[24]利用随机森林回归模型对滨海湿地的全氮含量估测并绘制空间分布地图,模型决定系数为0.65,为大尺度全氮估测提供了技术指导。在本研究中,使用小波变换提取的低频系数作为输入构建的模型要优于全波段和敏感波段作为输入构建的模型,且整体上使用K邻近算法构建的模型精度要优于支持向量机,K邻近算法可能是构建土壤全氮含量反演模型的可靠建模方法,能获取更高的精度。本研究还存在不足之处,如样本量较小,模型的稳定性和预测精度需要进一步验证,在后续研究会扩大取样范围,获取更多的样本,以进一步验证模型的可靠性。
以砂浆黑土为研究对象,在系统分析土壤原始光谱和一阶导数光谱的基础上,利用离散小波变换对一阶导数光谱进行小波分解和重构,提取特征参数,并结合支持向量机和K邻近算法建立机土壤全氮模型。结果表明:离散小波分析在保持原始光谱质量和降低光谱数据空间维度的基础上,可对土壤全氮光谱特征进行提取,利用sym8母小波对一阶导数光谱进行压缩分解,L5层低频系数结合K邻近算法构建的土壤全氮模型表现最好,要优于全波段和以敏感波段作为输入构建的模型。研究结果可为利用高光谱遥感技术快速、实时、精确估测土壤全氮含量提供参考。