易翔,张立福,3*,吕新,张泽,田敏,印彩霞,马怡茹,范向龙
(1.石河子大学农学院/新疆生产建设兵团绿洲生态农业重点实验室,新疆 石河子832003;2.石河子大学机械电气工程学院,新疆 石河子832003;3.中国科学院空天信息创新研究院/遥感科学国家重点实验室,北京100094)
棉花是我国极为重要的一种大田经济作物,其生产覆盖全国24个省(直辖市、自治区),商品率在95%以上,在国民经济中占有十分重要的地位[1]。新疆因得天独厚的气候、光照、土地等自然资源条件,成为目前我国最大的商品棉基地[2]。地上部生物量(Above-ground biomass,AGB)作为反映作物生长的重要参数之一,在棉花长势监测和大田精准管理方面发挥重要作用[3]。因此,快速、无损、准确地估算棉花AGB对棉花生产管理和决策具有重要意义。然而,传统的人工测量方法因破坏性强、耗时、费力且适用范围小[4]等局限性难以满足大规模监测的需求。
无人机遥感以其高效率、高分辨率、低成本等优势为精准农业的快速发展提供了新的技术平台[5-7]。目前,无人机高光谱遥感技术已实现对棉花株高、氮素营养状况、虫害动态等监测[8-10]。其中关于生物量的研究已有很多报道,Tao等[11]利用无人机获取高光谱数据构建植被指数结合红边参数建立偏最小二乘法回归 (Partial least square regression,PLSR)模型用于冬小麦AGB估算。Hansen等[12]基于归一化植被指数(Normalized differencevegetation index,NDVI)和PLSR构建了小麦AGB估算模型,结果表明在680~750 nm波长内的波长组合下NDVI与生物量具有较高的相关性,基于PLSR建立的生物量估测模型比NDVI线性模型效果更好。邓江等[13]利用棉花主要生育时期的无人机近红外影像数据,提取4种植被指数通过与棉花AGB的实测值建立拟合关系,分析不同植被指数在棉花各生育时期的估算效果并对其拟合效果进行了验证,结果表明基于无人机影像生物量估算方面具有较好的可行性。上述研究主要是利用植被指数来建立模型,其特点是物理意义明确,形式简单,计算难度较低;但其适用性有限,效果各异,对特定的目标选用何种光谱指数需要大量的尝试和积累[14],且在建立模型时主要基于少数敏感波段,没有充分考虑高光谱遥感所包含波段的光谱信息。对此,本研究首先获取不同施氮量处理下的棉花AGB与棉花冠层高光谱数据,然后利用不同光谱预处理方法对光谱信息进行不同程度地减弱或消除背景噪声,为减少信息冗余,再采用连续投影算法对不同预处理后的波长进行筛选,以期从无人机高光谱数据(398~1 000 nm)中筛选出对棉花AGB敏感的特征波长,最后基于筛选出的特征波长使用PLSR和随机森林回归(Random forest regression,RFR)方法建模,并进行模型检验,选出棉花AGB的最佳估算模型,实现棉花AGB的快速无损监测,为新疆棉花生产的科学管理提供参考。
试验于2019年在新疆石河子大学农学院教学试验场(44°19′N,85°59′E)开展。该地区属温带大陆性气候,年降水量为125~207 mm,是新疆典型的棉花规模化种植区域。供试棉花品种选用当地常规品种新陆早53号和新陆早45号,依照新疆机采棉“一膜三管六行”的模式进行种植:行距配置(66+10)cm,株距10.5 cm。如图1所示,试验设置6个氮素水平处理:0(N0)、120(N1)、240(N2)、360(NC)、480(N3)、600 kg·hm-2(N4),氮肥以尿素(氮质量分数为46%)的形式随水滴灌施入,每个处理设置3个重复,共36个小区,化控等田间管理与当地同步进行。
图1 研究区位置和试验设计Fig.1 Location and experimentaldesign ofthe study area
1.2.1棉花冠层高光谱数据获取。试验于2019年4月24日播种,在棉花出苗(4月29日)后57d、66 d、74 d、88 d、112 d利用六旋翼无人机搭载高光谱相机(图2),在天气晴朗,无风无云、光照充足的中午12:00-14:00进行无人机高光谱遥感作业,飞行高度为100 m。无人机搭载的传感器为Nano-Hyperspec(美国)超微型机载推扫式高光谱成像光谱仪(测量过程中保证光谱仪垂直向下),质量0.6 kg,波长范围是400~1 000 nm;光谱分辨率为6 nm,空间分辨率为6.2 cm;有270个光谱通道;因为成像光谱仪曝光时间取决于太阳光强度,因此需要进行校正。在进行无人机遥感作业前,在黑暗条件下采集暗电流,地面设置黑白板进行辐射定标,并保持各时期遥感作业时的飞行航线一致。
获取的高光谱遥感影像为HDR格式,需要对其进行处理,主要包括影像校正和影像拼接、提取冠层光谱反射率。本研究使用传感器自带的Spectral View软件进行校正处理,并保存为BSQ文件格式。将校正好的影像使用无缝拼接(ENVI)进行影像拼接等处理,并利用标定板将影像的数字量化值(Digital number,DN值)转换为地表反射率,然后在ENVI软件中进行解译,根据AGB地面数据对应的样点位置构建感兴趣区(Region of interest,ROI),再以ROI范围内的地物平均反射率光谱值作为该小区棉花冠层反射光谱,进而得到各样点的反射率光谱数据。其中,保证2种尺度采样点相对应的具体方法:以每幅膜为1个小区,在小区划分基础上用布条确定地面采样区间,采样时记录采样点的全球定位系统(Global positioning system,GPS)信息,与无人机GPS信息相对应,并特意扩大无人机的ROI,使之绝对包含地面采样点,从而减小GPS误差。
图2 无人机平台与高光谱相机Fig.2 UAV platform with Nano-hyperspectralcamera
1.2.2生物量数据采集。在无人机作业后,每个小区选取1个样点,以每个样点为中心随机选取长势均匀、无病虫害的3株棉花沿地表剪取地上部作为试验样本,分别置于纸袋中在105℃的烘箱中杀青30 m in,然后将温度设置到75℃烘干至恒重,称量烘干后样品的质量,并计算平均值作为该样点的单株地上部AGB,根据单位面积株数与单株AGB得到单位面积AGB(简称“AGB值”,单位:kg·m-2),用于后续研究。不同处理小区的AGB值统计特征如表1所示。
1.3.1光谱预处理和特征波长筛选。为消除光谱噪声,降低环境背景干扰等因素的影响,本研究对原始光谱分别采用一阶导数(First derivative,FDR)、二阶导数(Second derivative,SDR)、Savitzky-Golay(SG)平滑以及多元散射校正(Multiplicative scatter correction,MSC)进行预处理。为了有效提取棉花AGB的光谱特征信息,压缩数据量,降低模型的复杂度,避免全波段高光谱数据大量冗余和同质性问题,利用连续投影算法(Successive projections algorithm,SPA)[15]筛选与AGB变化相关性更强的特征波长。
1.3.2模型建立及验证。遥感技术应用于作物监测和植物性状估算时,常与机器学习的方法相结合建模,如PLSR[16]、支持向量回归(Support vector regression,SVR)和RFR[17]等。本研究采用PLSR和RFR算法建立棉花地上部生物量估算模型。PLSR是结合多元线性回归、典型相关分析和主成分分析的线性回归方法,能够有效地克服一般最小二乘回归分析方法无法解决的难题,对连续光谱分析具有明显的优势,通常用于构建预测模型[18-20]。RFR是基于树的一种集成学习算法,由不同的树组成,这些树通过应用装袋和随机变量选择过程进行训练,对异常值和噪声有更好的容忍度;因此,不需要降维便能够获得精确的结果,在数据分析与挖掘方面具有极其重要的应用价值[21-23]。本研究在RFR计算过程中将树(nTree)的数量规定为500,具体操作在Matlab 2014a软件中采用代码实现。
本研究将5次采集的180个样本用于棉花生物量估算模型构建,其中135个作为建模数据,45个作为模型检验数据。依据筛选出的特征波长,分别采用PLSR和RFR方法构建棉花AGB估算模型;使用决定系数(R2)、均方根误差(Root mean square error,RMSE)评估AGB估算模型的准确性;较大的R2表示模型拟合效果较好,而较小的RMSE表示模型的精度高。R2和RMSE分别使用公式(1)和(2)计算:
式中,n为样本数量,i表示第i个样本点数据;xi为第i个样本点的棉花AGB实测值,yi为根据模型估算出的第i个样本点的棉花AGB预测值,x¯为棉花AGB(干物质)实测值的平均值,y¯为模型估算出的棉花AGB(干物质)的平均值,单位均为kg·m-2。
由图3可知,新陆早53号(图3-a)和新陆早45号(图3-b)地上部生物量变化趋势基本一致,随着生育期的推移,棉花地上干生物量不断增长,均在出苗后112 d达到峰值,其中N3处理下棉花地上部生物量最大,此时棉花正处于盛铃期。在各个时期中,施氮处理下干物质质量决大多数大于N0处理,N3处理下干物质质量大于N4处理,说明缺氮会降低棉花干物质的积累,适当使用氮肥有助于棉花干物质积累,过量施氮会抑制棉花干物质积累。
图3 不同处理下棉花地上部生物量(AGB)变化Fig.3 Changes of cotton above-ground biomass(AGB)under differenttreatments
图4为无人机高光谱影像上不同棉花AGB值对应的冠层反射率光谱曲线,可以看出不同棉花AGB值的冠层光谱曲线趋势基本相同,在可见光范围(400~700 nm)内反射率较低,在近红外波段(700~1 000 nm)反射率较高。550 nm处出现1个反射峰,450 nm和670 nm处附近出现2个吸收谷,680~750 nm处反射率急剧上升,并在750~900 nm处的近红外波段形成1个显著的高反射平台。在红光与近红外光之间反射率急剧上升,是由于近红外光可以穿透叶绿素,经过叶肉组织反射形成强反射。其中:在波长450~700 nm的可见光波段表现为AGB值越高,冠层反射率越低,但差异幅度不大;在730~900 nm近红外波段表现为AGB值越高,冠层反射率越高,且差异显著。
图4 不同地上部生物量(AGB)的棉花冠层影像反射率曲线Fig.4 Cotton canopy image reflectance curves with differentabove-ground biomass(AGB)values
SPA通过不断循环计算一个波长在其余未选波长上的投影,进而找到包含冗余信息量最少的波长,能较好地降低输入数据组的共线性。运用Matlab 2014a软件对棉花AGB敏感的光谱数据进行SPA特征选择,实现400~1 000 nm全波段的降维,设置特征波长数n的范围为5~30。如图5和表2所示,对于原始光谱、一阶导数光谱、二阶导数光谱、SG平滑光谱和MSC散射校正光谱分别筛选出了10个、9个、24个、25个、26个特征波长。从表2可以看出,棉花AGB的敏感波段集中在可见光和近红外光区域,表明棉花AGB与近红外波段光谱反射率具有更为重要的关系。而近红外光谱区主要受组成成分、生物量等影响。因此,可以利用可见光及近红外波段的数据与农学参数建立定量关系,估测AGB。
图5 连续投影算法(SPA)筛选特征波长结果Fig.5 Characteristic wavelength screening results by the successive projections algorithm(SPA)method
表2 对光谱样本提取的特征波长Table 2 The effective wavelengths selection forhyperspectralsam ples
利用筛选后的特征波长光谱数据与棉花AGB分别建立PLSR和RFR估算模型,结果见表3。根据表3可知,不同预处理、不同建模方法的生物量估算模型精度存在差异。利用PLSR方法构建的估算模型中,基于SG平滑预处理筛选出的特征波长建立的模型R2(0.63)高于其他预处理,RMSE(0.42)要低于其他预处理,模型效果较佳;基于原始光谱筛选出的特征波长的建模效果次之,R2为0.53,RMSE为0.49;基于二阶导数预处理建立的模型精度与原始光谱相差不大;相比于利用原始光谱建立的模型,MSC预处理的建模效果明显下降。在RFR方法建立的模型中,一阶导数预处理下的建模效果最佳,其R2=0.87,RMSE=0.45;基于原始光谱的建模效果次之,R2为0.84,RMSE为0.47,且与二阶导数预处理下的建模效果相近;MSC预处理下的建模效果精度最低。2种棉花AGB估算方法的建模效果相比,RFR法的R2普遍高于PLSR法。
表3 棉花地上部生物量(AGB)估算模型Table 3 Estimation modelof cotton above-ground biomass(AGB)
从图6、图7与表4可知,对于验证集,以PLSR建立的5种估算模型的稳定性和精度良好(R2分 别 为0.63、0.55、0.57、0.67、0.21,RMSE分别为0.38、0.42、0.41、0.36、0.55),其中SG平滑预处理下模型的精度和稳定性高于其他预处理。不同预处理下,通过RFR法所建立的棉花AGB估算模型均优于PLSR法,R2分别为0.73、0.81、0.75、0.71、0.57,RMSE分 别 为0.45、0.37、0.40、0.62、0.56,其中基于一阶导数预处理筛选的特征波长建立的模型拟合效果最佳。
图7 棉花地上部生物量(AGB)估算模型精度检验Fig.7 Accuracy verification of above-ground biomass(AGB)inversion model
表4 棉花主要生育时期地上部生物量(AGB)估算模型验证Table 4 Estimation modelof above-ground biomass(AGB)ofcotton during main grow th periods
近年来,新疆棉花种植密度和种植方式也在不断的变化,为塑造合理的棉花群体,进一步提高棉花产量,棉花地上部生物量成为反映和描述棉花群体大小的重要的农学指标。传统的获取作物生物量的方法是实地取样后再测定,不仅费时、费力、有破坏性,而且实效性差,难以快速反映作物生长动态,在实际应用中不可行;因此,利用新的方法建立作物地上部生物量的估算模型,获取精度较高的棉花地上部生物量,对于解释、预测和设计理想棉花群体意义重大。
在利用高光谱数据构建生物量估算模型时,模型精度会受到光谱预处理方法的影响[24]。王玉娜等[25]在构建冬小麦生物量估算模型时发现,采用一阶导数光谱、对数变换光谱和连续统去除光谱建立的模型精度均高于利用原始光谱以及光谱指数建立的模型;马文君等[26]认为一阶微分有效地消除了背景、大气散射的影响,并提高了不同吸收特征的对比度。可见,合适的预处理方法能够很大程度上提高模型的精度。本研究利用一阶导数预处理有效筛选出敏感波长,提高了棉花AGB估算模型精度,这与上述研究结果相似。应用于其他监测、预测时,采用2种或2种方法组合预处理光谱,可以进一步提高模型精度[27-28];而本研究皆以单个方法进行预处理,因此应尝试不同预处理方法的组合及运算顺序对估算模型进行优化。
本研究中,基于SPA算法筛选的特征波长光谱,使用RFR方法获得的AGB估计值比使用PLSR获得的估计值更准确。此外,其模型验证效果较好,与模型性能一致。这些RFR建模的优越性与前人研究结果一致,比如:Han等[29]通过机器学习算法估算玉米地上部生物量结果表明,RFR构建的模型结果误差最小;Lu等[30]基于RGB图像和RFR算法建立的模型最佳。因此,优选RFR算法来构建棉花地上部生物量的无人机高光谱遥感估测模型。
本研究中,运用4种不同的光谱预处理方法对获取的无人机高光谱反射率进行了有效处理,再利用SPA法在原始光谱及预处理后的光谱信息中挑选出了与棉花AGB相关性较好的特征波长,利用所选用的特征波长光谱和2种机器学习算法(PLSR和RFR)建模,对棉花AGB进行估测。结果表明,采用适当的光谱变换进行预处理能够提高模型的估算效果和稳定性。其中:在PLSR建模方法下,SG平滑-SPA处理的效果最佳,较原始光谱-SPA有效提高了模型的精度和稳定性;在RFR建模方法下,一阶导数-SPA方法的建模效果优于原始光谱-SPA。在同种预处理方法下,RFR法构建模型的精度和稳定性均优于PLSR法。
本研究结果表明,利用无人机高光谱技术精准监测棉花生物量有较强的可行性,在区域农田信息管理、精准农业实施等方面具有应用前景。本研究为新疆地区估测棉花AGB提供了参考方法,可为全生育期棉花长势的高光谱遥感监测提供依据,对精准农业的发展有重要的现实意义。