韩兆迎, 朱西存,2*, 房贤一, 王卓远, 王 凌, 赵庚星, 姜远茂
1. 山东农业大学资源与环境学院, 山东 泰安 271018
2. 土肥资源高效利用国家工程实验室, 山东 泰安 271018
3. 山东农业大学园艺科学与工程学院, 山东 泰安 271018
基于SVM与RF的苹果树冠LAI高光谱估测
韩兆迎1, 朱西存1,2*, 房贤一1, 王卓远1, 王 凌1, 赵庚星1, 姜远茂3
1. 山东农业大学资源与环境学院, 山东 泰安 271018
2. 土肥资源高效利用国家工程实验室, 山东 泰安 271018
3. 山东农业大学园艺科学与工程学院, 山东 泰安 271018
叶面积指数(leaf area index, LAI)是反映作物群体大小的较好的动态指标。 运用高光谱技术快速、 无损地估测苹果树冠叶面积指数, 为监测苹果树长势和估产提供参考。 以盛果期红富士苹果树为研究对象, 采用ASD地物光谱仪和LAI-2200冠层分析仪, 在山东省烟台栖霞研究区, 连续2年测量了30个果园90棵苹果树冠层光谱反射率及LAI值; 通过相关性分析方法构建并筛选出了最优的植被指数; 利用支持向量机(support vector machine, SVM)与随机森林(random forests, RF)多元回归分析方法构建了LAI估测模型。 新建的GNDVI527, NDVI676, RVI682, FD-NVI656和GRVI517五个植被指数及前人建立的两个植被指数NDVI670和NDVI705与LAI的相关性都达到了极显著水平; 建立的RF回归模型中, 校正集决定系数C-R2和验证集决定系数V-R2为0.920, 0.889, 分别比SVM回归模型提高了0.045和0.033, 校正集均方根误差C-RMSE、 验证集均方根误差V-RMSE为0.249, 0.236, 分别比SVM回归模型降低了0.054和0.058, 校正集相对分析误C-RPD、 验证集相对分析误V-RPD达到了3.363和2.520, 分别比SVM回归模型提高了0.598和0.262, 校正集及验证集的实测值与预测值散点图趋势线的斜率C-S和V-S都接近于1, RF回归模型的估测效果优于SVM。 RF多元回归模型适合盛果期红富士苹果树LAI的估测。
叶面积指数; 高光谱; 苹果树; 支持向量机; 随机森林
叶面积指数(leaf area index, LAI)是表征果树冠层结构最基本的参数之一, 对果树的长势和产量有重要影响。 果树叶面积过大, 会因为叶片与幼果争夺养分造成果实发育不良, 甚至发生落果现象; 叶面积过小, 果树光合作用产生的能量少, 影响苹果的生长与产量。 因此, 研究LAI对果树的光合作用、 能量交换以及估产具有重要意义。 采用手工测量植被LAI的传统方法, 虽然精度较高, 但是速度慢, 对植被的破坏性较大; 而高光谱遥感具有波段多, 波段宽度窄以及光谱分辨率高的特点, 被应用于研究LAI成为可能。 20世纪70年代, Wiegand等[1]研究了植被LAI与光谱特征之间的关系, Haboudane等[2]通过改良植被指数建立了估测玉米、 小麦、 大豆的一元回归模型。 国内大部分学者利用构建的EVI, NDVI, RVI等植被指数建立了一元回归模型[3-5], 还有学者为了进一步提高植被指数与植被LAI的相关性及模型的估测精度, 通过改进植被指数来构建一元回归模型[6-7]。 虽然一元回归模型较简单、 直观, 但是稳定性及非线性解释性较差; 而多元回归模型由于可以输入更多与LAI相关性高的波段信息, 不但能提高模型的稳定性, 还能提高模型的估测精度[8-9]。 目前, 通过一元回归模型进行棉花、 大豆、 水稻以及小麦等大田作物的LAI高光谱估测报道较多[3-7], 而利用多元回归模型研究果树冠层LAI高光谱估测的报道少有见闻。 以盛果期红富士苹果树为研究对象, 采用ASD地物光谱仪和LAI-2200冠层分析仪, 连续两年分别测量苹果树冠层光谱反射率及LAI值, 构建支持向量机(support vector machine, SVM)和随机森林(random forests, RF)多元回归模型, 旨在找出苹果树LAI的最佳估测模型, 为苹果树的长势监测、 产量估算等提供参考。
1.1 研究区概况
山东省栖霞市(120°33′—121°15′E, 37°05′—37°32′N)位于山东省东北部, 属于暖温带东亚季风型半湿润气候, 地形为山区丘陵, 平均海拔178 m, 最高海拔814 m, 山区土壤类型为棕壤, 山地最低处为潮棕壤和河潮土, 中下部为典型棕壤, 环境条件非常适宜苹果树生长, 2013年全市苹果面积已发展到6.67万ha, 其中盛果期面积4.73万ha, 年总产量200万t左右。
1.2 数据获取
以盛果期的红富士苹果树作为研究对象, 试验于2013年6月上旬在研究区域进行, 以优劣兼顾为原则, 在栖霞市的开发区、 12个乡镇及3个街道中, 选择了22个苹果园作为采样点, 每个果园选取3棵果树, 共有66棵苹果树进行光谱和LAI的数据采集。 2014年5月下旬在研究区, 对8个果园的24棵苹果树进行验证数据的采集。
利用美国ASD FieldSpec 3地物光谱仪进行果树冠层光谱的测定。 该仪器波段范围为350~2 500 nm, 在350~1 000 nm波段范围内, 光谱采样间隔为 1.4 nm, 分辨率为 3 nm; 在1 001~2 500 nm波段范围内, 光谱采样间隔为 2 nm, 分辨率为 10 nm, 经重采样共输出2 151个波段。 数据采集选择晴朗无云、 无风的天气, 测定时间为10:00—14:00(太阳高度角大于45°)。 测量之前, 先用标准白板对仪器进行校正; 测量时, 光谱仪外接5 m光纤, 探头视场角为 25°, 探头垂直向下, 根据苹果树冠幅的大小, 调整仪器探头与树冠之间的距离, 确保视场覆盖整个冠层[10]; 每个样本测10次光谱, 取平均值作为该样本的光谱反射值。
LAI的测量使用美国LI-COR公司生产的LA1-2200冠层分析仪。 该仪器利用“鱼眼”光学传感器(垂直视野范围148°, 水平视野范围360°)测量树冠上、 下5个角度的透射光线, 利用植被树冠的辐射转移模型计算叶面积指数。 选用小于等于180°的遮盖帽, 在空旷的地方测量A值, 保持与A值同样的方位, 在树冠下探头紧贴树干放置读取B值。 针对一个样本要在不同方向测多个A值及对应的B值, 以确保测量范围能够覆盖果树的整个冠层。 遮盖帽防止树的主干以及测量者出现在探头的视野内。
以2013年采集的66个样本作为校正集, 2014年采集的24个样本作为验证集。
Table 1 The LAI statistics of apple trees
1.3 植被指数的构建
为了提高模型变量与LAI的相关性, 进而提高估测模型的精度, 逐波长地将可见光及近红外波段与选取的R517,R527,R656,R676,R682,R762,R777等敏感波长按照式(1)—式(6)构建归一化植被指数(NDVI和GNDVI[11])、 比值植被指数(RVI)、 新比值植被指数(NVI)、 一阶微分指数(FD)及绿波段植被指数(GRVI)[11]。
(1)
(2)
(3)
(4)
(5)
(6)
式中,Rnir为近红外波段反射率,Rgreen为绿光波段反射率,Rr,Rr1和Rr2红光波段反射率, FDλi为波长λi的一阶微分光谱,Rλi为波长λi的光谱反射率,λi为对应每个波段的波长。
1.4 模型的构建方法
采用SVM和RF等多元回归方法, 建立苹果树叶面积指数高光谱估测模型。
SVM是在高维特征空间使用线性函数假设的学习系统, 是一个来自最优化理论的学习算法训练, 该算法实现了一个由统计学习理论导出的学习偏置[12]。 它基于结构风险最小, 较好地解决小样本、 非线性、 维数灾难和局部极小点等实际问题[13]。
对于待分析的数据集{(x1,y1), (x2,y2), …, (xl,yl)},xi∈Rn是输入,yi∈Rn是输出, SVM回归的标准形式为
约束条件wTφ(xi)+b-yi≤ε+ξi
其对偶表示形式为
约束条件
这里
Breiman提出的RF是一种基于分类树的算法[14]。 它是利用bootsrap重抽样方法从原始样本中抽取多个样本, 对每个bootsrap样本进行决策树建模, 然后组合多棵决策树的预测, 通过投票得出最终预测结果[15]。 该模型具有高效处理大样本数据、 不必担心过度拟合、 能估计某个特征变量具有较强的抗噪音及快速运算能力等特点, 在生物学领域得到应用并取得不错的结果。
其中,H(x)表示组合分类模型,hi是单个决策树分类模型,Y表示输出变量(或称目标变量),I(°)为示性函数。 说明了使用多数投票决策的方式来确定最终的分类。
1.5 模型精度验证
校正集的精度验证采用决定系数(C-R2)、 均方根误差(C-RMSE)、 实测值与预测值散点图趋势线的斜率(C-S)和相对分析误(C-RPD), 以验证集决定系数(V-R2)、 验证均方根误差(V-RMSE)、 实测值与预测值散点图趋势线的斜率(V-S)和相对分析误(V-RPD)对模型的检验结果进行评价。R2越大、 RMSE越小、S越接近于1, 表明模型估测精度越高; 相对分析误RPD是样本标准差SD与预测均方根误差RMSE的比值。 当RPD>2时表明模型具有极好的预测能力, 当1.4 (7) (8) (9) 其中 (10) 2.1 敏感波长的选取 采集的果树冠层高光谱数据, 在近红外1 350~1 450, 1 800~1 960以及2 300~2 500 nm波段范围内, 因受光谱仪本身噪声和大气水吸收影响而产生较大的干扰噪声, 因此进行了删除处理。 不同LAI的果树高光谱反射率曲线在可见光的绿光和红光波段存在明显差异(图1)。 在可见光的400~700 nm波段, 光谱反射率随着LAI的增加而增加; 在可见光波段叶绿素是影响冠层光谱的主要因素, 叶绿素对蓝光和红光强烈吸收, 因此在可见光波段LAI高的果树, 其反射率偏高。 光谱反射率曲线在绿光的550 nm附近出现一个明显的反射峰, 而此波段反射率与LAI的相关性却较低, 在绿光波段选取了相关性曲线波峰附近的R517,R537[17]作为敏感波长; 在红光的690 nm附近, 光谱反射率曲线出现一个明显的反射谷, 而且此波段的光谱反射率与LAI的相关性最高, 选取与LAI相关性最高的R656,R676,R682作为敏感波长; 在近红外第一个反射峰波段, 借鉴国外学者[17-18]选取的R762,R777等波长为敏感波长。 Fig.1 Apple tree canopy reflectance and the correlation with LAI 2.2 植被指数的选取 将新建的植被指数与苹果树LAI进行相关性分析, 选取相关性绝对值较高的五个植被指数与前人建立的两个植被指数(NDVI670[11], NDVI705[19])建立估测模型。 这七个植被指数(表2)与LAI的相关性都达到了极显著水平, 绝对值最高的达到了0.845 1。 Table 2 Vegetation index correlation with the tree LAI ** indicate the correlation coefficientRat 0.01 significance level 2.3 模型的建立及验证 利用新建的GNDVI527, NDVI676, RVI682, FD-NVI656和GRVI517等五个植被指数及NDVI670和NDVI705等前人建立的两个植被指数建立SVM和RF回归模型。 2.3.1 SVM模型的建立与验证 在DPS系统中, 模型的建立包括回归类型、 核函数及参数的选取。 通过对不同类型及核函数的SVM学习算法进行比较分析, 得出ε-SVR的径向基函数(RBF)在回归估计中的性能最优。 经过参数优选及多次训练, 最终确定该模型的参数(表3), 该模型对校正集及验证集的预测效果如图2、 表4。 2.3.2 RF模型的建立与验证 构建RF模型主要包括确定训练样本的比例、 RF的树的数量、 节点处随机抽取的变量数等三个参数。 经过参数优选及多次训练, 最终确定该模型的参数: RF的树的数量为500, 节点处随机抽取的变量数为3。 该模型的校正集和验证集的散点图见图2、 表4。 Table 3 The parameters of SVM regression model Table 4 LAI estimation accuracy analysis Fig.2 LAI scatter plot between measured and predicted values 2.4 模型的比较分析 从图2和表4可以看出, 基于RF和SVM等方法建立的多元回归模型, 其LAI实测值与预测值的散点图的趋势线的斜率都高于0.8, 特别是RF回归模型, 其C-S为1.103,V-S为0.828。 本研究构建的模型中, SVM回归模型的V-RPD最小, 达到了2.258, RF回归模型的C-RPD最大为3.363, 表明估测模型达到较高精度, 模型估测结果真实可信。 两种模型校正集和验证集的决定系数高于0.85, 均方根误差低于0.303, 特别是RF回归模型, 其C-R2和V-R2分别为0.920和0.889, 均比SVM回归模型的高0.045和0.033, 并且其C-RMSE,V-RMSE分别为0.249和0.236, 分别比SVM回归模型的低0.054和0.058, 因此RF回归模型的估测效果优于SVM回归模型。 与学者Marshak[18]、 Gupta[17]一样, 都选取527, 762和777 nm等敏感波长构建植被指数, 与此同时, 本研究选取的敏感波长676, 682, 722, 977 nm与Gupta[17]选取的673 nm、 Merzlyak[20]选取的680 nm、 Vogelmann[16]选取的720 nm及Peuelas[21]选取的970 nm略有差异, 产生这种现象的原因是由研究对象及研究区域不同造成的。 此外, 还结合与苹果树LAI相关性高的517和985 nm构建植被指数。 光谱反射率是植被内在理化性状的综合反映, 由于使用连续两年的观测数据, 采集数据时果树的理化状况不同, 因而导致校正集与验证集的敏感波长与LAI的相关性(表2)略有差异。 借鉴了NDVI670[11]和NDVI705[19]等植被指数建立叶面积指数的估测模型, 但他们利用植被指数建立了一元回归模型, 而本研究借鉴植被指数的同时, 结合新建的五个植被指数建立SVM和RF等多元回归模型。 建立的多元回归模型, 融合了可见光波段的红光和绿光以及近红外波段的多个波长反射率, 因此模型具有较高的稳定性及估测精度。 特别是RF回归模型, 它的C-R2及V-R2在0.9左右,C-RMSE,V-RMSE也较低, 并且GNDVI527, RVI682, FD-NVI656和GRVI517等植被指数弥补了NDVI的不足, 有效的避免因植被指数饱和引起的LAI值偏低现象。 RF具有很高的预测准确率对异常值和噪声具有很好的容忍度, 且不容易出现过拟合; RF是一种自然的非线性建模工具, 是目前数据挖掘、 生物信息学的最热门的前沿研究领域之一[22]。 利用连续两年山东栖霞盛果期红富士苹果树的观测数据进行研究, 建立了能够快速、 无损地估测苹果树LAI的RF回归模型, 为卫星遥感大面积的快速检测苹果树长势及产量评估提供参考。 今后争取利用更多年份的观测数据进行研究, 以进一步提高模型的估测精度及稳定性; 利用植被指数构建的果树LAI估测模型对其他品种及其他区域的苹果树能否适用也需要进一步验证。 构建的GNDVI527, NDVI676, RVI682, FD-NVI656和GRVI517等五个植被指数与苹果树LAI值关系密切, 相关性均达到了极显著水平。 RF回归模型中, 其C-R2和V-R2分别为0.920和0.889, 比SVM回归模型提高了0.045和0.033; 其C-RMSE,V-RMSE分别为0.249和0.236, 分别比SVM回归模型降低了0.054和0.058; 且其C-RPD,V-RPD达到了3.363和2.520, 比SVM回归模型提高0.598, 0.262;C-S和V-S都接近于1, 所以RF回归模型对栖霞盛果期红富士苹果树LAI的估测效果要优于SVM回归模型, 因此基于RF方法建立的多元回归模型更适合研究区苹果树LAI值的估测。 [1] Wiegand C L, Gausman H W, Cuellar J A, et al. Vegetation Density as Deduced from ERTS-1 MSS Response, Proc. Third ETRS-1 Symposium Vol. 1, NASA Technical Reports Server, 1974. 93. [2] Driss H, John R M, Elizabeth P, et al. Remote Sensing of Environment, 2004, 90: 337. [3] LIU Jiao-di, CAO Wei-bin, MA Rong(刘姣娣, 曹卫彬, 马 蓉). Scientia Agricultura Sinica(中国农业科学), 2008(12): 4301. [4] TIAN Yong-chao, YANG Jie, YAO Xia, et al(田永超, 杨 杰, 姚 霞, 等). Chinese Journal of Applied Ecology(应用生态学报), 2009, (7): 1685. [5] YANG Feng, FAN Ya-min, LI Jian-long, et al(杨 峰, 范亚民, 李建龙, 等). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2010, (2): 237. [6] LI Xin-chuan, XU Xin-gang, BAO Yan-song, et al(李鑫川, 徐新刚, 鲍艳松, 等). Scientia Agricultura Sinica(中国农业科学), 2012, 45(17): 3486. [7] HUANG Chun-yan, LIU Sheng-li, WANG Deng-wei, et al(黄春燕, 刘胜利, 王登伟, 等). Soybean Science(大豆科学), 2008, (2): 228. [8] WANG Hong-yan, LI Xiao-song, ZHANG Jin, et al(王红岩, 李晓松, 张 瑾, 等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2013, 33(10): 2803. [9] XIA Tian, WU Wen-bin, ZHOU Qing-bo, et al(夏 天, 吴文斌, 周清波, 等). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2013, (3): 147. [10] ZHU Xi-cun, ZHAO Geng-xing, LEI Tong(朱西存, 赵庚星, 雷 彤). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2009, 25(12): 190. [11] Gitelson A A, Kaufman Y J, Merzlyak M N. Remote Sensing of Environment, 1996, 58(3): 289. [12] Cristianini N, Taylor J S. An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods(支持向量机导论). Translated by LI Guo-zheng, WANG Meng, ZENG Hua-jun(李国正, 王 猛, 曾华军, 译). Beijing: Publishing House of Electronics Industry(北京: 电子工业出版社), 2004. [13] ZHANG Xue-gong(张学工). Acta Automatica Sinica(自动化学报), 2000, 26(1): 32. [14] Breiman L. Machine Learning, 2001, 45(1): 5. [15] Alexander J D, Butler B J, Hummel J W. Soil Science Society of America Journal, 1980, 44(6): 1282. [16] Vogelmann J E, Rock B N, Moss D M. International Journal of Remote Sensing, 1993, 14(8): 1563. [17] Gupta R K, Vijayan D, Prasad T S. Advances in Space Research, 2001, 28(1): 201. [18] Marshak A, Knyazikhin Y, Davis A, et al. Geophysical Research Letters, 2000, 27(12): 1695. [19] Gitelson A, Merzlyak M N. Journal of Plant Physiology, 1994, 143: 286. [20] Merzlyak M N, Gitelson A A, Chivkunova O B, et al. Physiologia Plantarum, 1999, 106(1): 135. [22] FANG Kuang-nan, WU Jian-bin, ZHU Jian-ping, et al(方匡南, 吴见彬, 朱建平, 等). Statistics & Information Forum(统计与信息论坛), 2011, 26(3): 32. *Corresponding author Hyperspectral Estimation of Apple Tree Canopy LAI Based on SVM and RF Regression HAN Zhao-ying1, ZHU Xi-cun1, 2*, FANG Xian-yi1, WANG Zhuo-yuan1, WANG Ling1, ZHAO Geng-xing1,JIANG Yuan-mao3 1. College of Resources and Environment, Shandong Agricultural University, Tai’an 271018, China 2. Key Laboratory of Agricultural Ecology and Environment, Shandong Agricultural University, Tai’an 271018, China 3. College of Horticulture Science and Engineering, Shandong Agricultural University, Tai’an 271018, China Leaf area index(LAI) is the dynamic index of crop population size. Hyperspectral technology can be used to estimate apple canopy LAI rapidly and nondestructively. It can be provide a reference for monitoring the tree growing and yield estimation. The Red Fuji apple trees of full bearing fruit are the researching objects. Ninety apple trees canopies spectral reflectance and LAI values were measured by the ASD Fieldspec3 spectrometer and LAI-2200 in thirty orchards in constant two years in Qixia research area of Shandong Province. The optimal vegetation indices were selected by the method of correlation analysis of the original spectral reflectance and vegetation indices. The models of predicting the LAI were built with the multivariate regression analysis method of support vector machine (SVM) and random forest (RF). The new vegetation indices, GNDVI527, NDVI676, RVI682, FD-NVI656and GRVI517and the previous two main vegetation indices, NDVI670and NDVI705, are in accordance with LAI. In the RF regression model, the calibration set decision coefficientC-R2of 0.920 and validation set decision coefficientV-R2of 0.889 are higher than the SVM regression model by 0.045 and 0.033 respectively. The root mean square error of calibration set C-RMSE of 0.249, the root mean square error validation set V-RMSE of 0.236 are lower than that of the SVM regression model by 0.054 and 0.058 respectively. Relative analysis of calibrating error C-RPD and relative analysis of validation set V-RPD reached 3.363 and 2.520, 0.598 and 0.262, respectively, which were higher than the SVM regression model. The measured and predicted the scatterplot trend line slope of the calibration set and validation setC-SandV-Sare close to 1. The estimation result of RF regression model is better than that of the SVM. RF regression model can be used to estimate the LAI of red Fuji apple trees in full fruit period. Leaf area index; Hyperspectral; Apple tree; Support vector machine; Random forests Dec. 23, 2014; accepted Mar. 24, 2015) 2014-12-23, 2015-03-24 国家自然科学基金项目(41271369), 山东省自然科学基金项目(ZR2012DM007), 山东农业大学农业大数据项目(75016), 国家自然科学青年基金项目(41301482)资助 韩兆迎, 1990年生, 山东农业大学资源与环境学院硕士研究生 e-mail: HAN20095759@163.com *通讯联系人 e-mail: zxc@sdau.edu.cn S661.1; TP79 A 10.3964/j.issn.1000-0593(2016)03-0800-062 结果与讨论
3 结 论