摘要""本研究以安徽岳西县为研究区,多时相(10、12和5月)的Landsat 8/9 OLI影像为数据源,利用精确度评价证明随机森林算法的可行性,利用ENVI 5.3和ArcGIS 10.8软件分析7种典型地物(耕地、水体、建筑物、灌木、道路、林地和茶园)的时序光谱特征与NDVI变化,然后利用随机森林算法提取研究茶园信息进行茶园时空特征变化分析。结果表明,随机森林算法提取茶园信息效果较好,精度较高。2022年10月、2022年12月和2023年5月随机森林法提取茶园信息的总体精度分别为99.3%、98.2%和99.5%,Kappa系数分别为0.972、0.934和0.981;NIR、SWIR1和SWIR2是茶园的特征波段,茶园的NDVI值高于其他植被的NDVI值,可作为茶园与其他植被区分的重要节点。随机森林法结果表明,研究区2022年10月、2022年12月和2023年5月茶园种植面积分别为130.59、126.79和137.47 km2,其时空特征变化明显。综上,随机森林算法提取茶园信息效果较好,研究为随机森林算法在茶园信息提取中的应用提供参考。
关键词""茶园信息提取;Landsat 8/9 OLI;光谱特征;随机森林算法
中图分类号""S571.1;P237 """"""文献标识码""A """"""文章编号""1007-7731(2025)04-0113-06
DOI号""10.16377/j.cnki.issn1007-7731.2025.04.023
Information extraction of tea garden in Yuexi County based on random forest features
NIU Haiqing CHEN Li "LIU Shuang FANG Gang
(1School of Environment and Surveying Engineering, Suzhou University, Suzhou 234000, China;
23S Technology Application Research Center in Northern Anhui, Suzhou 234000, China;
3Suzhou No.2 High School, Suzhou 234000, China)
Abstract "Yuexi County of Anhui Province was selected as the research area, and multi-temporal Landsat 8/9 OLI images (October, December and May) were used as the data source to prove the feasibility of the random forest algorithm by accuracy evaluation. ENVI 5.3 and ArcGIS 10.8 software were used to analyze the temporal spectral features and NDVI changes of 7 typical land features (cultivated land, water body, buildings, shrub, road, forest land, and tea garden), and then random forest algorithm was used to extract tea garden information in research area to analyze the spatio-temporal characteristics changes of tea gardens. The results showed that the random forest algorithm had good effect and high precision in extracting tea garden information in research area. The overall accuracy of tea garden information extraction by random forest method in October 2022, December 2022, and May 2023 were 99.3%, 98.2%, and 99.5%, respectively, and the Kappa coefficients were 0.972, 0.934, and 0.981, respectively. NIR, SWIR1 and SWIR2 were the characteristic bands of tea gardens, and the NDVI value of tea gardens was higher than that of other vegetation, which can be used as an important node to distinguish tea gardens from other vegetation. Random forest method calculation showed that the planting area of tea gardens in research area in October 2022, December 2022, and May 2023 was 130.59, 126.79, and 137.47 km2, respectively, and their spatio-temporal characteristics changed significantly. In summary, random forest algorithm has a good effect on extracting tea garden information, and this study provides a reference for the application of random forest algorithm in tea garden information extraction.
Keywords "tea plantation information extraction; Landsat 8/9 OLI; spectral signature; random forest algorithm
茶叶是一种农业经济作物,具有重要的科研、文化和经济价值[1]。茶饮已成为人们生活中不可或缺的一部分[2]。中国茶树种植范围广,面积较大,主要分布在湖南、福建和安徽等地区[3]。随着经济的发展,茶叶产量迅速增加,经济效益显著提高,一定程度上促进了茶产业的发展[4]。随着茶叶种植面积的不断扩大,给茶园管理也带来较多困难,其中如何快速、精确地掌握茶园空间分布情况,已成为其管理的一个重要难题。因此,研究茶园空间分布状况在茶园管理中具有重要意义[5]。
传统的茶园面积统计方法已不能满足实际生产需求,遥感技术因具有易于获取、分辨率高和覆盖范围广等优点,被广泛应用于茶园信息提取中。王斌等[6]以2019年Landsat-8 OLI影像为数据源,基于纹理特征、植被指数特征和随机森林分类方法提取了安吉县茶园种植面积,分类精度达92.4%。钱瑞等[7]以高分五号高光谱影像和数据高程模型(Data elevation model,DEM)数据为数据源,以普洱市南部为研究区,在随机森林分类算法基础上构建茶园信息提取新算法,用新算法提取研究区茶园面积,并与其他算法提取精度进行了比较,新算法的茶园信息提取总体精度较高。李艳等[8]以多时相Sentinel-2影像为数据源,利用随机森林算法和纹理特征提取厦门市茶园信息,研究表明,10月份的茶园提取总体精度和Kappa系数均较高,满足茶园管理需求。
岳西是安徽省重要的茶叶生产地之一,茶产业是该地区的支柱产业和富民产业之一。因此,对岳西县开展茶园信息提取与时空演变分析研究十分必要。本研究以岳西县为研究区,以Landsat 8/9 OLI影像为数据源,矢量数据、奥维影像为辅助数据,ENVI 5.3和ArcGIS 10.8软件为平台,在相关研究成果基础上结合茶树最佳生长期,利用随机森林法提取岳西县茶园信息,并对其时空特征变化进行分析。
1 材料与方法
1.1 研究区基本情况
研究区位于皖西南边陲和大别山腹地,跨淮河和长江两大流域,与湖北省相邻,辖9个社居委、179个行政村和24个乡镇,面积2 398 km2。该地区气候属北亚热带湿润性季风气候,平均气温14.4"℃,冷暖年平均温差1.6"℃。雨热同期,5—9月为降水盛期,年均降水量1 445.8"mm,年平均日照时数2 070.5"h。自然地理条件优越,有利于茶树生长,店前、冶溪、菖蒲、中关和和平等乡镇为茶园种植主产区。
1.2 数据来源
以岳西县Landsat 8/9 OLI影像为数据源(2022年10月13日、2022年12月24日和2023年5月1日),每时相2景影像,共6景影像,云量均低于2%,影像清晰。6景OLI影像均为L1级数据,数据来源于美国地质调查局(USGS)网站。辅助数据主要为矢量数据和奥维地图影像数据。
1.3 试验方法
通过https://earthexplorer.usgs.gov下载研究区Landsat 8/9 OLI L1级数据,云量均低于2%;利用奥维影像构建感兴趣区,在ENVI 5.3中结合纹理特征进行茶园信息提取精度评价;利用ENVI 5.3软件对岳西县Landsat 8/9影像进行辐射定标、大气校正、影像拼接和矢量裁剪,在ArcGIS 10.8中寻找各地物样本并进行多值提取至点操作,在ENVI 5.3中分别利用反射率和归一化植被指数(Normalized difference vegetation index,NDVI)公式进行波段运算;利用Excel软件作图识别茶园与其他地物的光谱可分性,在ENVI 5.3中进行纹理特征分析;为了更好地进行多值提取至点操作,以奥维影像为辅助数据,利用奥维数据采集地物样本点(采用拼接式地图影像),方便影像在ArcMap中加载,影像不容易出现卡顿现象,样本点如图1所示。
1.3.1""精度评价""""精度评价指标包括总体评价精度(Overall accuracy,OA)和Kappa系数[9]。其中OA用表示,Kappa用K表示,总体评价精度计算如式(1),Kappa系数计算如式(2)。
1.3.2""NDVI计算""""NDVI在一定程度上可以反映研究区内植被覆盖变化情况。在光谱分析的基础上,可进一步分析归一化植被指数时序特征曲线来研究茶园与其他植被的可区分性[10]。NDVI计如式(3)。
式(3)中,NIR表示近红外波段的反射率;RED表示红色波段的反射率。
1.3.3 随机森林算法""""随机森林算法是包含多个决策树的一种分类器[11],由决策树输出类别数量决定输出类别,采用Bootstrap重采样方法对原始样本进行随机抽样,再将样本逐渐回归决策树,进行决策树建模[12-13]。基于各地类光谱特征变化、NDVI时序变化,选取NDVI值作为研究区茶园信息提取值。
2 结果与分析
2.1 精度评价分析
在前期分析的基础上,选择随机森林分类法、最大似然法、神经网络法和支持向量机法分别提取研究区茶园信息,并进行分类精度比较。随机森林分类法的OA和Kappa系数均最高,分别为99.3%和0.972,因此本研究选择随机森林分类法(表1)。将该方法的分类图通过混淆矩阵精度评价计算,得到研究区3时序茶园精度评价专题图和精度评价表,结果如图2和表2所示,2022年10月、12月和2023年5月岳西县茶园信息提取的OA分别为99.3%、98.2%和99.5%,Kappa系数分别为0.972、0.934和0.981。以上结果说明,随机森林提取茶园信息效果较好。
2.2 光谱特征曲线分析
图3(A)~(C)分别表示2022年10月13日、2022年12月24日和2023年5月1日岳西县7种地物(耕地、水体、建筑物、灌木、道路、林地和茶园)光谱特征折线图。由图3可知,7种地物光谱值在B波段和G波段差异较小;林地、耕地、灌木和茶园的亮度值在R波段上升较快;与2023年5月相比,2022年10月和2022年12月的6种地物(道路除外)在B波段起始亮度值较小;2022年10月和12月,茶园在NIR波段亮度值要高于其他地物。综上,茶园与其他地物的光谱特征在NIR、SWIR1和SWIR2波段具有明显的可分性。
林地、耕地、灌木和茶园4种植被样本在NIR、SWIR1和SWIR2的波段光谱均值变化,如图4所示。由图4A可知,2022年10月茶园光谱值高于其他地物光谱均值;由图4B可知,2023年5月茶园光谱值高于其他地物光谱均值(林地除外);由图4C可知,只有茶园光谱值呈上升趋势。综上,在NIR、SWIR1和SWIR2波段,茶园与其他地物具有明显的波谱可分性,可以作为区分茶园与其他地物的特征波段。
2.3 NDVI时序曲线分析
由图5可知,2022年10—12月,只有茶园的NDVI值是增加的,其余植被的NDVI值均有所减少;2022年12月至2023年5月,茶园的NDVI值有所减少,而林地、灌木和耕地的NDVI值有所增加;2022年10月至2023年5月,林地与灌木的NDVI值有所增加,而茶园与耕地的NDVI值有所减少。综上,茶园与其他3种植被的NDVI值变化特征明显不同,2022年10月至2023年5月,茶园的NDVI值呈先上升后下降的趋势,其中,在2022年10—12月,茶园的NDVI值高于其他植被的NDVI值,可作为茶园与其他植被区分的重要时间节点。
2.4 时空特征变化分析
茶园信息提取的关键在于区分茶园与其他植被,制作茶园分布图可提取茶园种植面积和了解茶园分布情况[14]。研究区茶园种植面积分布如图6所示,岳西县2022年10月、12月和2023年5月茶园种植面积分别为130.59 km2、126.79 km2和137.47 km2。
岳西县茶园种植面积变化如图所示,2022年12月茶园种植面积比2022年10月减少了3.80 km2;2023年5月茶园种植面积比2022年10月增加了6.88 km2。2022年10—12月,研究区茶园种植面积减少的区域主要分布在包家乡等;2022年12月至2023年5月,岳西县茶园种植面积增加的区域主要分布在包家乡等。综上,由于季节变化,2022年10月至2023年5月,研究区茶园种植面积先减少后增加,茶园种植面积时空变化特征明显(图7)。
3 结论与讨论
本研究以Landsat 8/9 OLI影像为数据源,矢量数据和奥维影像为辅助数据,利用ENVI 5.3和ArcGIS 10.8软件,采用随机森林法结合NDVI算法提取岳西县茶园信息,并对其光谱特征和时空特征变化进行分析,得出以下结论。(1)随机森林分类法的OA和Kappa系数都最高,用随机森林分类法提取的岳西县茶园信息精确度较好。(2)NIR在茶园信息提取中具有一定潜力,NDVI值对于提取茶园信息具有重要作用,10月与12月是利用多时相影像提取茶园信息的最佳组合;10月是利用单时相影像提取茶园特征的最佳时间窗口。(3)2022年10月、2022年12月和2023年5月的岳西县茶园种植面积分别为130.59、126.79和137.47 km2,茶园种植面积时空变化特征明显。本研究采用采样点对人工依赖性较强,可能存在错分漏分现象,后续研究可以考虑通过计算机编程得到更高的分类精度。
参考文献
[1] 蒋永泉.基于多源遥感数据茶园识别及其识别精度尺度效应研究[D]. 昆明:云南师范大学,2021.
[2] 侯莹坤.作为日常生活实践的茶:从茶课与社会记忆探究茶的文化意义[J].遗产,2024(1):335-349,376.
[3] 孔玉屏. 我国茶产业增长特点的实证研究[D]. 杭州:浙江大学,2006.
[4] 袁观杰. 基于后向散射时空特征的夏玉米种植范围提取研究:以河南省为例[D]. 郑州:郑州大学,2021.
[5] 梁晨欣,黄启厅,王思,等. 基于多时相遥感植被指数的柑橘果园识别[J]. 农业工程学报,2021,37(24):168-176.
[6] 王斌,何丙辉,林娜,等. 基于随机森林特征选择的茶园遥感提取[J]. 吉林大学学报(工学版),2022,52(7):1719-1732.
[7] 钱瑞,徐伟恒,黄邵东,等. 应用GF-5高光谱遥感影像提取山区茶园[J]. 光谱学与光谱分析,2023,43(11):3591-3598.
[8] 李艳,张帆. 基于Sentinel-2影像的厦门市茶园遥感提取[J]. 亚热带植物科学,2023,52(4):327-335.
[9] 林卉,陈杰,王长海. 遥感原理与应用[M]. 徐州:中国矿业大学出版社,2022:296-297.
[10] BREIMAN L. Bagging predictors[J]. Machine learning,1996,24(2):123-140.
[11] 赵晓晴,王萍,荆林海,等. 时序Sentinel-2A影像光谱特征的茶园提取应用[J]. 测绘科学,2020,45(6):80-88.
[12] 张修远,刘修国. 基于随机森林算法的高维模糊分类研究[J]. 国土资源遥感,2014,26(2):87-92.
[13] 方匡南,吴见彬,朱建平,等. 随机森林方法研究综述[J]. 统计与信息论坛,2011,26(3):32-38.
[14] 黄艳红. 基于多源遥感数据的茶园面积提取[D]. 杭州:浙江大学,2020.
(责任编辑:胡立萍)