收稿日期:2024-03-23
基金项目:广东省普通高校重点领域专项(2021ZDZX4111);国家自然科学基金地区基金项目(42061046)
作者简介:喻彩丽(1989-),女,河南周口人,硕士研究生,讲师,研究方向为遥感与数字农业。(E-mail)purejade@163.com
通讯作者:洪国军,(E-mail)hgj950603@163.com
摘要: 针对粤东青梅种植区多为山地、丘陵兼有的复杂地形,实地测量青梅种植面积及其空间分布存在一定难度,本研究聚焦广东省汕尾市和揭阳市,利用Sentinel-1和Sentinel-2多光谱遥感影像数据,采用随机森林算法,探索4种不同特征组合在青梅分类精度方面的表现,并对Sentinel-1、Sentinel-2影像在空间制图中的精度进行了深入分析。研究结果表明,Sentinel-1、Sentinel-2影像采用组合4(光谱特征+植被指数+VV/VH+纹理特征)并运用随机森林算法获得了最优青梅分类精度,总体精度、Kappa系数和制图精度分别高达96.55%、0.957 6和98.03%;与官方统计数据相比,在揭阳市普宁市和汕尾市陆河县应用组合4估算青梅种植面积的精度分别高达99.70%和99.20%。研究发现,综合利用Sentinel-1、Sentinel-2多源遥感数据和多种特征的分类方法可以精准识别青梅的种植面积并提高制图精度。本研究结果不仅为粤东地区青梅种植者提供准确的种植面积估算和空间分布信息,而且为青梅种植管理和病虫害防治策略的制定提供技术参考。
关键词: 青梅;多源遥感;随机森林算法;Google Earth Engine
中图分类号: S127;Q949.758.6 文献标识码: A 文章编号: 1000-4440(2024)08-1455-09
Extraction of greengage planting information from multi-source remote sensing images based on GEE
YU Caili1, LU Jianqiang2, DOU Xufeng3, HONG Guojun4
(1.College of Ocean, Shanwei Institute of Technology, Shanwei 516600, China;2.College of Electronic Engineering & College of Artificial Intelligence, South China Agricultural University, Guangzhou 510642, China;3.College of Life Science and Technology, Tarim University, Alaer 843300, China;4.Institute of Regional Development, Jiangxi University of Technology, Nanchang 330200, China)
Abstract: The planting area of greengage in eastern Guangdong is mostly a complex terrain with both mountains and hills. It is difficult to measure the planting area and spatial distribution of greengage in the field. This study focused on Shanwei City and Jieyang City, and used the random forest algorithm to explore the performance of four different feature combinations in the classification accuracy of greengage based on Sentinel-1 and Sentinel-2 multi-spectral remote sensing image data. In addition, the accuracy of Sentinel-1 and Sentinel-2 images in spatial mapping was analyzed in depth. The results showed that the optimal classification accuracy of greengage was obtained when Sentinel-1 and Sentinel-2 images were processed by combination 4 (spectral feature + vegetation index + VV/VH + texture feature) and random forest algorithm. The overall accuracy, Kappa coefficient and mapping accuracy were 96.55%, 0.957 6 and 98.03%, respectively. Compared with the official statistics, the accuracy of estimating the planting area of greengage by using combination 4 in Puning City of Jieyang City and Luhe County of Shanwei City was 99.70% and 99.20%, respectively. The comprehensive utilization of Sentinel-1 and Sentinel-2 multi-source remote sensing data and the classification methods using multiple features could accurately identify the planting area of greengage and improve the mapping accuracy. The results of this study not only provide accurate planting area estimation and spatial distribution information for greengage growers in eastern Guangdong, but also provide technical reference for the formulation of greengage planting management and pest control strategies.
Key words: greengage;multi-source remote sensing;random forest algorithm;Google Earth Engine
粤东地区被誉为“中国青梅之乡”,青梅种植面积和产量在中国均居首位[1]。青梅种植对当地农业发展和经济增长具有重要意义。在传统的农业管理实践中,青梅种植面积的统计通常依赖于农业调查和统计数据,但这些方法存在明显的局限性。这些传统方法不仅难以实现大规模和系统性的区域测量,而且在提供及时和准确数据方面往往无法满足现代农业的需求。相较之下,遥感技术以其广阔的覆盖范围、快速的数据获取能力以及效益高的特点,在农业生产和管理领域展现出显著优势[2-3]。在当前农业遥感研究中,虽然基于单一影像源的农作物种植信息提取方法操作简单,但它存在一个明显的局限:难以捕捉作物种植信息的“最佳识别期”[4]。相较于单一数据源,多源数据的应用能显著提升地物的识别精度[5-7]。研究结果表明,综合运用多种特征变量(如多时相、光谱特征、植被指数、雷达极化特征和纹理特征等)可以显著提高对地物的识别和分类精度[8-14]。这些特征的综合利用改善了作物与其他地物间的区分能力,特别适合在大面积复杂地形和种植模式下应用。在机器学习领域,随机森林算法因能有效避免过拟合问题而在遥感信息提取中被广泛使用[15-17]。Hao等[14]利用MODIS数据并运用随机森林算法,通过对计算特征的重要性评分来对农作物进行分类,并分析了时间序列长度如何影响作物制图的精度。张悦琦等[18]研究结果证明,基于水稻移栽阶段单时序图像的特征优化随机森林模型在实际应用中分类精度更高,GF-6卫星在作物的精确识别和面积提取方面显示出很大应用潜力。范莉等[19]研究发现,在30分割尺度、紧凑度因子和形状因子均为0.5时,可实现最优的植被边缘分割;通过结合多种光谱特征指数和地形特征构建的分类模型总体精度达到90.8%,水稻、玉米、甘薯的分类精度分别为85.7%、83.3%和80.7%。综上分析,结合多种光谱特征指数和地形特征的方法在识别复杂地形地区农作物种植面积方面具有较高精度,实际应用价值更高。在农业遥感领域,多源遥感数据和多特征的作物识别方法虽然提高了识别精度和信息的全面性,但也面临诸如大量数据下载、复杂预处理、高计算量和大存储空间的挑战。然而,谷歌地球引擎(Google Earth Engine, GEE)等云计算平台的出现有效解决了这些问题[20-22]。这些平台提供的强大云计算资源和简化的数据处理流程极大地降低了处理和分析大量遥感影像的难度,提高了数据处理的效率和效果。这使得GEE等平台在多源遥感数据的整合与应用中展现出新机遇,推动了遥感技术在农业领域的深入应用,为农作物识别和监测提供了有效的技术支持[23]。
目前,针对广东省汕尾市和揭阳市青梅种植面积估算的研究尚属空白。本研究针对两市地形复杂、植被类型多样易混淆等现状,利用Sentinel-1、Sentinel-2高空间分辨率和丰富的光谱信息,为区分青梅与其他植被类型提供技术支持。另外,由于样本数量不足,尤其是草灌地和林地类别样本不足,限制了模型的分类效果。为了解决这一问题,本研究设计了4种不同的特征组合方案,采用随机森林分类器进行比较试验,有效提取青梅种植信息并分析其空间分布。这项研究旨在为汕尾市和揭阳市青梅产业的发展提供科学决策支持,并为类似区域的精确植被分类提供新的研究视角和方法。
1 数据及研究方法
1.1 数据
1.1.1 研究区概况 汕尾与揭阳两市位于广东省东部,北纬22°37′~23°46′,东经114°54′~116°37′(图1)。该地区总面积为10 078 km2。汕尾市位于莲花山南麓,山脉呈东北向西南倾斜趋势,揭阳市地势则自西向东逐渐倾斜,地形上呈现出低山高丘和谷地平原交错分布的特点。此外,汕尾市和揭阳市属于亚热带季风气候,是中国光照、热量、水资源最为丰富的地区之一,年降雨主要集中在4-9月,具有雨季与热季相一致的气候特点。
1.1.2 数据源及预处理 根据数据的可获得性,选取研究区2021年10月(青梅叶片枯萎期)、2022年1月(青梅开花期)、2022年3月(青梅返青展叶期)、2022年6-8月(青梅旺长期)4个青梅生长关键时期在GEE中依次对Sentienl-2数据按日期、空间位置进行筛选并对数据进行去云、中值合成、裁剪等处理,利用Cloud Score+S2_HARMONIZED V1合成无云影像,分别得到4个时期的Sentinel-2影像数据。再用Sentinel-1影像数据对这4个时期数据进行均值合成处理,最后利用汕尾市和揭阳市的矢量数据裁剪Sentinel-1、Sentinel-2影像数据中对应的影像。
1.1.3 研究区土地利用及样本数据处理 根据青梅在Sentinel-1、Sentinel-2卫星影像上呈现的特征,借助2021年12月至2022年1月在研究区野外考察所采集的样本,利用GEE云平台最新高清影像、地面调查数据以及Sentinel-1、Sentinel-2影像作为参考数据建立样本库,最终确定6种分类类型:青梅、草灌、树林、农作物、建筑物、水体。按照随机原则将其中70%样本作为训练样本,30%样本用作验证样本,用于对各类型的识别和分类后的精度评价,样本如表1所示。
1.2 研究方法
1.2.1 特征提取
1.2.1.1 光谱特征/植被指数 Sentinel-2卫星影像数据不仅提供了丰富的光谱信息,而且还有能反映被监测植被生长状态的红边波段和RGB影像。在青梅种植信息提取过程中,考虑到不同生长阶段的时间特征对提取精度的影响,本研究选取青梅生长周期中4个关键期:2021年10月青梅枯萎期、2022年1月青梅开花期、2022年3月青梅返青展叶期和2022年6-8月青梅旺长期。基于这些时期Sentinel-2影像,本研究利用红波段和近红外波段的特性,建立了一系列植被指数用于提高对青梅遥感信息的识别精度。研究区植被指数的详细信息[15,18,24-29]见表2。
1.2.1.2 雷达信息 Sentinel-1卫星采用主动光波雷达技术,这种技术不依赖于外部光源,而是使用自身的雷达波进行探测。在其干涉宽幅(IW)模式下,结合了垂直发射-垂直接收(VV)和垂直发射-水平接收(VH)的极化方式[30],Sentinel-1能有效进行地表特征探测。这种模式和极化配置在青梅开花期特别有利于区分青梅与其他地物特征。利用这些特征可以更准确地区分青梅与其他地物,从而提高分类精度。
1.2.1.3 纹理特征 纹理特征是一种重要的工具,用于反映物体的空间结构特征。青梅独特的行列结构与林地和耕地的纹理特征存在显著差异,有利于区分出青梅种植区域。为了准确提取青梅种植信息,本研究分析了青梅叶片枯萎期、开花期、返青展叶期、旺长期4个时期的数据,并考虑了包括均值、对比度、二阶矩、信息熵、相关性、协同性、方差和相异性在内的多种纹理特征[31]。这些纹理特征的综合应用有助于补充光谱特征在空间信息方面的不足,从而显著提高分类精度。通过这种方法,可以更准确地区分青梅与其他地物类型。
1.2.2 分类试验方案 本研究设计了4组分类试验方案,目的是评估将光谱特征与其他特征信息相结合时,对青梅地物分类精度的具体影响。这些试验方案分别考虑了光谱特征与不同特征的结合,包括植被指数、雷达信息和纹理特征。通过表3列出的4种分类试验方案,探索对于提高青梅分类精度的最优特征组合。
1.2.3 随机森林算法 针对汕尾市与揭阳市地形复杂和青梅分类数据的多维性,本研究选取了包括原始光谱信息、植被指数、雷达信息和纹理特征等多种特征进行分类。为高效处理这些高维遥感数据,本研究采用随机森林算法(RF),该算法是由多个决策树组成的集成学习算法,特别适合处理大量复杂数据。其具体实施步骤包括:使用抽样方法从总数据中选取2/3作为训练样本,剩余部分用作验证样本以估计误差;构造500棵分类回归树,每棵树基于随机选取的特征进行训练;再将这500棵分类回归树的结果合并,最后采用多数投票原则确定分类结果。
1.2.4 精度评价与技术路线 采用混淆矩阵计算总体精度、制图精度、用户精度和Kappa系数,对2022-2023年的Sentienl-1、Sentinel-2卫星遥感影像中的青梅分类结果进行精度评估,其中总体精度和 Kappa系数用来比较整体分类精度,制图精度、用户精度用来衡量特定类别的分类精度。本试验详细的技术流程见图2。
2 结果与分析
2.1 多特征组合对青梅分类精度的影响
本研究采用随机森林算法结合不同特征组合对青梅进行分类,分析了各种特征组合对分类精度的影响。首先,仅使用光谱特征进行分类,青梅的总体精度达到91.43%,Kappa系数为0.904 1,这验证了光谱特征在青梅识别中的有效性。引入植被指数后,由于植被指数是反映植被生长状态的关键信息,分类的总体精度提升至92.92%,Kappa系数增至0.914 5。随后,融合Sentinel-1的VV/VH数据,该数据提供了极化信息,有助于进一步区分青梅与其他地物,使得总体精度提高到94.32%,Kappa系数提升至0.934 8。最后,加入纹理特征进一步增强了分类的细节解析能力,将总体精度提升至96.55%,Kappa系数达到0.957 6(表4、图3)。结果表明,多特征组合的策略在提高青梅分类精度方面具有显著效果。
2.2 提取的青梅种植面积比较、统计和影像衍生结果
本研究基于Sentinel-1、Sentinel-2遥感图像,通过使用随机森林算法结合4种特征组合来估算揭阳市普宁市和汕尾市陆河县的青梅种植面积,并将结果与2022年官方统计数据相比较(图4)。组合4的结果显示,揭阳市普宁市和汕尾市陆河县的青梅种植面积分别为16.89 km2和12.6 km2,相对误差为0.003和0.008,组合4的估算结果与官方统计数据高度一致。然而,在组合1中,揭阳市普宁市青梅种植面积被高估至17.73 km2,汕尾市陆河县青梅种植面积被低估至11.17 km2,相对误差分别为0.052和-0.106,显示出较大的分类错误和遗漏。这些误差反映了地形复杂性和种植模式多样性对估算精度的影响,尤其体现在地形起伏较大的区域。
2.3 特征组合对比与差异性分析
根据表4和图4的数据对汕尾市和揭阳市进行青梅图像分析,采用基于Sentinel-1、Sentinel-2遥感数据的组合4在总体精度、Kappa系数以及揭阳市普宁市青梅种植面积估算方面表现最佳。相比于组合1、组合2和组合3,组合4的分类能力进一步提升。这种提升归因于增加的特征维度,例如组合2在组合1的基础上引入植被指数增强了模型区分青梅与其他地物的能力;组合3在组合2的基础上添加VV/VH数据帮助区分草灌;而组合4在组合3的基础上引入纹理特征则进一步提升了在林地环境中识别青梅的精度。这表明,综合利用多种时相和特征可以显著提高分类精度,尤其是在揭阳市普宁市,组合4使青梅种植面积的估算更为准确。这一发现对于管理复杂地理和环境条件下的青梅种植至关重要,为精确评估青梅种植面积提供了有效技术路径,也为类似环境下的农业精准管理提供了方法。
2.4 青梅种植区面积预测与空间分布
本研究深入分析了不同特征组合在分类效果上的表现。组合4(光谱特征+植被指数+VV/VH+纹理特征)包含了最广泛的特征集合,在制图精度、用户精度、总体精度和Kappa系数方面表现最佳。在揭阳市普宁市和汕尾市陆河县该组合估算青梅种植面积的精度分别高达99.70%和99.20%。据此,本研究进一步估算了汕尾市和揭阳市的青梅种植面积,总计约242.13 km2。空间分布分析结果表明,青梅主要集中在这两市的中西部地区,中东部地区也有少量种植(图5),这些地区的丰富水源、平坦地形和充足日照为青梅的生长提供了理想条件。
3 讨论
本研究利用GEE云平台上的Sentinel-1、Sentinel-2遥感影像,对广东省汕尾市和揭阳市2022年青梅种植面积及其空间分布情况进行了探索。在多时相数据的基础上,设计了4种不同的特征组合进行青梅的分类和种植面积估算,并与实地调查结果和官方统计数据进行比较以评估各种组合的分类精度。基于这些比较和评价,期望对中国青梅主产地广东省汕尾市和揭阳市青梅测绘提供参考。
在4种组合中,除了组合1外,其余3种组合的总体精度和Kappa系数都较高。此外,所有组合的用户精度和制图精度均高于90.77%。这种高精度可能与本研究调查了青梅生长全周期有关,有利于区分青梅和其他地物类型。
本研究结果显示,组合1仅依赖光谱特征,未能将青梅与其他地物精准区分;组合2引入植被指数,组合3引入植被指数和VV/VH极化特征后,虽改善了青梅与建筑物、水体和耕地的区分,但在复杂种植模式下以及对相似光谱特征的林地识别上仍存在局限性;相较而言,组合4在总体精度、Kappa系数及青梅细节识别方面明显优于其他组合,验证了多时相和多特征融合在提升分类精度及减少误判中的重要性。本研究突出了在青梅种植面积估算中综合利用多种遥感特征的重要性,并建议未来研究应进一步优化特征组合与分类算法。同时,提倡结合地物与气候信息的复合模型,以提升估算的精确度和可靠性。
4 结论
本研究通过GEE云平台,利用Sentinel-1、Sentinel-2影像,设计4种特征组合,结合随机森林算法,对广东省汕尾市和揭阳市青梅种植信息进行了精确提取,可为未来青梅种植测绘工作提供指导。
在多时相不同的特征组合中,本研究结果发现组合1在复杂地物环境和类似种植结构条件下,Sentinel-1、Sentinel-2图像作为输入数据的分类效果不太理想;组合2和组合3虽然达到了可接受的精度,但并未达到预期效果;组合4通过将光谱特征、植被指数、VV/VH极化特征和纹理特征结合使用,实现了青梅测绘的最佳方法和最优精度。本研究结果表明,综合利用Sentinel-1、Sentinel-2多源遥感数据和多种特征的分类方法可以显著提高对青梅种植面积的估算和测绘精度。GEE平台丰富的遥感数据资源和强大的处理能力为青梅种植信息提取提供了有力支持。
参考文献:
[1] 吴和原,方书远,方凯华,等. 青梅优良新株系——普宁矮白梅的选育报告[J]. 中国南方果树,2001(4):39.
[2] 马红雨,李仙岳,孙亚楠,等. 基于无人机遥感的不同控释肥夏玉米SPAD差异性[J]. 排灌机械工程学报,2023,41(12):1261-1267.
[3] 李长春,翟伟广,王春阳,等. 基于Sentinel-1A影像的原阳县玉米和水稻分类时间窗选择[J]. 江苏农业学报,2023,39(2):413-422.
[4] JIA K, WU B F, LI Q Z. Crop classification using HJ satellite multispectral data in the North China Plain[J]. Journal of Applied Remote Sensing,2013,7(1):73576.
[5] XU F, LI Z F, ZHANG S Y, et al. Mapping winter wheat with combinations of temporally aggregated Sentinel-2 and Landsat-8 data in Shandong Province, China[J]. Remote Sensing,2020,12(12):2065.
[6] 姚金玺,肖成志,张 志,等. 基于GEE多源遥感数据的干旱区植被地物类型提取[J]. 干旱区研究,2024,41(1):157-168.
[7] 张 颖,何贞铭,吴贞江. 基于多源遥感影像的农作物分类提取[J]. 山东农业大学学报(自然科学版),2021,52(4):615-618.
[8] 胡春霞,聂翔宇,林 聪,等. 利用多特征协同深度网络的高分遥感影像分类[J]. 测绘通报,2023(10):74-79,104.
[9] 姚金玺,王 浪,李建忠,等. 青海诺木洪地区多源遥感及多特征组合地物分类[J]. 农业工程学报,2022,38(3):247-256.
[10]王文静,张 霞,赵银娣,等. 综合多特征的Landsat 8时序遥感图像棉花分类方法[J]. 遥感学报,2017,21(1):115-124.
[11]孟月波,王 菲,刘光辉,等. 多元特征提取与表征优化的遥感多尺度目标检测[J]. 光学精密工程,2023,31(16):2465-2482.
[12]卢献健,张焕铃,晏红波,等. 协同Sentinel-1/2多特征优选的甘蔗提取方法[J]. 自然资源遥感,2024,36(1):86-94.
[13]关士英,袁占良,谢传节. 基于多特征的高分时序冬小麦提取研究[J]. 地理空间信息,2020,18(5):14-19,6.
[14]HAO P Y, ZHAN Y L, SHAKIR M. Feature selection of time series MODIS data for early crop classification using random forest:a case study in Kansas, USA[J]. Remote Sensing,2015,7(5):5347-5369.
[15]洪国军,周保平,李明哲,等. 基于GEE的Landsat-8与Sentinel-2影像在棉花种植提取中差异性分析及提取方法对比研究[J]. 江苏农业科学,2024,52(4):223-230.
[16]王春玲,樊怡琳,庞 勇,等. 基于GEE与Sentinel-2影像的落叶针叶林提取[J]. 北京林业大学学报,2023,45(8):1-15.
[17]陈 健,李 虎,刘玉锋,等. 基于Sentinel-2数据多特征优选的农作物遥感识别研究[J]. 自然资源遥感,2023,35(4):292-300.
[18]张悦琦,任鸿瑞. 融合特征优选与随机森林算法的GF-6影像东北一季稻遥感提取[J]. 遥感学报,2023,27(9):2153-2164.
[19]范 莉,王 妍,祝 好,等. 多种光谱指数联合地形特征对复杂地形区主要粮食作物种植面积的遥感识别[J]. 中国农业气象,2023,44(9):845-856.
[20]梁锦涛,陈 超,孙伟伟,等. 长时序Landsat和GEE云平台的杭州湾土地利用/覆被变化时空格局演变[J]. 遥感学报,2023,27(6):1480-1495.
[21]赵 月,孟 丹,丁 凤,等. 基于GEE云平台的2000-2022年雄安新区生态质量动态评价[J]. 地球物理学进展,2023,38(5):2023-2036.
[22]刘 通,任鸿瑞. GEE平台下利用物候特征进行面向对象的水稻种植分布提取[J]. 农业工程学报,2022,38(12):189-196.
[23]王振兴,刘 东,王 敏. 基于GEE平台和多维特征优选的粮食作物提取——以西辽河流域为例[J]. 江苏农业科学,2023,51(21):200-208.
[24]吕 伟,宋 轩,杨 欢. 基于深度学习和多源遥感数据的玉米种植面积提取[J]. 江苏农业科学, 2023,51(23):171-178.
[25]闫柏琨,甘甫平,印 萍,等. 1989-2021年中国大陆海岸带潮滩、海岸线、养殖水体遥感观测[J]. 自然资源遥感,2023,35(3):53-63.
[26]ZHANG L, ZHANG Z, LUO Y, et al. Integrating satellite-derived climatic and vegetation indices to predict smallholder maize yield using deep learning[J]. Agricultural and Forest Meteorology,2021,311:108666.
[27]梁晨欣,黄启厅,王 思,等. 基于多时相遥感植被指数的柑橘果园识别[J]. 农业工程学报,2021,37(24):168-176.
[28]王建步,张 杰,马 毅,等. 基于高分一号WFV卫星影像的黄河口湿地草本植被生物量估算模型研究[J]. 激光生物学报,2014,23(6):604-608.
[29]JABRI K A, AL-MULLA Y A, MELGANI F, et al. Remote sensing analysis for vegetation assessment of a Large-Scale constructed wetland treating produced water polluted with oil hydrocarbons[J]. Remote Sensing,2023,15(24):5632.
[30]MARCO V. PlanetScope, Sentinel-2, and sentinel-1 data integration for object-based land cover classification in Google Earth Engine[J]. Remote Sensing,2022,14(11):2628.
[31]潘胜权,陈 凯,解印山,等. 基于多纹理特征融合的麦田收割边界检测[J]. 农业工程学报,2023,39(12):123-131.
(责任编辑:黄克玲)