徐晓臣,李昺星
(中水北方勘测设计研究有限责任公司,天津 300222)
耕地是粮食生产的重要载体,耕地资源的变化严重影响着国家粮食安全。根据联合国粮食及农业组织(FAO)预测,截至2050年,全球作物产量需要比2005年增加70%才能满足全球93 亿人的粮食需求[1]。此外,人口数量不断增长,城市面积不断扩张,使得现有的耕地资源持续被破坏,因此及时了解耕地资源的空间分布至关重要。
传统的耕地信息获取多来源于人工实地考察,费时费力,并且容易出现错误。遥感技术的快速发展,使得遥感图像在农业领域的应用越来越多[2]。耕地是LULC 重要的一部分,虽然目前可用的全球土地利用/土地覆盖(LULC)产品众多,如MODIS 土地覆盖数据产品MCD12Q1(空间分辨率为500 m)、全球30 m 地表覆盖遥感数据产品Globe Land30、清华大学宫鹏团队土地覆盖数据FROM-GLC 等,但在南方丘陵地区精度难以满足现有研究需求。欧洲航天局(ESA)发射的Sentinel-2(S2),使得10 m 空间分辨率耕地信息获取成为可能。农业种植的复杂性、地物类型间的光谱相似性以及光学影像受天气影响的限制,导致目前部分南方地区耕地信息的提取精度不高[3]。Sentinel-1(S1)合成孔径雷达(SAR)数据具有穿云透雾的优势,可在一定程度上弥补光学数据缺失带来的负面影响。
遥感云计算平台——谷歌地球引擎(Google Earth Engine,GEE)的出现,使得多云多雨地区遥感图像预处理及分类变得更加便捷[4]。目前,GEE 平台已集成多种分类器方法,如支持向量机(SVM)、随机森林(RF)、Cart 决策树等,利用构建的特征数据集进行机器学习,能够快速准确地获取地物分类结果。目前,有关结合使用S1 与S2 进行耕地信息提取的研究较多,但却没有对南方多云多雨复杂地形地区进行分析,同时未对S1 极化指数进行进一步的分析。有鉴于此,本文基于GEE 云计算平台,结合Sentinel-1和Sentinel-2 数据构建多种特征组合,探究不同组合对福州市耕地提取的影响。
福州市位于北纬25° 15′~26° 39′、东经118°08′~120°31′。其地貌为典型的河口盆地,丘陵地区占土地总面积的72.68%,四面环山,海拔多为600~1 000 m,地势自西向东倾斜。受东亚季风影响,福州属亚热带湿润气候,日照长,雨量充足。
本文利用GEE 平台通过加载“COPERNICUS/S1_GRD”数据集,即可获得预处理后的Sentinel-1 GRD 数据集,该数据集中的数据均经过Sentinel-1 Toolbox 工具箱的预处理,生成可直接调用的数据。其预处理过程包括轨道校正、边界噪声去除、热噪声去除、辐射校正、地形校正。为了减少散斑噪声,分别设置不同窗口大小(3×3 或5×5)和不同类型的散斑滤波器进行初步测试,经过对比分析,最终选择5×5 窗口大小的Refined Lee 滤波。
Sentinel-2 数据共有13 个波段信息,通过GEE 平台加载“COPERNICUS/S2_SR”数据集,便可获得预处理后的图像,预处理包括几何校正、辐射定标和大气校正。考虑到福州市的耕地种植情况,为提高耕地分类精度,选择2020年4—10月、云量小于40%的Sentinel-2 影像,对筛选后的数据集进行云掩膜和中值合成等处理,进而生成福州市无云影像。
根据国土资源修订的国家标准《土地利用现状分类》(GB/T 21010—2017)分类标准,结合福州市实际土地利用情况,将福州市土地分为5 大类:耕地、林地、水体、建设用地和未利用地。本文中的样本数据主要来源于2020年谷歌历史影像数据及野外考察数据,样本总数为645 个,其中训练样本占70%(451 个),验证样本占30%(194 个)。
辅助数据主要为SRTM 的数字高程模型(DEM)数据,利用GEE 平台中的ee.Algorithms.Terrain 函数对该数据进行计算便可得到研究区高程、坡度和坡向数据。
联合S1、S2 以及地形数据派生出5 种特征类型,共计31 个特征变量,包括S2 10 个光谱波段特征和光谱指数特征,S1 2 个极化波段特征和极化指数特征,以及3 个SRTM 数据派生的地形特征。光谱指数、极化指数和地形特征均由GEE平台计算得出,指数包括归一化植被指数(NDVI)、归一化红边植被指数(NDVIre)、增强归一化水体指数(MNDWI)、归一化土壤水分指数(NSWI)、归一化建筑指数(NDBI)、归一化水体指数(NDWI)、增强植被指数(EVI)、地表水指数(LSWI)、土壤调节植被指数(SAVI)、修改型土壤调整植被指数(MSAVI)、归一化燃烧指数(NBR2)、裸土指数(BSI)、归一化差极化指数(NDPI)、归一化VH指数(NVHI)、归一化VV指数(NVVI)、偏光比(VHrVV),地形特征包括高程、坡度和坡向。
为了分析不同特征组合对土地利用分类的影响,设计7组特征组合对比实验,如表1所示,实验1~3 均包含S2数据特征组合,实验4~6 均包含S1 数据特征组合,实验7 则包含S2 和S1 特征组合。
表1 分类特征组合
随机森林是Breiman 提出的一种机器学习方法,它是一种基于决策树的分类器,其中每棵树贡献一票,通过投票获得最终的分类或预测结果[5]。大量研究表明,随机森林在LULC 分类中产生了相对较高的分类精度。同时,RF 方法具有参数容易设置的优点,同时具有管理共线特征和高维数据的能力,并且对过拟合和异常值具有较高的鲁棒性。设置两个参数mtry 和ntree,前人的研究表明,ntree 设置为100,mtry 默认为输入特征总数的平方根,能有效提高模型的稳定性。
采用混淆矩阵方法,计算不同特征组合分类精度。如表2所示,实验1 的分类精度最低(OA 为47.06%,Kappa系数为0.30),引入极化指数后,土地利用分类精度并未得到较大提升,耕地生产者精度和用户精度提升1%以上,说明极化信息对耕地信息提取具有一定的影响。而引入高程信息后(实验6),土地利用分类的总体精度显著提高(达到79.74%),Kappa 系数达到0.73,耕地生产者精度和用户者精度均超过75%。而单独使用S2 光谱波段特征时(实验1),土地利用分类精度达到84.31%,相较于S1 极化波段特征组合精度提高了37.25%。引入S2 指数特征后,总体精度并未发生明显变化,但耕地生产者精度和用户精度均明显提高,尤其是用户者精度提高了14.93%,说明S2 植被指数对耕地信息提取具有较大的贡献。S2 组合引入地形特征后,其总体精度提高2.72%,用户者精度进一步提高,生产者精度有所下降。
表2 不同特征组合土地利用分类精度
从表中可以看出,光谱波段信息的引入显著提升了耕地信息的提取效果,地形特征的引入对土地利用分类精度的提升也做出了较大的贡献。而S2 及衍生特征数据在分类精度上明显优于S1。精度最高的为实验7,将所有特征引入后,总体精度达到90.17%,kappa 系数为0.87,其中耕地生产者精度和用户者精度均达到最大值,分别为87.88%和93.55%。从整体来看,S1 极化与极化指数特征对耕地信息的提取也发挥了一定的作用。实验4 和实验5 的OA 和PA精度最低,主要是因为S1 特殊的成像机制导致其分类精度较低,但S1 与S2 结合能进一步提高S2 耕地信息提取的精度。
通过4.1 小节分析得出,实验7 特征组合土地利用分类精度最高,但是由于不同分类特征间存在多重共线关系,造成数据冗余降低分类精度。本文利用GEE 平台中的explain 函数对全特征组合进行特征重要性分析,重要性得分越高,说明变量对分类结果的贡献越大。通过对特征进行重要性排序,剔除排名后20%的特征,直至分类精度趋于稳定。最终选择20 个最优特征组合,结果如图1所示。从图2中可以看出,NBR2 对土地利用分类精度的贡献率最大,与前人的研究较为一致。坡度对土地利用分类的贡献率也较大,主要是由于福州市土地利用类型受地形因素影响较大,其中坡度较大的区域多为林地,地势平坦的区域多为耕地和建设用地。整体来看,波段光谱信息和极化波段信息对土地利用的贡献率相对较小,仅VV 极化、B2、B3、B12 和B4 没有被筛选掉,其中VV 极化特征的重要性较高。
图1 特征优选后特征重要性排序
基于最优特征组合随机森林方法得到了福州市土地利用分类结果图,如图2所示,其总体精度为92.37%,Kappa 系数为0.89。从图中可以看出,2020年福州市主要的土地利用类型为林地和耕地,其中,林地占研究区总面积的50%以上,耕地面积为1 685.73 km2,仅占研究区总面积的12.33%。耕地主要集中分布在地势相对平坦的中部及东部沿海地区,而西部山区耕地分布则较为分散。
图2 2020年福州市土地利用分类结果
本文基于GEE 云计算平台,综合利用Sentinel-1 和Sentinel-2 数据构建不同特征组合,通过随机森林分类方法获得了福州市耕地信息。结果表明,单独使用Sentinel-2 数据集比单独使用Sentinel-1 数据集分类精度高,通过使用全特征组合数据集获得最佳精度(总体精度为90.17%,kappa 系数为0.87)。在特征重要性选择中,发现NBR2 指数、坡度和VV极化对于土地利用分类较为重要,Sentinel-2 指标指数和地形特征的引入使得耕地生产者精度和用户者精度得到显著提升。通过特征优选后的随机森林方法得到福州市土地利用分类结果,总体精度为92.37%,其中耕地UA 和PA 均大于85%。
虽然本文耕地信息提取中获得较高的精度,但由于福州市地形复杂,闽清县和永泰县与福清市和长乐区地形差异较大,因此模型的预测结果存在一定的差异性,但整体精度均大于90%。目前,Google cloud platform(GCP)平台能够与GEE 结合进行遥感图像深度学习分类,借助公开数据集和成熟的深度学习框架进行大尺度的耕地信息提取。在今后的研究工作中,将引入GEE 深度学习,更加充分地利用该平台海量数据源与算力。