陈安旭,李月臣
(1. 重庆师范大学地理与旅游学院,重庆 401331;2. 西南大学地理科学学院 遥感大数据应用重庆市工程研究中心,重庆 400715;3. GIS 应用研究重庆市高校重点实验室,重庆 401331;4. 重庆金佛山喀斯特生态系统教育部野外科学观测研究站,重庆 400715)
水稻是中国乃至全球最重要的粮食作物之一。2018年,水稻种植面积约占中国粮食种植面积的1/4,稻谷产量约占中国粮食产量的1/3。水稻的有效监测对保障国家粮食安全,水资源有效管理及温室气体排放至关重要[1-2]。近年来,遥感技术因其宏观动态的优点被广泛运用于水稻产量、面积、物候等信息的提取[3-5]。水稻遥感提取的方法可分为单时相提取与多时相提取。区别在于前者利用水稻特殊时期的地物特征,后者则融合水稻多个时期的地物特征进行提取。邬明权等[6]融合MODIS 时间分辨率和ETM+空间分辨率的影像提取了南京市江宁区水稻种植面积,提取精度为93%,Kappa系数为0.96。Xiao 等[7]基于多时相MODIS 数据对中国南方的水稻种植区进行提取,达到较好的分类效果,并认为所用的水稻制图算法同样适用于水稻占主导地位的其他亚洲国家,但其后续研究[8]发现该算法并不适用于识别小块稻田。虽然多时相提取凭借更丰富的光谱信息能比较全面的反映水稻的地物特征,但所用数据源以中低空间分辨率的影像为主,适用于种植面积较大,云雾天气较少的地区[9-10]。山区水稻种植区受地形、气候等条件的限制,云雾天气较多,稻田呈现规模小、破碎分散的特点,中低空间分辨率的影像显然不适用,寻找质量较好的数据源是开展研究前需要解决的问题。单时相提取涉及到水稻特殊时期的界定,Zhang 等[11]认为移栽蓄水期的水稻生长在被淹没的土壤中,稻田是开放水域和绿色水稻植物的混合物,具备更易识别的地物特征。但此观点忽视了其他生长阶段,缺乏对各生长阶段分类精度的比较,水稻的其他生长阶段是否更易区别于其他地类值得进一步探讨。此外,选择分类特征时,多数研究侧重选取归一化植被指数(Normalized Difference Vegetation Index,NDVI)、地表水指数(Land Surface Water Index,LSWI)等传统的植被指数与水体指数作为分类特征,忽视了水稻在不同生长阶段下不同的形态特点,在选择分类特征的丰富度与适应性上也有待完善。
基于上述问题,本研究将结合多种分类特征对不同生长阶段的水稻进行提取,定量的评价各生长阶段水稻的分类精度,并基于空间分辨率为10 m 的Sentinel-2 影像探究适用于山区水稻种植区的提取方法。
巴南区位于重庆市主城区南部(29°7"44"N ~29°45"43"N,106°26"2"E~106°59"53"E),地形以山地丘陵为主,平均海拔434.23 m,气候为亚热带季风气候,年日均气温约为18 ℃,年均总降水量约为1 200 mm。区内土地覆被以耕地与林地为主,建筑、工业、道路等用地集中分布在西部地区,水域以长江干流和大型湖泊水库为主。巴南区水稻种植历史悠久,樵坪山、石滩镇种植的大米品质较好,是重庆市主城区重要的粮食产地,2017 年粮食产量达到30.26 万t。由于受到地形影响,巴南区大部分水稻物候期相对较晚,经过实地走访调查,通常5—6 月犁田插秧,7—8 月水稻生长,8 月末—9 月中旬成熟收割。
图1 研究区区位图 Fig.1 Location of study area
本研究所用的数据包括Sentinel-2 影像数据,ASTER GDEMV2 高程数据,研究区边界矢量数据,实地考察数据。Sentinel-2 影像的波段信息如表1 所示。Sentinel-2提供 Level-1C 和 Level-2A 两种处理级别的数据,Level-1C 经过辐射定标、几何校正(包括空间配准和正射校正),Level-2A 是在Level-1C 的基础上经过大气校正的产品。
依据水稻的生长特点,选取水多苗小的5—6 月作为发育期,水苗各半的7—8 月作为生长期,放水收割的8月底—9 月作为成熟期,发育期与生长期影像成像时间为2019 年,数据级别为L2A。成熟期由于2019 年和2018年的云量较多,所以选择质量较好的2017 年的影像(表 2)。对选取的影像应用三次卷积法将低分辨率的波段重采样为10 m。
ASTER GDEMV2 高程数据由日本METI 和美国NASA 共同研制,数据的空间分辨率精度和高程精度有所提高。该数据空间分辨率为30 m,利用三次卷积法将数据重采样为10 m 分辨率。此外,涉及的研究区范围、河流等矢量数据均来自全国地理信息资源目录系统。
本研究结合研究区实际情况,将地物划分为5 类:水稻、其他植被(旱地作物、草地、杂草荒地)、林地(各类木本植物用地)、水体、建设用地(包括建筑物、道路、裸地)。由于水田季节形态的多样性,部分水田仅通过目视解译难以与其他地物区分,需要实地考察选取训练样本。实地考察于2019 年8 月在界石镇、石滩镇、木洞镇、南泉镇等12 个乡镇开展,采集到样本点:水稻125 个、其他植被152 个、水体50 个,将其作为分类样本。
表1 Sentinel-2 影像数据波段介绍 Table 1 Waveband parameters of Sentinel-2
表2 水稻各生长阶段所选影像数据 Table 2 Selected image data at each rice growth stage
图2 实地采样点与考察线路 Fig.2 Field sampling points and survey lines
在数据预处理的基础上,通过 SNAP(Sentinal Application Platform)、ENVI5.3、ArcGIS10.2 分别计算影像的光谱特征、纹理特征和地形特征作为分类特征。在实地考察数据的基础上,通过目视解译补充分类样本,再通过SEaTH(Separability and Thresholds)算法对备选特征进行筛选,最后通过ENVI5.3 中的随机森林分类模块对其进行分类,从分类结果中随机选取若干点作为验证点,构建误差矩阵,比较水稻各生长阶段的分类结果差异。
图3 技术流程图 Fig.3 Technical flowchart
基于水稻的植物与水属性,选取了CIgreen、DVI、EVI、EVI2、mNDVI、MSR、NDVI、OSAVI、PVI、RVI、WDRVI共11 个植被指数,LSWI、MNDWI、MSI、NDBI、WL2015、AWEI、NDWI 共7 个水体指数,并基于Sentinel-2 数据特有的3 个红边波段,选区CIred-edge、IRECI、MCARI、MCARI2、mNDVIre、MSRre、MTCI、NDre1、NDre2、NDVIre1、NDVIre2、NDVIre3、SRre共13 个红边指数,分类特征如表3 所示。此外,有研究表明,纹理特征与地形特征可适当提高分类精度[12-13]。本研究利用ENVI5.3 工具计算均值、方差、协同性、对比度、相异性、信息熵、二阶矩和相关性8 个纹理特征,利用ArvGIS10.2 工具计算起伏度、山体阴影,利用ENVI5.3 工具计算坡度、坡向、剖面曲率、水平曲率,将DEM 高程数据作为海拔。与影像的12 个原始波段共同组成58 个分类特征。
表3 前期初选特征说明及计算方法 Table 3 Description of original feature and calculate method
前期选择的分类特征共计58 个,如果全部用于图像分类当中,势必会引起数据冗余和过度干扰,降低分类精度。本研究运用SEaTH 算法筛选分类特征,该算法的基本思想是在分类特征服从正态分布的条件下,利用Jeffries-Matusita 距离(J-M 距离)来衡量类间可分性,即特征值的分离度J 可由式(1)和式(2)计算得出
式中1m 、2m 为样本对应的每个特征值的均值;1σ 、2σ 为本对应的每个特征值的标准差;B 为巴氏距离;J 的取值区间为[0,2],其中0 代表2 个类别在某一特征上几乎完全混淆,2 代表2 个类别在某一特征上能够完全分离[35]。
通过实地考察与目视解译,最终选取的分类样本数量为:水稻682 个、其他植被557 个、水体335 个、林地458 个、建设用地514 个,通过计算各样本所对应各特征值的均值和方差来计算分离度。由于侧重提取水稻,分离度中涉及水稻的,将选取J >1 的前4 种分类特征,未涉及水稻的,将选取J >1 的前2 种分类特征,并包括重复的分类特征。
图像分类方法一直是遥感研究的热点,不同的地区选择不同的分类方法可以得出不同的分类结果。基于分类数据的多维度性与研究区地形的复杂程度[35-36],本研究选取随机森林分类法。该方法被证明在分类精度与速度,处理高维遥感影像数据方面优于传统监督分类方法。随机森林可以解释若干自变量(X1,X2,…,Xk)对因变量Y 的作用。如果因变量Y 有N 个观测值,有k 个自变量与之相关;在构建分类树的时候,随机森林会随机地在原数据中重新选择N 个观测值建立决策树。同时,随机森林随机地从k 个自变量选择M 个变量进行决策树节点的确定。每次构建的决策树都不完全一样,最后选择重复程度最高的树作为最终结果[37]。随机森林算法中N和M 两个参数的设置对分类结果影响并不敏感,利用默认值可以达到较优分类效果,研究采用默认设置,N 值为100,M 为分类特征个数的算术平方根。分类后,从结果中随机选取样本点,利用谷歌高精度遥感影像对验证样本通过构建混淆矩阵,计算Kappa 系数,用户精度、制图精度、总体精度等验证指标进行精度检验,比较不同生长阶段,水稻提取的分类精度差异。
水稻发育期筛选后的分类特征数量为16 个,其中B7、B12 等波段特征,对各地类均有较高的分离度。CIgreen、MSR 等植被指数主要用于水稻与林地及其他植被的分离,IRECI、MTCI 等红边指数对水稻与水体、建设用地的分离度较高;水稻生长期筛选后的分类特征数量为13 个,其中mNDVI、CIgreen等植被指数对水稻与水体、建设用地的分离度较高,NDWI、LSWI 等水体指数用于区分水稻与水体、建设用地;水稻成熟期筛选后的分类特征数量为12 个,其中水稻与其他植被的分离度较差,mNDVIre、MSRre等红边指数总体分离作用最大,WDRVI、NDVI 等植被指数主要区分水稻与林地。
表4 水稻各生长阶段筛选后的分类特征 Table 4 Classified features after screening at each rice growth stage
本研究的分类方法性质上属于基于像元分类,分类结果中难免存在小斑块,为减少小斑块对分类精度的影响,本研究将通过卷积滤波的方法对分类结果进行分类后处理,其原理是:将较大类别中的虚假像元归到该类中,目的是为了提高分类精度。最后的分类结果如图 4所示,各生长阶段所提取的水稻区域大致相同,受地形影响,水稻分布呈现分散破碎的特点。巴南区城乡空间差异明显,水稻主要分布于巴南区北部的木洞镇、二圣镇、惠民镇,南部的接龙镇、石滩镇、石龙镇。
图4 水稻各生长阶段分类结果图 Fig.4 Images of classified results at each rice growth stage
为防止构建混淆矩阵时,因验证样本数量过少,导致精度验证结果不准确的问题,本研究选取的总体与水稻的验证样本数量分别为2 100 和500 个,验证结果如图 5 所示。其中,发育期、生长期、成熟期的用户精度分别为0.93、0.88、0.85;制图精度分别为0.93、0.96、0.93;总体分类精度分别为0.92、0.92、0.91;Kappa 系数分别为0.90、0.90、0.88。除用户精度相差较大以外,其他指标差距不大,发育期的用户精度远高于生长期和成熟期,说明发育期是提取水稻最理想的生长阶段;成熟期的用户精度,制图精度,总体分类精度,Kappa 系数均为3 个水稻生长期数据中最低,相较于发育期和生长期,成熟期数据不适宜用于进行水稻地物的提取。
图5 水稻各生长阶段精度验证比较图 Fig.5 Comparison chart of accuracy verification at each rice growth stage
SEaTH 算法广泛的运用于分类特征的筛选。在付勇勇等[38]对雷州半岛的水体与非水体进行分类,江春梅[39]对福州市永泰县水稻进行提取的研究中,特征筛选结果均表明光谱特征的分离度最大,纹理、地形特征的利用率不高。图6 为水稻各生长阶段筛选后的分类特征数量对比图。特征筛选后的分类特征表明,水稻各生长阶段的分类特征以植被指数与波段特征为主。红边指数与水体指数的季节变化明显,红边指数多用于水稻发育期,主要分离水稻与林地、其他植被。水体指数可以反映地表水的分布情况,多用于生长期。纹理、地形特征只用于发育期,未用于生长期与成熟期。虽然两类特征在分类中能起到适当提高精度的作用,但作用并不明显。
图6 水稻各生长阶段筛选后的分类特征数量对比图 Fig.6 Comparison of the number of classified features after screening at each rice growth stage
图7 通过比较各生长阶段中地物间的分离度(用平均值表示)与错漏分像元数量的关系后发现,各生长阶段均呈现出分离度与错漏分数量成反比的趋势,即分离度越大的地物,其错漏分像元数量越少。此外,水稻在不同生长阶段与不同的地类混淆,发育期各类地物间的分离情况较好,生长期易与林地、其他植被混淆,成熟期易与建设用地、其他植被混淆。在对分类结果进行精度验证后发现:发育期是提取水稻最理想的生长阶段,部分研究中也提到水稻发育期有易于识别稻田的关键特征[40-41];山区的水稻提取与平原地区相比,分类精度仍有差距,Zhang 等[11]基于MODIS 时间序列数据对东北平原的水稻进行提取,用户精度和总体精度分别达到96%和97%,Dong 等[42]基于Landsat-8 影像对中国东南部的水稻进行提取,总体精度可以达到95%;由于本研究选取了过多的水稻验证样本点,造成其他地类的疏忽,总体分类精度与实际情况难免存在一定的误差。
图7 水稻各生长阶段地物间分离度与错漏分像元对比图 Fig.7 Comparison chart of ground objects separation and error-leakage pixel at each rice growth stage
本研究通过对不同生长阶段的水稻进行提取得出以下结论,经过SEaTH 算法对分类特征进行筛选可去除分离度较低的分类特征,提高工作效率,避免数据冗余的情况;Sentinel-2 影像凭借其10 m 的空间分辨率与5 d 一景的重返周期经试验证明能一定程度上克服图像获取的困难,是山区理想的数据源;精度验证结果表明水稻发育期的用户精度最高,为0.93,说明水稻处于发育期时,更易与其他地物进行区分,在影像质量较好的情况下可作为山地水稻提取的首选。
此外,本研究方法仅适用于小范围水稻提取,用于大范围水稻提取势必增加工作成本,降低效率,GEE(Google Earth Engine)作为遥感大数据云平台,依托其强大的云计算能力为今后扩大研究区范围提供参考;水稻生长期得到的用户精度为0.88,同样达到较高的分类精度,在影像质量允许的条件下,是否能通过影像融合的方法将发育期与生长期的数据结合,以得到更高的分类精度有待日后继续研究;本研究所用分类方法实质属于基于像元的影像分类,难免出现虚假像元的情况,未来可采取影像分割,面向对象的分类方法消除虚假像元的影响。