张 钊,官云兰* ,黄 端,池 泓
(1.东华理工大学测绘工程学院,330013,南昌; 2.自然资源部环鄱阳湖区域矿山环境监测与治理重点实验室,330013,南昌; 3.中国科学院精密测量科学与技术创新研究院,430077,武汉)
虾稻田是一种全新的综合种养模式,即水稻-小龙虾共同养殖。随着国内小龙虾产业蓬勃发展,虾稻田的种植范围快速扩大,特别是湖北省江汉平原区域[1-2]。当前虾稻田养殖的小龙虾为农户带来了可观的经济效益,但是存在许多问题。农户重虾轻稻,粮食安全问题受到威胁,对基本农田破环严重,很难复垦[3-4]。因此,准确的虾稻田空间分布可以促进产业健康发展,为政府部门决策提供依据。
遥感数据可以用于持续对地监测,提供地物空间分布信息,已成为获取虾稻田时空分布信息的重要数据来源。魏妍冰等人基于2017年的Landsat-8 OLI数据,使用自动水域提取指数(Automated Water Extraction Index,AWEIsh)构建基于水体季相差异的虾稻田提取模型,实现了潜江市虾稻田的空间分布提取,精度达到85.01%[5]。纪文文借鉴魏妍冰的研究,将AWEIsh加到决策树分类器中提取虾稻,在eCognition中手动修改错分像元后,使最终虾稻田的用户精度达到89%[6]。陈展使用2016—2019年的筛选特定时间的10景Sentinel-2影像数据,在SNAP软件中计算指数特征,根据其在季相上的差异化识别运粮湖区域的虾稻田,精度最低为78.06%,最高达到了95.61%[7]。已有研究表明虾稻田遥感分类研究还存在较大的不确定性,且受人为因素影响较大,自动化程度有待提高。
现有针对虾稻田提取研究主要针对Landsat数据基于虾稻田与单季稻田的水体指数季相差异设计算法模型。而且南方地区土地的破碎化程度高,Landsat数据的分辨率不足以支撑获取高分辨率的虾稻空间分布;且基于指数的季相差异依赖高质量的影像,时间的选取受云雨天气的影响,存在一定的不确定性,从而影响虾稻田的提取精度。Sentinel-2影像数据空间分辨率高,结合相关光谱指数(如:NDVI、EVI、LSWI等)在南方多云区域提取水稻已被证明精度较高[8-9]。Google Earth Engine(GEE)是谷歌公司开发的全球领先的遥感影像数据分析云平台。它具备快速处理海量遥感数据强大的计算能力,极大提高了运算效率,使得农业土地利用信息的快速处理与分析成为现实,已被广泛用于不同农作物遥感制图研究[10-12]。
本文以湖北省虾稻田种植大市——监利市为研究区,基于GEE云平台对Sentinel-2数据进行预处理和月度合成,分析典型虾稻田光谱的时序变化特征,采用随机森林算法提取虾稻田,获取2020年监利市虾稻田空间分布信息。
监利市位于湖北省中南部,长江中游,面积约3 460 km2。该区域地势平坦,海拔高度位于23.5~30.5 m之间;属于亚热带季风气候区,光照充沛,无霜期长,降水丰富,适合水稻和小龙虾的生长。监利市是稻虾综合种养的主要地区之一,虾稻种养面积占全市耕地面积的40%左右,有“中国小龙虾第一县”之称。
虾稻田在水稻种植四周挖出宽3~5 m,深1~1.5 m的水沟,用以养殖小龙虾。稻虾综合种养包含了单季稻的种植和两季小龙虾的养殖。在单季稻移栽期间,投放第1季小龙虾幼苗;同年收获水稻的同时完成小龙虾捕捞。然后虾稻田开始灌水投放第2季小龙虾幼苗,至次年单季稻种植前捕捞小龙虾(表1)。虾稻田和单季稻田的结构特征如图1。
表1 虾稻和单季稻种养物候
图1 左图为虾稻田,右图为单季稻田
1.2.1 Sentinel-2影像数据 Sentinel-2(S2)由Sentinel-2A(S2A)和Sentinel-2B(S2B)2个卫星组成,位于同一太阳同步轨道上且彼此成180°相位。S2A和S2B携带多光谱成像仪,单颗卫星重放周期10 d,2颗卫星协同运行重访周期为5 d。本研究通过GEE云平台使用S2数据的L2A级产品数据,该数据是L1C级产品完成大气校正的大气表观反射率产品,包含有13个光谱波段和3个QA波段,其中QA60波段有云掩膜信息。实验涉及的波段信息见表2。
表2 实验涉及的S2影像波段信息
实验共获取了290景影像,因研究区的水稻生长期内云雨天气频繁,影像受污染严重,为使用更多的有效信息,首先利用CLOUD_PIXEL_PERCENTAGE筛选掉云量像素大于80%的影像,然后根据QA60波段的Bit10和Bit11均为1得到云掩膜层,进行去云处理,公式如(1)所示。最后将去云处理完成后的126景影像按照月份中值合成,最后生成12景影像。影像数据具体使用情况见表3。
表3 影像数据具体使用情况
Cloud ={Bit10=1∪Bit11=1}
(1)
其中,Cloud表示QA60产品中的云噪声像元。
1.2.2 样本点数据 结合监利市实际地类分布情况,将研究区内的土地覆盖类型分为虾稻、单季稻、林地、旱地、建设用地和水域(河流、水库、池塘等)6大类。样本数据来源线上采样和实地采样2种方式。线上采样是借助谷歌地球软件上高分辨率影像进行目视解译获取;线下采样通过实地采样完成。采样过程中均遵循随机和均匀的原则。最终确定样本点共计1 024个,样本点分布情况如图2,虾稻田样本点343个,其他地类样本点681个。实验中按照7:3的比例将所有样本点分为训练样本点和验证样本点,其中训练样本点717个,验证样本点307个。
图2 监利市地理位置和实验样本点分布情况
实验基于GEE云平台调用研究区内2020年的S2 L2A影像数据,快速完成影像的去云处理和月度合成,在此基础上构建虾稻田的光谱时序特征。随后利用随机森林算法进行分类,获得研究区2020年的虾稻田分布情况,并采用独立样本点数据进行精度验证。实验流程图见图3。
图3 虾稻田信息提取流程图
准确提取虾稻田信息的关键是将其与单季稻田区分。因此,实验中计算了6个光谱指数:归一化植被指数NDVI(Normalized Difference Vegetation Index)[9]、增强型植被指数EVI(Enhanced Vegetation Index)[13]、绿色叶绿素指数GCVI(Green Chlorophyll Vegetation Index)[11]、地表水体指数LSWI(Land Surface Water Index)[14]、归一化水体指数NDWI(Normalized Difference Water Index)[15],归一化建筑指数NDBI(Normalized Difference Build-up Index)[16]。光谱指数计算公式如表4。其中NDVI、EVI、GCVI的时序变化能够较好反映出水稻的生长状况,LSWI和NDWI能够反映出虾稻田和单季稻田内水的变化情况。NDBI用于分类实验时建设用地提取。
表4 各光谱指数计算公式
式中:ρBlue、ρGreen、ρRed、ρNIR、ρMIR、ρSWIR分别表示蓝、绿、红、近红外、中红外、短波红外的反射率值。
图4与图5分别显示了虾稻田和单季稻田6种光谱指数的时间序列曲线。由图4与图5可知,两者在水稻休耕期各光谱指数有很大区别,在水稻生长期内基本保持一致。在水稻生长期,即6—11月,虾稻田内大部分面积为水稻,水深与单季稻田一致,用于检测水稻生长情况的NDVI、EVI、GCVI和检测田内水含量情况的NDWI、LSWI均不能作为判断依据。所以这个期间无法准确提取虾稻田。在水稻休耕期间,单季稻田会保持休耕状态。在2—4月杂草生长,所以NDVI、EVI、GCVI会有所上升,但是很快NDWI、LSWI在水稻移栽期间升高,NDVI、EVI、GCVI下降到0附近,并且LSWI > NDVI和EVI,这也是基于物候期提取单季稻的重要基础。而虾稻田在休耕期内,在12月开始灌水准备投放小龙虾幼苗,并一直到次年5月会一直保持为水面状态。在这长达半年时间里,LSWI一直在0.4附近,NDVI、EVI、GCVI表现为0,这是区分虾稻田和单季稻田的主要特征。
图4 典型虾稻田光谱指数时序变化
图5 单季稻光谱指数时序变化
随机森林(Random Forest,RF)是以决策树为基本单元的集成学习分类算法。这种分类算法相比于其他分类算法更加稳健,分类效率较高,更容易实现。随机森林分类的基本步骤为:1)从原始样本集中有放回地随机抽取训练样本,构成训练样本集,一般为总数的70%;剩下的30%样本为验证样本集,叫做袋外(Out-of-bag,OOB)数据,用于内部交叉验证和估计误差,也叫做袋外(OOB)误差;2)对训练样本集分别构建决策树,在决策树的节点处随机抽取特征,随后根据基尼(Gini)系数最小的原则得到一个分类能力最好的特征在节点处分裂;3)随后将其每个决策树的结果集成,生成最终的分类结果。这使得RF算法具有很好的抗噪能力,也能一定程度上避免过度拟合[17-18]。
在GEE云平台中通过函数ee.Classifier.smileRandomForest调用,实验中通过设置的决策树范围来筛选最佳的决策树值,最后选择500,因其实现了更高的精度且保证了相对更高的效率。分类算法中其他参数设为默认值。
本研究通过计算混淆矩阵进行精度评价,共计算了4个指标,包括生产者精度PA(Producer's Accuracy)、用户精度UA(User's Accuracy)、总体精度OA(Overall Accuracy)和Kappa系数,计算公式见表5。UA可以对各类地物分类精度衡量,OA和Kappa系数用来评价实验分类总体的精度[19-20]。
表5 精度评价指标计算公式
式中:n和r分别代表研究区的总像元个数和土地覆盖类型的数目;xii代表i类土地覆盖类型正确分类的像元个数,xi+代表i类土地覆盖类型参考数据的像元总数,x+i代表评价数据中i类土地覆盖类型的像元总数。
实验提取的虾稻田空间分布信息如图6。该实验基于GEE云平台使用随机森林算法提取虾稻田,精度评价见表6。虾稻田的生产者精度为92.77%,用户精度为84.61%;分类的总体精度达到了90.75%,Kappa系数为88.51%。
图6 2020年监利市虾稻田空间分布信息
表6 监利市2020年土地利用类型分类结果精度评价/%
经统计,得到的虾稻田面积为779.77 km2,与监利市政府公布的虾稻田面积数据720.00 km2相比,相差59.77 km2,比实际统计面积多出8.301%。传统方法获取虾稻田面积依赖人工抽样统计,本文利用高分辨率遥感数据提取的结果,两者间误差在合理区间内。
实验提取的虾稻田空间分布与Google Earth数据对比验证(Google Earth卫星数据源:Airbus;拍摄时间:2020年2月3日),并选取两小区域分析,如图7。实验中虾稻田被误分或错分的原因主要在于:1)部分水产养殖田块被误分为虾稻田,因为在夏季养殖时农户会在水面上放置草作为饲料,导致水产养殖田块的光谱指数与虾稻田类似而误分,主要表现在监利市东边,洪湖附近。2)少许单季稻田被误分为虾稻,查阅监利市2020年2月、3月、4月的天气情况后,分析原因是降水增多和云污染的影响。在2月、3月、4月,研究区有一半时间为多云、小雨天气,降水量增加,单季稻田内NDWI和LSWI会增加,影响后续的分类精度。3)采样点选择的正确性也是影响分类精度的重要因素。采样过程中存在的人为因素、影像时间、地理环境等影响,导致采样点存在一定偏差,使得分类器训练精度降低。
图7 2块小区域Google Earth数据与分类结果对比图
本文基于GEE云平台,快速处理得到了监利市2020年各月的Sentinel-2影像,通过对比分析虾稻和单季稻的关键指数变化特征,使用随机森林算法提取虾稻田,首次得到了监利市2020年10 m分辨率虾稻田的空间分布信息。主要结论如下。
1)GEE云平台具备快速处理大量遥感数据的能力,能智能完成遥感影像的裁剪、去云、拼接等预处理,相比于本地处理效率优势明显。
2)1—6月LSWI和6—10月NDVI、EVI、GCVI的时序变化特征是提取虾稻田的重要基础。本文通过分析典型虾稻田的光谱指数一年内的变化规律,相比于单季稻田,所有指数在11月至次年5月一直保持稳定,LSWI在0.5附近,NDWI、NDVI、EVI和GCVI一直在0附近。相较于水体季相差异提取虾稻田信息,这种方法稳健,精度更高,可以为更大范围的研究提供指导。