赵旭东,庄会波,陈干琴,陈彦臣
(1.山东科技大学,山东青岛 266500;2.青岛星科瑞升信息科技有限公司,山东青岛 266500;3.山东省水文中心,山东济南 250000;4.山东智遥信息科技有限公司,山东济南 250000)
山东省农业用水量大,农业用水占经济社会用水比例高,对农业灌溉空间分布进行监测有助于提高农业用水量核算精度,对用水总量控制和最严格水资源管理具有重要意义。早期的灌溉空间分布统计主要通过人工获取,该方法人力物力消耗大,时效性差,空间分布信息缺失,导致灌溉信息难以及时获取。
近年来,遥感技术的快速发展为地面信息的快速获取提供了新的技术手段,且越来越多地应用于灌溉面积空间分布提取。遥感具有周期短、覆盖范围大和信息获取速度快、信息采集实时性强等特性,可有效弥补地面观测系统成本高、空间代表性差等缺点,为灌溉空间分布监测提供了基于面上的实时有效的监测手段和方法。目前基于遥感手段进行灌溉空间分布提取的应用主要有2种,一种是根据灌区的土地利用和农作物种植结构信息,结合灌溉工程控制范围来获取可能的灌溉分布范围;刘逸竹等利用时间序列NDVI进行灌溉面积统计,研制了我国2010年、空间分辨率250 m的灌溉耕地空间分布地图。另一种是基于遥感土壤含水量变化信息获取实际灌溉面积的方法,通过分析和对比土壤含水量的变化特征,获得轮次实际灌溉面积。目前利用遥感进行土壤含水量的监测主要分为3类:热红外法、可见光/近红外法(反射率法、植被指数法)和微波方法。针对不同的地表类型可以选择不同的模型计算土壤水分,近年来,在裸露地表通常使用一些物理经验模型(oh模型、Dubois 模型)进行土壤含水量估测,但需要现场测量进行校准;在低植被覆盖度地区,通常选择将半经验模型(Shi模型、水云模型等)应用于水分反演中,植被区土壤含水量仍被过低估计;对于植被高覆盖度地区,植被冠层双向散射衰减了土壤后向散射的影响,需要采用密歇根微波植被散射模型(michigan microwave canopy scattering,MIMICS)及其改进模型(Bi-MIMICS模型)计算裸土后向散射系数,由于参数太过烦琐不易于使用。研究表明当微波遥感数据协同光学植被指数的方式 反演土壤含水量时,用光学数据计算植被生物物理参数,能更好地补充植被的影响。
合成孔径雷达具有全天时、全天候的观测能力,且对植被和土壤表层具有一定的穿透能力,已被广泛应用于地表土壤水分的监测和反演中。但雷达后向散射系数除受到土壤介电常数的影响外,还受到地表粗糙度、植被覆盖等的影响,本质上土壤水分反演是一个病态问题。为了解决病态反演的问题,提出利用神经网络深入挖掘雷达观测数据结合光谱数据与地表是否灌溉之间的关系,从而得到地面灌溉结果。人工神经网络具有连续的学习能力,在无法建立完整理论模型的应用中具有显著优势,尤其是处理非线性关系时。研究表明,神经网络在经过大量数据集的训练后,由于其有效的插值能力,可以提供良好的估计性能。
为建立神经网络提取耕种地区灌溉空间分布情况,以山东省胶州市(119°37′~120°12′E、36°00′~36°30′N)和淄博市桓台县(117°50′~118°11′E、36°51′~37°06′N)2处作为试验区域。2个研究区域以平原和丘陵为主,由图1、2可知,2个区域的地表覆盖类型主要包括农业用地和人造地表2种,大范围的农业用地用于灌溉分布的提取。
图1 胶州市地物类型分布Fig.1 Distribution of feature types in Jiaozhou City
图2 桓台县地表类型分布Fig.2 Distribution of surface types in Huantai County
哨兵1号。为确定灌溉的空间分布情况,通过估算试验区的土壤含水量从而确定灌溉情况,试验中使用Sentinel-1数据。哨兵1号(Sentinel-1)卫星是欧洲航天局哥白尼计划(GMES)中的地球观测卫星,由2颗极轨卫星(Sentinel-1A和Sentinel-1B)组成,载有C波段合成孔径雷达。根据工作模式,Sentinel-1 可在全天时、全天候条件下获取5~40 m分辨率的图像,重访周期由1颗星的12 d减到2颗星的6 d。 携带的合成孔径雷达(SAR)有4种成像模式(表1),该研究所用的数据是干涉宽模式(Interferometric wide swath,IW)下的GRD数据。
哨兵2号。哨兵二号是高分辨率多光谱成像卫星,高度为786 km用于陆地监测,可提供植被、土壤和水覆盖、内陆地区及海岸区域等图像,还可以用于紧急救援服务。与哨兵一号相同,哨兵二号也拥有2颗卫星(Sentinel-2A和Sentinel-2B),高度为786 km,可覆盖13个光谱波段,从可见光和近红外到短波红外,幅宽达290 km。地面分辨率分别为10、20和60 m,一颗卫星的重访周期为10 d,2颗互补,重访周期为5 d。
数据预处理。数据预处理主要包括对光学数据和雷达数据的处理,目的是获得模型输入需要的反射率和后向散射系数。为了获得地面的后向散射系数,需要对雷达数据(哨兵1号)进行地理编码和辐射定标,利用SNAP软件批量完成。辐射定标的公式:
其中,为后向散射系数;和分别表示第行和第列;DN为雷达图像的灰度值;为定标参数。
表1 Sentinel-1 卫星成像模式及参数说明
光学数据选择哨兵2号的L2A数据,该数据已完成大气校正、几何校正,只需进行波段合成、裁剪和镶嵌的操作,也通过SNAP软件批量操作完成(表2)。
训练样本。神经网络模型的精度严重依赖训练样本,依靠大量可靠性高的训练样本为网络模拟结果做支撑,因此在选择样本时,为了提高网络模型的适应性,利用地面灌溉信息选择遥感数据,得到可靠的灌溉样本信息。
利用灌区的灌溉周期信息,内蒙古黄河灌区的解放闸灌域从2021年4月10日开始一水的灌溉,5月23日前后结束二水灌溉。利用灌区灌溉信息判断灌溉区域与非灌溉区域,对覆盖灌区的哨兵1号数据和哨兵2号数据进行预处理获得反射率和后向散射系数,提取训练数据的输入数据。
由经验知识以及试验证明,后向散射系数与土壤水分含量相关,土壤水分含量的多少往往能表示是否进行灌溉,反射率和NDVI值则能反映地面植被覆盖情况。最终选择后向散射系数、可见光波段反射率、近红外波段反射率以及NDVI值作为模型输入特征向量,NDVI值用哨兵2号的4波段和8波段计算。利用大型灌区的灌溉时间和灌溉分布情况,获取相应时间和区域的数据,对遥感影像进行预处理,包括辐射校正、几何校正和波段计算等处理过程,选择灌溉样本制作灌溉类型样本数据集。输入向量通过非灌溉样本选择云、水体、建筑用地、森林以及非灌溉的农业用地,根据输入特征向量制作相应的非灌溉样本数据集。
NDVI=(-)/(+)
表2 Sentinel-2数据波段详细信息
神经网络。人工神经网络是由众多神经元使用可调节的连接权值连接而成。一个神经网络通常由一个输入层,一个或多个隐藏层和一个输出层连接构成。其中隐藏层的层数往往决定神经网络的数据挖掘能力,输入层神经元个数为影响结果的特征向量个数,输出层的神经元个数由输出结果决定(图3)。
图3 神经网络结构Fig.3 Neural network structure
神经网络具有高处理速度、高容错能力,能够较好地解决非线性问题的优化解,对数据的依赖性较强。神经网络在遥感中应用广泛,主要应用范围有图像识别、目标检测、遥感图像分类、参数定量反演等领域。神经网络能够以较短的计算时间和较高的精度模拟各变量之间的非线性关系,因此该研究利用神经网络深入挖掘灌溉与非灌溉像元之间的特征差异从而实现对灌溉区域的提取。
监测模型。该算法包含6个输入特征向量和1个输出值,因此网络模型的输入层输出层的神经元个数分别为6和1。训练样本包括灌溉与非灌溉样本,输入特征向量包括b2、b3、b4和b8波段的反射率、NDVI值以及后向散射系数。神经网络模型通过设置不同的网络参数多次训练确定的,包括网络结构(隐藏层和每层的节点数)、学习率和迭代次数。选择合适的隐藏层数和神经元数有利于数据特征的提取,若隐藏层太少,网络很难充分提取数据特征,层数过多则会导致过量计算,影响网络运行效率。学习率控制网络权值的调整速度以及网络是否收敛,学习率越大网络调整速度越快,但可能导致跳过某些局部极值点,甚至整个网络无法收敛,较小则会导致网络收敛需要花费更多的时间。选择合适的网络结构和训练参数对神经网络模型的效果有至关重要的影响,最终网络模型有5层隐藏层,每层隐藏层各有20个神经元。
灌溉提取实际上是对灌溉像元光谱曲线特征的识别过程,可以通过神经网络实现。训练阶段对大量的灌溉输入特征向量和非灌溉输入特征向量进行深层特征提取,学习其内在特征,得到灌溉监测模型;测试阶段,将随机分配的测试样本输入模型,模型通过分析计算是否有灌溉的特征,输出结果。监测模型见图4。
图4 灌溉监测模型Fig.4 Irrigation monitoring model
为了评价网络模型的性能,需要对模型分类效果进行评价,将样本随机分为两部分,其中一部分为70%,作为训练数据级;另一部分为30%,作为测试数据级。测试数据级用来测试训练得到的网络模型监测灌溉的精度。选择误差评价指标:总体精度、Kappa系数、漏分误差和错分误差,分析和评价模型监测灌溉的效果。总体精度是指灌溉与非灌溉样本被正确分类的总数和测试样本总数的比值;漏分误差是指灌溉样本中未检测到的灌溉样本个数与样本总灌溉个数的比值;错分误差是指测试样本中被错误分类的概率,错分误差越低说明模型的性能越好。
由表3可知,该研究构建的神经网络模型对样本进行分类的总体精度为98.8%,其中灌溉的漏分和错分误差分别为1.59%和1.18%,总体漏分和错分误差相对较低。该模型针对样本数据预测的Kappa系数为97.8%,意味着模型的输出结果与理想结果具有高度的一致性。
表3 神经网络模型精度评价结果
根据实地调查灌溉情况可知,2020年5月胶州北部部分区域进行灌溉,2021年3月桓台县大部分耕地区域处于灌期,因此选择2020年5月6日胶州地区的哨兵1号和哨兵2号数据,桓台县选择2021年3月25日的数据,选择云污染尽可能少且哨兵1号和哨兵2号数据过境时间差距尽可能小的数据(图5、6)。
图5 胶州市北部区域灌溉空间分布Fig.5 Spatial distribution of irrigation in the northern area of Jiaozhou City
为了评估神经网络模型在灌溉提取中的效果,将训练得到的网络模型应用于研究区域的数据来提取灌溉空间分布情况。 用实地考察信息对算法监测结果进行验证,发现提取的灌溉空间分布情况基本符合实地考察的信息。
图6 桓台县灌溉分布情况Fig.6 Distribution of irrigation in Huantai County
该研究根据灌区灌溉时间提取制作灌溉样本,利用神经网络训练样本监测研究区域的灌溉情况。该模型以灌溉像元与非灌溉像元的反射率和后向散射系数差异为基础,结合灌溉样本的选择和神经网络来开展有效的灌溉空间提取。
该研究利用灌区信息作为灌溉样本选择的基础,非灌溉样本包含水、云、建筑用地和非灌溉的植被区域。结果表明,灌溉像元与非灌溉像元的差异特征能有效地提取灌溉分布。利用神经网络对训练样本进行学习训练,优化网络模型结构,确定最佳的网络模型参数,最终的网络模型总精度和Kappa系数分别为98.8%和97.8%,网络的模拟精度较高。为验证该研究的灌溉提取算法,对比实地核查结果,算法提取结果基本符合实地考察信息,在非农业地区误提较少。表明神经网络方法灌溉提取的准确率较高,且错分误差较低。
虽然该研究利用神经网络进行灌溉提取结果较好,但仍存在不足需要进一步研究。验证样本的选择对精度评价造成影响,可以通过建立覆盖范围广的地面观测网络,获取现场核实灌溉情况作为结果验证的样本数据,不但可以对结果进行更为精确的验证,而且可以对算法后续的改进起到帮助。