杨文博,刘春秀
(山东科技大学,山东 青岛 266000)
目前的农业灌溉面积提取的主要方法为人工统计和通过遥感技术提取。人工统计灌溉面积虽然可以获得较为完整的灌溉面积以及农作物信息,且拥有较高的精度。但是,人工统计需要耗费大量人力物力,且获取信息的时间长,受到外界影响比较大,不利于之后对获取信息的处理及运用[1]。
遥感技术于20世纪70年代开始在我国各个领域进行应用。80年代获得了较大的发展,并广泛应用[2]。在各种环境条件下,遥感成为监测世界许多地方灌溉土地的有效工具。通过遥感技术可以不用接触目标就能获取灌溉区的农作物种类及其分布情况,提取灌溉面积并合理的分配不同地区不同农作物种类所需的灌溉量,真正做到科学分配、合理使用水资源[3]。
目前的遥感技术提取灌溉面积的研究中,可分为以下几种类型:①基于热红外遥感的灌溉面积提取。此研究的基础在于通过热红外波段来对地表温度或者土壤热惯量进行反演[4]。土壤经过灌溉后,地表温度以及土壤热惯量都会降低,通过多时相的影像数据来判断研究区域是否发生灌溉行为。但是热红外卫星遥感分辨率较低,对于较小区域的灌溉面积提取精度较差。②基于可见光-近红外遥感的灌溉面积提取[5-8]。基于可见光-近红外遥感的灌溉面积提取一般都是通过各种植被指数的阈值法进行灌溉探测,其中植被供水指数(VSWI)、温度植被干旱指数(TVDI)、垂直干旱指数(PDI)应用较为广泛。基于可见光-近红外遥感的灌溉面积提取受到天气、地表植被覆盖、种植作物类型等各种因素的制约。并且单一的遥感指数对土壤水分的敏感性较差,此类方法的不确定性较大。③基于微波遥感的灌溉面积提取[9,10]。微波遥感具有坚实的物理基础,它不受云层和黑夜的影响,并且对土壤和植被都有一定的穿透作用。此研究在土壤含水量反演中应用较为广泛。但雷达信号对地表的几何结构高度敏感,受到地表粗糙程度的影响,并且受到植被的影响[20,21]。近些年在灌溉面积提取研究中还有一种技术就是结合光学遥感和微波遥感来进行灌溉事件的探测[11-16]。但基于多种传感器的研究方法所受的影响也会增多,所以光学遥感和微波遥感联合反演对于灌溉面积提取精度的提高有限。并且由于不同卫星的重访周期不同,卫星数据极难获取,效率较低,难以进行长时间序列的灌溉面积空间分布信息获取。所以想要在实际应用中准确高效的获取灌溉信息,则需要以单传感器研究方法为主,多传感器联合为辅。以单传感器获取长时间的灌溉面积和分布,以多传感器联合作为检验修正手段。在基于单一的传感器数据研究中,可分为微波遥感和光学遥感两类,微波遥感受到的地形制约严重,不确定性较大[17,18],只使用微波数据无法使用在具体实际应用中。光学遥感虽然受到天气等因素影响,但在适合的条件下反演精度高。符合遥感技术的高效性和准确性,易实现在实际应用中获取灌溉面积空间分布信息[19]。
为此,本研究以山东省淄博市桓台县为研究区域,探讨基于Sentinel-2 提取农田灌溉面积的最佳波段及其组合,主要利用随机森林模型对Sentinel-2 各个波段的遥感观测数据以及多个植被指数和土壤含水量指数进行重要性排序,选取重要性较高的数据作为神经网络模型的输入层,对研究区内所有作物类型的灌区进行灌溉面积提取。通过对研究区进行植被覆盖度分级,并针对在不同植被覆盖度的农田的灌溉面积提取结果进行分析,最后结合实地数据对提取结果进行验证。
研究区为山东省淄博市桓台县,介于北纬36°51′50″-37°06′00″,东经117°50′00″-118°10′40″,位于鲁中山区和鲁北平原的结合地带,位于山东省中部偏北,淄博市北部(图1),属温带大陆性季风性气候。研究区大部分为农业地区,农业植被面积占可利用面积的93.1%,且农田比较规整,地情简单,较为适合进行灌溉面积提取研究。该地区的农作物以冬小麦和夏玉米为主。
图1 桓台县 Sentinel -2 RGB合成影像Fig.1 Sentinel-2 RGB composite image of Huantai
Sentinel-2 是高分辨率多光谱成像卫星,搭载一枚多光谱成像仪(MSI),可用于陆地监测,可提供植被、土壤和水覆盖、内陆水路及海岸区域等图像,还可用于紧急救援服务。Sentinel-2 分为2A 和2B 两颗卫星。分别于2015年6月23日、2017年3月7日以“织女星”运载火箭发射升空。单颗卫星重访周期为10 d,两颗卫星同时运行可使得重访周期为5 d。数据于欧空局哥白尼数据中心下载(https://scihub.copernicus.eu/dhus/#/home)。
由于研究中所用的波段分辨率不相同,所以还需要对20 m 分辨率的几个波段进行重采样为10 m 分辨率。研究所需波段信息如表1所示。
表1 研究所用波段及其参数Tab.1 Bands used in the study and their parameters
用研究区内样本田上传的实际灌溉区域(图2)作为样本,共计43 块样本田(其中已灌溉样本田16 块,未灌溉样本田27块)。
图2 研究区样本田分布Fig.2 Sample field distribution in the study area
研究中使用的数据为Sentinel-2 卫星2022年3月份数据。3月份为灌溉高峰期,并且3月份具有较多的植被覆盖度类型,有利于对不同植被覆盖度下的农田灌溉面积提取结果进行研究分析。本文收集了3月2日和3月5日、3月15日和3月17日、3月27日和4月1日3 组卫星影像作为研究数据。产品级别主要是L1C级以及少部分的L2A级。其中L1C级数据是只经过正射校正和几何精校正的大气表观反射率产品,并没有进行大气校正。L2A级数据则为经过大气校正的大气底层反射率数据。为保证影像光谱数据的原始性,只对L1C 级数据进行必要的大气校正。
(1) 归一化植被指数(NDVI)。归一化植被指数(Normalized Difference Vegetation Index)是反应农作物长势以及植被覆盖情况的重要指标。定义为:
式中:NIR为近红外波段的反射率;Red为红光波段反射率。植被的生长中水分不足将影响作物正常生长并进而表现出植被指数的变化。因此,通过植被指数可以间接显示灌溉情况。
(2)归一化水指数(NDWI)。归一化水指数(Normalized Difference Water Index)可以提取灌溉前后明显的农田的灌溉面积信息。其表达式为:
式中:Green为绿光段反射率。
(3)土壤调整植被指数(MSAVI)。土壤调整植被指数(Modified Soil Adjusted Vegetation Index)可以减少土壤水分对灌溉面积提取的影响,从而更好的反应在研究区域植被状况对灌溉面积提取的影响。其表达式:
(4)垂直干旱指数(PDI)。垂直干旱指数(Perpendicular Dry ness Index)可以反应土壤中的水分情况,尤其是适用于裸露地表的研究区域。对于植被覆盖度较小农田的灌溉面积提取具有较大的影响。其模型表达式为:
式中:M为土壤线斜率。
(5)表层水分含量指数(SWCI)。表层水分含量指数(SWCI)是杜晓等发现短波红外对叶片水含量变化较为敏感,并利用植被冠层和裸地在高光谱区域的反射和吸收光谱特征,提出的一种新的地表含水量指数模型,间接提取灌溉面积。表达式为:
式中:SWIR1、SWIR2是两个短波红外的反射率。
本文的灌溉面积提取算法是根据Sentinel-2 卫星分辨率为10 m 和20 m 的10 个波段地表反射率以及多种土壤湿度的指数所构建的。首先利用随机森林对Sentinel-2 卫星数据的所有波段以及一些与土壤水含量相关的指数进行重要性排序,然后选取重要性排序较高的波段或指数差值作为神经网络模型输入层进行神经网络提取。此外,对研究区域进行植被覆盖度分级,并分析在不同植被覆盖度下的灌溉面积提取结果精度变化。
随机森林模型(Random Forest)[18]是一种比较新的机器学习模型(非线性基于树的模型)集成学习方法。而随机森林模型相较于其他模型有一个非常重要的优点,那就是重要性排序。在随机森林中某个特征X的重要性的计算方法如下:
(1)对于随机森林中的每一颗决策树,使用相应的OOB(袋外数据)数据来计算它的袋外数据误差,记为errOOB1。
(2)随机地对袋外数据OOB 所有样本的特征X加入噪声干扰(就可以随机的改变样本在特征X 处的值),再次计算它的袋外数据误差,记为errOOB2。
(3)假设随机森林中有Ntree棵树,那么对于特征X的重要性VIX为:
之所以可以用这个表达式来作为相应特征的重要性的度量值是因为:若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高。
本研究以10 个波段以及指数为自变量,是否灌溉为因变量,利用随机森林模型的重要性排序获取每一个自变量的显著性。选取排序的较大重要性自变量作为之后神经网络模型的灌溉面积提取的输入层,对研究区域进行灌溉面积提取预测。
本文使用了BP 神经网络模型作为此次研究的训练模型。BP (Back Propagation) 神经网络是1986年由Rumelhart 和McClelland 为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络模型之一 。
BP 神经网络的学习过程由信号的正向传播和误差的反向传播两个过程组成。正向传播时,把样本的特征从输入层进行输入,信号经过各个隐藏层的处理后,最后从输出层传出。对于网络的实际的输出与期望输出之间的误差,把误差信号从最后一层逐层反传,从而获得各个层的误差学习信号,然后再根据误差学习信号来修正各层神经元的权值。这种信号正向传播与误差反向传播,然后各层调整权值的过程是周而复始地进行的。权值不断调整的过程,也就是网络学习训练的过程。进行此过程直到网络输出误差减小到预先设置的阈值以下,或者超过预先设置的最大训练次数。
植被覆盖度(Fraction Vegetation Coverage,FVC)通常被定义为植被(包括叶、茎、枝)在地面的垂直投影面积占统计区总面积的百分比,是刻画地表植被覆盖的重要参数,在植被变化、生态环境研究、水土保持、城市宜居等方面问题研究中起到重要作用。植被覆盖度能够直观的反映一个地区绿的程度,是反应植被生长状态的重要指标。其表达式为:
式中:NDVIsoil为纯土壤像元的最小值,理论上接近于0;NDVIveg为纯植被像元的最大值,理论上接近于1。实际上由于气象、环境等各种外界条件的影响,不同影响的NDVIsoil和NDVIveg也会受到一定程度上的影响。
根据不同的植被覆盖度划分为5 个级别,分别记为Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ,依次表示低覆盖度、较低覆盖度、中等覆盖度、较高覆盖度和高覆盖度,如表2所示。
表2 植被覆盖度分级标准Tab.2 Classification standard of vegetation coverage
Sentinel-2 卫星数据可分为分辨率为10、20、60 m 的波段,粗分辨率的遥感数据并不适用在区域性的灌溉面积提取研究中。所有本研究选取了Sentinel-2卫星数据的所有10 m 和20 m 分辨率波段数据作为特征参数。此外,考虑研究区内多种植被覆盖类型,本研究还选取了一些植被以及土壤指数作为特征参数。选取NDVI、NDWI、MSAVI、PDI、SWCI这些指数较好的涵盖了大部分的植被覆盖类型,保证了在不同植被覆盖度下的灌溉面积提取。通过将16 个特征参数放入随机森林模型中进行重要性排序,获得了不同特征参数对灌溉面积提取结果的重要性值。得到对灌溉面积提取影响较大的特征参数,并使用这些特征参数作为后续神经网络的输入层进行灌溉面积提取研究。
随机森林的重要性排序结果图如图3所示,其中绿光和红光波段以及近红外波段和两个短波红外波段对灌溉面积提取影响较大。另外,本研究所选取的土壤湿度及植被含水量指数中,灌溉所用时间较短,短期内植被生长状况并没有显著的变化,NDVI对灌溉面积提取影响很小,重要性低。NDWI对水体较为敏感,多用在淹没灌溉提取研究,而研究区内灌溉量不能满足淹没灌溉,所以其对本研究的影响较小,在随机森林中的重要性也很低。PDI指数对灌溉事件较为敏感。结合各波段光谱灌溉前后差值(图4)对比进行验证,重要性排序结果具有较高的可靠性。最终选取B3、B4、B8、B8a、B11波段以及PDI指数做为本次研究的参数。
图3 重要性排序Fig.3 Importance order
图4 各波段灌溉前后光谱变化Fig.4 Spectral changes before and after irrigation in each band
将随机森林重要性排序选择出来的影响因子较高的特征参数放入神经网络模型中进行灌溉面积提取,得到灌溉面积提取的结果图(见图5)。
图5 灌溉面积提取结果图Fig.5 Extraction result of irrigation area
4.2.1 灌溉面积结果验证
对神经网络模型提取的灌溉面积进行统计,结果如表3所示。
表3 灌溉面积精度评估表Tab.3 Irrigation area accuracy evaluation
使用实际调查采集的样本点数据进行验证(表3),灌溉地区提取精度为75%,非灌溉地区提取精度为77.8%,总体灌溉精度为76.7%,Kappa系数为0.74。
4.2.2 不同植被覆盖度灌溉面积提取结果分析
对研究区进行植被覆盖度分级,分级后的灌溉面积提取结果如图6所示。
图6 不同植被覆盖度的灌溉面积提取结果图Fig.6 Irrigation area extraction result map of different vegetation coverage
从表4 和表5 可以看出,在中等和较高植被覆盖度地区的灌溉样本点共有30 个,正确提取26 个样本点,准确率达到86.7%,灌溉面积提取点准确率较高,提取效果较好。这是由于研究区大部分地区为农业地区,作物以冬小麦和夏玉米为主,使用数据为3月中下旬卫星影像,此时期研究区大部分地区为中等和较高植被覆盖度,随机森林重要性排序选取的波段和指数适合在此植被覆盖度所得出的结果。所以符合在此地情下进行灌溉面积提取在中等和较高植被覆盖度地区具有更高精度的结果。
表4 已灌溉样本点精度评估表Tab.4 Accuracy evaluation table of irrigated sample points
表5 未灌溉样本点精度评估表Tab.5 Accuracy evaluation table for unirrigated sample points
区域的实际灌溉面积是对水资源合理利用的关键指标,灌溉面积监测是农业水资源利用和流域水资源管理等应用的基础。基于目前光学卫星在区域灌溉探测识别研究中的方法,本文使用光学卫星数据构建了神经网络模型进行灌溉面积提取研究。利用随机森林模型对哨兵2 号卫星20 m 分辨率波段以及植被、土壤含水量相关系数进行重要性排序,构建与灌溉面积高相关度的神经网络模型。并在山东省淄博市桓台县灌区进行灌溉面积提取,结合灌溉区域实地调查资料对提取结果进行验证。本文结论如下:
(1)在基于光学卫星的灌溉面积提取研究中,可见光波段以及近红外波段对于土壤灌溉事件具有更高的敏感度。使用机器学习的方法可以更加容易方便的得到这些与研究具有较强相关性的因子。
(2)根据灌溉面积结果可以看出,在研究区内的地情下重要性排序所选择出的波段以及植被指数对较高植被覆盖地区的灌溉面积提取结果更加准确。
(3)提出一种基于光学遥感卫星数据的神经网络模型实现提取灌区实际灌溉面积方法,构建与灌溉事件高相关度的神经网络模型对灌区进行探测。本文所提出的方法具有较好的适用性。依据灌区作物类型和植被覆盖度选取植被以及土壤指数作为特征参数,对所有选取的特征进行重要性排序,使得此方法在不同地区地情下都可以较好的提取灌溉面积。且此方法只依赖单传感器卫星,数据的获取简单快捷,可以更高效的提取灌区的灌溉面积。为灌区的现代化管理和水资源的合理分配等应用提供了可靠的技术支撑。但此方法依旧是基于光学遥感卫星,受到天气等因素的干扰,难以获取长时间序列的灌区灌溉面积信息,且精度稍低于光学和微波卫星联合的研究方法。要实现大范围的灌溉面积提取并提高精度,还需要进一步研究。