基于哨兵2号遥感影像最优时相组合的棉花提取方法

2023-01-10 03:17司凯凯汪传建赵庆展杨启原任媛媛袁盼丽
关键词:时相棉花区域

司凯凯,汪传建,赵庆展*,杨启原,任媛媛,袁盼丽

(1 石河子大学信息科学与技术学院/兵团空间信息工程技术研究中心,新疆 石河子 832003;2 安徽大学互联网学院,安徽 合肥 230039)

新疆境内种植面积最大的农作物是棉花,其产量占全国棉花产量84%以上,近年来,中国棉花主产区已经从长江流域、黄河流域、新疆“三足鼎立”演变为新疆“一家独大”[1],新疆已经成为全国最重要的棉花生产基地,及时准确的提取棉花种植区域对相关部门制定政策有着重要的作用。

棉花种植区域的主要特点在于棉花的种植面积巨大,依靠传统方法抽样调查,手动估算,费时费力,难以快速准确的获得棉田的种植区域[2-5],基于传统方法存在这种缺点,卫星遥感由于监测范围大的缘故已广泛用于农作物的提取,如高时间分辨率的MODIS数据,在大面积作物种植信息提取中的应用较多[6-9],实现了小麦、玉米和大豆等农作物的分类识别和种植结构的提取研究。比MODIS数据分辨率高的中等分辨率的landsat 8遥感影像应用范围应用比较广,如阚志毅等[10]使用landsat 8在分析各个行政分区的地表覆盖状况、作物结构和地块破碎度差别的基础上,该模型在提取不同空间分布特征的冬小麦种植面积具有较好的精度,landsat 8遥感影像在草原检测、土地分类等方面也有一定的应用,实现了很好的分类与检测效果[11-12]。

随着深度学习技术的兴起,由于深度学习技术能够提取出图像的高层语义特征,许多学者将深度学习技术应用到农作物分类上来[13-15],但是,对于该类方法来说,需要海量的数据进行模型的学习,而实际情况却是,农田区域都处于农村地区,遥感数据保存不易。此外,由于云层过厚等特殊的天气原因将导致影像质量难以利用,作物生长期的遥感数据缺失情况时有发生,导致了遥感影像数据量难以满足深度学习模型的要求,这些情况的出现给我们实际应用造成了很大的困难。为了解决这些问题,许多学者将时间序列应用到深度学习模型上[16-18],取得了较好的分类效果。而对于一些常见的遥感影像,如landsat 8遥感影像,其重访时间达到了16 d以上,如MODIS数据,其重访时间为3 d,空间分辨率仅仅为250 m,时间分辨率和空间分辨率限制了我们在农田分类方面的应用,而对于分辨率较高的高分数据等,其获取价格却是十分昂贵,这些数据在一定情况下限制了遥感技术在农业方面的发展,而Sentinel-2影像在时间分辨率、空间分辨率、获取难度上相较于其他遥感影像都有一定程度的改善,为农作物在分类方面提供了新的思路[19-20]。Deeplabv3+作为Deeplab的改进型网络,结合了ASPP模块与编码器—解码器结构,在有效捕获多尺度信息的同时,能够获得更清晰的分割对象边界[21],在道路[22]、水体[23]、绿地[24]、农用地[16]等方面均得到了较好的结果。

针对传统方法耗时耗力,数据利用不充分,难以快速准确获取棉田种植区域的问题,将Deeplabv3+模型应用到棉花提取上面来,使用棉花生长期内时序遥感影像,以新疆维吾尔自治区尉犁县为研究区,Sentinel-2遥感影像为数据源,通过依次加入最优提取时相来获得适合棉花提取的最优时相组合,为棉花在数据不足及快速准确提取方面提供一定的参考。

1 资料与方法

1.1 研究区概况

卫星遥感数据获取区域位于新疆维吾尔自治区尉犁县,西部为塔克拉玛干沙漠,东部为库木塔格沙漠,介于40°47′~40°58′N,86°47′~87°07′E之间,属暖温带大陆性荒漠气候,温度的年月变化大,最热月与最冷月的平均气温差高达36 ℃左右,降水稀少,且年际变化大,光照充足,适合棉花种植,其余还散布着一些香梨、枣树、水域等丰富的地物类别。

1.2 遥感数据获取与预处理

据欧空局介绍,哨兵2号卫星共有两颗卫星,其中在2015年发射的一颗卫星名为“哨兵-2A”卫星,2017年发射的另一颗卫星名为“哨兵-2B”,两颗卫星为同一组,两者之间相互补充,每5天可完成一次对地球赤道地区的完整成像。Sentinel-2遥感影像地面分辨率分别包含有10 m、20 m和60 m,是唯一一个在红边范围含有3个波段的光学遥感影像,有利于监测植被的健康信息。为了找出最适合提取棉花的时相,从欧空局哥白尼数据中心(https://scihub.copernicus.eu/dhus/#/home)获取了2019年棉花生长期内4月—10月的遥感影像,在保证影像质量和生长期内各个时相影像均有的前提下,选取了以下7幅棉花生长期内的Sentinel-2遥感影像,影像采集时间如表1所示:

表1 影像获取日期

为了获取地物真实反射率情况,对哨兵-2号10 m分辨率遥感影像进行辐射定标、大气校正和裁剪,并将地实测地物数据和对应Google Earth的卫星数据作为数据集制作的参考。

由于研究区的地物类型复杂,为了更好获得棉花种植区域,将研究区的地物划分为3个类别,棉花、非棉花农用地及背景,并对预处理获得的TIF文件进行切分并获得样本尺寸为256×256大小的训练样本,筛选去除掉农作物种植区域占比较少的小图,每个时相获得有效样本小图66张,并对获得的小图进行旋转,滤波,亮度变化进行数据增强,并将每个时相的训练样本增强到594张,数据预处理过程如图1所示。

图1 数据集制作过程

1.3 野外数据采集及研究区作物信息

野外调查数据采集时间是2019年7月1日—7月5日,根据研究区特点,选择驾车和步行相结合的方式,进行随机打点并记录地物类型,共采集1 807个样本点,其中有1 008个样本点地物类型为棉花,其余点为香梨、枣树,建筑物,水体,沙漠等地物。根据野外调查结果可知,研究区的主要农作物有棉花、香梨和枣树,且由于作物生长方式不同,棉花一般在每年4月初进行种植,而香梨枣树等作物一般是多年种植,在3月中旬由于该地区气温回暖,此时两种作物在此时已处于萌芽期,生长情况有一定的差异。

1.4 Deeplabv3+网络棉花提取模型

1.4.1 Deeplabv3+网络结构

DeepLabv3+网络是由Deeplabv3网络添加解码器改进而来,由Encoder-Decoder架构和空间金字塔池块(Atrous Spatial Pyramid Pooling, ASPP)构成,其主体部分是带有空洞卷积的深度卷积神经网络(DCNN),Deeplabv3+改进Deeplab的部分正在于解码器部分,该部分可以很好的将高层特征与底层特征进行融合,更好的提高分割效果[25]。其整体架构如图2所示。

1.4.2 精度评价指标

考虑到本文的分割类别为3分类,为了合理的对模型的棉花提取效果进行评价,本文选取棉花的准确度(Precision,P)、召回率(Recall,R)、F1值、交并比(Intersection over Union,IoU)作为分类结果的评价指标[26],计算公式为:

(1)

(2)

其中,真阳性(True Positive,TP)这被正确分类为棉花数目的值,假阳性(False Positive,FP)代表非棉花的地物被错误的分类为棉花,假阴性(False Negative,FN)代表棉花被错分为背景或非棉花地物,准确度(P)在识别为棉花的数目中确实为棉花的比例,召回率(R)代表实际识别出为棉花的地物占总棉花地物的比例,而此时可能出现实际识别出的棉花并不是真正的棉花而是其他地物,即假阳性。为了平衡P和R的关系,引入F1[26]两者进行调和,棉花的IoU则是为了更好的反映类别在遥感影像进行分割时的准确性与完整性,其计算公式为:

(3)

(4)

1.4.3 分段函数评估模型建立

由于Deeplabv3+提取结果的指标及相互对比较多,为了进一步的使用模型对时相组合之间的提取效果进行较快的量化比较,更快得出提取效果的优劣,摒弃了一般深度学习模型的多个指标比较,引入高等数学间断函数[27]的方法,选取了综合P和R的F1指数和表征分割完整性的IoU指数结合进行整体评价,建立简单的间断函数对两种组合之间的提取效果进行快速比较,简化模型如下:

(5)

其中Fi,Fj表示第i,j时相组合的F1值,Ui,Uj表示第i,j时相(或组合个数)的IoU值,用单一数值函数Iij进行评价各时相及其组合提取效果的比较,其函数取值情况如下:

Iij=

(6)

其函数Iij表示取值表示时相组合取值的效果好坏,取值为2时表示第i时相的提取效果F1指数与IoU指数均比j时相的值大,提取效果最好,取值为1时表示第i时相的提取效果的F1和IoU两个指数其中一个相等,一个大于第j时相的指数,提取效果较好,取值为0表示i时相的提取效果的F1和IoU两个指数分别大于小于第j时相的指数,提取效果不相上下,无法判断,函数Iij取值为负时,比较结果相反。

1.5 研究方法

结合以上数据处理过程并设计以下技术路线:(1)结合模型对单时相Sentinel-2遥感影像进行提取;(2)使用评估函数单月份时相提取结果进行提取效果的比较,并对单月份时相提取效果进行排序;(3)依次加入提取效果最佳的时相进行棉花提取,并获得棉花提取的最优时相组合;(4)在最优时相组合下使用本文模型与SegNet和U-Net进行对比分析,本文的技术路线如图3所示。

图3 技术路线图

2 结果与分析

2.1 Deeplabv3+模型对单时相遥感影像进行棉花提取

为了获取棉花提取的最优时相及其组合,使用本文模型对棉花生长周期的每个时相进行逐一提取,提取结果如表2所示。

对该结果使用评估模型进行两两的比较,函数Iij取值结果如表3所示。

其中表3中第一列的月份值为式(5)中的i,第二行的月份值为式(5)中的j,那么从表3可知:

I67=2,I78=2,I89=2,I910=0,I104=2,I45=2。

(7)

根据该分段函数评估结果式(7)我们可以发现,模型单时相提取效果从高到低排序为6月时相、7月时相、8月时相、9月时相或10月时相,4月时相,5月时相,当时相为6时遥感影像的提取效果最好,准确率、召回率、F1指数和IoU值可达到0.86、0.89、0.88、0.78,其中提取效果7月时相和8月时相与6月时相相比略低一些,而对于9月时相和10月时相,提取效果较为相近,时相为4时提取效果比5时相提取效果好,F1和IoU指数分别高出5%和7%。

表2 模型单时相提取结果

表3 分段函数评估模型单时相比较

2.2 Deeplabv3+模型对不同时相遥感影像组合进行棉花提取

为了获得最优提取时相组合,通过Deeplabv3+模型使用准确率P、召回率R、F1指数和交并比IoU对棉花提取时相及其组合对棉花的提取效果进行衡量,分别从上表按提取效果依次加入最佳的时相进行棉花提取。式(7)中我们可以看出,在使用Deeplabv3+模型对单时相棉花遥感影像进行提取时,函数I910=0,9月时相与10月时相的遥感影像两者的提取效果相差不大,而当分别训练6月、7月、8月、9月时相组合和6月、7月、8月、10月时相组合时,得出加入10月时相组合时的提取结果P、R、F1、IoU分别为0.93、0.94、0.93、0.87,而加入9月时相的提取结果为0.90、0.91、0.91、0.84,此时两种时相组合评估模型的函数Iij取值为I6 789,67 810=-2,故按提取结果从高到低的顺序并使用分段函数评估模型对有疑义的组合进行重新排序时,可得该结果可以按6月、7月、8月、10月、9月、5月、4月进行排列,依次加入单时相进行训练组合,组合方式如表4所示。

表4 多时相影像组合方式

其中1表示该时相遥感影像输入到神经网络中进行运算,0表示该时相遥感影像不输入到神经网络中进行运算,确定时相组合方式后,将其输入到网络中,它的训练结果如表5所示。

表5 多时相组合提取结果

将各时相组合代入到分段函数评估模型Iij取值结果有:

I45=2,I53=2,I36=0,I62=1,I27=1,I71=2。

(8)

2.3 遥感影像多时相组合棉花提取结果及分析

2.3.1 多时相组合遥感影像提取结果

(1)从式(8)的取值结果中,我们可以发现,其多时相棉花提取效果从高到低的顺序为4个时相、5个时相、3个时相或6个时相、2个时相、7个时相、1个时相,即在使用时相组合个数为4个时,所获得棉花提取效果是最好的,此时多时相月份的组合为6月、7月、8月和10月,棉花的提取效果最好,其P、R、F1、IoU指数分别为0.93、0.94、0.93、0.87,训练时间适中,适合作为棉花提取的最优时相组合,而当多时相组合为5时,训练时间开始增加,提取效果开始下降。

(2)由表3可知,在使用单时相影像对棉花进行提取,时相为6时的棉花影像表现最佳,而多时相组合的提取效果整体上要大于单一时相的提取效果,为了进一步分析时相组合影像对棉田提取效果的情况,以棉花的单时相提取最低指标IoU值0.77为基准得图4,从图4知棉花单时相提取指标低于所有的组合时相的提取指标,且按单时相提取效果依次对6时相的影像进行组合,此时随着时相组合个数的增加,数据量也在不断增加,模型得到充分的训练,对棉花的提取效果逐渐变好,而当时相组合个数为5、6、7时,虽然数据依旧在增加,其提取效果却不再提高,反而有所下降。

2.3.2 对多时相遥感影像提取结果进行分析

我们从图5影像中可以发现,由于研究区内不仅含有棉花,还有其它地物,当时相个数逐渐增加时,图像信息会变得更多,比如5月遥感影像和6月遥感影像同时输入到模型中时,此时训练集影像信息将会变得异常丰富,但由于不同地物生长期的不同,虽然同一地物在同一时间所表现出不同的特征,但是在不同时相时,其表现出的特征会发生类似的情况。

图4 各月时相组合指标

A为影像的标签,B,C和D为其不同时相的遥感影像,其中B标注为1的区域为5月时相非棉花区域,C标注为2的区域为6月时相非棉花区域,D标注为3的区域为6月时相棉花区域。图5 不同时相相同地物光谱差异

从图5中可以看到,5月遥感影像(图5标注2)与6月遥感影像(图5标注3)的特征不相同,但是图5标注1中与其它地物光谱与图5标注3中棉花光谱类似,出现了“同物异谱,异物同谱现象”,从而导致影像信息之间发生了冲突,识别效果发生了一些下降。

而棉花一般在9月下旬至10月初采摘,相较于9月时相遥感影像,10月时相与其它月份时相的“同物异谱,异物同谱”的现象得到了缓和,与其它地物光谱差异较大,易于区分,识别精度略有提升。

从图6中可以看到,标注1(非棉花区域)与标注2(棉花区域)光谱较为类似,而到了10月份时,棉花到了收获期,原种植棉花的地块变成了裸地,此时标注3(棉花区域)与标注4(非棉花区域)差别较大,识别精度得到了一些提升。

因此,按单时相提取效果依次对6时相的影像进行组合,开始时加入7月时相和8月时相时,棉花的提取效果逐渐变好,由于10月棉花已收获,10月遥感影像类间区别变大,当加入10月遥感影像时,提取效果进一步提升,而当再加入9月时相、4月时相和5月时相时,“同物异谱,异物同谱”的现象的出现,此时随着数据量的增加,提取精度并不再增加,而是一点点降低,此时数据量的增加对提取效果正面的影响小于“同物异谱,异物同谱”对提取效果负面的影响。因此,棉花的最优提取时相组合为6月、7月、8月、10月。

2.3.3 不同网络模型在最优时相组合下进行对比分析

为了验证该模型在最优时相组合下进行棉花提取效果较好,将最优时相组合遥感影像分别输入到SegNet与U-Net中,它们的提取结果如表6所示。

此时可以看到,本文模型对比U-Net模型,其准确率、召回率、F1指数、IoU指数至少高出4个百分点,而对比SegNet模型,各指数至少高出16个百分点,棉花提取效果相较于SegNet模型和U-Net模型,其提取效果都有不同程度的提高。为了进一步评价本文模型相较于其它模型的优势,对各模型的提取效果进行了可视化,从图7中可以看到,本文模型相较于SegNet模型农田与农田的间隙恢复较好,对绝大部分地块的完整性都有很好的表达,而相较于U-Net模型,U-Net模型出现了大块农田的错分情况。该结果说明,本文模型对农田的完整性,及地块边缘的恢复都有很好的效果,棉田的实际情况可以得到充分表达。

表6 Deeplabv3+、SegNet、U-Net在最优时相组合上的提取结果

A:地物标签;B:Deeplabv3+;C:SegNet;D:U-Net。图7 不同网络提取结果

3 结论

本文通过对棉花生长期内Sentinel-2遥感影像输入到模型中,探究了遥感影像不同时相及时相组合对棉花提取的效果,得出了以下结论:

(1)使用Sentinel-2单时相遥感影像对棉花进行提取,其在棉花生长周期内遥感影像提取效果从高到低依次为6月、7月、8月、10月或9月、4月、5月,在9月和10月均有相似的提取效果,6月时相的遥感影像提取效果最佳。

(2)对Sentinel-2遥感影像按提取效果进行组合发现,组合时相个数从1个时相到4个时相时,提取效果逐渐提高,在4个时相时达到最佳,其最优的提取时相组合为6月、7月、8月、10月,而当组合时相个数增加到5个及以上时,随着数据量的增加,其棉花提取效果并没有得到提升,提取效果出现了略微的下降。

(3)通过本文模型与SegNet模型,U-Net模型对比发现,本文模型对棉田的边缘信息恢复较好,农田的完整性得到更好的表达,棉田的实际种植区域可以进行充分完整提取。

猜你喜欢
时相棉花区域
绝对时相收缩期采集心律不齐患者冠状动脉CT血管造影的可行性
棉花是花吗?
分割区域
棉花
滑冰式滑雪动作体系的建构
血清白细胞介素及急性时相反应蛋白在细菌性痢疾患者中的变化研究
滑行技术的革命:速度轮滑双蹬技术的运动生物力学研究
区域发展篇
不可思议的棉花糖小村(上)
心中的“棉花糖”