张燕斌,杜健民,王圆, 3,皮伟强,高新超
(1. 内蒙古农业大学机电工程学院,呼和浩特市,010010; 2. 内蒙古农业大学职业技术学院,内蒙古包头,014109;3. 鄂尔多斯应用技术学院,内蒙古鄂尔多斯,017000)
草原是我国重要的生态系统和自然资源,对于筑牢国家生态安全屏障、巩固边疆稳定、铸牢中华民族共同体和促进经济社会可持续发展等方面具有战略性作用。中国是世界上草原资源最丰富的国家之一[1-2]。党的十八大以来,草原保护修复工作取得显著成效,部分地区草原生态明显恢复,但目前荒漠草原面临的压力仍然较大,部分地区的草原生态系统脆弱,有向逐渐裸露化或荒漠化发展的趋势[3-5]。内蒙古作为中国北方重要的生态安全屏障和绿色农畜产品生产加工输出基地,荒漠化给当地的生态环境、草牧产业经济发展造成严重威胁[6-8]。草原生态系统群落结构简单,是最易荒漠化的生态系统之一,内蒙古近98.5%的荒漠化土地来自草原生态系统的逆行演替[9]。
草原荒漠化表现为植被群落总覆盖度减少、植被种类减少、土壤侵蚀模数增加、裸地面积增加、鼠洞面积增加等[10-11],因此植被群落总覆盖度和地表土壤性质均是荒漠化的重要监测指标,对二者的高精度的监测与统计是草原荒漠化研究的重要基础环节,也是草原荒漠化分级治理的重要依据。传统的草地监测手段主要采用布置固定站点现场测量,其具有精度高、数据可靠等优点,但也存在费时费力、周期长、成本高,无法实现对荒漠草原实时、大面积监测等缺点[12]。无人机(Unmanned Aerial Vehicle,UAV)+高光谱遥感图像(Hyper Spectral Image,HSI)形成的低空遥感平台具有覆盖范围广、数据源丰富、可以快速重复部署、省时省力等优势[13],获取的图像具有较高的时间分辨率、空间分辨率和光谱分辨率,是研究细尺度地物组成的无可比拟的数据源,正成为传统航天遥感和卫星遥感的优异补充手段[14]。近年来,低空遥感技术已发展为草地测量、草地资源评估、草地退化动态监测、地物种类识别、形态参数反演、生物量估测、草地多样性评价和灾害监测等研究的有效手段[15-19]。因此,将无人机+高光谱遥感手段应用于草原地物精细识别和分类,对于研究草原退化和生态环境保护具有重要的现实意义。
由于高光谱遥感影像数据具有维度高、数据量巨大的特点,传统的统计模式识别方法在处理高光谱数据时,会面临极大的困难。为了解决这一问题,许多不同类型的分类方法如神经网络算法在高光谱影像分析上得到了广泛应用。深度学习方法使图像分析发生了革命性的变化,并被证明是处理高维遥感数据的有力工具[20],主动学习和迁移学习等技术帮助改善由有限训练样本主导的训练场景中非常深入的神经模型的最终性能[21]。VGG16和ResNet18等卷积神经网络模型广泛应用于医学图像、作物图像识别上[22],并逐渐被引入到遥感图像分类中[23],但引入高光谱图像对草原地物分类研究中尚不多见,尤其是在荒漠草原生态系统中的应用鲜见报道。
通过利用光谱分辨率高、光谱波段信息丰富的高光谱成像仪结合无人机组建无人机高光谱遥感系统,其高空间分辨率、高灵活性、高效率等特性为基于低空遥感手段的荒漠草原细小、分散地物的实时监测与高精度统计提供硬件基础。经过无人机高光谱遥感系统对试验区荒漠草原的高光谱遥感影像采集,进行数据预处理、波段选择,并利用VGG16和ResNet18深度学习模型及其改进卷积核的3D-ResNet模型对高光谱遥感影像中的植被、土壤、阴影等细小特征进行分类。旨在实现利用无人机高光谱遥感系统对荒漠草原从数据获取到数据分析完整流程的尝试,为基于遥感的荒漠草原高精度统计与反演提供硬件与软件基础,是为进一步更精细的草原地物分类的有效探索。
无人机高光谱遥感系统主要由高光谱成像仪、六旋翼无人机、云台和机载计算机四部分组成,详见图1。高光谱仪使用的是双利合谱Gaiasky-mini-VN型,该光谱仪共有256个波段,搭载Sony ICX285型镜头,高光谱仪部分参数见表1。六旋翼无人机为大疆MATRICE 600 PRO型,搭载专业级A3 PRO飞行控制系统,配备三套IMU和高精度D-RTK GNSS模块,满载续航时间为18 min,无人机部分参数见表2。为了稳定高光谱仪,使用Ronin-MX云台,核定最大负载重量4.5 kg,角度抖动量±0.02°。机载计算机主要由i7-7567U、512G固态硬盘等组成。无人机高光谱遥感系统总重量为14.05 kg。
图1 无人机高光谱遥感系统Fig. 1 UAV hyperspectral remote sensing system
表1 高光谱仪部分参数Tab. 1 Some parameters of high spectrometer
表2 无人机部分参数Tab. 2 Some parameters of UAV
试验区格根塔拉草原(41°75′36″N,111°86′48″E)位于内蒙古自治区中部的四子王旗,属于农牧结合区,农区面积占18.3%,牧区面积占81.7%,畜牧业为主导产业,海拔高度为1 200~2 200 m,境内河流稀少,年均降水量约200 mm,水资源匮乏[24]。夏季日照充足且炎热,其余3个季节大风日多,年均风速达4.6 m/s,土壤类型为淡栗钙土,风蚀严重,含沙量大,有机质含量低。植被稀疏,种类贫乏,叶片狭长,根系发达,结实期平均高度不足8 cm。建群种为短花针茅(Stipa breviflora)、优势种为冷蒿(Artemisia frigida),主要伴生种为猪毛菜(Salsola collina)、栉叶蒿(Neopallasia pectinate)、银灰旋花(Convolvulus ammannii)等[25-26]。结合2021年草原气候特点和牧草生长期特性,在2021年8月24—26日每日的10:00到14:00之间,无风至微风(风速0~3.4 m/s),无云或云量小于2%时采集数据。
本研究采用无人机悬停方式采集试验区内地物高光谱遥感影像,无人机飞行高度为30 m,空间分辨率为2.6 cm/pixel,为保证采集质量,每个悬停点采集两幅高光谱遥感影像,单幅图像采集时间耗时7 s,包含悬停点间飞行时间,一个架次约可采集86幅遥感影像,即43个悬停点。由于在采集时间内,光量随着云的移动而变化,因此在每次起飞前后进行标准参考白板校准。
首先,通过人工检查去除成像效果差(由于光量变化和阵风)的遥感图像,选出一组成像质量最好的遥感图像。然后使用光谱专业软件(Spectraview)进行反射率校正,并识别真正的反射率值和感兴趣的特征。植被、土壤、其他和阴影四种地面物体的光谱曲线如图2所示。
图2 植被、土壤、其他和阴影四种地面物体的光谱曲线图Fig. 2 Spectral curves of four ground objects, vegetation, soil, other, and shadow
四种地物的光谱反射率曲线差异较大,如图2所示。由于健康植被的叶绿素含量较高,植被的光谱反射率曲线在660~680 nm之间有明显的红光吸收带,680~760 nm之间的反射率明显增加。土壤光谱反射率曲线在可见光波段上升趋势明显,坡度较大,近红外波段增加幅度较小,坡度较可见光波段小。阴影的光谱反射曲线对可见光有很强的吸收,因此在波长0~680 nm之间的反射率较低,在波长680~1 000 nm之间的近红外波段反射率略有增加。
荒漠草原地物分布存在稀疏低矮、交错覆盖及“同物异谱、同谱异物”的典型特点。为将这一差异放大,本文利用ENVI 5.3制作分类样本标签,首先进行光谱缩放[27](Spectral curve scaling),缩放公式如式(1)所示。
Scs=KSj
(1)
式中:Sj——光谱数据中波长为j时的反射率值;
K——放缩系数,当K≥1时为光谱放大,K的取值取决于所分地物种类。
其次,基于荒漠草原地物分布特点,通过Region of Interest Tool制作不同地物的感兴趣区域10~15个,且每个感兴趣区域包含300~500个像元,并利用Computer Statistics对不同区域内阈值进行统计,以便确定不同地物之间是否有重叠区域。将植被、土壤、其他和阴影四种地物阈值的最值统计结合目视解译法[28]确定其最佳可分性阈值,由此来确定地物分布真实值。
本试验采集的高光谱图像有256个波段,光谱分辨率为3.5 nm,空间分辨率为2.6 cm/pixel。辐射校正后的单幅图像占据了约1.2 GB的存储空间,包括丰富的地面物体光谱信息,从而实现高精度的物体分类。从图2中可以看出,一些波段具有较小的差异和较高的相似性。
噪声在很多情况下干扰明显的波段,降噪损失的信息量小,同时保留完整的谱空间信息,为了达到数据降维的目的,我们使用了经典的Frobenius norm2[29-30],如式(2)所示。
(2)
式中:X——张量;
r——张量的行数,对应高光谱图像中的样本(samples);
c——张量的列数,对应高光谱图像中的线(lines);
b——张量的维数,对应高光谱图像中的波段(bands)。
图像对应的F-norm2值表示对应波段的能量:如果值太小,则表示包含的信息太少;如果该值过大,说明噪声干扰严重。降维后保留了180个波段,单幅图像的存储空间减少到0.83 GB左右,有效提高了数据后处理效率。
在利用F-norm2降低高光谱数据噪声干扰和维数的基础上,基于深度学习框架库Pytorch,搭建VGG16和ResNet18经典深度学习模型,并将ResNet18模型的2D卷积核替换为3D卷积核,搭建3D-ResNet深度学习模型。鉴于3D卷积参与运算的参数量较多,我们在DELL Precision 7920 Tower+处理器CPU Intel(R) Xeon(R) Gold6134 CPU@3.20 GHz+显卡NVIDIA Quadro P4000+内存256 GB的专业工作站计算环境下,对F-norm2降维后的高光谱数据进行处理。
VGG模型是卷积神经网络的一种,其本质是通过梯度下降法最小化损失函数对网络中的权重值进行反向调节,经过多次迭代训练后不断优化[31],从而提高高光谱图像识别和分类准确率的一种深度学习的方法。VGG16由13个卷积层组成(2D卷积核由Conv1*1-XXX、Conv3*3-XXX表示;XXX为卷积核数),3个全连接层(用Fc-X表示),4个池化层(用Max pooling表示)。
基于He等[32]提出的ResNet模型利用Pytorch模块搭建ResNet18卷积神经网络,该模型为深度残差网络(Deep residual network)的简写,其本质是对每层的输入增加了一个恒等映射,学习形成残差函数,能使网络层数大大加深,减少梯度消失或者梯度爆炸,加速神经网络训练,实现了利用深层网络结构提取细节特征,大大提升模型的准确率。ResNet18由17个卷积层(由Conv7*7-XXX、Conv3*3-XXX表示;XXX为卷积核数),1个全连接层(用Fc表示),2个池化层(用Max pooling,Average pooling表示)。
深度学习模型的结构如表3所示。
表3 深度学习模型的结构Tab. 3 Structure of deep learning model
改进后的3D-ResNet18模型与ResNet模型具有相同的深度,卷积层中的2D卷积核被改进为3D卷积核,在表3中分别表示为Conv3*3*3-XXX和Conv7*7*7-XXX,XXX为卷积核数量;卷积层将根据模型的结构特性组成卷积层(块),用Block_X表示,每残差块中进行两次卷积层运算,并与卷积前的参数进行叠加,随后利用激活函数ReLU激活进入下一个残差块。此外,基于3D-ResNet网络模型又进行了3种不同卷积核数的分类性能对比,分别为A、B、C三种卷积核数,其中3D-ResNet-A模型的卷积核数为(32,32,64,128,256),3D-ResNet-B模型的卷积核数为(64,64,128,256,512),3D-ResNet-C模型的卷积核数为(128,128,256,512,1 024),对应的卷积核数如表3所示,表中Conv7*7*7-32代表3D-ResNet18-A的Block_1层卷积核数量为32,卷积核尺寸为7*7*7;Conv3*3*3-32代表3D-ResNet-A的Block_2层卷积核数量为32,卷积核尺寸为3*3*3,以此类推。
各深度学习模型训练过程的参数设置详见表4。
表4 深度学习模型训练过程的参数设置Tab. 4 Parameter setting of deep learning model training process
为提高处理速度,选择一张高光谱图像并将其随机裁剪为250列×250个样本×180个波段,总共62 500个像素。为了识别特征,随机选择30%的标记样本作为训练数据,其余的作为测试数据,以匹配植被(绿)、土壤(红)、阴影(蓝)和其他(黄)特征的颜色。颜色编码和样本数量见表5。
表5 颜色编码和样本数量Tab. 5 Color coding and sample number
VGG16、ResNet18和3D-ResNet18三种深度学习模型的分类精度结果如表6所示。表6中的精度值是从模型的5次重复操作中获得的平均值。本文将用总体分类精度和生产者精度进行分类精度评价。
总体分类精度(Overall Accuracy,OA)是指被正确分类的像元总和除以总像元数,能够直观地反映出高光谱遥感图像划分结果的准确性。总体分类精度公式如式(3)所示。
(3)
式中:N——样本总像元数;
k——分类的类型数量;
Pii——分类结果中第i类型被正确分类的样本数目。
生产者精度(Producer’s Accuracy,PA)指将整个图像的像元正确分为某类的像元数与该类真实参考总数的比率。生产者精度公式如式(4)所示。
(4)
式中:Pi——分类结果中第i类型被正确分类的样本数目;
Ri——第i类型像元真实值。
从表6可以看出,VGG16模型对植被、土壤有较好的生产者精度,PA分别为97%和93.8%,但对小样本“阴影”分类性能较差,且不具备对“其他”的分类能力,OA为95.01%。ResNet18模型同样对植被、土壤有较好的生产者精度,PA分别为95.1%和96.0%,对小样本地物“阴影、其他”分类性能较差,但对“其他”具备可分性且PA仅为26.5%。而将2D卷积核改进为3D卷积核的3D-ResNet18模型总体分类精度更高,三种3D-ResNet模型(A、B和C)的分类性能均优于VGG16和ResNet18模型,尤其是对小样本地物的分类性能有明显提升,对“植被”分类的PA均达到96%以上,对“土壤”分类的PA均达到97%以上,对“阴影”分类的PA均达到86%以上,对“其他”分类的PA均达到75%以上。三种3D-ResNet模型的多样本地物单体精度差异较小,小样本地物最佳的生产者精度出现在3D-ResNet-B模型中,其对植被、土壤的PA分别为97.4%和98.0%,对小样本“阴影、其他”分类性能大幅提升,PA分别为93.3%和92.8%,OA为97.73%。
表6 深度学习模型的分类结果Tab. 6 Classification result of deep learning models %
VGG16、ResNet18和3D-ResNet18-B深度学习模型得到的分类结果如图3所示。
(a) 假彩色图像
(b) VGG16
(c) ResNet18
(d) 3D-ResNet18-B图3 图像分类结果Fig. 3 Image classification results
结合图3和表6可以得出以下结果。
1) 就单类别分类性能而言,VGG16、ResNet18及3D-ResNet18三种模型对高光谱影像中的多样本地物“植被、土壤”均具备较好的分类性能,改进为3D卷积核的3D-ResNet18模型相比ResNet18模型的“植被、土壤”生产者精度小幅提升1%~2%,对二者分类精度最佳。三种模型对高光谱影像中的小样本地物“阴影、其他”分类性能差异较大,改进为3D卷积核的3D-ResNet18模型相比VGG16和ResNet18模型分类精度大幅提升。
2) 就总体分类性能而言,ResNet18模型优于VGG16模型,这得益于ResNet18模型的残差块结构和较深的网络深度;将ResNet18网络模型改进为3D卷积核仍表现出相同的分类性能规律。具备3D卷积核的网络模型不仅对小样本地物“阴影、其他”展现出较好的分类性能,而且对多样本地物“植被、土壤”中零散分布部分具备更佳的分类性能,这得益于3D卷积核可以同时提取高光谱数据中三个维度的光谱信息,相比2D卷积核同时提取X、Y两个维度的光谱信息,3D卷积核对细小特征的提取能力更强。
3) 不同卷积核数量的3D-ResNet18-A、3D-ResNet18-B、3D-ResNet18-C模型分类性能更加突出,对高光谱影像中多样本地物“植被、土壤”的分类性能差异较小,小样本地物“阴影、其他”分类性能差异较大,不同卷积核数量的三种3D-ResNet18模型相比ResNet18模型对“阴影”的生产者精度分别提高了16.2%、23.2%、22.1%,对“其他”的生产者精度分别提高了48.8%、66.3%、63.1%。不同卷积核数量的三种模型中,3D-ResNet18-B分类性能最好。
建立的无人机高光谱遥感系统,可采集荒漠草原地物红光—近红外波段400~1 000 nm的光谱信息,光谱分辨率为3.5 nm,光谱通道数为256,在飞行高度为30 m时,高光谱数据的空间分辨率为2.6 cm/pixel,单架次18 min可采集1.36 hm2的荒漠草原遥感数据,兼具丰富的波段信息、高光谱分辨率、高空间分辨率和高效性,丰富了草地荒漠化遥感研究的空间尺度,也为草地荒漠化遥感进行了必要的硬件集成探索。
本研究所用的VGG16和ResNet18两种经典深度学习模型对荒漠化遥感影像中的植被、土壤取得了较好的分类结果,而经过3D卷积核改进的不同卷积核数量的三种3D-ResNet18-A、3D-ResNet18-B和3D-ResNet18-C模型均对荒漠化遥感影像中植被、土壤的零散部分和小样本地物取得了更好的分类潜力,其中3D-ResNet18-B的分类性能最好,总体分类精度相比较VGG16和ResNet18提升2%~3%,达到97.73%,为下一步荒漠草原高光谱遥感图像中植物物种等细尺度地物的识别、分类与反演提供了思路,为荒漠化草原整体生态系统研究奠定基础,是基于高光谱遥感的荒漠化草原细小地物的精细分类在深度模型方法上的有效尝试。