基于Sentinel-1A数据的随机森林武穴市水体信息提取

2022-06-25 09:32朱继文席志龙陈景珏

黑龙江工程学院学报 2022年3期

朱继文,席志龙,陈景珏

(1.黑龙江工程学院测绘工程学院，哈尔滨 150050；2.成都理工大学地球科学学院，成都 610059)

淡水资源是人类最宝贵的资源之一，据统计,全球有湖泊数量3.04亿个，面积为420万km2，蓄水面积33.7万km2，总计453.7万km2，占地球陆地面积3%以上[1]，淡水湖泊占陆地面积较少，因此，研究水体分布对水资源调查具有重要意义。合成孔径雷达(Synthetic Aperture Radar，SAR)能穿透云层，可以获取处于恶劣天气情况下的影像，应用SAR图像进行水体提取逐渐受到众多学者青睐[2]。

SAR卫星的侧视成像方式使得影像上存在山体阴影，并且SAR影像还存在相干斑噪声[3]，这对于获取精确的水体信息造成了极大的困难。监督分类和非监督分类是水体提取的常用方法，当前研究较多的是监督分类法[4]，主要有最大似然、神经网络和支持向量机(Support Vector Machine,SVM)等。当分类器的输入特征只有雷达强度影像时，斑点噪声和山体阴影易被分类成水体，没有正确被预测和分类，出现了误提取现象，从而影响到水体提取的总体精度。1973年Haralick等[5]提出灰度共生矩阵(Gray-Level Co-occurrence Matrix,GLCM)，基于GLCM可以间接地计算出图像的14个纹理特征。利用SAR图像的纹理特征可以增加模型的特征空间，极大地提高了模型训练和预测精度。然而，特征的增加不会使得模型精度不断提高，过多的特征很可能会使分类模型精度下降，同时浪费计算机算力，适当的特征数量更有利于分类模型训练和预测。陈媛媛等[6]在构建SVM分类器时，加入了熵、角二阶矩、差异性和同质性4种纹理特征作为模型因子参与训练，提取了南京市水体初始分布图，并采用数字高程模型(Digital Elevation Model，DEM)模拟地形信息消除山体阴影，其结果表明：纹理特征有效地减少了奇次散射以及淹水期水田与城市水体的混淆。史旭等[7]获取了汶川地震期间堰塞湖区域SAR影像，使用平均值、对比度和差异性3种纹理特征用于构建最大似然分类器，并用DEM进行仿真以消除大部分山体阴影。邓滢等[8]使用同质性纹理特征与Freemen-Durden三分量特征，以像元为单位进行众数投票提取水体信息，其研究表明：同质性的加入使得各项精度指标都有所提升，提高了小型水体的检测率。

文中综合上述纹理特征对最后分类结果的作用，在14个纹理特征中选取5个，分别是对比度、差异性、熵、同质性和角二阶矩。选择随机森林作为提取水体的分类器，用DEM、5种纹理特征和强度图作为模型的特征空间输入到随机森林中，在像素级别上进行预测，对水体信息提取进行探究。

1 研究区与数据概况

1.1 研究区域

武穴市是湖北省黄冈市管辖的一个县级市，地处长江中游北岸，拥有长江十大深水良港之一的武穴港。武穴北依大别山，南临长江，地形包括低山区、丘陵岗地和沿江平原，地势西北高而东南低。其地理范围在29°49′28″N～30°13′10″N和115°22′03″E～115°49′45″E之间。2020年6月至8月,我国多地暴雨黄色预警，长江干流先后也发布了5次编号洪水，为此，以2020年7月20日的Sentinel-1A雷达影像为基本底图，使用随机森林模型，提取了武穴市的水体信息图。

1.2 实验数据详情

欧洲太空局于2014年发射了Sentinel-1A卫星，采用C波段对地球进行观测，是“哥白尼计划”发射的第一颗环境监测卫星。其设计轨道高度约693，重访周期为12 d。该卫星搭载的传感器共有4种成像模式，分别为超宽幅模式(EW)、条带模式(SM)、波模式(WV)和宽幅模式(IW)。文中实验数据为Sentinel-1A雷达影像，获取了2020年7月20日覆盖武穴市Sentinel-1A宽幅模式VH极化影像，所使用的影像数据经过多视、滤波、地理编码和辐射校正处理。多视和滤波能够有效抑制相干斑噪声[3,9]，在对数据进行处理时使用了5∶1的多视比和3×3窗口Frost滤波[10]。地理编码和辐射校正利用研究区的DEM将雷达坐标下的影像转为地理坐标系，同时消除由地形起伏引起的辐射畸变[11]。研究区域原始影像经过处理得到地理编码后的强度图如图1所示。

图1 强度影像

2 因子选择与方法

2.1 因子选择

GLCM是通过研究图像灰度的空间相关特性来描述图像的纹理特征。GLCM通常在0°、45°、90°和135°共4个方向进行计算，GLCM内的元素可由式(1)得出[12]。

p(i,j,δ,θ)={(x,y),(x+dx,y+dy)∈

N×N|f(x,y)=i,f(x+dx,y+dy)=j}.

(1)

假设图像大小为N×N,式(1)中(x,y)为参考点；(x+dx,y+dy)为偏移点;i为参考点灰度值；j为偏移点像素。

基于GLCM可以计算对比度(Con)、差异性(Dis)、熵(Ent)、同质性(Hom)和角二阶矩(Asm)5种纹理特征，计算公式见式(2)～式(6)。

(2)

(3)

(4)

(5)

(6)

文中使用SAR强度影像作为基本底图计算出GLCM，再由GLCM计算5种纹理特征。将纹理特征、原始强度影像和武穴市DEM作为因子参与水体提取模型的构建，因子大致情况如表1所示。

表1 构建随机森林模型因子

图2显示了武穴市5种纹理特征的因子以及DEM因子。

图2 纹理特征及DEM

图2(a)可以看到城市区域和山顶区域Con值较大,与水体颜色差异明显，陆地颜色与水体和城市活动区也有明显的差异，而水体较陆地颜色更深。图2(b)中水体、地表和城市区三者之间有明显的区分，水体轮廓也完整清晰。图2(c)和图2(e)两因子纹理特征相似，虽然水体与非水体差异明显，但部分水体的纹理特征与陆地无异。图2(d)中水体与陆地具有一定的辨识度，但在真实水体区域离散分布着与陆地相似的纹理特征。图2(f)中水体分布在海拔较低的区域，而山体阴影所在的海拔区域高于水体。

2.2 随机森林模型

随机森林(Random Forest，RF)模型[13]是一种常用的机器学习方法。它是以决策树(Decision Tree，DT)为弱学习器组合而成的集成模型，可以进行分类和回归任务。文中构建的随机森林模型使用了100颗CART决策树组成森林[14]，应用Bootstrap方法随机抽取100个样本，将其构建100颗决策树，对每颗DT的结果采取一定的投票规则进行集成[15]。

文中以像素为单位，创建包含31 856个像素点的样本区域，提取表1中出现的7个因子值作为构建模型所需的样本。在进行模型训练之前，对样本数据随机打乱，把打乱后的数据分为训练集和测试集，比例为7∶3。将最终训练好的模型在测试集上进行测试，其目的是防止模型在训练集上有突出的表现，但是在测试集上没有很好的泛化能力会出现过拟合现象。通过判断测试集上预测的效果来调整模型的参数，使得训练出的模型没有过拟合现象，同时兼备很好的泛化能力。

2.3 精度评价方法

在使用机器学习方法对遥感影像进行分类后，常用总体精度(Overall Accuracy, OA)、用户者精度(User’s Accuracy, UP)、生产者精度(Producer’s Accuracy, PP)和Kappa系数等来评价提取结果的精度[16-18]。上述精度评价方法可以通过混淆矩阵计算得出，见式(7)～式(11)。混淆矩阵如表2所示。

表2 水体混淆矩阵

在混淆矩阵中，TP为将水体预测成水体的个数；FP为将水体预测为非水体的个数；FN为将非水体预测成水体的个数；TN为将非水体预测为非水体的个数，也将TP、FN、FP和TN称为真阳性、假阴性、假阳性和真阴性。

(7)

(8)

(9)

(10)

(11)

式(11)中:n为总样本数;s为在总样本中被正确分类的个数;a1和b1分别为预测结果中水体的样本数;a0和b0分别为预测结果中非水体样本数。

3 实验分析与精度评价

3.1 提取结果分析

使用K最邻近算法(K-Nearest Neighbor,KNN)、逻辑回归模型(Logistic Regression,LR)以及只有强度图构建的RF模型(Power RF,PRF)进行水体提取，并与所构建的随机森林模型进行比较。图3～图6分别为KNN、LR、PRF和RF的水体提取结果。将4种模型提取水体的结果与原始强度图(见图1)比较，可以观察到4种模型提取水体的轮廓清晰，但是对于陆地表面即非水体区域，KNN、LR和PRF提取结果有明显的杂散点分布，而所构建的RF模型提取结果中杂散点分布较不明显。为了更好地讨论4种模型在预测结果上的泛化能力，截取了图3～图6中两个矩形区域进行放大。一个矩形在非水体区域即陆地上进行截取，另一个矩形在水体区域进行截取。

图3 KNN提取结果

图4 LR提取结果

图5 PRF提取结果

图6 RF提取结果

如图7所示，强度图一列为两个矩形在水体区域和陆地区域原始强度图上的影像，将4种模型的提取结果与之进行比较。在水体区域上，可以观察到KNN、LR、无纹理特征和DEM的RF在水体区域存在误分现象，错误地将水体误分为非水体。其中，KNN误分最多，LR、无纹理和DEM的RF误分现象相近，而RF表现最好，没有观察到误分现象，提取的水体表面完整。从所截取陆地表面的强度影像可以看出，其存在部分水体和容易造成误分现象的道路。这4种模型中只有构建的RF模型不存在多余的杂散点，且存在阴影的道路也没被误分为水体，其他3种模型存在的杂散点较多，阴影道路也被误分为水体，但微小水体轮廓完整度要比RF提取结果好。对存在山体阴影区域进行检验时，此方法将绝大部分山体阴影都进行了正确分类，只有小部分山体阴影出现了误分现象。虽然没有完全地将山体阴影正确分类，但是其他3种模型表现更差，大部分山体阴影被识别为伪水体。

图7 截取结果

3.2 因子权重分析

构建随机森林模型的7个因子,在模型中所占权重如图8所示。由图8不难看出，因子Pow、DEM、Con和Dis是RF模型提取水体时主要的判断因子，所占权重分别为32.6%、22.1%、19.4%和18.1%，这4个因子权重和为92.2%。其余3个因子所占权重仅为7.8%，Hom因子为6.0%，Ent因子为1.0%，Asm因子为0.8%，三者被认为是最不重要的因子。将因子权重的结果与原始强度影像(见图1)和因子图(见图2)对比，Pow因子被认为是第一重要因子可能的原因是其作为纹理特征的底图，由于水体反射特性使其能够很好地分辨出水体与非水体之间的差别；水体易留存于低洼处，所以水体往往比周围的地表要低，因此，DEM因子被认为是第二重要因子；Con和Dis是第三和第四重要因子，重要程度相差不大，从图2(a)和图2(b)可知，两个因子纹理特征分布相似，在水体与非水体之间有很好的辨识度；观察图2(d)，水体和非水体有很好的辨识度，但是在水体区域和非水体区域，其平滑度差于因子Con和Dis；Ent和Asm两因子图相近，并且在部分水体区域和非水体区域其值也相近，被认为是最不重要的因子之一。

图8 因子权重

3.3 精度评价

表3所示显示了KNN、LR、PRF和RF提取水体的精度。从表3可知，所构建的RF模型在水体提取上要优于其余3种算法。其提取水体的总体精度和Kappa系数达到99.73%和0.996 6，水体和非水体的用户者精度和生产者精度一致，达到99.51%和99.81%。

表3 提取水体精度

4 结论

利用Sentinel-1A数据对暴雨后的武穴市进行了水体提取。以SAR强度图为底图提取5个纹理特征信息，与DEM和强度图一起参与了随机森林模型的构建，由此得到以下结论:

1)RF模型相较于KNN、LR和PRF模型不管是在水体上还是非水体区域，都没有明显的杂散点分布，要优于其余3种模型，有效地减少了城市区建筑阴影和道路及斑点噪声造成的误分现象。同时由于RF模型是由多个因子共同参与决策，山体阴影区域造成的误分也得到了极大地改善。

2)对提取的7个因子权重进行分析，原始强度图在RF模型中占有最大的权重，达到32.6%；DEM、Con和Dis权重占比为22.1%、19.4%和18.1%；其他3个因子占比不足8%，因此，Pow、DEM、Con和Dis是RF模型提取水体时的关键因子。在精度方面，RF模型的各个指标都优于其余3种模型。