基于Sentinel-1A数据的随机森林武穴市水体信息提取

2022-06-25 09:32朱继文席志龙陈景珏
黑龙江工程学院学报 2022年3期
关键词:阴影纹理水体

朱继文,席志龙,陈景珏

(1.黑龙江工程学院 测绘工程学院,哈尔滨 150050;2.成都理工大学 地球科学学院,成都 610059)

淡水资源是人类最宝贵的资源之一,据统计,全球有湖泊数量3.04亿个,面积为420万km2,蓄水面积33.7万km2,总计453.7万km2,占地球陆地面积3%以上[1],淡水湖泊占陆地面积较少,因此,研究水体分布对水资源调查具有重要意义。合成孔径雷达(Synthetic Aperture Radar,SAR)能穿透云层,可以获取处于恶劣天气情况下的影像,应用SAR图像进行水体提取逐渐受到众多学者青睐[2]。

SAR卫星的侧视成像方式使得影像上存在山体阴影,并且SAR影像还存在相干斑噪声[3],这对于获取精确的水体信息造成了极大的困难。监督分类和非监督分类是水体提取的常用方法,当前研究较多的是监督分类法[4],主要有最大似然、神经网络和支持向量机(Support Vector Machine,SVM)等。当分类器的输入特征只有雷达强度影像时,斑点噪声和山体阴影易被分类成水体,没有正确被预测和分类,出现了误提取现象,从而影响到水体提取的总体精度。1973年Haralick等[5]提出灰度共生矩阵(Gray-Level Co-occurrence Matrix,GLCM),基于GLCM可以间接地计算出图像的14个纹理特征。利用SAR图像的纹理特征可以增加模型的特征空间,极大地提高了模型训练和预测精度。然而,特征的增加不会使得模型精度不断提高,过多的特征很可能会使分类模型精度下降,同时浪费计算机算力,适当的特征数量更有利于分类模型训练和预测。陈媛媛等[6]在构建SVM分类器时,加入了熵、角二阶矩、差异性和同质性4种纹理特征作为模型因子参与训练,提取了南京市水体初始分布图,并采用数字高程模型(Digital Elevation Model,DEM)模拟地形信息消除山体阴影,其结果表明:纹理特征有效地减少了奇次散射以及淹水期水田与城市水体的混淆。史旭等[7]获取了汶川地震期间堰塞湖区域SAR影像,使用平均值、对比度和差异性3种纹理特征用于构建最大似然分类器,并用DEM进行仿真以消除大部分山体阴影。邓滢等[8]使用同质性纹理特征与Freemen-Durden三分量特征,以像元为单位进行众数投票提取水体信息,其研究表明:同质性的加入使得各项精度指标都有所提升,提高了小型水体的检测率。

文中综合上述纹理特征对最后分类结果的作用,在14个纹理特征中选取5个,分别是对比度、差异性、熵、同质性和角二阶矩。选择随机森林作为提取水体的分类器,用DEM、5种纹理特征和强度图作为模型的特征空间输入到随机森林中,在像素级别上进行预测,对水体信息提取进行探究。

1 研究区与数据概况

1.1 研究区域

武穴市是湖北省黄冈市管辖的一个县级市,地处长江中游北岸,拥有长江十大深水良港之一的武穴港。武穴北依大别山,南临长江,地形包括低山区、丘陵岗地和沿江平原,地势西北高而东南低。其地理范围在29°49′28″N~30°13′10″N和115°22′03″E~115°49′45″E之间。2020年6月至8月,我国多地暴雨黄色预警,长江干流先后也发布了5次编号洪水,为此,以2020年7月20日的Sentinel-1A雷达影像为基本底图,使用随机森林模型,提取了武穴市的水体信息图。

1.2 实验数据详情

欧洲太空局于2014年发射了Sentinel-1A卫星,采用C波段对地球进行观测,是“哥白尼计划”发射的第一颗环境监测卫星。其设计轨道高度约693,重访周期为12 d。该卫星搭载的传感器共有4种成像模式,分别为超宽幅模式(EW)、条带模式(SM)、波模式(WV)和宽幅模式(IW)。文中实验数据为Sentinel-1A雷达影像,获取了2020年7月20日覆盖武穴市Sentinel-1A宽幅模式VH极化影像,所使用的影像数据经过多视、滤波、地理编码和辐射校正处理。多视和滤波能够有效抑制相干斑噪声[3,9],在对数据进行处理时使用了5∶1的多视比和3×3窗口Frost滤波[10]。地理编码和辐射校正利用研究区的DEM将雷达坐标下的影像转为地理坐标系,同时消除由地形起伏引起的辐射畸变[11]。研究区域原始影像经过处理得到地理编码后的强度图如图1所示。

图1 强度影像

2 因子选择与方法

2.1 因子选择

GLCM是通过研究图像灰度的空间相关特性来描述图像的纹理特征。GLCM通常在0°、45°、90°和135°共4个方向进行计算,GLCM内的元素可由式(1)得出[12]。

p(i,j,δ,θ)={(x,y),(x+dx,y+dy)∈

N×N|f(x,y)=i,f(x+dx,y+dy)=j}.

(1)

假设图像大小为N×N,式(1)中(x,y)为参考点;(x+dx,y+dy)为偏移点;i为参考点灰度值;j为偏移点像素。

基于GLCM可以计算对比度(Con)、差异性(Dis)、熵(Ent)、同质性(Hom)和角二阶矩(Asm)5种纹理特征,计算公式见式(2)~式(6)。

(2)

(3)

(4)

(5)

(6)

文中使用SAR强度影像作为基本底图计算出GLCM,再由GLCM计算5种纹理特征。将纹理特征、原始强度影像和武穴市DEM作为因子参与水体提取模型的构建,因子大致情况如表1所示。

表1 构建随机森林模型因子

图2显示了武穴市5种纹理特征的因子以及DEM因子。

图2 纹理特征及DEM

图2(a)可以看到城市区域和山顶区域Con值较大,与水体颜色差异明显,陆地颜色与水体和城市活动区也有明显的差异,而水体较陆地颜色更深。图2(b)中水体、地表和城市区三者之间有明显的区分,水体轮廓也完整清晰。图2(c)和图2(e)两因子纹理特征相似,虽然水体与非水体差异明显,但部分水体的纹理特征与陆地无异。图2(d)中水体与陆地具有一定的辨识度,但在真实水体区域离散分布着与陆地相似的纹理特征。图2(f)中水体分布在海拔较低的区域,而山体阴影所在的海拔区域高于水体。

2.2 随机森林模型

随机森林(Random Forest,RF)模型[13]是一种常用的机器学习方法。它是以决策树(Decision Tree,DT)为弱学习器组合而成的集成模型,可以进行分类和回归任务。文中构建的随机森林模型使用了100颗CART决策树组成森林[14],应用Bootstrap方法随机抽取100个样本,将其构建100颗决策树,对每颗DT的结果采取一定的投票规则进行集成[15]。

文中以像素为单位,创建包含31 856个像素点的样本区域,提取表1中出现的7个因子值作为构建模型所需的样本。在进行模型训练之前,对样本数据随机打乱,把打乱后的数据分为训练集和测试集,比例为7∶3。将最终训练好的模型在测试集上进行测试,其目的是防止模型在训练集上有突出的表现,但是在测试集上没有很好的泛化能力会出现过拟合现象。通过判断测试集上预测的效果来调整模型的参数,使得训练出的模型没有过拟合现象,同时兼备很好的泛化能力。

2.3 精度评价方法

在使用机器学习方法对遥感影像进行分类后,常用总体精度(Overall Accuracy, OA)、用户者精度(User’s Accuracy, UP)、生产者精度(Producer’s Accuracy, PP)和Kappa系数等来评价提取结果的精度[16-18]。上述精度评价方法可以通过混淆矩阵计算得出,见式(7)~式(11)。混淆矩阵如表2所示。

表2 水体混淆矩阵

在混淆矩阵中,TP为将水体预测成水体的个数;FP为将水体预测为非水体的个数;FN为将非水体预测成水体的个数;TN为将非水体预测为非水体的个数,也将TP、FN、FP和TN称为真阳性、假阴性、假阳性和真阴性。

(7)

(8)

(9)

(10)

(11)

式(11)中:n为总样本数;s为在总样本中被正确分类的个数;a1和b1分别为预测结果中水体的样本数;a0和b0分别为预测结果中非水体样本数。

3 实验分析与精度评价

3.1 提取结果分析

使用K最邻近算法(K-Nearest Neighbor,KNN)、逻辑回归模型(Logistic Regression,LR)以及只有强度图构建的RF模型(Power RF,PRF)进行水体提取,并与所构建的随机森林模型进行比较。图3~图6分别为KNN、LR、PRF和RF的水体提取结果。将4种模型提取水体的结果与原始强度图(见图1)比较,可以观察到4种模型提取水体的轮廓清晰,但是对于陆地表面即非水体区域,KNN、LR和PRF提取结果有明显的杂散点分布,而所构建的RF模型提取结果中杂散点分布较不明显。为了更好地讨论4种模型在预测结果上的泛化能力,截取了图3~图6中两个矩形区域进行放大。一个矩形在非水体区域即陆地上进行截取,另一个矩形在水体区域进行截取。

图3 KNN提取结果

图4 LR提取结果

图5 PRF提取结果

图6 RF提取结果

如图7所示,强度图一列为两个矩形在水体区域和陆地区域原始强度图上的影像,将4种模型的提取结果与之进行比较。在水体区域上,可以观察到KNN、LR、无纹理特征和DEM的RF在水体区域存在误分现象,错误地将水体误分为非水体。其中,KNN误分最多,LR、无纹理和DEM的RF误分现象相近,而RF表现最好,没有观察到误分现象,提取的水体表面完整。从所截取陆地表面的强度影像可以看出,其存在部分水体和容易造成误分现象的道路。这4种模型中只有构建的RF模型不存在多余的杂散点,且存在阴影的道路也没被误分为水体,其他3种模型存在的杂散点较多,阴影道路也被误分为水体,但微小水体轮廓完整度要比RF提取结果好。对存在山体阴影区域进行检验时,此方法将绝大部分山体阴影都进行了正确分类,只有小部分山体阴影出现了误分现象。虽然没有完全地将山体阴影正确分类,但是其他3种模型表现更差,大部分山体阴影被识别为伪水体。

图7 截取结果

3.2 因子权重分析

构建随机森林模型的7个因子,在模型中所占权重如图8所示。由图8不难看出,因子Pow、DEM、Con和Dis是RF模型提取水体时主要的判断因子,所占权重分别为32.6%、22.1%、19.4%和18.1%,这4个因子权重和为92.2%。其余3个因子所占权重仅为7.8%,Hom因子为6.0%,Ent因子为1.0%,Asm因子为0.8%,三者被认为是最不重要的因子。将因子权重的结果与原始强度影像(见图1)和因子图(见图2)对比,Pow因子被认为是第一重要因子可能的原因是其作为纹理特征的底图,由于水体反射特性使其能够很好地分辨出水体与非水体之间的差别;水体易留存于低洼处,所以水体往往比周围的地表要低,因此,DEM因子被认为是第二重要因子;Con和Dis是第三和第四重要因子,重要程度相差不大,从图2(a)和图2(b)可知,两个因子纹理特征分布相似,在水体与非水体之间有很好的辨识度;观察图2(d),水体和非水体有很好的辨识度,但是在水体区域和非水体区域,其平滑度差于因子Con和Dis;Ent和Asm两因子图相近,并且在部分水体区域和非水体区域其值也相近,被认为是最不重要的因子之一。

图8 因子权重

3.3 精度评价

表3所示显示了KNN、LR、PRF和RF提取水体的精度。从表3可知,所构建的RF模型在水体提取上要优于其余3种算法。其提取水体的总体精度和Kappa系数达到99.73%和0.996 6,水体和非水体的用户者精度和生产者精度一致,达到99.51%和99.81%。

表3 提取水体精度

4 结 论

利用Sentinel-1A数据对暴雨后的武穴市进行了水体提取。以SAR强度图为底图提取5个纹理特征信息,与DEM和强度图一起参与了随机森林模型的构建,由此得到以下结论:

1)RF模型相较于KNN、LR和PRF模型不管是在水体上还是非水体区域,都没有明显的杂散点分布,要优于其余3种模型,有效地减少了城市区建筑阴影和道路及斑点噪声造成的误分现象。同时由于RF模型是由多个因子共同参与决策,山体阴影区域造成的误分也得到了极大地改善。

2)对提取的7个因子权重进行分析,原始强度图在RF模型中占有最大的权重,达到32.6%;DEM、Con和Dis权重占比为22.1%、19.4%和18.1%;其他3个因子占比不足8%,因此,Pow、DEM、Con和Dis是RF模型提取水体时的关键因子。在精度方面,RF模型的各个指标都优于其余3种模型。

猜你喜欢
阴影纹理水体
农村黑臭水体治理和污水处理浅探
多源污染水体水环境质量提升技术应用
生态修复理念在河道水体治理中的应用
你来了,草就没有了阴影
基于BM3D的复杂纹理区域图像去噪
使用纹理叠加添加艺术画特效
TEXTURE ON TEXTURE质地上的纹理
广元:治理黑臭水体 再还水清岸美
让光“驱走”阴影