李 林 田 馨 翁永玲
(东南大学交通学院, 南京 211189)
随着遥感数据采集技术的进步,获取同一地区的多种遥感影像数据也越来越便捷[1].传统的光学遥感由于天气和光照等外在因素的制约,在应用上受到一定程度的影响[2].合成孔径雷达(SAR)属于主动遥感的范畴,能够全天时全天候工作,作为当前研究遥感图像的热点之一,利用SAR影像进行分类研究受到高度重视[3].
学者们为进行多种影像来源的土地覆盖分类,对各类数据集中得出的特征变量进行了合并研究.例如,Erinjery等[4]、Shuai等[5]通过提取多时相光谱特征和极化特征,以监测植被的生长.赵诣等[6]利用光学影像指导SAR影像提取同质点,使其更精确地估计极化特征,提高了SAR图像的分类精度.Gamba等[7]、Zhang等[8]、Zhang等[9]证明SAR影像和光学影像的协同使用在估计不透水面的应用中能够有效减少光学影像中的光谱混淆.
然而,提取的众多特征变量与原始变量的组合必将构成高维的特征变量空间,如果将所有特征应用于高分辨率遥感影像分类中,往往会由于特征维数过高引发“维数灾难”,增加分类复杂度,降低分析效率[10].Luo等[11]、杨帆等[12]采用不同的波段选择方法对高光谱数据进行降维,证明处理后的影像数据具有良好的分类性能.在常见的机器学习算法中,随机森林能够对特征集合进行优选降维,通过较少的训练样本获得较高的分类精度,减少过拟合.杨珺雯等[13]使用RF-RFE波段选择方法去除价值低的特征得到最佳波段组合,实现高光谱数据降维及分类,取得较好效果.
当前的特征降维研究大多基于高光谱影像数据,对于SAR影像的特征较少涉及,因此如何既能充分利用多源遥感影像数据又能有效提高分类精度成为影像分类研究的重要方向.本文通过对SAR影像极化特征、光学影像光谱特征以及2种影像纹理特征的分析处理,利用随机森林算法对提取出的多维特征变量进行特征选择,取得维数较少的特征变量参与土地利用覆盖分类,使其能更有效地利用遥感影像的特征信息,提高SAR影像分类精度.
本文研究区域位于北纬32°8′45.6″到北纬32°18′0″,东经118°48′14.4″到东经119°1′19.2″之间,位处江苏省南京市栖霞区八卦洲东侧,长江两汊东侧交汇处.研究区域南邻人口密集的南京都市圈,江北岸部分区域为南京江北新区,有工厂以及耕地分布,同时附近设有外贸码头.因此,及时准确地获取该区域土地覆盖信息对于南京江北新区的发展至关重要.该试验区内地物类型多样,纹理复杂,具体的地理位置如图1所示.
图1 研究区域地理位置
本研究选取成像于2017-10-16带TOPS(terrain observation with progressive scans)模式的C波段Sentinel-1 VV-VH 极化SAR数据(VV为垂直同极化,VH为交叉极化),距离和方位角分辨率分别为5 m和20 m;Sentinel-2光学图像成像于2017-10-24,包含了13个空间分辨率为10~60 m的波段,使用其中4个空间分辨率为10 m的波段(波段2、3、4、8分别为蓝、绿、红、近红外).根据土地利用分类标准以及研究区域土地利用情况,将研究区域分为植被、耕地、高密度建筑物、低密度建筑物、道路、水体6类.同时期采集的1 m全色/4 m多光谱分辨率高分二号影像用作本研究训练和验证样本的参考影像.参照Sentinel-2光学影像和高分二号影像随机抽样,每类地物各选取15个样本作为训练样本,检验样本由每类10个样本构成.
Sentinel-2 1C数据采用欧洲航天局的SNAP进行预处理,大气校正后进行裁剪和重采样.同时,对Sentinel-1数据多视处理后采用精确的轨道文件进行定轨,将像素值转换为校准后的后向散射系数,并在倾斜范围内建立极化协方差矩阵.然后使用外部3 s SRTM(shuttle radar topography mission)数据进行距离-多普勒地形校正来补偿几何畸变,并根据Sentinel-2数据的几何参考对SAR数据集进行几何校正,采用误差小于0.5像素的互相关算法对Sentinel-1和Sentinel-2数据进行配准.
为了提高各类地物的可分性,分别对光学图像和SAR图像中各种地物的光谱、纹理特征和极化特征变量进行提取[14],然后进行统计分析.
2.2.1 纹理特征
纹理特征是图像信息量分布情况的一种反映,每种地物都有其特有的纹理特征.本文采用基于灰度共生矩阵(GLCM)的纹理分析方法,选用其中常用的8种特征:均值、对比度、方差、相异性、同质性、相关性、信息熵和二阶矩.纹理计算过程中采用的参数设置分别为:偏移距离d=1,灰度量化级L=64,窗口大小为3×3,同时选取0°、45°、90°和135°四个方向计算纹理特征参数的平均值.
(1)
(2)
(3)
特征选择目的是选用尽可能少的特征组成规则集,尽可能多地提供关于类别的信息.提取出的光学数据和SAR数据各类特征变量种类越多,可参与分类的变量就越多.而随机森林可以评估变量的重要程度,对特征重要性进行评分,具体步骤如下:① 使用决策树对应的袋外数据(OOB)进行性能检测,记正确分类的个数为M;② 对袋外数据全体样本的F特征进行随机干扰,再次计算正确分类各类个数M′,则决策树的F特征的重要程度D(F)=|M′-M|;③ 计算对于整个随机森林的F特征重要程度,即
(4)
由于不同波段对相同地物在纹理信息上具有不同的敏感性[17],因此需要选择合适波段的纹理信息参与特征重要性排序.将4个波段的所有纹理信息参与影像分类并对特征重要性进行排序,选出参与度最高的波段纹理特征参与后续分类.结果如图3(a)所示,波段2、3、4、8的纹理特征在重要性得分中获得的分数分别为0.021、0.011 9、0.049 3和0.038,波段4得分最高,因此选用波段4的纹理特征作为光学影像的纹理特征参与分类.
(a) 极化参数对比
(b) 光谱特征对比
将光学影像的纹理特征、SAR影像的纹理特征、极化特征及其相关运算后特征、协方差矩阵参与随机森林特征进行重要性排序,取重要性大于0.01的特征进行分析.由特征重要性排序结果(见图3(b))可看出,光学影像的纹理特征在参与多源遥感影像分类时表现突出,均值、方差和相关性等特征的重要性得分均在前几名,经过波段计算后的SAR影像极化特征在参与分类时的重要性也排在前列,这表明上文有关地物特征变量的分析是合理的.
为了验证本文方法的有效性,对SAR影像利用传统SAR影像分类、光学特征参与分类和特征筛选优化分类3种方法分别进行随机森林分类,并针对试验区的典型城市区域和乡村区域分别进行分类结果对比,3种实验方法过程中所用参数均一致.最终分类结果如图4所示.
2个子区域的分类结果都显示SAR影像经过特征变量筛选优化后地物区分更加准确.由图5可明显看出变量优化后高密度建筑物区域边界规整,道路边缘清晰,错分、漏分情况明显减少.图6的耕地区域沿水域,道路边的建筑物区分明确,传统的SAR影像分类在自然地物分类上的表现明显不如加入光学影像特征的分类结果,有较多地物分类混淆;而经过参数筛选优化后的分类结果地物细节特征更加丰富,去除重复和冗余的信息之后,更能够准确识别尺寸较小以及不连续分布的地物,且不会因为地物的连续分布而损失中间的其他地物细节;同时由于有了光谱信息的参与,道路两旁的低密度建筑物区分更加明显,不会因为散射而产生混淆,使分类结果更加接近地物的真实分布.
(a) 光学影像不同波段纹理参数重要性得分
(b) 光学和SAR影像结合特征重要性得分
图4 特征筛选优化分类结果
(a) 传统SAR分类
图5 城市区域分类结果
(a) 传统SAR分类
定量分析选择制图精度、用户精度以及Kappa系数作为评价指标,在多次实验后分别取最佳实验精度进行统计.分类结果评定如表1所示.
使用随机森林优化输入变量后获得最高总体精度92.1%.在各类地物中高密度建筑物纹理复杂,其极化分解得到的熵、平均散射角和各向的异性特征与道路、耕地比较相似,光谱以及纹理特征经优化筛选参与分类后,分类精度提高10%.此外,由于植被和水体所产生的奇次散射特征比较弱,导致漏分和错分情形比较严重,从表1看出,本文方法使这2类地物的分类精度值均有大幅提高.
表1 分类结果评定
1) 受有限训练样本的可用性以及散斑噪声的影响,传统的监督分类方法在极化SAR数据上的应用是有限的,多源遥感影像为土地覆盖分类提供了更多可能性.结合光学特征和极化特征,弥补了不同影像源的不足,可获得更高的分类精度,甚至在情况比较复杂的城市场景中都能在不损失边界的情况下有效地提取地物.
2) 利用随机森林算法对光学和SAR影像的特征变量进行筛选,能有效处理大量变量输入分类器所造成的数据冗余,提高特征变量的利用率及分类效率,为后续分类提供优质的特征变量子集.
3) 综合各数据的分类结果及精度评价,筛选后的多源影像特征变量组合参与分类总体精度和Kappa系数可以达到92.1%和0.91,相比传统SAR影像分类精度分别提升了11.9%和16.7%,体现了光学影像和SAR影像结合分类的优势.
致谢感谢欧洲航天局通过哥白尼计划提供Sentinel 系列卫星数据.