胡金梅,董张玉,杨学志
(1.合肥工业大学 计算机与信息学院,安徽 合肥 230009;2.工业安全与应急技术 安徽省重点实验室,安徽 合肥 230009)
自第一颗高分辨率卫星发射成功以来,高分辨率卫星的应用已涉及多个领域。高分辨率遥感影像为灾害监测、土地规划等方面提供了帮助,从中提取的相关地物信息,可分析相关地物信息的空间分布和变化特征,并预测未来发展和规划[1]。传统的像元分类方法已得到广泛应用,但其数据量较大、运算成本较高。面向对象的影像分类技术通过分割原始影像构建包含多个相对同质像元的影像对象,从而提取融合影像对象多特征属性,再选取合适的分类模型完成分类;通过减小像元错分的概率来提升分类效果。SVM、决策树以及 BP人工神经网络等现有的分类模型已基本成熟[2], 其中对SVM和决策树的研究较多,如沈照庆[3]等利用SVM算法提取了道路信息;郝剑南[4]等基于面向对象的方法,利用SVM算法结合纹理特征提取了高分辨率影像的耕地信息;郭玉宝[5]等利用最大似然法、SVM算法和随机森林(RF)算法进行了城市用地分类,并对比分析了3种分类结果,结果表明RF算法既能保证分类精度又能保持一定的时间效率;QIAN Y[6]等通过处理WorldView-2影像发现,在城市土地分类中SVM算法和贝叶斯分类方法的效果优于决策树和最近邻分类法。
传统的面向对象分类方法采用某种单一分类算法对不同地物进行信息提取,存在对某类地物分类效果较高或较差的情况;且无论采用何种算法,不同地物之间都会出现混分现象,不同分类算法的混分对象也千差万别。基于此,本文根据研究对象特征,构建了一种改进的面向对象的高分辨率遥感影像信息提取分类方法。首先利用分割算法,通过设置合适的分割参数将影像分割为若干个研究对象;再提取并融合研究对象的纹理、形状等特征;然后利用SVM分类器区分特征信息相近的耕地和道路,利用RF分类器提取水体和人工表面信息;最后对两种信息提取结果进行拼接,实现土地利用分类。该方法可充分利用高分辨率影像的纹理和形状等特征,同时结合不同分类器的特点,弥补了传统面向对象分类方法的不足,实现对地物的精确识别和快速提取分类。
在我国民用光学卫星中,第一颗精度达到空间亚m级的是GF-2号遥感卫星。本文采用的数据来源于GF-2号卫星,包括1 m全色数据和4 m多光谱数据,其中全色数据仅含一个波段(0.45~0.90 μm);多光谱数据包含蓝光波段(0.45~0.52 μm)、绿光波段(0.52~0.59 μm)、红光波段(0.63~0.69 μm)、近红外波段(0.77~0.89 μm)4个波段。考虑数据大小和计算机运行速度,本文截取大小为935×912的矩形影像作为数据源。
为了较好地保持影像的纹理、形状等属性特征,需对原始影像进行预处理,包括正射校正、几何校正和Flash大气校正等;并利用Gram-Schmidt PanSharpening对校正后的影像数据进行影像融合,获取分辨率为1 m的彩色融合影像,作为实验数据,如图1所示。
图1 实验数据
传统的面向对象分类方法是对影像中所有地物信息进行分类,不同地物分类精度不一致,因此存在混分现象。本文提出的改进的面向对象分类方法,利用不同分类模型对不同地物的分类效果不一致的特性,选择对某一类或多类地物分类效果较好的分类器进行对应地物信息提取;再对所有信息提取结果进行拼接,实现土地利用分类。
目前已设计出多种影像分割算法,根据一种或多种 标准得到包含多样化特征信息的分割区域。其目的 是提供携带多种特征信息的对象集,再利用这些对象集完成影像分析。因此,分割效果将直接影响分析过程。常用的影像分割算法包括多尺度分割、分水岭[7]、基于拓扑信息保留的超像素分割(TPS)[8]以及SLIC超像素算法等,其中多尺度分割算法中分割参数与分割效果没有直接联系,分割过程需根据经验进行反复试验,从而找到合适的分割参数;分水岭、TPS和SLIC超像素算法的分割精度均较高;SLIC超像素算法生成的多边形分割区域近似均匀且紧凑,运算速度较快,内存效率更高。通过综合考虑,本文选取SLIC超像素算法进行影像分割。
SLIC超像素算法的主要参数为期望分割的分割块数目(k)。实验采用的影像是RGB色彩空间,需先将其转换成CIELAB色彩空间,再进行聚类分析。聚类的第一个步骤是初始化,在包含N个像素的影像上每间隔S个像素采样一个中心点,共采样k个初始聚类中心Ci。其计算公式为:
传统的K-mean算法是计算每个中心点与影像中 每个像素的间距;而SLIC超像素算法则是在每个中心点的固定区域内,计算区域内与所有像素的间距。SLIC超像素算法减小了计算量,且使复杂性与影像对象的个数无关,降低了复杂度。间距测量D表示聚类中心与像素的紧密度,从而确定每个像素所属的分割区域。其计算公式为:
式中,dc为颜色距离;ds为空间距离,并对不同特征进行归一化;m为空间邻近性与颜色的相对重要性,m越大,表示空间邻近性越重要,获取的分割区域越紧凑,反之,则颜色距离的贡献度更大,适用于边界分割,获得的分割区域具有较小的规则尺寸和形状,其范围为[1,40],本文中m=30。
特征是两个或多个物体之间具有差异性的属性。本文基于分割之后的数据,采用现阶段常用的特征提取算法实现特征提取。由于土地覆盖类型的多样性和复杂性,在实际分类过程中,通过融合多种特征属性的方式来提高研究对象之间的差异性。
影像的纹理特征反映了像元灰度级的变化与重复,描述地物的表面属性。常用的提取算法包括局部二值模式和灰度共生矩阵(GLCM)。GLCM研究的是影像局部区域,是统计区域内两个灰度级分别为i和j的像元之间联合概率P(i,j)组成的矩阵。实验数据中包含大量的耕地、水体信息,空间上纹理差异性较大,本文主要计算GLCM中的对比度、熵、相似性以及能量4个关键特征。
1)对比度用以描述影像灰度级在局部上的变化特征,体现影像的清晰度。其值越大,纹理越明显,轮廓越清晰。其计算公式为:
2)熵反映了影像纹理的随机性。其计算公式为:
3)相似性体现了影像灰度级在局部上的关联性。其计算公式为:
4)能量是矩阵中各联合概率的平方和,用以描述灰度分布情况和纹理变化程度。其计算公式为:
纹理特征仅能描述影像表面的局部特征,研究对象之间的差异性不够明显;还需融合光谱、形状等其他特征。光谱特征用于统计影像亮度等变化特征,是影像基本特征之一,本文选取均值、亮度和标准差 3种典型特征统计量,具体描述如表1所示。形状特征用以表征影像对象的形状属性,可区分一些具有规则形状的地物,其中形状指数可描述对象边界的平滑度,其值越小,地物形状越平滑。
表1 光谱特征和形状特征
基于上述原理,本文首先提取所有影像对象的特征值;再对纹理、光谱和形状特征进行多特征融合,构建一组最优特征向量,得到影像对象样本集;最后从样本集中选取合适的数据组成训练数据,其他作为测试数据。
在影像分割和特征提取的基础上进行信息提取,本文采用SVM分类器和RF分类器两种分类模型,其中SVM分类器适用于特征值较为接近的地物信息,能获取较高的分类精度;RF分类器内存运行效率高且分类精度较高,适用于数据、特征参数多的高分辨率影像[9]。因此,本文利用SVM分类器提取耕地、道路和船只信息,利用RF分类器提取水体和人工表面信息;再对两种信息提取结果进行拼接,从而实现土地利用分类。信息提取流程如图2所示。
图2 信息提取流程图
2.3.1 SVM算法
20世纪90年代,有学者提出了一种统计学理论体系,可解决有限样本学习问题[10]。基于此,SVM算法得到了快速发展,并扩展出一系列改进算法,已广泛应用于模式识别、影像分类等领域[11]。SVM算法是一种非参数分类器,适合解决复杂的分类问题,适用于维度较高的特征空间和小样本数据,具有较强的稳定性,已普遍应用于识别、分类等领域[12]。若采取考虑地块整体特征的策略进行面向地物区域的分类,训练样本将会大大减少,这时SVM算法就可以发挥很大优势。
对于线性不可分问题,为给定的每个样本加入一个松弛变量ξi≥0,则约束条件改为:
目标函数变为:
式中,C为惩罚函数。
本文采用LibSVM开源软件包进行SVM分类,由于多特征融合后得到的特征向量是线性不可分的,因此实验中分类器的核函数选择径向基核函数。
2.3.2 RF算法
决策树是一种树形分类模型,由许多二叉树组成,根据判别规则,通过持续分割影像,形成具有相同属性的子集,从而确定影像中每个研究对象的所属类型。RF算法是一种基于集成学习方法的组合型分类器,是决策树衍生出来的新型分类模型。随机建立多个决策树,分类时根据多个决策树对样本进行投票,选择最优决策树决定样本所属的类型[13]。RF算法能在有效处理大量数据的同时避免过度拟合,具有训练样本快、分类精度高、抗噪性强等优点,因此被广泛应用于遥感分类领域。本文利用RF算法实现水体和人工表面信息的提取。
2.3.3 信息提取拼接
基于上述原理,本文对两种信息提取结果进行拼接。首先利用SVM算法提取耕地、道路和船只信息,并对3种地物信息进行标志位处理,将耕地标志为1、道路标志为2、船只标志为3、其余信息标志为4,得到第一组地物信息;再利用RF算法提取水体和人工表面信息,并进行标志位处理,将水体标志为5、人工表面标志为6、其余信息标志为7,得到第二组地物信息;最后将第一组地物信息中标志为4的地物信息替换成第二组地物信息中标志为5、6的地物信息,从而完成信息提取拼接,得到所有地物信息,实现地物分类。
基于上述原理,本文着重研究了影像分类问题,并提出了改进方法,利用不同分类器的特性实现了高分辨率遥感影像信息的提取分类。
本文采用SLIC超像素算法进行影像分割,结果如图3所示,可以看出,当k=1 000时易产生欠分割现象,分割精度最低;当k=5 000时,分割精度最高,部分地物被分割得很准确,尤其是一些细小地物,但超像元尺寸过小,易产生过分割现象,超像元之间特征值过于相似,各地物信息区分度较低;当k=3 000时分割精度较高,且各超像元之间的特征值有明显差异,各地物信息之间有明显的区分度。因此,本文实验均在k=3 000的条件下进行。
图3 SLIC超像素算法影像分割结果
首先对分割结果中所有的超像元对象进行光谱、纹理和形状特征提取,并进行多特征融合;再将得到的多特征数据集合分别输入SVM分类器和RF分类器中,获得两种分类结果,如图4所示。
图4 分类结果
由分类结果可知,两种分类方法在一定程度上均存在混分现象,但不同分类器的混分对象是不同的。对比原图发现,耕地和道路的相似性较高,水体和建筑的区别较明显。由图4a可知,SVM分类器对耕地和道路具有更好的区分度,对建筑物和水体的区分度较低;由图4b可知,RF分类器对建筑物和水体具有更好的区分度,对耕地和道路的区分度较低,因此本文利用SVM分类器提取相似性较高的耕地和水体,利用RF分类器提取建筑物和水体信息(图5)。最后,本文对两种信息提取结果进行了拼接,实现了土地利用分类,如图6所示,可以看出,本文提出的分类方法的总体精度高于SVM算法和RF算法。
图5 不同地物信息提取
图6 不同分类方法的结果对比
为了定量分析本文方法的有效性,本文从Kappa系数和总体精度两个方面对分类结果进行评估。Kappa系数和总体精度的计算公式分别为:
式中,Ci,j为真实地物的第i类被分到第j类的数量。
基于上述公式,在不同方法下,计算得到每类地物的Kappa系数和总体精度(表2)。结果表明,本文方法精度高于SVM算法和RF算法。
表2 各种分类方法的精度对比/%
本文提出一种改进的面向对象的高分辨率遥感影像信息提取分类方法,提高了总体精度。
1)分割结果的精度直接影响信息提取结果的精度;但并不是分割精度越高,信息提取精度就越高,需要选择合适的分割参数,从而获得较高的信息提取精度。
2)相同的地物信息采用不同分类器将得到不同的分类精度,因此可利用某种分类器对一种或多种地物的分类精度较高的特性,组合多种分类器的信息提取结果,利用多种分类器区分多种地物信息。
本文方法结合了SVM算法和RF算法的优点,总体上提高了分类精度;但在分割时仍有部分地物出现欠分割现象,如实验中的船只没有精确分割,导致其与水体出现混分的情况。未来将在分割精度上继续开展研究,从而提高分类精度。