冯国政,徐金江,范宝德,赵甜雨
(1.烟台大学计算机与控制工程学院,山东 烟台 264005;2. 山东中矿集团有限公司, 山东 烟台 264000)
遥感图像固有的同物异谱和同谱异物特性,使地物类别间存在一定的模糊性与不确定性,而传统分类方法无法准确地刻画遥感数据的分布与不确定性,导致分类困难或分类结果不准确[1-2]. 模糊理论是表达模糊性与不确定性问题有效的数学方法,它以模糊集合论作为基础,与普通集合论中事物归属的绝对化不同,模糊理论是以一定的隶属度来表征事物的集合分布[3]. 模糊C均值(Fuzzy C-Means Clustering,FCM)算法在遥感领域中已被广泛应用[3-4]. CHOUBIN等[5]将FCM算法用于遥感图像的水域分类,准确地划分出了洪水与土壤. ZHANG等[6-7]通过结合空间邻域信息,用一种自适应的空间约束方法提高了FCM算法在遥感图像分类中的鲁棒性. WANG等[8]将FCM算法运用到多特征融合的遥感图像变化检测. 区间值可以有效表达数据的可变性与不确定性,关于区间值的FCM算法的研究也已有许多. CARVALHO等[9]利用FCM算法结合区间结构特点构造合适的区间值数据并引入合理的自适应参数控制,取得了理想的聚类结果. 谢志伟等[10]提出一种引用自适应因子控制区间型数据大小的FCM算法,并用实验数据验证了算法的有效性. ÖNER等[11]将区间值的模糊聚类算法用于用户推荐系统,得到了理想的效果. BAO等[12]考虑到每个数据点的特殊性,提出一种新的自适应距离的区间值可能性C均值算法. 区间值也可以被用来观测光谱特征的可变性与不确定性,适合用以刻画遥感图像的类内非均质性,因此区间模糊也被应用在遥感地物分类领域.余先川等[13]首次提出将区间值的模糊C均值(Interval-Value Fuzzy C-Means Clustering,IVFCM)算法用于遥感图像的分类,并取得了较好的效果. HE等[14]提出引入自适应参数的控制,将自适应区间的模糊C均值(Adaptive Interval-Value Fuzzy C-Means Clustering,A-IVFCM)算法用于遥感图像分类,动态调整遥感数据区间的宽度,得到了更加鲁棒的分类结果. 综上,FCM以及区间模糊方法在遥感图像分类领域已显现优异性能,且区间的FCM方法极具发展潜力,但现用于遥感分类的区间模糊算法只是对数据进行整体相同比率的区间建模或各类内相同比率的区间建模,没有充分考虑到数据(尤其是同物异谱和同谱异物的数据)的特殊性(偏向). 因此,本文引入带偏向约束的自适应因子对遥感数据动态区间建模,提出一种偏向自适应区间值模糊C均值(Preferential Adaptive Interval-Value Fuzzy C-Means Clustering PA-IVFCM)算法来优化分类问题.
法
1. 1 偏向自适应因子
PA-IVFCM算法的核心思想是引入一种带有偏向约束的自适应因子,对待测数据进行有偏向性的动态区间建模. PA-IVFCM算法的目标函数与带有偏向约束的自适应因子定义分别为
(1)
α=1-0.99 exp(-1.5(e·γ)2),
(2)
自适应调整待测数据的区间值宽度,需要对数据进行有选择的宽度调整,尤其是位于边界的数据. 这是因为同物异谱和同谱异物的数据往往分布在类别的边界. 因此算法采取归一化类内均方差的和e进行全局的类别区间调整策略,构造偏向因子γ,利用γ来判定数据在所属类别内的边界程度,对所有数据进行有选择的动态调整,类内均方差之和e={e1,e2,…,ej,…,ec}的计算为
(3)
其中:δ(xi,Vj)表示当前划分类Cj中的待测样本点xi与类别中心Vj的偏差.
偏向因子γj的计算公式为
(4)
其中:Dj是划分类Cj中的数据点xi(xi∈Cj)与类别中心Vj的距离矩阵,max(Dj)表示距离矩阵Dj中最大值,min(Dj)表示距离矩阵Dj中最小值.偏向因子γ越大,表示该数据的分布越接近于边界,其不确定性越强.
偏向约束的自适应因子的物理意义在于,全局的调整不同类别的数据区间值宽度,类内均方差越大,则类别内的调整宽度越大,反之亦然;类内有偏向的调整不同的数据区间值宽度,偏向因子越大,表示数据的分布越靠近边界,不确定性越强,则调整的宽度越大,增加数据的分离性,反之亦然.
1. 2 PA-IVFCM算法流程
Step1:初始化类别数c,模糊加权指数m,终止阈值ε,最大迭代次数T,迭代次数t=1,初始J0=0,初始化α,随机初始化模糊划分矩阵U.
Step2:对待测数据进行区间值建模,其表达式为
(5)
Step3:更新类别中心的Vj的上、下边界为
(6)
Step4:更新隶属度uij为
(7)
(8)
Step5:根据式(2)、(3)、(4)更新偏向自适应因子α.
Step6:更新目标函数Jt为
(9)
Step7:如果‖Jt-Jt-1‖<ε或t Step8:根据数据的最大隶属度对数据进行类别划分,表达式为 xi∈Cjifuij=max{ui}, (10) 实验数据来自SPOT5卫星的多光谱遥感数据(10 m分辨率),选取了广东珠海市横琴岛土地地物覆盖较为复杂的区域. 地物类型如表1,土地覆盖了林地、水域、草地、建筑用地、裸地5个类别. 其中,水域类别存在较为严重的同物异谱现象,即水域数据分布在一个较大的超球面内,同属于一个类别的数据差异较大. 裸地与水域类别存在同谱异物现象,如潮湿的裸地与浑浊的水域光谱近似,且在数据分布中均处于各类别的边界. 横琴岛区域的SPOT5卫星1、2、3波段合成的RGB假彩色图像(400×400像素)如图1(a). 图1(b)是FCM算法分类结果,图1(c)是IVFCM算法[12]分类结果,图1(d)是A-IVFCM算法[13]分类结果,图1(e)是本文提出的PA-IVFCM算法分类结果,图1(f)是地物类别图例标注. 其中图1(a)—(e)的每幅图标记了2个分类具有明显区别的区域,分别为区域A、区域B. 所有实验结果均无进行任何滤波、后处理、类别合并等操作. 公共参数设置保持一致以保证最终实验结果的可比性,算法分类效果从目视判读和客观指标2个角度进行比较. 由图1(a)可见,区域A的左侧是水塘,水塘中有部分浑浊的水体,与裸地光谱近似,右侧是高尔夫球场,球场与水体相连,其边界部分易出现光谱混叠现象;区域B是水库,其水体灰度值(光谱特征)与其他水体差异较大,划分难度较大. 由图1(b)—(e)目视对比可见,区域B中,FCM(图1(b))水库的划分明显变小,而IVFCM(图1(c))、A-IVFCM(图1(d))和PA-IVFCM (图1(e))对水库的边缘部分有更好的划分,表明基于区间建模的FCM算法比普通FCM算法有更强的模糊划分能力. 在区域A中,FCM(图1(b))将水塘错分为水域与裸地,IVFCM(图1(c))的错分的裸地明显变小,但是区域右侧高尔夫球场跑道中间的水域却错分为少许的裸地,这是因为IVFCM的区间建模方法是静态的,依赖于初始α的设定,因此鲁棒性不强. A-IVFCM(图1(d))明显地划分出高尔夫球场跑道以及其中间的水域,虽然准确划分出大区域的水塘,但是将小区域的水塘错分为裸地,表明自适应区间建模对于光谱近似的地物只能得到较为准确的划分. 只有PA-IVFCM(图1(e))准确划分出水塘,且总体划分结果最为理想,类别边界之间也最为清晰,可以说明,通过对数据的偏向自适应区间建模可以提高不确定性数据点的分离性,且可以增加类内的紧凑性,有效抑制同物异谱和同谱异物现象. 为了客观对比各种模糊分类算法的分类效果,结合实验数据的特点以及所提算法的研究问题,我们实测了一组地物复杂且光谱混叠区域(区域A和区域B)并随机抽取80个样本点,结合土地利用图以及往年历史实测数据对各算法结果进行了精度验证. 如表2,可以看出3种算法的分类总体精度与Kappa系数相近,PA-IVFCM的分类精度与Kappa系数均最高,A-IVFCM、IVFCM次之,均优于FCM,这与目视判读与理论分析一致. 表1 广东横琴岛测试数据的地物类别表 Tab.1 Ground object category of Guangdong Hengqin Island 实验数据土地覆盖地物描述 水域河流、水库、养耗场、滩涂等 广东横琴岛草地耕地、草坪、杂草等 (SPOT5)林地天然山林、人公林等 裸地园地、裸土地、田间小路等 建筑用地高尔夫球场跑道、建筑工地、岩石等 表2 各种分类算法的客观指标结果比较 Tab.2 Comparison of objective indicators for classification algorithms 分类算法总体精度/%Kappa系数 FCM77.30.752 IVFCM81.20.796 A-IVFCM82.80.803 PA-IVFCM84.60.825 区间值模型可以提高遥感图像数据的可分离度. IVFCM的区间建模方法是静态的,依赖于主观的α设定,AIVFCM是通过类内均方误差动态地调整α,更具有鲁棒性,但是区间宽度是各类别整体进行调节,忽视了不确定性数据点的特殊性.本文提出的引入偏向自适应因子的PA-IVFCM能够利用类内均方差动态调整待测数据各类别区间宽度,一定程度上达到了全局最优的目的,同时通过设计偏向因子,有针对性地提高分布于类别边界数据的可分性,减小靠近类别中心数据的可分性,有效地抑制了类内异质性与类间不确定性,可以使类内更加紧凑,边界更加清晰. 下一步工作将研究区间值建模的准确性问题以及结合先验知识的区间值控制的问题. 图1 广东横琴岛SPOT5多光谱遥感分类结果2 实验结果与分析
3 结论及下一步工作