张旋熠
【摘要】 主成分分析法(PCA)及其常用的推广的线性特征提取方法在SAR识别中通过变量的少数几个线性组合来解释随机向量的协方差结构并提取特征值,然而在线性变化及特征选取中容易丢失大量信息,对样本的描述性不够。针对该问题,本文提出了一种基于形学习算法,根据每一类MSTAR目标图像存在小幅姿态、方向微弱变化,从而判断处于高维数据空间的某个低维流形上这一特征,利用混合因子分析模型来对流形建模,根据不同目标所在的流形的特征参数,构建全局字典,实验证明,所提出的方法在识别率及速度上优于常规的线性特征提取方法。
【关键词】 流形学习 混合因子分析 EM算法 特征提取
合成孔径雷达(Synthetic Aperture Radar,SAR)作为一种全天时、全天候的主动式微波辐射传感器,在军事和民用方面有着广泛应用。SAR图像目标识别技术因其重要的军事和战略意义,一直是近年来研究的热点内容。单一的SAR图像在不同俯角下可以在高维样本空间中形成一个低维线性SAR图像子空间,但是如果加入姿态变换等条件,对于线性表示方法来描述并不合理,从而对于任意位置姿态的SAR测试图像,甚至对于只有一些平移度的测试图像,已经不在之前的线性子空间上,从而用PCA等常规线性方法训练的字典,稀疏表示分类器的效果明显变差。
为了解决这一个问题,本文提出了一种流形学习的SAR图像建模方法,利用每一类MSTAR图像处于高位数据空间的某个低维流形上这个特征,利用混合因子分析模型来对流形建模,根据不同目标所在的流形的特征参数,构成全局字典,再利用最近邻分类器进行目标识别。
一、流形学习问题描述
流形学习问题描述如下:对于给定的高维观测数据X={x1,x2,…,xk},其中xi∈RN(i=1,2,…,K)为独立同分布的随机样本,分布在光滑的m维流形M[∩]RN上,M为嵌入在N维欧式空间中的m维流形,定义嵌入映射f:M[∩]RN→Rm,m< 1.1 因子分析(FA) 因子分析是对多维数据之间的相关性进行建模的方法,能够实现数据的从高维到低维流形的降维,其基本思想是:根据相关性大小把变量分组,使得同组内的变量之间相关性较高,而不同组之间的变量相关性较小。每组变量代表一个基本结构,称为因子。在因子分析模型中,认为高维数据样本x∈RN是由服从高斯分布的低维变量w经过线性变换A加上均值μ与扰动误差v生成的,因此高维数据可以写成以下低维表示形式: 其中A∈RN×J是变换矩阵,成为因子载荷矩阵(factor loading matrix),μ∈RN为均值向量,v∈RN为高斯噪声。这里的w即为隐含变量,服从均值为零的高斯分布N(0,IJ),并且各分量之间相互独立,并称各分量w1,w2,…wJ为主因子或公共因子。假设模型存在与隐含变量相互独立的高斯噪声,并且噪声模型是零均值高斯分布,这说明在给定隐含变量的条件下,高维数据变量之间是条件独立的。 由(1)可以得出数据变量服从高斯分布: 因子分析的目的就是找到因子载荷矩阵A和扰动的那个误差的协方差矩阵ψ,使得模型可以很好地描述数据x。 1.2 混合因子分析(MFA) MFA模型可以认为是M个FA模型的线性组合。这样的模型比单一的FA模型可以更灵活和准确的对数据的全局结构进行描述。混合因子分析模型看作首先将数据样本空间划分成为一个个小的子空间,这个聚类问题能够通过高斯混合模型来完成,然后对每一个样本子空间进行因子分析。 假设MFA模型将数据样本所在的整个非线性流形聚成T个线性子空间,并用FA模型来对每个线性子空间进行建模,对于观察到的高维数据空间的随即变量x∈RN,其概率密度函数可以表示为: 如果已知或者可以假定每个聚类中的样本所服从的概率密度函数的形式,那么,总体的样本分布就是多个概率分布的和,称作混合模型(mixture model)。可以用概率密度函数估计的方法来估计混合模型中的各个概率密度函数,从而实现聚类划分。在概率密度函数估计中,这一问题称为非监督参数估计问题。所面临的数据是一系列类别标号未知的样本,但知道它们是从若干个服从不同分布的聚类中独立抽取出来的,要根据这些样本同时估计出各个聚类的概率密度函数。 混合因子分析模型的学习就是要寻找模型参数{μt,At,Pt}t=1,2,…,T(Pt为各子空间概率参数)我们所采用的是为人们熟知的期望最大算法(Expectation Maximization,EM),它利用局部极大化似然函数来估计模型中的参数。 EM算法流程: (E步)对于每一个i,计算 (M步)计算类 其中,θ为待估计参数{μt,At,Pt}t=1,2,…,T,z为隐含变量,即因子模型中的w
二、基于流形学习MFA的sar目标识别算法步骤如下
(1)输入第i类训练目标数据,确定最大聚类个数T和各因子模型的最大主因子个数K,用混合因子分析模型对他们所在的流形进行建模;
(2)讲每幅带训练的SAR图像拉成列向量,组合起来得到矩阵M;
(3)根据M,T和K,通过EM算法学下得到该聚类模型聚成的T个因子分析模型参数{μt,At,Pt}t=1,2,…,T;
(4)取权重Pt≥ε的因子模型,并将他们的均值和变换矩阵参数{μt,At}t∈1,2,…,T按列排成矩阵,即为第i类目标的字典Dt={μ1,A1,μ2,A2,…,μt,At}t∈1,2,…,T,其中Ti为第i类中权重Pt≥ε的因子模型个数;
(5)分别按照步骤(4)计算各类目标字典Di,并将他们依次排列成全局大字典φ=[D1,…,Dc];
(6)将每幅待测试图像同样拉成列向量y,用KNN分类器寻找最小化向量欧式距离,最终得出y的类别标签。
三、实验及分析
本文采用实验数据来自美国运动和静止目标获取与识别(Moving and Stationary Target Acquisition and Recognition, MSTAR)公开数据集。该数据集中图像样本的大小为128×128,分辨率为0.3m×0.3m,训练样本是SAR在俯仰角为17°时对地面目标的成像数据。测试样本是SAR在俯仰角15°时对地面目标的成像数据。每类样本的方位覆盖范围是0°~ 360。
因子参数模型的选择方面,首先需确定最大聚类个数T和各因子模型的最大主因子个数K,而每个流形的因子模型数目起初并不确定,经过多次实验验证最大聚类个数为12-15时聚类效果最好,能够更好地体现出各类目标的类别信息,从而识别率较高。
选取权重因子临界值为0.05,能删减约20%的贡献不高的因子,提高算法速率。
四、结论
针对传统线性特征提取方法不能很好表达SAR图像的问题,本文提出了用混合因子分析模型进行流形表达的方式,并将其应用于SAR图像目标特征提取和识别。实验结果表明,相比传统方法,本文算法的识别性能较传统线性表示方法在准确率上有大幅提高。
参 考 文 献
[1] Lee J. Refined filtering of image noise using local statistics [J]. Computer Graphics and Image Processing,1981,15(4):380-389.
[2] Donoho D L,Johnstone I M. Ideal spatial adaptation by wavelet shrinkage [J]. Biometrika,1994,81(3):425-455
[3] Aharon M,Elad M,Bruckstein A. K-SVD: an algorithm for designing overcomplete dictionaries for sparse representation [J]. IEEE Transactions on Signal Processing,2006,54(11):4311-4322