稀疏相关指数在SAR图像特征选择中的应用

2018-04-13 14:25尹洁珺李建伟夏慧婷
制导与引信 2018年4期
关键词:训练样本信息熵特征选择

尹洁珺,李建伟,王 平,夏慧婷

(上海目标识别与环境感知工程技术研究中心,上海201109)

0 引言

合成孔径雷达(SAR)图像的目标识别技术在SAR图像解译中起着重要作用。成像高分辨与时间的矛盾导致单幅SAR图像的数据量增大,但很难获取完备的图像样本集。SAR图像目标识别是典型的“小样本”问题,许多经典的机器学习算法很难获得理想的泛化性能。为了解决这个问题,近年来开始关注特征融合方法。单个特征往往只包含目标信息的一部分,融合多个特征则能提供目标更多细节。多任务学习(MTL)作为一种特征融合方法在图像处理领域受到关注[1-5]。文献[4]首次将多任务稀疏表示(MTSR)引入多视SAR图像目标识别中。约束目标不同角度所成图像共享相似的稀疏模式,从而获得对角度变化稳定的目标识别结果。文献[5-7]给出了MTSR的正则化结构(RMTSR),采用凸优化算法求解稀疏系数。文献[5]中提取单演特征,将每个特征域下的稀疏表示定义为RMTSR中的一个单任务(STL)。实验验证了SAR目标识别的稳定性,却缺乏对特征相关性或冗余性的分析。文献[8]指出:将两个特征直接用于训练多任务学习的模型,会使该模型性能下降。此外,文献[5]的方法忽略字典规模增长时,计算量快速变大的问题。因此,应研究特征相关性,避免无关特征组合使识别率下降,实现特征选择,使计算量适当降低。一种稀疏相关指数(SCI)被提出度量两个稀疏表示之间的相关性。多个特征两两组合,它们的SCI构成非线性相关矩阵(NCM)。从信息论的观点出发,可由NCM计算得到的非线性相关信息熵(NCIE)来衡量所有特征整体关联性[9]。

1 RMTSR中特征选择的必要性

首先给出在SAR图像目标识别中应用的RMTSR模型,然后分析研究特征关联性的必要性和皮尔逊相关系数评价特征冗余性的不足。

(1)多任务稀疏表示

若有训练样本图像集合{Ii}(i=1,2,…N),尺寸都为m×n。首先对每个样本进行特征提取,提取算子为Ft(·)(t=1,2,…,T),得到集合为图像特征组,即

为构成稀疏表示字典,将I(t)i按列相接,得到一个列向量:

将每幅图像的某一特征得到的列向量作为字典原子,得到字典集合{Φ(t)},每个字典为

类似地,每幅测试样本图像经过同样特征提取过程得到向量集合{s(t)}。

文献[10]指出,没有适用于所有目标识别问题的特征。如灰度直方图缺乏目标空间信息,静态小波的边缘提取精度较低。采用RMTSR模型可将多种特征同时用于稀疏表示,实现特征互补。RMTSR约束多个稀疏表示的结构相同,稀疏系数最优解为

式中:A为稀疏系数构成的矩阵。矩阵计算范数‖A‖2,1示意图如图1所示。列向量是在每个特征下稀疏表示得到的稀疏向量,范数运算‖A‖2,1是对矩阵的行向量求L2范数,得到一个列向量,再求列向量的L1范数。

对于求解稀疏系数矩阵,本文选择的加速迭代收缩阈值算法(FISTA)稀疏求解,收敛速度与其他阈值收缩方法相比,具有优势。

训练样本包含C类目标,每个特征对应的字典Φ(t)可以按训练样本类别划分为,由矩阵乘法运算,Φ(t)c(c=1,2,…,C)对应的稀疏向量为α(t)c。

与稀疏表示的分类方法相似,多任务稀疏表示将目标分类为重构误差的最小的一类,即分类结果K(s)为

(2)特征选择必要性与特征关联性分析

稀疏表示中,原子代表的是某目标的一个样本数据。稀疏系数幅值越大,表示测试样本与该样本越相关,将被判别为对应目标。不同特征独立稀疏表示,它们的非零元素分布并不相同,甚至会得到不同的分类结果。本文从稀疏向量分布相似性的角度,分析特征关联性。

式(4)中的正则项约束系数矩阵只有少量的行向量为非零向量。RMTSR使不同特征的稀疏表示具有相同分布。若将关联性弱的特征组合,不能提高模型的泛化性能甚至引起性能下降,导致“负迁移”[8]。

皮尔逊相关系数只度量x与y间的线性相关的强弱,不能表征特征关联性对目标识别结果的贡献。假设稀疏度参数或正则化参数相同,两个相同的字典所得到的稀疏向量相同。稀疏向量的ρp为1,但两个相同特征并不能使识别率提升。因此,在面对RMTSR中衡量稀疏向量相似性问题时,皮尔逊相关系数有两个缺陷:一、仅表示线性相关程度;二、缺少对稀疏向量分布的描述,不能体现稀疏表示识别的有效性。所以,应提出稀疏表示相关系数的定义以度量广义的相关关系。

2 基于稀疏相关指数的特征选择

本节提出稀疏相关指数表征特征间相关性。然后,基于熵的非线性相关系数表示多特征之间的关联。根据特征关联性强弱,得到特征选择结果。

(1)计算稀疏相关指数

训练样本图像经特征提取后构成字典,若有两种不同特征,则得到字典φ(i)与φ(j)。每个验证集样本在字典φ(i)与φ(j)下稀疏表示,分别得到稀疏向量α(i)与α(j)。稀疏向量对应于训练样本类别可被划分为C个子列。记第C个子列的稀疏度为kic,那么向量α(i)按样本类别划分成子列,子列的稀疏度构成的向量ki为

稀疏度分布的计算公式为

计算流程如图2所示。

稀疏向量分布相似度的特点:

b)rij非负,向量稀疏度皆为非负数,稀疏分布相似性不存在正负的区别;

c)rij满足对称性,交换˜ki和˜kj的位置对rij的大小没有影响,因此相似度矩阵为对称阵。

度量稀疏向量相似度需考虑非零系数分布的特点。测试样本的非零系数并不集中于该类别标号对应的区域中,甚至分散在稀疏向量中。由式(9)定义可得,当且仅当两个稀疏度向量都为e时,稀疏相关指数达到最大值1。从两个特征尺度对目标进行测量,测试样本为同一类的训练样本的线性组合。稀疏相关指数与稀疏向量非零元素是否集中在正确单元子集联系起来。

(2)特征选择

得到表征两个特征的稀疏表示任务关联后,采用非线性相关信息熵衡量特征集多任务整体关联性。首先特征集合中两两任务的稀疏相关指数构成相关矩阵:

当稀疏向量之间分布完全不同时,相关系数矩阵为单位阵,特征值都为1,非线性相关信息熵的值最小为0。当稀疏相关指数大于0时,互相关系数矩阵特征值不为0,且相关系数矩阵特征值不再相等。随着稀疏相关指数愈来愈大,相关系数矩阵特征值愈来愈不平衡。当稀疏向量之间完全相关时,相关系数矩阵元素全为1,此时非线性相关信息熵的值最大为1。因此,非线性相关信息熵愈大表示稀疏向量分布相似性愈高,相应的特征集适合于多任务稀疏表示的SAR图像目标识别。

基于稀疏相似度分布的特征选择方法步骤如下:

a)将训练样本与测试样本进行多尺度特征提取,构造出完备字典,对测试样本特征进行稀疏表示;

b)对两个不同特征进行相关度分析,由稀疏向量α(i)和α(j),计算出稀疏相关指数rij;

c)特征集合中的两两特征之间进行步骤b)的计算,得到特征子集的相关系数矩阵R;

d)对R进行特征值分解,根据式(11)计算非线性相关信息熵,得到特征子集对应稀疏表示的总体相似性;

e)比较得到的特征子集在稀疏表示中的NCIE,选择NCIE最大的特征子集作为多任务学习的输入量。

3 SAR图像特征分析试验

选择MSTAR数据库的一个子集如表1所示,在扩展操作条件(EOC)下进行实验。目标共有四类,分别是BMP2(步兵战车)、T72(主战坦克)、BTR70(装甲运兵车)、和T62(主战坦克)。由17°俯仰角的图像构成训练样本集,共1 020幅图像,15°俯仰角的图像构成测试样本集,共1 246幅图像。训练样本总数为1 020,测试样本总数为1 246。实验共分为两个部分:先得到稀疏向量分布相似度构成的相关度矩阵,然后计算非线性相关信息熵。熵愈大则目标识别的可靠性愈高,选择相关信息熵较大的特征子集进行冗余性对比实验。

表1 训练样本与测试样本的目标型号及数量

(1)SAR图像预处理

为了除去冗余的背景,从图像中截取中心64×64大小的样本,并在提取特征构成列向量后,进行高斯随机矩阵的压缩观测,压缩为64×1的向量作为字典原子。本文选择的五个特征为紧支撑小波近似分量、多孔小波分量和sym基的三层近似小波分量,分别记为①~⑤。特征进行自由组合,本文选择三个特征以上的情况进行分析。其中序号对应的特征集为1—①②③④,2—①②③⑤,3—①②④⑤,4—①③④⑤,5—②③④⑤,6—①②③,7—①②④,8—①②⑤,9—①③④,10—①③⑤,11—①④⑤,12—②③④,13—②③⑤,14—②④⑤,15—③④⑤。

(2)识别率对比实验

在不同特征集合下,采用多任务稀疏表示方法进行SAR图像识别,并计算特征集合的非线性相关信息熵。为了说明本文特征选择方法的有效性,按照识别正确率降序排列非线性相关信息熵,图3中给出非线性相关信息熵与目标识别正确率的折线图。可以看到,非线性相关信息熵与目标识别正确率的趋势基本一致,但是特征集7、11、15是较为明显的异常点。虽然本文算法还不完善,但对于大部分特征集,非线性相关信息熵与识别率是正相关的。

(3)特征冗余性分析实验

基于多尺度的稀疏表示对SAR图像目标进行识别的本质是对目标的不同分量同时进行测量,根据多尺度下的重构误差和分类得到识别结果。特征的冗余度越小,则特征本身越不相关,那么联合稀疏表示对目标挖掘的信息则越多。这里将特征的冗余性定义为互信息熵:式中:P(t)为图像的小波系数重构图像的灰度分布。互信息熵愈接近0,说明特征之间的冗余性愈大,特征包含的信息增益愈低。互信息熵的缺点是值域不在[0,1]范围内,不能根据特征值求出总体信息增益。这里将特征子集中的互信息熵的平均值作为指标,当非相关信息熵相当时,选择互信息大的特征子集。于是保证多特征稀疏表示可靠性的同时,选择冗余信息少的特征子集,有利于得到稳健的目标识别结果。

综合非相关信息熵与特征冗余性的判断,给出在不同训练样本量下,特征集3与特征5的目标识别率的折线图如图4所示。从表2中可以看出:特征集3的非相关信息熵大且互信息较高,而在图4中,当样本量减少一半时,仍达到90%的正确率;特征集5的互信息最小,当样本量较少时,目标识别率恶化,目标识别率在样本量为340时,较特征集5高4.26%。

表2 特征集总体冗余度与非相关信息熵

4 结论

本文针对RMTSR简单罗列特征的问题,提出采用稀疏相关指数衡量特征关联性,实现SAR图像特征选择,并在SAR图像目标识别中验证了方法的有效性。在MSTAR上进行的实验表明,即使在有限的训练样本情况下,RMTSR的识别性能保持稳定并且显著降低了数据量。

猜你喜欢
训练样本信息熵特征选择
基于信息熵可信度的测试点选择方法研究
人工智能
近似边界精度信息熵的属性约简
基于小波神经网络的网络流量预测研究
基于智能优化算法选择特征的网络入侵检测
基于信息熵的承运船舶短重风险度量与检验监管策略研究
信息熵及其在中医“证症”关联中的应用研究
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法