王程丽,赵静,杨攀攀,李姗
(1.中国人民解放军92020部队,山东 青岛 266000;2.中国船舶工业系统工程研究院,北京 100094)
合成孔径雷达(SAR,Synthetic Aperture Radar)具有全天时、全天候的特点,不受光照和天气的影响,有丰富的特征信号,包含极化、幅度和相位信息[1],并具有很强的穿透能力且能快速检测识别目标,全天时工作能及时提供数据,为SAR 图像的目标识别提供了可靠的支持[2]。
目前在传统方法中,SAR 目标识别的三种主流方法是:基于模板的方法[3]、基于模型的方法[4]以及基于特征的方法[5]。基于模板的方法是通过与模板之间计算相似度来判断目标类别,这种方法需要大量的目标图像模板,不适合应用在SAR 船只目标识别上;对于基于模型的方法,使用复杂散射模型描述目标图像,并根据模型参数的似然估计确定目标类型,然而由于这些复杂的散射模型是非线性的,因此难以获得参数的准确估计;基于特征的方法是对图像提取特征之后利用分类器进行分类,但受SAR 成像特性影响,特征易变,具有提取特征不稳定的问题[6]。神经网络是图像识别的新方向,不同于传统的识别方法,神经网络的表示能力依赖于复杂模型中大量需要优化调整的参数,而参数优化需要大量的训练数据,若训练数据比较小,容易出现过拟合问题[7]。神经网络在计算机视觉应用上取得了优异的成绩,除了网络设计的合理外,更重要的是大数据的支持,目前的卷积网络研究现状表明,训练样本数量对网络性能有很大的影响,网络性能随着样本数量的减少而下降[8]。
在SAR 船只目标识别中,由于环境的影响以及数据不公开等因素,可用的SAR 船只图像十分有限,因此如何在小样本情况下应用卷积神经网络是迫切需要解决的问题。神经网络通常使用多层感知器等方式实现目标分类,容错性强,具有自动学习判别特征的能力,在自然图像中取得了巨大的成功。但神经网络模型对训练所需的样本量要求很高,因此较少用于高分辨SAR 船只图像分类研究中。在应用到小样本数据集中时,一般采用迁移学习和微调[9]。Zeiler[10]、Yosinski[11]等人的研究表明,经过充分训练的卷积神经网络提取出的特征具有良好的可迁移性;李松等人利用深度卷积神经网络在迁移学习模式下进行SAR 目标识别,经过试验验证了迁移学习的有效性[12];石祥滨等人提出一种基于受限玻尔兹曼机与卷积神经网络混合模型迁移学习的图像分类方法[13]。鉴于此,本文针对SAR 船只样本受限问题,提出迁移学习识别模型,该模型将VGG16 网络用于SAR 图像船只分类,把训练好的网络的浅层网络迁移到目标域数据中,然后使用常见的分类器进行分类,解决小样本导致的过拟合问题,提高神经网络在小样本下的识别率,同时与传统识别方法相比也具有很大的优势。
传统识别方法中特征量化是识别性能较高的方法。通过引入特征量化方法构造字典来将原始特征转换为新的表示,通过该方法可以训练第三方分类器。特征量化将不稳定的低层特征量化为较稳定的特征表示。下面将详细介绍几种特征量化模型:词袋模型(BOW,Bags of Words)[14]、空间金字塔匹配模型(SPM,Spatial Pyramid Matching)[15]、Fisher Vector(FV)模型[16]。
词袋模型是将训练样本的图像低层特征量化为视觉单词,通过编码得到图像的视觉单词分布直方图来表达未知图像的内容。词袋模型的基本流程图如图1 所示:
图1 词袋模型的基本流程图
基于BOW 模型分类可分为特征提取、视觉词典构建、特征编码获得图像表达直方图和训练分类器四个步骤,具体如下:
(1)特征提取。对于图像识别来说,首先需要提取一类相对稳定有效的特征,根据实验可知,梯度直方图(HOG,Histogram of Oriented Gradient)在SAR 船只识别中相对有效。
(2)视觉词典构建。将不同类别的局部特征放在一起进行聚类生成视觉词典,在聚类过程中会产生属于不同类别的视觉单词,而视觉单词的集合称为视觉词典。通常使用无监督方法进行特征聚类,如k-means[17]。
(3)特征编码获得图像表达直方图。获得视觉词典后,将每个特征量化为与其欧氏距离最近的视觉单词,这个过程称之为编码,每幅图像编码后得到的特征向量就是视觉单词直方图。
(4)训练分类器。首先利用训练集编码后的特征向量训练第三方分类器,然后利用训练好的分类器对测试集样本进行分类得到分类结果。
SPM 是基于BOW 模型的改进算法,BOW 是针对整张图片进行特征量化,SPM 在此基础上增加了图像的空间分布信息。SPM 能够在不同分辨率下统计特征的分布情况,该模型构建示意图如图2 所示:
图2 SPM模型构建示意图
首先将完整图像看作金字塔的第一层,记为level 0,第二层level 1 是将原图像分为四部分,level 2 依此类推。SPM 对每一子区域进行特征提取和编码,方法和BOW相同,因此也可将level 0 的特征提取编码看成BOW。得到所有子区域的特征表示直方图之后,将所有直方图都串联起来,并且给每个子区域的直方图赋予相应的权重,从左到右权重按照1/4、1/4、1/2 依次增大。
FV 模型也是在BOW 模型上进行改进的算法,其优点在于对分类器不敏感。两者的主要区别在于词典生成过程和特征编码,BOW 使用k-means 聚类方法生成词典,而FV 使用高斯混合模型(GMM,Gaussian Mixture Model)算法[18]生成词典。GMM 将每个聚类过程看成高斯分布,最终的量化结果可看成多个高斯分布叠加。
随机选取K个聚类中心,认为都是高斯分布,其均值为μi,方差初始化为单位矩阵Σi,先验概率初始化为wi=1/K,现在给定一个特征描述子向量xi,它属于某个高斯分布的后验概率为:
对于GMM 中的每个高斯分布,考虑均值和协方差偏差向量,得到:
则特征xi对应的编码为:
最终图像表达vg为所有特征的合并:
为了解决样本量受限问题,迁移学习开始被使用,其主要是为了解决在训练样本缺失情况下,识别过程中存在的过拟合和局部最优解等问题[19]。迁移学习是指根据已有的知识,针对不同但有相关性的问题进行求解的智能解决方法。简单来说,就是将从源域学到的知识迁移至新的目标域任务上。
迁移学习将经过预训练的浅层网络结构及连接参数迁移至SAR 分类识别问题,将其已有的特征提取能力作为共享知识在源域数据与SAR 图像数据间传递,提高神经网络在小样本数据下的识别性能和泛化能力。利用神经网络迁移学习进行SAR 目标识别的算法模型如图3 所示:
图3 神经网络迁移学习进行SAR目标识别的算法模型
神经网络迁移学习SAR 目标识别方法包括以下步骤:
(1)预训练。SAR 船只图像数量较少,直接用于预训练会出现过拟合问题。网络的预训练模型要在大数据量下进行,一般选用ImageNet 数据集,这样可以确保预训练模型也适用于目标域。
(2)网络结构调整。由于源域和目标域的数据集类别不同,所以在对网络进行训练之前需要修改网络结构,修改输出层神经元的数量,使其与目标域类别对应。
(3)网络参数微调。在修改输出神经元数量之后,将预训练模型中全连接层之前的网络层迁移到目标域中,然后对该网络层进行初始化,利用目标域图像对网络参数进行微调。
(4)目标类别预测。将SAR 图像样本输入参数微调后的网络进行前向传播,完成特征的逐层提取与最终的类别判断。
已有研究表明,由于SAR 图像与自然图像之间差异较大,因此利用预训练模型提取的特征可能不适合SAR 图像,相对较浅的卷积网络如VGG16 更适合作为原始模型[20]。基于迁移学习SAR 船只目标识别工作流程如图4 所示:
图4 基于迁移学习SAR船只目标识别工作流程
其中,黑色、蓝色、红色箭头分别表示数据处理、训练和测试阶段。首先将高分辨率SAR 船只样本分为训练和验证数据集,样本类别包括集装箱船、散货船和油轮;然后将训练样本应用在基于ImageNet 数据集的VGG16 预训练模型上;最后验证测试集用于评估训练模型的性能。
迁移学习将在源数据域训练得到的模型权重作为目标数据集的初始化权重,根据需要修改全连接层输出,重新训练VGG16 网络。对网络进程微调,可以避免小数据量造成的过拟合现象。
为了验证本文提出的SAR 船舶目标分类方法中基于VGG16 迁移学习的有效性,选择了BOW 模型、SPM 模型、FV 模型进行对比试验。所有方法都使用TerraSAR 作为验证数据集,TerraSAR 数据集包括集装箱船、散货船和油轮三类。所有模型进行多次试验,每次随机选择训练和测试集以获得分类结果,其中每类训练样本数量为30 张,每类测试样本为20 张。表1 是多种模型几次试验的识别率平均值:
表1 多种模型的识别率
由表1 可知,VGG16 迁移学习与BOW 模型、SPM 模型、FV 模型相比有更优的识别效果,识别率相差10%以上,这说明迁移学习能够有效解决小样本SAR 船只识别问题。
图5 显示了四种方法训练样本和测试样本特征的可视化结果。其中,蓝色、红色、绿色分别表示集装箱船、散货船和油轮;符号“+”表示训练样本;符号“o”表示测试样本;横纵坐标分别为特征降维后的结果。通过BOW 模型、SPM 模型、FV 模型的特征二维可视化结果可以看出,集装箱船、散货船和油轮三类之间没有明显的类间界线,且同一类别测试样本分布和训练样本分布有差异,这会导致训练的分类器的分类性能较差。而VGG16迁移学习模型的特征可视化结果显示,三类很容易区分且测试和训练样本特征分布一致,基于VGG16 迁移学习模型比其他框架更具区分性。传统的识别方法提取特征的方法较为单一,由于成像影响,提取的特征稳定性较差,而特征又是影响识别结果最重要的因素,因此识别效果较差。迁移学习的识别方法是基于大数据训练下的模型进行调整,会更适合于船只目标,所以尽管缺乏训练数据,该模型仍有良好的识别性能。
图5 不同方法的可视化结果
在上述实验中,将TerraSAR 数据集每类训练集设为30,为了验证算法在样本极其稀缺情况下的有效性,下面仍然选择TerraSAR 数据集做对比实验,当每类训练集数量为10、15、20 和25 时,对比四类方法的识别效果如表2 所示:
表2 不同训练集数量下不同模型的识别率(单位:%)
为了更加直观地显示分类正确率随训练集每类样本数的变化,将四种方法的结果用折线图表示,具体如图6所示:
图6 分类正确率随训练集每类样本数的变化折线
由图6 可知,BOW 模型、SPM 模型、FV 模型虽然在样本数量为30 时识别准确率不高,但其鲁棒性较强,随着训练样本数量的减少,分类正确率下降速度较慢。而VGG16 迁移学习算法鲁棒性较差,随着训练样本数量的减少,该算法分类正确率降低较快,当每类样本数为10 时,该模型识别效果在四类中最差,但在每类训练样本数量大于15 时,迁移学习算法和传统算法相比还是具备一定的优势。
由于SAR 船只目标的样本量受限且传统算法提取特征具有局限性,本文提出了基于VGG16 模型迁移学习的SAR 船只目标识别方法。该模型将其已有的特征提取能力作为共享知识在源域数据与SAR 图像数据间传递,可提高神经网络在小样本数据下的识别性能和泛化能力。实验结果表明,与传统算法相比,本文算法在TerraSAR数据库有较好的识别性能,但其鲁棒性较差,这也是后续研究中需要解决的问题。