基于渐进式生成对抗网络的舰船红外图像仿真

2021-05-10 03:28:32谢晓方刘厚君张龙杰张龙云
激光与红外 2021年4期
关键词:特征向量舰船红外

谢晓方,刘厚君,张龙杰,孙 涛,张龙云

(1.海军航空大学,山东 烟台 264001;2.山东大学,山东 济南 250000)

1 引 言

红外成像具备全天候、高隐蔽、抗云雾等优势,在反舰导弹制导过程中,红外制导作为末段制导的主要方式,发挥着关键性的作用[1-2]。利用计算机模拟生成舰船的红外图像是红外导引头视景仿真领域的重要研究课题,在红外导引头设计、仿真训练等领域有广泛的应用前景。

近年来,在深度学习理论的推动下,涌现出许多神经网络模型,其中生成对抗网络(GAN)由于具有较好的特征自动提取与图像重构能力,已经广泛应用于图像生成、风格迁移、降噪修复等领域,文献[3]提出了深度卷积对抗网络(DCGAN),在LSUN、Faces和ImageNet-1k数据集实现了32×32分辨率的图像生成。文献[4]提出了一种基于条件深度卷积对抗生成网络(C-DCGAN)的红外目标仿真框架,在DCGAN基础上引入了条件特征码,特征码的每一维度对应一类目标的红外图像,通过改变特征码来生成不同类别的红外目标图像;文献[5]针对目前多数GAN模型生成图像分辨率过小的问题,提出了一种渐进式生成对抗网络proGAN,生成网络采用了动态增长的网络结构,由低分辨率到高分辨率逐渐学习图像特征,最终可以生成高分辨率的仿真图像。

较于传统的计算机建模仿真[6-10]的方式,利用GAN技术生成的图像在纹理细节方面表现的更加真实,但存在着一个关键性的问题:无法建立生成网络中输入与输出之间准确的映射关系,不能通过调整网络的输入对生成图像的视觉特征进行准确的控制,虽然生成的图像真实度很高,但无法直接应用于红外视景仿真系统中去。因此,利用GAN技术进行可控化的红外图像生成是一项值得研究的课题。

本文基于改进的渐进式生成对抗网络模型,提出了一种可控化的红外图像仿真方法:通过调整图像特征向量,对仿真图像的视觉特征进行定量的控制。仿真实验实现了舰船角度可控的红外图像生成,通过aHash算法和MSSIM算法检测,仿真图像与真实图像相似度较高,结果表明提出的仿真方法可行。本文方法与传统的计算机建模仿真的方法相比,仿真图像更真实、纹理细节表现更丰富;与传统的GAN图像生成相比,图像的合成过程更加可控。可以为真实舰船的红外图像仿真提供参考。

2 改进的渐进式生成对抗网络

图1(a)是文献[5]提出的渐进式生成网络,采用动态增长的网络结构,由低分辨率到高分辨率逐级合成图像,最终可以实现高分辨率的图像生成。但是该网络直接将随机向量z作为生成网络的输入,属性不加限定,无法有效地控制最终生成图像的视觉特征。

针对上述问题,图1(b)对原有生成网络的架构进行了改进,改进后的生成网络由映射网络和合成网络两部分组成。

图1 渐进式生成网络

2.1 映射网络

映射网络由8个全连接层(FC1-FC8)组成,其目标是对随机向量z进行特征解耦。改进型的渐进式生成网络与传统型相比,不是直接将随机向量z∈Z作为生成网络的输入,而是先通过映射网络将其映射为一个中间向量w,w∈W。如果单纯依靠随机向量z来控制生成图像的视觉特征,能力十分有限,输入的随机向量z与输出图像的特征之间的映射往往是非线性的关系:稍微调整z某一维度的值,会影响生成图像的多个属性,出现特征纠缠,如图2(a)所示;但经过映射网络的非线性变换:f:Z→W后,实现了对z的特征解耦,输出的中间向量w控制图像特征生成能力更加线性,如图2(b)所示,由于w与图像特征存在着线性的映射关系,将其命名为特征向量。

图2 特征解耦

2.2 合成网络

如图1(b)所示,合成网络不是直接将是随机向量z直接作为生成网络的输入,而是先通过映射网络将图z特征解耦为图像特征向量w,通过仿射变换生成一种风格,然后通过自适应实例归一化,来控制该层级所表示的视觉特征。相比于图1(a),合成网络新增加了仿射变换A(Affine transfer)和噪声缩放通道B(Scale),另外用自适应归一化模块AdaIN替代了原来的像素归一化Pixel Norm模块。通过加入这三个模块,合成网络可以实现对图像的样式控制,实现方式如图3所示,具体可分为五步。

图3 图像样式可控化实现

2.2.1 混合噪声

x=x+α×noise

(1)

其中,x表示卷积输出;α为比例缩放因子;noise表示噪声。

引入经过比例缩放(Scale)的噪声noise与卷积层的输出(Conv outputx)进行混合,可以微调对应的分辨率层级上图像的视觉特征,生成的红外舰船图像往往更加逼真与多样。

2.2.2 像素归一化(Pixel Norm)

(2)

其中,x表示叠加噪声的卷积输出;xi是x第i个像素点的值;N是x像素点的个数,ε是归一化的参数,防止分母为0。

像素归一化是局部响应归一化(LRN)的变种,可以有效避免生成网络训练过程中的梯度爆炸现象。

2.2.3 实例归一化(Instance Norm)

(3)

其中,x′是步骤②的输出;μ(x′)和σ(x′)是x′中所有像素点的均值和标准差;ε是归一化的参数,防止分母为0。

实例归一化是对特征图像的宽和高两个维度进行归一化,加速模型的收敛,并且可以保持样例之间的相对独立性。

2.2.4 仿射变换(Affine transfer)

y=Dense(w)

(4)

其中,w是经过映射网络特征解耦的中间向量;Dense(·)表示全连接操作;输出y为样式因子,由缩放因子ys和偏置因子yb共同组成。

2.2.5 线性变换(Linear transfer)

x‴=ys·x″+yb

(5)

其中,ys和yb是经过步骤④得到的缩放因子和偏置因子;x″是经过步骤③的输出;x‴是自适应归一化模块(AdaIN)的最终输出。

合成网络之所以能实现对最终生成图像的样式控制,主要是生成图像的关键信息仅由上采样层(Upsample)和卷积层(Conv 3×3)来决定,卷积输出的归一化(Pixel Norm、Instance Norm)操作抹去了对图片局部信息的可见性,而w经过仿射变换成ys与yb,与标准化的卷积输出进行加权求和,仅仅影响图片的全局信息。

2.3 损失函数

对GAN网络进行训练,影响G和D训练效果的关键在于损失函数的选取,这里选择的是logistic损失函数。

2.3.1 生成网络的损失函数

生成网络的损失函数是非饱和logistic损失:

Loss_G=log(1+e-D(G(w)))

(6)

其中,D(G(w))表示判别网络对生成图像的评分,由于生成网络的目标只是生成足够真实的图像,因此损失函数只需对生成图像G(w)计算损失。

2.3.2 判别网络的损失函数

判别网络的损失函数是含梯度惩罚项的logistic损失:

Loss_D=log(1+e-D(X))+log(1+eD(G(W)))+

(7)

log(1+e-D(X))+log(1+eD(G(W)))为判别网络的logistic损失,其中,D(X)和D(G(w))分别表示判别网络对真实图像和生成图像的评分,由于判别网络需要鉴别图像的“真伪”,因此损失函数需同时对真实图像X和生成图像G(w)计算损失。

3 特征可控的红外图像生成

首先通过图像编码网络找到红外图像在特征向量域W对应的特征向量w,然后利用logistic回归方法在W找到控制红外图像视觉特征的方向向量e,沿着方向向量e以不用的幅度coeff对w进行调整,通过合成网络生成图像,可以对图像的视觉特征进行控制,实现红外图像的可控化生成。

3.1 图像编码网络架构

借鉴了双向对抗生成网络(BiGAN)[11]的思想,利用 Resnet50模型[12]较好的图像特征提取能力,选取其作为图像编码网络的基础架构,然后加入几个转换层(Conv2D:卷积层;reshape:形状重定;Locally_connected:局部连接层;Permute:维度置换),构建了图像编码网络:输入红外图像,输出图像特征向量。网络结构如图4所示。

图4 图像编码网络架构

3.2 图像编码网络的训练

图像编码网络的训练分为模型的预训练和模型微调两个阶段,如图5所示。

在预训练阶段,将随机产生的图像特征向量w通过合成网络(Synthesis network)生成红外图像G(w),以G(w)和w分别作为编码网络的输入和输出,训练得到一个预训练模型,如图5(a)。

预训练阶段仅仅是在生成图像域上的训练,而具有实际应用价值的是能够找到真实红外图像的特征向量。因此在微调阶段,选取真实的红外图像作为编码网络的输入,如图5(b)所示,针对特定的图像w,对预训练模型进行微调,以便找到其在特征向量域W的准确位置(target)。

图5 分阶段训练图像编码网络

图像编码网络训练的算法流程如下:

其中,Lperceptual(G(w′),x)为感知损失,是真实图像x和生成的图像G(w′)经过VGG16模型[13]特征提取后两者的特征相似度loss,计算方式如下:

(8)

其中,Fi(·)表示VGG16中卷积层conv1_1,conv1_2,conv3_2,conv4_2输出的feature map;

||G(w′)-x||2是L2正则项,避免模型训练出现的过拟合,λL2是正则项系数。

3.3 Logistic回归求解方向向量

针对红外图像中的某一视觉特征,探究其在特征向量域W的方向向量。

首先对采集的红外图像样本添加属性标签,然后探究标签值的变化与对应特征向量分布变化的关系,将这一变化关系用方向向量e表示,其维度与特征向量w一致。对于e的求解,有两种方法。

方法一是每次取两个样本p和q,用两者的特征向量的差值除以标签的差值,得到一个方向向量:

(9)

然后多次重复这一过程,将所有的方向向量累加起来并求平均值,就得到了估计的方向向量e:

lp≠lq

(10)

其中,wp和wq分别为样本p和q的特征向量;lp和lq分别为样本p和q的标签。

方法一只适用于小样本的处理,对于大样本处理效率很低。方法二采用了中位数二分法,以标签的中位数(Median)为分界线,低于中位数的置0,高于中位数的置1,将问题转化为二分类问题,构造目标函数:

a·x+b=y,y∈{0,1}

(11)

然后用Logistic回归的方法求解,求得的向量a近似作为方向向量e:

e≈a=argmaxaP(a·x+b=y)

(12)

3.4 调整特征向量重构图像

给定一幅图像,如果要对图像的某一视觉特征进行调整,首先将图像通过图像编码网络转化为特征向量w,然后按照该视觉特征变化对应的方向向量e以一定的幅度coeff调整w,得到新的特征向量wnew:

wnew=w+coeff·e

(13)

将wnew通过合成网络重构图像,合成的新图像与原图像相比仅在这一维视觉特征上发生了变化,并且可以通过改变coeff控制视觉特征变化的幅度。

要控制图像实现多视觉特征的变化,只需将上式可以改写为:

wnew=w+coeff1·e1+coeff2·e2+…

+coeffn·en,i=1,2,…,n

(14)

其中,ei和coeffi分别为视觉特征i对应的方向向量和幅度。

4 实验与分析

4.1 红外图像数据集

实验用HF-160-2型双光吊舱的红外热像仪系统对1∶400的舰船模型进行取样,从不同的水平角度(0~360°,间隔10°)、摄目距离(1.8~3.4 m,间隔0.1 m)对舰船模型进行拍摄,获得612张原始的真实红外图像,分辨率为720×576,通过图像形态学处理(镜像翻转、中心旋转、引入Gauss噪声)进行样本增广,最终获得4284张红外样本图像,随机选取其中的3672张图像作为训练集,612张作为测试集。

4.2 训练渐进式生成对抗网络

4.2.1 训练参数设置

设计的合成网络共8个分辨率层级:4×4;8×8;…;512×512,输入生成网络的随机向量z和解耦后的特征向量w的维度为(1,512)。训练采用Adam优化算法,设置学习率lr=0.0001,一阶矩估计的指数衰减率β1=0,二阶矩估计的指数衰减率β2=0.99; Loss_G为非饱和的Logistic损失; Loss_D是含梯度惩罚项的Logistic损失,惩罚项系数γ1=10,γ2=0;训练的批尺寸batch=32,在Nvidia TITAN V单GPU显卡(显存12G,训练占用显存9.8G)上训练,训练迭代次数steps=164000。

4.2.2 迭代次数与损失函数的关系

如图6所示,随着迭代次数steps的增加,Loss_G逐渐下降,在第20000次左右达到了收敛;Loss_D由三部分组成:Loss_Dreal; Loss_Dfake和gradient_penalty,对应于图6中的(b)(c)(d)。初始Loss_D较小,是因为G生成图像的能力较弱,D可以轻松鉴别出真实图像和生成的图像;当0100000时,G和D趋向成熟,两者处于一种动态较量的状态,性能同时得到了提升:G生成的图像越来越真实,D鉴别真伪的能力越来越强。

图6 红外数据集上损失函数的变化趋势

4.2.3 图像质量评价

评价网络训练的好坏是从视觉特征上对生成的图像样本进行评价,为展现生成的图像在各分辨率层级上的训练效果,在合成网络的32×32,64×64,128×128,256×256的四个分辨率层级的输出上添加了toImage()模块[14],负责将该层级的特征图转换为红外图像。指定一个固定的随机向量z(1×512),经过不同次数训练的生成网络,得到在各分辨率层级上的图像输出,如图7所示。

图7 不同分辨率层级图像的可视化结果

随着训练次数的增加,合成网络生成的图像在各分辨率层级上的输出也愈加清晰。当训练进行到160000次,生成网络最终生成的512×512图像轮廓清晰,结构合理。

4.3 训练图像编码网络

4.3.1 训练参数设置

训练采用Adam优化算法,学习率lr=0.0003,一阶矩估计指数衰减率β1=0,二阶矩估计指数衰减率β2=0.99;感知模型用vgg16_zhang_perceptual的conv1_1,conv1_2,conv3_2,conv4_2四层,损失函数正则项系数λL2=3,模型经过steps=115000的预训练和steps=18000的微调,损失最终收敛到0.082。

4.3.2 相似度检测

实验选取了红外图像测试集上的100张图像,经图像编码网络得到对应的特征向量,然后将特征向量输入合成网络,得到重构的图像。如图8所示,与原始图像相比,重构的图像保持了原有的轮廓结构,但部分位置(如图8(b)中的1、2和3)的细节表现较为模糊。

图8 原始红外图像及其重构图像

为了定量比较重构图像与原始红外图像的差异,利用均值哈希算法(aHash)[15]和平均结构相似性算法(MSSIM)[16]对100张原始红外图像与对应的100张重构图像进行相似度检测,结果见表1。

表1 重构图像的质量评价(S:Similarity)

aHash算法检测出有85张重构图像的相似度超过90 %,为高质量图像,有10张的相似度低于80 %,为低质量图像;MSSIM算法检测出所有的重构图像与原始红外图像的相似度均在80 %以上。上述结果表明,图像编码网络能够准确找到红外图像在特征向量域W对应的特征向量w,w通过合成网络重构的图像与原始图像有很高的相似度。

4.4 角度可控的红外图像生成

4.4.1 寻找角度属性的方向向量

在红外图像样本训练集上,根据图像中舰船的角度添加标签:以舰首正对热像仪为基准,舰首左偏的图像记为0;舰首右偏的图像记为1。利用logistic回归模型对图像对应的特征向量进行分类,求得角度自左向右变化的方向向量e,并通过交叉验证的方式对模型的性能进行评估,准确率最终达到了94.87 %。

4.4.2 调整特征向量重构图像

经过100次的重复实验,图9(a)给出了coeff与角度变化的映射关系,图9(b)给出了重构的红外图像与真实红外图像的相似度检测结果。在[-3.0,3.0]区间内,coeff与舰船角度的变化近似为线性关系:coeff每改变0.3,角度改变约10°;重构的图像与真实图像的相似similarity>0.8。而在其他区间内,coeff与舰船角度的变化为非线性关系,且重构的图像均为低质量图像(similarity<0.8)。因此coeff一个合理的取值区间为[-3.0,3.0],在这一区间内可以对红外图像中舰船的角度进行定量控制,且能保证重构图像的生成质量。对应的,舰船角度改变的调整范围为[-100°,100°],如需生成舰船360°的全方位红外仿真图像,则至少需要两张角度差大于等于160°的真实图像。

图9 调整红外图像中舰船角度的可控化实验

图10选取了其中一次实验的仿真结果,实验选取一幅舰首左偏40°的真实红外图像,以0.3的间隔调整coeff的值,调整特征向量并重构图像,实现了不同舰船角度的红外图像生成。在笔者实验的计算机平台上,利用训练好的合成网络进行图像生成,生成每幅图像的平均用时约为27 ms,满足实时性仿真的需求。

5 结 语

本文提出了一种可控化的红外图像仿真技术,在渐进式对抗生成网络模型的基础上进行改进:引入映射网络,将输入向量转换为特征向量实现特征解耦;引入自适应归一化模块,实现对生成图像的样式控制,最终通过合成网络输出512×512的高分辨率红外仿真图像。基于Resnet50模型设计与合成网络逆向的图像编码网络,实现红外图像到特征向量的转换。在图像特征向量域,运用logistic回归的方法找到了控制红外图像中舰船角度的方向向量,沿着方向向量以不同的幅度对特征向量进行调整,通过合成网络重构图像,便可得到不同舰船角度的红外仿真图像,最后通过aHash算法和MSSIM算法对仿真图像和真实图像进行相似度检测,两者具有很高的相似度。实验结果表明:通过调整图像特征向量实现角度控制的仿真方法是可行的,这为小样本图像的数据增广技术提供了一种手段,并可以为真实舰船的红外图像仿真技术提供参考。

图10 不同舰船角度的红外图像生成(舰船角度以舰首正对热像仪为基准:左偏取负,右偏取正)

猜你喜欢
特征向量舰船红外
舰船通信中的噪声消除研究
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
网红外卖
环球时报(2022-05-23)2022-05-23 11:28:37
克罗内克积的特征向量
闪亮的中国红外『芯』
金桥(2021年4期)2021-05-21 08:19:20
舰船测风传感器安装位置数值仿真
TS系列红外传感器在嵌入式控制系统中的应用
电子制作(2019年7期)2019-04-25 13:17:14
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
中华建设(2017年1期)2017-06-07 02:56:14
基于快速递推模糊2-划分熵图割的红外图像分割