DGANS：基于双重生成式对抗网络的稳健图像隐写模型

2020-02-09 09:29:28竺乐庆郭钰莫凌强张大兴

通信学报 2020年1期

竺乐庆，郭钰，莫凌强，张大兴

（1.浙江工商大学计算机与信息工程学院，浙江杭州 310018；2.杭州电子科技大学计算机学院，浙江杭州 310018）

1 引言

图像信息隐藏利用图像数据的统计冗余和人类感知冗余，将有意义的秘密信息隐藏到图像中，且非授权者无法确认该载体中是否隐藏了信息，达到隐蔽通信、版权保护等目的[1]。从最初的最低有效位方法，到基于离散傅里叶变换、离散余弦变换[2]、离散小波变换[3]等变换域方法，以及提高安全性的高度不可检测隐写（HUGO,highly undetectable stego ）算法[4]、空域通用小波相对失真（S-UNIWARD,spatial universal wavelet relative distortion）方法[5]、小波获得权重（WOW,wavelet obtained weight）方法[6]等内容自适应隐写术，图像信息隐藏技术呈现多元化发展。这些传统隐写方法虽然在透明性、安全性方面已逐渐完善，但是在隐写容量及稳健性方面仍存在提升空间。近年来，随着深度学习技术的发展和推广，深度学习框架同样也被引入图像隐写术中。Shi 等[7]基于生成式对抗网络（GAN,generative adversarial network）[8]，结合高斯-神经元卷积神经网络提出了一种名为安全隐写GAN（SSGAN,secure steganography based on GAN）的模型用于隐写术，SSGAN 生成的图像用HUGO 隐写后更难于检测。Hayes 等[9]直接用GAN嵌入隐写信息并提取，可以在32×32 大小的图像中隐写100～400 位二进制位，取得了优于HUGO、WOW 和S-UNIWARD 的性能。Rehman 等[10]采用编码器-解码器结构深度学习框架在彩色图像中隐写灰度图像并提取，然而含密图像在色彩上有失真。Baluja[11]提出的深度隐写框架包括准备网络、隐藏网络、显现网络三部分，可以在彩色图像中隐藏小于等于原图的彩色图像。Chu 等[12]探索了使用CycleGAN 在图像中隐藏信息并还原信息的可能性。Tang 等[13]提出了自动隐写失真学习框架，GAN的产生器用于寻找图像中适合嵌入或隐藏信息的像素，区分器则训练为隐写分析器。Zhang 等[14]提出的不可见隐写 GAN（ISGAN,invisible steganography via GAN）可以在发送端隐藏灰度图像到彩色图像中，在接收端提取出所隐藏的灰度图，使用GAN 提高隐写安全性和隐蔽性。Wu等[15]提出的StegNet 采用可分离卷积残差块，能在64×64 大小的彩色图像中隐藏另一彩色图像，然而含密图像有明显色彩失真，隐蔽性不够理想。Duan 等[16]用UNet 在彩图中隐藏彩图，最终的性能要优于前几种方法。上述框架大大提高了图像隐写的容量，但均未对隐写模型的稳健性进行测试和评估。本文提出的DGANS 模型对基于深度学习的图像隐写模型的稳健性进行研究，主要贡献如下。

1)在编码解码网络结构中，采用双重GAN，第一个GAN 用生成器生成含密图像，鉴别器作为隐写分析网络来增强隐写术的安全性；第二个GAN用生成器提取秘密图像，鉴别器用来增强网络的稳健性，使整体网络同时拥有较高安全性和稳健性。

2)对训练集生成的含密图像集进行几何变换（平移、旋转、缩放）增强，用增强的数据集对第二个GAN 进行单独强化训练，使该网络对上述变换具有适应性，进一步增强模型的稳健性。

2 DGANS 隐写模型

2.1 DGANS 模型总体结构

本文提出的DGANS 隐写模型总体结构如图1所示，灰度秘密图像通过DGANS 模型隐藏到彩色封面图中并能从中还原。为了不破坏原始封面的颜色信息，图像隐写在YUV 颜色空间的Y 通道。网络的基础模型的组成包括隐写网络GAN1和提取网络GAN2。GAN1生成器输入为封面图像和秘密图像，判别器输入为封面及含密图像；GAN2生成器输入为含密图像，判别器输入为原秘密图像secret1以及提取出来的秘密图像secret2。2 个GAN 分别用对抗训练来提高图像隐写的安全性和稳健性。其中GAN1的判别器为隐写分析网络XuNet1[17]，接收三通道输入；GAN2的判别器为XuNet2，其输入为单通道。

图1 DGANS 隐写模型总体结构

2.2 基于Inception 结构的编码器和解码器网络

在图1 所示的编码器-解码器神经网络中，本文利用图2 所示的Inception[18]模块作为基础结构，Inception 结构将1×1、3×3、5×5 的卷积和3×3 的最大值池化堆叠在一起，一方面增加了网络的宽度，另一方面增加了网络对尺度的适应性，改善了图像嵌入和提取的效果。基于Inception 结构的编码器网络如表1 所示，解码器网络如表2 所示。编码器网络的输入为封面图像的Y 通道与秘密图像的通道连接，输出为含密图像的Y 通道。解码器网络的输入为含密图像的Y 通道，输出为提取的秘密图像。批归一化（BN,batch normalization）[19]对输入进行归一化处理，解决了训练偏移的影响，同时加快了训练的速度。其中LeakyReLU、Tanh 和Sigmoid为3 种不同的激活函数。

图2 Inception v1 结构

表1 编码器网络结构

表2 解码器网络结构

2.3 通过对抗训练增强安全性

图像隐写的安全性极为重要，安全性表现为用通常的隐写分析方法难以检测到图像中是否包含隐藏信息。本文通过对抗训练来达到安全隐写的目的。Goodfellow 等[20]提出的GAN 由一个生成器G和一个判别器D 组成。生成器G 努力让生成的图像更加真实，而判别器D 则努力去识别出图像的真假，通过对抗训练使生成器G 生成的图像无限逼近真实的图像，从而使判别器D 对真假图像的辨别正确率降到0.5 左右。将本文使用的隐写分析网络XuNet1作为判别器D，编码器网络作为生成器G，通过对抗训练使生成的含密图像难以被隐写分析网络检测到，从而提高生成算法的安全性。XuNet1的网络结构如表3 所示，其输入为原始封面图像或含密彩色图像，输出为隐写检测结果。

表3 对抗训练判别器XuNet1及XuNet2结构

2.4 通过对抗训练和数据增强提高稳健性

图像隐写的稳健性是一项十分重要的属性，反映了图像隐写技术的抗干扰能力。现有的基于深度学习的图像隐写模型大多注重的是隐蔽性和容量，但对稳健性关注较少，本文研究的重点就是通过对抗训练来提高图像隐写的稳健性。

将本文中的解码器网络作为GAN2的生成器，XuNet2作为判别器，XuNet2的网络结构如表3所示。由表3 可知，本文将第二个判别器设计成与第一个判别器类似的结构，两者的区别是输入通道数不同，XuNet1接收三通道输入，而XuNet2接收单通道的秘密图像。本文期望通过这样的设计让第二个判别器能分辨出秘密图像细微的变化。将解码器提取得到的秘密图像secret2作为负例，原秘密图像secret1作为正例输入进判别器XuNet2辨别，通过两者相互博弈促进，使secret2与secret1无限接近。同时单独对包含解码器网络的GAN2进行增强训练，即对GAN1生成的含密图像数据集进行旋转、裁剪、缩放数据增强后，再用增强数据单独对GAN2进行强化训练，进一步提高了模型的稳健性。

2.5 损失函数

本文的损失函数主要包括4 个部分，编码器的损失、解码器的损失以及2 个生成式对抗网络的判别器损失。GAN 的训练过程为

其中，D(x)表示对真实的样本进行判别，其判别结果越接近1 越好，所以损失函数为log(D(x))；G(z)表示生成器编码网络输出的含密图像以及解码网络提取的秘密图像，本文希望判别器的判别结果D(G(z))越接近0 越好。对抗训练的目的是优化D使式(1)的期望最大化，同时优化生成器G使式(1)期望最小化。因此判别器D的损失会在生成器G和判别器D中反向传播，但生成器G的损失仅在生成器内反向传播。GAN2解码网络的损失会同时在编码网络和解码网络中反向传播，而编码网络的损失只在编码网络内反向传播。

2.5.1 编码器-解码器损失

编码器与解码器的损失主要由图像间像素值和结构上的统计差异计算得到，编码器损失为含密图像与封面的差异度，解码器损失为提取的秘密图像与原秘密图像的差异度。损失由均方误差（MSE,mean square error）和结构相似度（SSIM,structural similarity）[21]联合计算得到，MSE 表示图像x和图像y的均方误差，如式(2)所示。

SSIM 分别从亮度、对比度、结构3 个方面衡量图像的相似性，如式(3)～式(6)所示。

其中，μx、μy分别表示图像x与图像y的均值，σx与σy分别表示图像x与图像y的方差，σxy表示图像x与图像y的协方差，τ1、τ2、τ3为3 个取值较小的正常量，用于避免除数为0 出现计算异常，L、S、C分别表示亮度、结构和对比度相似性。式(7)计算的多尺度结构相似度（MS-SSIM,multi-scale SSIM）可以对不同尺度进行结构相似度评判。

其中，N表示多尺度下采样的级数，lN、γj、ρj为0～1 之间的参数，用于控制各成分在相似度衡量时的重要性，L、S、C的下标表示所在的尺度。

由MSE、SSIM 和MS-SSIM 联合计算编码器和解码器的损失，编码器损失如式(8)所示。

其中，c为封面图像，s为含密图像。

解码器损失如式(9)所示。

其中，s1为原始秘密图像，s2为提取出来的秘密图像。

编码器-解码器损失如式(10)所示。

其中，超参数值χ=0.5，δ=0.85，ε=0.3。

2.5.2 GAN 判别器损失

DGANS 的2 个生成式对抗网络的生成器分别为上述的编码网络和解码网络，损失即为2.5.1 节描述的损失。另外，判别器的损失使用二值交叉熵（BCE,binary cross entropy）损失，BCE 如式(11)所示。

其中，x和y分别为判别器目标和预测输出。DGANS包含2 个判别器，其中一个判别器为隐写分析网络XuNet，其损失dis_loss(c,s)如式(12)所示；另一个判别器为XuNet2，其损失函数dis_loss(s1,s2)如式(13)所示。

其中，η为0.8～1.2 之间的随机数。

3 实验结果

本节主要介绍实验使用的数据集、参数的设置以及实验过程和结果。实验数据集采用PASCAL VOC2012[22]，使用其中11 540 张图片作为训练集，前5 770 张图片作为秘密图像，剩下的5 770 张图片作为封面图像。随机选取5 000 张图片用作验证集，前2 500 张作为秘密图像，后2 500 张作为封面图像，测试实验所使用的数据均为5 000 张验证集图片得出的结果。所有图片的尺寸都归一化为256×256 的大小。

在实验的参数设置上，模型所有的参数都使用Xavier 初始化，本模型使用的实验环境为一台安装有 GTX1080Ti 显卡的服务器，操作系统为Ubuntu16.04，显卡驱动的版本为 CUDA9.0+cuDNN7.0，程序用python3.5 版本的pytorch 深度学习框架实现，使用的集成开发环境为pycharm。批大小设置为5，初始学习率设置为10-4，训练了80 轮后网络收敛。整个模型的损失为编码器-解码器损失以及2 个GAN 判别器的损失之和，如式(14)所示。

训练过程中总损失变化情况如图3 所示。

3.1 隐写容量分析

一个好的隐写模型，应具备良好的隐蔽性、较大的隐写容量以及较高的稳健性，DGANS 模型嵌入的图像尺寸都是256×256，嵌入容量为8 bpp (bit per pixel)。不同模型隐写容量对比结果如表4 所示。由表4 可知，DGANS 具有较大的隐写容量。

图3 训练过程中总损失变化曲线

表4 不同模型隐写容量对比结果

3.2 隐蔽性测试结果

对于隐写模型的隐蔽性，首先用封面与含密图像之间以及原秘密和提取的秘密图像之间的峰值信噪比（PSNR,peak signal to noise ratio）以及SSIM值来衡量，图像的PSNR 计算式为

PSNR 数值越大表示差异越小。PSNR 使用广泛的图像差异度评价指标，但是PSNR 不能反映人类的视觉差异，SSIM 更接近人类视觉感知。完全训练的DGANS 在整个验证集上的PSNR 和SSIM 统计结果表5 所示。图4 给出了DGANS、Rehman 等[10]模型及ISGAN[14]的可视化结果展示。由表5 和图4 可知，本文隐写模型有很好的隐蔽性，肉眼观察不到含密图像与封面图像区别，同时也有很好的还原能力，从含密图像提取的秘密图像与原图也没有明显区别。由图4知，在未受攻击情况下，Rehman 等[10]及ISGAN[14]等类似模型都表现出相当的性能。

图4 可视化结果比较

表5 DGANS 的PSNR 和SSIM 统计结果

使用Ye 等[23]的隐写分析模型YeNet 对DGANS进行隐写分析测试，YeNet 使用BOSSBase 数据集采用S-UNIWARD[5]隐写方法生成的数据集训练得到，检测结果所得的受试者工作特征（ROC,receiver operating characteristic）曲线以及曲线下面积（AUC,area under curve）的值如图5 所示。与S-UNIWARD的ROC 曲线相比，DGANS 的AUC 值要低于S-UNIWARD，不易手动检测，这进一步证明了DGANS 有良好的隐蔽性。

3.3 稳健性测试及对比实验

本文分别对旋转、平移、缩放3 种几何攻击进行了稳健性测试。当对含密图像进行低小角度旋转、小幅度平移、缩放后，用训练好的解码网络提取秘密图像，用SSIM 值来评估从受攻击图像中提取的秘密图像与原始秘密图像的相似度，并与Rehman 等[10]模型及ISGAN[14]等其他类似模型进行对比，所有模型均用相同训练集训练至收敛。

图5 隐写检测ROC 曲线

3.3.1 旋转攻击测试

旋转攻击测试包括逆时针旋转2°、逆时针旋转5°共2 组实验，具体实验结果及与其他模型对比结果如表6 所示。由表6 可知，在旋转攻击下，本文的DGANS 模型提取的秘密图质量要明显优于其他模型，旋转5°时提取的秘密图SSIM 值甚至是另外2 个模型提取的秘密图SSIM 值的2 倍左右。

表6 旋转攻击下不同模型提取的秘密图SSIM 值对比

图6 为旋转攻击测试的可视化结果。从图6 可以看出，经旋转之后Rehman 等的模型基本是失效的，ISGAN 的提取比较差，出现了明显的图片裂化现象，而DGANS模型提取效果受旋转攻击影响较小。

3.3.2 平移攻击测试

平移攻击测试进行了如下实验：水平平移2 个、5 个像素，垂直平移2 个、5 个像素，随机水平平移0～10 个像素，随机垂直平移0～10 个像素，水平垂直同时随机平移0～10 个像素。平移攻击下不同模型提取的秘密图SSIM 值对比如表7 所示。从表7 可以看出，平移攻击后提取的秘密图像中，DGANS 要比其他模型好15%～20%。

图6 旋转攻击实验

表7 平移攻击下不同模型提取的秘密图SSIM 值对比

图7 平移攻击实验

图7 为平移攻击实验的可视化结果，其中第一行为水平随机平移0～10 个像素，第二行为垂直随机平移0～10 个像素，第三行为水平垂直同时进行0～10 像素的随机平移的可视化结果。由图7 可知，本文DGANS 模型稳健性较佳，并明显优于另外2个模型，Rehman 等的模型出现密图提取失效的情况，ISGAN 提取的结果出现大量噪点，DGANS 则受影响较小。

3.3.3 缩放攻击测试

缩放攻击实验主要是对含密图像随机缩放80%～120%后再进行提取，观察提取效果。得出的提取结果与ISGAN 的结果相当，都具有很好的抗缩放攻击的提取效果，而Rehman 等的模型则对尺度变化较为敏感。具体对比结果如表8 所示，可视化结果如图8 所示。由图8 知，DGANS 和ISGAN基本对尺度变化有较好的适应性，Rehman 等的模型则出现提取失效的情况。

表8 缩放攻击下不同模型提取的秘密图SSIM 值对比

4 结束语

本文在使用深度学习实现图像信息隐藏的过程中，提出了DGANS 图像隐写模型，该模型具有高容量、良好的隐蔽性和稳健性等特性。DGANS 可以有效地将单通道的灰度秘密图像嵌入隐藏进封面图像中，并从中提取出来。本文在保证高隐蔽性的基础上，对基于深度学习的隐写模型的稳健性进行了研究，使隐写图像在受到一定的几何攻击后，仍能以较高的保真度将秘密图像提取出来，这是大多数基于深度学习的图像隐写模型未涉及的。本文在PACAL VOC2007 数据集上进行了实验验证，实验结果表明，本文在提高稳健性方面的模型设计是有效的。

图8 缩放攻击实验