尹甜甜,刘 婷,郭一娜
(太原科技大学 电子信息工程学院,太原 030024)
在出土文物中,经常会出现古汉字的遮挡与损失现象,手工复原无法完成,文字内容成谜,而单通道盲去卷积旨在从单通道卷积混合信号中分离和解卷积源信号[1],在图像,语音,音频的去噪和修复中都有重要研究意义.在仅有一张古汉字与遮挡的混合图像时,即仅有单通道的混合物可用,此时,没有关于混合矩阵的先验知识,源古汉字图像信号和混合矩阵都需要估计[2],传统的源分离方法分为基于分解的方法和基于回归的方法,许多基于分解的方法都是较为简单的模型,例如非负矩阵分解法(Nonnegative Matrix Factorization,NMF)和独立成分分析法(Independent Component Correlation Algorithm,ICA),这种方法通常用一种解线性方程组的方式求解源信号,仅解决线性混合问题,而与神经网络相比,这些简单模型并没有足够的能力表示各种源信号.基于回归的方法则通过深度神经网络能够对复杂的映射关系进行建模,但是需要混合矩阵与源信号进行训练,如果测试数据中的混合矩阵与训练数据中的混合矩阵分布不同,由于在测试数据中看不到混合矩阵类型,导致分离效果不佳[3].
在最近关于单通道盲去卷积的研究中,Stoller[4]、Subakan 和Smaragdis[5]、Fan[6]等人都先后提出使用生成对抗网络(Generative Advesarial Network,GAN)来解决源分离问题,但这些方法都假定已知单通道盲去卷积问题中的混合矩阵.针对此类问题,本文提出一种基于深度卷积生成对抗网络的单通道盲去卷积算法(DCSS),与传统的基于回归方法相比[7],DCSS算法使用深度卷积生成对抗网络(Deep convolution generating adversarial network,DCGAN)以生成方式解决此类问题.DCSS可以估计源信号和混合矩阵,而常规的回归方法则无法估计混合矩阵.DCSS算法中,使用DCGAN对古汉字与遮挡图像集进行训练预处理,在分解过程中,通过最小化混合物的重建误差来获得源信号和卷积混合过滤器[8].此外,在该算法中,将单通道盲去卷积[9]中去卷积问题转为贝叶斯最大后验(Bayesian Maximum posterior estimation,MAP)估计,这是一个受约束的非凸优化问题,为了解决该非凸优化问题,用不同的初始化重复分解可以显著提高欠定的单通道盲去卷积性能.基于古汉字与遮挡图像数据集做欠定的单通道盲去卷积实验,以证明DCSS算法的有效性.
在单通道盲去卷积中,单通道混合信号x(t)由各个源信号sk(t)与未知混合矩阵ak(t)以及未知噪声n(t)组成,其中x(t),sk(t),ak(t),n(t)∈L2(Ω),t∈Ω,k=1,2,...,K,空间Ω可以是欧几里得空间Rd,k,d分别表示信号源的数量和维数,可用公式(1)表示:
(1)
古汉字与遮挡混合图像为观测到的单通道卷积混合图像信号x(t)可用公式(2)表示:
x(t)=(a1*s1)(t)+(a2*s2)(t)
(2)
符号“*”表示卷积运算:
(3)
在单通道信号盲分离和去卷积问题涉及从单通道混合物x(t)分离和解卷积单个信号源sk(t),而混合矩阵ak(t)同样未知.在下文讨论中,分别将x(t),sk(t),ak(t)的形式简化为x,sk和ak.
在古汉字图像修复问题中,基于深度卷积生成对抗网络的单通道盲去卷积算法(DCSS)主要分为两步,首先使用DCGAN对古汉字与遮挡图像集进行训练预处理,将贝叶斯最大后验概率估计(MAP)中的约束问题转为优化问题;其次在单通道盲去卷积时,DCGAN中生成器G是非线性映射,因此用基于梯度的优化方法,通过多次重建,选择误差最小的分离结果.
(4)
其中x为公式(1)中所提及的信号源{s1,s2,…,sk}和混合滤波器{a1,a2…ak}的集合,即x={s1,s2…sk,a1,a2…ak}.
公式(4)由贝叶斯法则可得:
(5)
在公式(5)中Pr(yc|xc)是数据图像中类别定义为c的似然函数,Pr(xc)为先验概率,重建后信号为:
(6)
其中求和是一个高斯过程,因此给定估计信号时,观测到的信号可能性如公式(7)所示:
(7)
在单通道盲去卷积中信号源和混合矩阵都是未知的,假设源信号和混合矩阵是相互独立的,Pr(xc)可以表示为:
(8)
则源信号和混合矩阵的估计为:
(9)
在古汉字修复问题中,仅研究古汉字与遮挡两路混合图像信号,所以kmax=2.
在单通道盲去卷积中,由于源信号sk和混合矩阵ak未知,导致上节中公式(9)存在约束性,DCSS算法将该问题转化为无约束的优化问题,首先使用DCGAN训练预处理古汉字与遮挡图像集,DCGAN由生成器G和判别器D组成,生成器G主要实现高斯分布噪声与源信号实际分布之间的映射,生成器G生成的样本欺骗判别器D,判别器D通过训练将生成的假样本与训练数据集中的真实样本区分开来.图1为深度卷积生成对抗网络(DCGAN)的工作原理图.
图1 深度卷积生成对抗网络工作原理图Fig.1 Working principle of deep convolution generating adversarial network
深度卷积生成对抗网络(DCGAN)的损失函数为:
Εx~ρdata(s)[logD(x)]+Εz~ρz(z)[log(1-D(G(z)))]
(10)
其中ρdata为实际数据的概率密度,DCGAN的训练算法如表1所示.
表1 DCGAN训练算法Table 1 DCGAN training algorithm
DCGAN训练结束后,为解决上节公式(9)中的局限问题,训练预处理生成的数据zk代替源信号sk,进而将sk的优化问题转为对zk的优化问题.将Pr(sk)近似为:
(11)
对公式(9)取对数,优化问题如公式(12)所示:
(12)
在深度卷积生成对抗网络(DCGAN)中,生成器G为非线性映射,分解单通道卷积混合信号为非凸问题,为了解决该问题,使用基于梯度的优化方法多次迭代达到局部误差最小,定义τ为生成源信号zk和混合矩阵ak的集合,则可以通过公式(13)计算τ的梯度:
(13)
最终结果通过多次重建选择初始化之后误差最小的一个以达到最好的分离效果.
实验设置:为验证DCSS算法的有效性,实验从华文字库古汉字图像集中随机抽取5组古汉字图像集,其中每组训练集有4096张图片,古汉字与遮挡图片分别2048张,测试集512张图片,古汉字与遮挡分别256张,完成单通道盲去卷积.图2为数据集样本.
图2 古汉字与遮挡数据集样本Fig.2 Samples of ancient Chinese characters and occlusion datasets
DCGAN采用深度卷积网络对生成器G建模.生成器G网络具有4个转置卷积层,特征图数量分别为512,256,128和1,在每个转置卷积层之后应用批处理归一化,使用ReLU作为激活函数防止梯度消失,移除全连接层,以使该网络为完全卷积网络.图3为DCGAN网络结构图.
图3 DCGAN网络结构图Fig.3 DCGAN network structure diagram
DCGAN输入是一个维度为100的随机噪声向量,服从高斯分布,区间为[0,1].生成器G的输出是与训练数据中的图像具有相同尺寸大小的图像,判别器D将假的或真实的图像作为输入并判定其真伪.DCGAN通过5000次迭代对源信号sk训练预处理生成结果zk.DCGAN训练预处理源信号结果如图4所示.DCGAN判别器D训练_loss如图5所示.
图4 DCGAN训练预处理源信号结果图Fig.4 DCGAN training preprocessing source signal result
图5 DCGAN判别器D训练_lossFig.5 DCGAN Net D training _loss
单通道盲去卷积中混合矩阵ak和每个源信号sk都需要估计.依据古汉字图像特点,研究两路混合信号s1,s2,的盲去卷积问题.图6显示了DCSS算法的单通道盲去卷积结果,第
图6 单通道盲去卷积Fig.6 Single-channel blind deconvolution
1列为信号源s1分离信号的分离信号s11,第2列为去卷积得混合矩阵a22,第3列为信号源s2分离信号s22,第4列为去卷积得混合矩阵a22.
本文实验使用峰值信噪比(PSNR)评估单通道盲去卷积质量,较高的峰值信噪比表明质量较好.PSNR定义:
(14)
其中MAXI表示无噪声图像的最大值,MSE表示两个图像A和B之间的均方误差,其中图像A、B的大小为m×n:
(15)
5组古汉字与遮挡混合图像作为观测信号,进行单通道盲去卷积实验并计算PSNR,结果如图7所示.
图7 PSNRFig.7 PSNR
本文实验使用同样的古汉字与遮挡图像数据集,分别对比非负矩阵分解法(NMF),卷积非负矩阵分解法(convolu-tive NMF)和S-D方法[12](synthesizing-decomposition)并计算比较PSNR,结果如表2所示.
表2 多种算法的PSNR比较Table 2 Different methods of single channel blind deconvolution PSNR
本文提出基于深度卷积生成对抗网络的单通道盲去卷积方法(DCSS).使用DCGAN网络建立源的生成模型,用生成的信号源代替真实的信号源,将贝叶斯最大后验概率估计(MAP)中的约束问题转为优化问题;在单通道盲去卷积时,优化混合滤波器和信号源,最大程度减少混合物的重建误差在实验中共采用5组古汉字与遮挡图片数据集,每组分别4096张图片作为训练集,512张图片作为测试集,最终实验结果在古汉字图像修复峰值信噪比(PSNR)为29.2dB,在单通道盲去卷积方面具有最佳性能.