面向低剂量CT图像的多生成器对抗网络降噪模型的研究

2020-12-09 09:45裴颂文沈天马顾春华
小型微型计算机系统 2020年12期
关键词:低剂量残差卷积

裴颂文,樊 静,沈天马,顾春华

1(上海理工大学 光电信息与计算机工程学院,上海 200093) 2(中国科学院计算技术研究所 计算机体系结构国家重点实验室,北京 100190)

1 引 言

X射线计算机断层扫描仪(CT)在医学领域做出了巨大的贡献.CT扫描产生一系列从人体不同角度拍摄的x射线图像,并利用计算机创建并处理血管、骨骼和软组织的横断面图像(切片).目前,CT技术在社会上应用广泛.比如,可以诊断骨肿瘤,发现不能直接观察到的内部损伤和内部出血.并且CT的密度分辨率较高,能够轻易地分辨出人体组织或器官内微小的差别.CT虽然给医学诊断带来了极大的便利,但是它的使用也引起了人们对辐射泄露的关注.CT图像获取过程中,当患者所受到的辐射成倍增加时,其诱发癌症和患遗传病的机会也显著增加,这将严重威胁人们的身体健康.为了解决这个问题,人们采用了尽可能低的可行原则(ALARA)来保护患者免受过量的辐射剂量[1].

减少辐射剂量能降低患者风险,但会增加CT图像的噪声并产生块状和蜡状的伪影,从而影响医生正确的诊断.国内外在CT图像降噪方面做了大量的工作,并通过各种方法取得了令人瞩目的成果.目前降噪技术主要有3大类:1)重构前的正弦滤波[2];2)迭代重建[3];3)重建后的图像处理[4].均在一定程度上提高了图像质量,但仍然存在弊端.例如重构图像会引入伪影并产生模糊的边缘信息;生成的图像过于平滑而导致失真;迭代重建算法计算复杂度高等.

深度学习利用多层神经网络组成的计算模型提取图像特征,并在高维空间中发现图像数据的复杂结构.最近图像超分辨率的卷积神经网络(CNN)被应用于低剂量CT图像降噪,获得了显著的性能提升.接着,人们提出了更为复杂的网络模型来处理低剂量CT图像噪声问题.比如RED-CNN[5]和小波网络[6].RED-CNN用卷积/反卷积层替代U-net的池化/上池化层.小波网络则直接采用了U-net的快捷连接.

当前,各种新型的网络结构都在低剂量CT图像降噪领域取得了丰硕成果,但这些结构仍存在一些弊端.首先,网络模型普遍采用端到端的结构,这种结构通常将网络的输出和真值之间的均方误差(MSE)作为损失函数,这种以像素为单位的均方误差往往使得图像边缘过于平滑并损失细节信息.基于均方误差的方法采用欧几里德距离而不是采用测地距离获取高分辨率图像的平均值,将导致图像模糊的后果并引入例如非均匀偏差的伪影.

为了解决上述问题,本文提出了面向低剂量CT图像降噪的多生成器生成对抗网络模型,具有以下特性:

1)提出的生成对抗网络模型含有3个生成器,不同的生成器分别对低剂量CT图像的泊松量子噪声、高斯模糊和形变等3种不同类型的噪声进行有针对性的降噪.

2)引入了残差网络结构,该网络结构中的快捷连接(shortcut connection)避免了训练过程中出现的梯度消失问题,提高了训练效率.

3)采用谱归一化方法,通过采用权重矩阵的谱范数引入正则约束来稳定网络训练并使网络更易收敛.

2 相关工作

2.1 生成对抗网络(GAN)

生成对抗网络的作用是使得降噪后的低剂量CT图像和正常剂量的CT图像有着相同的数据分布,从而反映出模型的降噪效果.生成网络G和判别网络D在GAN框架中紧密耦合并被同时训练:G用来模拟真实数据的潜在分布,D则用来判别所得到的样本是属于真实分布还是生成的数据分布.当前,GAN已经在单张图像的超分辨处理、艺术创作和图像变换等领域有了较为广泛的应用.但是,GAN生成器的目标函数是Jensen-Shannon(JS)散度,该散度的非连续性导致训练GAN的两大问题:不稳定性梯度和模式坍塌,从而导致GAN训练过程难以收敛.由于搬土距离(Earth Mover′s Distance:EMD)几乎处处连续并可微分,Wasserstein-GAN(WGAN)提出用搬土距离EMD作为距离度量[7],并利用Kantorovich-Rubinstein 对偶性计算损失函数:

(1)

其中f(x)是1-Lipschitz函数;Ex~Prf(x)是当x来自于真实样本分布时,f(x)的期望;Ex~Pgf(x)是当x来自于生成样本分布时,f(x)的期望;sup是函数的上确界.W(Pr,Pg)是指Pr和Pg的搬土距离.

为了实现Lipschitz约束,WGAN会在每个梯度更新后将权重限制在一定范围内.比如,Gulrajani通过增加梯度惩罚项来限制梯度[8]的方法提出了WGAN-GP.

2.2 深度残差网络

随着卷积神经网络[9]层数的增加,不同结构之间的差异逐渐扩大.VGGNet利用多层堆叠的小尺寸的卷积核将网络深度增加到16层或19层,使得网络能提取出更加复杂和具有代表性的特征[10].GoogleNet设计了inception模块,该模块近似最优的局部稀疏结构并采用不同大小的卷积核来捕捉不同尺度的图像细节.此外,瓶颈层也减少了计算量[11].

然而,训练深层次的网络结构会产生一系列问题:梯度消失或爆炸将严重影响网络的收敛性;训练层数过多反而导致精度饱和甚至降低;卷积网络仅提取图像中的一部分信息,深度卷积网络可能仅从原始图像中提取了少量特征,导致丢失了更多的细节特征.深度残差网络(ResNet)[12]采用快捷连接(shortcut connection)解决网络退化问题.恒等快捷连接可越过一个或多个卷积层,通过恒等映射直接将输入添加到堆叠层的输出,保证了信息的完整性.残差结构既未增加额外参数,也未提高计算复杂度.实验结果表明,ResNet模型比VGGNet和GoogleNet的分类准确率更高[13-15].

2.3 图像降噪

图像成像过程中经常引入不同类型的噪声和伪影.随着深度学习的发展,深度神经网络模型被应用于图像降噪.例如,生成对抗网络的生成器和判别器都采用卷积神经网络的形式来实现低剂量CT图像的降噪[16].使用WGAN和视觉损失函数来捕捉图像微小的纹理和特征[17].利用对抗网络和清晰度检测网络来获取微小的分辨率损失并消除图片模糊的效果[18].在缺乏配对的训练样本时,采用嵌入保真度(fidelity-embedded)的生成对抗网络对低剂量CT图像降噪[19].有条件约束的生成对抗网络(CGAN)被用来给胸部低剂量CT图像降噪[20].

尽管以上深度学习网络在低剂量CT图像降噪领域取得了成果,但是均存在弊端.比如,以均方误差为损失函数的方法将导致降噪后的图像过于平滑并丢失一些细节特征信息;部分深度学习网络则会产生图像伪影.

3 低剂量CT图像的生成对抗网络降噪模型

CT图像噪声大致可分为3类:泊松量子噪声,高斯模糊噪声和形变噪声[21].因此,本文将低剂量CT图像的噪声视为多分布组合的数据,即其分布具有多个“峰值”.标签是标准剂量的CT图像(NDCT),可以视其为真实数据分布.为了能够更有效地对图像降噪,本文提出了具有多生成器的并行框架,每个生成器有针对性地拟合不同噪声分布.多生成器的生成对抗网络是以WGAN为基础.不同的是,模型由3个不同的生成器Generator1、Generator2、Generator3和一个判别器Discriminator组成.3个生成器使用相加方式级联,仅会以线性增长方式适当增加计算复杂度.

3.1 理论分析

概率统计模型显示,复杂数据分布往往是多个独立随机

变量的联合分布.图1噪声分布仿真图,图1(a)展示了一些散落在分布外的点,说明仅仅一个随机分布模型不能很好地拟合所有的随机变量.如图1(b)所示,采用多个随机模型拟合复杂的分布,可以获得较好效果.因此,本文采取了并行的多生成器网络拟合多种噪声,从而实现多维降噪的目的.

3.2 对抗网络的目标函数

设不同生成器生成的CT图分布为Pgi,标准剂量CT图数据分布为Pr,则生成对抗网络的损失函数满足:

(2)

图2 概率分布λiPr和PgiFig.2 Probability distribution λiPr and Pgi

根据搬土距离的定义,损失函数可进一步定义:

(3)

其中,xi是真实分布λiPr里的随机变量;yi是生成分布里Pgi的随机变量;xi-yi表示两者之间的欧氏距离;γi为联合概率分布,并且γi∈Π(λiPr,Pgi),即γi为边缘分布分别为λiPr和Pgi所有分布的集合.inf表示下确界.接着引入优化函数f取代对联合分布γi的限制,得公式(4):

(4)

根据极大极小值原理,公式(4)可转化为:

(5)

由于下确界inf是凹的,并且Lipschitz连续函数f可以和inf产生同样的优化效果,于是将公式(5)转换为对上限的约束,得到搬土距离的对偶形式,如公式(6)所示.

(6)

3.3 训练的稳定性

(7)

(8)

其中W为权重矩阵,然后用一对近似奇异向量逼近W的谱范数[23]:

(9)

对每个权重矩阵进行谱归一化之后,公式可简化为:

(10)

3.4 TriGAN的网络结构

3.4.1 三生成器生成对抗网络模型

三生成器的生成对抗网络的整体框架如图3所示,首先以一定的比例β1,β2,β3将低剂量CT图像放入网络.根据对CT图像的实验分析可知,泊松噪声明显比高斯模糊噪声和形变噪声多,并且高斯模糊噪声多于形变噪声,所以参数的选取按照β3>β1>β2的原则.本文采用了两种损失函数,包括生成对抗网络的损失函数(La)和均方误差损失函数(Lp1,Lp2,Lp3).均方误差损失函数是用来最小化像素级别的误差,并且能使每个生成器对不同噪声都有降噪的专一性和有效性.例如,Generator1针对高斯模糊,那Generator1生成的G1 image除了与G2 image和G3 image放入判别器,还与拥有泊松噪声和形变噪声(D23 image)的图像数据集进行均值平方误差的计算.损失函数如公式(11)所示:

Loss=La+Lp1+Lp2+Lp3

(11)

(12)

(13)

(14)

(15)

图3 三生成器的生成对抗网络结构Fig.3 Framework of GAN with triple generators

其中La表示生成对抗网络损失函数,‖·‖代表Frobenius-2范数; z表示低剂量CT图像;D23、D13、D12是具有不同噪声的图像,如图3所示;Lp1、Lp2、Lp3表示像素损失,而β1,β2,β3是预定义的加权参数.

3.4.2 生成器

生成器采用的是编码器-解码器的对称结构,直接学习低剂量CT图像到生成图像的端到端映射,如图4所示.在每个生成器中,网络模型前端有两个卷积层,网络模型后端对应两个反卷积层,最后3个生成器的输出相加,输入到一个卷积核数量为3(RGB图片通道数为3)的卷积层中,作为最终生成模型输出.模型在卷积层和反卷积层中间加入了残差网络模块(BasicBlock),这些模块通过恒等快捷连接来解决网络由于层数过多可能引起的网络退化问题.卷积层使用了3*3大小的卷积核,没有用更大尺寸的卷积核是因为3*3的卷积核有更少的参数,更多的非线性的同时,网络有着更为理想的感受野.卷积层分别有32和64个卷积核,对应地反卷积层分别有64和32个卷积核.所有的训练层都用了relu激活函数增加网络非线性,避免了梯度消失问题的出现并且减少了网络的计算量.

图4 生成器的网络结构Fig.4 Framework of generator

3.4.3 判别器

判别器是判别图片是来自标准剂量CT图像还是生成器生成的图像.其网络结构如图5所示.判别器有4层卷积层,分别有32,64,128,256个卷积核.判别器的末端有两个全连接层,第1个全连接层有1024个输出而第2个全连接层只有1个输出.因为算法的基础是WGAN,所以模型没有使用sigmoid函数.

图5 判别器的网络结构Fig.5 Framework of discriminator

4 实验与量化分析

4.1 实验数据集

本文从“the 2016 NIH-AAPM-Mayo Clinic Low Dose CT Grand Challenge”(1)https://www.aapm.org/GrandChallenge/LowDoseCT授权的临床数据中,随机抽取了9000张作为训练集,选取了230张为测试集.为了建立低剂量CT图像数据集,随机给标签加入了泊松噪声、高斯模糊噪声和形变噪声.每次迭代数据批次大小为64.超参数β1=0.3,β2=0.2,β3=0.5.实验环境为python3.5和tensorflow1.9;CPU为i7 7700k;内存为48GB;GPU是两块英伟达GTX1080TI.数据集如图6所示,NDCT为标准剂量CT图像,LDCT为低剂量CT图像.D23 image是添加了泊松噪声和形变噪声的CT图像;D12 image是添加了高斯模糊和形变噪声的CT图像;D13 image是添加了泊松噪声和高斯模糊噪声的CT图像.训练集和测试集的CT图像像素都缩放至256×256.

4.2 量化评估指标

为了更加客观地测试本算法的性能,本文采用了两个图像质量评价指标:峰值信噪比(PSNR)和结构相似性(SSIM).峰值信噪比是最大像素值和两图像均方误差的比值.但由于峰值信噪比是基于像素点的误差,并未考虑人眼的特性,结果会出现评价指标和人眼主观感觉不一致的现象.因此,本文另增加了SSIM作为评价指标.该指标从3个方面表示图像特征:均值亮度、标准差对比度和协方差.把不同模型的实验结果图分别和标准剂量CT图像作比较,计算相应的PSNR和SSIM.两个指标值越高,说明图像降噪效果越显著.

图6 腹部横截面CT图像Fig.6 Transverse CT images of the abdomen

4.3 实验结果量化分析

4.3.1 人眼视觉评价

基于人眼视觉评价的实验结果如图7所示,通过5个不同降噪算法的对比对本模型的结果进行评估.其中两种传统算法包括三维块匹配算法[24](BM3D)和非局部均值法[25](NLM),这两种降噪算法最为经典并且在传统算法中效果最佳.除此之外,还和低剂量CT图像降噪领域主流的深度学习模型进行了比较,模型包括前馈去噪卷积神经网络(DnCNN)[26]、生成对抗网络(GAN)[17]以及带有残差结构的生成对抗网络(GAN+Resnet).如图8所示,实验选取了代表性切片图像(前5张和后6张分别为图6和图7的白色矩形区域).不同的算法表现出不同的降噪能力.从图7(a)和图8(f) 可知,BM3D虽然有效地降低了噪声,但会导致实验结果图像过于平滑而失真,丢失了很多图像的细节信息.例如,图8(f)的红色箭头所指区域,在NDCT和深度学习算法处理的图像中有明显的阴影,而在BM3D方法中阴影就不是很明显.NLM的降噪效果不如BM3D,泊松噪声和高斯模糊都没有得到有效的去除.和传统的降噪算法相比,深度学习算法在视觉上更接近NDCT图像.DnCNN在降噪上取得了不错的效果,但是丢失了部分边缘信息.并且从图8(h)可以看出,DnCNN引入了一些伪影.GAN不仅成功地映射了数据分布而且保留了图像重要的信息.带有残差网络的GAN+Resnet和GAN的实验结果图像较接近,均取得到显著的降噪效果.如图7(f)和图8(k)所示,三生成器的生成对抗网络产生的图像从视觉上最接近NDCT图像,表明TriGAN模型和BM3D,NLM以及DnCNN深度学习模型相比较,降噪效果最佳

图7 不同模型的降噪效果Fig.7 Denoised images using different methods

.

图8 不同图像的感兴趣区域Fig.8 Zoomed ROI of different CT images

4.3.2 定量分析

本文采用峰值信噪比(PSNR)和结构相似性(SSIM)作为图像降噪质量的量化评价指标.具体的数值如表1所示,其中第2列和第3列数值对应图7,第4列和第5列数值对应图8.显然,深度学习模型的指标数值均高于传统算法.因此,深度学习模型比传统降噪算法更适用于低剂量CT图像降噪.采用GAN和带有残差网络的GAN(GAN+Resnet)降噪后的图像数值相近,因为残差网络主要是加速网络收敛,对降噪质量不会有明显的影响.多生成器的并行结构使得TriGAN模型在PSNR和SSIM两大指标上均为最佳,PSNR值为26.67.与传统算法BM3D、NLM相比平均提高了约30%,与深度学习模型相比平均提高了4.5%;SSIM值为0.98,比传统算法BM3D、NLM平均提高了10%,比深度学习模型提高了1.5%.

表1 图7和图8的定量指标分析Table 1 Quantitative results ofFig.7 andFig.8

4.3.3 统计特性分析

为了进一步了解不同算法的降噪效果,本文通过计算亨氏单位的平均CT数(Mean)和标准差(SD)来检验其统计特性.在理想的情况下,降噪算法的Mean和SD应该尽可能接近黄金标准.在实验中,标准剂量CT图像(NDCT)作为黄金标准,因为NDCT图像在数据集中有最好的图像质量.实验分别计算了图6,图7和图8的Mean和SD.如表2所示,表格前2列为图8的指标,前5行后2列为图6的指标,后6行后2列为图7的指标.BM3D的标准差明显小于NDCT标准差,说明BM3D生成的图像过于平滑.NLM的均值和标准差比NDCT高出近11和14,表明其并没有优良的降噪能力并可能引入了伪影.GAN和带有残差网络的GAN(GAN+Resnet)与传统的降噪算法相比均更接近NDCT的指标.由于DnCNN丢失了图像部分边缘信息且产生了伪影,DnCNN的标准差很小.

表2 图6,图7和图8的统计特性Table 2 Statistical property inFig.6,fig.7 andFig.8

4.3.4 模型收敛性

本文分别计算了GAN、带残差网络的GAN (GAN+Resnet)和TriGAN的Wasserstein估计值.如图9所示,随着迭代次数的增加,Wasserstein估计值均逐渐减少,并在迭代10000次后趋于稳定.带有残差网络的GAN(GAN+Resnet)在训练初始阶段,Wasserstein估计值下降的更快并且和GAN有着相近的Wasserstein估计值,进一步证明了残差网络收敛的有效性.TriGAN的残差模块和谱归一化均加速了收敛.

图9 Wasserstein收敛估计Fig.9 Wasserstein estimation convergence

5 总 结

本文介绍了一种基于多生成器的生成对抗网络的降噪 模型(TriGAN).例如,BM3D 会过度平滑图像并丢失一些重要信息.深度卷积神经网络能更好地拟合复杂的噪声分布.然而,简单卷积层叠加的降噪效果是非常有限的.因此,本文引入了生成对抗深度学习模型,在CT图像降噪的同时能更有效地保留原始图像的真实信息和细节特征.由于CT图像的噪声由不同类型的噪声分布组成,本文提出了一种三生成器的结构拟合不同的噪声.此外,还引入了以像素为单位的均方误差损失,以保证重要的信息不丢失.残差网络和谱归一化对神经网络的收敛性和稳定性产生了积极作用.

猜你喜欢
低剂量残差卷积
基于全卷积神经网络的猪背膘厚快速准确测定
基于残差-注意力和LSTM的心律失常心拍分类方法研究
肺部疾病应用螺旋CT低剂量扫描技术检查的分析
来那度胺联合环磷酰胺、低剂量地塞米松治疗多发性骨髓瘤的临床疗效探讨
CT低剂量扫描技术应用于新冠肺炎筛查中的临床价值
融合上下文的残差门卷积实体抽取
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
基于残差学习的自适应无人机目标跟踪算法