改进深度残差卷积神经网络的LDCT图像估计

2018-08-20 03:43高净植桂志国
计算机工程与应用 2018年16期
关键词:旁路残差低剂量

高净植,刘 祎,张 权,桂志国

GAO Jingzhi,LIU Yi,ZHANG Quan,GUI Zhiguo

中北大学 生物医学成像与影像大数据重点实验室,太原 030051

Shanxi Provincial Key Laboratory for Biomedical Imaging and Big Data,North University of China,Taiyuan 030051,China

1 引言

低剂量计算机断层扫描在减少对患者的辐射剂量和对人体危害的同时,也会使到达探测器的光子数减少,投影数据受到严重的噪声污染,导致重建图像质量较差。近年来,在低剂量扫描条件下重建出低噪声和高分辨率CT图像的研究受到越来越多的关注[1]。

近些年,为提高低剂量CT图像的重建质量,基于非局部相似性理论[2-5]、稀疏表示和字典学习理论[6-8]、小波变换[9]及其他理论的各种算法[10-12]被提出。最初,Buades等[2]提出的非局部均值(Non-Local Means,NLM)算法应用于自然图像降噪,后来,各种改进的非局部均值算法[3-4]被应用在自然图像和CT图像降噪中,并取得了较好的效果,但有时噪声不能被完全去除;Dabov等[5]提出的匹配三维滤波方法(Block-Matching and 3D Filtering,BM3D)在各种图像去噪中都取得了较好的效果,是目前公认降噪效果较好的方法之一,但在去除噪声的同时容易造成图像的过度模糊;Aharon等[6]提出的K-SVD算法是一种基于字典学习的稀疏表示方法,通过多次迭代寻找并建立一个全局最优的过完备字典,使图像可以用此过完备字典表示;Chen等[7-8]提出一种针对脑部低剂量CT图像的字典学习算法和基于字典学习的去除噪声和条形伪影的低剂量CT重建算法。Ke等[9]在分析低剂量CT图像噪声的基础上,提出了一种基于小波系数的多尺度维纳滤波方法,该算法能够提高低剂量CT图像的视觉质量,但是由于图像的过度模糊容易造成图像细节信息的丢失。这些常规的CT图像处理方法都存在使图像过度模糊或去除噪声不完全的缺点,都难以在去除噪声和保留图像细节之间找到一个更好的平衡。而深度学习是模拟人脑进行分析学习的一种神经网络结构,它模拟人脑的机制来解释数据。卷积神经网络的训练过程是网络参数不断优化的自适应过程,基于其强大的特征提取能力,它更容易在去除噪声的同时保留更多的图像细节信息。

近年来,随着卷积神经网络的快速发展,及其在图像、语音和文字识别方面均取得的突破性研究[13-14],将卷积神经网络应用于图像降噪已引起了广大研究者的兴趣。Xie等[15]和Agostinelli等[16]将堆叠稀疏去噪自动编码器应用于图像去噪,取得了较好的效果。Jain等[17]将卷积神经网络应用于自然图像去噪,将去噪过程看成神经网络的拟合过程,可以提高图像的信噪比。Burger等[18]分析了卷积神经网络在图像去噪中的性能,经过与BM3D算法进行对比,发现卷积神经网络在图像去噪方面有很大发展潜力。近几年,用卷积神经网络提高低剂量CT图像质量也引起了研究者的兴趣。Hu等[19]提出将卷积神经网络应用于低剂量CT,可以提高图像信噪比并保留图像细节信息。Chen等[20]提出一种残差编码-解码卷积神经网络用于低剂量CT图像降噪,可以有效地抑制噪声和伪影,并保留图像的细节信息。这些基于卷积神经网络的图像去噪方法都是基于浅层神经网络,受到网络层数的限制,不能充分发挥深层卷积神经网络在图像特征提取方面的优势。

随着深度学习的发展,尤其是线性整流单元(Rectified Linear Unit,ReLU)、最大池化、批量标准化(Batch Normalization,BN)等新网络单元的出现,深层卷积神经网络对比浅层网络已经在图像识别、目标检测、图像分割、目标追踪等领域取得了更好的成果[21-22]。

受深层卷积神经网络在图像处理方面应用的启发,本文提出了一种基于深度残差卷积神经网络(Deep Residual Convolution Neural Network,DR-CNN)的低剂量CT图像估计算法。本文将LDCT图像作为DR-CNN模型的输入,将与其对应的LDCT图像与NDCT图像相减得到的残差图像作为标签,经过模型训练,DR-CNN可以学习LDCT图像和残差图像之间的映射关系,最后用训练得到的模型从LDCT图像中预测NDCT图像。此外,本文将残差学习和旁路连接应用于DR-CNN中,以提高网络的收敛速度和估计图像的质量。实验表明,本文提出的DR-CNN可以从低剂量CT图像中预测常规剂量CT图像,且与其他公认效果较好的降噪算法对比,本文算法的预测结果优于其他算法。

2 卷积神经网络

近年来,随着线性整流单元、参数初始化、梯度优化算法、批量标准化以及残差学习等各种深度学习方法的发展,深度卷积神经网络已经在处理各种视觉任务方面取得了很大的成功。

2.1 CNN基本单元

CNN基本单元主要由输入层、卷积层(Convolution,Conv)、激活函数和输出层组成。图像经过输入层后,由卷积层提取其特征图,再经过激活函数进行非线性变换,然后从输出层输出,并进入下一个神经单元。经典的激活函数包括tanh函数和sigmoid函数,如下:

随着网络深度的增加,tanh函数和sigmoid函数在深层神经网络的训练中容易出现梯度消失现象。后来提出的线性整流单元可有效解决梯度消失问题,并且会大大提高网络的收敛速度[23],其函数模型为:

由输入层、卷积层、激活函数和输出层组成的CNN基本单元可表达为:

其中,x是输入;y是输出;W是卷积矩阵;b是卷积偏置;f是ReLU函数。结构示意图如图1所示。

图1 CNN基本单元结构图

2.2 批量归一化

网络训练过程中CNN内部节点的分布变化称为内部协变量的转移,通常认为它是影响网络训练速度的重要原因。为减少内部协变量的转移,后来提出了批量标准化(Batch Normalization,BN),它通过在每个非线性变换引入标准化和移位步骤,有效地解决了内部协变量转移的问题,从而大大加快了网络的收敛速度[24],因此,批量标准化层也是组成CNN基本单元的一部分。在训练过程中,需要将训练数据分为基本数据单元,即mini-batch,然后进行批量标准化。批量标准化的步骤及公式如下:

其中,m是批量大小,即batch size;γ和β是可学习的参数。包含批量标准化的CNN基本单元可表达为:

其中,x是输入;y是输出;W是卷积矩阵;f是ReLU函数。包含BN层的CNN基本单元如图2所示。

图2 包含BN层的CNN基本单元结构图

2.3 旁路连接

随着网络层数的加深,线性整流单元已经不能完全解决梯度消失问题,而旁路连接也是解决梯度消失问题的有效方法之一。图像在卷积过程中必然会存在信息丢失现象,随着网络层数的加深,信息丢失现象更为严重,而旁路连接可以将包含细节信息较多的特征图与靠后的特征图合并,从而将其携带的细节信息进行传递,如图3所示,有助于图像细节的保护和图像的恢复。

图3 包含旁路连接的CNN基本单元结构图

2.4 残差学习

残差网络最初是为了解决随着网络层数的加深网络性能退化的问题。实验表明,残差映射比原始映射更容易被学习,因此残差网络是通过堆叠层学习残差映射,而不是原始映射。当网络深度增加时,它有助于避免训练过程中的梯度消失问题,因此采用残差学习策略,很容易训练深度CNN网络,提高图像分类和目标检测的准确性。

本文任务对应的直接映射是将LDCT图像直接映射为NDCT图像,残差映射是将LDCT图像映射为LDCT图像与NDCT图像相减得到的残差图像,即纯噪声图像,考虑到残差图像对比NDCT图像更为单一,其统计特性更容易被学习,因此本文也引入残差学习策略。由于本文用卷积神经网络进行降噪任务的独特性,本文的网络模型不需要多个残差单元,只采用一个残差单元横跨整个网络结构,通过学习到的残差映射即可间接得到直接映射。如图4所示,假设X是输入,Y是输出,则原始映射可以表示为,而残差映射可以表示为,其中F()X可以通过残差卷积神经网络得到。因此原始映射可以表达为从而直接映射问题就可以转化为残差映射问题。

图4 残差学习结构图

3 方法

3.1 去噪模型

噪声是随机信号,一般是不可预测的,通常采用统计学方法进行分析,包括加性噪声和乘性噪声,而LDCT图像中的伪影是在CT数据复杂的非线性采集过程中形成的非平稳、非高斯噪声,是一种复杂的噪声模型。因此,本文将图像的噪声污染过程按照加性噪声的模型进行简化。假设x是NDCT图像,y是LDCT图像,v是噪声或残差信息,它们之间的关系可以表示为:

因此,x=y-v,从而LDCT图像去噪模型可以看成是寻找一个函数f满足:

其中,f(y)≈v,并且f可以通过深度卷积神经网络进行监督学习得到。

3.2 网络结构

如图5所示,本文的DR-CNN模型以LDCT图像作为输入,LDCT图像与NDCT图像相减得到的残差图像作为标签,学习输入和标签之间的映射关系。通过采用残差学习策略学习到的残差映射,即可间接地得到直接映射,模型训练完成后,可以直接从低剂量CT图像中预测常规剂量CT图像。由于输入和标签图像的大小一般较大,为了提高网络的拟合速度,输入和标签都被剪切成50×50的小贴片。但是在测试阶段,被测试图像的大小不受限制。

图5 网络训练流程示意图

DR-CNN模型是包含旁路连接和残差学习的深层卷积神经网络,网络层数的多少直接关系到网络性能的好坏,较少的卷积层提取图像特征较少,不利于图像的恢复,网络层数的加深虽有助于图像特征的提取,但是过深的网络会增加时间代价。VGGNet[25]是牛津大学计算机视觉组和GoogleDeepMind公司的研究员一起研发的深度卷积神经网络,它探索了卷积神经网络的深度与其性能之间的关系,经过实验对比,成功构筑了16~19层深的卷积神经网络[25]。

本文的DR-CNN模型就是受VGGNet-19网络模型的启发,其网络拓扑结构与VGGNet-19中的16层卷积层相同,不同之处在于本文DR-CNN模型抛弃了VGG-19网络中的全连接层和池化层。因为全连接层主要用于分类识别,不适用于本文的任务,而池化层会造成图像信息的丢失,不利于图像的恢复。而且去掉全连接层会使网络参数大大减少,从而减少了网络训练时间,使网络更容易被训练。

如图6所示,网络中共有16个卷积层:第一个卷积层后连接了ReLU函数,设置了128组3×3的卷积核,将1通道转换为128通道,即对每一个输入图像提取128张特征图;最后一个卷积层中设置了1组3×3×128的卷积核,将128通道转换为1通道,输出预测的残差图像;其他卷积层都连接一个BN层和一个ReLU函数,且都设置了128组3×3×128的卷积核。除此之外,网络中需要设置旁路连接模块,而过多的旁路连接模块会增加网络的复杂度,不利于网络的训练,而且网络中共有16个卷积层,因此共设置了4个旁路连接模块,每个旁路连接模块由3个卷积层和1个旁路连接组成,可以在防止梯度消失的同时加快网络收敛速度,并且有助于图像细节信息的保护,提高预测图像的质量。

图6 网络结构图

3.3 网络训练

卷积神经网络的训练过程就是误差函数的最小化过程,因此,本文的DR-CNN模型将预测图像和标签图像的均方误差作为损失函数:

其中,N是BN层的批量大小;W是参数集合;xi是批量中第i个输入图像,即第i个LDCT图像;yi是与xi对应的第i个NDCT图像;f(W,xi)是预测的残差图像。

本文采用自适应梯度下降法(Adam)最小化损失函数。模型中加入的BN层有助于网络的收敛,其批量大小设置为128,即在输入图像中随机选择128个图像和与之对应的标签图像作为一个批量进行网络训练。其次,本文用高斯随机分布初始化卷积核权重。网络共训练了40 epoch,前15 epoch学习率为10-3,最后15 epoch学习率为10-5,其他学习率设置为10-4。除此之外,本文模型在每个卷积层之前都对图像进行零填充,使图像在经过每个卷积层后大小不变,从而防止有效信息的丢失。网络训练具体参数如表1所示。

表1 网络训练具体参数

3.4 网络模型特点

本文的DR-CNN模型是一种深层残差卷积神经网络模型,实现从低剂量CT图像预测常规剂量CT图像,主要包括3个特点:

(1)本文的DR-CNN模型共有16个卷积层,属于深层卷积神经网络,对比浅层卷积神经网络,它能够对图像逐层进行特征提取,更有利于图像的恢复。

(2)本文的DR-CNN模型中设置了4个旁路连接模块,可以帮助解决随着网络层数的加深而出现的梯度消失问题,而且旁路中携带的大量图像细节信息有助于更好地去除噪声和保留图像细节。

(3)考虑到残差映射比直接映射更容易被学习,本文的DR-CNN模型采用残差学习策略,通过学习残差映射间接地得到LDCT图像与NDCT图像之间的映射关系,有利于提高网络性能。

4 实验及结果分析

4.1 数据集

数据集中包括50张大小为512×512的常规剂量CT图像,是通过对同一体模进行胸腔和腹腔CT扫描得到的投影数据进行滤波反投影重建得到的。但是由于与常规剂量CT图像一一对应的低剂量CT图像很难得到,本文在NDCT图像的投影域加入非平稳噪声模型模拟CT扫描过程中投影数据被噪声污染的过程,再进行滤波反投影重建得到LDCT图像。非平稳噪声模型采用Wang等[26]提出的低剂量CT噪声模型,认为经系统校准和对数变换后的低剂量CT投影数据近似服从非平稳高斯分布,其样本均值和方差都具有非线性的解析关系[27]。此噪声模型可以表示为:

其中,-和分别表示在探测器信道i处投影数据的均值和方差;η是尺度参数,本文取22000;wi为适应不同信道的参数,本文取200。

如图7所示,图(a1)、图(b1)和图(c1)是数据集中的部分常规剂量CT图像,与之对应的低剂量CT图像分别为图(a2)、图(b2)和图(c2)。从图7中可以看出,数据集取自同一体模不同部位的CT扫描图像,因此数据集中各个图像形状不尽相同,可以更好地说明此模型处理不同部位不同形状图像的有效性。数据集中共有50对NDCT图像和LDCT图像,将其中的45对作为训练集,以步长10进行剪切后,共产生近20万张小图片作为训练数据;其他的作为测试集,即训练集和测试集中的图像不重复。

图7 数据集中的典型示例

4.2 不同算法的比较

为验证本文DR-CNN模型的有效性,选取如图8所示的一张胸腔CT扫描图像和一张腹腔CT扫描图像进行测试。将测试结果与其他降噪算法进行对比,包括目前公认效果较好的降噪算法中的NLM[2]算法、K-SVD[6]算法和BM3D[5]算法。

图8 测试图像

图9是测试图1的各种算法对比结果图,图(a)、图(b)分别是NDCT图像和LDCT图像,图(c)、图(d)和图(e)分别是NLM算法、K-SVD算法和BM3D算法处理后的结果图,图(f)是本文DR-CNN模型的预测结果图。图10给出了图9(a)中红色方框内感兴趣区域的局部放大图。从视觉效果来看,NLM算法虽有效地保留了图像的细节信息,但是对比图10(c)和图10(f)的红色圆圈部分可以看出,一些噪声和伪影没有去除;对比图10(d)和图10(f)可以看出,K-SVD算法去除了大量的噪声和伪影,但是从黄色圆圈内的细节部分,发现K-SVD算法在去除噪声的同时会引入其他斑块噪声;观察10(e)可以看出,BM3D算法有效抑制了图像中的噪声和伪影,并且没有引入其他噪声,但是对比图10(e)和图10(f)中绿色圆圈内的细节部分,发现BM3D算法处理后的图像过度平滑,造成了边缘和细节信息的丢失。从对比结果来看,本文的DR-CNN模型能有效地从LDCT图像中预测NDCT图像,不仅去除了噪声和条形伪影,而且图像边缘和细节信息保留较好,预测结果与真实图像最为接近。

图9 测试图1的各种算法结果图

图10 图9中红色方框内感兴趣区域的局部放大图

图11是测试图2的各种算法处理结果图,图(a)、图(b)分别是NDCT图像和LDCT图像,图(c)、图(d)、图(e)和图(f)分别是NLM算法、K-SVD算法、BM3D算法和本文DR-CNN模型处理后的结果图。图12是图11中红色方框选取的感兴趣区域的局部放大图。对比图12(c)和图12(f)中红色圆圈内部分可以看出,NLM处理结果中同样残留一些噪声和伪影;对比图12(d)和图12(f)中黄色圆圈内的细节部分可以看出,K-SVD算法在去除噪声的同时会引入一些斑块伪影;从图12(e)可以看出,BM3D算法去除了噪声和伪影,但是其处理后图像由于过度平滑造成了边缘和细节信息的丢失,尤其是绿色圆圈内的骨骼部分经BM3D算法处理后线条变得很模糊。而本文的DR-CNN模型在抑制噪声和伪影的同时有效地保留了图像细节信息,因此从视觉效果来看,本文DR-CNN模型处理结果最好。

图11 测试图2的各种算法结果图

图12 图11中红色方框内感兴趣区域的局部放大图

为了更好地展现本文DR-CNN模型的优越性,图13描绘了测试图1的各种算法处理结果的横向侧面轮廓图(取第200行像素),图14描绘了测试图2的各种算法处理结果的纵向侧面轮廓图(取第251列像素)。从轮廓图可以看出,相对于其他的降噪算法,本文DR-CNN模型的处理结果的侧面轮廓无论在边缘区域还是背景区域都更接近原始图像的侧面轮廓。

图13 测试图1各种算法处理结果的侧面轮廓线

图14 测试图2各种算法处理结果的侧面轮廓线

为了更加清楚地描述不同算法的处理结果,本文采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、均方根误差(Root Mean Square Error,RMSE)和结构相似性(Structural Similarity Index Measurement,SSIM)等质量参数对各算法进行定量描述,其中PSNR、RMSE和SSIM的定义如下:

其中,M×N表示图像的大小;x和y分别表示LDCT图像和去噪后图像。

其中,ux、uy分别表示图像x和y的均值;σx、σy分别表示图像x和y标准差;、分别表示图像x和y的方差;σxy表示图像x和y的协方差;C1、C2和C3分别是常数;x和y分别表示LDCT图像和去噪后图像。

图15是测试图1和测试图2各种算法处理结果的PSNR柱状图,PSNR反映了图像的噪声水平。从图15中可以看出,本文算法处理结果的峰值信噪比略高于其他算法处理结果,表明本文算法的预测结果图像噪声较少,质量优于其他算法。图16和图17分别是各种算法处理结果的RMSE和SSIM柱状图。从图中可知,本文DR-CNN模型处理结果的RMSE值比其他算法值小,SSIM值比其他算法值大,说明本文DR-CNN模型的预测结果与原图偏差较小,结果与原图更相似。因此,无论在视觉效果方面还是在定量评价方面,都表明本文DR-CNN模型在低剂量CT图像预测方面优于目前公认效果较好的其他降噪算法。

图15 不同算法处理结果的PSNR对比图

图16 不同算法处理结果的RMSE对比图

图17 不同算法处理结果的SSIM对比图

4.3 旁路连接和残差学习的作用

本文提出的DR-CNN模型中设置了4个旁路连接模块,旁路中携带的大量图像细节信息有助于图像的恢复,并采用残差学习机制加速网络的收敛。为验证旁路连接和残差学习对模型训练的作用,本文实验中分别训练了没有旁路连接和不采用残差学习机制的DR-CNN模型,并与本文提出的DR-CNN模型进行对比,3种模型除旁路连接和残差学习机制的不同外,都采用相同的数据集和训练参数进行训练。

图18 3种模型的PSNR变化曲线(以测试图2为例)

图18和图19分别给出了以测试图2为例的3种模型随训练次数增加峰值信噪比和均方根误差的变化过程。从图中可以看出,包含旁路连接模块和残差学习机制的DR-CNN模型有较高的峰值信噪比和较低的均方根误差,且随着模型训练次数的增多两者的波动越来越小,最终趋于平稳,说明图像恢复质量较好,网络收敛较快,且收敛效果较好。因此,本文提出的DR-CNN模型中设置的4个旁路连接模块和采取的残差学习机制确实有助于图像的恢复和估计以及网络的收敛。

图19 3种模型的RMSE变化曲线(以测试图2为例)

5 结束语

本文提出了一种改进深度残差卷积神经网络的低剂量CT图像估计算法,将成对的低剂量CT图像和常规剂量CT图像作为数据集,进行模型训练,从而可以直接从低剂量CT图像估计常规剂量CT图像。模型中设置了旁路连接模块并采用残差学习机制,可以提高网络的收敛速度和图像恢复的质量。通过与目前效果较好的图像降噪算法对比,本文DR-CNN模型的预测图像不但有效抑制了图像噪声和条形伪影,而且保留了更多的图像细节信息,更加接近原始图像,而且DR-CNN模型预测图像的均方根误差比其他算法处理结果小,峰值信噪比略高于其他算法处理结果。因此,无论从主观的视觉效果还是从客观的质量评价来看,本文DR-CNN模型的处理结果都优于其他算法的处理结果,说明本文提出的DR-CNN模型在从低剂量CT图像中估计常规剂量CT图像方面是可行且有效的。

猜你喜欢
旁路残差低剂量
基于双向GRU与残差拟合的车辆跟驰建模
旁路放风效果理论计算
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
16排螺旋CT低剂量扫描技术在腹部中的应用
急诊不停跳冠状动脉旁路移植术在冠心病介入失败后的应用
自适应统计迭代重建算法在头部低剂量CT扫描中的应用
体外膜肺氧合在老年患者冠状动脉旁路移植术后的应用研究
低剂量辐射致癌LNT模型研究进展
正常和慢心率CT冠状动脉低剂量扫描对比研究