基于多尺度卷积神经网络的低剂量CT图像后处理

2022-08-01 04:22:00司菁菁程银波

燕山大学学报 2022年4期

司菁菁，张宁，赵熙，程银波

(1.燕山大学信息科学与工程学院，河北秦皇岛 066004； 2.河北省信息传输与信号处理重点实验室，河北秦皇岛 066004； 3.河北农业大学海洋学院，河北秦皇岛 066003)

0 引言

计算机断层扫描(Computed Tomography,CT)是一种无损检测技术，通过对被检测目标进行X射线断层扫描，根据获得的投影数据，运用特定的数学算法，重建出被检测目标的断层图像。目前，CT技术已经被广泛应用于医学、工业无损检测、生物学、考古学等领域。在医学应用中，CT图像能够为医生提供重要的参考数据，用以预防、诊断、治疗疾病。然而，X射线会产生电离辐射。当辐射达到一定量时，会破坏人体内某些大分子结构，对人体细胞造成损伤。研究表明，人体的损伤程度与受到的辐射剂量成正比[1-2]。因此，降低CT扫描过程使用的X射线的剂量，成为降低人体伤害的一个重要手段。

Naidich等人[3]提出了低剂量CT(Low-Dose CT,LDCT)的概念。与标准剂量相比，当被检查者所接受的X射线剂量降低20%以上时，认为是剂量降低。然而，X射线剂量的降低会使得重建图像中存在大量的噪声与伪影，破坏图像的细节与结构，降低图像的质量与可读性，甚至会影响医生的诊断。因此，低剂量CT图像的重建成为了一个具有重要实际应用意义的科研课题。

现有的低剂量CT图像重建方法主要分为三大类：投影域滤波算法、迭代重建算法和后处理方法。其中，投影域滤波算法是对投影域的原始数据进行滤波处理，然后用滤波反投影(Filter Back-Projection,FBP)算法[4]重建CT图像。由于投影域上每一点的数据中都包含了 CT 图像的全局信息，在投影域上每一点上的操作都会在 CT 图像上有所表现，因此重建过程容易引入新的伪影。迭代重建算法利用图像的先验信息，从投影域直接重建高质量的CT图像。学者们先后提出了基于总变分[5]、字典学习[6]和低秩矩阵分解[7]等的迭代重建算法，获得了优于FBP的重建性能[8-9]。然而，该类算法模型复杂度较高、计算量较大，会导致计算资源消耗过大。后处理类方法对初步重建的低剂量CT图像进行处理，尽量抑制噪声和伪影，尽可能多地保持原有重建图像中的边缘、纹理等细节特征，且不引入新的伪影。

近年来，随着深度学习的兴起，其优越的特征提取能力受到了医学图像处理领域越来越多学者的关注[10]。在低剂量CT图像后处理方向，深度学习可以有效减少CT图像中的噪声，便于医生判断出细微病变[11-14]。Chen等人[15]构造了一种用于低剂量CT图像后处理的浅层卷积神经网络(Convolutional Neural Network,CNN)，获得了优于传统算法的重建效果。然而，该网络只包含三个卷积层，不足以充分提取图像特征。Badretale等人[16]将网络层数增加到8层，重构效果有所提升，但是对医学图像中细节信息的提取仍不够充分。Chen等人[17]采用编解码器结构提出了残差编解码卷积神经网络(Residual Encoder-Decoder Convolutional Neural Network,RED-CNN)实现低剂量CT图像后处理。该网络可以消除低剂量CT图像中的伪影，但是重建图像的清晰度仍然不够。Han等人[18]在RED-CNN的基础上，通过在标准剂量CT图像中加入高斯信号来模拟病变、构造数据集，使用observer损失函数，通过提高对图像中有无病灶的判别精度来优化去噪网络。然而，该方法适用于具有特定类型病灶的CT图像。为了克服单一尺度网络在提取CT图像细节特征方面的不足，刘文斌等人[19]提出了利用多尺度特征与残差网络的低剂量CT图像后处理网络。该网络通过改变不同卷积层中卷积核的尺寸来提取图像中不同尺度的信息。然而，该网络的深度限制了重建性能，细节特征的提取能力有待进一步提高。Jiao等人[20]提出了基于频率划分的生成式对抗网络，分别提取LDCT中的高频特征和低频特征。该网络可以很好地去除噪声，保留结构信息，但是网络结构过于复杂，运行时间长。

针对以上问题，本文引入图像金字塔模型，结合残差结构，设计了一种基于多尺度双层CNN的低剂量CT图像后处理方案。该方案在图像金字塔模型的多尺度框架下，利用双层残差网络提取不同尺度下的图像细节特征，有效去除低剂量CT图像中的噪声与伪影，提高重建图像的清晰度。利用人体胸部CT与腹部CT图像的实验结果表明，本文方案可以很好地提取边缘、纹理特征，保留图像中的细节信息；在重建图像质量的客观指标、主观视觉质量和时效方面均优于现有的基于RED-CNN、CNN的低剂量CT图像后处理方案。

1 问题描述与图像金字塔模型

理论上，低剂量CT图像与标准剂量CT图像之间的关系可以表示为

X=F(Y)，

(1)

其中，Y∈Rm×n表示标准剂量CT图像，F(·)表示受到量子噪声影响而使得标准剂量CT图像质量下降的过程，X∈Rm×n表示低剂量CT图像，含有大量条形伪影和噪声。

由低剂量CT图像X重建标准剂量CT图像Y的过程可以表示为

Y=F-1(X)≈H(X)，

(2)

其中，H(·)表示F(·)的逆映射F-1(·)的最佳近似。由低剂量CT图像X重建标准剂量CT图像Y的优化问题可以表示为

(3)

本文引入图像金字塔模型，基于神经网络，结合多尺度特征，实现该优化问题的求解。

图像金字塔是由一系列分辨率逐级降低、以金字塔形状排列的图像构成的集合，是进行图像多尺度分析的一种简单有效的模型。例如，以一幅m×n像素的图像作为金字塔的第一层，若对该图像进行下采样，则可以得到一幅像素数为m/2×n/2的图像，作为金字塔的第二层。以此类推，在金字塔中每增加一层，图像行、列像素数均降为前一层的1/2，直到层数满足需求为止。图1显示了本文拟采用的层数为2的图像金字塔模型。

图1 层数为2的图像金字塔模型Fig.1 Image pyramid model with two layers

2 基于多尺度CNN的低剂量CT图像后处理方案

2.1 基本块

与普通CNN相比，残差网络可以实现更深层次的网络结构。残差网络一般由基本块(Basic block)构成。通用的基本块结构如图2(a)所示，包含3个卷积层(Conv+BN+ReLU)和1个平均池化层。卷积层由卷积(Conv)、批归一化(Batch Norm,BN)和ReLU激活函数实现。

图2 基本块结构Fig.2 Structure of basic block

本文设计的多尺度CNN以低剂量CT图像为输入，以重建的高质量CT图像为输出。然而，若在基本块中包含池化，则会压缩图像特征，甚至会丢失图像中的重要细节[17]，与本文重建高质量CT图像的目的相悖。另一方面，在实验中发现，与文献[21]中相同，BN的加入会降低本文网络输出图像的质量。因此，在本文网络的基本块中不包含池化与BN。本文采用的基本块的结构如图2(b)所示。

若令fi(·)表示基本块中的第i个Conv+ReLU操作，则

fi(Ii)=g(Wi*Ii+bi),

(4)

其中，i=1,2,3，*表示卷积运算，Ii、Wi、bi分别表示第i个Conv+ReLU操作的输入、卷积核和偏置。g(·)为ReLU激活函数，其表达式为

g(x)=max(0,x)。

(5)

若令I和O分别表示基本块的输入和输出，则基本块的运算Basicblock(·)可以表示为

O=Basicblock(I)=f3(f2(f1(I)))+I。

(6)

2.2 多尺度CNN的构建

本文构建多尺度双层CNN (Multi-scale Double-layer CNN,MD-CNN)实现低剂量CT图像的后处理。该网络的结构框架如图3所示。基于双层图像金字塔结构，该网络共包括两级，以m×n像素的低剂量CT图像X为输入，输出重建的高质量CT图像Y′。

图3 本文构建的MD-CNN的具体结构Fig.3 Structure of MD-CNN constructed in this paper

将卷积层Convj的运算表示为

Convj(Ij)=g(Wj*Ij+bj)，(7)

其中，j=1,2,3,4，Ij、Wj、bj分别表示卷积层Convj的输入、卷积核和偏置。g(·)为激活函数。

MD-CNN的具体运算结构描述如下：

1) 第一级：粗级别重建网络，包含3个基本块(BasicBlock1，BasicBlock2，BasicBlock3)和2个卷积层(Conv1和Conv2)。该级网络的输入Xdown由X下采样得到，即

(8)

第一级网络的输出X′down为

X′down=Layer1(Xdown)，

(9)

其中，Layer1(·)表示第一级网络的整体运算，可以具体表示为

X′down=Conv2(Basicblock3(Basicblock2
(Basicblock1(Conv1(Xdown)))))。

(10)

2)第二级：细级别重建网络，包含3个基本块(BasicBlock4，BasicBlock5，BasicBlock6)，2个卷积层(Conv3和Conv4)和一个并联层(Concat)。第一级的输出X′down通过反卷积运算(DeConv)后，输入第二级。反卷积运算DeConv(·)可以表示为

DeConv(X′down)=g(W′*X′down+b′)，(11)

其中，W′和b′分别表示反卷积的卷积核和偏置，g(·)为激活函数。反卷积是卷积的逆运算，实质上是将卷积核转置后对输入进行卷积操作。

第二级的输入为X和DeConv(X′down)，输出Y′可以表示为

Y′=Layer2(X,DeConv(X′down))，

(12)

其中，Layer2(·)表示第二级网络的整体运算，可以具体表示为

X′=Concat(Conv3(X),DeConv(X′down))，

(13)

Y′=Conv4(Basicblock6(Basicblock5
(Basicblock4(X′))))。

(14)

在MD-CNN中，第一级与第二级分别以具有不同分辨率的图像Xdown和X为输入，利用分别构建的CNN子网络实现不同尺度图像特征的提取；第一级的输出通过反卷积操作与Conv3(X)并联，共同输入至第二级的基本块，实现多尺度特征融合，使得深层网络可以更全面地学习图像细节特征，提高重建图像的质量。

2.3 网络训练

令{(Xk,Yk):k=1,2,…,K}表示训练集，其中(Xk,Yk)表示第k个样本，Xk和Yk分别表示m×n像素的低剂量CT图像和对应的标准剂量CT图像，K为训练集中的样本总数。本文设计的MD-CNN的具体训练过程如算法1所示。

算法1:

输入：{(Xk,Yk):k=1,2,…,K}，Epoch，Batchsize，Iter；

迭代过程：

Forj=1 to Epoch

Forl=1 to Iter

i++

从训练集中随机选取Batchsize个样本构成Bl={(Xb,Yb):b=1,2,…,Batchsize}；

Forb=1 to Batchsize

Loss1b=LOSS(X′down,b,Ydown,b)

Loss2b=LOSS(Y′b,Yb)

End for

输出：网络参数集Δi。

3 实验结果与分析

3.1 数据集构建

本文采用从Mayo诊所癌症影像档案库中下载的320组512×512像素的低剂量CT图像与对应的标准剂量CT图像构造实验数据集D={(Xk,Yk):k=1,2,…,320}，其中Xk和Yk分别表示第k个低剂量CT图像和相应的标准剂量CT图像。此数据集中包含256组胸部CT图像和64组腹部CT图像。随机选取其中的196组胸部CT图像和44组腹部CT图像进行网络训练，以其余的60组胸部CT图像和20组腹部CT图像进行测试。

为了提高计算效率，本文对标准剂量CT图像进行分块重构：首先，将低剂量CT图像划分为32×32像素的重叠图像块；然后，逐块利用MD-CNN进行重建；最后，将重建块组合成完整的标准剂量CT图像。为了实现分块重构，将用于训练的240组512×512像素的CT图像划分成32×32像素的重叠图像块，从每组CT图像中随机选出10对32×32像素的图像块，并进行最大-最小归一化，从而构成训练集{(Xk,Yk):k=1,2,…,2 400}。对图像进行分块操作不仅可以提高图像特征提取的效率，还可以扩大数据集，增加样本的多样性，有效避免过拟合。

3.2 参数设置

根据实验经验，为MD-CNN选用ReLU激活函数。设置算法1中的训练轮数Epoch为1 000，批量大小Batchsize为16，每轮的迭代次数Iter为15，迭代总次数为15 000。采用kaiming方法[23]初始化网络参数，并采用Adam优化算法实现参数更新Optimizer(·)。将学习率α初始化为10-3。当迭代次数为3 000时，将α降到10-4，并保持不变，直至迭代终止。代价函数LOSS(·)计算均方根误差(Root Mean Square Error,RMSE)。各级网络的具体超参数设置如表1所示。其中，S表示卷积核的移动步长(stride)，P表示边缘填充的像素数(padding)。为了不丢弃原图像信息并保持图像大小不变，让较深网络层的输入依旧保持足够大的信息量，在第一级与第二级中均令P为1。

表1 MD-CNN的超参数设置Tab.1 Setting of hyper-parameters in MD-CNN

3.3 测试结果

为了验证本文构建的MD-CNN的性能，将其与以下两种基于深度学习的低剂量CT后处理重建方案进行比较。

1)基于RED-CNN的低剂量CT后处理[17]。该方案是一种基于残差网络的、具有较高重建性能的低剂量CT后处理重建算法。网络采用先卷积后反卷积的编-解码结构，整体上是一个残差网络。在对比实验中，RED-CNN的网络结构与超参数均采用[17]中的最优设置。

2)基于CNN的低剂量CT后处理。该网络的结构如图4所示，卷积层数与MD-CNN相同，但仅为单层结构，且无残差连接，用以验证在MD-CNN中引入多尺度CNN的效果。在该网络中，前11个卷积层的卷积核大小为3×3，通道数为64，与MD-CNN的第一级中各卷积层的设置相同；后11个卷积层的卷积核大小为3×3，通道数为128，与MD-CNN的第二级中各卷积层的设置相同；其余参数与MD-CNN完全一致。

图4 基于CNN的低剂量CT图像后处理Fig.4 Post-processing of low-dose CT images based on CNN

采用3.1节构建的训练集与测试集分别对RED-CNN、CNN和MD-CNN进行训练与测试。实验中，网络在Python3.7，Pycharm2017上执行。计算机硬件配置为Intel Core i5-8300H CPU@2.30GHz，8 GB内存，NVIDIA GeForce GTX 1050 Ti。以峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)，结构相似度(Structural Similarity,SSIM)和均方根误差作为客观评价指标，比较三种方案的性能。PSNR值越高、SSIM值越接近1、RMSE值越低，说明重建图像越接近于标准剂量CT图像。

表2和表3分别显示了三种方案在60个胸部测试样本和20个腹部测试样本上获得的平均PSNR、平均SSIM、平均RMSE和平均重建时间。其中，LDCT表示测试集中的低剂量CT图像。

表2 胸部测试集实验结果Tab.2 Experimental results of chest test set

表3 腹部测试集实验结果Tab.3 Experimental results of abdominal test set

由表2和表3可见，对于胸部和腹部测试样本，MD-CNN获得的平均PSNR、SSIM和RMSE值均优于其他两种方案，且MD-CNN方案的平均重建时间低于其他两种方案。以胸部测试样本为例，MD-CNN获得的平均PSNR值高于RED-CNN方案1.02 dB，高于CNN方案0.54 dB；MD-CNN的平均重建时间比RED-CNN节约23.6%，比CNN节约3.6%。

以代表性胸部CT图像为例，图5显示了基于RED-CNN、CNN和MD-CNN的三种低剂量CT图像后处理方案获得的重建图像PSNR、SSIM和RMSE值随迭代次数的变化情况。由图5可见，MD-CNN方案的收敛速度快于其他两方案，且最终收敛到的结果也优于其他两方案。

图5 代表性胸部CT图像重建指标随迭代次数的变化Fig.5 Dependence of evaluation indices on iterations for a representative chest CT image

为了直观地比较三种方案重建图像的质量，图6展示了代表性胸部CT图像的重建结果，图7放大展示了图6中方框内的局部区域。

图6 三种网络方案重建的胸部CT图像比较Fig.6 Comparison of chest CT images reconstructed with three methods based on neural networks

图7 图6中方框内的放大图Fig.7 Enlarged blocks in Fig.6

在图6与图7中，图(a)为标准剂量CT图像(NDCT)，图(b)为相应的低剂量CT图像(LDCT)，图(c)～图(e)分别为RED-CNN、CNN和MD-CNN三种方案的重建图像。比较可见，MD-CNN方案能够有效去除低剂量CT图像中的噪声与伪影。与RED-CNN和CNN两种方案相比，MD-CNN方案的重建图像中局部细节更丰富，轮廓更明显，与标准剂量CT图像更接近。

3.4 消融实验

利用消融实验验证本文MD-CNN网络设置的合理性。由于3.3节中与CNN方案的对比结果已经验证了MD-CNN双层结构的有效性，因此这里在双层网络结构下，分别改变基本块的数量和第二级中卷积层的通道数，形成如下6种不同的网络设置，进行对照实验：1) 第一级与第二级均不包含基本块，第二级中Conv3通道数为64，其余各卷积层的通道数为128；2) 第一级与第二级各包含1个基本块，第二级中Conv3通道数为64，其余各卷积层的通道数为128；3) 第一级与第二级各包含2个基本块，第二级中Conv3通道数为64，其余各卷积层的通道数为128；4) 第一级与第二级各包含4个基本块，第二级中Conv3通道数为64，其余各卷积层的通道数为128；5) 第一级与第二级各包含3个基本块，第二级中Conv3通道数为32，其余各卷积层的通道数为64；6) 第一级与第二级各包含3个基本块，第二级中Conv3通道数为80，其余各卷积层的通道数为160。

表4以测试集中的60组胸部CT图像为例，列出了消融实验中不同网络设置下获得的平均PSNR、SSIM、RMSE和平均重建时间。最后一行是采用表1中设置实现的MD-CNN的结果。

表4 不同网络配置下的胸部测试集实验结果Tab.4 Experimental results over chest test set under different network configurations

对比配置1～4和MD-CNN的重建结果可见，当第一级与第二级各包含3个基本块时，网络重建性能优于第一级与第二级各包含1、2、或4个基本块的情况。然而，基本块数目的增多会增加图像重建时间。对比配置5)、6)和MD-CNN的重建结果可见，第二级中各卷积层的通道数越多，重建性能越好，但是通道数的增加会增加图像重建时间。当第二级中除Conv3外的卷积层通道数大于160后，重建效果增加的不明显，但重建时间增加明显，因此不予考虑。

根据消融实验结果，综合考虑网络训练耗时、内存占用量、图像重建效果与重建时间，本文构建的MD-CNN在第一级与第二级中各包含3个基本块，设置第一级中各卷积层的通道数为64，设置第二级中各卷积层的通道数为128。

4 结论

本文引入图像金字塔模型，设计了一种多尺度双层CNN(MD-CNN)，提取并融合图像中不同尺度的结构特征，实现低剂量CT图像的后处理，有效去除低剂量CT图像中的噪声与伪影，提高重建图像的清晰度。采用Mayo诊所癌症影像档案库中的胸部与腹部CT图像的实验表明：在重建图像质量的客观指标方面，MD-CNN方案优于现有的基于RED-CNN、CNN的低剂量CT图像后处理方案(对于胸部CT样本，重建图像的平均PSNR值比RED-CNN提高了1.02 dB，对于腹部CT样本，重建图像的平均PSNR值比RED-CNN提高了0.48 dB)；在重建图像的主观视觉质量方面，MD-CNN方案的重建图像更好地去除了低剂量胸部与腹部CT图像中的噪声与伪影，保留了更多的细节结构特征；在时效方面，MD-CNN方案重建一幅512×512像素的胸部CT图像平均需要1.265 s，低于基于RED-CNN、CNN的后处理方案。

本文构建的多尺度CNN模型在深度方面是可扩展的。若基于多层图像金字塔结构，构建更深层次的多尺度CNN，则有望进一步提高图像重建性能。在后续研究中，需要进一步扩大样本集的多样性，以提高并验证网络的普遍适用性。