基于生成对抗网络的CT图像金属伪影校正

2022-03-22 07:20:54姜世博孙跃文许硕吴志芳

哈尔滨工程大学学报 2022年12期

姜世博，孙跃文，许硕，吴志芳

(清华大学核能与新能源技术研究院，北京 100084)

随着计算机技术和图像处理技术的发展，CT在无损检测、逆向工程等工业领域中取得了广泛的应用。然而在实际应用过程中，由于射束硬化、散射、噪声和容积效应等因素存在，实际的CT系统和理想的CT系统总是存在一定的误差，主要体现在获取的投影数据上。利用这些投影数据重建得到的CT图像可能会存在硬化伪影、运动伪影、金属伪影等各种伪影和噪声等，严重影响成像质量和后续应用。金属伪影主要表现为金属区域周围的黑色带状和明亮的放射性条纹状伪影[1]，金属伪影的存在会严重影响图像质量和审图判断。在X-CT检测中，重建算法要求射线的衰减严格遵循Lambert-Beer定律。然而能谱射线与金属等高密度物质作用时，会产生射线硬化、散射光子占总输入光子的比例增多、统计噪声增大等现象，破坏投影数据和物体线衰减积分长度之间的线性关系，从而在重建图像中引入严重的金属伪影。

为了改善图像质量和便于后续应用，工业CT图像金属伪影校正研究成为了辐射成像领域中重要的研究方向。现有的工业CT图像金属伪影校正方法主要分为投影域校正法和图像域校正法[2]。投影域校正法是对投影数据进行校正，主要利用插值等方法，避免金属区域的投影数据发生突变，从而达到去除金属伪影的效果。图像域校正方法是对重建得到的CT图像进行后处理，如阈值法、聚类法、区域生长法等，从而确定CT图像金属区域的边界。随着对于金属伪影校正要求的提升，基于投影域和图像域混合校正算法也被提出。Meyer等[3]提出归一化金属伪影校正方法，先通过均值聚类分割方法获取先验模型，再进行插值，提出了对先验投影数据进行归一化处理的校正方法，能够较好的消除金属边界的次级伪影。Bannas等[4]利用迭代压缩感知重建技术得到先验图像，通过先验图像约束估计缺失信息，提升了图像质量。采用插值校正投影值通常能在一定程度上去除金属伪影，但是通常只能对局部投影值进项补偿校正，对于金属区域分割精度要求高的情况，投影域校正法容易引入其他伪影[5]，整体的校正效果不够理想。

随着深度学习技术的不断发展，人工神经网络已经成功应用于CT图像降噪、超分辨率重建等图像复原任务。Gjesteby等[6]将深度学习神经网络引入金属伪影校正领域，取得了视觉上的理想校正效果。Koike[7]提出一种基于循环一致对抗网络(cycle-consistent adversarial network，CAN)的金属伪影校正方法，有效抑制了金属伪影效果。凭借强大的特征学习和映射能力，深度学习方法在CT图像后处理中展示出了巨大的潜力和优势。因此，本文通过对工业CT图像中金属伪影的产生原理和特征分析，仿真生成了大批工业CT金属伪影数据集，提出了一种基于生成对抗网络(generative adversarial networks，GAN)的工业CT图像金属伪影校正方法，在较好地去除复杂金属构件CT图像金属伪影的同时还较好地保留了CT图像的尺寸、边界等特征信息，验证了基于深度学习的方法在CT图像金属伪影校正中有着独特的优势和应用前景。

1 基于生成对抗网络的CT图像伪影校正

1.1 卷积神经网络

卷积神经网络(convolutional neural networks，CNN)是一种可以直接以原始图像样本作为输入的深度学习模型，能够自行学习图像中复杂的深度特征[8]。典型的卷积神经网络结包含卷积层、池化层和全连接层[9]。通过卷积操作可以逐层地提取图像特征，获取多种层次的特征信息。

池化层将特征图的临近区域进行合并，减小特征图分辨率，降低计算量，有效地抑制过拟合问题，常用的池化操作主要是最大池化法和平均池化法[10]。全连接层将卷积层提取的特征图组合为一维向量，通过全局连接的方式将上一层的特征信息系汇总[11]。由于卷积操作为线性变换，为了使神经网络具有表征非线性系统的能力，需要引入非线性函数即激活函数。目前，常用的激活函数有sigmoid 函数，tanh函数和线性整流函数(rectified linear unit, ReLU)等[12]。卷积神经网络的参数权值在训练中不断通过误差反传算法更新，使特征提取朝着有利于误差减小的方向进行[13]。

1.2 生成对抗网络

生成对抗网络包含生成网络和判别网络2个部分，生成网络用来不断的学习输入样本的特征，生成尽可能接近真实的样本。判别网络用来鉴别样本是来自真实还是生成网络输出。在训练过程中生成网络和判别网络进行一个动态的博弈，最终达到判别网络无法鉴别生成网络的输出是否为真实的样本，同时也得到了一个理想的生成网络。

1.3 网络结构设计

本文采用的生成对抗网络结构如图1所示，通过全监督的学习方式完成从含有金属伪影图像到无伪影的CT图像的端到端的映射。其中判别网络是由多层卷积层和反卷积层构成，负责特征提取，对金属伪影精细化估计，获取图像多层次的特征信息。判断输入CT图像中是否含有典型的金属伪影。相对应的，生成网络中也采取了卷积层和反卷积层用来提取金属伪影特征并消除金属伪影。除此之外，网络中还加入了残差网络。通过向模型输入一个带有金属伪影的CT图片，在生成网络输出端给模型没有金属伪影的图片，让模型通过卷积自编码器去学习去除金属伪影的过程。

在判别网络中，卷积层的特征图和与其对应的反卷积层特征图进行跳跃连接。对应像素直接相加后经过非线性函数激活层，输出到下一层。这种跳跃连接加快了网络的训练过程，使反向传播的梯度更大[14]。在生成对抗网络中，CT图像中的金属伪影被逐层校正消除，得益于判别网络的存在，在消除金属伪影的同时也能较好的保留图像细节特征[14]。

在确定网络结构的基础上，损失函数的设计对最后的重建质量有着至关重要的作用。为了得到更加贴近主观感知的重建图像，通过S-MAR方法设计了基于图像感官质量的损失函数。该损失函数由3个部分组成，即灰度损失、对抗损失[15]、总变分损失。

灰度损失LMSE，即生成样本与真实样本之间的均方误差，使生成样本图像的像素值尽可能贴近真实样本的像素值：

(1)

式中：Np为训练集中样本图像对数；Aw,bX表示重建图像；Y表示真实样本图像。

图1 生成对抗网络的架构Fig.1 Structure of generative adversarial networks

对抗损失LADV，即由上述鉴别网络输出的样本分类错误的概率为：

(2)

式中：Np为训练集中样本图像对数；D(Aw,bX)为鉴别网络判断重建图像为真实样本图像的概率。对抗损失可以对生成网络G进行约束，使生成图像具有更多高频信息，使其更难以被鉴别网络D鉴别，从而使生成图像在感官上更贴近于真实图像。

总变分损失LTV，即图像中梯度值的积分为：

(3)

2 CT仿真实验结果分析

2.1 实验数据集

本文采用解析的仿真方法获取一系列不同材质不同工件的含有金属伪影的CT图像和原始图像。原理为对于可以在宏观上描述或者近似解析的物理性质，可以用简单的公式表示问题的本质。具有能谱Ω(E)的多色X射线可以根据能量大小分为不同的小能区，小能区内的光子都具有相近的能量，近似遵守Lambert-Beer定律。材料对于多色X射线的响应是所有能区响应的积分，如果X射线的能谱和衰减系数μE,S是已知的，那么入射X射线强度Io和出射射线强度I的关系为：

(4)

本文获取了如图2所示160 kV下X射线光管的能谱。将能量分为100个区间，针对不同模体的不同切片，采用扇形束投影得到一系列投影数据，在进行CT仿真过程中需要设置源到探测器距离等7个重要参数，参数设置如表1所示。

图2 模拟X射线能谱Fig.2 X-ray energy spectrum obtained by simulation

通过滤波反投影重建，得到3 980组不同材质不同类型的含有典型金属伪影的CT图像。同时对这些模体的不同切片进行单色光投影，得到理想的投影数据，通过滤波反投影重建得到无伪影的理想CT图像，数据集中部分图像如图3所示，第1行为带伪影的CT图像，第2行为对应的理想CT图像。其中3 960组用于网络训练，20组用于测试网络性能。测试集除了用于测试网络性能的20组CT图片外，还包含了10组应用工业锥束CT扫描齿轮、轴承、宝剑等金属构件，获取的含有金属伪影的真实CT切片，部分图像如图4所示，用于验证网络在校正实际工业CT图像金属伪影方面的性能。

表1 仿真CT系统参数Table 1 Parameters of simulation CT system

图3 仿真CT图像与对应的理想CT图像Fig.3 Simulated CT images and corresponding ideal CT images

图4 含有金属伪影的工业CT图像Fig.4 Industrial CT images with metal artifacts

2.2 实验环境及参数

本文采用生成对抗网络模型，其生成网络用来恢复图像的细节特征，精细化金属伪影的特征，并消除金属伪影。判别网络用来提取图像特征，获取图像的特征细节和抽象信息。在网络模型输入端输入含有金属伪影的CT图像切片，输出端给与不含金属伪影的CT图像切片，引入残差网络，网络模型可以通过卷积自编码学习校正金属伪影的过程。由LMSE、LADV和LTV组成的基于图像感官质量的损失函数，可以获取更贴近主观感知的重建图像，利用上述网络对仿真得到的含金属伪影CT图像和真实含金属伪影的工业锥束CT图像进行金属伪影校正处理。

网络训练过程采用Pytorch工具包，迭代训练次数为900次，批处理尺寸batch_size=16，初始学习率设置为0.001。实验环境为GPU：NVIDIA GeForce RTX3060；CPU：12th Gen Intel(R) Core(TM) i7-10700F 2.10 GHz。

2.3 实验结果评价指标

峰值信噪比(peak signal to noise ratio，PSNR)是衡量图像是否失真或噪声水平的定量指标，数值越高说明待测图像失真越小。MSE是待测图像x与标签图像y的均方误差，分别为：

(5)

式中：i,j为像素点；H、W分别为图像的高、宽；n是单个像素的比特数，数值越高说明待测图像失真越小。

结构相似性指数(structural similarity index measurement，SSIM)由5个参数来决定，用来衡量两幅图像结构相似度，SSIM(x,y)衡量待测图像x与标签图像y的相似性，越接近1说明结构相识度越高：

(6)

式中：μx、μy为亮度均值；σx、σy为μx、μy的标准方差；C1和C2为对比度。

特征相似指数(feature similarity index measurement，FSIM)用来衡量两幅图像特征相似度，FSIM越接近1表明两幅图像的特征(如边缘等)的相似度越高：

(7)

式中Ω代表整张图像的像素域。

2.4 实验结果对比分析

经过900次训练，采用20张仿真得到的测试CT图像和10张未知材质的不同工件的实际工业锥束CT图像进行测试，得到30组金属伪影校正图像，部分测试结果与含金属伪影图像对比如图5、6所示，其中第1行为输入的带金属伪影的CT图像，第2行为对应的输出校正结果。

为了定量分析CT图像的金属伪影校正指标，本文采用峰值信噪比(PSNR)、结构相似性指数(SSIM)和特征相似指数(FSIM)作为金属伪影校正的定量分析指标，相应结果如表2所示。并将工件4的校正效果与采用基于重投影的多项式拟合的金属伪影校正方法做对比，如图7所示，本文提出方法相比于基于投影域的重投影多项式拟合方法校正的效果有明显提升。从相应的定量分析指标和针对实际工业锥束CT图像的校正结果可以看出，基于生成对抗网络的工业CT图像金属伪影校正方法达到了十分可观的金属伪影校正效果。

图5 仿真CT图像金属伪影校正效果Fig.5 Metal artifact correction results of simulated CT images

图6 实际工业CT图像金属伪影校正效果Fig.6 Metal artifact correction results of industrial CT images

表2 金属伪影校正效果定量分析指标Table 2 Quantitative analysis index of metal artifact correction results

图7 与基于重投影的多项式拟合方法校正结果的对比Fig.7 Comparison of correction results with polynomial fitting method based on reprojection

3 结论

1)本文提出的基于生成对抗网络的去金属伪影方法经过仿真和实际扫描的CT数据集实验验证，能够较好地去除不同金属材质工件CT图像的金属伪影，无论是从视觉感观角度还是从定量分析指标数据上，都达到了较为理想的校正效果。

2)与基于重投影的多项式拟合方法校正结果对比，本文提出的方法在各种定量分析指标数据上都有明显的提升。

3)本方法还可以通过丰富数据集中CT图像的种类进一步提升本方法的泛化能力和校正效果。后续若将经过本方法处理的CT图像用于后续的CT图像分割中，相比于传统校正方法，将明显提升CT图像分割质量。