李秀华,朱水成
(长春工业大学 计算机科学与工程学院,吉林 长春 130012)
肝脏作为人体新陈代谢的主要器官,对人体有着不可替代的重要作用[1]。肝癌是指在肝脏上产生的恶性肿瘤,是发病率和致死率极高的肿瘤之一。肝癌已成为人类健康的巨大威胁,对其进行早期诊断可以显著降低患者死亡率[2]。当前,治疗肝癌最有效的手段是进行肝肿瘤切除[3]。计算机断层扫描(Computed Tomography,CT)是肝癌检测的重要手段[4],也为医生进行肿瘤切除提供了极大便利。然而传统的手动分割针对大小形态不一、边界模糊的肿瘤分割难度极大,对医生的临床经验有着很强的依赖性[5],且长时间的手动分割,医生会过度疲劳,极易出现误诊和漏诊的情况,因此手术前必须对肝脏和肿瘤的位置、形状有着精准的定位和分割[6]。
随着科技的发展和计算机运算能力的增强,深度学习已广泛应用于图像分类、分割和检测等任务中,并取得了显著的成就。2015年,Long等人提出了全卷积网络(FCN)[7],开启了在语义分割邻域的应用。FCN的出现使图像分割算法得到了广泛研究,其基本思想是使用卷积层替换全连接层,使用转置卷积进行上采样,分割精度优于传统的分割方法。同年,Ronneberger等人在ISBI竞赛上,将FCN与编码-解码结构相结合,提出了U-Net网络[8],采用编码器提取特征,利用解码器将特征图恢复至原始分辨率,引入跳跃连接融合上下文特征减少信息丢失,该网络现已成功应用于诸多图像分割任务中。ResU-Net在U-Net基础上引入了残差模块[9],提取图像的更深层特征。Attention U-Net在U-Net跳跃连接中加入注意力机制模块[10],通过生成一个门控信号来控制不同空间位置处的特征信息,使其更关注目标区域,获得更好的分割结果。Chen等[11]提出DeepLab用于语义分割,加入空洞卷积[12]增大卷积核感受野。虽然基于卷积神经网络(CNN)的分割算法在图像分割中取得了较好的效果,但在对体积较小,边界模糊的肝脏肿瘤进行分割时,编码器提取到的特征不够准确,且由于类不平衡,网络难以取得较好的分割效果。
针对上述方法中U-Net网络在肝脏肿瘤分割中存在的问题,对原始U-Net引入注意力机制和残差模块进行优化,并结合Focal Tversky损失函数用于肝脏肿瘤分割,以改善类不平衡问题,提升大小形态不一及边界模糊的肿瘤分割效果。
U-Net是用于医学图像分割的全卷积神经网络,传统U-Net模型如图1(a)所示,其结构相互对称,包括压缩路径、扩展路径和跳跃连接,可以进行端到端的训练。压缩路径为卷积和最大池化的堆叠,整体结构与VGG[13]类似,主要用来提取图像中的上下文信息。扩展路径经过一系列反卷积操作恢复特征图分辨率,对图像中要分割的部位进行准确定位,为了减少上采样造成的细节丢失,通过跳跃连接融合浅层和深层的图像特征信息,最终得到与原图尺寸相同的分割图。然而传统U-Net在简单的图像拼接后会得到许多冗余信息,且在上采样过程中会丢失较多语义特征,针对肝脏及肿瘤的分割精确度不够,难以满足当下复杂的诊断需求,对网络结构进行改进。
改进U-Net模型如图1(b)所示,由(a)和(b)可以看到,改进U-Net由原先的四层减为三层,以减少网络的计算量、缩短模型的训练时间。在编码阶段由普通卷积改为混合空洞卷积,以增大感受野、获取更多的上下文信息。其次,重新构建解码网络,使用密集上采样替换原始上采样,捕获和解码更详细的信息;使用残差模块替换普通卷积块,提取更多特征信息、加速模型的训练并防止网络退化。在每个跳跃连接之间加入注意力机制,使模型重点关注目标区域的特征,抑制冗余特征。在特征融合之后添加Dropout层[14],抑制网络的过拟合问题。使用组归一化(GN)代替常用的批量归一化(BN),减小Batch Size过小对网络准确性的影响。改进后的U-Net在分割过程中可以提取到更精细的特征信息,从而获得更好的分割效果。
图1 传统U-Net与改进U-Net网络结构
空洞卷积通过在卷积核中注入空洞,可以实现指数级增长感受野的同时不增加模型参数量,从而聚合更多的上下文信息。空洞率(rate)代表空洞的大小,当rate为1时,这种卷积就是标准的卷积操作。当rate>1时,在原图上每隔(rate-1)个像素采样。空洞卷积感受野计算如下:
K=k+(k-1)(r-1)
(1)
其中,k为原始卷积核大小,r为空洞率。然而当前空洞卷积存在网格效应:只有非零值的位置被采样,会造成局部信息丢失。Wang Panqu提出的混合空洞卷积(Hybrid Dilated Convolution,HDC)[15],使用一系列的dilation rates而非使用相同的rate,有效缓解了网格效应,如图2所示。
图2 混合空洞卷积
当前图像分割任务中的网络基本都具有编码和解码的过程,大多数网络在解码时使用的是双线性插值,它是不可学习的,且会丢失细节信息。密集上采样卷积(Dense Upsampling Convolution,DUC),通过学习一系列放大的过滤器来放大下采样的特征图到最终想要的尺寸,其结构如图3所示。
图3 密集上采样卷积
假设原图大小为H×W,经过卷积网络后维度变为h×w×c,其中h=H/d,w=W/d,d为下采样因子。通过卷积后输出特征图维度为h×w×(d2×L),其中L是分割类别数,然后使用softmax层将输出特征映射重塑为H×W×L。DUC的核心思想是将整个标签图划分成与输入特征图等尺寸的d2子部分,也就是说,将整个标签映射转换为具有多个通道的更小的标签映射。这种转换可直接在输入特征映射和输出标签映射之间应用卷积运算,而不需要像反卷积那样插入额外的值[16]。
DUC对于识别小物体非常有帮助,可以实现像素级预测。由于DUC是可学习的,它能够捕获和恢复在双线性插值运算中遗漏的细节信息。
在U-Net解码阶段使用残差模块替换普通卷积块,残差模块使得前面层的输入信息可以直接传到后面层中,能够加快信息的传递、加速模型的训练,减轻了网络模型的退化问题,如图4所示。
图4 残差模块
残差模块中输入X为模型上一阶段所得的特征图,输入X经过两个包含BN和Relu的卷积层得到残差映射,并且通过1×1的卷积操作实现特征维度匹配,最后将两者相加进行特征融合得到输出Y。
在对编码部分的浅层特征与解码部分的深层特征进行拼接融合之前,引入一种轻量的注意力机制模块(CBAM),其结构如图5所示。
图5 CBAM结构
CBAM包含通道注意力模块(Channel Attention Module,CAM)和空间注意力模块(Spatial Attention Module,SAM),具体结构如图6所示。
图6 CAM与SAM结构
在CAM中,首先,将输入的特征图F(H×W×C)分别经过基于宽度和高度的全局最大池化和全局平均池化,得到两个1×1×C的特征图。然后,将它们转发到共享网络(MLP)中,接着使用元素求和合并输出特征向量,再通过Sigmoid激活,获得通道注意力权重Mc。最后,用Mc与输入特征图F逐元素相乘,其结果作为空间注意力模块的输入。通道注意力计算如下:
Mc(F)=σ(MLP(AvgPool(F))+
MLP(MaxPool(F)))=
(2)
其中,σ为Sigmoid函数,MLP权值W0∈RC/r×C和W1∈RC×C/r为两个共享输入,r为减少率。
在SAM中,将通道注意力模块输出的特征图做一个基于通道的全局最大池化和全局平均池化,得到两个H×W×1的特征图,再将它们沿通道方向进行拼接。然后,经过一个7×7卷积操作,降维成1个通道。再经过Sigmoid获得空间注意力权重Ms,最后,用Ms与输入特征图F'逐元素相乘,得到最终输出特征图。空间注意力计算如下:
Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
(3)
其中,σ为Sigmoid函数,f7×7表示卷积核为7×7的卷积运算。
CBAM整体计算过程可以概括为:
F'=Mc(F)⊗FF''=Ms(F')⊗F'
(4)
其中,⊗为逐元素相乘,在乘法过程中,注意值被相应地传播,F''为最终精炼输出。
类不平衡问题已成为医学图像分割的主要挑战之一,肝脏肿瘤在整个腹部区域内的占比较小,远低于正常组织器官。而训练这种不平衡的数据,使得分割结果具有较高的精确度,但召回率较低。Dice损失函数的局限之一是无法权衡假阳性(FP)和假阴性(FN),因此,该文使用Focal Tversky损失函数(FTL)以解决肝脏肿瘤分割中的类不平衡及精度召回率平衡问题,FTL公式如下:
(5)
(6)
(7)
(8)
通过调试,实验选择α=0.7、β=0.3、γ=4/3进行训练,当α=β=0.5、γ=1时,FTL简化为Dice Loss。
实验数据采用MICCAI2017LiTS[17]挑战数据集,该数据集包括来自7个临床机构的131名患者的增强腹部CT影像,由4名经验丰富的放射科医生对肝肿瘤进行手动标注。从数据集中挑选80名患者的CT影像作为训练集,6名患者的CT影像作为验证集,30名的患者CT影像作为测试集,其中去除了13个不含肿瘤及2个损坏的数据。对数据集进行去噪处理并沿Z轴进行切片,训练集通过切片一共生成13 316张切片数据,其分辨率大小为512×512。
实验环境如下:Intel(R) Xeon(R) CPU E5-2650 2.2 GHz的CPU,NVIDIA TITAN XP×2的显卡(12 GB×2显存)和CentOS7操作系统。整个实验基于Python3.6、Pytorch1.8.0、CUDA10.2版本的深度学习框架。
网络训练时采用Adam优化器[18],batch size设置为4。训练肝脏分割时,初始学习率设为0.001,训练肿瘤分割时,初始学习率设为0.000 1,epoch都设为200。使用指数衰减策略调整学习率,衰减速率设为0.95,并采用L2正则化与dropout策略抑制过拟合。
为了评估所提方法的性能,使用医学图像分割中常用的Dice系数(Dice Similarity Coefficient,DSC)、召回率(Recall)和精确率(Precision)作为评价指标,计算公式分别为:
(9)
(10)
(11)
式中,TP代表真阳性,是预测结果和专家手动标记的金标准重合的区域;FP代表假阳性,是预测结果不在金标准中的区域;FN代表假阴性,是指在金标准中但不在预测结果中的区域。Dice系数用于衡量预测结果与金标准之间的相似度或重叠度,其取值范围为0到1,越接近1说明预测结果与金标准的重合度越高;召回率是真阳性同真阳性与假阴性之和的比值,精确率是真阳性同真阳性与假阳性之和的比值,Recall和Precision的取值范围同样为0到1,越接近1,说明预测结果的欠分割率和过分割率越低。
3.4.1 肝脏图像分割
为了证明所提方法的分割性能,将文中方法与原始U-Net及其变体Attention U-Net、ResU-Net、Attention ResU-Net进行对比实验。不同网络对肝脏进行分割时,在三个评价指标中的性能对比如表1所示。
从表1中可以看出,Attention ResU-Net在U-Net基础上加入注意门(AG)和残差模块后整体表现优于其他三种网络。而文中方法在三个评价指标中综合性能表现最优,说明网络在获得精度提升的同时,还有效地抑制了假阳性与假阴性。由于召回率和精确率是相互影响的,高召回率会造成低精确率,高精确率会造成低召回率,因此在实际应用中需要综合考虑,两者越高越好。
表1 不同网络对肝脏进行分割时的性能对比
不同网络对肝脏的分割结果与金标准的对比情况如图7所示。由图7可以看到,原始U-Net在对肝脏进行分割时出现了过分割与欠分割现象,这是由于网络在编码阶段提取到的浅层特征信息较差,带有许多冗余信息,影响了分割效果。文中方法在U-Net基础上引入残差模块和注意力机制(CBAM),在分割过程中可以补充遗漏的细节信息,且能捕捉通道维度和空间维度上的重要特征信息,还受益于加入的混合空洞卷积在增加卷积核感受野的同时,有效增强了网络对上下文信息的提取,从而获得了更精准的分割结果。
图7 不同网络对肝脏图像分割的结果
3.4.2 肿瘤图像分割
不同网络对肝肿瘤进行分割时,在三个评价指标中的性能对比如表2所示。
表2 不同网络对肝肿瘤进行分割时的性能对比
从表2中可以看出,文中方法的Dice系数、召回率和精确率都优于另外四种网络。在医疗应用中,假阴性比假阳性更难以容忍,因此在分割任务中权衡召回率多于精确率,召回率越高说明对假阴性的抑制效果越好。
不同网络对肝肿瘤的分割结果与金标准的对比情况如图8所示。从图8中可以看出,与U-Net及其变体网络相比,文中方法能够获得与真实标签更相近的分割结果,既可以相对完整地分割出面积较大的肿瘤,又不会遗漏面积较小的肿瘤,有效改善了欠分割和过分割问题,且分割结果更具鲁棒性,因此对肿瘤的分割更加精准,对于临床诊断任务具有较好的参考价值。
图8 不同网络对肝肿瘤图像分割的结果
该文提出了一种基于改进U-Net的肝脏肿瘤分割方法。在编码阶段利用混合空洞卷积扩大感受野、捕获多尺度的上下文信息。在解码阶段采用密集上采样,捕获和解码更详细的信息;并且引入残差模块和注意力机制,加速网络的训练、使模型捕捉通道维度和空间维度上的重要特征信息。实验结果表明,与U-Net及其变体网络相比,文中方法在多个评价指标中表现较优,分割结果与金标准更接近并具有很强的鲁棒性,能够有效解决肝脏及肝肿瘤的欠分割与过分割问题。然而在实际应用中,仍存在样本标注工作量大和模型分割时间长等问题。因此,该文提出的分割方法仍需进一步改进,以期获得更优的分割结果,从而能更好地辅助肝脏肿瘤诊断与治疗或其他临床应用任务。