乔伟晨,黄冕,刘利军,3,黄青松,4*
1.昆明理工大学信息工程与自动化学院, 昆明 650500; 2.云南国土资源职业学院信息中心,昆明 652501;3.云南大学信息学院, 昆明 650091; 4.云南省计算机技术应用重点实验室, 昆明 650500
肝癌是目前全球死亡率最高且最常见的癌症之一。计算机断层扫描(computed tomography,CT)是临床上常用的肿瘤诊断方法,通过测定肿瘤的形状、位置等信息可帮助医生制订相应的治疗计划。CT图像的手动分割存在效率低下、医生主观经验影响等问题,因此临床实践中迫切需要一种高效的自动分割方法,肝脏治疗可以通过准确快速的自动分割方法获益。然而,由于CT图像中软组织的对比度较低,并且肝肿瘤的形状与位置具有高可变性,同时肝肿瘤区域边界不清楚,大部分肿瘤相对较小,所以肝肿瘤自动分割在实践中是一项艰巨的任务。
为解决肝肿瘤自动分割问题,基于深度学习提出了3类解决方法。1)2D模型。Multiple U-Nets(Chlebus等,2018)在每层收缩路径和扩展路径中采用残差链接增加训练效率并在扩展路径的卷积之前加入概率为0.5的dropout防止网络过拟合,在2D输入情况下取得了领先效果;FED-Net(feature-fusion encoder-decoder network)(Chen等,2019)基于注意力机制设计了一种新颖的特征融合方法,可以将语义信息嵌入到低级特征中,并且替换传统U-Net的收缩路径和扩展路径,分别改为残差卷积块和密集上采样卷积,在跳跃链接部分引入卷积改善前后语义不匹配问题,但未能解决特征冗余问题。2)2.5D模型。Res-U-Net(Han,2017)使用了两个U型结构长跳与短跳连接模型,第1个网络用于粗略的肝脏分割,第2个网络专注于肝脏细致分割,第2个网络经过训练可以进一步分割肝脏和肝肿瘤,模型通过接收5个相邻切片为模型提供上下文信息,但采用多段级联处理逐步细化,导致模型冗余,不易部署。LW-HCN(light-weight hybrid convolutional network)(Zhang等,2019)为降低模型复杂度,替换3D编码器底部卷积为2D卷积,设计了深度和时空分离(depthwise and spatiotemporal separate,DSTS)操作处理3D卷积降低模型复杂度。非线性增强及图割方法(廖苗 等,2019)通过组织对比增强图像和边界信息融入图割能量函数,最后使用3维形态学进行后处理实现高精度分割,着重于预处理及后处理过程。结合影像组学方法(刘云鹏 等,2020),先经过级联的2D分割模型,然后结果分别经过影像组学分类模型和3D模型减少假阳性并细化分割结果。该方法依赖于后处理消除假阳性以提升分割结果,中间过程效果不佳。3)3D模型。H-DenseU-Net(Li等,2018)使用2D-DenseU-Net模型提取切片内特征,并根据自动上下文算法进行层次聚合,即切片内和切片间混合特征学习体系,分割效果优秀,但3D模型参数量达到千万级,模型庞大且不易训练。CDNN(deep fully convolutional-deconvolutional neural networks)(Yuan,2017)提出一个分层的深度完全卷积—反卷积神经网络模型,第1层用整个CT体素粗分割肝脏区域,第2层进行精细的肝脏分割,第3层进行肝肿瘤分割的补充输入。
上述方法中,2D模型不能充分利用CT图像的片间关联信息,导致分割精度较低,而升高模型维度会导致计算开销激增,对硬件配置有很高要求。同等计算资源下,2D模型可以具有更深的网络结构和更大的过滤器视野,这两点对于模型性能的提升至关重要(Simonyan和Zisserman,2014)。由于U-Net结构(Ronneberger等,2015)在生物图像分割中的优秀表现,通常会将U-Net结构作为基础网络结构。上述3类方法大多采用U-Net作为基础网络,传统U-Net结构如图1所示,图中C表示各层特征的通道数。
图1 传统U-Net结构Fig.1 Traditional U-Net architecture
U-Net的瓶颈特征由收缩路径收集的高级语义特征组成,这些特征会随着扩展路经传递到最终输出分割图。因此,瓶颈特征对分割结果具有深远影响。瓶颈特征可以在空间上或通道上分解,空间上的特征与分割对象的位置信息相关联,而通道间的特征则集中在有关分割对象的语义类别上(Woo等,2018)。跳跃链接允许模型检索池化操作丢失的空间信息(Drozdzal等,2016),这使得模型可以从收缩路径中传递空间信息到扩展路径,在拼接过程中恢复丢失的空间信息。但是扩展路径的特征来自模型的较深层,通过跳跃链接而来的特征则由模型早期计算得出,收缩路径的特征与扩展路径的特征之间存在语义鸿沟(Ibtehaz和Rahman,2020)。
卷积网络提取的图像特征中存在大量冗余特征,这些冗余特征通常来自除任务目标外的背景或者其他目标,这些特征会对分割结果产生干扰,从而影响模型性能。注意力机制通过启发式搜索的方式对卷积特征进行选择,即注意力机制通过学习要强调或抑制的特征来有效帮助信息在网络内流动(Woo等,2018),最终达到特征选择的目的。压缩激励网络(squeeze-and-excitation networks,SENet)(Hu等,2018)和高效通道注意力网络(efficient channel attention,ECA)(Wang等,2020)等通过注意力模块学习特征通道的重要程度对通道进行校正,由于其出色的表现在计算机视觉领域获得广泛应用,但两者均在压缩特征图时采用全局平均池化(global average pooling,GAP)操作,如图2所示,该操作直接计算特征图平均值,导致特征图上的空间信息丢失,模型仅能专注于通道间的关联而忽视各个通道空间上的特征,而分割任务与空间信息是密不可分的关系。
图2 全局平均池化Fig.2 Global average pooling
根据上述情况,本文提出一种基于特征选择与残差融合U-Net(feature selection and residual fusion U-Net,FSF-U-Net)的2D分割模型。主要贡献为:1)提出全局特征压缩(global feature squeeze,GFS)操作代替全局平均池化(GAP)操作,并依此设计瓶颈特征选择模块对U-Net瓶颈特征进行选择。2)设计跳跃链接空间特征残差融合模块解决U-Net跳跃链接语义鸿沟问题,充分利用空间特征的有效性。3)针对肝脏及肝肿瘤分割任务的不同情况,对瓶颈特征选择模块进行细化,即全局特征选择模块和邻近特征选择模块。4)本文提出的模型在使用LiTS数据集(Bilic等,2019)的2D肝肿瘤分割模型中取得了当前最佳的平均Dice得分。
本文提出的特征选择与残差融合(FSF-U-Net)模型如图3所示。与传统U-Net结构相比,FSF-U-Net通过优化收缩路径和扩展路径之间的瓶颈特征表示、增加跳跃链接多级语义特征残差融合两种方法实现高级特征筛选及空间特征的有效融合,并根据不同任务特点适配不同特点的瓶颈特征筛选模块。
图3 特征选择与残差融合模型总体结构Fig.3 Feature selection and residual fusion network(FSF-U-Net)
FSF-U-Net的详细模型结构如图4(a)所示,该模型由1个4层的收缩路径和1个对称的扩展路径组成,其中收缩路径为不包含全连接层的VGG16(Visual Geometry Group 16-layer net)(Simonyan和Zisserman,2014)卷积网络,每个卷积层包含两个卷积单元,每个卷积单元包括1个3 × 3卷积,1个批标准化层(batch normalization,BN)和1个线性整流函数(rectified linear unit,ReLU)。收缩路径每卷积层间通过步长为2的2 × 2最大池化进行下采样。随着模型层数的增加,特征通道数增加,特征图维度降低,收缩路径的最底层为瓶颈特征。
瓶颈特征部分采用全局特征选择模块(feature selection module,FS)处理肝脏CT图像(图4(b)),采用邻近特征选择模块(neighbor feature selection module,NFS)处理肝肿瘤CT图像(图4(d)),两种模块均采用全局特征压缩操作(GFS)压缩特征图(图4(c)),以最少的参数量增加额外空间信息,极大改善了分割任务的准确率。两种模块均可以自适应地校准通道,区别在于全局特征选择模块考虑所有通道情况,每个通道代表一类语义特征,其在通道特征的操作为压缩全体通道,以确定全体通道间的关联,适用于肝脏分割任务这类需要结合图中全部语义信息的分割任务。邻近特征关联模块考虑相邻n组通道的情况,目的在于识别邻近n个语义特征间的联系,适用于肝肿瘤分割这类细致划分的分割任务。
跳跃链接部分采用空间注意力模块(spatial attention module,SAM)(图4(e))和空间特征残差融合模块(spatial feature residual fusion module,SFRF)(图4(f))提取空间维度的有效信息并解决语义鸿沟问题。空间注意力模块同样使用复杂度低但十分有效的结构,在1个1×1卷积压缩通道后由1个sigmoid函数激活压缩特征图,使其可以重标定空间特征的重要程度,为后续的特征融合做铺垫。空间特征残差融合模块通过在早期跳跃链接中引入中后期的高级特征弥补语义鸿沟问题。为避免过度影响早期特征表达,采用残差链接的方法,模块对深层特征采用1×1卷积压缩通道后,采用双线性插值对特征图进行上采样,结果与SAM模块处理后的浅层特征矩阵相加得到融合特征。
图4 FSF-U-Net总体模型及关键组件结构Fig.4 The architecture of FSF-U-Net and key components((a)overall architecture;(b)feature selection module;(c)global feature squeeze module;(d)neighbor feature selection module;(e)spatial attention module; (f)spatial feature residual fusion module)
输出分割图需要特征图维度与输入一致,故采用扩展路径增加特征图维度并减少特征通道数。扩展层均采用2倍上采样双线性插值法生成扩展特征图,扩展特征图通过1个卷积单元后与收缩路径同层的高分辨率特征图拼接,得到的特征通过1个卷积单元调整通道数。最后使用1×1卷积输出分割图,维度与原始输入的相同,通道数为1。
2.1.1 全局特征选择模块
全局特征选择模块(FS)较SENet的改进是优化原有的全局平均池化(GAP)操作,改用本文提出的全局特征压缩(GFS)操作,如图4(c)所示,该操作通过矩阵运算在压缩特征图的同时融入空间特征,提高网络的表达能力及泛化性,全局特征压缩模块(GFS)的计算式为
(1)
fFS(X)=σ(WE(ReLU(WSfGFS(X))))
YFS(X)=FS(fFS(X))·X
(2)
式中,fFS是全局特征选择操作,fFS(X)∈RC×1。WS∈RM×C表示1×1卷积矩阵,用于压缩通道数,M为压缩后的通道数。WE∈RC×M表示1 × 1卷积矩阵,用于恢复通道数为原始维度C。σ为sigmoid函数,其目的为输出各个通道的激活值,范围为[0,1]。FS为空间维度扩展函数,功能为扩展fFS(X)空间维度与输入X一致,YFS∈RC×HW为全局特征选择模块(FS)的输出。
2.1.2 邻近特征选择模块
邻近特征选择模块(NFS)在特征图压缩时采用GFS操作,NFS模块的详细结构如图4(d)所示,其与全局特征选择模块(FS)的区别在于NFS模块关联n个相邻的特征通道,有利于更加细微的特征表达,同时可以捕获跨通道交互,适用于处理肝肿瘤CT图像,而FS模块通过压缩全部通道融合全局特征,适合肝脏CT图像这类具有全局位置特点表达需求的数据。NFS的n邻近关联可以通过1维卷积操作实现,卷积核的大小为n,代表本组通道交互的覆盖范围,为避免通过手动调整n,本文采用ECA网络给出的计算公式,具体为
(3)
式中,|t|odd表示与t最接近的奇数,C表示特征通道数,γ和β数值分别为2和1。邻近特征选择模块(NFS)的计算式为
(4)
2.2.1 空间注意力模块
压缩与激励网络(SENet)提出通道注意力(channel attention,CA)机制以来,scSE(concurrent spatial and channel squeeze & excitation)(Roy等,2018)和CBAM(convolutional block attention module)(Woo等,2018)等相继推出空间注意力机制,其目的在于重新校准特征图的空间位置重要程度,忽略相对不相关的位置,对细粒度图像分割具有积极作用。如图4(e)所示,本文使用的空间注意力模型采用1×1卷积压缩通道维度至1,不改变特征图的大小,保证空间维度特征一致性,空间注意力模块的计算式为
fSA(X)=σ(WKX)
YSA(X)=FC(fSA(X))·X
(5)
式中,fSA表示空间注意力操作,输出fSA(X)∈R1×HW,WK∈R1×C为1×1卷积矩阵,用于压缩通道维度至1,σ为sigmoid函数,输出空间维度特征的激活值。空间注意力模块的输出YSA∈RC×HW,FC为通道维度扩展函数,可通过该函数将函数输入的通道维度扩展至C。
2.2.2 空间特征残差融合模块
空间特征残差融合模块(SFRF)用于解决跳跃链接带来的语义鸿沟问题。如图4(f)所示,SFRF接收模型相对浅层特征(k层)及相对深层特征(k+1层)为输入,k为[1,4]中的整数。空间特征残差融合模块的计算式为
YSFRF(Xk,Xk+1)=Xk+Fup(WFXk+1)
(6)
针对数据集存在的正负样本不均衡情况,本文采用二元交叉熵(binary cross entropy,BCE)与骰子损失(Dice loss,DL)加权结合的方式,由于骰子损失(DL)可能会导致梯度剧烈变化从而影响反向传播导致训练困难,所以适当降低DL的权重。损失函数的计算式为
(7)
使用MICCAI(Medical Image Computing and Computer Assisted Intervention Society) 2017 LiTS Challenge的训练数据集对模型进行测验,该数据集包含来自7个临床机构的131个对比增强的腹部CT扫描。放射科医生对CT扫描数据中的肝脏和肝肿瘤部分进行标注。平面分辨率范围为0.5~1.0 mm,切片厚度范围为0.7~5.0 mm,每个切片均为512 × 512像素。
为降低其他器官和组织无关信息在分割过程中的干扰,本文截取所有CT扫描切片的HU(Hounsfiled unit)值为[-130, 230],所有切片HU值截断后使用归一化压缩至[0,1]范围内。
实验时,将131个病例随机分为训练集和测试集,训练集包含108个病例,测试集包含23个病例,并将训练集中的108个病例按8 ∶2的比例随机分为训练数据和验证数据,3组数据之间相互独立。
实验环境配置为Intel(R)Silver CPU,NVIDIA TITAN XP(12 G)GPU,128 GB内存,Ubuntu16.04操作系统。输入图像为512 × 512像素,通道数为3。使用Adam作为优化器,学习率采用余弦退火(cosine annealing)策略,初始学习率设置为0.001,最小值为0.000 01,每30轮次重置为初始学习率。训练总轮数为80,批量大小设置为4。数据增强方法为图像水平翻转、图像垂直翻转和图像对比度随机改变。
本模型由U-Net作为基础网络(baseline),模型组件包含全局特征选择模块(FS)或邻近特征选择模块(NFS)、空间注意力模块(SAM)、空间特征残差融合模块(SFRF)。预测结果均采用国际上常用的平均Dice得分进行衡量,该标准反映了预测结果与真实结果的相似程度。平均Dice得分的计算式为
(8)
实验测试了邻近特征选择模块(NFS)不同取值的超参数n对实验结果的影响,结果如表1所示。测试模型为基础网络U-Net的瓶颈特征处增加邻近特征选择模块,本次测试的瓶颈特征通道特征维度为1 024,实验结果为5折交叉验证均值。
表1 不同超参数n下模型的平均DiceTable 1 The Dice of different hyper parameters n in the NFS module
不同注意力模块作用在瓶颈特征部分的结果如表2所示,结果为5折交叉验证均值。其中SE模块和ECA模块都是只作用于通道特征上的注意力模块。scSE模块和CBAM模块都是空间加通道混合注意力模块,两者分别以串联及并联的方式处理空间注意力和通道注意力。结果表明,混合注意力的模式有利于提高分割任务结果,但scSE和CBAM在引入的参数量高于本文提出的FS和NFS模块的情况下,效果低于本文方法。
表2 不同注意力模块下模型的平均DiceTable 2 The results of different attention modules adding on the bottleneck
模型组件测试结果如表3所示,结果为5折交叉验证均值。
从表3可以看出,在分别加入瓶颈特征选择(FS/NFS)操作后,模型相较于基础网络效果明显提升,其中肝脏分割预测结果的平均Dice得分均达到0.95以上,比基础网络的错误预测改善约37%,肝肿瘤分割预测得分均达到0.65以上。基础网络在跳跃链接处分别加入空间注意力模块和空间特征残差融合模块(SFRF)后效果均得到提升,其中单独加入SFRF模块的效果提升有限,分析原因为SFRF模块接收了未经k层空间注意力机制与k+1层瓶颈特征选择(FS/NFS)的原始U-Net特征,冗余特性重复干扰模型导致训练困难。添加全部组件后,FS模块和NFS模块分别在肝脏分割和肝肿瘤分割任务中达到最高的平均Dice得分。实验结果表明了模型组件的有效性。
表3 模型关键组件消融实验结果平均DiceTable 3 The ablation experiment results of key components
包括FS和NFS两种瓶颈特征选择模块的FSF-U-Net与U-Net肝肿瘤分割效果对比如图5所示,图示结果来自同一测试病例数据。两种FSF-U-Net模型均可准确识别出U-Net未识别出的分割目标,并且比U-Net准确覆盖更大的真实分割面积,从而达到更好的分割效果。FS模块和NFS模块均可以有效提升模型表现,但NFS模块得益于邻近特征关联操作对于细节的把控要优于FS模块。
图5 分割结果对比Fig.5 Comparison of segmentation results((a)Hu enhanced slices;(b)ground truth;(c)U-Net;(d)FSF-U-Net with FS module;(e)FSF-U-Net with NFS module)
FSF-U-Net模型训练过程中不同轮次测试图像获得的注意力热图可视化结果如图6所示。其中,图6(a)为HU值增加图像及肝肿瘤目标区域,图6(b)—(e)分别为第3、6、10、80轮的训练注意力热图。通过观察不同轮次的模型关注区域分析可以得知,模型前期会优先关注产生差异的区域,在各个差异区域均匀分布。在3~10轮时模型会逐渐更新至肝肿瘤附近,并减少部分非病变区域的注意力,此时的结果较为粗糙,后续的更新围绕目标区域优化边缘。当不存在病变区域时,如图6第4行所示,模型依然先关注产生差异的区域,在后续模型学习的过程中逐渐排除假阳性结果,减少并消除假阳性预测。
图6 不同训练轮次注意力热图可视化Fig.6 Visualization of attention heat maps in different training epochs((a)Hu enhanced slices with liver tumor segmentation;(b)the 3rd epoch;(c)the 6th epoch;(d)the 10th epoch;(e)the 80th epoch)
为进一步验证本文方法的性能,在同一数据集与肝肿瘤分割任务当前领先的2D、2.5D和3D方法进行对比,结果如表4所示。可以看出,本文提出的模型在2D方法中取得当前最佳的平均Dice得分,且在参数量远小于其他领先的3D和2.5D方法的情况下取得较为近似的结果。实验结果表明,本文提出的模型在低复杂度下的表现具有高竞争力。
表4 本文与已发布的LiTS主流方法对比Table 4 Comparison among published approaches and ours on the LiTS challenge
同时,与当前主流图像分割领域方法在本文使用的数据集进行实验对比,结果如表5所示。可以看出,在使用不同分割任务中主流的分割模型测试本文相同的数据时,结果呈现差异化表现。医学图像分割方法Attention U-Net和MS-DG(MS-dual-guided)在肝脏分割任务中表现出较为优秀的结果,但MS-DG在肝肿瘤分割任务中表现不佳,分析原因为肝肿瘤分割任务目标区域具有不确定性与小体积的特点,要求模型侧重于邻近区域特征之间的关系,而MS-DG侧重于捕获长距离特征的依存关系,模型特性导致其不适用于肝肿瘤分割这类随机性小目标分割任务。Attention U-Net模型原用于解决胰腺分隔任务中胰腺位置变化大、胰腺与周围组织对比度低的问题,迁移到肝肿瘤分割任务中展现出模型的适应性。而适用于场景分割的MsAU-Net(multi-scale attention U-Net)受到Attention U-Net注意力门机制的启发,并在上采样时采用inception结构融合不同感受野信息,以达到获得长距离特征关系,模型在肝脏分割与肝肿瘤分割任务中分别获得了96.2%与67.3%的成绩,在肝脏器官分割任务中与本文方法持平,但肝肿瘤分割效果不及Attention U-Net和本文方法。
表5 本文与其他主流分割方法对比Table 5 Comparison among other mainstream segmentation methods and ours
本文提出一种基于特征选择与残差融合的肝肿瘤2D分割模型。首先通过全局特征压缩(GFS)操作与肝脏及肝肿瘤任务的特点设计了两种瓶颈特征选择模块,实现了重标定瓶颈特征语义通道重要程度的功能,有效抑制无效特征的表达,相较于base-line模型,平均Dice得分在肝脏及肝肿瘤分割任务上分别提高了3.1%及2.2%,在同样条件下比使用全局平均池化(GAP)操作的SE模块及ECA模块多1%及1.2%,GFS方法在肝肿瘤分割任务平均Dice提升中的贡献超过50%。然后通过在U-Net跳跃链接处加入空间特征残差融合模块(SFRF)解决U-Net跳跃链接的语义鸿沟问题,配合空间注意力模块(SAM)使空间特征可以高效表达,并提供相对高质量的空间特征流动至上采样阶段,SFRF需与SAM和FS/NFS模块配合使用,在肝脏及肝肿瘤分割任务上分别达到96.2%和68.4%的平均Dice 得分。
实验表明,本文模型在LiTS数据集上取得了较好性能,肝肿瘤分割结果比当前最好的2D分割模型结果高0.8%。但本文方法因2D输入限制,无法引入上下文信息,故效果不及部分优秀的高维模型,并且模型中空间特征残差融合模块(SFRF)由于结构特点依赖于瓶颈特征,若瓶颈特征部分不做处理将会给网络各层带去额外的冗余信息,加重整体网络的学习负担。在未来工作中,可尝试优化空间特征残差融合模块(SFRF)的拓扑结构,将本文方法根据目标任务特点应用于其他医学图像分割任务中。实验环境条件允许或者有输入与模型参数量优化的情况下,也可以将本文思想扩展至高维度的医学影像处理方法中。