宋建丽,吕晓琪,2*,谷宇
(1.内蒙古科技大学 信息工程学院,内蒙古 包头市 014010;2.内蒙古工业大学 信息工程学院,内蒙古 呼和浩特 010051)
脑肿瘤是颅内肿瘤的简称,由脑部非正常增长的神经细胞组成,相较于其他肿瘤具有更高的致命性。脑胶质瘤是所有脑肿瘤中最常见、最具有侵袭性的恶性肿瘤[1]。据世界卫生组织报道,根据其显微图像和肿瘤行为可分为四个等级[2],Ⅰ,Ⅱ级为低级别胶质瘤(Low Gliomas grade,LGG),Ⅲ级和Ⅳ级为高级别胶质瘤(High Gliomas grade,HGG),级别越高,致命性越强。磁共振成像(Magnetic Resonance Imaging,MRI)作为一种高性能的软组织成像手段,能够显示不同模态的信息,现已成为脑肿瘤检测和诊断的重要工具[3]。
在临床实验中,脑肿瘤的精细分割主要依靠经验丰富的医生,注意力不集中、疲劳以及缺乏相关工作经验等因素会影响分割结果[4]。尽管研究人员已经进行了深入研究,但是由于脑肿瘤的位置、大小和形状具有不确定性,病变组织和正常组织之间的低质量成像和边界模糊使得在实际操作中难以获得足够的分割精度,脑肿瘤分割仍然面临很大挑战[5]。近年来,深度学习技术广泛应用于图像分析与处理、语音识别等领域,并取得突破性进展,现已成为脑肿瘤图像分割的主要技术手段[6]。
卷积神经网络(Convolutional Neural Networks,CNN)因其强大的特征提取能力,广泛应用于图像处理领域[7]。Ronneberger等[8]在全卷积神经网络(Fully Convolutional Networks,FCN)[9]的基础上首次提出UNet 模型,实现了端到端的自动分割,已成为医学图像分割领域的主流网络。Çiçek等[10]将UNet 扩展到3D UNet,改进后的网络能够更好地学习MRI 图像不同维度的信息,并且各项指标的参数均优于二维的UNet 网络。MultiResUNet[11]作为UNet 的增强版本,利用具有学习能力的残差块代替简单的跳跃连接,能同时对3D 和2D 图像产生更好的分割效果,尤其是对多模态数据集的处理。随着注意力机制有效性被证实,研究者们尝试将注意力机制引入卷积神经网络,Oktay等[12]通过将注意力门控机制嵌入跳跃连接,实现了对特定目标结构的自动学习。Wang[13]和Jiang[14]将基于自注意力机制 的Transformer 和SwinTransformer 与UNet 融合,进一步实现了对脑肿瘤的精确分割。
现有模型在获得高级语义信息时会损失重要的边缘和细节信息,杨坚华等[15]构建了并行多路径网络,使用同时进行特征提取和融合策略减少语义信息丢失;梁礼明等[16]通过在编码部分级联高分辨率网络减少特征缺失,增强病变像素传递,但是过多的卷积操作导致网络结构冗余复杂。Huang 等人[17]在编码阶段设置并行路径,在下采样的同时融合细节信息,从输入端降低采样造成的信息损失,但忽视了不同层级的语义信息差。Aboelenein等[18]针对肿瘤形式和大小差异性,设计层数不同、卷积核大小不同的双轨道UNet 结构,降低了小尺度特征在训练中的损失,但缺少对边缘细节信息的关注。Lu等[19]则利用多层的DenseNet 实现特征重用,保留低级信息。
针对传统卷积带来的模型参数量大,计算消耗高等问题,Chen等[20]提出DMFNet 网络,使用多纤维单元构成基础卷积层,利用不同扩张率的空洞卷积获取多尺度特征表达,显著降低了参数量和计算量,但是过多空洞卷积造成了图像特征丢失。Luo等[21]通过对标准卷积进行跨信道和空间域的分层解耦,提出了一种轻量级的伪3D 模型HDCNet,在减少信息冗余的同时完成对空间上下文信息的学习,极大地降低了参数量和计算复杂度,但是对增强区域分割欠佳。Zhou等[22]利用计算效率较高的3D ShuffleNetV2 作为编码器,利用逐点卷积和通道重排,降低计算复杂度和内存消耗,不足之处是忽略了解码器对模型效率和精度的影响。
由上述研究内容可知,通过简单地叠加模型结构,增加额外路径或者多尺度融合等方法,无法很好地缓解因网络层次加深导致的信息损失问题,同时还会造成网络自身的复杂度提高。为更好地解决特征信息损失和模型复杂度过高的问题,本文提出了一种轻量级的双重注意力特征对齐网络(Dual Attention Feature Align Net,DAFANet)。首先,在网络解码阶段使用特征对齐单元减少上采样造成的信息损失,改变传统分割模型对上采样阶段特征恢复的直接操作,显示地学习不同层级之间存在的语义流差异性,校正语义信息差,实现更准确的特征恢复。其次,针对脑肿瘤图像的三维数据形式,将2D 期望最大化注意力机制扩展为3D 变体,分别作用于特征对齐单元和级联路径,有助于网络更好地利用图像的体素信息,同时促进网络对全局依赖关系的获取,双路径形式能更好地减少输入噪声,降低输入特征的差异性,强化特征恢复过程。最后,使用广义Dice 损失函数提升数据不平衡条件下的分割精度,加快网络收敛。
本文提出的DAFANet 模型是基于实时分割网络DMFNet 改进,其网络结构如图1 所示。4通道对应脑肿瘤的四个模态。模型采用U 型编码解码结构,在编码阶段首先采用步长为2 的3×3×3 卷积初步采样,使用如图2 所示的多纤维(Multi-Fiber,MF)单元和扩张多纤维(Dilated Multi-Fiber,DMF)单元作为卷积块,并在下采样中设置组卷积数为16,其中扩张多纤维单元用于解决在分辨率较低时感受野较小的问题,可学习的权重系数ω1,ω2,ω3分配给每个扩张分支,最后三个分支相加。多纤维结构通过使用3 个并行的纤维单元将具有Cin通道的输入分为三组,将复杂的神经网络切片替换成由多个纤维组成的集合,结合具有通道变换功能的多路复用器,极大地提高模型的效率,最终形成轻量级的3D 网络结构。其中多路复用器的具体结构如图2(b)所示,由两层1×1×1 卷积组成,用于不同纤维块之间的信息交互。
图1 DAFANet 整体结构图Fig.1 Overall network architecture of our DAFANet model
图2 多纤维单元和扩张多纤维单元结构图Fig.2 Structural diagram of Multi-Fiber unit and Dilated Multi-Fiber unit
解码阶段由特征对齐(Feature Align,FA)单元和多纤维单元构成,最后经过一层1×1×1 卷积和softmax 层得到最后的分割图。特征图在执行上采样和级联操作之前,特征对齐单元会显示地学习编码阶段和解码阶段特征映射之间的语义信息差,利用信息差形成第一层采样层,随后和上采样特征相加,最后和编码路径的信息级联生成最后的特征信息。第三采样层在跳跃连接路径和特征对齐路径融入3D 期望最大化注意力机 制(Expectation-Maximization Attention,EMA),用于获取上下文信息,降低输入噪声。
特征对齐单元将特征的逐层传递抽象为“流”的形式,语义信息流可以简单概述为具有语义差的特征在减少错位问题时信息流动所形成的差值域,其核心思想是用深层语义信息弥补浅层语义信息的缺失。通过学习不同分辨率之间的语义信息,动态地建立特征图之间的位置对应关系,降低相邻级别特征图的语义信息差,促使网络得到更加丰富的空间和语义信息。特征对齐单元以不同层级的特征信息作为输入,通过评估不同层级之间的特征差异得到合适的语义流场,该流场会自动调整两层之间的差异,给出有效的特征对齐信息。网络构成如图3 所示。
图3 特征对齐单元Fig.3 Feature align unit
多次递归使用下采样操作,导致上采样的特征映射与对应层的特征映射存在可预测的空间错位,通过简单地元素添加或者通道融合都会损害目标边界的预测。特征对齐单元通过动态学习特征映射之间的语义信息差,进而减少空间错位的产生,实现更准确的特征恢复。整体流程可分为如下两步:(1)获取显著映射区域;(2)特征重采样。
实现特征对齐的关键是寻找两个相邻特征层之间的对应点,由于脑肿瘤图像前景和背景之间像素极不平衡,实际分割区域在脑肿瘤图像占比不足,那么特征图中的绝大多数显著区域可以当做信息传播的关键点,也是实现特征对齐的关键信息。
其中:cat(·)代表级联操作,conv3×3×3代表卷积核3×3×3 的卷积操作。
经过Ω流域的预测,Fl所处的空间灰度域中的每一个位置pl都可以被映射到高级语义信息层的点ph上,最后将Fh和Ω经过warp 操作得到最后的特征映射。对于矫正之后的深层特征,Li等人[23]采用与浅层特征信息融合的方式来获取最终的结果。但是对于像脑肿瘤这种实际分割占比不足而且分割区域呈现嵌套形式的图像数据,当学习到的语义信息具备的对齐效果不佳时,会影响各个子区域的边界分割效果。为此,本文采用模板匹配的方式,通过生成与Fh同样大小的灰度规则网格grid,将Ω中对应坐标点的像素赋值到grid 的相应位置,基于语义相似度将低分辨率特征图的样本提升到高分辨率的大小,实现对高级语义信息的重采样。Warp 核心是通过使用学习到的关键位置点和偏移量调整卷积核中每个采样点的位置,实现将上采样的特征映射对齐到一组特征映射grid 中去,最后输出的特征图F将会有特征对齐的特性。在数学上,可以通过公式(2)描述:
在像素级别的脑肿瘤图像分割过程中,详细的上下文信息对分割任务至关重要,而卷积操作只能获取卷积核区域内像素的相邻关系,无法建立与其他像素之间的联系。自注意力机制通过计算像素点之间的特征加权和获取特征表示,以此捕获远程信息。传统自注意力机制需要在所有位置上计算所需的注意力图,导致较高的计算复杂度。Li 等人[24]从期望最大化迭代(Expectation-Maximization,EM)算法的角度对自注意力机制优化,使用EM 算法迭代得到一组紧凑的基,在基上计算权重,从而降低计算量。这一过程主要通过E 步更新注意力图,M 步更新这组基实现,其中E、M 需要交替执行,直至收敛。本文在原有的注意力机制基础上进行改进,将其扩展为3D 形式,以更好地适应脑肿瘤的三维图像模式,使其能够更好地捕获全面的空间信息。
EMA 的具体流程可以描述为,对于给定的输入大小为C×D×H×W的特征图X,首先将其重塑为N×C大小,其中N=D×H×W,选择初始基μ∈RK×C(K为基的个数),E 步估计隐变量Z∈RN×K,Z表示每个基对像素的权责,则第K个基对第n个像素xn的权责可以计算为:
其 中:1≤k≤K,1≤n≤N,内核P(a,b)选择exp(aTb)的形式。则第t次迭代中的步骤E 可以表示为:
其中,λ作为超参数控制的分布。
用M 步更新基μ,μ被计算作为X的加权平均,则第k个基被更新为:
EMA 算法交替执行E 步和M 步算法T次之后,近似收敛的μ和Z对X进行重估计得公式为:
其主要流程如图4 所示,对于输入的特征图X,交替执行E 步、M 步直至收敛,使用收敛的μ和生成的注意力图Z对X进行特征重构得到Xˉ,两个1×1×1 卷积分别用于变换输入的值域和将估计值Xˉ映射到残差空间,最后经由残差运算得到加强后的特征信息。
图4 期望最大化注意力机制整体架构Fig.4 Structure of expectation-maximization attention
脑肿瘤的病变区域占整个输入空间的一小部分,存在目标区域和背景区域分布占比不平衡的问题,而传统的Dice 损失函数不利于小目标区域的分割,小目标区域部分像素的错误预测会引起Dice 系数大幅度波动,不利于模型收敛。为此,本文选择使用广义Dice 损失函数(Generalized Dice Loss,GDL)缓解小目标区域预测效果不佳时对模型的影响。GDL 在Dice Loss 的基础上引入权重以改善对小目标检测不利的情况,同时将多个类别预测情况下的结果进行整合,使用一个指标作为分割结果的预测指标。脑肿瘤图像分割作为对健康组织和病灶的二分类任务,此时广义Dice 损失函数如公式(7)所示:
其 中:m为类别数,rij为类别i在第j个像素处的标准值,pij为类别数i在第j个像素处的预测值,ω为每个类别的权重,由类别中的像素个数决定,具体如式(8)所示:
本文所用实验环境为:CPU:15 vCPU AMD EPYC 7543 32-Core Processor,GPU:RTX 3090(24 GB)* 1;ubuntu18.04 操作系统,Pytorch 深度学习框架。
实验数据集使用脑肿瘤(BraTS)分割挑战赛BraTS2018 和BraTS2019 数据集,数据集的数据构成如表1 所示,其中使用BraTS2019 做主要实验,BraTS2018 用于不同数据集的泛化验证。每个病例都有四种模态,包括T1 加权(T1)、T2加权(T2)、T1 对比(T1ce)和液体衰减向内恢复(FLARE)序列,每种模态的图像大小都是240×240×155。所有训练集均有标签,验证集没有标签,病例的真实标签均有多位经验丰富的医师标注。论文中的所有结果均在BraTS 挑战赛的在线评估服务器进行测评,验证算法的有效性。图5 为同一病例不同模态的脑肿瘤图像和真实分割标签。
表1 数据集构成Tab.1 Datasets composition
图5 不同模态的脑肿瘤图像与真实分割标签Fig.5 Brain tumor image and real segmentation tags with different modalities
为对分割结果进行有效评估,采用多指标综合评判方法。选择Dice 相似系数、灵敏度(Sensitivity)、特异性(Specificity)和豪斯多夫距离(Hausdorff95 distance)对脑肿瘤的浮肿(Whole Tumor,WT)区域、坏疽(Tumor Core,TC)区域和增强肿瘤(Enhance Tumor,ET)区域进行评价。其中Dice 相似系数用来计算分割结果和图像真实标签的相似程度,取值范围为[0,1],Dice值越大说明分割精度越高。计算公式为:
灵敏度和特异性用于衡量结果和真实值之间的体素重叠程度,具体计算方式为:
其中:TP表示真阳性,FP为假阳性,FN为假阴性。
Hausdorff95 距离用来评估模型的分割结果和真实标签边界之间的距离,是分割结果边界中的某个点到真实标签边界中的最近点的最大值,距离越小说明分割精度越高。计算公式为:
其中:sup(·)用于寻找集合下确界,inf(·)寻找集合上确界,d(x,y)表示x,y两点之间的欧式距离,X和Y分别为网络预测的脑肿瘤区域和真实标签区域的体素集,x,y分别为两个体素点的距离。
实验过程中使用自适应矩阵估计(Adam)进行训练,设置初始学习率为10-3,使用衰减率为10-5的L2 范数作为正则化系数;使用数据增强技术扩充数据集,包括将图像从240×240×155 随机剪裁为128×128×128,以0.5 的概率沿任意轴向对图片进行随机镜像翻转,对剪裁后的图像在[-10°,10°]范围内随机旋转等操作。在EMA模块中设置基集数k的值为64,迭代次数T为3,超参数λ为1。根据实验设备资源情况,设置批处理大小为4,训练500 轮基本收敛。
为更好地证明所提模块的有效性和泛化性,分别在DMFNet、HDCNet 和3D UNet 网络进行实验,结果如表2 所示。实验结果表明,结合FA单元后的三个基础网络综合性能均得到提升,其中Dice 相似系数的效果最为明显,表明经过处理之后的特征映射具备信息对齐的效果,证明了特征对齐单元在减少特征错位问题上的有效性。尤其是改进后的3D UNet 在Dice 系数和灵敏度指标上较原网络都有大幅提升,嵌入FA 的3D UNet 在ET,WT 和TC 三个区域的Dice 相似系数分别提升了1.97%,1.03%,1.74%,灵敏度分别提升了4.13%,1.06%,3.23%。DMFNet 在TC 区域的Dice 相似系数增加了0.79%,HDCNet 在WT 区域的Dice 精度增加了0.41%,在其他区域的精度也都有小幅提升。同时改进后的三个网络在特异性和Hausdorff95 距离方面也有不同程度的改善,充分证明了特征对齐单元的有效性和泛化性。
表2 不同模型使用FA 后的效果Tab.2 Comparison of effects of different models using FA
为验证本文所提模块的有效性,在DMFNet网络的基础上分别使用特征对齐单元(FA),期望最大化注意力机制(EMA),对比不同网络结构下Dice 相似系数和Hausdorff95 距离,验证不同模块对分割结果的有效性,结果如表3 所示。
表3 DAFANet 模型的消融实验Tab.3 Ablation experiment of DAFANet model
表中的“up”和“down”分别表示在特征对齐路径和跳跃连接路径使用EMA,“2EMA”表示在两条路径同时使用EMA。结果表明,不同结构下的Dice 相似系数较基础网络都有不同程度的提升,本文提出的DAFANet 模型Dice 相似系数达到了78.11%,90.10%,82.21%,对比原网络分别提升了1.43%,1.63%,2.02%。Hausdorff95 距离在ET 和WT 区域均有减少,但在TC 区域略有增加;引入EMA 之后的效果更佳,尤其是在ET 和TC 区域的分割,对跳跃连接和特征对齐引导路径同时使用EMA 的综合效果优于单独使用EMA。为进一步验证EMA 位置对模型整体的影响,分别在网络第一层、第二层和第三层使用EMA,验证其位置对分割精度和模型参数的影响,结果如表4 所示。由表4 可以看出,在第三层使用EMA 的分割效果优于在其他位置的分割值,同时计算量低于其他位置,此时模型的整体性能达到最优。
表4 EMA 位置的消融实验Tab.4 Ablation experiment of EMA position
基集的初始值会影响EMA 收敛到全局最大值的进程,在迭代过程中尤为重要。为更好地发挥算法性能,本文针对k的取值做如表5 所示的对比实验,验证k 取不同数值的分割效果,Dice 系数的显式对比如图6 所示。结果表明,分割效果随k的取值表现出明显的差异性,k=16和k=64优于k=32 的分割效果,特别地,当k=64 时,在TC 区域的分割精度值较k=32 增加了2%,能够实现整体效果最佳。
表5 超参数k 的对比实验Tab.5 Comparative experiment of superparameter k
图6 k 取不同值的对比图Fig.6 Comparison chart of different values of k
本文的DAFANet 模型与3D UNet、注意力UNet、DMFNet 等经典脑肿瘤分割模型的性能指标对比结果如表6 所示,从表中可知DAFANet网络的整体分割效果优于其他六个模型,Dice 分割精度有不同程度提高,Hausdorff95 距离也有不同程度减少。在参数量和计算量(每秒浮点运算次数)上,DAFANet 的整体参数量为4.23 M,比原网络和3D ESPNet 略有增加,远小于注意力UNet 和TransBTS,约为注意力UNet 和Trans-BTS 参数的1/8,约为3DUNet 参数的1/3,较HDCNet 增加了3.94 M;在计算量上,约为TransBTS 的1/11,约为3D UNet 的1/6,约为注意力UNet 和3D ESPNet 的1/2。相较于HDCNet,DMFNet 和3D ESPNet,DAFANet能够在较少增加计算量或者参数量的基础上,分割精度得到有效提升。
表6 与经典模型的分割结果对比Tab.6 Comparison of segmentation results with classical models
为更好地显示数据分散性,对DAFANet 和DMFNet 的Dice 相似系数做箱线图比较。图7中最上方和最下方的线段分别代表最大值和最小值,箱体自上而下分别代表第三四分位数、中位数和第一四分位数。由图7 可知DAFANet 整体数据的平均水平较高,在ET 和TC 区域的Dice 相似系数稳定性高于DMFNet,离散数据值更接近第一四分位数值。综合而言,DAFANet相对于DMFNet 能够在保持分割稳定性的同时拥有更好的分割效果。
图7 DAFANet 和DMFNet 的箱线图对比Fig.7 Comparison of box diagram between DAFANet and DMFNet
为验证该模型在其他数据集上的效果,基于BraTS2018 验证集开展进一步实验,在三个区域最终的Dice 分割精度分别达到80.44%,90.07%,84.57%,对应的Hausdorff95 距离分别达到2.75 mm,4.70 mm,5.49 mm。将两个数据集的分割结果和当前流行方法进行比较,结果如表7 所示。本文所提算法在两个数据集ET 区域的分割几乎都可以获得可观的Dice 精度,侧面验证了算法对细小区域分割的有效性。相对最新的Liu等[29]和Chang等[30]的 模型,DAFANet 的结果虽然在TC或者WT的分割值略低,但在其他区域都有不同程度的提升,进一步说明在获取细节和边缘轮廓信息上有一定的可行性。综合对比,本文的综合效果更佳。
表7 不同数据集下的Dice 系数和Hausdorff95 距离同其他模型的结果对比Tab.7 Comparison of Dice coefficient and Hausdorff95 distance with other models under different datasets
为更直观地显示分割效果,对部分分割结果进行可视化,如图8 所示(彩图见期刊电子版)。本文DAFANet 网络相比其他网络更接近真实值,能显著减少分类错误。DMFNet、注意力UNet 和UNet 的分割结果图比较光滑,但是丢失了许多细节信息,导致轮廓分割模糊。3D ESPNet 虽然对小目标区域有一定优势,但在分割子区域的重叠部分会产生较多错误分类,HDCNet 和TransBTS 的分割效果虽然优于其他网络,但是在处理小目标区域以及核心区域细节部分上仍有不足。DAFANet相对于其他网络,对肿瘤的小目标区域识别更加细腻,轮廓分割也更加准确,尤其是在红色ET 区域的分割效果,优于其他网络。
图8 分割结果的可视化对比Fig.8 Visual comparison of segmentation result
为了获取更加丰富的细节信息,降低临床操作中因边缘模糊导致的分割失误,本文通过对语义信息流概念的深入分析,设计了能够减少因多次采样造成信息损失的特征对齐引导单元,在探索特征对齐单元可行性的基础上,提出了一种轻量级融合注意力的特征对齐引导网络DAFANet。首先使用特征对齐单元缓解因网络层次加深造成的信息退化,减少了网络上采样过程中的信息损失,使得模型本身能够兼顾特征的深度获取和细节保留;其次,在跳跃连接和特征对齐路径中融入3D 期望最大化注意力机制,既能获取全局依赖关系,又能降低输入噪声。最后,利用广义Dice 损失函数降低类别不均衡对分割精度的影响。实验结果显示,本文所提方法在BraTS2018 和BraTS2019 数据集的平均分割精度达到了85.03%,83.47%,表明DAFANet 模型具有一定的优越性和较高的临床价值,能够更好地帮助医生诊断病情。而特征对齐单元作为一种即用即改的模块,目前主要在U 型网络进行测试,未来会尝试将其应用到其他网络架构和其他医学图像数据集。