基于特征融合与注意力机制的脑肿瘤分割算法

2023-10-17 05:50褚张晴晴钟志强颜子夜战荫伟

计算机工程 2023年10期

褚张晴晴，钟志强，，颜子夜，战荫伟

（1.广东工业大学计算机学院，广州 510006；2.广州柏视医疗科技有限公司临床研究部算法组，广州 510213）

0 概述

脑肿瘤是指起源于脑神经胶质细胞的原发性颅内肿瘤［1］，按肿瘤细胞的恶性程度可划分为低级别和高级别［2］。在我国年发病率约为（5～8）/10万，5 年病死率仅次于胰腺癌和肺癌［3］。多参数磁共振成像（Magnetic Resonance Imaging，MRI）是诊断脑肿瘤的重要手段［4］，分为T1、T2、T1ce 和Flair 4 种序列。脑肿瘤各区域的勾画通常由医生在这4 种MRI 序列上手动完成，非常耗时且同质性差，并且多参数MRI还会增加数据密度的不均匀性和噪声，使肿瘤和正常组织、肿瘤各区域之间的边界模糊［5］。因此，自动分割脑肿瘤可以帮助医生快速确定病变范围［6］，为临床检测和分析提供准确、可重复的解决方案，具有非常重要的现实意义［7］。

脑肿瘤的自动分割最初依靠机器学习方法进行手工特征提取，如Atlas［8］、决策森林［9］、条件随机场［10］等方法。近年来，随着深度学习的发展，深度神经网络逐渐成为脑肿瘤分割领域的主要方法。文献［11］在FCN［12］的基础上提出具有对称结构的U-Net，通过跳跃连接将编码器中的浅层特征和解码器中的深层特征相连接，使得各层次信息得到充分保留，成为目前脑肿瘤分割领域应用最广泛的基础网络。

此外，研究人员将注意力机制引入U-Net 网络，进一步提高分割性能。如文献［21］提出基于门控注意力机制的Attention U-Net，增强网络对重要信息的传递能力。文献［22］设计双重注意力模块对编码器和解码器的目标特征进行权重优化，有效抑制背景与噪声的表达。文献［23］为提升网络的特征学习能力，提出基于通道注意力机制SE 模块的FocusNet，但是FocusNet 对边界信息识别模糊，不适用于小目标图像分割。文献［24］提出将通道注意力和空间注意力共同嵌入U-Net 的编码器和解码器中，得到更丰富的上下文依赖关系，在医学图像数据集上获得比FocusNet 更优的分割性能。

但是由于肿瘤成像特征十分复杂，因此这些方法在网络设计上均存在对跳跃连接中语义差距不够重视，且对三维MRI 图像跨通道信息利用不足的问题。为此，本文基于特征融合与注意力机制的脑肿瘤分割算法FFCA-U-Net。在跳跃连接中设计特征融合（Feature Fusion，FF）模块，将不同层级、不同尺度的特征进行融合，以有效弥合编码器和解码器之间的语义差距并调整感受野，增强网络对特征信息的感知能力。引入改进后的三维坐标注意力（Coordinate Attention，CA）机制，沿MRI 图像的3 个维度捕获跨通道信息，从而增强对肿瘤特征的学习，获得更精确的脑肿瘤边界分割结果。利用区域生长算法得到肿瘤区域的掩码图像，与MRI 图像一起输入到FFCA-U-Net中，以快速反映肿瘤与正常脑组织的空间位置关系。

1 本文方法

本文提出的FFCA-U-Net 网络结构如图1 所示，网络整体采用U-Net 编码器-解码器架构。首先，为更好融合编码器中的低级细节特征和高级语义特征，本文将各层次特征图上采样到最大分辨率后进行特征拼接，再通过下采样操作送入FF 模块，FF 模块对特征图进行信息提取和融合来弥补编码器、解码器之间的语义差距，增强网络的信息表达能力；其次，在编码器的最后一层引入改进的三维CA 模块，沿MRI 图像的3 个维度聚合特征，对通道关系和长程依赖关系进行编码，使模型更精准地定位和识别肿瘤区域的位置信息；最后，在解码器部分采用转置卷积做上采样操作，并使用Softmax 激活函数将多通道特征映射到相应的肿瘤子区域，得到脑肿瘤各区域分割图。

1.1 掩码图像

深度学习模型通常结构复杂，不能快速反映肿瘤与正常脑组织的空间位置关系，存在学习冗余、浪费资源问题。为此，本文利用区域生长算法得到整个肿瘤区域的掩码图像，与原始多序列MRI图像一起送入网络中。首先通过直方图阈值法自动选择生长过程中的种子［25］，并将种子压入算法栈序列中；然后判断栈中头部种子的邻域特征，选择相邻像素压入栈中并作为新的种子，重复上述过程直到将具有相似特征的像素划分成相同区域，得到掩码图像。肿瘤区域的掩码图像如图2所示。

1.2 特征融合模块

在编码器训练过程中，浅层编码器可以捕获颜色、纹理等低级细节特征，深层编码器则可以捕获肿瘤的高级语义特征。但是对于直接进行跳跃连接、不考虑语义差距的U-Net，如何有效对编码器中的多尺度特征进行建模仍待进一步改进［26］。为此，本文设计特征融合模块，其结构如图3 所示。FF 模块代替U-Net 中跳跃连接的直接拼接操作，将编码器中的细粒度局部信息和粗粒度全局信息进行融合，使得网络可以有效捕获并利用各层次和各尺度特征。此外，FF 模块还可以调整感受野，进一步增强模型的信息表达能力。

图3 特征融合模块结构Fig.3 Structure of feature fusion module

FF 模块具体设计如下：首先为融合低级局部特征和高级语义特征，对编码器端的跨层多尺度特征图和对应层特征图做拼接，得到FF 模块的输入特征图x，再对x分别进行c1和c2卷积操作，其中c1是大小为1×1 的普通卷积，c2是大小为3×3、膨胀率为3 的膨胀卷积。卷积后的特征图经过相加得到融合特征图Fc，Fc既包含肿瘤的纹理、强度值等局部细节特征信息，又包含肿瘤的全局语义特征信息。此外，为避免Fc中邻近像素之间缺少依赖关系且损失信息的连续性，从而产生网格效应［25］，在其后引入全局平均池化（Global Average Pooling，GAP）层和通道数分为8 组的归一化层GN，得到有效保持目标区域信息的特征图Fg，使得FF 模块能够更充分学习编码器中的重要特征信息。最后把Fc和Fg做元素相乘，利用LeakyReLU 函数σ进行激活，得到FF 模块的最终输出：

1.3 坐标注意力

在深度神经网络中，随着级联卷积和非线性变化的叠加，空间细节特征通常在高层输出特征图中消失，导致小目标分割任务的准确率降低［27］。为此，本文在FFCA-U-Net 中引入坐标注意力机制，并为适应成像特征复杂的三维MRI 图像改进成三维CA 模型，如图4 所示。与原本CA 模块只考虑2 个维度信息不同，改进后的CA 模型将通道注意力分为3 个特征编码过程，既考虑内部通道信息的交互，又增强对肿瘤全局位置的学习能力，使得模型更准确地定位到MRI 图像中的肿瘤区域，从而减少模型的误分割结果。

渣锁斗阀采用液压控制方案使得整个系统的复杂性大幅增加，影响阀门工作性能的因素也相应增多，设计及施工中的疏漏会引起各种各样的问题。该项目中渣锁斗阀门及其相应液压系统施工完毕时已至寒冷的冬季，开车阶段渣锁斗阀的开关时间一直达不到工艺要求的10 s，一般在20～40 s内，夜间温度极低时，阀门开关时间甚至超过1 min。本节将详细阐述渣锁斗液压阀开关时间的计算方法，并分析开关时间不达标的原因。

图4 改进的三维坐标注意力模块结构Fig.4 Structure of improved three-dimensional coordinate attention mechanism

改进后的三维CA 模块分为位置信息嵌入Zc和坐标注意力生成Gc2 个部分。Zc将全局池化分解为3 个在不同维度上的一维特征编码操作，以捕获具有精确位置信息的空间长程依赖关系。具体地，对于尺寸为D×H×W的输入特征图x使用大小为（1，H，W）、（D，1，W）和（D，H，1）的池化核沿着不同方向对通道进行编码，得到3 个维度上的输出特征图：

经过Zc变换后，Gc首先将和进行拼接，再使用1×1×1 卷积函数F和非线性激活函数δ得到空间信息在3 个方向上的特征映射f；然后将f分解为3 个单独的张量f h、f w和f d后，利用卷积函数F将其变换到与输入特征图x相同的维度，再经过Sigmoid 激活函数ς分别得到特征图在3 个方向上的注意力权重gh、gw和gd。三维CA 模块输出的加权特征图表达式如下：

1.4 评价标准

为评估FFCA-U-Net 模型性能，本文对增强肿瘤区域、非增强肿瘤区域和水肿区域使用Dice 系数（D）和Hausdorff距离（Hausdorff Distance，HD）进行评价。

Dice 系数是集合相似度度量指标，用于计算2 个样本的相似度，取值范围为[0，1]，Dice 系数越大说明分割精度越高。Dice 系数计算式如下：

其中：X表示模型预测值的集合；Y表示真实标签的集合；X∩Y表示模型分割结果与真实标签的交集。

HD 是集合边界距离度量指标，用于评估模型分割边界和真实标签边界之间的距离，HD 越小说明分割精度越高。HD 计算式如下：

其中：d（x，y）表示x与y2 点之间的欧氏距离。为排除离群点造成不合理的距离，本文在评估中使用HD95，即取第95 分位的结果。

1.5 损失函数

针对脑肿瘤分割任务中的类不平衡问题，本文采用加权交叉熵损失函数Lw和带有平滑系数的Dice损失函数Ld构造损失函数L。损失函数计算式如下：

其中：I为标签总数；i为标签序号；wi、li和fi分别表示第i个标签的权重、真实标签值和模型预测值；ϵ表示平滑因子。

2 实验与结果分析

2.1 数据集

本文在MSD（Medical Segmentation Decathlon）挑战赛的脑肿瘤分割数据集上对FFCA-U-Net 进行评估。MSD 数据集共有484 例MRI 数据，每例数据包含T1、T2、T1ce 和Flair 4 种序列，每个序列有155 张切片，每张切片勾画出非增强肿瘤、增强肿瘤和水肿3 个标记区域。本文把该数据集按照8∶2 划分，分别用作训练集和测试集。

2.2 数据预处理

在把MRI 图像送入网络前须做一系列预处理工作：1）为使MRI 图像的强度值更加均匀并提高肿瘤边界识别的准确性，对MRI 图像做Z-scoring 归一化，将图像的均值置为0，方差置为1，消除各向异性；2）针对数据集的类不平衡现象，删除所有值为零的空白切片，并将每个切片裁剪到非零值区域；3）在训练过程中使用随机旋转、缩放、放射变换、裁剪等方法进行数据增强，以提高模型的泛化能力。

2.3 实验环境与配置

本文使用深度学习框架PyTorch，通过对网络进行200 次迭代训练。其中，使用Adam 优化器更新网络的权值，学习率、权重衰减系数分别设为0.000 2和1×10-5。为了与其他模型公平比较，本文没有使用预训练模型，所有实验均在NVIDIA RTX A6000 GPU上进行。

2.4 结果分析

本文将FFCA-U-Net与其他5 种典型模型进行对比分析，采用Dice系数、HD95 2种指标对脑肿瘤子区域的分割情况进行评价。不同模型的Dice 系数和HD95对比分别如表1和表2所示，加粗表示最优数据。

表1 不同模型的Dice 系数对比Table 1 Comparison of Dice coefficients among different models

表2 不同模型的HD95 对比Table 2 Comparison of HD95 among different models

从表1 可以看出，FFCA-U-Net 在所有模型对比中均取得最优的表现，在水肿、非增强肿瘤、增强肿瘤区域和肿瘤整体区域上的Dice系数分别为0.799 3、0.628 6、0.803 4 和0.743 8，与基础网络U-Net 相比，分别提高了3.95、7.93、13.01 和8.30 个百分点。在非增强肿瘤区域和增强肿瘤区域的分割结果上，FFCA-U-Net 分割效果显著，优于UNETR［28］和TransBTS［29］等其他模型，这得益于FF 模块对跨尺度特征信息的充分提取和融合，以及三维CA 模块将模型的注意力集中到有价值的目标区域，使得网络更准确地定位到目标区域，提高肿瘤的分割精度。

从表2 可以看出，FFCA-U-Net 在非增强肿瘤区域的HD95 指标略高于UNETR，但在水肿区域、增强肿瘤区域的指标都有明显改进，相比UNETR 分别降低了1.16、0.44。FFCA-U-Net HD95 的平均指标优于所有的对比模型，可以有效地识别和分割脑肿瘤各区域的边界。

图5 所示为3 例分别利用UNETR 和FFCA-U-Net得到的脑肿瘤各区域的可视化分割结果（彩色效果见《计算机工程》官网HTML 版）。从图5 可以看出，UNETR 虽然对肿瘤轮廓分割较为平滑，但在细节上有所缺失，而FFCA-U-Net在肿瘤轮廓和细节上的分割均优于UNETR，能够较准确地分割出各区域，并且在增强肿瘤区域和非增强肿瘤区域的分割效果有明显提升。

图6 所示为分别利用UNETR 和FFCA-U-Net 在矢状面、冠状面和水平面的分割结果，进一步验证FFCA-U-Net 的分割性能。图6中第1～4 行分别为MRI图像、真实标签、UNETR 和FFCA-U-Net 分割结果。与UNETR 相比，FFCA-U-Net 在增强肿瘤区域、非增强肿瘤区域与真实标签更接近，但是由于水肿区域边界的高度不确定性，因此UNETR 和FFCA-U-Net均对水肿区域的边界识别有一定误差。

图6 不同模型在矢状面、冠状面和水平面的分割结果对比Fig.6 Comparison of segmentation results among different models in sagittal，coronal，and horizontal planes

2.5 消融实验

本文的消融实验包含2 个部分，分别分析FFCA-U-Net中不同模块、不同注意力机制的有效性。

为测试不同模块的有效性，本文共设计5 组对比实验，添加不同模块后的实验结果如表3 所示。相比U-Net，在U-Net中引入FF 模块使Dice系数提升4.54，在U-Net中引入CA 模块使Dice 系数提升4.95 个百分点，这表明在U-Net 中引入FF 模块和CA 模块均能有效提升网络的分割性能。向U-Net 中添加改进后的三维CA 模块，与引入CA 模块相比Dice 系数和HD95均得到优化，这得益于三维CA 模块从3 个方向聚合特征，可以从深层特征中学习到更精确的肿瘤位置信息。同时向U-Net 中加入FF 模块和改进三维CA 模块，即本文所设计的FFCA-U-Net。与前4组实验对比发现，FFCA-U-Net 模型的分割精度进一步提升且分割效果达到最优，这说明FF 模块和改进的三维CA 模块能够相互促进，有效提高模型的分割性能。

表3 添加不同模块后的实验结果Table 3 Experimental results after adding different modules

为测试不同注意力机制的有效性，本文共设计3 组对比实验，添加不同注意力机制后的实验结果如表4 所示。在U-Net 中引入FF 模块表示基础方案。在基础方案中添加具有通道注意力的SE 模块［30］，在基础方案中添加具有通道注意力和空间注意力的CBAM 模块［31］，对比发现添加SE 模块和CBAM 模块均使得网络的分割精度有所提升。相比SE 模块，CBAM 模块的参数量略有增加，但是分割精度更高，表明空间注意力对肿瘤信息的提取具有更好的效果。在向基础方案中添加沿2 个方向聚合空间特征的CA模块［32］以及三维CA 模块。相比引入CA 模块，引入三维CA 模块的参数量提升了0.05×106，但是Dice 系数提高1.43 个百分点，说明三维CA 模块能够从不同方向上捕获信息，并有效提高网络的分割性能。

表4 添加不同注意力机制后的实验结果Table 4 Experimental results after adding different attention mechanism

3 结束语

本文对U-Net 结构进行改进，将特征融合模块和三维坐标注意力模块引入到U-Net中，设计一种新型脑肿瘤分割模型FFCA-U-Net。FF 模块对跳跃连接中的直接拼接操作进行改进，融合编码器中的各层次、各尺度信息，减小与解码器之间的语义差距并调整感受野，有效提高模型的信息表达能力。改进后的三维CA 模块沿多个方向聚合特征并捕获远程依赖关系，使网络获得更精确的肿瘤边界位置信息。此外，为快速获得肿瘤的相对位置关系，增加掩码图像作为网络的输入。在MSD 数据集上的实验结果表明，FFCA-U-Net 在脑肿瘤分割任务上的性能优于TransBTS、UNETR 等其他先进网络。为进一步提高分割精度，后续将对损失函数和网络结构进行改进，引导模型更关注水肿区域特征的学习，从而提高分割效果。