基于特征融合与注意力机制的脑肿瘤分割算法

2023-10-17 05:50褚张晴晴钟志强颜子夜战荫伟
计算机工程 2023年10期
关键词:编码器注意力特征

褚张晴晴,钟志强,,颜子夜,战荫伟

(1.广东工业大学 计算机学院,广州 510006;2.广州柏视医疗科技有限公司 临床研究部算法组,广州 510213)

0 概述

脑肿瘤是指起源于脑神经胶质细胞的原发性颅内肿瘤[1],按肿瘤细胞的恶性程度可划分为低级别和高级别[2]。在我国年发病率约为(5~8)/10万,5 年病死率仅次于胰腺癌和肺癌[3]。多参数磁共振成像(Magnetic Resonance Imaging,MRI)是诊断脑肿瘤的 重要 手段[4],分为T1、T2、T1ce 和Flair 4 种序列。脑肿瘤各区域的勾画通常由医生在这4 种MRI 序列上手动完成,非常耗时且同质性差,并且多参数MRI还会增加数据密度的不均匀性和噪声,使肿瘤和正常组织、肿瘤各区域之间的边界模糊[5]。因此,自动分割脑肿瘤可以帮助医生快速确定病变范围[6],为临床检测和分析提供准确、可重复的解决方案,具有非常重要的现实意义[7]。

脑肿瘤的自动分割最初依靠机器学习方法进行手工特征提取,如Atlas[8]、决策森林[9]、条件随机场[10]等方法。近年来,随着深度学习的发展,深度神经网络逐渐成为脑肿瘤分割领域的主要方法。文献[11]在FCN[12]的基础上提出具有对称结构的U-Net,通过跳跃连接将编码器中的浅层特征和解码器中的深层特征相连接,使得各层次信息得到充分保留,成为目前脑肿瘤分割领域应用最广泛的基础网络。

此外,研究人员将注意力机制引入U-Net 网络,进一步提高分割性能。如文献[21]提出基于门控注意力机制的Attention U-Net,增强网络对重要信息的传递能力。文献[22]设计双重注意力模块对编码器和解码器的目标特征进行权重优化,有效抑制背景与噪声的表达。文献[23]为提升网络的特征学习能力,提出基于通道注意力机制SE 模块的FocusNet,但是FocusNet 对边界信息识别模糊,不适用于小目标图像分割。文献[24]提出将通道注意力和空间注意力共同嵌入U-Net 的编码器和解码器中,得到更丰富的上下文依赖关系,在医学图像数据集上获得比FocusNet 更优的分割性能。

但是由于肿瘤成像特征十分复杂,因此这些方法在网络设计上均存在对跳跃连接中语义差距不够重视,且对三维MRI 图像跨通道信息利用不足的问题。为此,本文基于特征融合与注意力机制的脑肿瘤分割算法FFCA-U-Net。在跳跃连接中设计特征融合(Feature Fusion,FF)模块,将不同层级、不同尺度的特征进行融合,以有效弥合编码器和解码器之间的语义差距并调整感受野,增强网络对特征信息的感知能力。引入改进后的三维坐标注意力(Coordinate Attention,CA)机制,沿MRI 图像的3 个维度捕获跨通道信息,从而增强对肿瘤特征的学习,获得更精确的脑肿瘤边界分割结果。利用区域生长算法得到肿瘤区域的掩码图像,与MRI 图像一起输入到FFCA-U-Net中,以快速反映肿瘤与正常脑组织的空间位置关系。

1 本文方法

本文提出的FFCA-U-Net 网络结构如图1 所示,网络整体采用U-Net 编码器-解码器架构。首先,为更好融合编码器中的低级细节特征和高级语义特征,本文将各层次特征图上采样到最大分辨率后进行特征拼接,再通过下采样操作送入FF 模块,FF 模块对特征图进行信息提取和融合来弥补编码器、解码器之间的语义差距,增强网络的信息表达能力;其次,在编码器的最后一层引入改进的三维CA 模块,沿MRI 图像的3 个维度聚合特征,对通道关系和长程依赖关系进行编码,使模型更精准地定位和识别肿瘤区域的位置信息;最后,在解码器部分采用转置卷积做上采样操作,并使用Softmax 激活函数将多通道特征映射到相应的肿瘤子区域,得到脑肿瘤各区域分割图。

1.1 掩码图像

深度学习模型通常结构复杂,不能快速反映肿瘤与正常脑组织的空间位置关系,存在学习冗余、浪费资源问题。为此,本文利用区域生长算法得到整个肿瘤区域的掩码图像,与原始多序列MRI图像一起送入网络中。首先通过直方图阈值法自动选择生长过程中的种子[25],并将种子压入算法栈序列中;然后判断栈中头部种子的邻域特征,选择相邻像素压入栈中并作为新的种子,重复上述过程直到将具有相似特征的像素划分成相同区域,得到掩码图像。肿瘤区域的掩码图像如图2所示。

1.2 特征融合模块

在编码器训练过程中,浅层编码器可以捕获颜色、纹理等低级细节特征,深层编码器则可以捕获肿瘤的高级语义特征。但是对于直接进行跳跃连接、不考虑语义差距的U-Net,如何有效对编码器中的多尺度特征进行建模仍待进一步改进[26]。为此,本文设计特征融合模块,其结构如图3 所示。FF 模块代替U-Net 中跳跃连接的直接拼接操作,将编码器中的细粒度局部信息和粗粒度全局信息进行融合,使得网络可以有效捕获并利用各层次和各尺度特征。此外,FF 模块还可以调整感受野,进一步增强模型的信息表达能力。

图3 特征融合模块结构Fig.3 Structure of feature fusion module

FF 模块具体设计如下:首先为融合低级局部特征和高级语义特征,对编码器端的跨层多尺度特征图和对应层特征图做拼接,得到FF 模块的输入特征图x,再对x分别进行c1和c2卷积操作,其中c1是大小为1×1 的普通卷积,c2是大小为3×3、膨胀率为3 的膨胀卷积。卷积后的特征图经过相加得到融合特征图Fc,Fc既包含肿瘤的纹理、强度值等局部细节特征信息,又包含肿瘤的全局语义特征信息。此外,为避免Fc中邻近像素之间缺少依赖关系且损失信息的连续性,从而产生网格效应[25],在其后引入全局平均池化(Global Average Pooling,GAP)层和通道数分为8 组的归一化层GN,得到有效保持目标区域信息的特征图Fg,使得FF 模块能够更充分学习编码器中的重要特征信息。最后把Fc和Fg做元素相乘,利用LeakyReLU 函数σ进行激活,得到FF 模块的最终输出:

1.3 坐标注意力

在深度神经网络中,随着级联卷积和非线性变化的叠加,空间细节特征通常在高层输出特征图中消失,导致小目标分割任务的准确率降低[27]。为此,本文在FFCA-U-Net 中引入坐标注意力机制,并为适应成像特征复杂的三维MRI 图像改进成三维CA 模型,如图4 所示。与原本CA 模块只考虑2 个维度信息不同,改进后的CA 模型将通道注意力分为3 个特征编码过程,既考虑内部通道信息的交互,又增强对肿瘤全局位置的学习能力,使得模型更准确地定位到MRI 图像中的肿瘤区域,从而减少模型的误分割结果。

渣锁斗阀采用液压控制方案使得整个系统的复杂性大幅增加,影响阀门工作性能的因素也相应增多,设计及施工中的疏漏会引起各种各样的问题。该项目中渣锁斗阀门及其相应液压系统施工完毕时已至寒冷的冬季,开车阶段渣锁斗阀的开关时间一直达不到工艺要求的10 s,一般在20~40 s内,夜间温度极低时,阀门开关时间甚至超过1 min。本节将详细阐述渣锁斗液压阀开关时间的计算方法,并分析开关时间不达标的原因。

图4 改进的三维坐标注意力模块结构Fig.4 Structure of improved three-dimensional coordinate attention mechanism

改进后的三维CA 模块分为位置信息嵌入Zc和坐标注意力生成Gc2 个部分。Zc将全局池化分解为3 个在不同维度上的一维特征编码操作,以捕获具有精确位置信息的空间长程依赖关系。具体地,对于尺寸为D×H×W的输入特征图x使用大小为(1,H,W)、(D,1,W)和(D,H,1)的池化核沿着不同方向对通道进行编码,得到3 个维度上的输出特征图:

经过Zc变换后,Gc首先将和进行拼接,再使用1×1×1 卷积函数F和非线性激活函数δ得到空间信息在3 个方向上的特征映射f;然后将f分解为3 个单独的张量f h、f w和f d后,利用卷积函数F将其变换到与输入特征图x相同的维度,再经过Sigmoid 激活函数ς分别得到特征图在3 个方向上的注意力权重gh、gw和gd。三维CA 模块输出的加权特征图表达式如下:

1.4 评价标准

为评估FFCA-U-Net 模型性能,本文对增强肿瘤区域、非增强肿瘤区域和水肿区域使用Dice 系数(D)和Hausdorff距离(Hausdorff Distance,HD)进行评价。

Dice 系数是集合相似度度量指标,用于计算2 个样本的相似度,取值范围为[0,1],Dice 系数越大说明分割精度越高。Dice 系数计算式如下:

其中:X表示模型预测值的集合;Y表示真实标签的集合;X∩Y表示模型分割结果与真实标签的交集。

HD 是集合边界距离度量指标,用于评估模型分割边界和真实标签边界之间的距离,HD 越小说明分割精度越高。HD 计算式如下:

其中:d(x,y)表示x与y2 点之间的欧氏距离。为排除离群点造成不合理的距离,本文在评估中使用HD95,即取第95 分位的结果。

1.5 损失函数

针对脑肿瘤分割任务中的类不平衡问题,本文采用加权交叉熵损失函数Lw和带有平滑系数的Dice损失函数Ld构造损失函数L。损失函数计算式如下:

其中:I为标签总数;i为标签序号;wi、li和fi分别表示第i个标签的权重、真实标签值和模型预测值;ϵ表示平滑因子。

2 实验与结果分析

2.1 数据集

本文在MSD(Medical Segmentation Decathlon)挑战赛的脑肿瘤分割数据集上对FFCA-U-Net 进行评估。MSD 数据集共有484 例MRI 数据,每例数据包 含T1、T2、T1ce 和Flair 4 种序列,每个序列有155 张切片,每张切片勾画出非增强肿瘤、增强肿瘤和水肿3 个标记区域。本文把该数据集按照8∶2 划分,分别用作训练集和测试集。

2.2 数据预处理

在把MRI 图像送入网络前须做一系列预处理工作:1)为使MRI 图像的强度值更加均匀并提高肿瘤边界识别的准确性,对MRI 图像做Z-scoring 归一化,将图像的均值置为0,方差置为1,消除各向异性;2)针对数据集的类不平衡现象,删除所有值为零的空白切片,并将每个切片裁剪到非零值区域;3)在训练过程中使用随机旋转、缩放、放射变换、裁剪等方法进行数据增强,以提高模型的泛化能力。

2.3 实验环境与配置

本文使用深度学习框架PyTorch,通过对网络进行200 次迭代训练。其中,使用Adam 优化器更新网络的权值,学习率、权重衰减系数分别设为0.000 2和1×10-5。为了与其他模型公平比较,本文没有使用预训练模型,所有实验均在NVIDIA RTX A6000 GPU上进行。

2.4 结果分析

本文将FFCA-U-Net与其他5 种典型模型进行对比分析,采用Dice系数、HD95 2种指标对脑肿瘤子区域的分割情况进行评价。不同模型的Dice 系数和HD95对比分别如表1和表2所示,加粗表示最优数据。

表1 不同模型的Dice 系数对比Table 1 Comparison of Dice coefficients among different models

表2 不同模型的HD95 对比Table 2 Comparison of HD95 among different models

从表1 可以看出,FFCA-U-Net 在所有模型对比中均取得最优的表现,在水肿、非增强肿瘤、增强肿瘤区域和肿瘤整体区域上的Dice系数分别为0.799 3、0.628 6、0.803 4 和0.743 8,与基础网络U-Net 相比,分别提高了3.95、7.93、13.01 和8.30 个百分点。在非增强肿瘤区域和增强肿瘤区域的分割结果上,FFCA-U-Net 分割效果显著,优 于UNETR[28]和TransBTS[29]等其他模型,这得益于FF 模块对跨尺度特征信息的充分提取和融合,以及三维CA 模块将模型的注意力集中到有价值的目标区域,使得网络更准确地定位到目标区域,提高肿瘤的分割精度。

从表2 可以看出,FFCA-U-Net 在非增强肿瘤区域的HD95 指标略高于UNETR,但在水肿区域、增强肿瘤区域的指标都有明显改进,相比UNETR 分别降低了1.16、0.44。FFCA-U-Net HD95 的平均指标优于所有的对比模型,可以有效地识别和分割脑肿瘤各区域的边界。

图5 所示为3 例分别利用UNETR 和FFCA-U-Net得到的脑肿瘤各区域的可视化分割结果(彩色效果见《计算机工程》官网HTML 版)。从图5 可以看出,UNETR 虽然对肿瘤轮廓分割较为平滑,但在细节上有所缺失,而FFCA-U-Net在肿瘤轮廓和细节上的分割均优于UNETR,能够较准确地分割出各区域,并且在增强肿瘤区域和非增强肿瘤区域的分割效果有明显提升。

图6 所示为分别利用UNETR 和FFCA-U-Net 在矢状面、冠状面和水平面的分割结果,进一步验证FFCA-U-Net 的分割性能。图6中第1~4 行分别为MRI图像、真实标签、UNETR 和FFCA-U-Net 分割结果。与UNETR 相比,FFCA-U-Net 在增强肿瘤区域、非增强肿瘤区域与真实标签更接近,但是由于水肿区域边界的高度不确定性,因此UNETR 和FFCA-U-Net均对水肿区域的边界识别有一定误差。

图6 不同模型在矢状面、冠状面和水平面的分割结果对比Fig.6 Comparison of segmentation results among different models in sagittal,coronal,and horizontal planes

2.5 消融实验

本文的消融实验包含2 个部分,分别分析FFCA-U-Net中不同模块、不同注意力机制的有效性。

为测试不同模块的有效性,本文共设计5 组对比实验,添加不同模块后的实验结果如表3 所示。相比U-Net,在U-Net中引入FF 模块使Dice系数提升4.54,在U-Net中引入CA 模块使Dice 系数提升4.95 个百分点,这表明在U-Net 中引入FF 模块和CA 模块均能有效提升网络的分割性能。向U-Net 中添加改进后的三维CA 模块,与引入CA 模块相比Dice 系数和HD95均得到优化,这得益于三维CA 模块从3 个方向聚合特征,可以从深层特征中学习到更精确的肿瘤位置信息。同时向U-Net 中加入FF 模块和改进三维CA 模块,即本文所设计的FFCA-U-Net。与前4组实验对比发现,FFCA-U-Net 模型的分割精度进一步提升且分割效果达到最优,这说明FF 模块和改进的三维CA 模块能够相互促进,有效提高模型的分割性能。

表3 添加不同模块后的实验结果Table 3 Experimental results after adding different modules

为测试不同注意力机制的有效性,本文共设计3 组对比实验,添加不同注意力机制后的实验结果如表4 所示。在U-Net 中引入FF 模块表示基础方案。在基础方案中添加具有通道注意力的SE 模块[30],在基础方案中添加具有通道注意力和空间注意力的CBAM 模块[31],对比发现添加SE 模块和CBAM 模块均使得网络的分割精度有所提升。相比SE 模块,CBAM 模块的参数量略有增加,但是分割精度更高,表明空间注意力对肿瘤信息的提取具有更好的效果。在向基础方案中添加沿2 个方向聚合空间特征的CA模块[32]以及三维CA 模块。相比引入CA 模块,引入三维CA 模块的参数量提升了0.05×106,但是Dice 系数提高1.43 个百分点,说明三维CA 模块能够从不同方向上捕获信息,并有效提高网络的分割性能。

表4 添加不同注意力机制后的实验结果Table 4 Experimental results after adding different attention mechanism

3 结束语

本文对U-Net 结构进行改进,将特征融合模块和三维坐标注意力模块引入到U-Net中,设计一种新型脑肿瘤分割模型FFCA-U-Net。FF 模块对跳跃连接中的直接拼接操作进行改进,融合编码器中的各层次、各尺度信息,减小与解码器之间的语义差距并调整感受野,有效提高模型的信息表达能力。改进后的三维CA 模块沿多个方向聚合特征并捕获远程依赖关系,使网络获得更精确的肿瘤边界位置信息。此外,为快速获得肿瘤的相对位置关系,增加掩码图像作为网络的输入。在MSD 数据集上的实验结果表明,FFCA-U-Net 在脑肿瘤分割任务上的性能优于TransBTS、UNETR 等其他先进网络。为进一步提高分割精度,后续将对损失函数和网络结构进行改进,引导模型更关注水肿区域特征的学习,从而提高分割效果。

猜你喜欢
编码器注意力特征
让注意力“飞”回来
如何表达“特征”
不忠诚的四个特征
基于FPGA的同步机轴角编码器
抓住特征巧观察
“扬眼”APP:让注意力“变现”
基于PRBS检测的8B/IOB编码器设计
A Beautiful Way Of Looking At Things
JESD204B接口协议中的8B10B编码器设计
多总线式光电编码器的设计与应用