王 莹,朱家明,徐婷宜,宋 枭
(扬州大学 信息工程学院,江苏 扬州 225009)
医学图像分割是医学图像处理分析的重要环节,旨在分割出某些特定的区域,是临床医疗和病理研究的可靠依据,例如器官分割、肿瘤分割等。肿瘤分割由于个体间形状、纹理等差异大,难以用直接匹配的方式找到它们之间的共性[1]。与自然图像分割相比,脑肿瘤分割的限制在于图像采集过程中的技术限制和不可控因素造成的伪影和噪声。磁共振成像(Magnetic Resonance Imaging,MRI)是根据人体内部在不同环境下释放的能量衰减,并由电磁波获取构建图像,相比于计算机断层扫描(Computed Tomography,CT)成像,脑部MRI图像的对比度更高[2],并且保证了相邻切片之间脑组织的信息连续性,使得三维卷积可以同时整合矢状面、轴面和冠状面的信息,为深度学习实现医学图像分割提供了可能[3]。但脑部肿瘤MRI中,通常是根据成像的像素灰度变化区分肿瘤边界与其他正常组织,医生很难通过肉眼判断出图像上是灰度级渐变区域还是边界双轮廓范围[4]。
二维脑部肿瘤传统分割方式虽然取得了不错的成绩,但在分割过程中需要人工干预,导致分割效率不高。近年来,卷积神经网络在医学图像分割中被广泛应用,Pereira等[5]提出了基于卷积神经网络的脑部肿瘤分割,在分割过程中不需要人为辅助,可以直接进行特征提取。Simonyan等[6]使用3×3的小卷积核来构建更深的卷积网络,通过堆叠更多的卷积层获得与大核卷积相同的感知域。Vittikop等[7]将UNet用于MRI脑部图像分割,并结合高分辨率图像和类识别信息,使分割结果达到了较高的水平。Mckinley等[8]使用扩张卷积增加感受域,使梯度可以很容易地传递到深层网络。Wang等[9]研究了测试时间增加技术,通过测试不同的网络结构证明了它可以提高脑肿瘤分割的整体性能。
以上提出的分割方法在特征提取过程中多以单一尺寸的卷积操作为主,且对图像特征直接拼接,使得信息冗余,各层之间联系不够紧密,难以获得上下文信息,导致在面对复杂的脑部肿瘤分割情况时特征提取不准确。针对上述方法单一连接造成的过拟合等问题,本文将UNet的跳跃连接改为密集连接,加强浅层网络和深层网络的特征融合,加快网络的收敛速度。同时,采用含有注意力机制和软阈值化函数的深度残差网络作为Dense-UNet子模块[10],解决了MRI图像中不可避免地出现运动伪影和噪声等现象[11],提高了分割精度。
跳跃连接(DenseNet)有助于恢复完整空间分辨率的能力,从而使全卷积的方法适用于语义分割[12]。传统的L层神经网络只有L个连接,DenseNet的结构则有L×(L+1)/2个连接,每层都和前面的所有层进行连接。对于每个图层,所有前面图层的要素图都被视为单独的输入,而它们自己的要素图则作为输入传递给所有后续图层。因此,DenseNet的正向传播还包括跨层连接:
xl=Hl([x0,x1,…,xl]),
(1)
式中,Hl为l层的非线性变换;[x0,x1,…,xl]为所有先前层的输出的串联。将跨层连接应用到UNet网络中来剔除冗余的特征从而减少参数量,且低级特征和高级特征之间的信息流使网络获得了更好的性能。DenseNet解决了深度学习梯度消失问题,加强了特征的连接和传播,减少重复使用特征和计算量,提高了网络效率[13],其结构如图1所示。
图1 密集跳跃连接结构Fig.1 Structure of dense skip connections
批量归一化(Batch Normalization,BN)加速了模型训练,提升了模型效果[14]。由于在训练批次的基础上进行中间统计量计算,会使得BN层在训练过程中过分依赖训练批次,导致标准化,使训练和测试结果产生偏差。批次较小时,模型训练效果差。训练模型受限于硬件设备,难以采用较大的训练批次。
本文采用Filter Denseponse Normalization (FRN)作为标准化层[15],FRN层包含归一化层和激活层,其结构如图2所示。该结构消除了模型训练时对训练批次的依赖,而且对于较大的模型性能有较大优势。在训练模型的过程中,FRN层之后需要进行平移与缩放。本文采用阈值化激活函数TLU,不仅消除去均值后结果任意偏移0值情况,还避免FRN后接ReLU激活层产生更多0值现象,其表达式为:
z=max(y,τ)=ReLU(y-τ)+t,
(2)
式中,y,τ是2个输入;t是一个可学习的参数。阈值化函数结构如图2所示。
图2 阈值化激活函数结构Fig.2 Structure of the thresholding activation function
若输入B={x1,x2,…,xm}是尺寸为m的小批量处理上的x值[16],则小批量的平均值及小批量的方差为:
(3)
(4)
其归一化为:
(5)
式中,ε为常数。
输出yi为:
(6)
式中,γ,β为学习得来的权重参数。
本文使用的深度残差网络是在原有的残差网络中融入了软阈值函数和注意力机制,其原理是通过注意力机制注意到不必要的特征,利用软阈值函数将其置0,这种方式有助于神经网络从图像中提取有效特征[17]。
软阈值化是选定某个阈值,该阈值应大于0且小于等于输入的最大值,否则输出会全部为0。将图像中绝对值与其进行对比,将绝对值小于该阈值特征置0,则剩余特征值向0收缩[18],表示为:
(7)
对其求导为:
(8)
由式(7)可知,软阈值化的导数非0即1,帮助网络消除噪声影响的同时,减小了模型训练的梯度消失和梯度弥散。
本文将SENet注意力机制融入到残差网络中来增加网络的权重。它通过一个小型网络得到一组权重,再将此权重与各个通道的特征值相乘来改变特征的大小。简单来说就是先评估各个特征通道的重要程度,然后根据其重要程度赋予各个特征不同的权重,使得每个样本的权值系数都是根据网络学习得到的,所以每个样本都有自己独特的权值系数,其结构如图3所示。
图3 注意力机制结构Fig.3 Structure of attention mechanism
本文采用了多层残差,每层中包含一个3×3的卷积层、一个标准化层和一个激活函数。本文在原来DenseNet的基础上添加了注意力机制和软阈值函数,提高了特征采集率,有效地防止了网络退化,其结构如图4所示。
图4 改进残差模块结构Fig.4 Improved residual module structure
本文将原始卷积模块改进为残差模块和密集跳跃连接,采用端对端的网络结构[19]。编码器由多个残差模块和最大池化层组成,用于提取特征和降维[20]。每个残差块包含2个3×3的卷积层、2个FRN、1个注意力机制、1个软阈值函数和2个TLU连接。最大池化层为2×2,对特定维度进行池化。跳跃连接改进为密集跳跃连接,其中包括长连接和短连接。长连接连接同一行首尾的残差块,短连接连接同一行中间部分的残差块。密集跳跃连接能防止训练过程中特征的丢失,也有助于深层信息和浅层信息的融合。解码器部分由残差块和上采样层组成,卷积块和编码器相同,用于图像的重建和尺度恢复。上采样层的尺寸也为2×2,可当成是最大池化层的反变换。最后使用1×1的卷积层,将向量映射到所需的类。网络结构如图5所示。
图5 网络结构Fig.5 Network structure
本文改进的网络结构改进了残差模块,解决了传统网络的网络退化问题,有助于抑制噪声提取图像特征。跳跃连接改为密集跳跃连接有助于浅层信息和深层信息的传递,减小编码路径和解码路径特征语义之间的差距,使神经网络的设计具有更少的参数,防止性能降低。脑肿瘤图像分割流程如下。
脑肿瘤MRI分割流程输入:BraTS2018数据集D,遮罩数组M,输入图像为x(i,j)in,i表示行,j表示列,语义分割标定xseg,φ表示下采样,φ-1表示上采样,学习率α=10-3输出:脑肿瘤分割图等流程:1.从数据集D中随机提取样本图片xex,对图片进行数据增强,大小设定为160 pixel×160 pixel,获得输入样本x(i,j)in2.把x(i,j)in作为输入,送入含有注意力机制和软阈值化函数的残差块,获得不同尺寸的输出x(i,j)out3.对每1行第1个模块先实行下采样,再进行上采样输出为x(i,1)out=φ-1φ(x(i-1,1)out)[],i>14.当 i>1,j>1时,x(i,j)out=φ-1(x(i,j)in)5.对于整体网络来说x(i,j)in=x(i,j-1)out+x(i,j-2)out+…+x(i,j-n)out+x(i+1,j-1)out,(n 本文使用BraTS2018中的部分数据集,该数据集包含245名高级别胶质瘤(HGG)患者MRI图像和80名低级别胶质瘤(LGG)患者的MRI图像,每名患者包含配准后的4种模态分割和真实分割的标签图像,每个模态和真实分割标签大小均为240 pixel×240 pixel×155 pixel。每组数据均有4个标签分别为增强肿瘤、水肿、坏死和背景。将实验数据集进行剪裁、统一化和剔除无病灶切片等预处理之后,图像的尺寸为160 pixel×160 pixel,并用翻转、旋转和添加噪声等方式进行数据增强。本文用k折交叉验证避免数据偏差,将180名HGG患者图像和65名LGG患者图像作为训练样本,65名HGG患者图像和15名LGG患者图像作为验证样本。为了评估的目的,注释被合并成3个二元子区域,包括全肿瘤区域(WT)、肿瘤核心区域(TC)和增强肿瘤区域(ET)。脑肿瘤部分数据集如图6所示。 本实验在个人计算机Windows10操作系统上搭建实验平台,使用PyTorch框架训练网络。训练进行了80个时期,最小批次为8。学习率为0.000 1,采用Adam优化算法,在解码阶段使用批量随机梯度下降法优化。 (a) FLair图像 (c) T1ce图像 (d) T2图像 (e) 真实标签图像 本文用Dice系数、阳性预测值(PPV)、敏感度(Sensitivity)和Hausdorff距离作为评价指标。Dice,PPV和Sensitivity用来评估真实值和预测结果二者内部填充像素的重叠情况,表示为: (9) (10) (11) 式中,TP为真阳性;TN为真阴性;FP为假阳性;FN为假阴性。 Hausdorff距离用来计算真实边界值和预测区域边界的距离: Haus(T,P)=max[supt∈Tinfp∈Pd(t,p),supp∈Pinft∈Td(t,p)], (12) 式中,sup代表上确界;inf代表下确界;T为人工标注的肿瘤区域;t为在T上的点;P为预测的肿瘤区域;p为在P上的点;d(t,p)表示用来计算两点之间距离的函数。 网络训练输出为每一位患者的分割图,包含整体肿瘤区域、坏死区域、增强肿瘤区域和背景区域4类分割标签。HGG分割图如图7所示,LGG患者分割图如图8所示。 (a) FLair (b) T1 (c) T1ce (d) T2 (e) UNet (f) Dense-UNet (g) 本文 (h) 真实 (a) FLair (b) T1 (c) T1ce (d) T2 (e) UNet (f) Dense-UNet (g) 本文 (h) 真实 从图7和图8中可以看出,UNet网络能实现分割背景和分割任务的要求,但坏死区域存在被增强区域覆盖的现象,整体肿瘤区域边缘模糊,有部分肿瘤区域分割错误,还有一些孤立的散点,分割效果一般。Dense-UNet分割效果比UNet效果要好,边缘部分分割效果明显比UNet分割更精细,错误分割率降低,但是增强区仍有部分粘连,而且存在一些过分分割现象。本文模型的分割效果接近真实分割,整体肿瘤区域较为完整地从背景区域分割出来。肿瘤中间的坏死区域与增强区域和水肿区域不存在粘连情况,特征信息也未丢失,能有效地分出边界区域。在最难分割的增强区域能够分割出点状、不连续和肉眼难以分割的细小肿瘤。3种模型分割的评估结果如表1所示。 表1 3种模型肿瘤分割结果评价指标 由表1可以看出,Dense-UNet的分割性能指标较原有的UNet模型均有所提高,这由于Dense-UNet网络中具有密集结构,所以网络结构更加深入联合性更强,总体分割效果明显优于UNet网络。Dice和PPV中WT,TC和ET值均有较小范围的提升,而Sensitivity中整个WT和ET的值基本没变,说明仍有信息特征在分割过程中丢失,分割效果仍然不佳。在Hausdorff中,评价指标数值逐渐变小,说明真实边界与预测边界的距离缩小。本文算法在分割性能指标Dice,PPV和Sensitivity下的WT和TC较Dense-UNet分别提高0.01,0.02,0.03左右,ET分别提高0.02,0.08,0.05左右。Hausdorff评价指标下的3个指标均减小0.1左右,说明本文在各项性能上都有明显的进步。本文网络在Dense-UNet的基础上将编码器和解码器部分改为深度残差模块,使得网络退化问题消失,在分割过程中网络能充分提取特征信息并完整恢复。密集跳跃连接有助于减少信息丢失问题,上下文信息的传输更密切。分割结果显示WT,TC和ET的Dice评分分别为0.846,0.813,0.804,在准确率和敏感度方面也明显优于其他算法。 图9选取了图像中血管的分叉处和细小血管的局部区域进行放大对比,虚线框为本节算法对微小血管分割的对比情况。将本节分割结果图9(d),(h)和真实分割图像(a),(e),UNet分割图像(b),(f)以及Dense-UNet分割图像(c),(g)进行对比。 (a) 真实分割 (b) UNet分割 (c) Dense-UNet分割 (d) 本章分割 (e) 真实分割细节 (f) UNet分割细节 (g) Dense-UNet分割细节 (h) 本章分割细节 由图9可直观看出,原始的UNet分割不同区域时边界模糊,整个WT,ET两部分区域粘连,边界平滑分割不精确;Dense-UNet基本能把不同目标区域划分开,但仍存在区域识别错误现象,将背景区域识别为WT,在临床诊断中会有很大的影响;而本小节算法分割的图像,WT,TC和ET三部分清晰分明,与手动分割结果大致相似,轮廓相对较为清晰,具有良好的分割效果。 为了进一步表现本文算法的优越性,将本文算法与其他方法比较,如表2所示。 表2 不同肿瘤的分割评价指标 其中,Dice指标结果达到0.846 3,0.813 0,0.804 2,Hausdorff指标结果达到2.544 8,1.607 7,2.646 9。与其他方法相比,Dice指标提高了0.01~0.7,Hausdorff降低了0.1~0.8,整体分割性能较好。 本文在3种不同形式的UNet结构上进行实验对比研究,发现UNet网络分割过程中出现上下文信息缺失,于是在网络中加入密集跳跃连接,完整提取了上下文信息并将信息还原[21]。将深度残差收缩结构融入到Dense-UNet网络中,从而改善了原来结构存在的过拟合情况[22]。从实验结果可知,本文提出的网络在分割过程中识别度更加准确,泛化能力也更强,能较为准确地进行图像分割工作。但同时本文算法的计算量较大,检测时间比较长,还需要进一步提高训练速度。3 实验分析
3.1 实验数据及环境
3.2 评价指标
3.3 结果分析
4 结束语