纪玲玉,高永彬,赵呈陆,汤先华,徐凯成,徐嘉诚
(上海工程技术大学 电子电气工程学院,上海 201620)
胃癌是我国最常见的肿瘤之一。我国的胃癌发病率及死亡率仅次于肝癌。进展期胃癌常伴有区域淋巴结受累,并且阳性淋巴结数目影响患者的生存率,因此手术后对淋巴结的清扫已成为治疗的重要环节[1]。然而,胃癌进展期的淋巴结大多附着在动脉血管周围,手术前需要判断淋巴结和血管是否有浸润、神经受侵的情况。当患者淋巴结肿大融合成块,并且包裹在腹部动脉血管周围时,如果仍采用手术治疗,患者将面临较大的风险,甚至有生命危险,因此对动脉血管进行精准分割就显得尤为重要。目前针对胃癌淋巴结周围动脉血管的研究甚少,主要是因为腹部动脉血管分支繁多,纹理信息弱,组织间粘连情况复杂。少数研究采用的是传统方法,例如基于边缘的分割方法、基于区域的分割方法、基于水平集的分割方法等[2-3]。然而,传统的分割方法耗时耗力且分割精度低。近年来,深度学习的方法逐渐被应用到医学图像分割中,其中卷积神经网络(Convolutional Neural Network,CNN)在图像分割和检测中获得了较好的应用效果。与传统方法不同的是,深度学习可以从大量的训练数据中自动学习目标的外观模型及内部特征,并用学习到的特征进行预测[4]。为了提高动脉血管分割精度,本文采用卷积神经网络的方法进行腹部动脉血管的分割。
图像分割是图像分析和处理的关键一步,是计算机视觉的基础。所谓图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域,使得这些特征在同一区域内表现出一致性或相似性,而在不同区域间表现出明显的不同。目前图像分割方法大多是传统分割方法和深度学习的方法。传统方法的分割主要是基于水平集方法以及基于模型和统计学的方法:文献[5]利用水平集的方法对MR图像的大肠癌进行分割;文献[6]利用水平集方法对医学图像进行分割和测量;文献[7]利用主动轮廓模型和卡尔曼滤波器进行血管分割和跟踪。这些方法的缺点是需要先验知识进行轮廓的初始化才能达到分割效果,分割精度较低。
近年来,伴随着卷积神经网络在语义分割方面的应用,各种变体网络被逐渐应用到医学图像分割领域。CNN是神经网络的一个分支,由许多层组成,每一层执行特定的操作,例如卷积、池化、损失计算等。通过改变网络深度和卷积层数,相继出现了AlexNet[8]、VGGNet[9]、GoogleNet[10]和ResNet[11]等网络。与普通图像相比,医学图像的结构更加复杂,分割目标也更小,导致上述早期网络不能实现较好的分割效果。文献[12]提出了全卷积网络(Fully Convolutional Network,FCN)。FCN舍弃了全连接层(Full Connection Layer,FC),全部用卷积层构建网络,通过使用转置卷积以及不同层次特征融合的策略,使得网络输出为输入图像的预测掩码,大幅度提高了效率和精度。文献[13]在FCN网络的基础上加入了跳跃连接(U-Net),将下采样和上采样相连接,有效缩小编码器和解码器的特征图之间可能存在语义差距。U-Net网络是首次成功应用在医学图像分割的卷积神经网络,之后的医学图像分割网络都是在U-Net的基础上进行不同形式的改进。H-DenseUNet网络[14]利用残差网络(Residual Network,ResNet)[15]的思想进行CT图像上肝脏肿瘤的分割,有效利用了空间信息,减少了计算成本。Y-Net网络[16]与U-Net网络不同,其多了一个编码器,并且一个编码器采用了预训练好的VGG19权值。文献[17]在U-Net的基础上加入了注意力模块和空洞金字塔池来提升腺体细胞图像分割精度。由于普通的二维卷积不能有效地利用图像的时序信息,因此研究人员在二维卷积网络中引入了递归神经网络(Recurrent Neural Networks,RNN)的改进版-长短时间记忆(Long Short-Term Memory,LSTM)。LSTM主要处理图像序列中时序信息,通过引入自环(Self-Loops)使得梯度流能够长期保存。文献[18]将FCN和RNN相结合应用于医学图像分割,将空间信息和时间信息结合到分割任务中。
尽管改进版的二维U-Net有良好的分割性能,但大多数医学成像方式是计算机断层扫描(Computed Tomography,CT)或磁共振成像(Magnetic Resonance Imaging,MRI),它们通常是3D体积形式。利用二维卷积很可能丢失三维空间信息,因此许多改进的3D FCN网络被应用于三维医学图像分割。文献[19]使用3DUNet进行冠状动脉血管分割。3DUNet是UNet的一个简单扩展,被应用于三维图像分割。相比于UNet,3DUNet仅用了3次下采样操作,在每个卷积层后使用了批量归一化。文献[20]提出将VNet网络用于MR图像的前列腺分割。VNet与UNet类似,不同之处是VNet网络的每层卷积之间进行了残差连接,使网络可以更好地收敛。Dense-VNet网络[21]利用密集链接块代替卷积层,缓解了梯度消失问题,加强了特征传播,鼓励特征复用,减少了参数量。近期,分段级联式网络被许多人提出。文献[22]提出了腹部多器官分割与器官注意网络及统计融合的方法。该算法分为两个阶段,第1阶段进行网络训练得到概率图,将得到的概率图作为第2阶段网络输入的补充,并且加入了辅助监督和反向连接,最后用多视图模型EM算法融合。文献[23]在3D FCN上使用多尺度金字塔和上下文思想进行腹部多器官的分割。上下文的思想主要是把前一个3D UNet的输出融合到下一个3D UNet的输入中,然后进行一次迭代。文献[24]提出基于迁移学习的腹部多器官CT自动分割的深度学习方法。该方法由3个阶段组成:在第1阶段根据概率地图集估计器官的大致位置;在第2阶段中,将已经训练的3D UNet应用于聚焦点;在第3阶段中,采用后处理的方法清除碎片。文献[25]利用级联VNet分割脑肿瘤。任务分成两个阶段:第1阶段主要是生成肿瘤掩码,在生成掩码之前加入形态滤波,去除边缘噪声;第2阶段分成4分类,主要目的是分割出肿瘤。将第1个网络分割的掩码以及原始训练集投入此网络训练,得到肿瘤分割。文献[26]提出两阶段胰腺分割方法。第1阶段位粗分割阶段,用3D UNet进行了降采样三维体。利用基于分割与定位之间的紧密关系,获得粗尺度的分割掩码后提取胰腺候选区域。然后,从估算的标签中提取覆盖胰腺的候选区域;第2阶段为精细分割,用另一个3D UNet在第1阶段生成的候选区域上进行训练。
尽管已有一系列的血管分割方法被提出,但是针对胃癌受累淋巴结周围动脉血管的分割方法较少,并且已有方法的分割效果欠佳。本文提出基于改进3D FCN的腹部动脉血管分割方法。该方法在网络编码路径上构造多尺度的输入,形成不同层次的感受野,并对侧输入卷积后的图像与下采样卷积后的图像进行了融合,扩宽解码路径的信息量。随着网络不断的卷积和池化,高层语义信息越来越少,本文将密集扩张卷积与通道注意模块进行融合应用到三维网络,更好地提取了高层特征信息。与传统分割方法相比,使用三维卷积进行胃癌受累淋巴结周围动脉血管的分割可以有效利用3D卷积分割的时序性,避免CT图像帧与帧之间信息的丢失,提升了动脉血管分割精度。
实验的整体架构流程图如图1所示,其中虚线C表示融合操作,SED表示密集扩张卷积与通道注意力融合的模块。网络架构包括:(1)基础网络3D FCN;(2)多尺度输入的融合操作;(3)密集扩张卷积和通道注意力的融合模块。为了形成不同层次的感受野,获取更多特征信息,本文采用平均池化对图像进行自然降采样,在编码路径中构造多尺度的输入。为了更好地捕获高层特征信息,本文在网络中嵌入了SED。实验的整体训练过程为:将处理后的原始数据和标注数据送入网络进行训练,得到训练好权重的网络模型。然后,将测试集送入训练好权重的网络模型中进行预测,得到预测结果图。
图1 实验整体架构图Figure 1.Diagram of the overall experiment architecture
三维全卷积网络结构如图2所示,该网络丢弃了传统全卷积网络的全连接层,并且采用了编码器与解码器的相连接的结构模式。与3DUNet类似,该网络由收缩路径和扩展路径组成。不同之处在于该网络每层卷积之间加入了残差连接,用以防止网络过拟合。整个架构通过4次下采样和4次上采样进行网络分割,其中下采样操作逐渐减少图像的空间维度,而上采样操作逐步修复物体的细节和空间维度。网络中每层包含1~3个卷积,每个卷积核的大小为5×5×5,步长为1。下采样和上采样部分采用卷积核大小2×2×2和步长为2的卷积操作。为了解决网络层数过多导致网络泛化能力变差的问题,本文在每个卷积层之前加入PReLU激活函数和批量归一化层。网络在编码和解码部分加入残差来提高网络的性能。本文在网络中加入了激活函数,使得网络具有非线性映射的学习能力。为了使输出卷积大小与输入相同,最后一个卷积层使用1×1×1大小的卷积核。最后,通过应用Sigmoid激活函数将输出转换为前景和背景区域的概率值。本研究选用PReLU激活函数,其与ReLU函数相比具有更快的收敛速度,且能解决ReLU存在的神经元“坏死”情况。PReLU激活函数定义为
(1)
图2 三维全卷积网络的基础结构Figure 2. Basic structure of 3D full convolutional network
其中,x表示输入,训练参数a学习控制x负数部分。
本文使用Dice loss系数作为损失函数。Dice函数能够处理数据不均衡的问题,尤其在医学图像分割中有良好的分割性能。函数表达式如下
(2)
式中,N表示体素的总数量;i表示第1个体素;p表示预测的结果;g表示金标准(Ground-Truth,GT)。
CNN卷积核的大小反映了感受野的范围,加大卷积核的同时也增加了学习参数的数目。传统卷积神经网络的池化层有助于缩小图像的尺寸和增加特征图像的步长。然而,池化层会导致图像细节丢失和小目标的不完整分割,且容易产生分割断裂的现象。为了解决这些问题,文献[27]提出扩张卷积方法,在不增加附加参数的情况下扩大感受野,从而保留了多尺度特征和细节信息。扩张卷积是一种带孔的卷积,它能够通过控制扩张率r来改变输出特征映射的分辨率。对应于输出特征层上y的每个像素i,扩张卷积的过程如下
(3)
其中,w是卷积核;k是卷积核大小;x是卷积输入;r膨胀率决定了输入信号的采样间隔,代表了在输入特征层中引入了r-1个孔,通过调整r可以自适应调整感受野大小。将卷积核大小为3×3×3的卷积层的膨胀率设置为1。随着网络模型分层深度的增加,图像的细节信息会变得模糊。同时,网络趋于复杂,会产生过拟合等问题。为了简化网络模型并保留多尺度目标特征和细节信息,本文提出了一种基于扩张卷积的网络模型—密集扩张卷积[28],如图3所示。该模块类似于Inception-ResNet[29],利用带有不同空洞率的多个卷积块进行级联,卷积核的大小为3×3×3,空洞率分别为1、3、5。在每个分支的卷积块后进行了1×1×1的降低维度操作。该模块能够提取不同大小目标的特征信息。
图3 密集扩张卷积块Figure 3. Dense dilation convolution block
卷积神经网络建立在卷积运算的基础上,通过融合局部感受野内的空间信息和通道信息来提取特征信息。为了提高网络的分割性能,许多现有的工作已经证实了强空间编码的优势。充分利用通道之间的关系可提取更多高层语义特征。文献[30]专注于通道信息,提出了一种新颖的网络架构单元“挤压-提取”(Squeeze-and-Excitation,SE),如图4所示,其中FC1和FC2表示全连接层。该模块通过建模通道之间的相互依赖关系,自适应地重新校准通道式的特征响应。
图4 通道注意力模块Figure 4. Channel attention module
SE模块由3部分组成。利用通道特征的相互依赖关系的操作如下:
(1)挤压(Squeeze)操作。顺着空间维度进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布,且使得靠近输入的层也可以获得全局的感受野。通过全局平均池化生成通道统计Zc,计算式为
(4)
其中,H×W表示特征的空间维度;c表示通道数;
(2)提取(Excitation)操作。提取操作类似于循环神经网络中门的机制,通过参数w来为每个特征通道生成权重。其中参数w被学习用来显式地建模特征通道间的相关性,其计算式为
sc=σ(W2δ(W1Zc))
(5)
(3)校正权值操作。该操作将上一步操作输出的权重看做经过特征选择后的每个特征通道的权重,然后通过乘法逐通道加权到先前的特征上,完成在通道维度上对原始特征的重标定,表达式如下
Xc=Fscale(fc,sc)
(6)
式中,X=[x1,x2,…,xc];Fscale(fc,sc)表示sc和fc之间的通道相乘;fc表示输入的特征图。
由于密集扩张卷积中采用了大量通道来丰富语义特征的表达。受文献[30]的影响,本文将密集扩张卷积与通道注意力模块进行融合(简称SEC模块),如图5所示。该操作可使密集扩张卷积更好地利用通道之间的关系,提取更多高层特征信息。本文在密集扩张卷积模块的分类层上添加了监控信号,因此分类层上特征的每个通道都可以看作是一个特定的类响应,对聚合的多尺度特征进行特征重新校准。
图5 融入通道注意的多尺度特征提取模块Figure 5. Multi-scale feature extraction module with channel attention
实验所使用的数据均来至于上海市长征医院。本文共使用50个实例数据,每个实例数据都包含了人体的整个腹部区域,且均为经过血管造影剂进行增强扫描后的图像。实验采用门脉期的动脉血管数据作为训练集和测试集,此期每个病人的CT包括40~50张切片。原始CT图像的大小是512×512,由于运行内存限制,将原始数据处理成256×256大小。本文对CT数据进行了预处理,将每个病人32张CT切片压缩成一个mhd和raw格式文件。实验采用40个实例1 280张图像作为训练集来训练网络权重,采用10个实例320张图像作为测试集来预测实验结果。本实验的金标准(GT)是由多个专家对CT原数据图像进行多次人工标记得到的平均结果。图6显示了不同病人动脉血管某一切片在CT图像上的表现,左侧数字(1)和(2)表示行号。图6(a)~6(c)表示只出现主动脉的切片;图6(d)~6(f)表示出现主动脉及其分支血管的切片,图中箭头指向血管。
图6 不同病人CT动脉血管图像Figure 6. Arteries CT images of different patients
实验采用Python3编程语言,并采用Keras库来实现模型。本文使用Ubuntu16.04系统和1个NVIDIA GPU(NVIDIA GTX1080Ti)作为训练和测试平台,采用Adam算法来优化网络参数。训练中,将epoch设置为500,将batch_size设置为1,初始学习率为0.000 01。
本文采用准确率(Accuracy,ACC)、特异性(Specificity,SP)、灵敏度(Sensitivity,SE)、Dice相似系数[31](Dice Similarity Coefficient,DSC)作为评估指标来评估腹部动脉血管的分割性能。ACC表示正确分类动脉血管和非动脉血管像素占整个图像总像素的百分比。SP表示所有真正的非动脉血管像素中正确分类的非动脉血管像素的百分比。Sen表示正确分类动脉血管像素占真实动脉血管像素的百分比。上述指标的计算式如下
(7)
(8)
(9)
(10)
其中,TP表示真阳性;TN表示真阴性;FP表示假阳性;FN表示假阴性;G表示金标准(GT);P表示预测的分割结果。
表1显示了不同算法的分割结果。从表中可以看出,针对腹部动脉血管分割,本文所提方法在评估指标ACC、SP、SE和DSC上分别达到了99.97%、99.93%、81.20%和84.77%。与3DUNet相比,本文所提方法在各项指标中均有提升,特别是在SE和DSC上分别提升2.85%和3.79%。与AG-Vnet相比,本文方法得到的SE和DSC值分别提升了0.92%和1.30%。为了更清晰地观察分割结果,图7给出了不同方法分割结果的可视化效果图,(1)~(5)行分别表示病人动脉血管的不同切片,第(1)行只包含主动脉,未出现动脉分支,剩余行包含主动脉和细小动脉分支。图7(a)表示原始图像的金标准,其余列分别表示不同算法的分割结果。图7(b)表示使用3DUNet算法对腹部动脉血管的分割。图7(c)表示使用VNet算法的分割结果。图7(d)表示融入通道注意模块的VNet算法的分割结果。图7(e)表示加入注意力机制(Attention,AG)[32]的VNet算法分割结果。图7(f)表示本文所提方法的分割结果。从图7可以看出,其他方法分割的动脉血管存在多分(非血管部分被当作血管分割)和漏分(血管部分没有被有效分割)的现象较多,而所提方法对动脉血管多分和漏分的现象相对较少。为了更直观地进行血管细节对比,图中使用虚线方框强调了血管分割的细节部分。
表1 不同算法在腹部动脉血管的分割结果
图7 不同方法不同病人血管分割结果Figure 7. Results of patients vessel segmentation with different methods
为了便于判断胃癌受累淋巴结与周围动脉血管的关系,本文对分割出的血管使用医学重建工具进行重建。重建出来的血管能够更加细致地描绘血管的形态,并且对医生进行三维虚拟手术有重要的作用,可以辅助修正手术规划,提高手术的效率和成功率。图8展现了不同病人的血管重建效果,图8(a)~图8(d)分别表示不同病人的血管。
图8 腹部血管重建结果图Figure 8. Abdominal vascular reconstruction results
本文针对胃癌受累淋巴结周围动脉血管分割精度低、易断裂的问题,提出一种基于3D卷积网络的动脉血管分割算法。该算法通过调整网络架构来提升分割性能,首先构造多尺度输入,形成不同感受野,捕获更多特性信息;然后,将密集扩张卷积运用到3D网络来捕获不同尺寸的血管特征;最后,利用密集扩张卷积与通道注意的融合,获取高层特征信息,使血管分割更加精准。与其他分割算法相比,本文所提方法能够提高腹部血管分割精度,具有一定的可行性。