桂林斌
(云南能源职业技术学院 云南省曲靖市 655001)
深度学习对计算机视觉领域产生了重大的影响,尤其是基于卷积神经网络的方法用于图像分割。Long等人提出了全卷积网络,这种网络可以采用任何尺寸的图像作为输入并产生相应大小的输出图像。 Romera等人采用分解卷积和残差连接的方式来提高图像分割的准确性。这些为自然图像分割开发的分割方法通过修改后也适用于医学图像的分割。同时,许多基于卷积神经网络的图像分割算法用于显微图像中的细胞分割、核磁共振图像中颈部动脉的分割以及CT 图像中的肺结节分割。在这些模型中,基于编码器-解码器的模型是采用最多的一种架构。例如,U-Net就是一种应用最广泛的基于编码器-解码器的医学图像分割模型。它采用一个压缩通道用于图像信息的捕捉,并用对称的扩展通道用于分割部分精确的定位。在U-Net 网络的基础上,Zhou提出了一种采用密集连接来捕获更多细节的U-Net++网络。Mehta提出了一种基于多输入多输出加权交叉熵的M-Net 网络,该网络主要用于核磁共振图像中脑结构的分割。然而,上述这些算法模型通常不能达到超声图像分割所需的准确性。
在多种医学图像(核磁共振图像、计算机断层扫描)中,超声图像所具有的非电离辐射及成本低的特点使得它技术广泛的应用于临床医学的诊断。在医学临床的应用中,对臂丛神经进行阻断可以减去上肢手术的疼痛。但是,由于超声图像的对比度低和信噪比低等问题导致超声图像的分割是一个比较困难的任务。 近年来,许多专家学者结合临床需求,尝试着将深度卷积神经网络技术应用于医学图像的处理,但目前的应用主要集中在前列腺、腹部、心脏以及颈动脉的分割,原因是这类超声图像所需分割的目标轮廓较清晰,而对于分割目标轮廓不明显的超声图像,这些方法不能实现较高的分割精度。Kong等人使用EfficientNetB3 代替传统U-Net 的骨干网构造了一个新的语义分割模型,并在跳跃连接上设计使用空洞卷积来提取特征,Long等人基于U-Net模型,构建了一个适用于臂丛神经分割的卷积神经网络模型QU-Net 均取得了较好的分割效果。
为进一步提高分割目标轮廓不明显的超声图像分割精度,本文提出了一种基于空洞卷积的网络模型(简称:A-Net)用于该类图像的分割。该种方法主要有以下两个优点:
(1)采用空洞卷积可以提取多尺度的信息特征。
(2)采用多任务的训练方式提高训练速度和提高分割精度。
本文的其余部分结构如下:第二部分描述了方法和实现细节,第三部分给出了实验结果,第四部分是全文的总结。
本文提出的方法由编码器模块、空洞卷积模块、解码器模块3 个模块组成。编码器模块采用上采样的方式来提取输入图像的信息,空洞卷积模块主要用于多尺度的信息提取,编码器模块的结构由连续的3×3 卷积层和下采样层组成,解码器模块的结构由连续的3×3 卷积层和上采样层组成。具体的网络架构如图1 所示,图中L和L分别为交叉熵以及Dice 损失函数。
图1: A_Net 架构图
基于编码器-解码器的网络已成功地应用于图像分割。编码器模块的功能是逐步将图像的空间维数减小,提取高级特征图谱信息。而解码器模块的功能是将经过编码器处理的输入所得到的特征进一步优化和任务处理,逐步恢复分割目标的轮廓信息。传统的编码器-解码器结构中的连续下采样操作会导致图像特征信息的丢失,因此本文所提出的A-Net在U-Net 的结构上增加空洞卷积模块来提取多尺度的体征信息。空洞卷积模块的原理是通过调整滤镜的视场来捕捉特征信息。输出y[i]是输入信号x[i]与滤波器w[k]的卷积,计算如下:
其中k 为滤波器的长度,r 为采样步长。它相当于将输入x 与沿每个空间维度的两个连续滤波器值之间插入r-1 个0 所产生的上采样滤波器进行卷积。空洞卷积可以通过选择不同的r 值来来调整滤波器的大小。
空洞卷积模块的结构如图2 所示。它由3 个分支组成:步长为1 的空洞卷积,步长为3 的空洞卷积,1×1 卷积。3个分支通过合并操作后作为解码器的输入。该模块通过不同步长的空洞卷积可以提取不同的特征信息,弥补编码器中所损失的图像特征信息。
图2: 空洞卷积结构图
图像分割是计算机视觉的基础,是一个像素级的分类问题。主要工作是根据图像的灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域,使得这些特征在同一区域内表现出一致性或相似性,而在不同区域间表现出明显的不同。设计的分割算法用来预测一个像素是属于背景还是前景。目前,交叉熵是分类中最常用的损失函数,用来单独评估每个像素矢量的类预测,然后对所有像素求平均值,我们可以认为图像中的像素被平等的学习了。但是,医学图像中分割目标的大小在不同的超声图像中有所不同,经常出现类别不均衡分布的问题,由此导致训练会被像素较多的类主导,对于较小的物体很难学习到其特征,从而降低网络的有效性,故而交叉熵在超声图像分割中并不有效。
本文中我们使用Dice 系数作为分割精度的度量,Dice 系数源于二分类,本质上是衡量两个样本的重叠部分,Dice 值代表预测与真值的重叠区域,该指标范围从0 到1,其中“1”表示完整的重叠。Dice 函数如式(2)所示:
2.3.1 数据增强以及前处理
本文采用臂丛神经超声图像作为实验的数据集。由于训练集数据量有限,本文采用数据增强的方式来增加数据集的数量。第一种方法对图像采用水平翻转和垂直翻转。第二个方法采用(-10%至 +10%)随机缩放以及(0 至10 度)的随机旋转方式。
2.3.2 评估指标
本实验采用Dice 值、豪斯多夫距离(HD)以及均方根对称表面距离(RMSD) 三个指标来对分割性能进行评估。HD用于评估两个物体的轮廓差异,对应于最大欧几里得距离。设S(A)和S(B)分别表示A 和B 的点集,任意点v 到S(A)的最短距离为:
2.3.3 实验细节
本实验中的A-Net 采用Keras(2.4.0 版本)和TensorFlow(1.15.0版本)作为框架。该框架采用动量为0.9,衰减为0.0005的小批量随机梯度下降(SGD)进行训练。初始学习率设为0.001,每10 个循环后下降一次,批量大小值为4。为了防止过拟合,对验证数据集上的损失进行了提前停止策略。
(1)在Keras 中使用Earlystopping 代码示例
为了评估和验证网络的分割性能,本文提出的A-Net 与U-Net、U-Net++方法进行了比对。使用了3 个性能指标,即Dice、HD、RMSD,分别用均值、标准差、95%置信区间值进行表示。最后采用SPSS 统计软件进行统计分析。
超声图像数据集选用2016 年Kaggle 比赛的臂丛神经。数据集被随机分为1558 幅图像进行训练和600 幅图像进行测试。具体实验结果,如表1 所示。对于Dice 值,与其它两种网络对比,本文提出的方法平均有2.14%的提高。因此,本文提出的方法显著提高了臂丛神经分割的精度。图3 所示为三种网络的分割结果,其中方括号里的值为95%的置信区间。
表1: 臂丛神经的分割结果
图3: 三种模型的分割实例
为了验证我们提出的方法的优越性,有必要进行统计分析。由于Dice 值属于高斯分布,本文采用弗里德曼检验来评估所有算法的性能。表2 给出了所有算法的平均秩和p 值。p<0.05 认为有显著差异。平均秩表示不同方法的性能。与其它模型相比,A-Net 有了明显的改进。
表2: Dice 值的弗里德曼检验
在本文中提出了一种端到端的空洞卷积网络用于超声图像的分割。该网络由编码器-解码器模块以及空洞卷积模块组成。在网络训练过程中,我们采用多任务的方式来提高分割性能。通过和U-Net 以及U-Net++在臂丛神经数据集上进行比对,验证结果显示,本文给出的方法实现了超声图像更好的分割性能,为超声图像的医学诊断提供了一个有用的参考工具。