秦志远 朱峻泷 张 琛 丁思琪 丛 瑞 宋 威
随着科技的不断发展,基于深度学习的图像分割技术在医学图像处理中得到全面应用。自2015年国际医学图像计算和计算机辅助干预会议上首次提出U-Net模型[1],该模型及其变体(Nested U-Net、V-Net、循环残差U-Net等)在生物医学影像分割中取得了理想的结果。2015年,IEEE国际计算机视觉与模式识别会议提出的全卷积神经网络(FCN)模型是第一个成功应用到图像分割的神经网络。通过杠杆组标准化与leaky ReLU函数,研究者重新设计了U-Net的结构,便于分割3D图像[2]。2018年,李娜[3]在U-Net的基础上提出了一个新网络AUNet,满足全景分割医学图像的需求。使用梯度矢量流(GVF)图像分割技术对医学影像进行处理分析,分割过程简单准确,较传统处理方法效率更高、效果更好。神经网络模型提取能力很强,能够追踪特定区域内任意想要到达的目标,因而适用于医学影像分割,如CT、MRI和超声图像的处理。医学影像分割按照医学方面既定的规则把医学图像划分成多个不相交区域,精准分割目标体积、形状、纹理等特征,便于后续处理。作为目前在医学领域研究价值较高的图像分割网络,其基础是FCN,但又不同于FCN[4]。U-Net较浅的高分辨率层用来解决像素定位的问题,较深层用来解决像素分类的问题,通过将浅层特征图与深层特征图结合,并利用特征拼接、多尺度融合的手段充分关注分割细节,使其在图像分割及边缘检测领域表现优秀。ResNet网络可以加速网络收敛、有效解决梯度消失和因网络结构深导致的网络退化问题[5]。在重大疫情或野外救灾等特殊环境下,自动穿刺装置有着重要作用,而静脉的识别与跟踪对自动穿刺设备的研发具有重要的意义。静脉超声图像噪点多,传统阈值分割效果差,但其局部语义相对明确。基于此,本研究以ResNet34作为特征提取前端,并使用U-Net作为后端网络,提出了基于ResNet34-UNet网络的静脉分割方法,取得了较为优秀的分割效果。
本研究的数据集来自项目合作医院和互联网,所使用的静脉超声图像均为浅层皮下静脉超声图像。原始数据集共500张静脉超声图像,在项目合作医院医技科的医师指导协助下,使用Labelme人工打标,制作掩膜标签(图1)。基于ResNet34-UNet网络框架的输入要求,对静脉超声原始图像进行批量剪裁,将图像尺寸统一为512 px×512 px;将静脉超声原始图像进行24位转8位的灰度化,并通过旋转、翻转等方法对数据集进行扩充;将总数据集的60%(300张)作为训练集,40%(200张)作为测试集。本实验使用Python 3.7编程语言,TensorFlow 2.1.0人工智能框架,配合使用Keras模块进行开发。
图1 静脉超声原始图像(A)和掩膜图像(B)
1.U-Net
基于编码与解码的设计思路,U-Net使用一种完全对称的U型网络结构来获取上下文的特征信息和位置信息。与大多数神经网络模型类似,U-Net使用卷积操作来提取图像特征,从而实现图像分割。依据U-Net结构的设计,将原始图像输入U-Net后,通过尺寸为3×3卷积核,先进行2次卷积操作;之后经过1次最大池化操作,池化窗口的size为2×2,stride为2。在网络左侧,上述下采样过程进行4次,每次池化的过程卷积核的数目均会加倍[6]。经过网络左侧的特征提取后,加上原始图像输入的尺度,共有5种尺度的特征图。在编码区域最后1次卷积后,得到的特征图会连接右侧解码部分。与编码部分相似,在网络右侧进行上采样的过程中,反卷积过程和2次卷积过程会进行4次,每次上采样过程卷积核的数目均会减半。最后经过1次1×1的卷积操作得到最终的网络预测结果。
U-Net的最大特点是引入长连接,实现了通道维度上的融合学习(叠操作)。下采样和上采样过程分别得到通道数相同的特征图,将网络左侧得到的特征图剪裁,使其与网络右侧的特征图尺度相同,之后并联至相同通道数的网络右侧部分。通过这种方式融合静脉超声图像的浅层特征和深层特征(低分辨率信息和高分辨率信息),实现了更佳的信息利用效果。考虑到浅层静脉超声图像的分割目标分布较为规律,语义简单明确,低分辨率信息能够提供其类别识别依据;又因为其边界较为模糊,梯度复杂,故需要高分辨率的信息提供精准分割的依据。本研究提出的ResNet34-UNet充分利用了U-Net能有效结合低分辨率和高分辨率特征的特点,在自制静脉超声数据集上取得了优秀的分割效果。
2.ResNet网络
基于以往对CNN的研究可知,通过增加网络深度可以学习到更多的特征信息。目前已有研究[7]证实随着网络的加深,传统的卷积神经网络会出现梯度爆炸或梯度消失现象,导致深层次的网络无法学习到更多特征信息,甚至产生网络退化的现象。为解决这一问题,本研究采用ResNet作为整个网络的主干网络。ResNet本质是一个不断拟合残差的过程,其通过间接学习若干个输入层和输出层之间的残差,使网络收敛地更快(损失Loss更快地下降),模型的精度更高[6]。
基于一个网络堆叠结构,ResNet选择学习每一层输入与输出之间的残差F(x),其中F(x)=H(x)-x,最终实际学习的结果为F(x)+x。ResNet使用类似电路结构中的“短路”设计,F(x)模块进行残差学习,x为直接映射,各层之间使用Relu作为激活函数,由此构成了ResNet基本的残差学习单元[8]。这样的设计不仅减少了每一层的学习量,且每一层的训练结果都是当下最优状况,由此解决了网络加深时的退化问题。
3.ResNet34-UNet网络
综合考虑医疗嵌入式设备的运算能力与随着网络加深的实际分割效果,本研究使用较为轻量的ResNet34作为最终的主干网络。如图2左侧部分所示,ResNet34相比普通网络每两层间增加了短路机制,在特征提取的过程中进行两层间的残差学习,图2左侧虚线表示特征图的维度(通道数)发生了变化。
图2 ResNet34-UNet网络结构图
针对一个两层的残差单元,假设al为该残差单元第一层的输入,al+2为第二层的输出,F(xl)为xl经过一个完整残差单元后的输出,Relu(x)=max(x,0)为激活函数,则有:
针对多个残差单元的组合,设xl为第L层残差单元的输出,则有:
在误差反向传播过程中,由于identity=x,损失值在某一层的梯度为:
式(3)中括号内的1体现出残差结构可以将上一层的输入无损失地继承下来;加号后面的残差梯度则体现出网络各层权重对输出的影响。之所以是identity恒等映射而没有乘权重矩阵,是因为若identity=λx,则有:
从式(4)可以看出,当λ>1,随着网络的加深,网络有出现梯度爆炸的危险;当λ<1,则会导致梯度消失。由此可见,直接传递identity=x的必要性。
结合静脉超声图像的特征及其分割需求,本文使用ResNet34-UNet网络进行静脉图像分割任务,整个网络以ResNet34作为特征提取的前端网络,以U-Net作为特征融合的后端网络。整个网络框架如图2所示。本研究将ResNet34作为Encode-Decode结构中的编码器。在前馈计算过程中,ResNet34一共进行了5次降采样,由一次7×7的卷积操作和4次卷积block组成。在ResNet34-Unet网络的解码器部分,保留了原U-Net的4次上采样过程。其中灰色箭头表示U-Net特有的长连接操作,实现了通道层面的特征融合。最后还进行1次上采样,以恢复原图尺寸,最终获取网络的输出。
使用准确度(ACC)和平均交并比(mIoU)作为本文语义分割的评价指标。ACC计算公式为:ACC=(真阳性+真阴性)/(真阳性+假阴性+假阳性+真阴性)。其中真阳性表示模型分割出来的静脉区域像素点实际为人工分割出来的静脉区域像素点的总数;真阴性表示模型分割出来的背景区域像素点实际为人工分割出来的背景区域像素点的总数;假阴性表示模型分割出来的背景区域像素点实际为人工分割出来的静脉区域像素点的总数;假阳性表示模型分割出来的静脉区域像素点实际为人工分割出来的背景区域像素点的总数。
在式(5)中,k为目标类总数,pij为本该属于i类的像素点被预测为j类的像素点的总数,具体可以说:当i类为正类时,pii表示为真阳性;pjj表示为真阴性;pij表示为假阴性;pji表示为假阳性。
mIoU是图像分割领域常用的效果评价指标,计算方法为:
在本研究中,分割目标只有静脉一个类别,故k值为1。
将经过预处理的数据集输入ResNet34-UNet网络,200张训练图片在正式输入网络前,由生成器对其进行旋转、偏移等操作,以保证最终模型的鲁棒性。实验过程中,网络优化器为AdamOptimizer,损失函数为binary_crossentropy。经过10轮训练后保存最优模型,得到的分割效果的ACC为0.963,mIoU为0.873。
如图3所示,在10轮训练过程中,随着迭代次数增加,模型的损失(Loss)迅速下降,ACC和mIoU逐步提高,最终达到较理想的结果。
图3 ResNet34-UNet训练过程中各评价指标
医学图像领域的分割网络众多,为了更好地体现本文所提出的分割网络在静脉超声图像上的进步性,本研究使用相同的静脉超声图像和相同的实验环境,在FCN和DeepLab v3+网络中再次进行实验,结果见图4。
图4 FCN训练过程中各评价指标
通过对比可以看出,与ResNet34-UNet比较,FCN的测试集损失(val_loss)在训练后期已经难以有效下降,其mIoU的上升效果也不明显。
不同网络静脉超声图像分割实例见图5,自A~E的5列图像分别为:静脉超声原始图像、标签图像、ResNet34-UNet分割结果、DeepLab v3+分割结果、FCN分割结果。其中ResNet34-UNet的分割结果未出现明显的异常间断,且静脉边缘的分割效果较为平滑,而DeepLab v3+和FCN的分割结果则出现了像素间断、大量像素分类错误等现象。
图5 不同网络静脉超声图像分割实例
由此可见,针对静脉超声图像,ResNet34-UNet能够较好地将目标静脉从其背景中分离出来,且静脉边缘绝大部分均较为平滑。分割效果的具体指标见表1。结果显示,在自制静脉超声数据集上,ResNet34-UNet分割的ACC分别较FCN和DeepLab v3+高5.9%和5.2%;mIoU分别较FCN和DeepLab v3+高15.7%和0.6%。表明无论是从分割准确性还是边缘平滑度来看,ResNet34-UNet网络模型均能较好地满足静脉超声图像的分割要求。
表1 不同网络分割算法对静脉超声图像的分割结果
ResNet34-UNet利用ResNet34作为特征提取的前端主干网络,避免了因网络层数加深导致的梯度发散、准确度下降的现象,解决了网络退化问题;利用U-Net作为后端网络,充分融合原始图像的低分辨率信息和高分辨率信息(深层特征和浅层特征)。应用ResNet34-UNet分割静脉超声图像的ACC达96.3%,较FCN和DeepLab v3+实现了较大幅度的提升,能够有效满足静脉超声图像的分割要求,且在保证分割准确性的前提下,分割掩膜边缘平滑度也能达到比较好的效果。但ResNet34-UNet的参数规模依旧较大,在静脉自动识别与跟踪的实际应用中,分割结果的实时性难以保证,未来会在算法实时性方面进行进一步研究。