基于注意力机制的多尺度融合肝脏器官分割

2021-07-02 01:57:10吴宇杭
现代计算机 2021年13期
关键词:解码器空洞尺度

吴宇杭

(四川大学计算机学院,成都610065)

0 引言

肝脏作为人体腹部最大的器官,也是人体肿瘤多发部位之一。肝脏病变是人体中的常见病变,尤其是在我国肝脏肿瘤发病率正呈现逐年上升的趋势,且在早期症状并不明显,超过30%的患者发现时已是晚期,错过了治疗的最佳时机[1]。肝脏病变的临床表现为肝脏外形、大小和轮廓的变化,因此,快速的筛查和定位是诊断和治疗的关键[2]。当前医院主要通过磁共振成像和CT断层扫描等医学影像检查的方式对肝脏进行筛查,医生需要手动分割出肝脏以及病灶区域,为制定诊疗方案提供可靠的形态学参考。由于医院影像科医生资源分布不均以及大量病例图像的产生,且手动标注病灶需要耗费大量的时间,极大地增加了医生的负荷以及病人的等待时间。

伴随着人工智能技术的不断进步,出现了许多基于深度学习的医学图像自动分割技术,其对肝脏器官的分割精度也逐渐超越了专业医生和传统分割方法。文献[3]提出了一种全卷积神经网络(Fully Convolution⁃al Networks,FCN),网络所有层均为卷积层,能够从像素级别对图像进行分类,进而解决了语义级别的图像分割问题。由于FCN在端到端分割中的优异表现,许多学者在其基础上进行了大量改进。文献[4]在FCN基础上提出了一种基于编码器-解码器结构的网络模型,编码阶段通过下采样方式逐级捕捉图像特征信息,解码阶段通过上采样逐级恢复每个像素的定位并对像素进行分类。其中文献[5]提出一种循环式残差卷积网络,利用反卷积块代替卷积块,同时残差结构能够帮助训练更深的网络,循环式卷积层使网络能够提取更多的特征。文献[6]提出了一种将卷积块密集嵌套连接的网络,由此代替长连接的方式将编码器和解码器连接起来。文献[7]在解码器阶段应用了转置卷积,相比双线性插值提升了网络的表达能力,且能够将上一层级的输出和原始输入图像以级联的方式作为下一层的输入,以此实现分割结果以及网络中间层特征的循环迭代。

在语义分割模型中特征融合阶段通常采用池化操作,包括最大池化(max pooling)[8]和平均池化(average pooling)[9]。池化方法通过特征压缩的方式增大网络感受野,使卷积层能够提取更多的信息,但是在压缩特征的同时也会丢失图像部分信息,容易忽略不同类之间的上下文依赖关系。而近年来提出的注意力机制(at⁃tention mechanism)能够有效地聚合上下文特征,确定相同类上下文之间的相关性和不同类之间的差异性[10]。

另外,文献[3-4]在特征提取阶段为了减少特征损失采用了跳跃连接(skip connection),将具有丰富全局特征的上采样预测特征图与含有更多局部细节的浅层语义信息融合起来,从而获得更精确的预测结果。但是跳跃连接仍然无法很有效地利用底层空间信息,不能融合任意尺度的特征。文献[11]提出了一种空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)结构,用不同采样率的空洞卷积代替不同的尺度来提取多尺度的特征。

本文受文献[10-11]启发,通过深度卷积神经网络,在编码器-解码器结构上提出了一种基于注意力机制的多尺度融合分割模型,实现对腹部肝脏器官的分割。在编码器特征提取阶段逐级进行下采样,最后利用带有空洞卷积的空间金字塔结构来提取不同尺度的特征,使网络能够获取更加丰富的空间信息,具有更强的鲁棒性。在解码器阶段逐级进行多尺度特征融合,利用注意力机制帮助网络更好地提取医学图像中肝脏器官等显著特征,进而提高模型预测的精确度。本文在CHAOS腹部肝脏器官分割数据集上对模型进行验证,实验结果表明,模型能够更好地利用特征间的上下文依赖关系以及底层的空间信息,在肝脏器官分割上有较好的效果。

1 相关工作

1.1 编码器-解码器

编码器-解码器[12]结构是深度学习领域常用的一种模型架构,在编码阶段由一个编码器来接收输入向量并压缩为固定的维度,产生有语义信息的特征向量;解码阶段将编码器处理完的低分辨率特征向量逐步映射为与原始输入相同的维度。在语义分割领域,解码器最终伴随着对像素的分类,因此能够通过模型重构得到预测的语义分割结果。

1.2 注意力机制

在CNN网络架构中,为了获得足够大的感受野,网络会逐步进行下采样来提取特征,而在特征压缩过程中不可避免的会损失部分信息。近年来提出的注意力机制可以帮助网络有效地抑制不相关区域的特征响应,强化网络学习相关任务的特征,并且在不需要大量额外参数的同时提高模型性能。注意力机制的动力学方程[13]可表述如下:

图1 编码器-解码器结构

1.3 空洞卷积

空洞卷积(atrous convolution)[14]通过在传统卷积核的每行每列中加入空洞来增加感受野,卷积神经网络计算感受野的方式如下:

f表示该层网络的感受野,m为上层网络的感受野,s tride为卷积层或池化层的步长,k size为卷积核的大小。

空洞卷积可以帮助网络扩大感受野,并且提取多尺度的上下文信息。它通过设置不同的采样率(dila⁃tion rate)来获取不同尺度的感受野,在不压缩特征图维度的前提下获得与输入特征相同的尺度,能够有效地保存底层特征信息。其计算方式为:

其中H、W、C分别为卷积核的高度(height)、宽度(width)和通道数(channel),而h、w、c分别是卷积核bl上对应的坐标。z l+1v,u的输入是第l+1层中坐标(u,v),其结果为第l层中的输出al经过卷积核bl卷积得到的值。d代表采样率,当d为1时,即为标准的卷积计算公式。图2为空洞卷积示意图。

图2 空洞卷积示意

1.4 空洞空间金字塔结构

ASPP即为带有空洞卷积的空间金字塔结构[15],其原理是使用不同采样率的空洞卷积来处理同一个特征图,接着将处理的结果拼接为扩大了通道数的特征,最后经过一个1×1的卷积层来降低特征图的通道数。

传统的卷积神经网络[16]由卷积层和全连接层组成,卷积层对输入特征的尺寸没有特定要求,而全连接层则需要输入固定尺寸的特征,因此来自不同应用场景大小不同的图像必须切割成固定尺寸才能使用,这既导致了图像形状的改变也造成了大量局部信息的丢失。

而ASPP的出现正是解决了这个问题,使网络能够输入不同尺寸的图片而无须切割,它还能在不同尺度进行特征提取,并且融合这些多尺度的特征,帮助网络提取更加丰富的特征,从而获得更好的分割效果。

2 基于注意力机制的多尺度融合分割网络

图3 基于注意力机制的多尺度融合分割网络

本文提出的网络主体由编码器和解码器部分组成。编码阶段将输入图像以2倍率逐级进行特征压缩,一共进行四次下采样,分别对应四个下采样基础块,最后一层的输出经由ASPP模块处理之后再进行上采样操作;解码阶段相对应的逐级进行四次上采样,每一层都通过跳跃方式与编码器的对应层进行连接。在每次上采样特征与跳跃连接的下采样特征融合之前,网络首先将跳跃连接传输的特征与上采样中上一层的特征输入到注意力模块进一步处理。同时,注意力模块还能过滤正向传播和反向传播中神经元的梯度信息,降低背景区域产生的梯度在向后传播时的权重。

在解码器结构中加入注意力机制将有效利用通过跳跃连接获得的下采样特征,经过注意力模块处理后,将消除这些从粗尺度提取的特征中不相关和有噪声的特征响应,即抑制不相关的背景信息,更多的关注网络需要的前景特征。

网络基础块由一个窗口大小为2的二维最大池化层,外加两组相同的步长为1的3×3卷积层、ReLU激活函数层和二维的批归一化层组成。池化层用来降低图像的分辨率,批归一化层使每一批特征图满足均值为0,方差为1的规律分布。

2.1 注意力模块

在注意力模块中,首先将跳跃连接传递的下采样输出特征xl,与上采样特征g转换成相同的尺寸,两者拼接之后由激活函数ReLU处理,再接一层sigmoid函数进行归一化处理得到注意力系数α,α取值在0~1之间,当α趋近于1时表示网络的注意力更集中在目标区域上,趋近于0时表示抑制不相关区域的特征响应。最后将初始的特征图xl与注意力系数计算向量乘积得到,乘积将会使目标区域的值变大,使背景区域的值变小,最终体现了将注意力集中在目标区域上的理念。

图4 网络基础模块示意

图5 注意力模块示意

2.2 空洞空间金字塔结构

ASPP模块中首先将原始特征使用一个二维自适应平均池化层对特征图进行下采样降维,再用一个1×1的二维卷积层、一个双线性插值上采样层进行处理,接着使用4层采样率分别为(1,6,12,18)的空洞卷积,最后将上采样处理完的原始特征图和4层空洞卷积处理的特征进行融合,融合的结果使用一个1×1的卷积层进行处理。这便是加入空洞卷积的空间金字塔结构原理。

网络将下采样最后一层的特征输入ASPP进行处理,将处理的结果结合上一层的下采样跳跃连接的输出,作为最近一层注意力模块的输入。网络中ASPP的计算方式为:

其中H k,d(x)表示一个空洞卷积,函数y表示特征融合。

图6 ASPP结构示意

3 实验与结果

3.1 数据集

本文使用CHAOS(Combined Healthy Abdominal Organ Segmentation)[17]腹部器官分割数据集,其中包含的CT数据由一系列大小为512×512的16位DICOM图像组成,实验使用其中的肝脏CT数据作为训练数据集,对腹部肝脏器官进行分割预测。CT数据中包含了20例病人的CT图像,本文使用其中的90%共18例2784张图像作为训练集,剩余的10%数据作为测试集。

3.2 评价指标

本文采用分割任务中常用的Dice相似系数(Dice Similarity Coefficient,DSC)作为实验的评价指标,用来计算模型预测的分割结果和标签的相似度,其计算方式如下:

其中Gt表示数据集标签中肝脏区域像素构成的集合,Pred为分割模型预测得到的肝脏区域像素集合。DSC取值范围为[0,1],其值越大表示模型预测的结果与标签的结果越接近。

3.3 损失函数

本文数据标签包含肝脏前景和背景两类标签,采用仅适用于二分类任务的BCELoss(Binary Cross Entropy Loss)二分类交叉熵损失函数[18]进行模型训练,其函数定义如下:

其中xi和yi分别是原始目标参数和预测目标参数,取值在0到1之间,因此在进行损失计算时需要在该层前使用Sigmoid函数进行处理。

3.4 模型训练

为了避免模型过拟合,实验在数据预处理阶段使用数据增强对训练集数据进行处理,包括随机水平翻转、随机尺度缩放、随机裁剪和高斯滤波等。

实验在Ubuntu 18.04基础上使用PyTorch深度学习框架和Python编程语言实现网络构建,硬件平台为型号NVIDIA Tesla-K20M的GPU和Intel Core i5-8600k的CPU。模型在训练时使用随机梯度下降优化器对样本的权重和梯度进行更新,共进行了60个批次循环训练,每个批次大小设置为5,初始学习率为0.001。在每个循环结束时对训练结果进行评估,最终保存评估结果最好的权重为模型训练最终的结果。

3.5 实验结果

实验在CHAOS数据集基础上使用Dice相似系数评价指标对模型效果进行验证,并在UNet、UNet++以及nnUNet分割模型上使用相同的评价指标和数据集进行对比实验。实验结果见表1。由表1可知,本文提出的基于注意力机制的多尺度融合分割模型对肝脏器官的分割表现均好于对比模型,能够较好地满足对腹部肝脏器官的分割要求。

表1 实验指标

如图7所示,最左列是实验数据集中原始腹部器官图像,中间为肝脏器官的人工标注标签,最右侧为本文所提出的分割模型所预测的结果。

图7 模型分割结果示例

4 结语

肝脏作为腹部最大的器官也是人体中的重要器官,对其进行精确分割在手术治疗中具有重要意义。本文结合注意力机制和多尺度融合提出了一种肝脏器官自动分割模型,在CHAOS数据集上测试的肝脏分割准确率Dice系数达到96.31%,能够在腹部CT图像中较为准确地分割出肝脏器官轮廓,有效减轻医生负担,并在一定程度上为医生手术治疗方案提供形态学参考。本文未来的工作将继续提高模型在小目标上的分割精度,以增强模型分割的泛化性和鲁棒性。

猜你喜欢
解码器空洞尺度
科学解码器(一)
科学解码器(二)
科学解码器(三)
财产的五大尺度和五重应对
线圣AudioQuest 发布第三代Dragonfly Cobalt蓝蜻蜓解码器
空洞的眼神
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
用事实说话胜过空洞的说教——以教育类报道为例
新闻传播(2015年20期)2015-07-18 11:06:46
9
臭氧层空洞也是帮凶
世界科学(2013年11期)2013-03-11 18:09:47