融合密集连接与注意机制的颅内出血分割方法

2021-07-08 08:27徐曾春

小型微型计算机系统 2021年7期

张鹏，徐曾春，胡平

(南京工业大学计算机科学与技术学院，南京 211816)

1 引言

颅内出血是一种神经系统疾病，是由血管破裂进入组织并可能延伸脑内内皮细胞导致，一直以来，颅内出血是导致死亡和残疾瘫痪的主要原因，颅脑损伤后，如果不及时的进行诊断和治疗，极有可能会诱发较高的死亡率[1].传统的诊断方法由医生人工定量估计出血区域和大小，整个过程非常耗时，且确定其出血的类型和区域十分依赖于医生的经验累积，人为误差也是导致颅内出血诊断偏差的问题所在.

随着深度学习的发展，基于深度学习的图像分割技术已经成为图像分割的重要组成部分，分割任务的挑战性在于识别医学图像中器官或病变的区域位置[2].对于颅内出血，深度学习方法最近在分割颅内出血方面取得了成功.其分割目的在于传递和提取出血点定量测量的关键信息.然而，与人体器官分割相比，颅内出的血病灶分割存在更大的困难与挑战：1)与人体其他部位的图像相比，脑部CT图像存在成像伪影及颅骨等脑部组织噪声的复杂情况；2)颅内出血区域常常表现为结构相对不明确的高密度区域，分割任务更具有挑战性.因此需要一种能高效准确分割出血区域的病灶分割方法.

本文提出了融合密集连接与注意机制的分割方法，用于进行颅内出血病灶分割.在全卷积网络的基础上，本文采用密集连接的思想，并在网络的编码与解码的连接部分融合了一种包括空间和通道注意的注意力机制，以捕获丰富的上下文关系来精准的提取高质量的颅内出血特征.针对面积较小的颅内出血区域，本文引入了Focal Tversky损失函数以解决对小面积出血病灶的分割精度不足的问题，有效的提升了颅内出血分割的性能.

2 相关工作

传统的颅内出血分割方法通常需要对图像进行预处理，去除其中颅骨等噪声，并提取一些复杂的特征.方法大致可以概述为基于阈值分割和基于区域分割两种类型.

Moltz等人[3]采用阈值法进行分割，在对图像去噪后，定义一个合适的阈值，生成基于该阈值的出血区域的二值图像，将出血区域分割出来.Bhadauria 等人[4]中提出了一种颅内出血分割方法，其结合了模糊c均值聚类(FCM)与区域生长的主动轮廓线，与标准区域生长方法以及FCM相比，该方法在颅内出血分割中更具有优势.此外，其他机器学习方法在颅内出血分割中也有一定的应用，Muschelli 等人[5]提出一种使用随机森林算法的全自动颅内出血分割方法，通过建立随机森林模型来估计颅内出血的区域概率，可以较为准确的对颅内出血区域进行分割.

现阶段，深度学习方法在颅内出血分割中已经占据主导地位，通常医学图像分割的网络架构都基于全卷积网络(FCN)[6]或U型全卷积网络(U-Net)[7]进行改进设计.Chen等人[8]受残差网络ResNet的启发，在U-Net[7]的编码器部分，采用残差网络的连接形式进行改进，以用于颅内组织分割.与之类似，Jégou 等人[9]提出密集连接的全卷积分割网络,在全卷积网络的基础上引入密集连接的思想，在病灶分割上取得具有竞争力的表现.Kuo 等人[10]提出基于区域化全卷积网络(PatchFCN)的颅内出血分割方法，使模型能够准确定位出血区域，在较少的数据量中取得优于标准FCN的出色竞争性能.Bi等人[11]提出一种基于卷积神经网络和全卷积网络级联的方法，提高出血病灶分割上的准确率.Cho[12]采用两个卷积神经网络和双重全卷积网络(FCN)构建的级联深度学习模型以识别出血.

与上述方法不同，本文受Oktay[13]以及Roy[14]等人在实验中利用注意力机制的影响，采用融合密集连接网络与注意机制的方式进行脑部图像中的出血病灶的分割.

3 融合密集连接与注意机制的颅内出血分割

本节描述本文所提方法的总体框架，对密集连接网络与注意力机制进行主要介绍.

3.1 网络结构

通常，脑部CT图像中颅内出血的病灶区域不够明确，且存在颅骨等高密度无关组织[15]，对颅内出血病灶分割造成不小的影响.本文以全卷积网络融合密集连接块与注意力机制的方式对颅内出血病灶的特征进行精细的提取.网络模型由全卷积密集网络以及该网络中编码器、解码器两者连接间的注意力机制模块组成.本文在颅内出血分割网络中编码器部分融合了密集连接块，在编解码与解码器中，引入通道和空间注意力机制模块.其中，网络编码器中密集连接块用于获取颅内出血病灶特征，并将编码器中提取的每一层特征输入到注意力机制中，在注意力机制中，将分别在通道注意力和空间注意力上进行特征加权，从而获得颅内出血病灶最详尽的特征以及特征利用，以提高颅内出血分割的准确率.最后，将特征由解码器映射到标签概率以获取分割结果.本文方法的网络结构如图1所示.

图1 颅内出血分割网络示意图Fig.1 Schematic diagram of intracranial hemorrhage segmentation network

3.2 全卷积密集网络

由于颅内出血区域呈现为相对不明确的高密度区域，并且部分出血区域的密度与脑实质密度相近，因此，出血区域特征提取较为关键.网络层次加深虽然提高特征的提取能力，但特征图的利用率较低，导致单纯加深网络层数达到的效果不显著.而密集连接网络中采用密集连接的方式能够更好的提高特征图的利用率.为此，本文最初考虑直接采用DenseNet[16]进行颅内出血病灶的特征提取与分割，但DenseNet[16]是为分类任务而设计，并非本文要解决的分割任务，对于颅内出血这种结构相对不明确，内部脑组织噪声较多的情况，其分割效果不佳.然而，适用于分割任务的深层全卷积网络(FCN)中采用的最大池化和上采样操作，又导致低级特征信息丢失，尤其对于出血不明显的区域，会导致分割的精度较差.

结合上述两个考虑，本文设计一个全卷积密集连接网络，结合了密集连接和类似U-Net[7]中跳跃连接的特点，为颅内出血分割提取更加精细的特征.图2为全卷积密集网络的示意图.在每一层的编码内部采用密集连接的形式以确保最大的特征利用，而编码器部分与解码器部分之间采用跳跃连接将低分辨率信息和高分辨率信息结合起来，有效解决出血病灶区域结构不明确，不明显的问题.

图2 全卷积密集网络示意图Fig.2 Schematic diagram of fully convolution dense net

3.2.1 编码器与解码器

本文的全卷积密集网络类似于U-Net[7]，同样采用编码器和解码器的组成结构.它由池化层，密集连接块，过渡层和上采样层，共计167个卷积层组成.编码器用于提取特征，解码器用于恢复特征至原始输入图像的分辨率，并且采用跳跃连接的方式将编码器和解码器进行连接，以融合前面特征层所提取到的细节信息.

编码器以除去全连接层的DenseNet-161为基础网络，图2中所示，卷积层1—密集连接块4构成了编码器部分，包含了3×3卷积的卷积层1步长为2，步长为2的3×3最大池化层，以及4个密集连接块和3个过渡层.每个密集连接块由若干1×1、3×3卷积组合构成，密集连接块1-4中分别包含了6、12、36、24个1×1、3×3卷积组合.3个过渡层均由批归一化层(BN)、1×1卷积和2×2平均池化组成.密集连接块中提取的特征图在过渡层中通过卷积与合并来缩小特征图大小.该编码器中共计有160个卷积层，由于网络深度越深，其特征提取能力越强，密集连接块的引入不仅有效的提高颅内出血特征的利用率，而且可以更加有效的进行梯度传递，以防止梯度消失.所以本文方法在融合了密集连接块后，对颅内出血区域有很强的特征提取能力.

解码器由5个上采样层以及1个卷积层组成.由图2可知，解码器中的1-3个上采样层分别与分别与3-1密集连接块相连接，上采样层4与卷积层1相连.上采样层为2×2的卷积，通过双线性插值实现上采样操作，解码器通过5次上采样使得分割结果最终能拥有更为精细的边缘信息.卷积层2由一个1×1卷积构成，用来恢复分辨率至原始图像分辨率，同时卷积层2也降低了参数量.解码器中采用sigmoid激活函数输出概率范围为(0,1)，获得颅内出血的概率.由于卷积神经网络的浅层特征得到的是局部语义信息，深层特征是全局语义信息.解码器在上采样层恢复分辨率的同时将两者进行融合，提高分割精度.

3.2.2 密集连接

本文以DenseNet[16]为基础网络，该结构由具有不同输出尺寸的重复密集连接块组成.作为核心所在，密集连接块是构建DenseNet[16]的基本.本文在特征提取的编码器部分采用密集连接块的思想.以4层卷积层的密集连接块为例，其结构如图3所示，密集连接块中包含4个卷积层.

图3 密集连接示意图Fig.3 Schematic diagram of dense connection

与一般卷积网络中连接不同，在密集连接块中，可将每个卷积层相连，使每个卷积层的输出都可以作为后续卷积层的输入，从任何卷积层到其所有后续卷积层都有直接连接，将不同层的特征图实现连接合并，进行特征图重用.层之间密集连接的优点是，更加有效的进行特征的前向传递和梯度的后向传播，最大限度的避免了学习冗余.此外，密集连接确保了层之间的最大信息流，改善了梯度，从而减轻了深层神经网络中的负担.

传统意义上的卷积网络，第L个卷积层的输入仅是上一个卷积层的输出，而在密集连接网络中，若密集连接块中共有L个卷积层，对于第L个层的输出，它的输入为前面所有特征图的连接，输出表达如下：

Xl=Hl([X0,X1,…,Xl-1])

(1)

式中，Xl为第L层的输出特征图，X0为起初图像输入，为组合函数既归一化(BN)、修正线性单元(ReLU)和卷积操作.在本文中，如图4中卷积层结构所示，组合函数中包含了BN、ReLU、1×1卷积以及BN、ReLU、3×3卷积组合变换.表示将特征图至进行连接合并.

本文将脑部CT切片图像输入融合了上述密集连接块的编码器中，以提取更为精细的颅内出血病灶特征，用以分割.

3.3 注意力机制

颅内出血分割专注于提取最精确的颅内出血病灶特征区域，但在上述的全卷积密集网络中，并非编码器获得的所有特征都对分割颅内出血的病灶是有效的.此外，在特征图中，不仅不同的通道具有不同的作用，而且每个通道中不同的空间位置也可以对分割的特征表示赋予不同的权重.受文献[14]中将图像特征区域在空间和通道上重新校准，然后将它们赋予权重并融合以获得最终的特征方法的启发.为此，我们在上述网络编码器和解码器的连接中引入了一种融合空间和通道注意力的注意力机制模型，该模型将编码器中各通道的特征y1,y2,…,yn进行连接，然后在通道和空间上对连接后的特征进行校准获得Yc、Ys，最后将它们融合以获得丰富的融合特征，最终将融合后的特征连接到解码器进行解码.本文采用这种捕获丰富的上下文关系以实现更好特征表达的注意力机制，来充分的利用沿通道和空间方向最显著的颅内出血特征.注意力机制模型结构如图4所示.

在注意力机制模块中，本文首先将来自每个通道输出的各个颅内出血特征进行连接，作为注意力机制模块的输入.计算公式如下：

Y=[y1,y2,…,yn]Yk∈RH×W

(2)

式中n是每个层中通道的数量.本文为了简化描述，以通道数为32的输出为例.

在通道注意力模块中，如图4所示，首先进行全局平均池化，以生成特征向量g∈R1×1×32.该特征向量表示的全局信息，其第k个特征向量表示为：

图4 注意力机制模型Fig.4 Attention mechanism model

(3)

然后,利用两个连接的卷积层对通道注意力中特征向量进行编码，计算公式如下：

(4)

(5)

在空间注意力模块中，空间注意力输入可以表示为：

为了实证检验农户对保费补贴政策的认知度与邻里效应对农户参保意愿的影响，在控制文化程度和收入水平等相关因素的情况下，采用计量模型，分别对农户种植业保险保费补贴政策的认知度和邻里是否参保的实验数据进行了估计。同时，为了使回归结果更加稳健可信，采用逐步回归法对模型进行极大似然估计，回归结果如表3所示。表3中的模型(1)为农户对种植业保险的认知度和邻里是否参保对农户参保意愿影响的回归结果。采用逐步回归方法，模型(2)(3)(4)则进一步依次加入了农户对种植业保险在农业生产中之重要性的评价、农户的文化程度、性别、年龄、家庭收入，以及农户对种植业发生自然灾害的预期等控制变量。

Y=[y1,1,y1,2,…，yi,j,…，yH,W]

(6)

其中，yi,j∈R1×1×32，i∈1,2，…，H，j∈1,2，…，W.

然后，本文对空间注意力的输入进行1×1卷积运算，计算公式如下：

d=Ws*Y

(7)

其中，d∈RH×W，Ws为空间注意力权重，用于压缩空间域，并生成映射向量，该向量表示空间位置上所有通道的线性组合.本文注意力机制模型将向量最终通过sigmoid 操作获取空间注意力权重并计算空间注意力.计算公式如下：

Ys=[σ(d1,1)y1,1,…，σ(di,j)yi,j,…，σ(dH,W)yH,W]

(8)

式中，σ(di,j)表示空间信息的重要系数.

获得通道注意力与空间注意力特征之后，本文将两者进行融合，融合的特征表示是通过将按通道注意力和空间注意力特征相加而获得，融合公式如下：

Yf=Yc+Ys

(9)

本文通道和空间注意力机制可以直接适用于任何类型的特征表示问题，并且其促进颅内出血分割网络捕获丰富的脑部CT上下文关系，进行颅内出血特征区域校准.此外，该注意力机制对整个网络的复杂度仅有很小的增加，在不影响其效率的同时，以获得更精确的颅内出血特征.

3.4 损失函数

Dice系数是用于预测分割区域与真实标签的重叠率最广泛的度量标准，并且被广泛用于评估分割性能.其损失函数为最小化预测值与真实标签之间的重叠率.但Dice损失函数同等地对待假阳性和假阴性，这会导致分割精度高但灵敏度很低.尤其对于高度不平衡的数据集，如颅内出血中的小面积出血区域.假阴性的权重需要高于假阳性才能提高灵敏度.Tversky 相似性指数[17]能够允许实现动态的平衡假阳性和假阴性的权重，其计算公式如下：

(10)

但由于小面积的出血病灶并未对损失造成重大影响，因此，对于小面积的出血区域很难进行分割.为解决此问题，针对颅内出血的特点，本文采用Focal Tversky 损失函数(FTL)：

FTL=∑c(1-Tl)1/γ

(11)

其中，γ在[1,3]范围内变化，本文经过比对，选定α=0.7，β=0.3，γ=4/3.实际上，如果Tversky相似性指数较高时，像素类型预测错误，则不会影响FTL.但是，如果Tversky相似性指数较小时而像素类型预测错误，则FTL将显着下降.因此，本文使用Focal Tversky 损失函数训练网络以帮助分割小面积的颅内出血区域.

4 实验

4.1 数据集

本文实验采用了Qure25k[18]、CQ500[19]脑部CT图像数据集.Qure25k中收集了2494个各类型颅内出血CT扫描图像.CQ500中包含437个颅内出血CT扫描图像.本文对Qure25k数据集中颅内出血头部CT扫描图像进行标注，并随机选择其中80%用于训练本文方法，其余20%用于测试.

4.2 实验细节

本文通过Focal Tversky损失函数训练颅内出血分割网络，并使用Adam优化器进行了网络模型优化，设置初始学习率为0.001.学习率衰减系数为0.5. 本文实验的硬件环境为Intel i7-8700k cpu，双GTX 1080ti gpu，64GB内存.训练时长大约需要21个小时.本文实验中所有图像尺寸进入网络前均调整为256×256.

本文使用Dice相似性系数、Hausdorff距离(HD) 、精确度(precision)和灵敏度(Sensitivity)作为颅内出血分割任务的评价指标.

Dice相似性系数表达式如下：

(12)

精确度(precision)、灵敏度(Sensitivity)表达式如下:

(13)

(14)

上述式中,TP定义为正确分割为颅内出血的区域(真阳性)，FP定义为将非颅内出血区域错误分割成颅内出血区域(假阳性)，FN定义为错误漏分割颅内出血区域(假阴性).

Hausdorff距离(HD)表示颅内出血标签和分割结果两者表面点之间的最大欧式距离.其指标越小,分割精度越高.Hausdorff距离公式如下:

(15)

式中，颅内出血区域标签点为A,颅内出血分割结果区域表面的点为B,d(a,b)为两点之间的欧氏距离.

4.3 实验结果

为了验证本文方法对于颅内出血病灶的分割的综合性能，将其在本文数据集中进行颅内出血分割的实验，结果表明：本文方法能高精度的对颅内出血病灶进行分割.并经过对多种比对实验结果的分析，论证了本文方法的优越性.

本文采用Focal Tversky损失函数进行网络训练，在Qure25k[18]数据集上，与采用Dice损失函数训练的网络进行对比实验，实验结果如表1所示，可见，在参数选定为最佳时，本文采用Focal Tversky损失函数训练网络的性能在Dice相似性系数、精确度(precision)和灵敏度(Sensitivity)上明显优于Dice损失函数，使本文方法的灵敏度提高较大.

表1 损失函数对比结果Table 1 Comparison of loss functions

本文注意力机制中融合空间和通道注意力，为验证该注意力机制对于颅内出血病灶的效果，将其与文献[13]中采用的新型注意门(AG)模型注意力机制在Qure25k[18]数据集上进行对比实验，实验结果如表2所示，结果表明，本文所引入的空间和通道注意力机制的性能相较于文献[13]中注意门(AG)有一定的优势，更适用于颅内出血的特点.

表2 注意力机制对比结果Table 2 Comparison results of attention mechanism

为了进一步分析本文方法的性能，将本文方法在CQ500[19]数据集上与医学图像分割基准网络U-Net[7]、本文不含有注意力机制的全卷积密集网络进行对比实验，进一步分析本文方法的分割性能，实验结果如图5所示，图5(a)可见全卷积密集网络的颅内出血分割性能相较于U-Net[7]，精确度上有一定的优势，可见本文融合了密集连接网络后，可以有效的提高颅内出血分割性能，但其存在一定的局限，难以应对不平衡的数据集，导致其在部分评价指标上优势不显著.本文方法在融合了注意力模块后，与U-Net[7]以及全卷积密集网络相比，在精确度以及灵敏度两个指标上，相比于不含有注意力机制的全卷积密集网络分别提高了2.55%、1.87%.相似系数提高了3.15%.对比U-Net[7]，在精确度以及灵敏度上的优势更为显著.另外，图5(b)表明本文方法的Hausdorff距离也为其中最小.

图5 CQ500数据集上实验结果对比Fig.5 Comparison of experimental results on the CQ500 data set

综上所述，实验结果表明：1)本文方法在相似性系数、精确度、灵敏度3个评价指标上较这两种深度学习分割方法均具有明显的优势;2)其分割的距离系数HD为3个方法中最低最优，表明本文方法对颅内出血分割误差值最小.

此外，将本文方法与近几年颅内出血分割方法：模糊c均值聚类算法(FCM)结合区域生长算法(region growing)[4]、随机森林(random forests)[5]以及深度学习方法(PatchFCN[10]、Cascaded FCN[12])进行对比，对比结果如表3所列，实验结果论证了本文方法在上述精确度、灵敏度以及相似系数3个评价指标上都取得了优越的分割性能.相比于其中精确度最优算法Cascaded FCN，本文方法精确度提高了4.15%,灵敏度提高了5.39%.

表3 本文方法与其他方法对比结果Table 3 Comparison results of this method with other methods

通过上述对比实验结果分析，本文方法充分考虑了颅内出血病灶的特点，能够达到准确的分割颅内出血病灶的效果，显著的提高了颅内出血分割的性能，且实验中对单一颅内出血CT切片图像分割平均仅需0.64s，整体上达到了精确，快速分割的临床需求.

图6为本文方法在CQ500数据集上的分割结果，可以看出，脑部CT图像中出血区域部分呈现出相对不明确，不明显的特点，本文方法对于此类颅内出血情况，能够较为全面的提取出血区域，达到精确的病灶分割效果.

图6 颅内出血分割实验结果图Fig.6 Results of intracranialhemorrhage segmentationexperiment图7 小面积出血区域分割实验结果图Fig.7 Results of segmen-tation experiment of small area

对于小面积的出血病灶，本文做了针对性的设计，实验结果如图7所示，可见，本文方法对小面积的颅内出血病灶依旧保持了较高的分割精度，切实有效的解决了小面积出血病灶难以分割的问题，整体上提高了本法方法对于颅内出血分割的性能.

5 结论

本文提出了融合密集连接与注意机制的颅内出血分割新方法，在公开的颅内出血数据集上进行病灶分割实验.在损失函数以及注意力机制的对比实验中，本文所提出的注意力机制以及损失函数均对颅内出血分割性能的提升起到较有成效的作用.与其他颅内出血分割方法对比实验结果表明，本文方法在精确度、灵敏度、相似系数和Hausdorff距离系数4个评价指标上都优于现有颅内出血分割算法，且与基础分割网络的对比实验中也取得了具有优势的结果.但仍有一些问题需要完善，如由于数据集数量以及种类限制，对于及其细微的出血点以及区域更为模糊的弥漫性出血，本文分割方法还不够敏感，存在一定的误差，这是后续研究的主要重点.