具有双向增强特征结构的U型肺结节分割网络

2022-12-22 11:47郭晓敏
计算机工程与应用 2022年24期
关键词:结节像素卷积

黄 新,郭晓敏

1.桂林电子科技大学 电子工程与自动化学院,广西 桂林 541004

2.广西自动检测技术与仪器重点实验室,广西 桂林 541004

近年来,肺癌的发病率和死亡率逐年攀升,其起病急、早期不易发现,五年内生存率较低,严重威胁人们的健康和生命[1]。肺癌已成为全球发病率和死亡率最高的癌症之一,其早期的表现形式是肺组织中出现肺结节。肺结节形成的原因是肺实质中不规则且不可控的细胞生长,在CT影像上大多表现为直径不超过30 mm的肺内类圆形阴影[2]。在病程早期发现并准确分割出肺结节可以大大提高患者的生存机会,并促进有效的临床治疗。然而,早期肺结节通常体积小,边缘模糊、肉眼不易分辨,容易影响医生的诊断。

为提高CT影像中肺结节分割的准确性,辅助医生进行肺结节良恶性的诊断,国内外许多科研工作者致力于应用计算机辅助诊断技术(computer aided diag‐nosis and detection,CAD)实现肺结节的有效分割[3-7]。Dehmeshki等[8]提出一种区域生长的方法分割肺结节,通过对肺结节的强度、模糊连通性和外围对比度等进行操作,实现肺结节的自适应分割。Diciotti等[9]提出一种自动校正的肺结节分割方法,通过固定的图像阈值得到初始粗分割,然后对初始分割的局部形状进行分析,以解决肺内近血管结节的分割问题。冯宝等[10]通过活动轮廓模型,实现了实性肺结节的分割。上述几种方法虽然可以较好地分割肺结节,但都是在先验知识的辅助下完成的,不同分割初始条件会不同程度地干扰最终的分割结果。因此需要设计一种新的分割方法,让机器能够自适应地学习和提取图像特征,从而消除人为干扰,使最终的分割结果更加客观。

当前,神经网络(neural networks,NNs)已经成为计算机视觉领域的主流框架。神经网络通过模仿人脑的结构,能够利用大数据自动完成对特定事物的学习。Kumar等[11]利用卷积神经网络(convolutional neural networks,CNN),通过从自动编码器中提取深层特征实现了肺结节的良恶性分类;Wang等[12]提出多视点卷积神经网络(multi-view convolutional neural networks,MV-CNN),实现了肺结节的分割和检测。在图像分割领域的研究中,Long等[13]提出了全卷积神经网络(fully convolutional networks,FCN),该网络针对CNN在图像精细分割中的局限性,用卷积层替换CNN中的全连接层,来获取图像中各像素的分类结果,从而实现图像的分割。Ronneberger等[14]提出U-Net网络,该网络采用编码器-解码器的U型结构提取图像特征,可以应对小样本数据集进行较快、有效地分割,因此广泛应用于医学图像分割领域。但临床中常见的肺结节类型多样,且大都具有边缘模糊的特点,因此仅仅采用原始U-Net网络进行训练,存在特征利用率低、对小目标分割性能差等问题,导致最终的分割效果不够理想。

本文针对原始U-Net网络在图像分割中存在的不足,在其基础上设计提出了一种Bi EFP-UNet网络的肺结节分割网络。为了适应肺结节的分割,该网络将一个双向增强型特征融合结构引入原始U-Net网络,以加强对肺结节不同尺度特征的传递和利用,提高网络对小结节分割的敏感度,并通过引入Mish激活函数提高分割的精度。本文利用公开的且具有医生权威标注的LUNA16[15](lung nodule analysis 16)肺结节数据集对本文网络进行检验,结果表明Bi EFP-UNet网络能够显著提高CT影像中肺结节分割的效率和准确率。

1 Bi EFP-UNet网络

本文提出的Bi EFP-UNet网络结构如图1所示。其设计灵感来源于原始U-Net网络的编码器、解码器结构。首先,Bi EFP-UNet网络的主干网络结合双向增强型特征融合网络,集成肺结节多尺度特征融合,以实现肺结节有效的特征提取。其次,将Mish激活函数(一种非单调且平滑的神经网络激活函数)应用于Bi EFP-Unet网络的3×3卷积操作之后,Mish激活函数可以大大缩短GPU前向和后向的传递时间,进而提高网络的分割效率。

图1 Bi EFP-UNet网络Fig.1 Network of Bi EFP-UNet

1.1 U-Net主干网络

U-Net是一种针对小样本数据集的快速分割网络,在生物医学图像分割领域表现良好[16]。医学图像是人体某个器官的成像,其结构固定且语义信息较简单,所以在分割任务中,其高级语义信息和低级特征都很重要,而U-Net网络的U型结构和跳跃连接能够结合低层和高层信息。本文提出的网络结构通过改进原始U-Net网络架构实现,以像素为512×512的图像作为输入,输出相同像素的掩模图像。该网络由压缩路径和扩展路径两部分构成,压缩路径深度为5,采用2×2的最大池化操作实现。压缩部分对图像进行两次3×3卷积,卷积后紧跟一个Mish激活函数,并通过填充操作保持卷积前后图像像素不变,每次压缩会使特征通道数增加一倍。扩展路径是对特征图进行上采样的过程,2×2的卷积(上卷积)操作将每个深度上的特征通道数减半,扩展路径的深度也为5。在扩展路径中,每次上卷积操作前,首先要将上采样的特征向量与特征融合网络中对应的特征向量进行拼接,然后执行两次3×3卷积,同时通过填充操作保持卷积前后图像像素不变,每次卷积后紧跟Mish激活函数。网络的最后一层采用1×1卷积,最终得到与输入图像对应的掩膜(Mask)图像。

为保证输出图像和输入图像的像素大小一致,如图2所示,在U-Net主干网络的上采样过程中,用边缘填充操作(Padding)代替原始U-Net主干网络中的裁剪(Crop)操作,这样不仅可以使网络输出图像的像素大小与输入图像保持一致,而且可以将每次下采样之前的特征信息完整的和上采样之后的特征图进行融合,并且不会在融合过程中引入多余的计算量。Bi EFP-UNet网络各层和相应的网络参数如表1所示。

表1 Bi EFP-UNet网络各层和相应的网络参数Table 1 Layers and respective network parametersof Bi EFP-UNet model

图2 改进主干网络的上采样过程Fig.2 Upsampling process of improved backbone network

1.2 双向增强型特征金字塔网络

双向增强型特征金字塔网络(bidirectional enhancedfeature pyramid network,Bi EFPN)的设计灵感来自于PANet网络,如图3所示。

图3 PANet网络Fig.3 PANet

PANet是Liu等[17]提出的一种实例分割框架下的路径聚合网络(path aggregation network,PANet),也是第一个提出“自底向上二次融合”思想的网络框架。通常,高层特征主要包含目标较丰富的语义信息,低层特征主要包含目标准确的位置信息。PANet通过自底向上的路径增强,将目标准确的低层信息与高层信息进行融合,从而缩短信息传递的距离。

本文提出的双向增强型特征金字塔网络如图4所示,与PANet一样,Bi EFPN也具有一条自上而下和一条自下而上的路径,从而允许特征网络中从一个深度到另一个深度的双向信息流。Bi EFPN包含了5个不同深度的特征提取路径(P3~P7),其中,P3、P7所在路径的结点只有一条输入边和一条输出边,P3连接的是U-Net经过四次下采样后的低分辨率信息,P7连接的是从U-Net编码器直接传递到同一深度解码器的高分辨率信息。由于医学图像的数据一般较少,因此深层信息变得很重要,为获得更多的深层特征,避免原始U-Net网络多次下采样带来的信息丢失,在原有PANet的基础上,Bi EFPN在P3所在路径中添加一条跨尺度连接的边。同时,为增强肺结节在不同层次的特征提取,将P4、P5、P6所在路径也各添加一条跨尺度连接的边,以增加不同分辨率下的特征提取,丰富网络每个深度的特征,从而将主干网络不同深度的特征进行有效的融合。

图4 双向增强型特征金字塔网络Fig.4 Bidirectional enhanced feature pyramid network(Bi EFPN)

虽然Bi EFPN相较PANet会引入一些额外的计算量,但却可以融合更多的特征,获得更好的分割效果。Bi EFPN与PANet各层和相应的网络参数如表2所示。

表2 Bi EFPN与PANet各层和相应的网络参数Table 2 Layers and respective network parameters of Bi EFPN and PANet

在原始U-Net网络中,通常每层提取到的特征只能被学习一次,并且不同层级的特征间缺乏联系,使得网络整体对于肺结节图像的特征提取能力较低,小目标肺结节在下采样过程中容易丢失,导致最终分割的准确度不够理想。因此,进行多尺度特征融合就显得尤为重要,其目的是融合不同分辨率下的特征,以获得有效的特征提取。如图1所示,U-Net的编码器获取CT图像,并在五个相应的深度输出特征,这五个深度分别对应特征融合网络的五个输入(P3~P7)。特征网络的输出则分别与U-Net的解码器相连接。

通过双向跨尺度连接,可以充分利用和提取肺结节的低层特征,更好地将低层细粒度特征与高层语义特征相融合,丰富特征向量,增强整个特征层次,提高主干网络对各层次特征的利用率,使网络对小结节也能进行有效地特征提取,从而解决肺结节分割过程中小目标结节丢失的问题。

1.3 Mish激活函数

激活函数是神经网络引入“非线性”的途径,对网络的训练和评价有重要作用。神经网络中常用的激活函数有Sigmod函数、Tanh函数、ReLU函数、Swish函数等[18]。2019年,Misra[19]介绍了一种新的深度学习激活函数——Mish激活函数(如图5所示),该函数是一个非单调且光滑、连续的神经网络激活函数,其函数表达式如(1)所示。其在CIFAR-10[20]数据集上最终获得的准确度比ReLU更高。本文Bi EFP-Unet网络实现了Mish激活函数。

图5 Mish函数图像Fig.5 Mish function image

首先,Mish函数使用了自门控特性,即非调制输入函数和非线性输入函数的输出相乘。其次,Mish函数保留了少量的负向信息,可以允许较小的负梯度流入,从而保证信息流动,消除了ReLU函数在反向传播过程中的梯度消失问题。第三,Mish函数上方无边界,可以避免饱和,同时下方有边界又会使其产生强正则化效果。第四,Mish函数保证了每一点的平滑,从而使其梯度下降效果比ReLU函数更好。

Mish激活函数实现了自选通功能,其提供给门的输入是标量。自选通特性有助于替换激活函数,因此本文算法用Mish代替传统U-Net网络3×3卷积后的ReLU函数时,不需要修改网络参数。启用CUDA时,Mish可以缩短GPU正反向传递的时间,有效地提高了模型的训练效率。

2 实验与分析

2.1 数据准备

2.1.1 数据集

本文实验数据来自公开数据集LIDC-IDRI[21](lung image database consortium)的子集——LUNA16数据集,该数据集删除了LIDC-IDRI中切片厚度大于3 mm和肺结节小于3 mm的CT扫描图像,将剩余的888例肺部CT图像(.mhd格式)作为数据集,该数据集中共有1 186个结节,直径范围在3 mm~28 mm。CT图像的像素是512×512像素,平均层厚为1.3 mm。训练数据集、验证数据集和测试数据集分别占总数据量的70%、20%、10%。

2.1.2 数据预处理

本文提取肺结节的Mask图像作为模型输入,预处理过程如图6所示:

图6 数据预处理过程Fig.6 Data preprocessing

(1)从磁盘中加载数据。

(2)统一相邻像素间距:LUNA16数据集具有可变性,数据集中不同的CT病例的切片尺寸不一定相同,因此在预处理阶段首先要统一数据集中的CT病例的相邻像素间距,增强数据间的各向同性。

(3)裁剪CT图像中心部分并将其放大。

(4)归一化处理,获得CT影像对应掩膜图像。

2.1.3 数据增强

医学图像分割受到大量标记训练数据的限制,数据扩充有助于创建多样化的训练数据集,从而防止模型过度拟合,提高网络对训练集之外的数据的泛化能力。与深度学习的其他应用领域相比,生物医学领域带有标注的数据集相对较少。因此,数据扩充对于提升神经网络的鲁棒性至关重要。

本文对输入图像进行随机增加椒盐噪声、弹性形变、随机剪切、缩放和旋转等操作并进行数据扩充。同时,保持输入图像的大小不发生变化。通过在训练期间将这些小变换应用于肺部CT图像,有利于提高模型的鲁棒性。

2.2 实验环境

Bi EFP-UNet网络搭建的环境为Python3.6,Tensorflow深度学习框架,Windows 10操作系统,NVIDIA Quadro RTX 4000GPU,处理器Intel®Core®i7-9700 CPU@3.00 GHz×8,内存32 GB。

2.3 评价标准

为了对分割效果进行评估,本文采用的评价指标是Dice相似系数[22](Dice similarity coefficient,DSC),DSC是一种集合相似度度量指标,用于计算两个样本的相似度,是医学图像中较为客观的分割评价量化标准。取值范围为0~1。DSC的计算公式如式(2)所示:

除此之外,敏感度(sensitivity,SEN)和阳性预测值(positive predictive value,PPV)也被用作分割的辅助评价标准。敏感度指样本被正确诊断为阳性的概率,该值越大,漏诊率越低。阳性预测值指分割结果为阳性的样本属于真实病例的概率。SEN和PPV的计算公式如式(3)、(4)所示:

其中,S代表分割结果,T为真实标签。

2.4 训练细节

训练时,Bi EFP-UNet以经过预处理后的10张连续CT图像作为一组输入数据,使用MSRA[23]方法随机初始化权值,采用Adam优化器进行优化,采用10折交叉验证策略来评估该方法的性能,在训练和测试数据集中维持相近的数据分布情况,以避免由于数据不均衡而导致过分割和欠分割。

2.4.1 环境配置及相关训练参数设置

Bi EFP-Unet在Python3.6环境中,基于Tensorflowgpu2.1.0深度学习框架进行训练,并在训练时使用CUDA 10.1进行加速训练。在标准反向传播更新中,初始学习率设置为0.000 1,每完成1个Epoch衰减5%,将批量大小(batch size)设为2,动量(momentum)设为0.9。

2.4.2 训练迭代次数的选择

训练迭代次数对训练深度学习网络模型非常重要,因此,在训练时通过观察训练集和验证集曲线的变化趋势确定训练迭代次数,若训练过程中模型的性能没有进一步提高,那么模型训练将在额外的10个训练世代后自动停止。

如图7所示,当Epoch=50时,网络在验证集上的Dice相似系数值(DSC)和损失函数(Loss)曲线的变化趋于稳定,因此,将训练迭代次数设置为50次。此外,为了让网络得到充分的训练,将每个Epoch的Step设置为500。

图7 网络训练和验证曲线Fig.7 Network training and verification curves

2.5 实验结果及分析

为验证本文方法各部分的有效性,本文实现了U-Net(ReLU)(即原始U-Net)、U-Net(Mish)、Encoder(ReLU)+PANet(即原始U-Net网络的编码器结构+PANet)、Encoder(ReLU)+Bi-EFPN(即原始U-Net网络的编码器结构+Bi-EFPN)、U-Net(ReLU)+PANet,以及Bi EFP-UNet(ReLU)(即本文提出的Bi EFP-UNet)七种网络架构的搭建。LUNA16数据集在上述网络架构下训练的曲线如图8所示。训练的DSC、SEN、PPV结果如表3所示。

图8 七种网络训练的DSC曲线Fig.8 DSC curves of seven networks training

在表3中,为验证Bi-EFPN结构的有效性,进行了一系列对比实验。一方面,“Encoder(ReLU)+Bi-EFPN”的DSC达到了84.72%,与原始U-Net相比,DSC提升了近2.86个百分点,与“Encoder(ReLU)+PANet”相比,DSC提升了0.8个百分点;另一方面,“Bi EFP-UNet(ReLU)”的DSC达到了87.11%,与原始U-Net相比,DSC提升了5.25个百分点,与“U-Net(ReLU)+PANet”相比,DSC提升了0.9个百分点。因此可以推断,在原始U-Net网络压缩路径和扩展路径之间加入Bi-EFPN是有效的,并且,Bi-EFPN相较PANet性能更好。

表3 七种网络的训练结果Table 3 Evaluation indexes of seven networks单位:%

同理,为验证Mish激活函数的有效性,本文对比了“U-Net(Mish)”与原始U-Net、“Bi EFP-UNet(Mish)”与“Bi EFP-UNet(ReLU)”两组实验的DSC,由表3中的数据可见,Mish激活函数带来的提升为1.21个百分点。由此可见,Mish激活函数在Bi EFP-UNet网络中是有效的。

已知进行LUNA16数据标注的4名放射科医生的DSC为82.25%,而本算法训练的DSC可达88.32%,可见,Bi EFP-Unet网络在LUNA16数据集上的分割效果明显优于4名医生最终标注的效果。

2.6 实验结果展示

如图9所示,为了能直观地观察2.5节中提到的七种网络的分割效果,随机选取了测试集中的四张CT图像进行展示,并给出七种网络下的测试结果。

图9 七种网络架构的分割效果对比Fig.9 Segmentation effects of seven networks

输出图像与输入图像的像素大小一致,输出图像的黑色部分表示非结节部分,白色部分表示分割出的肺结节的形状和位置。为突出不同算法的分割效果,在各输出图像下方的红色框内展示了放大6倍后的肺结节的分割图像,像素大小为64×64。可见,原始U-Net网络对肺结节的分割性能较差,尤其当肺结节较小或靠近血管等肺组织时,分割结果容易携带其他肺组织,与金标准差距较大;U-Net(ReLU)+PANet网络的分割效果虽然优于原始U-Net网络,但分割出的肺结节边缘模糊;而Bi EFP-UNet网络能很好地分割出结节的形状和位置,尤其是在分割近血管结节时或者微小结节时,相较其他几种网络,该网络依然能保持良好的分割性能,分割效果与金标准更接近。

3 结束语

针对目前肺结节分割中小结节容易丢失的问题,提出了 Bi EFP-UNet网络结构。在 U-Net的上采样过程中,用边缘填充操作代替裁剪操作,在不增加计算量的同时将每次下采样之前的特征信息完整的和上采样之后的特征图融合,保持输出图像与输入图像的像素一致;将双向增强型特征融合结构引入原始U-Net网络,在网络训练过程中加强不同层级特征之间的联系,提高U-Net 主干结构对肺结节各层次的特征的利用率;将Mish激活函数引入Bi EFP-UNet网络,减少网络训练过程中信息传递的时间,提高网络的分割效率。本文工作是持续性的,今后的研究重点将放在利用相邻肺部切片中肺结节的像素联系提高分割的性能。

猜你喜欢
结节像素卷积
像素前线之“幻影”2000
乳腺结节状病变的MRI诊断
基于3D-Winograd的快速卷积算法设计及FPGA实现
肺结节,不纠结
发现肺结节需要做PET/CT吗?
卷积神经网络的分析与设计
“像素”仙人掌
从滤波器理解卷积
体检查出肺结节,我该怎么办
基于傅里叶域卷积表示的目标跟踪算法