程照雪,李 阳,周 妍,鲁慧民
长春工业大学 计算机科学与工程学院,长春 130102
肺癌是世界上最致命的癌症之一,患者在五年内生存率仅为19%[1]。肺癌生存率与首次确诊时的疾病阶段密切相关,由于早期肺癌通常无症状,多数患者到中晚期才被诊断,只有21%的患者在早期能够被确诊[2]。如能做到早期筛查,则患者五年内生存率可以达到70%~90%,因此患者的早诊早治至关重要[3]。目前,临床上以非侵入式的计算机断层扫描(computed tomography,CT)作为筛查肺癌的常规手段[4]。
肺癌在CT 上的早期表现通常为肺结节,是圆形或者类圆形的致密影。肺结节分割是肺癌早期诊断的关键步骤,能够辅助放射科医生评估结节直径和形态。然而肺结节通常结构边界模糊、大小形状各异、纹理不均匀以及与肺实质中血管截面等组织相似,会对医生的判断产生干扰[5]。因此,开发肺结节自动分割技术,可以提高肺癌临床诊断过程的效率,对后续诊疗具有重要意义。
近年来,许多深度学习方法被提出,并被应用于肺结节分割。深度学习模型利用结节切片进行训练,对于输入图像数据能够自动地学习并提取其特征,完成肺结节的分割任务[6]。Long等人[7]提出全卷积神经网络(fully convolutional networks,FCN),成功解决了语义级别的图像分割问题。然而FCN的性能依赖于大量标注数据集,分割结果不够精细。Ronneberger等人[8]在FCN基础上提出具有完全对称结构的U-Net 模型,与FCN 不同,U-Net在进行跳跃连接时使用拼接操作进行特征融合,而非逐点相加,分割效果更好。
U-Net具有灵活、简单的优点,并且在少量样本下依旧能获得良好的分割效果,使得很多学者对其结构进行进一步研究。
钟思华等人[9]提出一种改进的U-Net 分割算法,通过引入密集连接来加强网络对特征的传递和利用,并提出混合损失函数来缓解图像类不平衡问题,提高了肺结节分割的准确率。Keetha等人[10]在U-Net之间集成双向增强特征金字塔网络,提出了U-Det网络。此外,利用Mish激活函数和掩膜类别权重来提高分割效率。Oktay等人[11]在U-Net 的基础上加入一个集成注意力门(attention gate,AG),提出Attention U-Net,通过AG 消除跳跃连接过程中的无关信息及噪声,降低模型计算消耗。张淑军等人[12]提出一种新的深度分割网络SAU-Net,使用自注意力模块增加全局信息,将U-Net中的级联结构改为逐像素相加,减小维度,降低计算量。Zhou 等人[13]针对U-Net 中的跳跃连接进行改进提出U-Net++,设计密集跳跃路径将高分辨率图像从编码器逐渐地和解码器中相应图像优先进行融合,获得多层次的特征,极大地缩减了参数量。黄鸿等人[14]基于融合自适应加权聚合策略提出一种改进的U-Net++网络。首先在卷积神经网络(convolutional neural network,CNN)中提取出不同深度特征语义级别的信息,再结合权重聚合模块,将学习得到的权重加载到各个特征层上采样得到的分割图上以得到最终的分割结果。Huang等人[15]针对U-Net和U-Net++中跳跃连接中所存在的特征提取的不足,提出U-Net3+网络。通过全尺度跳跃连接进行多尺度图像融合,获得更准确的位置感知以及边界连贯的分割图。
尽管上述模型在肺结节整体分割方面均取得了较好的效果,但在一定程度上忽略了结节模糊边缘特征对分割结果的影响。Gabor滤波器以非监督的方式提取图像的边缘和纹理等内部结构信息,对纹理特征的表述能力更强,能够减轻CNN 模型对训练样本的依赖度及特征提取的压力[16]。Luan等人[17]通过将Gabor滤波器引入深度学习,使用Gabor滤波器来调制可学习的卷积滤波器,设计了Gabor 卷积网络,用以增强图像深层特征表示,在减少网络参数量的同时,增强了网络对图像方向和尺度变化的鲁棒性。与传统卷积滤波器相比,Gabor卷积网络具有更强的捕获特征图中纹理特征的能力,在图像分类任务中表现良好,但很少用于分割任务的研究中。
综上,结合Gabor 卷积对纹理特征的提取能力和U-Net网络的完全对称结构与跳跃连接,提出一种对称双分支结构分割模型GEU-Net(Gabor edge U-Net)。本文的贡献有以下三方面:
(1)网络结构:模型主干分支通过利用U-Net 来提取结节全局信息。设计Gabor 卷积模块作用于边缘分支来弥补U-Net处理边缘纹理能力有限的缺点,以突出结节分割任务中的显著边缘特征。通过跳跃连接对主干分支与边缘分支编码器提取到的特征进行融合,使得网络可以更好地分割目标,构造出GEU-Net网络模型。
(2)损失函数与激活函数:使用Focal Loss 函数解决由于边缘样本在整个图像中所占比例过小,导致的正负类样本失衡的问题,通过交叉熵损失函数作用于主干分支以及Focal Loss作用于边缘分支,将二者进行加权融合作为整个网络的损失来充分训练,进一步优化模型。使用Swish激活函数替代ReLU函数缓解深层网络中存在的梯度消失问题。
(3)数据预处理:分析并制作了边缘标签。为充分训练边缘分支,利用LIDC-IDRI数据集和LNDb数据集中的分割标签制作了肺结节边缘轮廓标签,并将其向两端扩充了一个单位像素,作为边缘分支训练标签。
设计的GEU-Net分割网络如图1所示,由主干分支与边缘分支两个部分组成。
图1 GEU-Net 模型结构Fig.1 Model structure of GEU-Net
主干分支为U型网络,整个过程分为编码阶段和解码阶段。编码阶段由两个连续的3×3 卷积来提取结节特征,由于Swish激活函数在深层网络中缓解梯度消失能力优于ReLU激活函数,并且具有非单调且平滑的特性[18],因此将ReLU 激活函数替换为Swish 函数。将一个步长为2的2×2最大池化层用于下采样,共重复四次来降低图像的尺寸获得结节浅层特征。解码阶段由一个2×2的反卷积和两个连续的3×3卷积组成,共经历四次上采样来恢复图像尺寸并获取结节深层特征。在最后阶段,应用1×1 卷积将图像的特征映射减少到所需通道数,生成分割图像。为避免解码时丢失大量空间信息,采用跳跃连接的方法,将编码器中提取到的结节特征拼接到解码器中对应的层结合获取更多结节信息。
由于结节边缘中的像素特征含有较少的上下文信息,因此在网络进行跳跃连接时并不能将结节边缘特征信息进行充分的利用。为此,设计了具有编码-解码结构的边缘分支。编码部分使用Gabor 卷积模块(Gabor convolutional module,GCM),对结节纹理特征进行有效提取,以充分训练模型对结节边缘的提取能力。经GCM 构成的编码器后,生成的特征图尺寸将减半。解码部分经历四次上采样将GCM提取到的特征还原至输入尺寸。为实现网络对边缘特征的有效利用,在边缘分支进行编码过程中采用跳跃连接的方式将提取到的纹理信息拼接到主干分支中进行整合,将网络提取到的浅层特征与深层特征进行融合,以获得更加精确的病变边界定位信息,得到更为精细的分割结果。
Gabor 卷积模块结构如图2 所示。Gabor 卷积模块由两个卷积层(一个3×3 卷积和一个Gabor 卷积)、一个激活层、一个池化层以及一个通道注意力机制(channel attention,CA)组成。GCM通过一个3×3的卷积进行结节特征提取获得信息,随后使用一个Gabor卷积层增强网络对结节边缘特征的提取能力。利用最大池化层来降低图像分辨率,从而减少参数,防止过拟合,提高网络的泛化能力。经过Gabor 卷积层提取到的结节特征重要性不同,因此需要进一步使用CA来增强边缘纹理特征的响应,以提高边缘纹理特征的提取能力。
图2 Gabor卷积模块结构Fig.2 Gabor convolutional module structure
Gabor滤波器能够增强结节边缘的尺度和方向分解能力,对结节的边缘信息较为敏感,在提取结节局部特征的同时,对结节的不同尺度、不同方向上的特征能够进行充分提取。然而,在目前流行的基于深度学习的肺结节分割算法中,多数忽略了对于结节纹理特征的提取,使得分割效果不够理想。因此选择将Gabor 滤波器引入CNN,设计出Gabor卷积层(Gabor convolutional layer,GCL),在每个卷积层中,卷积滤波器被具有不同方向和不同尺度的Gabor 滤波器调制,形成了Gabor 方向滤波器(Gabor orientation filters,GoFs),相应地,卷积得到的结节特征被增强。GoFs在肺结节图像上的具体生成过程如图3所示。
图3 Gabor卷积层过程Fig.3 Gabor convolutional layer process
在卷积滤波器经过Gabor滤波器调制之前,通过反向传播算法进行学习,被称为学习滤波器。在CNN中,标准的卷积滤波器大小为C×W×W,C为输入特征图的通道数,W×W为卷积核大小。在给定尺度为v的学习滤波器上使用U个方向(U=4)、大小为W×W的Gabor滤波器调制成GoFs。GoFs的公式如式(1)所示:
其中,Ci,o代表学习滤波器,大小为C×W×W,∘代表矩阵的逐像素乘积操作,u∈[1,U],G(u,v)表示在v尺度下u方向上的大小为W×W的Gabor 滤波器。由于G(u,v)是已知的,因此网络只需要保存C×W×W个可学习的参数,这样在不增加额外参数的情况下就能增强网络对结节方向和尺度的分解能力,同时能够捕获结节边缘特征。
Gabor方向滤波器计算如式(2)所示:
在GCL 中,GoFs 用于增强特征图深层特征中的尺度和方向信息。GoFs与输入特征图进行卷积之后得到输出特征图。的定义如式(3)所示:
其中,F为输入特征图,表示第i个尺度为v的GoFs,输出特征图含有C个通道,则第k个特征图的计算方式如式(4)所示:
其中,c代表输入特征图F和Ci,u的通道,⊗代表卷积操作,k代表滤波器的方向数,取值范围为[1,U]。
GoFs与输入结节特征图的卷积过程如图3所示,将一组大小为C×H×W的输入结节特征图与一组大小为4×C×W×W的4 个GoFs 分别按照式(3)进行卷积操作,输出4 个大小为C×H×W的结节特征图。与标准的卷积层的输出结节特征图不同,经过GCL 的输出特征图方向和尺度信息得到增强,使得网络学习到的特征对于图像尺度和方向变化具有更强的鲁棒性,有利于网络对结节边缘特征进行学习。在进行反向传播的过程时,网络仅需更新Ci,o就能实现反向传播。
2.3.1 交叉熵损失函数
二进制交叉熵损失函数(binary cross entropy,BCE)被单独用于评估每个像素的类预测,随后对得到的所有像素求均值,使得图像中的所有像素能够被平等学习。BCE损失函数的定义如式(5):
其中,N代表样本像素点个数,yi代表像素点i的类别,正样本为1,负样本为0,pi代表像素点预测为正的概率。
2.3.2 Focal Loss函数
由于在肺结节的分割过程中,结节边缘的像素数量远小于背景区域像素数量,导致训练过程中很难学习到结节目标区域的边缘特征,降低了分割网络的性能。Focal Loss[19]是一种用于解决正负类样本不均衡问题的损失函数,为提升模型的泛化能力,其引入动态缩放系数γ,来增强学习难例样本的特征,减小易分样本的贡献。为提高网络的分割性能,需要加强肺结节图像边缘特征的利用,为此引入Focal Loss。Focal Loss 的定义如式(6)所示:
其中,N代表样本像素点个数,β代表平衡正负样本重要性的参数权重因子,取值范围为[0,1]。yi代表像素点i的类别,正样本为1,负样本为0,pi则代表像素点i预测为正的概率。
2.3.3 混合损失函数
单一的损失函数往往无法解决样本不均衡所造成的模型性能下降问题。混合损失函数能够联合不同损失函数间的优点,缓解单一损失函数缺陷,提高模型泛化能力。使用BCE损失函数的模型预测结果会严重偏向数量较高的类别,导致对边缘区域中较为模糊的像素进行分类时性能会急剧下降。为进一步增强结节区域的边缘轮廓特征来提升网络分割性能,提出一种混合损失函数用于提高模型对肺结节区域的分割能力。
GEU-Net是一个双分支结构,包括一条主干分支网络,其使用BCE损失函数来学习肺结节整体区域,同时将Focal Loss 作用于边缘分支以缓解样本极不均衡的情况。保证主干网络在学习到所有结节像素的同时,利用边缘分支抑制主干网络因使用BCE损失函数所造成的预测偏向样本数量较多的背景像素的现象,同时使用Focal Loss的边缘分支还可以有效补充边缘信息,最后将二者进行加权融合作为整个网络的损失函数L。具体如式(7)所示:
其中,α为权重因子,用于平衡结节区域损失与边缘区域损失对肺结节最终分割结果的影响。
为验证GEU-Net 的分割效果,设计了大量对比实验,实验数据分别来自公开的肺部影像数据库LIDCIDRI 和LNDb。其中LIDC-IDRI 数据集包括来源于美国国家癌症研究所所收集的1 010 个患者的1 018 套全肺CT 扫描图像[20]。数据集中的每个实例图像均由4 位医师分别独立诊断,标注了病患的位置及类别。共包含3 种类别信息:(1)≥3 mm 的结节;(2)<3 mm 的结节;(3)≥3mm的非结节。数据集的每个病例都有一个存储结节信息的XML 文件,其中对于≥3 mm 的结节根据精细度、内部结构、钙化、球形度、边缘、分叶征、毛刺征、纹理和良恶性等进行结节特征描述,对于<3 mm 的结节,其信息简单地由结节所在图像标识以及结节中心点坐标组成,每张图像的像素为512×512,实验共获得4 115张图像。LNDb 数据集来源于葡萄牙波尔图的中央医院在2016年至2018年所收集的294次CT扫描图像,每张图像的像素为512×512,LNDb中的CT图像手动注释方法与LIDC-IDRI数据集相同,注释过程因不同类别而异[21]。为完整得到结节标签,选取了结节≥3 mm 的图像,共得到2 664 张CT 图像,图4 给出了实验数据预处理的过程,包含(1)主干网络数据预处理过程和(2)边缘分支标签预处理。
图4 实验数据预处理Fig.4 Experimental data pre-processing
3.1.1 主干分支数据预处理
选取的图像首先根据病例文件夹中的标注文件标注出图像中的肺结节位置。由于肺结节在原始CT图像中占比很小,会产生类不平衡的问题,从而影响网络的训练过程。因此对得到的原始图像进行裁剪以减少肺部其他组织对实验结果造成的影响。根据标注文件中提供的结节位置中心点将原始图像与标签图像尺寸裁剪为96×96像素大小,完整保留结节信息。预处理实验结果如图4(1)过程所示。
3.1.2 边缘分支数据预处理
为增强模型对结节边缘特征的学习能力,通过制作肺结节边缘标签,使得网络能够充分学习结节的边缘标签,所以将裁剪得到的结节标签使用Canny算法提取结节边缘,并将其向两端分别延展一个单位像素作为结节边缘标签,如图4(2)所示,具体步骤如下:
(1)将结节标签记为F(x,y),使用Sobel 算子[22]获取图像梯度信息记为G(x,y),如式(8)所示:
(2)对提取到的梯度值进行非极大值抑制。
(3)用双阈值算法检测和连接边缘,得到完整的边缘图像记作G′(x,y)。
(4)遍历G′(x,y)得到边缘坐标信息,分别对检测到的每个边缘点扩展至三个像素点,即每个边缘点向左右两端延展一个单位像素,得到更加清晰的结节边缘标签图像Gedge_label。
实验基于PyTorch1.8深度学习框架,使用Python3.8编程语言,计算机使用内存为16 GB,显存为6 GB 的NVIDIA GeForce RTX3060。
根据3.1 节中实验数据处理的过程,分别将LIDCIDRI 得到的4 115 张肺结节图像和LNDb 得到的2 664张肺结节图像按照8∶1∶1的比例分别划分训练集、验证集和测试集。由于肺结节图像分割数据的标记量较少,从而导致模型容易出现过拟合现象。将得到的数据通过随机裁剪、随机水平翻转、随机旋转进行数据扩充来提升网络的泛化能力。
参数训练使用Adam优化算法,批量大小设置为16,训练迭代100 次,动量因子为0.9,初始学习率均设置为0.05,学习率使用步长衰减策略,周期为10,即每10轮学习率减少50%。
实验采用准确率(Accuracy)和召回率(Recall)作为评价指标,具体公式如式(9)、(10)所示:
Accuracy 表示预测的正样本占所有样本的比例,Recall代表预测的正样本占所有真实正样本的比例。由于肺结节图像中正负类样本极度不均衡,Accuracy 和Recall并不能很好地衡量分割效果。因此实验还选取了医学图像分割领域中常用的评价指标:平均交并比(mean intersection over union,MIoU)、Dice 系数来评估分割模型的性能[23]。MIoU代表模型对每一类预测的结果与真实值的交集和并集的比值,再求和平均的结果。Dice系数则是用来衡量预测结果与真实结果的相似程度,值越大代表模型越好。具体公式如式(11)、(12)所示:
其中,TP 表示正确预测为结节区域的像素数量、TN 表示预测为其他区域的像素数量、FP 表示将其他区域预测为结节区域的像素数量、FN 则表示错误将结节区域预测为其他区域的像素数量,k代表类别。
3.4.1 激活函数对比
神经网络的本质是函数拟合,于是通过使用激活函数为模型引入非线性,更好地逼近任意函数。合适的激活函数可以提高模型的性能,实验分别对比了ReLU、Mish[10]和Swish 激活函数[18]对GEU-Net 模型性能的影响,实验对比结果如表1所示。
表1 不同激活函数对GEU-Net性能的影响Table 1 Effect of different activation functions on performance of GEU-Net 单位:%
由表1 可以看出,模型采用Swish 激活函数之后分割指标均优于使用ReLU或Mish激活函数。Swish激活函数提高了模型的非线性,对模型的泛化能力有一定提升。
3.4.2 损失函数对比
为探究不同损失函数对模型分割性能的影响以及验证所提出的混合损失函数的效果,对比了不同损失函数作用于GEU-Net 模型。包括BCE 损失函数和Focal Loss,由于Dice 系数是医学图像分割中的重要衡量标准,可以通过预测结果与真实标签之间的重叠区域大小来计算分割精度,因此也将Dice损失纳入对比实验中。对比结果如表2所示。
表2 不同损失函数在网络中的表现Table 2 Performance of different loss functions in network 单位:%
观察表2可知,当网络分别使用单一的BCE与Focal loss损失时,模型取得了较优的性能。但Dice损失表现并不理想,这是由于肺结节通常体积较小,使用Dice损失的模型训练往往不稳定。但是当Dice损失与其他函数混合使用时,性能往往可以得到提升,使得混合损失函数的使用更为广泛。由实验结果可以看出,使用混合损失函数的模型效果高于单一损失函数的结果。使用单一损失函数的网络模型分割效果存在缺陷,这是因为深度学习网络在进行训练时网络参数量较大,单一的损失函数难以遍历所有像素所致。考虑到三种损失函数的优缺点,并结合对比实验的实验结果来看,实验最终选择以主干分支选用BCE损失函数以及边缘分支使用Focal Loss 损失函数来弥补非混合损失函数模型分割结果的不足,更好地解决正负类样本不均衡的情况,加强网络对难例样本的学习,使得网络的分割性能更优。
为寻求最优混合损失函数的效果,通过使用不同的权重因子来训练模型。表3 列出了不同权重因子对GEU-Net 性能的影响。由表3 可以看出当α设置为0.5时,Dice 系数达到了92.79%,模型的性能表现最佳,此时的α=0.5 即为最佳权重因子。
表3 不同权重因子对GEU-Net性能的影响Table 3 Effects of different weighting factors on GEU-Net performance 单位:%
3.4.3 Gabor卷积模块消融实验
为验证Gabor卷积模块的特征提取能力,设计消融实验对其进行验证。所有实验训练配置均相同。以U-Net网络为基线模型,对比没有加入Gabor卷积模块的边缘分支网络记作EU-Net,GEU-Net 网络边缘分支中的编码器部分一共有五层,将编码器中不同的卷积层从第一层至第五层分别替换为Gabor 卷积模块记作GE1~GE5来进行消融实验。具体结果如表4所示。
表4 消融实验性能对比Table 4 Ablation experiment performance comparison 单位:%
对比原始U-Net模型,加入边缘分支后的模型对结节像素的判别能力得到了有效提升。随着将Gabor 卷积模块逐步替换原始卷积,GEU-Net对结节边缘轮廓特征的捕获能力逐渐得到提升,当将全部编码层替换为Gabor卷积模块后网络性能达到最优。同时为了更加直观地展现GEU-Net的分割性能,绘制了消融实验训练曲线图,包括了消融实验训练过程中的损失曲线,如图5(a)所示。为验证边缘分支充分学习到了肺结节区域的边缘特征,绘制了Dice、MIoU、Recall 和Accuracy 曲线,如图5(b)~(e)所示。具体曲线如图5所示。
图5 消融实验曲线对比Fig.5 Ablation experiment curve comparison
从训练曲线来看,GEU-Net在各项指标上均领先于U-Net模型。并且边缘分支的提出改善了模型对肺结节区域分割的效果,Dice 系数达到了90.94%,与U-Net 模型相比提升了5.30 个百分点,MIoU 提高了6.69 个百分点,分割性能也有所提升。当将Gabor卷积模块逐步应用于边缘分支网络之后,模型的性能也得到了相应提升,将全部编码层替换为Gabor卷积模块后网络性能达到最优,Dice系数达到了92.79%,与EU-Net相比提升了1.85个百分点,MIoU与EU-Net相比提升了2.91个百分点。相比U-Net,使用边缘分支的网络收敛速度更快,并且迭代训练次数达到50 轮以后,模型的损失便逐渐趋于稳定,其在训练集的损失低于1%,可以充分提取到结节区域的边缘特征,提高了模型的分割性能。
3.4.4 对比实验
为验证提出的GEU-Net 模型分割效果,在同样的训练数据下使用相同的训练参数,分别训练了FCN[7]、SegNet[24]、U-Net[8]、Attention U-Net[11]、U-Net++[13]以 及U-Net3+[15]六种模型作为对比实验。对比实验结果见表5和表6。
表5 LIDC-IDRI对比实验结果Table 5 LIDC-IDRI comparative experiment results 单位:%
表6 LNDb对比实验结果Table 6 LNDb comparative experiment results 单位:%
从表5和表6可以看出,FCN网络的分割性能最低,这是因为FCN 对结节区域中的细节信息不敏感,忽略了像素与像素之间的关系,无法学习全局上下文信息。SegNet 由于没有使用跳跃连接从而无法将浅层的特征信息发送到更深层,全局上下文信息依然不能被利用。U-Net网络虽然使用了跳跃连接但结节特征的表达性不高,分割结果不够精细。三种模型的Dice、MIoU 以及Recall 的数值都较低。引入软注意力机制的Attention U-Net模型,使得小结节区域的目标特征值增大,各项指标均有所提升。U-Net++和U-Net3+模型则是对U-Net网络更进一步改进,均是利用了多尺度融合策略,通过多层次的特征融合来增加模型的学习能力,在融合了不同层次特征之后模型的各项指标也均有所提升。但是以上模型都没有重点关注结节图像的边缘轮廓,忽略了结节图像所存在的边缘模糊特性,出现图像欠分割现象,网络训练不充分。而GEU-Net所有指标几乎均高于其他模型,在LIDC-IDRI和LNDb测试集上的Dice系数分别达到92.79%和86.78%,MIoU达到87.53%和79.09%,Recall 达到94.35%和87.43%,Accuracy 达到99.68%和99.76%。与传统U-Net相比,四个指标分别提升7.15和3.21个百分点、9.83和4.33个百分点、8.06和3.47个百分点、1.44和1.21个百分点,说明边缘分支中Gabor卷积模块以及混合损失函数的提出具有一定优势,GEU-Net可以将肺结节边缘特征进行利用,使得分割结果更加精细,网络性能得到优化。
为进一步直观地显示出对比实验的实验效果,实验绘制了对比实验训练曲线图,包括LIDC-IDRI数据集和LNDb数据集在对比实验训练过程中的损失曲线,如图6(a)和图7(a)所示。为直观显示出GEU-Net 的训练效果,绘制了LIDC-IDRI 数据集和LNDb 数据集的Dice、MIoU、Recall和Accuracy曲线,分别如图6(b)~(e)和图7(b)~(e)所示。具体训练曲线如图6和图7所示。GEU-Net网络的稳定性均优于其他网络,各项指标随着训练次数的增加而增加,在50轮迭代左右趋于收敛,为保证训练结果绝对精准,各项实验均迭代100轮。
图6 LIDC-IDRI数据集对比实验曲线对比Fig.6 LIDC-IDRI dataset comparative experiment curve comparison
图7 LNDb数据集对比实验曲线对比Fig.7 LNDb dataset comparative experiment curve comparison
表7展示了对比实验中模型的参数量、平均分割时间以及GFLOPs。
表7 网络参数对比Table 7 Network parameter comparison
由于提出的GEU-Net模型具有双分支网络结构,所以模型参数量与其他网络相比有一定增加。相应地,平均分割时间消耗也有一定增加。
3.4.5 实验分割效果
结合对比实验,肺结节图像病灶可视化结果如图8所示。图8(a)至图8(i)分别为原始图像、专业医师标注的肺结节金标准,以及FCN、SegNet、U-Net、Attention U-Net、U-Net++、U-Net3+和GEU-Net 模型对肺结节区域的分割结果。红框框出的部分可以显著突出所提出的GEU-Net对比其他模型分割更精细的地方,分割结果更为直观。由于FCN 模型结构较为单一,所以对图像中的细节并不敏感,观察图8(c)可以发现,FCN的分割效果十分粗糙,包含大量的假阳性区域。SegNet模型通过引入反池化结构可以实现更为精确的上采样,对比FCN模型SegNet减少了假阳性区域,见图8(d)所示,分割效果得到了改善。U-Net使用了跳跃连接,充分利用底层特征,同样改善了分割效果,如图8(e)所示。但结节分辨率较低、边缘模糊等问题会导致这些模型将部分非结节组织划分为前景区域,存在明显的假阳性现象,分割效果并不理想。Attention U-Net 模型通过引入软注意力机制增强结节区域的响应缓解此类现象,改善了分割效果,如图8(f)所示。U-Net++将不同层上采样的分割图进行平均作为最终分割结果,进一步提高了肺结节区域分割的精确度,但并未考虑不同层间的重要程度,这样使得模型仍存在部分假阳性像素,如图8(g)所示。U-Net3+通过全尺度的跳跃连接把来自不同尺度特征图中的高级语义与低级语义结合,进一步细化了分割效果,如图8(h)所示。上述U-Net的相关模型都提出将浅层特征与深层语义特征进行融合,以实现模型分割任务性能的提升,但并未明确学习浅层特征的辨别能力。提出的GEU-Net模型,明确指出需要学习结节的底层边缘特征,同时利用Gabor 卷积模块来强化提取边缘特征。如图8(i)所示,GEU-Net模型在模型边缘的处理上要优于其他模型,可以看出肺结节边缘轮廓更加清晰,结合实验可以证明GEU-Net 模型能判别出更为精细的边缘,分割结果更加接近金标准。
图8 对比实验可视化效果Fig.8 Contrast experimental visualization effect
针对肺结节图像的边缘像素点模糊问题,提出了一种双分支结构的GEU-Net 模型来加强对肺结节边缘特征的利用。构建出一种编码器-解码器结构作为边缘分支来缓解正负类样本不均衡的问题,提出了Gabor卷积模块作用于边缘分支,以充分捕获结节图像的边缘纹理特征。设计了一种混合损失函数增强模型对结节边缘特征的提取能力。在肺结节公开数据集LIDC-IDRI 和LNDb上的实验结果表明,所提出的GEU-Net能够提取肺结节区域的边缘特征,使得分割效果有所提升。在后续工作中,将研究针对小结节的分割算法,以及研究主干分支与边缘分支特征提取层共享参数,解决双分支参数量变多的问题,来实现模型的更优性能。