摘" 要: 为了能够早些发现肺结节患者,进行有效的预防和治疗,便能够大大提升肺癌患者的生存率,针对医学CT图像肺结节分割时存在异质性,会导致分割精度降低,提出一种基于高级语义及注意力的肺结节分割模型。该模型使用VGG16作为主干网络搭建U⁃net模型;采用金字塔池化模块(PPM),在尽可能保留原信息的情况下,将深层信息进行加强提取,得到更加丰富的高级语义信息;同时利用CA注意力机制强化重要的特征,实现空间和通道方向上的信息整合;使用Focal Loss和Dice Loss函数解决肺结节分割中前背景不均衡和难区分的问题。实验结果显示,所提出的方法在IoU、[F1]分数指标上较U⁃net分割算法分别提高了1.33%、0.95%,有效地提升了分割精度,解决了与其他组织对比度低的问题。
关键词: 深度学习; 医学CT图像; 肺结节分割; U⁃net; 注意力机制; 金字塔池化; 损失函数; 分割精度
中图分类号: TN911.73⁃34; TP391.41" " " " " " " " " 文献标识码: A" " " " " " " " 文章编号: 1004⁃373X(2024)05⁃0060⁃05
Pulmonary nodule segmentation model based on advanced semantics and attention
FENG Xiaoyu, WANG Mingquan, LI Leilei, ZHU Huanyu, LI Wenbo, XIE Shaopeng
(School of Information and Communication Engineering, North University of China, Taiyuan 030051, China)
Abstract: Detecting lung nodule patients early and carrying out effective prevention and treatment can greatly improve the survival rate of lung cancer patients. However, there is heterogeneity in the segmentation of lung nodules in medical CT (computed tomography) images, which will reduce the segmentation accuracy. In view of this, a lung nodule segmentation model based on advanced semantics and attention is proposed. VGG16 is used as the backbone network to build the model U⁃net. The pyramid pooling module (PPM) is adopted to strengthen the extraction of deep information while retaining the original information as much as possible, so as to obtain more abundant high⁃level semantic information. The CA (coordinate attention) mechanism is used to strengthen important features and realize spatial and channel direction information integration. Focal loss and dice loss functions are used to solve the problem of unbalanced background and difficult distinction in pulmonary nodule segmentation. The experimental results show that the proposed method improves 1.33% and 0.95% in IoU (intersection over union) and [F1]⁃score metrics in comparison with the U⁃net segmentation algorithm, so it can effectively improve the segmentation accuracy and solves the problem of low contrast with other tissues.
Keywords: deep learning; medical CT image; pulmonary nodule segmentation; U⁃net; attention mechanism; pyramid pooling; loss function; segmentation accuracy
0" 引" 言
随着肺癌死亡率的不断增加[1⁃3],研究者们对于肺部疾病的深入研究也成为必然。肺结节的大小、形状会影响到肺部恶化,如果能够早些发现肺结节,并进行有效的预防和治疗,便能够大大提升肺癌患者的生存率。如今计算机断层扫描(Computed Tomography, CT)技术[4⁃6]不断发展,为肺部扫描进行肺结节检测带来了更多便捷。
对于肺结节的分割大致可以分为传统分割和基于深度学习分割。文献[7]通过结合肺结节的小波能量和汉森形状指数进行分割,提出基于局部形态特征的模糊速度函数,加强血管黏连情况下肺结节的分割。文献[8]提出结合窗口傅里叶滤波和模糊C均值的混合算法,可以清晰检测到结节的形状和位置。文献[9]使用重新定义域中空间像素点的灰度以及参考标准选择不同的模糊因子分割肺结节。但使用传统分割方法需要很多的人力资源,且多次迭代后容易产生过分割和欠分割,计算复杂度也不断增加,难以满足临床需求。所以使用深度学习的方法完成肺结节的分割成为一种趋势,自AlexNet出现后,深度学习在图像处理方面有着很好的成绩,同时在肺结节分割问题上也出现了不少研究。从使用卷积神经网络(Convolutional Neural Network, CNN)[10]到代替CNN全连接层的全卷积神经网络(Fully Convolutional Network, FCN),最后发展到U⁃net网络,在肺结节分割上取得了一定的成果。U⁃net网络具备在较小数据集的情况下分割效果更好的优点,所以能广泛应用于医学图像分割。研究者们大都在其上进行改进,包括后来出现采用密集跳跃连接的U⁃Net++模型[11]、结合残差网络提出ResUnet网络[12]、使用深度可分离卷积为基本单元的mobile⁃Unet模型以及新型mobile⁃Unet模型[13]等都是在其基础上进行改进,以此来提高分割的效果。之后在分割领域还出现了Segnet[14]、pspnet[15]、R2Unet[16]网络,本文将在最后进行实验分析对比。
在CT扫描中,肺结节在整个图像中所占比例很小、形态不规则、与背景分布不均衡、存在异质性,给分割任务带来了难度。为了更好地解决这些问题,本文提出基于高级语义及注意力的肺结节分割模型。
1" 网络模型
本文提出的基于高级语义及注意力的肺结节分割模型如图1所示。U⁃net网络包含两个部分,编码器和解码器,且二者呈对称状,由VGG16进行搭建特征提取部分,使用最大池化进行下采样生成4个不同深度的特征图,解码过程中通过双线性插值法进行上采样,后将上采样后的特征图与同层编码产生的特征图进行通道拼接、卷积,完成通道和空间的交互,使得特征表现力大大增强。最后加入金字塔池化模块(Pyramid Pooling Module, PPM),将U⁃net特征提取出的深层信息进行加强提取,通过CA注意力机制(Coordinate Attention)为更重要的信息注入更多的资源。
1.1" 金字塔池化模块(PPM)
为了使主干网络输出的最高级语义特征内部共享感受野,察觉到更多信息,本文使用PPM模块,这样可以在不降低分辨率的同时增加感受野,如图2所示。PPM模块最早出现在PSPNet网络里,它可以很好地聚合不同区域的上下文信息,提升全局信息的利用率。
由于特征提取后图像大小为32×32×512,所以将目标特征图分别池化到2×2、4×4、8×8、16×16大小,然后将通道压缩至128×128;使用双线性插值的方法,充分利用四周真实存在的像素值得到需要增加的像素值,提高上采样的效果。
1.2" 注意力机制
为了解决任务目标在整个图像中所占比例小,且前景与背景中其他组织对比度低的问题,本文加入了CA注意力机制,加强模型的表征能力,削弱无效目标的干扰,提升分割效果。
CA注意力机制通过对高、宽方向分别进行平均池化,再将两部分进行拼接、卷积完成通道间信息的交互,成功地将空间位置信息嵌入到通道注意力内,这样不仅可以抑制用处不大的通道特征,还可以捕获到方向和位置感知的信息,更加精准地定位和识别,实现特征图空间和通道方向上的信息整合。
输入特征层就会在高、宽方向分别进行最大池化,得到第[C]维特征输出如下:
[zhc(h)=1W0≤ilt;Wxc(h,i)] (1)
[zwc(w)=1H0≤jlt;Hxc(j,w)]" (2)
CA注意力机制的流程图如图3所示。
获得1×[W]×[C]和[H]×1×[C]大小的特征层,并将[H]×1×[C]转置成1×[H]×[C],进行通道拼接、卷积和标准化得到特征;再将特征层高、宽分开,卷积、Sigmoid获得高、宽分别的注意力情况;最后在原图上进行加权,实现CA注意力机制。
1.3" 损失函数
Focal Loss是动态缩放的交叉熵损失函数,用于解决难易样本不均衡的问题,通过调制因子动态地降低训练中易区分样本的权重,从而聚焦到不易区分的样本上。Focal Loss公式如下:
[FL(p)=-α(1-p)γlog(p)," " " "p=1-(1-α)pγlog(1-p)," " " otherwise] (3)
式中:[p]表示预测的目标概率;参数[α]可以控制各部分权重,很好地缓解正负样本不均衡;[γ]为调制系数,其大小设为[0,5]范围。当[γ]gt;0时,就可以减少易区分样本对损失的影响,网络会多关注不易区分的样本,但是Focal Loss很容易被噪音干扰,样本标注时一定要注意,一旦给正样本和负样本贴错标签,就会一直对错误的标签进行训练。
Dice系数是集合相似度度量指标,通常用来计算正负样本的相似度,由其得名的Dice Loss相似系数损失函数适用于样本极度不平衡和微小目标分割,因为计算出的预测结果和真实情况具有相似性,可忽略目标的相对大小。Dice Loss公式如式(4)所示:
[LDice=1-2i=1Nyiyii=1Nyi+i=1Nyi] (4)
式中:[yi]表示标签值;[yi]表示预测值;[N]表示像素点总个数。在肺结节分割的过程中存在前景远小于背景的情况,使用Dice Loss可以缓解其不均衡的影响,但是单独使用Dice Loss会导致训练曲线波动太大,很难看出收敛。
在肺结节分割图像中,存在肺结节在整个图像中占比小以及与其他器官对比度低等缺点,所以本文采用Focal Loss函数和Dice Loss混合的方式,应对肺结节与图像分布不均衡和难区分的问题。其中Focal Loss取[α]为0.5,[γ]为2。
2" 实验及结果分析
本次实验使用Anaconda进行环境搭建,使用Windows 10操作系统,计算机运行内存为16 GB,GPU(Graphic Processing Unit)为NVIDIA GeForce RTX2080Ti,实验工具为Python 3.7,搭建了Keras 2.1.6的深度学习库,使用端对端开源机器学习平台TensorFlow 2.2.0(GoogleInc)作为后端搭建模型。
2.1" 评价指标
本文利用交并比(Intersection over Union, IoU)和[F1]分数([F1]⁃score)来评估肺结节分割模型,其中[F1]⁃score表示精确率与召回率的调和均值,公式如下:
[IoU=A⋂BAB=TPTP+FP+FN×100%] (5)
[P=TPTP+FP×100%]" (6)
[R=TPTP+FN×100%] (7)
[F1⁃score=2PRP+R=2TP2TP+FP+FN×100%] (8)
式中:[A]表示真实分割结果;[B]表示预测分割结果;TP表示预测结果是要分割的目标;FP表示被预测部分是分割目标,预测结果是背景;FN表示被预测部分是背景,预测结果是分割目标。
2.2" 模型验证
实验数据提取于LUNA16 CT影像数据集,是公用肺结节数据集LIDC⁃IDRI的子集,包含888例低剂量肺部CT影像,提取轴向切片,通过预处理得到数据图像和标注图像,分别有1 186张分辨率为512×512的图片,最终将80%的数据集作为训练集。
2.3" 实验结果及对比
2.3.1" 消融实验
对本文模型进行消融实验,为了更好地体现本文模型的网络性能,各个网络计算得出评价指标IoU和[F1]⁃score,完成消融实验的性能对比,如表1所示,其中本文算法较其他三个网络的IoU、[F1]⁃score都有所提高。
为了可视化效果更好,将分割结果裁剪并放大,从图4的第1行和第4行可见,U⁃net加金字塔池化模块和本文算法分割结果都更加接近标准;第2行显示对于前背景对比度高的小结节来说,分割结果都差不多;而在第3行可以看出来,对于前背景对比度低,其他组织干扰较大的结节,本文模型同时加入两个模块分割效果更好,分割结果更加接近人工标注结果。
2.3.2" 模型性能对比实验
实验将多个网络进行训练验证,并对比本文的实验结果,计算出评价指标IoU和[F1]⁃score值,如表2所示。本文算法的交并比(IoU)值达到了80.59%,[F1]⁃score值为87.96。Segnet、pspnet、R2Unet网络从评价指标和分割结果都比本文数据集分割效果差。
各网络的分割效果对比如图5所示,均为测试结果裁剪所得。其中第二列为标签,Segnet网络和R2Unet网络总体上分别有些过分割和欠分割;而pspnet网络分割结果接近标签,但对于边缘处理还不够精准;本文算法分割结果为第三列,分割精度相对更高,相对其他网络更加接近标签。
3" 结" 语
本文充分研究了U⁃net网络无法继续更深层次地提取特征和扩大感受野,缺乏对资源合理分配等问题,提出了基于高级语义及注意力的肺结节分割模型,加入CA注意力机制提高对重要特征的资源分配,充分使用图像特征;加入PPM金字塔池化模块,完成对图像深层特征提取,获取更多的上下文信息;混合使用Focal Loss函数和Dice Loss函数,有效解决前景背景分布不均衡和难区分的问题,从而提高分割性能。实验结果表明,本文算法对于从LUNA16数据集提取出的数据分割效果良好,其各项指标都有所提高,可以更加精确完整地分割肺结节。
注:本文通讯作者为王明泉。
参考文献
[1] JENKINS R, WALKER J, ROY U B. Plain language summary of 2022 cancer statistics: Focus on lung cancer [J]. Future oncology, 2023(2): 1⁃11.
[2] 王泽洲,张扬,莫淼,等.大型单中心医院登记的7753例肺癌手术患者生存报告:基于第8版国际肺癌TNM分期标准[J].中国癌症杂志,2020,30(5):321⁃327.
[3] 伍思莹.发病率死亡率双高,肺癌早筛不可忽视[J].医师在线,2022,12(2):20⁃21.
[4] 王婧璇,林岚,赵思远,等.基于深度学习的肺结节计算机断层扫描影像检测与分类的研究进展[J].生物医学工程学杂志,2019,36(4):670⁃676.
[5] KUMAR R, GUPTA N, VERMA R, et al. Utility of different positron emission tomography/computed tomography tracers in the evaluation of incidentally detected dual malignancies: An experience from a tertiary care center [J]. World journal of nuclear medicine, 2021, 20(4): 382⁃385.
[6] PENG X Q, YANG S Y, ZHOU L X, et al. Repeatability and reproducibility of computed tomography radiomics for pulmonary nodules: A multicenter phantom study [J]. Investigative radiology, 2022, 57(4): 242⁃253.
[7] 冯宝,张绍荣,陈业航,等.结合小波能量和汉森形状指数的肺结节分割[J].仪器仪表学报,2018,39(11):240⁃247.
[8] MAO Q, ZHAO S G, GONG T, et al. An effective hybrid windowed Fourier filtering and fuzzy C⁃mean for pulmonary nodule segmentation [J]. Journal of medical imaging and health informatics, 2018, 8(1): 72⁃77.
[9] YANG T J, CHENG J F, ZHU C H. A segmentation of pulmonary nodules based on improved fuzzy C⁃means clustering algorithm [C]// 2018 2nd International Conference on Electronic Information Technology and Computer Engineering. [S.l.: s.n.], 2018: 1⁃6.
[10] 邓忠豪,陈晓东.基于深度卷积神经网络的肺结节检测算法[J].计算机应用,2019,39(7):2109⁃2115.
[11] ZHOU Z W, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet++: A nested U⁃Net architecture for medical image segmentation [C]// Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support: 4th International Workshop. Heidelberg, Germany: Springer, 2018: 3⁃11.
[12] 柳小波,张育维.基于U⁃Net和ResUNet模型的传送带矿石图像分割方法[J].东北大学学报(自然科学版),2019,40(11):1623⁃1629.
[13] 陈铭,梅雪,朱文俊,等.一种新型Mobile⁃Unet网络的肺结节图像分割方法[J].南京工业大学学报(自然科学版),2022,44(1):76⁃81.
[14] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A deep convolutional encoder⁃decoder architecture for image segmentation [J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481⁃2495.
[15] YAN L, LIU D, XIANG Q, et al. PSP net⁃based automatic segmentation network model for prostate magnetic resonance ima⁃ging [J]. Computer methods and programs in biomedicine, 2021, 207: 106211.
[16] ALOM M Z, HASAN M, YAKOPCIC C, et al. Recurrent residual convolutional neural network based on U⁃Net (R2U⁃Net) for medical image segmentation [EB/OL]. [2018⁃05⁃29]. https://arxiv.org/abs/1802.06955v4.