李佳 邢丹 李柏德 潘云峰
摘要:为了更准确地诊断和评估新冠肺炎疾病,开发新冠肺炎CT图像的精确病灶分割方法至关重要。本研究提出了一个基于改进的U-Net全卷积网络的病灶分割方案,包括可学习的下采样、多尺度特征融合,以及注意力机制等具体技术手段。实验结果表明,该方案能够准确识别感染区域,实现病灶的自动化分割,为后续的计算机辅助诊断系统提供支持,基本满足新冠肺炎影像分析的需求。
关键词:U-Net;医学图像;语义分割;神经网络;深度学习
中图分类号:TP181 文献标识码:A
文章编号:1009-3044(2024)13-0024-03 开放科学(资源服务)标识码(OSID) :
0 引言
20在1全9年球1范2围月内以快来速,新传播型,冠对状公病共毒健康肺安炎全(C构OV成ID了-重大威胁。最新研究表明,计算机断层扫描(Computed Tomography,CT) 图像可以清晰展示新冠肺炎的发展过程,是疾病定量评估的重要手段之一[1]。对确诊患者的CT扫描图像进行自动化分析可实现对肺部病变区域的精确分割,为病情诊断、进展评估及治疗提供关键支持。新冠肺炎中医学图像分割在疾病评估和量化方面起着重要的作用。CT图像可以捕捉磨砂玻璃和双边斑片状阴影等典型特征,从而提供肺异常程度的视觉评价,并协助预后的过程。对肺部CT图像中感染区域的分割是帮助对疾病进一步评估和量化的重要步骤。然而,从CT切片中分割感染区域面临着许多挑战,如不同患者感染区域的形态、大小、位置之间的差异。现有的深度学习分割方法往往依赖于大量标注数据进行学习,但在短时间内收集并标注大量数据难度较大。基于卷积神经网络的U-Net展示出在医学图像分割任务上的卓越能力,被广泛应用于肿瘤、器官等领域[2]。本研究拟采用U-Net模型框架,针对COVID-19患者CT图像进行病灶区域的分割,去掉无关的背景结构,精确提取出病毒感染所导致的肺部病变区域。相较于传统的基于阈值和形态学处理的分割方法,深度学习模型可直接从图像数据中学习特征表示,对图像中的标志性信息具有更强的学习与表达能力。本研究通过收集COVID-19患者CT数据集,并在U-Net模型框架内设计多尺度特征提取模块、注意力机制等,以提高模型对感染病灶的识别能力。
1 方法
本文使用了典型的U-Net结构,采用了2D卷积层进行特征提取。2D卷积层的参数包括卷积核大小(如3×3) 、激活函数ReLU等。U-Net模型是一种改进的全卷积网络(Fully Convolutional Networks,FCN) 结构,因其结构经论文作者画出来形似字母U而得名,应用于医学图像的语义分割。它由左半边的编码器(Contracting Path) 和右半边解码器(Expansive Path) 组成。编码器部分采用重复的卷积层和池化层来提取图像特征,这一过程中特征图(Feature Map) 大小持续减半,同时通道数量增加。编码后得到的瓶颈特征代表整张图像的语义信息。解码器通过反卷积和上采样恢复特征图到原始大小,每层解码特征通过跳跃连接与对应编码特征聚合,实现高低级特征的多尺度融合,最后卷积层输出分割结果。U-Net深层次特征提取和多尺度特征聚合具有很强的定位和还原细节的能力,广泛用于医学图像分割。如图1所示。
1.1 模型卷积
本文采用2D卷积,其操作原理如图2所示。定义卷积核大小(例如3×3、5×5等)和数量。卷积核包含可学习的参数(权重和偏置)。在输入特征图(例如图像)上滑动卷积核,与输入特征图的每个区域进行互相关(点积)运算。滑动卷积核以一定步长(Stride) 在特征图上每次向右和向下移动,计算每个位置的卷积结果。卷积结果形成一个激活特征图(Activation Map) ,通过激活函数(如ReLU) 进行非线性转换。如果有多个卷积核,会输出相应数量的激活特征图。经过卷积提取特征后,可以接入池化层进行下采样,减小特征图大小或后接更多卷积层提取更高级特征。通过卷积层的叠加,网络可以自动学习提取不同层次的特征,实现特征提取和图像分类、分割等任务。
1.2 上采样和下采样操作
1.2.1 上采样操作
该U-Net模型在上采样部分使用的是转置卷积的方法。转置卷积在保留特征图空间信息的基础上可以实现对输入特征图进行上采样,从而将下采样部分提取的多尺度特征重构还原。在下采样部分,模型使用的是经典的最大池化方法。最大池化相比平均池化,能更好地保留区域特征的强性表示,对细胞边界和形状轮廓识别更有利。
1.2.2 下采样操作
下采样(Down Sampling) 是图像处理和计算机视觉中常用的一种操作,主要作用是减少图像或特征图中的像素点,从而降低分辨率。下采样的基本原理是去除部分像素,在本文实验中采用的方法是最大池化层,在模型的编码路径中,在每个卷积块之间插入了一个2×2的最大池化层,来减半特征图的空间大小,实现逐步下采样。
1.3 损失函数
在本次实验中,交叉熵损失用于多类别分割,通过最小化交叉熵损失可以提高预测类别的正确率。Dice系数用于直接评估分割结果与真值之间的重合程度,可有效缓解样本类别不均衡问题。结合使用交叉熵损失和Dice系数,既考虑了像素级分类准确性,也强调了整体分割区域的一致性。损失函数为模型提供了优化目标,通过反向传播并最小化损失函数,可以更新网络参数,不断优化模型分割性能。在训练过程中监测损失函数值的变化情况,可以判断模型的训练和收敛状况。验证集上的损失函数评估可以判断是否存在过拟合问题,以确保模型泛化性能。模型在训练后期采用了降低学习率以帮助模型收敛,防止损失震荡。
1.3.1 交叉熵损失(Cross Entropy Loss)
这是一种常见的分类损失函数,计算预测类别分布和真实类别分布之间的距离。模型试图最小化交叉熵损失,以提高分类预测的准确率。如公式(1)所示:
L (y,p) =-Σyi ? log ( pi ) (1)
式中,y 为样本的真实标签,p 为模型预测的概率分布。
1.3.2 Dice 系数损失(Dice Loss)
这是一种用于分割任务的损失函数。Dice 系数用于评价分割的重合效果,如公式(2)所示:
式中,X 为预测分割,Y 为真值分割。Dice 系数越高表示两者重合度越好。相应的Dice Loss如公式(3)所示:
L (y,p) = 1 - Dice(y,p) (3)
最小化Dice Loss意味着最大化Dice系数,也就是提高分割的重合效果。
2 实验及结果分析
2.1 实验环境
本文模型在Anaconda虚拟环境下实现,本机配置如下:操作系统为Windows 11 专业工作站版22621.2283,处理器为AMD Ryzen 9 5900HX,系统内存为32GB,显卡为NVIDIA RTX 4090,内存为24GB,使用Pytorch2.0.1,CUDA12.2.138,Python3.9.18。
2.2 实验结果分析
本次实验训练集来自 Kaggle 上的 COVID-19 RADIOGRAPHY DATABASE[3-5],采用了3616 张新冠肺炎肺部CT 图像来对U-Net 模型进行混合精度训练。共进行了3次实验,分别迭代80次、100次和120 次。通过对训练损失和验证分数的对比可以看出,迭代100次时获得的准确度最高且验证分数最高。可以发现,训练效果并没有随着迭代次数不断增加而提高,而是在100次左右达到峰值后慢慢下降。笔者推测其中一原因是模型出现过拟合问题导致表现下降,另一个原因可能是训练集数据不足以支撑模型更多迭代次数的进一步提升。
由图3可以看出,两次训练模型在开始阶段都出现了预测分数突然下降的情况。这是由于U-Net模型中的卷积层参数默认是随机初始化的。在开始训练时,这些随机参数需要经过一定的迭代才能逐步调整到较优的值,因此训练初期的效果会有所波动。
2.3 实验总结
通过实验可以发现,迭代次数增加时预测的精度逐渐提升,在100代时到达最大值。该模型只保存验证集上效果最好的模型状态,防止模型过拟合,并对数据集进行了随机处理,提高了模型的泛化性,当检测到验证集损失不在下降时,模型会自动降低学习率来帮助收敛。该模型使用的混合精度训练方法也极大降低了运算成本,用较小的精度损失换来训练速度的大大提高。即使在医学图像标注样本较少的情况下,U-Net也表现出了良好的分割效果,这对医学领域的应用非常重要。实验结果也验证了该模型可以准确分割疾病区域,可为新冠肺炎的定量诊断提供支持。
2.4 评价指标
本研究采用了Yan等人[6]在新冠肺炎CT图像分割任务中使用的Dice系数、IoU等指标,来全方位评价模型性能。其中,X为预测分割,Y为真值分割。此外,还对U-Net模型和FCN-8s模型进行了比较分析,以验证模型性能。
1) DSC(Dice Similarly Coefficient,DSC) 。Dice 相似系数是一种计算集合相似度的指标,是医学图像分割中的常用评估指标之一。如公式(4)所示:
式中,X 为预测分割结果,Y 为真实分割结果。Dice系数越高表示预测结果和真实结果重合度越好。
2) IoU (Intersection over Union)。IoU也是图像分割任务中的常用评估指标。如公式(5)所示:
式中,X 为预测分割结果,Y 为真实分割结果。IoU指标越高,则说明预测分割结果和真实分割结果的重合部分越大。
3) MIoU (Mean Intersection over Union)。计算每个类别的IoU,然后取平均值。综合反映了各个类别的分割效果。
4) Recall) 。召回率是用于衡量分类模型的性能的指标之一。它表示分类器正确识别出的正样本数占所有正样本数的比例。召回率的计算公式如公式(6)所示:
式中,TP 为真正例数量,FN 为假反例数量。
通过计算这些指标对分割网络的效果进行量化评价,从不同角度评估分割预测的质量。本文使用上述指标来评估模型在新冠肺炎CT图像分割任务上的表现。
2.5 不同分割方法的比较
FCN模型中全为卷积层,无全连接层,能对无限制输入尺寸的图像进行像素级语义分割。它对最后一个卷积层的特征图进行上采样,在保留原始输入图像的空间信息的同时,恢复成输入图像尺寸。然而,FCN经过上采样后结果仍然比较模糊,不够精细,并且忽略了空间规整步骤,缺乏空间一致性。融合操作加上浅层和深层的特征值,导致高维特征不能较好利用。从理论上讲,U-Net相较于FCN具有更好的分割效果。为验证这一点,本文采用肺结节图像数据集进行了实验。表1中的数据也证实了这一点,本文采用了FCN-8S模型。
3 结束语
通过本次训练可以看到,U-Net模型在新冠肺炎CT 图像分割任务上取得了高精度和良好的泛化能力。作为一种端到端的全卷积网络结构,U-Net网络通过编码器-解码器的设计,充分利用了图像的上下文信息。相比于传统的全卷积网络,U-Net增加了跳跃连接,可以更好地融合不同尺度的语义信息,提高了定位精度[7]。即使在标注样本较少的情况下,U-Net 也展现出了良好的分割效果,这对医学图像应用十分重要。通过实验结果展示,本文证实了U-Net模型可以准确分割新冠肺炎CT图像中的病灶区域,为后续定量诊断提供了支持。然而,U-Net在训练过程中也存在梯度消失、过拟合等问题,对图像质量比较敏感[8]。随着有限标注样本的半监督和无监督学习方法进一步成熟,未来可继续扩大数据集规模,探索少样本或无样本学习,进一步提升模型的鲁棒性[9]。总体而言,U-Net是一个高效且精确的医学图像分割模型,值得继续扩展和改进,以推动计算机辅助诊断技术的发展。
【通联编辑:唐一东】
基金项目:宁夏自然科学基金项目(No. 2022AAC03149),北方民族大学校级创新项目(2024-XJ-JSJ-041)