莫亚霓,陈晓婕,张本鑫
(1.桂林电子科技大学 数学与计算科学学院,广西 桂林 541004;2.桂林电子科技大学 计算机与信息安全学院,广西 桂林 541004;3.桂林电子科技大学 电子工程与自动化学院,广西 桂林 541004)
肝癌是一种常见且致命的肿瘤,严重威胁人们的生命健康。计算机断层扫描成像(Computed Tomography,CT)具有快速扫描和高分辨率的优点,目前被广泛用于肝脏病变诊断。然而,目前临床上对肝脏肿瘤的分割通常需要经验丰富的医生手动绘制轮廓,这是一项耗时且烦琐的任务。而且,同一患者的肝脏CT 图像在不同医生标记下可能会导致不一致的结果,分割的准确性严重依赖医生的经验和技能。因此,研究精确且高效的肝脏肿瘤自动分割方法对于肝癌的临床诊断和治疗具有重要意义。
为进一步提高肝脏肿瘤分割的精度,实现既能相对完整地分割体积较大的肿瘤,又能检测出体积较小的肿瘤,本文提出一种基于级联网络的CT 图像肝脏肿瘤分割网络MCPUNet。该网络以残差UNet 网络作为骨架,解决因网络过深而出现的梯度弥散问题,在此基础上加入混合深度可分离卷积模块(MDconv Block)并嵌入坐标注意力机制(Coordinate Attention,CA)。混合深度卷积(MDconv)通过使用不同尺寸的卷积核在不同的通道上进行运算,将多尺度的卷积核融合到一个单独的卷积操作中,从而捕获不同分辨率的特征模式,实现对边缘细节以及更深层的小目标特征的提取。坐标注意力机制能够捕获跨通道的信息,使得模型能够更精准地定位并识别病变区域。此外,MCPUNet 采用级联操作来解决数据不平衡的问题,特别是当肿瘤在整个CT 图像中所占比例较小时可以更好地处理不同大小和位置的肿瘤。提出的模型在公共数据集LiTS 验证了肝脏肿瘤分割任务上的有效性。
近年来,深度学习技术迅速发展并在医学图像分割中得到广泛应用。全卷积网络(Fully Convolutional Network,FCN)[1]通过端到端实现对医学图像进行像素级分类,解决了语义级别的图像分割问题。U 形卷积网络(UNet)[2]首次引入了跳跃连接,通过编码-解码操作实现图像的语义分割。编码器用于下采样提取特征以捕捉图像的上下文信息,解码器则用于上采样,精确定位分割区域。LI等人提出的瓶颈监督UNet 模型(BS-UNet)[3]采用混合的紧密连接结构,充分利用网络各层之间的信息进行分割。SCHLEMPER J 等人将注意力机制融入UNet 网络,提出了A-UNet(Attention UNet)模型[4],能够自动学习与分割任务相关的区域特征并抑制不相关特征。UNet及其各种变体网络不断涌现。总体而言,UNet 及其变体网络是广泛应用于医学图像分割的强大深度学习模型。
本文通过使用坐标注意力机制CA[5]来提高网络对医学图像的分割性能。CA 是一种高效的注意力机制,能够将横向和纵向的位置信息嵌入通道注意力中,使得移动网络能够有效地关注大范围的位置信息,同时保持较低的计算复杂性。与传统的注意力机制相比,CA 不仅关注通道间的信息,而且考虑了方向相关的位置信息,从而有助于模型更精准地定位和识别目标。
本文提出的级联肝脏肿瘤分割网络MCPUNet的结构如图1 所示。CT 图像中,肝脏肿瘤通常具有对比度低、边界模糊、形状不规则和位置不固定等特点,直接采用端到端的网络模型难以准确识别肿瘤组织[6]。针对这个问题,本文提出一种级联肝脏肿瘤分割网络MCPUNet,采用级联的方式自动提取CT 图像中肝脏区域。该网络架构主要由肝脏分割网络和肝脏肿瘤分割网络两部分组成。肝脏分割网络和肿瘤分割网络的结构完全相同。肝脏分割网络先从CT 图像中分割肝脏,提取出肿瘤感兴趣区域(Region of Interest,ROI),再将该区域作为肿瘤分割网络的输入,进一步实现对肿瘤的精准分割。
图1 MCPUNet 网络结构
肝脏分割网络用于提取CT图像中的肝脏区域。该网络整体采用编码-解码架构,并以残差网络作为基本骨架。编码器用于提取图像的多尺度特征并获取上下文信息,解码器用于上采样从而精准地定位肝脏区域。由于肝脏分割网络和肿瘤分割网络结构完全相同,有关网络的详细结构将在肿瘤分割部分中重点描述。使用预处理后的CT 切片输入肝脏分割网络,得到肝脏的掩膜图,将输入的CT 切片与肝脏掩膜综合处理,仅保留肝脏区域的原始图像,以该肝脏区域作为ROI 进行下一步的肿瘤分割。
尽管肝脏肿瘤与正常肝脏组织在密度上存在差异,但与腹部其他器官组织相比,它们的密度非常接近,导致在直接使用网络对肿瘤进行分割时,其他组织的干扰使得分割结果难以达到理想效果。因此在原始的CT 切片上只保留肝脏区域的像素,将其他腹部器官的影响降到最低。
经过肝脏分割网络得到的肝脏区域作为肿瘤分割网络的输入。肿瘤分割网络由编码器和解码器构成,其中编码器由5 个MDB(MDconv Block)和4 个混合池化模块MP(Mixing Pooling)构成,MDB用于提取图像特征,MP 用于下采样降低图像的分辨率。经过MDB 后特征图的通道数依次为64、128、256、512、1 024,经过MP 后特征图的通道数依次为128、256、512、1 024,输入网络的特征图经过第一个MDB 的通道数由3 升至64。解码器由4 个上采样结构Up Sample 和4 个残差注意力机制模块RAB(Residual Attention Block)构成。在上采样结构中,采用双线性插值扩充图像尺寸,并将扩充后的特征图与编码路径中对应的特征图进行拼接,达到更好的特征重建效果。4 个经过Up Sample的特征图通道数分别为1 536、768、384、192,4 个经过RAB 的特征图通道数依次为512、256、128、64,经过最后一个RA-Block 输出的特征图再通过1×1 卷积将肿瘤分割的结果进行输出。
原始UNet 网络中的卷积感受野范围有限,导致网络提取的高分辨率肝脏边缘及肿瘤的图像特征不足。对于此问题,本文将混合深度可分离卷积加入MDB。混合深度可分离卷积对通道进行分组,利用不同尺寸的卷积核进行卷积,从而获取混合的感受野,同时捕获高分辨率特征和低分辨率特征。本文将输入的图像的通道均匀分成4 组,分别使用{3×3,5×5,7×7,9×9}的卷积核进行卷积,最后将卷积后的4 张特征图进行拼接。在MDB 结构中,对于输入的特征图先进行3×3 卷积操作,再进行混合深度可分离卷积操作得到特征图F1。与此同时,输入的特征图再经过1×1 卷积和坐标注意力机制,生成特征图F2。最后将F1 和F2 相加,并使用批归一化和非线性激活函数PReLU 以更好地优化网络训练。
本实验硬件平台为1 块Tesla V100 图形处理器(Graphics Processing Unit,GPU),共32 GB 显存,Gold Intel 处理器,共24 核。软件环境是Ubuntu 16.04、Python 3.7.4,深度学习框架是PaddlePaddle 2.4.0,Gcc 版本为7.3.0。肝脏分割网络训练60 个epoch,肿瘤分割网络训练50 个epoch,在肿瘤分割过程中使用翻转裁剪、随机旋转和随机填充裁剪进行数据增强。
不同网络在进行肝脏肿瘤分割时,交并比(Intersection over Union,IoU)、准确度和召回率指标的性能如表1 所示。
表1 不同网络进行肝脏分割的定量指标性能对比
从表1 可以看出,所提模型相对于原始的UNet在IoU、准确度和召回率指标上分别提高了3.8%、2.5%和2.0%,相对于Topformer 分别提升了17.2%、10.3%和12.3%,在肝脏肿瘤分割任务上的整体表现优于其他网络,对肿瘤的分割更加精准,对于肝癌的诊断和治疗具有重要的参考价值。
本文提出了一种基于级联网络的CT 图像肝脏肿瘤分割模型MCPUNet,在编码路径上设计了MDB 和MP 以提取图像的多尺度特征,捕获上下文信息;在解码路径上引入残差注意力模块RAB,加快网络的收敛速度,使模型重点关注感兴趣区域,抑制冗余特征。为了排除其他器官对肝脏肿瘤分割的干扰,模型使用了级联架构。实验结果表明,与UNet 等先进的医学图像分割网络相比,本文方法整体表现较优,在肝脏肿瘤分割任务上获得了较好的效果,具有很强的健壮性。