适用于鼻咽癌原发灶三维自动化分割的MCAS-UNet 网络

2023-01-02 10:20:08王天梁淑芬秦传波解竞一冯跃
五邑大学学报(自然科学版) 2022年4期
关键词:原发灶靶区鼻咽癌

王天,梁淑芬,秦传波,解竞一,冯跃

(五邑大学 智能制造学部,广东 江门 529020)

鼻咽癌(Nasopharyngeal Carcinoma,NPC)是指发生于鼻咽腔壁的恶性肿瘤.现阶段,放射治疗是治疗鼻咽癌的主要方法.在实际临床诊断中,从CT 或MRI 等医学图像中准确分割鼻咽癌原发灶(Gross Target Volume of Nasopharynx Cancer,GTVnx)对于放射治疗具有重要意义.但目前,该任务通常由放射科医师通过逐片手工标注的方式来完成,该方式不仅繁琐、耗时耗力,而且还面临着因操作人员自身经验和专业水平的差异,导致勾画病灶区域的准确性难以保证.

近年来,深度学习方法越来越广泛地应用于医学图像分析中.全卷积网络(FCN)[1]、UNet[2]、VNet[3]和DeepMedic[4]等是常用于分割任务的学习模型.然而,鼻咽癌原发灶实现准确的自动化分割仍然具有重大挑战.首先,CT 影像的鼻咽癌原发灶与周边软组织的对比度低,不容易识别.其次,它的边界模糊,放射科医师也难以准确地勾画目标靶区,这可能会出现有噪声的标注.第三,鼻咽癌原发灶在CT 影像中占比非常小,这就存在背景与分割目标之间极度不平衡的问题.此外,CT 影像各向异性的问题会使相邻切片的目标靶区形状发生较大变化.

为解决上述问题,本文提出了一种应用2.5D 卷积神经网络(CNN),并结合通道、空间、Self Attention 等综合注意力机制,来更好地提取小目标靶区的特征信息,以期进一步提高分割的整体相似度和边缘分割效果.

1 MCAS-UNet 模型的体系结构

本文方法由4 个主要部分组成:1)基于HU 截断、强度归一化和图像裁剪的数据预处理;2)2.5D UNet 结合提出改进的通道和空间注意力模块(Modified Channel and Spatial Attention Block,MCAS)进行高效的分割鼻咽癌肿瘤靶区(GTVnx);3)将Criss-Cross Attention 模块[5]扩展到3D,并加入到编码器的最后一层,进一步优化肿瘤靶区的整体分割效果;4)在解码器端引入注意门(AG),融合低层和高层语义信息,对相关特征信息作进一步补偿,优化边缘分割效果.

如图1 所示,网络以UNet 为基础架构,共使用了9 个(1×3×3)卷积块,每块包括两个带有批次处理归一化层(Batch Normalization,BN)与泄漏线性整流单元(Leaky ReLU)的卷积层.除第一个卷积块外,每个卷积块前面都有一个MCAS 注意力模块,用来捕捉小目标的鼻咽癌原发灶位置和空间信息.网络使用三次最大池化下采样操作,并采用反卷积进行上采样.最后一层则由(1×3×3)卷积层和softmax 函数组成.网络使用3×3×3 卷积与1×3×3 卷积结合的2.5D 卷积神经网络,解决目前单独使用2D 和3D 卷积神经网络存在的问题.同时,在编码器的最后一层加入扩展后3D 交叉注意力(Criss-Cross Attention)模块,进一步优化肿瘤靶区的整体分割效果.最后,在解码器端引入注意门(AG),融合低层和高层语义信息,对低级语义信息做进一步补偿,改善边缘分割效果.

图1 整体网络架构

1.1 数据和预处理

数据集来自MICCA(IMedical Image Computing and Computer Assisted Intervention Society)2019年StructSeg 挑战赛,共包括50 名鼻咽癌患者的CT 图像.实验中将公开库训练图片按 40 :10 随机划分训练和测试集.

在数据预处理阶段,首先将所有图像的强度值截断到 [- 2 00,7 0 0]HU 值的范围内以增加目标区域的对比度,然后通过归一化处理将图像的强度值映射在[0,1]范围,去除因奇异样本数据引起的不好影响,同时加快训练收敛速度.

为了保持相同的分辨率,将所有图像在x、y和z方向上的像素间距均匀插值到1 mm ×1 mm×3 mm.图像在x、y的方向上尺寸为512 ×512,这包含了大量的背景和仪器区域,一定程度上影响模型对于小目标分割的效果.所以,需要根据先验信息减小图像尺寸来除去一定的无效信息.为了更好地学习目标区域相关特征,并兼顾位置信息和生理结构信息,本文通过从头颈部区域采样图像区域用于训练.预处理前后的对比图如图2 所示.

图2 数据预处理图

1.2 2.5D 卷积神经网络

UNet 是近年来备受关注的一种编解码网络,其编码器部分的工作原理与传统的分类 CNN 相似,它以减少空间信息为代价,连续地聚集语义信息.由于在分割过程中,语义和空间信息对网络的成功都至关重要,因此必须以某种方式恢复丢失的空间信息.UNet 通过解码器来实现这一点,解码器接收来自“U”底部的语义信息,并将其与通过跳过连接直接从编码器获得的更高分辨率特征图进行重新组合[6].与其他分割网络(如FCN 和DeepLab 迭代[7])不同,UNet 能够很好地分割精细结构.但是,2D UNet 无法有效提取3D 影像上下文切片信息.3D UNet 通常需要将3D 图像上采样到一个统一值,来平衡三维的物理感受野,这样就会受到可用 GPU 内存量的限制,并可能进一步对网络深度有所限制,降低模型的性能.同时,如果数据集是各向异性的,则常规 3D 分割方法的性能一般会有所下降[8].因此,本文应用2.5D 的网络结构,来解决2D 和3D 网络存在的问题,更好地处理CT 影像的鼻咽癌原发灶分割任务.

1.3 注意力模块

标准CNN 通过不断堆叠卷积层和池化层,获得足够大的感受野和上下文语义信息,但其对形变程度较大的小目标靶区容易造成假阳性(False-Positive,FP)预测问题.为了解决这个问题,Oktay等[9]提出了一种简单而有效的机制,即注意门(Attention Gate,AG),它将注意力集中在目标区域,同时抑制不相关区域的特征.SENet[10]开创了通道注意力的先河,核心是一个挤压和激励块(Squeeze and Excitation,SE),用于收集全局信息、捕获通道关系和提高表示能力.但是,在挤压模块中,仅通过全局平均池化提取通道特征过于简单,无法捕获复杂的全局信息.在激励模块中,通过通道降维来降低模型复杂度的策略无法直接建模权重向量和输入之间的对应关系,从而降低了结果的质量.对此,Wang 等[11]提出了高效通道注意力(Efficient Channel Attention for Deep Convolutional Neural Networks,ECA-Net),该方法使用不降维的一维卷积来确定通道之间的相互作用.Woo 等[12]提出了注意模块(Convolutional Block Attention Module,CBAM),按照先通道注意操作再空间注意操作来提取特征信息.为了解决位置信息的重要性和建模全局依赖关系这些问题,Hou 等[13]提出了协调注意力(Coordinate Attention,CA),它将位置信息嵌入到通道注意中,从而使网络能够以较小的计算成本关注更大的重要区域.

1.4 MCAS 注意力模块

在鼻咽癌分割任务中,目标靶区的形态变化多样,同时自身目标又小,导致分割精度较低.通道和空间注意力有助于网络在整个图像上下文中专注于学习小目标区域[12].因此,本文提出了一个改进的通道和空间注意力模块MCAS 来提高鼻咽癌目标靶区区域的分割精度.

如图3 所示,给定一个中间特征映射F∈RC×D×H×W作为输入,MCAS 沿着两个独立的维度(通道和空间)顺序推理通道注意映射MC∈RC×D×H×W和空间注意力映Ms∈R1×D×H×W,然后将注意映射乘以输入特征映射以进行自适应特征细化.同时引入残差结构,促进信息传播,防止梯度消失.

图3 MCAS 注意力模块

其中⊗表示逐元素相乘,F'是最终的输出特征(output features).

1.4.1 通道注意力

如图4 所示,在通道注意力模块中,为解决全局池化造成的位置信息丢失,首先利用x、y、z3个方向的全局平均池化和全局最大池化,分别将横轴、纵轴和竖轴方向上的输入特征聚合为3 个独立的方向感知特征映射,将输入特征图的位置信息嵌入到通道注意力的聚合特征向量.这3 个嵌入方向特定信息的特征图被分别编码到3 个注意图中,每个注意图捕获输入特征图沿一个空间方向的长期依赖关系.然后通过逐元素相乘将这3 种注意图应用于输入特征图,加强感兴趣区域的表示.ECA-Net[10]证明了避免降维和适当的跨通道交互对于学习有用的通道特征具有重要作用.因此,将全连接层替换为卷积核为3 的一维卷积,通过不降维的局部跨通道交互策略降低模型复杂度的同时保持性能.

图4 通道注意力模块

其中,C1D k是卷积核为k的一维卷积,k默认为3.

1.4.2 空间注意力

在空间注意力模块中,我们利用特征间的空间信息生成空间注意映射.空间注意是侧重相关信息“在哪里”,与通道注意是相互补充的.为了计算空间注意力权值,使用全局平均池化和全局最大池化整合特征映射的通道信息来产生两个3D 映射:Favg∈R1×D×H×W和.之后,将它们拼接并卷积,生成3D 空间注意力映射.相关计算如下:

其中,F表示输入特征,f3×3×3表示核大小为3×3×3的三维卷积.

1.5 扩展的3D Criss-Cross Attention 模块和注意门(AG)的应用

如图5 所示,将2D Criss-Cross Attention[5]扩展至3D,利用自注意机制使任一位置的单一特征能够感知其他所有位置的特征,从而获取全图像的上下文信息.传统的基于non-local 的注意力机制需要生成较多的注意力图来评估像素对之间的关系,注意力图计算每个像素点与全部像素点之间的关联性,空间的复杂度为(D×H×W)×(D×H×W),而3D Criss-Cross Attention 只计算每个像素点与其所在的三维空间相邻像素的关联性,通过循环两次,将空间的复杂度降为(D×H×W-2)×(D×H×W).而且,卷积神经网络对形变程度较大的小目标靶区容易造成假阳性预测,CNN+AG 则可以解决此类问题,因此在解码器端引入注意门(AG),逐步抑制无关背景区域中的特征响应,优化边缘分割效果.

图5 3D Criss-Cross Attention 模块

2 实验设置

2.1 实验环境和评估指标

实验所用计算机为Windows 10 系统,显卡为NVIDIA Quadro GV100.深度学习框架是Pytorch 1.1.0,优化器为Adam,权重衰减为 1×1 0-5,批次大小为8.网络使用Dice 损失函数进行训练[3],初始学习率设置为 1 ×1 0-4,每1 000 次迭代后学习率衰减为原始的0.9 倍.数据增强方法采用随机裁剪和随机翻转.采用平均对称表面距离(Average Symmetric Surface Distance,ASSD)、Dice 系数、相对体积误差(Relative Volume Error,RVE)和豪斯多夫距离(Hausdorff Distance,HD)4 个定量评估指标客观全面的评估分割结果.

2.2 实验结果与分析

2.2.1 不同方法的实验对比分析

在鼻咽癌的公开数据集上分别与5 种先进方法进行比较,包括3D UNet[2]、VNet[3]、2.5D UNet[14],Attention U-Net[9]、文献[15],定量和定性结果如表1、图6 和图7 所示.结合表1 可以看出,RVE指标比5 种对比网络分别提升了67.36%,17%,17.27%,34.86%,10.53%.ASSD 指标分别提升了2.843 mm,2.182 mm,0.459 mm,0.13 mm;Dice 系数指标分别提升了7.92%,3.77%,2.67%,3.75%,1.53%;hausdorff 分别提升了34.86 mm,25.98 mm,17.30 mm,19.17 mm,1.47 mm.在各项指标上均优于对比网络.结合图6 和图7 可以看出,所提方法对小目标的鼻咽癌目标靶区具有良好的处理能力.

表1 不同网络分割结果比较

图6 不同网络分割结果3D 重建标签图

图7 不同网络分割结果可视化图

2.2.2 多种注意力的实验对比

为了探讨本文注意力模块(MCAS)的性能,将目前先进的不同注意力方法分别与2.5D UNet 骨干网络在同一条件下相结合,进行实验对比.从表2 可以看出,加入所本文的注意力MCAS 模块后,Dice、ASSD 和hausdorff 的多项评估指标都达到最高,证明MCAS 注意力模块不仅可以提高网络的性能,而且对小目标的鼻咽癌目标靶区分割效果良好.

表2 多种注意力实验对比

2.2.3 消融实验

本文在同一条件下对所提网络展开了逐步的消融实验,实验结果如表3 所示.首先,2.5D UNet骨干在编解码层结合所提 MCAS 注意模块,在各项指标都有明显提升,达到了分割鼻咽癌原发灶(GTVnx)的良好效果.在此基础上,在编码器-解码器结构的瓶颈处加入3D Criss-Cross Attention模块,更好地提取小目标肿瘤靶区的特征信息,进一步优化了肿瘤靶区的整体分割效果.然而,对比表3 的第二第三行结果可知,该方法虽然提升了整体分割结果的相似度(Dice 系数),但是忽略了大量的低级语义信息,对边缘分割效果较差.因此,在解码器端引入注意门(AG),融合低层和高层语义信息,对相关特征信息做进一步补偿,优化边缘分割效果,最终的输出结果达到了57.54%(RVE)、2.592 mm(ASSD)、66.22%(Dice)、10.05 mm(hausdorff)的分割性能,较骨干网络在各项指标上分别提升了17.27%(RVE)、0.495 mm(ASSD)、2.67%(Dice)、和17.3 mm(hausdorff).

表3 消融实验分析

3 结语

针对鼻咽癌原发灶(GTVnx)三维自动化分割问题,本文提出了一种基于2.5D UNet 骨干结合多种注意力的方法.通过消融实验与对比实验证明,所提方法有效地解决了自动分割中鼻咽目标靶区小、CT 影像各向异性以及靶区与周围软组织对比度低的问题,提高了诊断的效率和准确率,可最大程度上避免漏诊和误诊.但由于数据量较少,一定程度上限制了算法的性能.下一步研究将考虑进行半监督或者无监督学习方法,并进一步解决数据量不足的问题.

猜你喜欢
原发灶靶区鼻咽癌
乳腺癌原发灶与转移灶内雌激素受体及孕激素受体水平变化分析
放疗中CT管电流值对放疗胸部患者勾画靶区的影响
放疗中小机头角度对MLC及多靶区患者正常组织剂量的影响
MRI影像与CT影像勾画宫颈癌三维腔内后装放疗靶区体积的比较
中医药治疗鼻咽癌研究进展
鼻咽癌组织Raf-1的表达与鼻咽癌放疗敏感性的关系探讨
癌症进展(2016年11期)2016-03-20 13:16:00
鼻咽癌三维适型调强放疗靶区勾画的研究进展
西南军医(2016年2期)2016-01-23 02:14:04
鼻咽癌的中西医结合诊治
中外医疗(2015年16期)2016-01-04 06:51:37
乳腺癌原发灶T淋巴细胞浸润与预后的关系
56例颈部转移癌治疗的临床体会