林璐颖
(漳州职业技术学院 电子信息学院,福建 漳州 363000)
多视图医学图像分析可以充分结合不同视图的优势,为临床医学的心脏异常检测、室壁运动结果分析等[1-3]提供帮助。例如,给定适当的MR采集设置,心脏MRI(cMRI)可以产生具有高切片内分辨率和低切片间分辨率的图像[4-5]。然而,要找到相应的结构并融合多视图信息是极具挑战的,因为在不同视图中感兴趣区域的位置可能相距较远。如图1所示,(a)(b)分别为短轴和长轴视图的心室标注结果,(c)和(d)展示了图(c)中的交叉标记如何使用该方法从(d)中的对应区域聚集特征。因此针对视图之间这种结构不对齐现象,非常需要设计模型对长距离依赖性进行建模。如果直接对未对齐的多视角图像进行简单的拼接,再进行特征提取,效果往往不好。因为卷积网络往往缺乏自动寻找对应关系的能力[2,6]。
对具有自注意力机制的变换器的研究在医学图像分析中取得了显著进展[7-9]。该方法提出从多个图像视角和多个尺度中合并不同的特征信息,并使用强大的注意力机制用于医学图像分割。通过使用卷积层进行局部特征提取,设计了注意力模块从跨尺度和跨视图的特征表示中捕捉长距离的相关性信息。为了收集图像不同视图之间的长期依赖关系,提出了发散融合注意力模块来实现跨视图的上下文建模和语义依赖挖掘。此外,多尺度注意力模块被用来提取多尺度特征表示的全局相关性,以确保金字塔结构的不同层级之间的特征一致性。
(a) (b) (c) (d)图1 不同视图对应的心室标注结果及特征聚集过程
图2 网络框架示意图
自注意力机制提供了基于单个输入特征的全局特征聚合。对于多视图任务,该方法对来自不同视图的输入进行建模。其将自注意力扩展到适用于多视角融合,从而引入了发散融合注意力机制。提出的发散融合注意力模块旨在发现未对齐数据中的对应关系,并补充多视图图像中的缺失信息。以图3中的3D短轴和2D长轴cMRI输入为例,长轴心脏图像的高分辨率信息可以用于补充短轴图像上心室底部和顶点的信息。
(1)
再对所有视角重复应用发散融合注意力模块。通过这种方式,来自不同视图的不同上下文信息可以在高维空间中进行融合,来修正目标视图中初始的特征表示。由于来自不同视图的输入没有对齐,所以在发散融合注意力模块中没有使用绝对或相对位置编码。此外,发散融合注意力模块的设计不限于多视图图像,可以应用在所有没有很好对齐的输入数据上,例如来自2D和3D数据的不同模态等。
(a)发散融合注意力模块 (b)残差块 (c)变换器块图3 不同模块的网络结构示意图
(2)
最后,多尺度注意的特征图以相应的尺度送回解码器对应的层,用于进一步的交互和预测。
在Cardiac MRI(M&Ms-2)数据集的多疾病、多视角和多中心的右心室分割任务中,对该方法进行了系统性的评估[11]。M&Ms-2数据集包含160次扫描,这些扫描是使用3家不同供应商(西门子、通用电气和飞利浦)的磁共振扫描仪分别在西班牙的3个临床中心具有不同右心室和左心室病理的受试者中收集到的。采集的MR图像由有经验的临床医生进行描绘,包括左心室(LV)、右心室(RV)和左心室心肌(MYO)。提供了具有不同帧数的MR序列,但是在短轴和长轴视图中仅标记了ED和ES帧。该方法将短轴图像的叠加视为3D数据,而将长轴的四腔视图视为2D数据。训练集包括正常的或扩张的左心室(DLV)、肥厚型心肌病(HCM)、先天性心律失常(CA)、法洛四联症(TOF)和心房间的传导(IC)等情况。
在训练过程中,随机打乱这160个扫描样本,并对所有模型进行5倍交叉验证的评估。所有模型都经过骰子(Dice)损失和焦点(Focal)损失的训练,批次大小(batch size)为32。使用了Adam优化器进行300个周期的迭代,学习率初始值为0.001,在每个周期结束后,学习率以初始值的0.99倍数进行线性衰减。算法的实现是基于PyTorch框架,使用8个Quadro RTX 8000 GPU来训练模型。对于数据预处理,所有图像需以1.25 mm的间距重新采样。同时,在训练过程中采用了一些数据增强策略,包括随机直方图匹配、旋转、移位、缩放、弹性变形和镜像。评估阶段采用了Dice分数和Hausdorff距离作为评价指标来量化不同模型的性能。
(a)输入图像 (b)ResUNet (c)MCTrans (d)UTNet (e)该方法 (f)真值标注图4 短轴(顶部)和长轴(底部)图像的分割结果
表1将该方法与若干主流方法进行了对比。其中,长轴为分割的目标视图。ResUNet利用残差块作为UNet的主要模块。MCTrans在编码器和解码器之间引入交叉注意力模块,以收集特征映射的交叉尺度依赖项。修正的DLA(rDLA)[12]基于领先的CNN架构(即深层聚合(DLA)[10]),通过重新修正阶段从交叉视图来聚合上下文信息。InfoTrans*[6]同样使用信息转换从交叉视图中聚合信息。结果表明,在短轴和长轴心脏MR分割方面,该方法明显优于其他方法。
通过将发散融合注意力模块与表1中其他的基线方法进一步进行多视图分割任务(标*方法所示)比较。可以发现,MCTrans*和UNet*的性能优于单视图网络,因为发散融合注意力模块具有相互的特征聚合能力。图4进一步显示出,与其他方法相比,该方法在多视图分割结果方面表现出更好的性能。
利用分割精度指标来评估该方法的性能。在图5(a)中,x轴数字表示该方法提出的发散融合注意模块所在的位置,例如,“45”表示分别在编码器的第4层和第5层应用两次该模块。随着层级的上升,该模块能够从其他视图收集更详细和更丰富多样的特征信息。当添加到第4层时,曲线会趋于饱和。然而,当将该模块添加到多个层级时,所学习的交叉视图先验有助于构建上下文的依赖性,并且在有限的额外计算成本下不断地提高性能。
表1 不同方法在Dice和Hausdorff距离的对比
(a)不同发散融合注意力设置的影响
(b)不同网络范式的结果对比图5 控制变量试验
图5(b)显示了使用不同网络范式时的效果对比。2.5D模式结合了短轴样本的两个相邻切片,形成了三通道输入,允许局部空间信息应用于分割。该方法应用了3D+2D的混合模式,明显优于其他基线方法。这是因为短轴和长轴数据之间的空间信息实现了对齐。对于每个短轴样本,包含了更多的直通平面纹理来构建与相应长轴图像的交叉视图相关性。该方法可以通过发散融合注意力模块更好地构建全局上下文相关性。
本文提出了发散融合注意力模块,通过卷积层和强大的医学图像自注意力机制,将关键的交叉视图信息合并到一起,从而提高分割性能。提出的多尺度注意和发散融合注意力模块允许丰富的跨尺度和跨视图上下文建模和语义依赖挖掘,有效地解决了在相同视角的不同尺度间以及不同视角的不同尺度之间的全局依赖捕获问题。