孙康康,陈伟,李奇轩,孙佳伟,焦竹青,倪昕晔*
脑肿瘤是大脑中脑细胞的异常生长,被认为是一种危及生命的疾病[1]。相关数据显示,脑肿瘤占全球所有原发性中枢神经系统肿瘤的85%以上,约占癌症相关死亡的2%~3%,对人类健康构成巨大威胁[2]。因此,脑肿瘤的早期诊断和治疗尤为重要。MRI 是一种非侵入性成像技术,能清晰显示软组织病变,广泛应用于脑肿瘤疾病的诊断和治疗。利用不同的成像序列获得同一组织不同角度或形态的MRI图像通常称为多模态MRI图像[3]。不同模态的MRI图像能够反映肿瘤区域的不同信息,而仅用单一模态的MRI图像所能表达的信息量有限,因此可以利用多模态MRI图像来准确地分割病变区域[4]。用于脑肿瘤分割的常用MRI模态包括流体衰减反转恢复(fluid attenuated inversion recovery, FLAIR)、T1 加权(T1-weighted, T1)、对比增强T1 加权(contrast-enhanced T1-weighted, T1ce)和T2 加权(T2-weighted, T2)。多种模态图像信息能够有效互补,充分细分相关区域的肿瘤,从而提高分割的准确性。从多模态MRI 图像中自动准确地分割脑肿瘤是临床诊断和制订治疗方案的重要步骤,可以为定量图像分析、辅助诊断和手术计划提供依据。目前,大部分脑肿瘤分割工作还是依赖于医生人工勾画,这种手动分割方法费时费力且受个人经验影响。因此,开发一种准确、可靠的自动脑肿瘤分割方法具有重要的临床意义。
MRI 反映脑肿瘤形状、结构和位置是高度可变的,不同肿瘤的形状和纹理差异较大且一些肿瘤没有明确的边界,因此自动脑肿瘤分割是一项具有挑战性的任务[5]。为解决上述难题,研究者基于不同原理提出了大量算法,这些算法可以分为传统图像分割方法和深度学习方法两大类。传统脑肿瘤分割方法依赖于图像本身的特征提取,而基于深度学习的方法通过神经网络自动从原始数据中学习特征表示,用高精确度的算法模型生成分割图像。
本文综述了近年来多模态MRI 脑肿瘤图像分割方法的研究进展。首先简要介绍了脑肿瘤分割中常用的MRI 图像。然后分别对传统图像分割方法和深度学习方法的最新研究进展进行讨论,其中重点介绍了深度学习模型在脑肿瘤分割中的应用并展示了部分方法在BraTS(brain tumor segmentation)数据集上的分割结果。最后分析了现有的基于多模态MRI 图像的脑肿瘤分割方法存在的问题,并对未来的研究趋势进行了展望,为相关研究者全面、快速地了解该领域的研究现状提供参考。
多模态MRI是不同成像参数下的成像序列,能从多角度保留脑部疾病的结构特征。主要包括常规MRI,如FLAIR、T1、T1ce 和T2、扩 散 加 权 成 像(diffusion weighted imaging, DWI)、磁敏感加权成像(susceptibility weighted imaging, SWI)、扩散张量成像(diffusion tensor imaging, DTI)、磁共振波谱成像(magnetic resonance spectroscopy,MRS)、灌注加权成像(perfusion weighted imaging,PWI)等[6],可以提供更全面的信息,有助于医生进行更准确的疾病诊断和制订治疗计划。在脑肿瘤多模态MRI中,常用的MRI序列包括FLAIR、T1、T1ce和T2。四种模态中的每一种都包含解剖信息的特定特征,不同模态的特征差异显著。图1 是BraTS2020 训练集中一个典型脑肿瘤影像,从左至右依次为同一患者的不同MRI模态成像结果。可以看出,T1模态有利于观察组织的解剖结构,如大脑中的灰质和白质。T2 和Flair 模态可以很好地捕捉到肿瘤和正常组织之间边缘明显的水肿区域,适合检测有瘤周水肿的肿瘤。而T1ce模态在识别具有高对比度的肿瘤核心和增强肿瘤方面更有效,它可以突出活跃肿瘤,清晰区分坏死区和实质区边界。不同模态的MRI 图像对病变区域具有不同的表征优势,因此,与使用单模态MRI 相比,使用多模态MRI 进行分割有助于降低不确定性,提高分割性能[7]。
传统多模态MRI 脑肿瘤图像分割方法可以分为分水岭图像分割方法、基于图论的分割法等。国内外学者就基于分水岭和图论方法对MRI 脑肿瘤图像的分割做了相关研究[8-14]。
分水岭分割技术本质上是一种基于区域增长的分割方法,可以用来分割图像中不同物体的边界,这种分割技术已广泛应用于脑肿瘤分割。
针对脑部MRI图像中因噪声、灰度不均匀及边界模糊不连续等造成肿瘤难以准确分割的问题,刘岳等[8]提出了一种基于形态学重建和梯度分层修正的分水岭分割方法,首先对原始图像进行形态学混合开闭重建以平滑去噪,然后根据梯度图像的三维地貌体积对其进行分层,多尺度修正消除产生过分割的非规则局部极小值,最后运用标准分水岭变换实现图像分割。相比标准分水岭和一些改进方法,该方法过分割率和欠分割率均较低,具有较好的分割效果。但分水岭分割方法容易受到图像中的噪声和物体表面细微的灰度变化的影响,继而产生过分割现象。针对这个问题,RAJAMANI等[9]在分水岭算法基础上提出了一种基于图谱方法的高效标记检测方法来解决过分割问题,改进的分水岭算法的Dice 和Tanimoto系数的精度分别为93.13%和88.64%。为了提高肿瘤的分割和识别精度,SIVAKUMAR 等[10]在常用的分水岭算法基础上使用卷积和相关形态学运算区分前景和背景,提出的改进分水岭算法提供了平均99.31%的脑肿瘤分割精度。此外,也有研究将支持向量机(support vector machine, SVM)等技术用于MRI 图像分割和肿瘤检测,HATCHOLLI SEERE 等[11]使用阈值和分水岭方法分割得到合适的肿瘤大小和形状后提交给SVM分类器来确定肿瘤,与其他分类器相比,SVM会给出更好的结果。基于分水岭的分割算法可以获得完整的封闭曲线,为后续处理提供轮廓信息,而分水岭算法对噪声比较敏感,容易出现过分割的情况。
基于图论的分割方法其本质就是移除特定的边,将图划分为若干子图从而实现分割。该方法是一种组合优化方法,即将图像分割问题转化为最优化问题。李伟等[12]提出了一种基于图论的最大流/最小切优化准则的三维脑肿瘤分割算法,结合期望最大化参数估计方法(expectation maximization, EM)来自动估计混合高斯模型的参数,实现了脑部肿瘤快速、准确且具有鲁棒性的三维分割。但是该方法还需要简单的人工交互,尚未完全实现全自动脑肿瘤分割。之后,GAMMOUDI 等[13]提出了一种基于图切的MRI脑肿瘤图像分割方法,通过将输入图像分割成最优的片段数,并使用超像素方法减少图中的节点数量,结合社区检测算法获得更准确的分割,实验结果表明,该方法具有较高的分割精度。MAMATHA 等[14]提出了一种基于图论的分割方法,该方法通过对极坐标图像构造加权有向图来对MRI脑图像进行分割,相比K 近邻方法具有更好的分割精度。基于图论的图像分割技术涉及较多的理论知识,在脑肿瘤图像分割领域应用并不常见,因此关于这方面的文献还比较少。
这些传统图像分割方法都取得了不错的分割效果,但也具有一定的局限性。分水岭方法会导致图像出现严重的过分割现象,传统的基于图论的分割方法计算复杂度大,容易受到噪音的影响,且分割速度慢。脑肿瘤的位置、大小和形状多变,以及不同种类脑肿瘤在MRI图像中呈现的灰度差异较大且边界模糊等因素,限制了此类图像分割算法的效果和应用。
深度学习是一种基于人工神经网络的机器学习概念[15],通过神经网络对输入数据进行特征提取,而不需要过多的人为参与[16]。近年来,随着深度学习的发展和应用领域的扩大,卷积神经网络(convolutional neural networks, CNN)等深度学习模型已广泛应用于脑肿瘤分割领域[17-18]。与传统图像分割方法相比,基于深度学习的方法可以自动从图像中提取特征,具有更高的精度和鲁棒性。目前主流的基于深度学习的多模态MRI脑肿瘤图像分割方法可分为基于CNN的方法、基于生成对抗网络(generative adversarial networks, GAN)的方法和基于Transformer的方法。
基于CNN的脑肿瘤分割方法早期采用小尺度图像块分类的思想来进行分割网络的设计,从而将像素标签预测转换为像素所在局部图像块分类问题[19]。但是由于相邻像素块基本是重复的所以会造成一定的计算冗余且需要更大的存储空间。针对这个问题,SHELHAMER等[20]提出了全卷积网络(fully convolution network,FCN),实现了像素级别的分类。U-Net[21]网络是FCN的一种改进和扩展,由于其优异的性能,被广泛应用于医学图像分割。自从引入U-Net 以来,编码器-解码器语义分割架构诸如Attention U-Net[22]、3D U-Net[23]、U-Net[24]已经在各种2D 和3D 医学图像分割任务上取得了巨大的成功。最近,一些研究者又做了如下工作,表1 列举了基于CNN 的多模态MRI 脑肿瘤分割方法在BraTS系列数据集上的性能表现结果。
表1 基于卷积神经网络的多模态MRI脑肿瘤分割方法评估结果Tab.1 Evaluation results of multimodal MRI brain tumor segmentation method based on convolutional neural network
受U-Net 的启发,KERMI 等[25]提出了一种基于2D深度神经网络(deep neural networks, DNNs)的全自动高效脑肿瘤分割方法,采用加权交叉熵损失和广义骰子损失作为损失函数来解决脑肿瘤数据中的类别不平衡问题,提高了网络的分割性能。后来NOORI等[26]利用注意力机制和多视图融合技术改进了2D U-Net架构,在脑肿瘤分割中取得更好的结果。不同模态的MRI信息对脑肿瘤分割至关重要,XUE等[27]提出了一种基于多编码器和多解码器CNN的分割方法,用于处理不同的图像模态和预测输入图像的不同子区域(多类分割),验证了多编码器-解码器结构的有效性。基于2D CNN 的方法忽略了关键的3D 空间上下文,一些学者开始利用3D 卷积进行脑肿瘤分割。PENG 等[28]提出了一种多尺度3D U-Net 架构,利用多个U-Net 块捕获不同分辨率的空间信息,并使用3D深度可分离卷积替代标准的3D 卷积以降低计算成本。ZHOU 等[29]提出了一种基于空洞卷积的3D CNN,解决了传统DNNs由于重复的跨步和池化操作导致的特征图分辨率损失问题,提高了模型对不同大小肿瘤的区分能力。基于3D CNN的方法具有更强的上下文信息感知能力,但3D 模型训练起来速度慢且需要更多的内存。ZHOU等[30]提出了一种高效的3D残差神经网络用于多模态MRI脑肿瘤分割,该网络使用轻量级3D ShuffleNetV2作为编码器,具有较低的计算复杂度和内存消耗。ZHANG 等[31]提出了一个跨模态深度特征学习框架,通过融合来自不同模态数据的知识来学习丰富的特征表示,以弥补医学数据规模上的不足,结果表明所提出的框架能够有效地提高多模态MRI 脑肿瘤分割的性能。为了解决脑肿瘤分割中缺失模态的问题,ZHOU 等[32]提出了一种新的基于特征增强生成和多模态融合的DNNs,用于缺失MRI模态的脑肿瘤分割。该方法首先通过特征增强生成器生成表示缺失模态的三维特征增强图像,然后利用基于多编码器的U-Net网络进行最终的脑肿瘤分割。为了进一步提高分割精度,TIAN等[33]在CNN中引入了轴向注意力机制来捕获更丰富的语义信息,并通过深度监督和混合损失模型处理数据类别不平衡问题,提高了分割性能。综上所述,基于CNN 的分割方法能够自动提取特征和处理高维数据,但存在分割模型泛化能力不足、解释性较差等问题。
基于GAN的深度模型具有泛化性和鲁棒性,常用于脑肿瘤分割、检测、多模态合成。表2 列举了基于生成对抗网络的多模态MRI脑肿瘤分割方法在BraTS系列数据集上的性能表现结果。
表2 基于生成对抗网络的多模态MRI脑肿瘤分割方法评估结果Tab.2 Evaluation results of multimodal MRI brain tumor segmentation method based on generative adversarial networks
REZAEI 等[34]提出了一种新的3D 条件生成式对抗结构voxel-GAN,用于缓解脑肿瘤语义分割中训练数据不平衡的问题。后来,CIRILLO 等[35]提出了一种用于脑肿瘤分割的3D volume-to-volume GAN,称为Vox2Vox,并验证了集成多个Vox2Vox模型可以产生高质量的分割输出。另外,DING等[36]提出了一种两阶段ToStaGAN 方法,其中第一阶段采用U-Net 网络作为“粗”生成网络,第二阶段采用U型上下文自编码器作为“细”生成网络,通过充分利用高层次的语义信息来提高脑肿瘤的分割性能。同年,KHANH等[37]提出了一种称为3D-GAN的分割方法,该方法的新颖性集中在多尺度GAN的构建以及引入了三维脑MRI和肿瘤的可视化应用程序来提高分割的精度。同样改进了GAN网络模型的还有CUI 等[38]在GAN 基础上进行创新提出GAN-segNet,通过将输入数据的自编码器学习表示加入到GAN中,同时使用一个基于焦点损失概念的创新损失函数,可以准确地分割脑肿瘤,同时有效地减轻标签不平衡的影响。为了获得更好的生成和分割性能,在循环生成对抗网络(cycle-consistent GAN,cycleGAN)的基础上,ZHU等[39]提出了一种双尺度多模态感知DualMMP-GAN,用于生成高质量的新模态MRI,并提出将给定模态与生成模态相结合的方法来进行脑肿瘤分割,其分割性能优于单模态图像。AZNI等[40]使用cycleGAN从多通道MRI图像中进行特征提取,采用迁移学习技术向网络中注入有价值的特征,提高了分割的准确性。深度学习方法可以用于脑肿瘤分割任务,但通常需要难以获得且耗时的手动注释分割标签来进行训练。YOO等[41]提出一种新的基于GAN的弱监督脑肿瘤MR 图像分割方法,该方法利用简单易获取的二值图像级标签,在没有真值标注的医学磁共振图像中有效地分割异常区域。
综上所述,基于GAN的脑肿瘤分割方法能生成更接近真实标记数据的脑肿瘤医学图像,在一定程度上解决了脑肿瘤分割中训练样本不足的问题。由于GAN 对训练数据的依赖性小、易于与其他神经网络结合、生成效果好等优点,近年来基于GAN 的脑肿瘤分割方法得到了越来越多的应用。但GAN 在训练中存在着不稳定等问题,难以收敛。
尽管基于CNN的分割方法具有很好的表示能力,但受限于卷积核感受野的大小,很难从全局特征空间建立一个显式的长距离依赖,这就给学习全局语义信息带来很大的挑战,而全局语义信息对于脑肿瘤分割这种密集预测任务至关重要。受到自然语言处理领域注意力机制的启发,目前许多研究将注意力机制与CNN相结合来解决这个问题。Transformer最早应用于自然语言处理领域,是一种主要基于自注意力机制的深度神经网络[42]。Transformer在建模全局上下文信息和建立长距离依赖方面有良好表现。得益于其强大的表征能力,Transformer 已经逐渐应用在计算机视觉领域。其中,视觉Transformer(vision Transformer, ViT)[43]首先证明了将Transformer 应用于图像处理的可行性和有效性。目前,一些研究者已经将Transformer 应用于3D 多模态MRI 脑肿瘤分割任务,并取得了令人满意的结果。表3列举了基于Transformer 的多模态MRI 脑肿瘤分割方法性能表现,这些方法多以Transformer为框架。
表3 基于Transformer的多模态MRI脑肿瘤分割方法评估结果Tab.3 Evaluation results of multimodal MRI brain tumor segmentation method based on Transformer
近年来,越来越多的研究工作倾向于将Transformer和CNN相结合,以达到网络模型既能提取全局信息又能提取局部信息的目的。WANG 等[44]提出了一种新的基于编-解码结构的分割框架TransBTS,该框架将3D CNN 和Transformer 结合起来用于多模态脑肿瘤分割,不仅利用3D CNN捕获局部上下文信息,同时利用Transformer学习全局语义相关性,从而提升了分割精度。为了设计一种更有效的脑肿瘤分割模型,LI 等[45]提出了一种混合CNN-Transformer 体系结构TransBTSV2。与TransBTS[44]不同,TransBTSV2 在跳跃连接部分引入可变形卷积来捕获形状感知的局部细节,从而改进了模型分割。为了降低Transformer 的计算复杂度,LIU[46]等提出了Swin Transformer,它利用基于窗口的自注意力来减少参数和计算,并使用移位窗口机制来实现全局依赖建模。之后,HATAMIZADEH等[47]提出了U-NETR,其采用纯Transformers 作为编码器来学习输入的序列表示,并有效地捕获全局多尺度信息,从而获得了更好的分割精度。LIANG 等[48]也提出了一种高效的基于Transformer 的U-Net,称为3D PSwinBTS,通过基于3D 并行移位窗口的Transformer 模块提取远程上下文信息,并在编码器中引入语义先验,以实现高效的语义建模。比较典型的还有JIANG 等[49]提出了一种新的3D 医学图像分割方法SwinBTS,该方法使用3D Swin Transformer作为编码器来提取上下文信息,并使用改进的Transformer 模块来增强细节特征提取能力,从而使得模型对图像中占比较小的类别(如增强肿瘤)也具有较强的分割能力。LIANG 等[50]提出了一种基于Swin Transformer 的三维U 型对称脑肿瘤分割网络BTSwin-U-Net,该网络使用自监督学习框架来解决训练数据较少的问题。多模态MRI图像的联合利用实际上是多模态图像分割任务的关键问题。然而,现有的脑肿瘤分割方法大多采用早期融合策略,将多模态图像连接起来作为网络输入,导致很难探索不同模态之间的非线性关系。为了缓解这个问题,XING等[51]提出了一种新的嵌套模态感知Transformer,称为NestedFormer,用于有效和鲁棒性的多模态脑肿瘤分割。该方法利用嵌套Transformer 建立用于脑肿瘤分割的多模态MRI 模态内和跨模态间的长距离依赖关系,从而获得更有效的特征表示。针对在临床实践中,并不总是能够获得一套完整的MRI,缺失模态的问题导致现有多模态分割方法的性能严重下降。为了解决上述问题,YANG 等[52]提出了一种具有MD-Stage 和TD-Stage 的双重解纠缠网络D2-Net,该网络旨在捕获模态和肿瘤区域之间的相关性,用于缺失模态的脑肿瘤分割。
综上所述,基于Transformer的分割方法可以处理长距离依赖性和全局上下文信息,但Transformer模型复杂的计算和巨大的训练成本是将其应用于脑肿瘤图像分割的主要挑战。结合ViT 的脑肿瘤图像分割方法已经取得了非常先进的效果,未来对ViT的改进将继续获得更好的分割网络。
目前,在脑肿瘤分割中,深度学习算法可以通过在足够大的数据集上进行训练来学习分割MRI图像。与传统的分割方法相比,基于深度学习的多模态MRI脑肿瘤分割方法能够直接从数据中学习复杂的特征表示,预处理步骤更少,具有效率高、结果更准确、泛化能力强等优点。然而,MRI 图像中可能存在伪影和噪声,导致脑肿瘤边界模糊、对比度低,从而影响分割的精度。此外,深度学习方法需要大量人工标记的数据来训练模型,但医学图像数据往往难以获取且规模相对较小,这也带来了一定的困难。
本文主要从传统分割方法和深度学习分割方法对近年来多模态MRI 脑肿瘤图像分割方法进行了梳理。通过对比分析,无论是哪一类方法都可以解决分割中的一些问题,相比于更早的研究有明显的改进,例如分割准确率更高、处理速度更快等。然而,在泛化能力方面存在不足。传统的脑肿瘤分割方法大多简单易行,但难以处理复杂图像,分割精度普遍较低。基于深度学习的图像分割方法可以从脑肿瘤图像中提取高层次的语义特征和全局特征,但其可解释性较差。深度学习技术的应用推动了脑肿瘤分割研究的进展,尽管有所突破,但仍有挑战有待解决,需要进一步研究探索。
通过对现有分割方法的研究和总结,从以下几点分析存在的问题并展望未来的研究方向:(1)目前脑肿瘤MR图像分割方法通常需要大规模的标注数据来训练模型,而这些数据的收集成本很高。因此,采用自动编码器等无监督模型,以及通过少量标签的弱监督学习来准确分割脑肿瘤MR图像将成为一个热点研究方向。(2)深度学习的脑肿瘤分割方法目前仍然缺乏可解释性和透明性,尽管基于深度学习的方法在脑肿瘤分割领域表现突出,但临床医生难以直接理解模型的决策过程,从而不能与其临床判断进行比对,创造更有价值的临床脑肿瘤图像分割网络,这导致现有的基于深度学习的脑肿瘤分割方法还未真正实现临床应用。因此,提高深度学习模型在脑肿瘤分割中的可解释性是一个重要的研究方向。(3)由于脑肿瘤背景在MR图像中所占比例太大,而肿瘤区域所占比例太小,在分割过程中很难准确有效地定位,所以如何解决类不平衡问题仍需要研究者不断探索。(4)随着深度学习技术的发展,越来越多的研究成功地将基于神经网络的模型应用到脑肿瘤分割任务中,从流行的CNN 到最近的Transformer。深度神经网络虽然很大程度上提升了脑肿瘤分割精度,但网络复杂度也随之增加,无法实时分割,如何使用Transformer构建轻量化分割网络实现脑肿瘤的高精度分割,从而实现脑肿瘤分割方法的临床应用将会是未来研究的重点。
尽管脑肿瘤分割面临较多挑战,但随着深度学习技术的不断进步,以及脑肿瘤影像质量的提升,相信在不远的将来,目前脑肿瘤分割方法的局限性与不足会逐一解决,从而促进其在临床实践中的应用。
作者利益冲突声明:全体作者均声明无利益冲突。
作者贡献声明:倪昕晔设计本研究的方案,对稿件重要的智力内容进行了修改;孙康康起草和撰写稿件,获取、分析或解释本研究的文献;陈伟、李奇轩、孙佳伟、焦竹青获取、分析或解释本研究的文献,对稿件重要的智力内容进行了修改;倪昕晔获得了江苏省重点研发计划社会发展项目、江苏省卫健委面上项目资助。全体作者都同意发表最后的修改稿,同意对本研究的所有方面负责,确保本研究的准确性和诚信。