朱静逸,李海庆,金倞,3,耿道颖,,3
前列腺癌早期病灶在影像学上难以被发现,超过半数的前列腺癌病人到晚期才确诊,早期精准筛查对于该病的干预治疗十分重要[1]。MRI 对前列腺癌具有较高的软组织分辨力,能很好地区分正常及病变组织,而基于深度学习的计算机辅助诊断系统可以帮助放射科医生提高阅片效率并降低误诊、漏诊率。其中,对前列腺及前列腺癌病灶分割是前列腺癌计算机辅助诊断中的一项关键技术,精确地对前列腺分割对于前列腺癌的精准诊疗、预后预测具有重要的临床价值。
目前,常用于前列腺分割及前列腺癌筛查的MRI 公开数据集包括PROMISE12(Pro12)、I2CVB、PROSTATEx Challenge (Pro -Ex)、PROSTATEx -2 Challenge(Pro-Ex2)、NCI-ISBI-2013(NCI-13)和QIN-PROSTATE Repeatability(QIN-Pro)等。数据集可以分为3 类,第1 类仅完成前列腺腺体分割任务,如Pro-12、NCI-13、QIN-Pro;第2 类仅进行前列腺癌分类或者分级,如I2CVB;第3 类可以同时实现分割与分类,如Pro-Ex 和Pro-Ex2,这2 个数据集由经验丰富的病理学专家对数据进行5 级Gleason 等级标注,用于识别前列腺癌病灶并对前列腺癌病变进行分级。详见表1。
表1 常用的前列腺及前列腺癌分割的MRI 公开数据集
基于深度学习的前列腺分割,首先要将前列腺MRI 数据进行清洗、增强等预处理,然后通过深度学习框架进行特征提取,对深度学习模型进行训练,通过不断调整参数优化得到最优的训练模型,将数据载入模型中完成对前列腺腺体或前列腺癌病灶的分割。目前常用于前列腺MRI 影像分割的深度学习方法可以分为5 类,包括卷积神经网络(convolutional neural networks,CNN)、U-Net、分辨率增强、对抗生成(generative adversarial net,GAN)和Transformer。
2.1 CNN CNN 是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。CNN 的基本结构包括输入层、卷积层、池化层、激活函数层和全连接层五部分。Wang 等[2]基于CNN提出组织形变网络(tissue deformation network,TDN)用于诊断前列腺癌,结果发现使用TDN 方法对特征提取和分类更加准确。Song 等[3]构建了一个基于补丁的深度卷积神经网络(deep convolutional neural network,DCNN),结合多参数MRI 数据来分辨有无前列腺癌组织。Cheng 等[4]提出基于短连接的整体嵌套网络(holistically nested net,HNN)用以分割前列腺腺体及中央带,分割两者的Dice 相似系数(Dice similarity cofficient,DSC)分别为0.92 和0.90。Arif等[5]分析了低风险前列腺癌病人的多参数MRI,利用一个3D CNN 模型来分割并识别前列腺中的病灶。在近几年的研究中,Anneke 等[6]提到的3D Multistream CNN 分割方法的分割效能最好,在Pro-Ex 数据集上分割前列腺的DSC 可达0.939。该方法采用多平面3D CNN 的架构,可同时处理多个平面(横断面、冠状面、矢状面)的MRI 影像用以提升前列腺分割的分辨力,并且提高了分割前列腺的准确度。目前,基于CNN 的分割技术用于前列腺的分割效能均较好(均DSC>0.85),但其缺点是池化层会丢失有价值的信息,忽略整体和局部之间的关联性,且训练模型需要大样本量。
2.2 U-Net U-Net 是一种优秀的图像分割方法,其网络结构是对称的,形似英文字母U,故而被称为U-Net。就整体而言,U-Net 是一个编码-解码结构,编码部分用于特征提取,解码部分用于上采样。与CNN 不同之处在于CNN 是图像级的分割,而U-Net是像素级的分割,其输出的是每个像素点的类别。Hassanzadeh 等[7]引入了基于8 种不同短连接结构的3D 全卷积神经网络(fully convolutional networks,FCN)方法对前列腺MRI 影像进行分割,分割DSC达到0.873。Rundo 等[8]采用了一种新的USE-Net 的分割方法,在U-Net 编码器和解码器架构中都使用了注意力感知(squeeze-and-excitation,SE)模块,该方法在多个数据集上进行了训练和测试,结果表明SE 模块能够重新校准自适应特征,因而具有出色的跨数据集泛化性,在对前列腺中央带和外周带的分割DSC 分别达到0.915 和0.76。Astono 等[9]采用简单的2D U-Net 方法在基于MRI T2WI 影像的非公开数据集中进行分析,在前列腺腺体和外周带分割DSC 分别达到0.87 和0.89。Silva 等[10]开发了粗分割方法,该方法应用线性迭代聚类结合局部纹理的算法和概率图谱深度CNN 中的空间知识以及粒子群优化方法,分割前列腺组织。Baldeon-Calisto 等[11]提出了一种AdaRes U-Net 的新方法,实现了带有残差学习框架的U-Net,提升了对MRI 中前列腺的分割性能(分割DSC 达到0.848)。Zhou 等[12]采用一种新颖的3D U-Net 方法用于前列腺MRI 分割,该模型具有3 个关键结构,包括分辨率感知卷积下采样层、残差批量归一化结构和case-wise 损失函数,分割DSC 达到0.91。上述研究中的U-Net 在执行图像分割任务的同时都可以保留细节信息,在处理小目标或者细节复杂的图像时,分割效能较为良好。
2.3 分辨率增强技术 分辨率增强技术是指通过特定的算法将低分辨率图像恢复成相应的高分辨率图像,并将低分辨率图像重建出高分辨率图像的过程。该技术旨在克服或补偿由于图像采集系统或采集环境本身的限制所导致的图像模糊、质量低下、兴趣区不明显等问题。分辨率增强技术包括基于插值的超分辨率增强技术和基于子像素卷积放大图像尺寸等技术。Jia 等[13]提出了一种称为混合鉴别网络(hybrid discriminative network,HD-Net)的方法,在HD-Net 中能够实现金字塔卷积块和残差细化块,通过收集前列腺区域的多尺度空间上关联信息,将多尺度特征结合起来将传播损耗最小化,分割DSC 达到0.95。Zhu 等[14]提出一种边界加权域自适应神经网络(boundary-weighted domain adaptive neural network,BOWDA-Net),用来解决前列腺MRI影像边界模糊的问题,将高级转移学习方法用于BOWDA-Net 能够解决MRI 断面数量少的问题,边界损失函数有助于在MRI 影像中对前列腺进行精确的边界分割,分割DSC 达到0.925。Khan 等[15]对MRI 数据集的影像进行中心裁剪和归一化,并提取二维图像以获取更好的分割结果,分割DSC 达到0.928。Liu 等[16]提出了一种用于医学图像的新型形状感知元学习(shape-aware meta-learning,SAML)方法,该方法能够通过模型训练期间的域变化提升模型的鲁棒性,还能利用形状感知损失函数对元优化过程进行正则化处理,该方法分割DSC 达到0.876。Yaniv 等[17]将3D 光模块替代了3D 卷积模块来改进V-Net 网络,在不影响分割结果的情况下,新网络减少了参数,提升了分割的效率(DSC 为0.86)。Singh等[18]采用了基于图谱的方法,结合部分体积校正算法对前列腺的移行带和外周带进行分割,最后利用3D Chan-Vase 轮廓方法进行形态学操作,从而获得前列腺的分割区域。Liu 等[19]将多站点网络用于前列腺分割,该方法能够利用网络主干中的特定域的批量规一化层来平衡站点间的数据异构性,并从多站点数据中学习高级图像信息来实现分割方法的改进,分割DSC 达到0.915。Ghavami 等[20]评估了6 种不同深度CNN 模型用于前列腺T2WI 影像分割的效能,其中HighRes3dNet 方法分割的DSC 最高,达到0.89。Zhu 等[21]使用形态学方法和分水岭变换对扩散加权成像(DWI)图像进行粗分割,利用粗分割的输出获取兴趣区(ROI),将ROI 调整为192 mm×192 mm 像素,然后输入级联的U-Net 架构用于前列腺MRI 影像的分割,分割DSC 达到0.87。Zavala-Romero 等[22]提出了一种用于前列腺MRI 影像分区分割的3D 多流U-Net,首先对数据集的图像进行归一化处理,然后利用线性插值来实现MRI 影像的像素值重新分布,数据集的预处理增强了前列腺MRI 影像的分割效果,分割DSC 为0.893。
近年来,基于U-Net 的方法和基于分辨率增强的方法在Pro-12 数据集上记录的最佳DSC 分数为0.95[13],这是在公开数据集记录的最高DSC 值。
2.4 GAN GAN 属于深度学习方法,是近年来复杂分布上无监督学习最具前景的方法之一[23]。该网络以随机变量作为输入,并应用转换函数生成与目标分布相似的分布数据。该方法包含2 个模块,生成模型和判别模型,通过2 个模块对抗学习产生相对好的输出结果。
Kohl 等[24]提出了一种将全卷积网络与对抗性训练结合的GAN 模型,在CNN 中使用对抗性损失可以更好地检测前列腺癌区域。Zhang 等[25]提出了用于前列腺癌分割的双重注意对抗的GAN 网络,将U-Net 作为网络主体生成预测的输入图像掩码,通过一个具有对抗性学习的鉴别器网络来区分生成器预期掩码和真实掩码,使得网络效率提高得更多。Nie 等[26]提出了基于GAN 方法的前列腺MRI 分割框架,该框架由分段网络、置信度网络和难度感知衰减机制组成,置信度网络能够生成提供分割区域信息的置信图,难度感知衰减机制通过将信心学习与对抗性学习相结合来改进分割过程,分割DSC达到0.909。Girum 等[27]构建了一种深度生成模型神经网络(deep generative model-driven net,DGMNet)用于前列腺MRI 的分割,分割DSC 达到0.93。Cem Birbiri 等[28]评估了cGAN、Cycle GAN 和U-Net 在前列腺T2WI 分割中的作用,其中cGAN 在mp-MRI数据集的DSC 方面表现最好,分割DSC 达到0.76。
基于GAN 的前列腺分割在公开数据集Pro-12上分割效能最佳的方法是SegDGAN,该方法中包括一个由密集连接块组成的完全卷积生成网络,以及一个具有多尺度特征提取的判别网络,将其用于前列腺分割具有很好的分割效能,DSC 为0.925;同时,该方法采用了平均绝对误差和DSC 系数来优化目标函数,从而提高了分割精度[29]。
2.5 Transformer 在前列腺MRI 影像特征提取过程中往往存在较为明显的噪声,为特征提取带来了一定难度。Transformer 作为近期应用较为普遍的分割方法,比CNN 在自然图像的分割上表现出更强的性能,同时对输入的干扰有更好的鲁棒性。Zhang等[30]提出了一种用于前列腺分割的并行分支架构的TransFuse 方法,该方法可以有效地捕获影像间依赖关系和低级空间细节,能够提升传统CNN 方法对前列腺分割的准度。Hung 等[31]采用Transformer 方法建立了一种交叉切片注意力变换器(cross-slice attention transformer,CAT)模块用于3D 前列腺区域分割,该模块可以合并到任何现有的基于跳跃连接的网络架构中,以分析其他解剖层面的远程信息。Pollastri 等[32]提出了基于长距离自监督方法的Transformer 模型,能够将不同解剖层面上收集的上下文信息合并在一起来构建重要的特征信息,该方法可以提高前列腺MRI 分割的精度。从2020 年开始,基于Transformer 的方法在医学影像分割领域普遍应用,现已逐渐应用于前列腺MRI 影像分割,但是相关研究仍较少。在近期的研究中,基于CAT 模块的前列腺分割效果最好,其DSC 分数最高可以达到0.904[32]。尽管Transformer 分割方法为近年的研究热门,但目前其在前列腺中的分割效能明显不如传统前列腺MRI 分割方法,相关可供参考的前列腺研究仍较少。
综上所述,在网络架构中结合CNN 和Transformer 各自的优势可以做到扬长避短地提升分割效率,基于Transformer 和CNN 结合的前列腺MRI 分割方法将是未来前列腺影像分割的重点研究领域。相对于自然图像,医学影像的标注主要依靠放射科医生和病理科医生手工标注,前列腺癌计算机辅助诊断研究的挑战主要还是具有精准标注的公开数据集仍然较少,因此未来应建立更多精准标注的公开数据集,以利于对前列腺癌计算机辅助诊断的研究。