基于深度学习的医学图像配准技术研究进展

2021-08-06 08:23郭艳芬杨智鹏胡金蓉

计算机工程与应用 2021年15期

郭艳芬，崔喆，杨智鹏，彭静，胡金蓉

1.中国科学院成都计算机应用研究所，成都 610041

2.中国科学院大学，北京 100049

3.成都信息工程大学计算机学院，成都 610225

随着医学成像设备的发展，对患者的图像可以采集到含有准确的解剖信息如计算机断层扫描成像（Computed Tomography，CT）、磁共振成像（Magnetic Resonance Imaging，MRI），也可以采集具有功能信息的图像，如正电子发射计算机扫描（Positron Emission Tomography，PET）、单光子发射计算机断层成像（Single Photon Emission Computed Tomography，SPECT）。如何将多模态的信息准确地融合到同一图像中，帮助医生从各个角度观察病灶和结构，这对于病灶检测、临床诊断、手术规划、手术导航、疗效评估等有着广泛的应用价值[1-4]。图像配准的作用是比较或融合同一对象的多模态影像，寻找最优空间变换，使两幅医学影像的对应点在给定相似性度量下实现空间位置和解剖信息一致[5]，从而得到信息融合后的医学影像。

基于深度学习的医学图像配准方法相较于传统机器学习的配准方法，具有很大的优势与潜力，近几年来有越来越多的研究人员开展此项工作，且有不少相关的工作发表。目前基于深度学习进行医学图像配准的方法主要分为三类[6-7]：（1）结合传统配准方法的深度迭代配准。其基本思想是在传统配准方法中嵌入神经网络来提取特征或者学习相似性测度，不断迭代优化目标函数。（2）监督或弱监督学习。在训练学习网络时，需要提供训练样本所需要的相应标签，即真实形变场（Ground Truth），然后利用预测的形变场对移动图像（Moving Image）进行插值，得到配准图像。（3）无监督学习。不同于监督学习，仅需要配准网络作用于输入图像，获得形变场，对移动图像进行变形插值，即得配准图像。目前基于深度学习的医学图像配准关键技术如图1所示。

图1 深度学习用于医学图像配准的方法概览Fig.1 Overview of deep learning methods used for medical image registration

通过在Web of Science、CNKI、Google Scholar 等数据库中检索到的学术文献，对近年来基于深度学习的医学图像配准研究趋势做了统计。从图2可以看出，该领域的研究逐渐从部分依靠深度学习（深度迭代配准）到完全依靠深度学习（即端到端的无监督学习配准框架），实现了配准任务的方向转变，深度学习在医学图像配准领域发挥越来越大的作用与潜能。从监督学习方法被提出后，基于深度学习的配准研究文献数量飞速增长，深度学习开始在医学图像配准领域发挥真正的优势；此后，面对大量无标注的医学原始图像及训练数据集匮乏的问题，大量学者开始迈向无监督学习领域的配准方法研究。

图2 近年来基于深度学习的医学图像配准的方法研究趋势Fig.2 Research trend of medical image registration methods based on deep learning

1 传统机器学习方法下的图像配准技术

机器学习[8]是一门多领域交叉学科，涵盖概率论、统计学、近似理论和复杂算法等多门学科，其主要研究对象是人工智能，致力于真实实时的模拟人脑的学习方式，在经验学习中改善算法性能。随着医学图像数据量的快速增长和处理任务复杂度的提升，机器学习作为一种有效的数据分析技术，被广泛应用于医学图像分析[9]，如疾病检测、诊断与评估、图像配准与分割等[10]。传统机器学习解决医学图像任务常用算法有决策树[11]、随机森林[12]、支持向量机（Support Vector Machine，SVM）[13]、模糊均值[14]、贝叶斯学习[15]等，该类方法的局限性有两点：一是需要结合先验知识进行特征设计，如心脏分割、冠脉分割；二是处理高维特征数据时会产生维数灾难。

Huang等[16]提出一种基于决策树的快速图像插值算法来预测输入的高分辨率图像块，但需要预先进行训练，算法时间成本较高。Ma 等[17]构造了一个新的二阶光滑支持向量机模型，结合牵引果蝇算法与其结合起来，建立配准变化模型估计关系，能够很好地估计固定图像和待配准图像之间的高维特征向量关系。Xiang等[18]将字典学习和结构聚类结合在统一的变分框架中，发现了二者的权衡关系，取得良好的插值效果，但该算法的时间开销较大。传统机器学习方法需要训练数据，且先验知识的规范性直接影响到模型的性能。针对这些问题，机器学习技术研究延伸到了深度学习方向。

2 基于深度学习的医学图像配准技术

深度学习是机器学习的一个重要分支，能通过原始数据直接提取特征，且提取的特征更高维、更抽象。随着其在图像处理领域中的广泛应用，已在生物医学图像处理中的器官分割、病变检测与分类、治疗计划等领域取得不错的进展；基于深度学习的医学图像配准方法相较于传统机器学习的配准方法，具有很大的优势与潜力[19-23]。在引入深度学习初期，大多配准方法是利用神经网络提取特征或者学习相似性测度，然后结合传统的配准方法获得配准图像。之后，为了获得越来越复杂的图像特征，学习到特定任务的特征并追求更快的配准速度，基于监督或无监督的生成对抗网络成为图像配准领域的研究热点。

2.1 深度迭代配准

基于深度迭代优化配准是深度学习应用于医学图像配准早期时，对迭代算法的直接扩展，其思想是利用神经网络提取特征描述子，或使用深度学习代替传统配准算法中的相似性度量函数。常用的配准方法有两种：一是基于特征点，需要提取特征、匹配特征，通过拟合或插值算法得到形变场；二是基于特征描述子。Yang等[24]用预训练的VGG 网络生成特征描述子，该描述子的性能优于SIFT 探测器，同时保留卷积信息和局部特征。Wu 等[25]构建双层的卷积网络，选择大量的关键点得到patch 的层次化特征，用学习到的数据自适应特征代替人工设计的特征进行配准。Cheng等[26]提出一种新的深度相似性学习方法，训练分类器来学习两个图像patch块的对应特征点。将分类输出转化为联系的概率值作为相似性测度的衡量依据。Simonovsky 等[27]提出使用基于CNN 的相似性度量方法，采用梯度下降法迭代更新形变场的参数。该方法用于多模态医学图像配准，为基于增强学习的多模态配准奠定了基础。基于深度学习网络估计两幅图像的相似性度量，驱动迭代优化，并没有充分发挥深度学习的优势；相较于传统方法提高了配准效率，但仍然难以实现实时配准。

2.2 监督学习配准

监督学习配准算法需要在训练学习网络时提供训练样本的标签，即真实形变场。获取标签的方式是利用传统的迭代优化配准，将得到的形变场作为训练标签数据[28-29]，或是将模拟形变场作为标签数据[30-31]。引入神经网络执行配准过程，大大提高了配准的速度。基于监督学习的配准，需要在训练学习网络时，提供与配准对相对应的真实变形场（Ground Truth），其框架如图3所示。

图3 基于监督学习的配准框架Fig.3 Image registration framework based on supervised learning

2.2.1 全监督学习配准

Chee 等[32]采用仿射图像配准网络（AIRNet）设计，用于直接估计三维脑MR的转换参数，并用MSE对网络进行训练，结果表明该方法对单模态和多模态配准性能均优于迭代算法。Sloan等[33]利用CNN网络对单模态和多模态T1 和T2 加权脑MR 图像配准，在训练过程中加入学习拟一致性的学习空间变换进行回归；单模态配准共享卷积层参数，用于提取图像底层特征；多模态配准分别学习这些参数。实验结果表明与B 样条方法相比配准性能更优越。

2.2.2 弱监督学习配准

由于监督学习对训练标签数据的依赖，研究学者提出了弱监督学习的配准方法。由于医学图像数据收集困难且对数据标注要求高，弱监督学习事先分割出关键部位，如脏器部分、血管、导管或其他特殊结构的关键点等作为标签，选择含有解剖信息的标签作为目标函数；可利用有限的标签数据进行医学图像的处理，进而实现疾病的分类、病灶的定位及分割多种任务[34-35]。Hu等[36]提出一个新的弱监督配准网络结构，在不同分辨率的特征层上预测形变场，并求和最终得到从低层的全局信息到高层的局部信息，证明了对稀疏标注图像进行非迭代预测的可行性。Hu[37]团队又引入GAN的思想对形变场正则项增加一个判别器，用于判断生成器生成的局部形变场真实性。Blendowski 等[38]提出一种弱监督的方法来学习领域特定的传统指标的集合，将学习到的匹配准则集成到优化框架中，形成基于解剖结构的空间变化相似度量函数的多度量算法。

2.3 无监督学习配准

监督学习的方法问题在于将真实的形变场作为金标准，对金标准的依赖大，而真实的形变场难以得到，这成为困难监督学习方法的一个难题。由于医学图像数据集的特殊性，无监督学习的配准方法能够利用临床中广泛的原始数据且无需标注（即真实的形变场）训练各种神经网络，构建回归模型以生成变换参数[39-41]。无监督学习的方法分为基于图像相似性测度和基于特征学习两种。图4为基于相似性测度的无监督学习框架。

图4 基于非监督学习的配准框架Fig.4 Image registration framework based on unsupervised learning

Bob等[42]首次提出基于端到端的无监督形变配准网络（Deformable Image Registration Network，DIRNet），并用于MNIST 和SCD 数据集，配准效果优于监督学习方法。Zhao等[43]提出一种深度递归级联的网络结构，在肝脏CT图像和脑MRI图像上都做了算法评测，提出一种shared-weight级联技术，可以直接增加递归深度并提高准确率。Kori等[44]提出一个无监督的图像配准框架，使用预训练网络作为特征提取器，对二维T1和T2加权脑MR进行多模态配准和仿射变换参数回归。

生成对抗网络（Generative Adversarial Network，GAN）是一种无监督的训练方法，通过模型中生成器和判别器的相互博弈学习产生输出。GAN具有强大的图像生成能力，可以帮助解决隐私性问题和训练样本不足的问题[45]。自Goodfellow提出后，开始广泛应用于医学图像处理领域。GAN[46]在医学图像中的应用方式分为两种，一种是利用生成器来帮助探索和发现训练数据的潜在结构和学习生成新的样本，用以解决数据缺乏和病人隐私问题。另一种方式是利用判别器进行分类或是疾病区域的检测。生成对抗网络的模型如图5所示。

图5 生成对抗网络模型Fig.5 Generative adversarial network

GAN 的判别器D 和生成器G 本质为神经网络，为了引入对抗损失，通过对抗训练的方式让生成器能够生成高质量的图片。对抗学习可以通过判别函数和生成函数之间的目标函数的极大极小值来实现，对抗的目标函数V(D,G)可以表示为[47]：

其中，D是判别器函数，G是生成器函数，z为随机向量，x为图像数据，E(⋅)表示分布函数的期望值，Pdata(x)代表真实样本的分布，Pnoise(z)是定义在低维的噪声分布。式（1）同时极大化判别器D 的判断能力，极小化生成器G的输出判断为伪造的概率。

Fan 等[48]提出基于GAN 的无监督配准模型，无需指定图像间的相似性度量指标，用生成器来学习形变场，用判别器来衡量输入的一组图像对的相似性。Mahapatra等[49]利用GANs进行多模态医学图像配准，联合使用条件损失与循环一致性损失改进损失函数，消除了传统方法耗时的迭代，直接生成有形变场的配准图像，以获得更加真实、平滑的配准图像。GAN是近年来富有前景的深度学习模型之一。

3 深度学习技术下的医学图像配准关键问题

3.1 多模态医学图像配准

临床诊疗中，对同一患者的不同成像设备获得的多模态医学图像进行配准，是图像融合、分割的关键前提。其可以利用不同模态成像信息互补的优势，获取不同角度的信息，从而辅助医生进行更精确的诊断和治疗。但由于不同成像设备的成像模式具有高度特异性，以及成像过程中患者体位以及图像采集时间、传输存储等影响，不同模态的图像内容差异性较大，图像间的位移较大，解决该问题的最佳途径是多模态医学图像配准技术。

在多模态医学图像配准过程中，由个体之间的生理差异以及占位性病变所导致的大形变问题是不可避免的[50]。大形变的图像配准对计算解剖学有重要的研究价值和应用意义，已成为配准算法的研究重点[51]。随着深度学习技术在单模态医学图像配准中的应用和多模态医学图像配准任务日益增长的需求，Yan 等[52]首次引入GAN来进行多模态医学图像的配准，在基于wGAN结构的基础上，用生成器和判别器分别获得转移矩阵的参数和该参数准确性的度量网络。为降低训练难度，该算法仅考虑刚性配准，并将三维图像作为多通道的二维图像，三维图像的转移矩阵参数仅局限于轴向视角。Tanner 等[53]基于cycle-GAN 结构，将参考图像和浮动图像互相转化，并结合在非刚性配准中使用的两种距离测度算子NMI和MIND作为损失函数，来缓解二者空间不匹配的问题，取得了不错的配准效果。Fan 等[48]基于GAN 模型的无监督对抗相似网络，采用判别网络的反馈作为训练配准网络，判断配准图像是否足够相似，从而取消了标签数据的需求，但值得注意的，该方法仅能处理单一模态的图像配准。对于多模态图像配准而言，不同模态的图像内容差异性较大，图像间的位移较大，以及缺少图像真值，使得GAN 更难以模拟配准图像的数据分布，也是基于GAN 的多模态图像配准亟需解决的重要问题。

近来，Blendowski等[54]采用一种端到端的弱监督学习方法提取特征，并对CT 和MRI 图像进行配准；实验中通过弱监督标签驱动损失产生的梯度信号来训练FeatCNN和提取特征，然后进行迭代配准。Arar等[55]提出基于无监督图像翻译方法，对多模态图像进行翻译和空间配准，实验中用生成对抗学习的方法同时训练了配准网络和图像翻译网络，这样可以保证图像翻译的准确性和得到平滑的形变场。Guo 等[56]提出一种由N个连续网络组成的由粗到细多级配准（MSReg）框架，用基于配准误差的误差标度方法生成不同的训练数据分布，使得网络在不同的错误级别上也表现良好，从而提高配准精度。

3.2 医学图像配准中的小样本学习

深度学习就是从数据中学习，其关键技术之一是海量标注数据的支持，但在医学图像研究领域，样本的稀缺及标注的训练数据匮乏是困扰该领域的一大难题。而小样本学习[57]（Few-Shot Learning，FSL）只需要少量的样本，就能训练出良好的模型，为该领域的研究提供了一个新思路。在医学图像配准中，FSL 利用先验知识，能够快速泛化至仅包含少量监督数据的样本新任务，常用的方法有基于数据增强的方法、基于模型改进的方法和基于算法优化的方法[58]。

近年来小样本学习逐渐成为当前的热点研究问题，一些新的基于小样本的学习方案被证明可以解决该问题。如半监督学习、无监督学习、迁移学习[59]、图像生成方法等基于数据增强的方法；多任务学习、度量学习及记忆模型等提升模型泛化性的方法；元学习、模型微调等从算法优化角度解决小样本问题的方法。常用的小样本学习方法如基于GAN、迁移学习的数据生成方法；用于特征提取的SiameseNetwork[60]和MatchNetwork[61]都能在不改变网络模型的前提下对未知类别生成标签；基于MetaNetwork[62]和Finetune 的权重更新来学习任务间的泛化信息。这些方法在医学图像目标检测、分类和分割中取得一定成效，但是在医学配准研究中，目前成果较少。

4 研究现状比较分析

医学图像配准是公认难度较大的图像处理技术，从传统方法到监督学习，大量的无标注医学原始数据，没有金标准成为制约该研究方向发展的重要因素。综上所述的传统医学图像配准和基于深度学习的医学图像配准方法，其主要思想和缺点难点如图6所示。

图6 医学图像配准方法——传统和深度学习Fig.6 Comparison of medical image registration methods

传统配准方法的迭代时间较长，昂贵的时间成本和较低的计算效率给实际临床应用带来了不便。利用深度学习技术的神经网络学习相似性测度，驱动迭代优化，大大缩减了传统方法的迭代时间，这是学者最初利用深度学习技术解决医学图像配准问题的关键因素，但是迭代优化过程本身耗费的时间仍然无法实现实时配准。因此通过神经网络直接从原始图像中回归变换参数，模拟形变场作为标签的监督学习开始出现，它极大地缩短了配准时间，但其缺点是配准质量对金标准的依赖大，且从实际待配准的图像中难以获得高质量的金标准。

为了降低对金标准的依赖，研究学者又提出弱监督学习的概念，采用解剖标签的相似性测度作为目标函数，代替图像的相似度，从而弱化配准模型对于金标准的依赖。但是，该方法在前期仍然需要大量的数据标注，并未完全消除网络配准模型对金标准的依赖。因此，研究学者提出了利用深度回归网络直接估计变换参数的无监督配准框架。该方法无需标注图像，将配准对输入网络，获得形变场，利用可导的空间变换网络，在训练时计算图像相似度损失函数并不断优化。从研究结果来看，无监督学习配准采用图像相似度损失和正则化损失来代替监督学习的误差损失和标签相似度损失，取得了更高的配准精度，且其构建的端到端的网络结构提高了计算效率。为了学习到更加真实可靠的光滑形变场，相似度损失和正则化损失函数的设计和改进是未来研究的一个难点。此外，目前基于无监督学习的方法大多集中于单模态图像配准，鉴于多模态图像间的巨大差异，无监督学习的相似度损失函数计算仍是亟待解决的难题。表1 比较分析了基于深度学习的医学图像配准方法的优势与局限。

表1 基于深度学习的医学图像配准方法比较Table 1 Comparison of medical image registration methods based on deep learning

5 总结与展望

近年来，基于深度学习的医学图像配准方法得到了迅猛发展，本文总结了从传统方法到基于深度学习技术的发展历程。鉴于现代医学图像处理对精准化与智能化医疗要求的不断提高，少样本数据带来的训练数据集匮乏问题，借助极少的监督或采用无监督学习实现医学图像配准任务，成为研究的主流方向。从学者的研究趋势来看，无论是对数据的要求、配准精度，还是计算效率，无监督学习因其不依赖金标准和解剖标签，无需大量精确标注的数据，采用端到端的网络配准框架就可以自动执行需要的任务而得到追捧。而研究并不止于此，基于无监督学习的医学图像配准方法同样面临着一些研究难点和挑战，主要表现为：可解释性、跨模态多样性和可重复可扩展性。

（1）可解释性。由于深度学习类似黑箱模型，且现有基于无监督学习的配准方法是基于数据驱动，但医学图像领域对模型的可解释性要求较高，在未来工作中需要在模型中考虑领域专家知识，充分利用患者其他维度的信息。Luo 等[63]通过对公共数据集的筛选研究表明，数据标注的准确性、配准的有效性都是未来基于数据驱动配准方法研究的重要方向。

（2）跨模态多样性。由于不同模态间数据的多样性，而多模态的关键特性是互补性和唯一性，跨模态数据集的巨大差异使得图像相似性测度损失计算变得困难[50-51]。现有多模态图像，如何设计有效的跨模态图像相似测度损失函数和正则化损失，以提高多模态医学图像配准的准确性和鲁棒性，是跨模态图像配准亟需阶段的重要问题。此外，临床的文本数据（含结构化的检验数据和非结构化文本数据）也是多模态医学数据的一个来源，如何综合利用这些信息为配准任务所用也是值得研究的方向。

（3）可重复可扩展性。现有配准方法多为某个单一任务设计了特殊的网络结构，使用了合适的超参数优化方法，并取得了优异的性能，但模型的跨中心泛化性不高。但当将其应用于其他任务或者来自不同医院的数据时，其功能和性能差强人意。同一算法迁移的时候会改变底层的组织结构，这对医疗领域的影响具有很大挑战性[64]，如何自适应地提升算法来泛化配准任务，提高其可重复可扩展性，也是未来医学图像配准技术研究的一个方向。

（4）小样本数据准确度。医学图像数据主要面临两大难题[65]：标注稀缺和弱标签。有学者整合多个医学比赛数据，构建3D 医学影像的ImageNet 数据集，开源共享数据，将预训练模型Med3D[66]迁移到其他任务中，且模型性能不错。迁移学习过程可能丢失医学数据的组织信息，域自适应学习的方法能缓解迁移学习的可能存在的风险，但医疗健康是一个严谨的场景，任何诊断建议都会对患者健康产生直接的影响，因此，不断提高小样本医学影像处理的准确性是一直追求的目标。

随着深度学习技术研究的不断深入，其在医学图像配准领域也日益发挥着愈来愈重的作用；总的来说，无监督深度学习和小样本学习是该领域具有前景的方向之一。