于 航 郑忍成 李若坤 王成彦 王 鹤,
肝细胞癌(hepatocellular carcinoma, HCC)是一种发病率高且死亡率高的癌症,严重威胁着人类的健康[1]。磁共振成像(magnetic resonance imaging,MRI)凭借其良好的软组织对比度,对人体无辐射的特性,是目前临床中首选的肝脏成像方案。在HCC的诊断中,许多成像技术都可以鉴别出较大的肿瘤区域,但这些对于晚期HCC 的检测结果通常错过了最佳治疗时期,因此在早期阶段准确地检测出尺寸较小, 影像学征象不明显的小肝癌 (small hepatocellular carcinoma, sHCC)至关重要。在临床上, 联合动态对比增强(dynamic contrast -enhanced, DCE)MRI 和弥散加权成像(diffusionweighted imaging, DWI),可以大幅提升对HCC 的诊断率[2-3]。但由于DCE和DWI两种模态的影像采集时间不同,患者会由于呼吸、心跳和腹肠蠕动等因素出现不可避免的运动,从而造成图像错位现象。这些错位情况将会对DWI 与DCE 的联合分析,尤其是小肝癌的检出造成严重干扰,因此需要对多模态影像进行配准以减轻这种错位现象。除了错位问题,DWI与DCE 之间较大的对比度差异,使得精确配准存在较大难度,因此配准算法的精确度直接影响了小肝癌的识别与诊断。
在临床诊断中,针对DWI 和DCE 的配准问题通常会使用现成的基于传统方法的配准工具包进行,例如ANTs(Advanced Normalization Tools),这种传统的医学图像配准方法通常都有一定程度的局限性,普遍存在耗时过长,泛化性差,计算较为复杂等缺点。而近十年来,深度学习技术凭借其高效的特征提取能力,较快的推理速度和广泛的应用范围等优点,广泛应用于配准,分割,检测,分级,重建等领域,较大程度上减轻了医生的诊断负担。在医学图像配准领域,基于深度学习的方法可以通过直接预测待配准图像和目标图像间的变形场,较为稳定地实现特定部位特定模态间配准,例如基于U-Net 的VoxelMorph[4]和CycleMorph[5],基于注意力机制的TransMorph[6],基于递归机制的递归级联网络[7]等。然而由于这类基于深度学习的配准网络结构中,没有解决多模态对比度差异的模块,因此其在对比度差异较大的多模态图像配准任务上均表现欠佳,这使得DWI 和DCE 图像之间的配准仍是一个有挑战性的任务。
在本研究中,我们设计了合成配准多任务网络(Synthesis-registration Network, SynReg),将图像合成网络和配准网络相结合,前者基于DWI 合成风格类似DCE 的合成DCE 影像(synthesized DCE,sDCE),以解决多模态配准中的对比度差异问题,降低配准难度;后者对sDCE 与DCE 影像进行配准,将得到的变形场应用到DWI 上,解决错位问题,完成配准流程。在多任务架构中,配准任务和合成任务共同训练,互相促进,配准网络的加入提升了图像合成的质量,而合成网络更稳定地解决了多模态间的对比度差异,从而提升了最终的配准效果。
本回顾性研究经上海交通大学医学院附属瑞金医院伦理委员会 (Institutional Review Board,IRB)批准,在2013年1月至2021年2月间,在上海交通大学医学院附属瑞金医院3.0-T Ingenia (Philips Medical Systems, Best, the Netherlands)磁共振设备上扫描数据。共扫描两种序列:(1)高b 值DWI。扫描参数:b 值800 s/mm²,图像尺寸448×448×32,重建分辨率0.85 mm×0.85 mm×6.0 mm,层厚5 mm,重复时间1 385 ms,回波时间56.4 ms ,翻转角90°。(2)四期DCE 影像(平扫期,动脉期,门静脉期和延迟期)。钆喷酸二甲葡胺(Magnevist;拜耳医疗,德国,0.1 mmol/kg)以2 mL/s 的速率注射,然后用最大体积为20 mL的生理盐水冲洗,分别在注射造影剂后25~30 s、60~90 s和180 s采集动脉期、门静脉期和延迟期图像。扫描参数:图像尺寸1 024×1 024×110,重建分辨率0.39 mm×0.39 mm×2.0 mm,层厚2 mm,重复时间3.64 ms,回波时间0 ms,翻转角10°。
入组标准:①存在肝硬化;②病理检测和磁共振扫描时间的间隔小于1 个月;③病灶最大直径≤2.5 cm。排除标准:①检查未使用荷兰Philips Ingenia 设备(n=5);②DCE-MRI 和DWI 影像之间存在严重的运动伪影(>5 层错位)(n=10);③DCE 期相不全或DWI 的b 值不符(n=12)。经过排除标准后共有264例患者纳入研究,其基本信息统计表如表1 所示。本研究将与DWI 对比度差异更大、肝脏和肿瘤特征更为明显的DCE 延迟期影像作为配准的目标图像,DWI 作为待配准图像。目标HCC 病灶和肝脏轮廓由2 名经验丰富的放射科医生(具有5年以上腹部影像学诊断经验),分别在DWI和DCE延迟期影像上进行标注,如果病例未患HCC 则不进行肿瘤标注。数据集的划分情况如下:训练集171例,验证集35例,测试集58例(包含所有的HCC病例)。
表1 受试者(N=264)基本信息统计表
多模态影像之间的差异主要体现在两个层面,首先是两个模态间由于扫描序列和参数的不同,造成的对比度差异,这种差异使得相同的器官或组织在不同的影像中表现出不同的信号强度;其次是在两次扫描时,由于呼吸等不可抑制因素导致的器官形态上的差异,这种形态上的差异会导致重要标志点在多模态影像上的错位,从而影响诊断。如图1 所示,由于这两种层面的差异互不影响,所以可以将这两种差异建模为二维坐标系,横轴表示图像间的对比度差异,纵轴表示图像之间的错位程度,蓝色和绿色在本研究中分别代表DWI图像域和DCE 图像域,其中x和y为待配准图像和目标图像,ys为理想状态下与y同一对比度,与x解剖信息完全一致的隐藏图像,即在合成任务中的理想输出结果,xR同理,为在配准任务中的理想输出结果。
图1 合成配准多任务网络原理图
在传统配准方法和基于深度学习的配准方法中,通常直接对对比度差异较大的x和y图像进行配准,然而由于难以找到合适的相似性测度来衡量图像间的差异,配准效果往往不准确。因此若能先利用图像合成网络得到x对应的ys,将ys配准到y上并得到相应的变形场,再将该变形场作用在x图像上,即可得到最终配准后的xR图像。在这种流程中ys与y之间的单模态配准更易实现,更容易得到准确的变形场。
在合成加配准的多任务网络训练过程中,合成网络的输出G(x)与目标图像y之间的错位差异由配准网络R完成,合成网络G便能更对应地学习两个图像域之间的差异,其输出也可以更容易地逼近理想状态ys。在多任务网络推理阶段,由于合成网络的输出G(x)更加接近ys,配准网络R 输出的变形场[将G(x)变形为y]也更加准确,因此将该变形场施加到待配准图像x时,便能得到更接近于理想配准结果xR的图像。
基于上述的合成配准多任务原理,本研究设计了SynReg 多任务网络,实现提升配准准确度的同时,提高图像合成质量。如图2 所示,在训练阶段,本研究采用了基于pix2pix[8]框架的2D 对抗生成网络(Generative Adversarial Network, GAN),通过将3D DWI 图像切片为2D 图像喂入生成器,将输出的2D sDCE 重组得到3D sDCE,完成图像合成任务。接着,3D 配准网络以sDCE 和目标DCE 作为网络输入,输出对应变形场,通过空间变换网络[9]完成变形场和sDCE 的空间变形,得到最终的配准后sDCE。
图2 SynReg流程图
其中蓝色的连线表示SynReg 网络损失函数的组成部分,总损失函数的具体计算公式如下:
其中为配准后sDCE 和目标DCE 影像之间的L1 损失,为变形场光滑度损失,用来限制变形场出现局部折叠的情况,为生成网络的鉴别器D 的损失,分别对sDCE 图像和目标DCE 进行鉴别。这3 个损失的具体公式如下:
在网络推理阶段,首先使用仿射配准方法对图像进行配准,再使用训练好的GAN 生成器完成DWI 到sDCE 的图像合成,接着用训练好的配准网络输出sDCE 到目标DCE 的变形场。与训练阶段不同,在推理阶段通过空间变换网络直接将此变形场作用于浮动DWI,得到配准后的DWI,完成配准过程。
本研究使用的GAN 和配准网络结构如图3 所示。GAN 生成器与配准网络均为类似U-Net 的对称结构,编码器部分经过数次下采样逐层提取图像的高维特征信息,解码器部分通过对高维特征信息解码,得到像素级别的预测结果,使用跳跃链接来融合编码和解码过程中对应位置上的特征信息,使得解码器在解码过程中能够获取更多的低维特征信息,其中配准网络最终的输出为原图像尺寸下每个像素点在x、y、z三个方向上位移场,即通道数为3 的变形场;而GAN 生成器输出为sDCE 图像。鉴别器以目标DCE 图像和sDCE 图像为输入,判断sDCE 是否属于DCE 图像域。
图3 SynReg合成与配准网络结构图,
值得注意的是不同于传统的U-Net,配准网络中使用的所有卷积层均为3D 卷积层,如果使用传统的2D 卷积层,最终只能得到x,y 平面的二维变形场,即只能完成层内配准而无法实现层间配准,将大大降低配准效果。
数据预处理过程为:将图像双线性插值至256×256×32,空间分辨率1.0×1.0×1.0 mm3,信号强度归一化至-1~1。在图像合成任务的实验中,对比方法为同样参数的GAN 网络;在配准任务的实验中,对比方法包括经典配准方法SyN[10]和两种基于深度学习的可用于多模态配准的网络CycleMorph[5]和TransMorph[6]。三种对比方法均在进行了仿射配准的数据集上进行训练和测试。
在合成任务中,本研究采用峰值信噪比(Peak Signal to Noise Ratio, PSNR) 和结构相似性(Structural Similarity, SSIM)来评价合成图像与目标图像的相似度。具体方法为计算DWI、sDCE 分别与目标DCE 之间的PSNR 和SSIM 指标。在配准任务中,本研究采用Dice 相似性指标来评估两个二值化标签之间的重合程度,用于评价肝脏区域的配准精度;采用目标配准偏差(Target Registration Error,TRE)从距离层面评估标签的质心之间的三维距离,用于评价肿瘤区域的配准精度。具体方法为将配准得到的变形场施加在DWI 的肝脏/肿瘤标签上,用最近邻插值法进行插值,得到配准后的肝脏/肿瘤标签,将其与人工标注的DCE 肝脏/肿瘤标签对比计算评价指标。
本研究使用配对t检验证明PSNR、SSIM、TRE和Dice 结果的显著性,P<0.001 被认为是统计意义上显著, 所有的统计分析基于MATLAB 软件(R2020b; MathWorks, Natick, MA, USA)。
如图4 所示,为GAN 和SynReg 的图像合成效果对比,SynReg 网络的图像合成结果与原始DWI 图像的血管、肝轮廓对应关系清晰,整体对比度与DCE更加接近,这些明显的特征都使得后续的配准网络可以更好地获得图像特征进行配准。在Case 1中,展现了在肝脏血管层面,SynReg 输出的sDCE 和DWI 的高度对应。在红圈标识内的肝脏血管中,不论是特征明显的大血管,还是尺寸较小、特征不明显的小血管,SynReg 相较于GAN 都有着更优秀的图像合成质量和对应程度;在Case 2 中,展现了SynReg 输出的sDCE 不论是在肝脏整体轮廓上,还是红圈标识内的细微结构上,都能做到与DWI 高度的对应;Case 3体现出在肝脏亮度较低,肝脏特征不明显的DWI 中,SynReg 的输出依然在血管层面和肝轮廓层面合成效果优秀,体现了图像合成效果的稳定性。
图4 SynReg合成效果实例
指标结果如表2 所示,SynReg 的合成结果与GAN 相比,在图像质量方面(PSNR 指标)和结构相似性方面(SSIM 指标)均有显著提升,这是由于多任务框架下的配准网络解决了数据集的错位问题,辅助提升了合成网络的性能。其中每组指标之间的差异均有统计学意义(P<0.001)。
表2 SynReg合成结果PSNR和SSIM指标统计
如图5 所示,为两个典型病例的配准结果,红色和绿色轮廓分别代表在DCE 上人工标注的肿瘤和肝脏轮廓,该图中所有图像均为同一层级。Case 1展现的是一例廓清效应明显的HCC,其肿瘤位置在DWI中与DCE 大致对应,但整体肝轮廓错位较为严重,尤其在肝裂部位,经过SynReg 配准后的DWI 可以在保持肿瘤对应的情况下,肝脏轮廓的高精度配准,对肝外器官例如肾脏的配准也较为准确。在配准后图像质量方面,SynReg 配准后图像自然,并没有出现CycleMorph 和TransMorph 结果中肝脏和脾脏之间部分图像折叠的现象。Case 2展现的是一例包膜效应明显的HCC,但由于其廓清效应不明显,因此在DCE上的只能看到肿瘤包膜,肿瘤内部体素值较肝实质并无明显差异。且图像间存在错层问题,DWI 上该层并没有出现肿瘤,这种情况下肿瘤配准的难度较高,因此三种对比方法难以实现精确配准。但SynReg 通过图像合成,将DWI 上的肿瘤特征带到了sDCE 中,因此对sDCE 和DCE 进行的配准便能得到更为准确的变形场,解决错层问题,同时也实现了肝脏轮廓、肝静脉和肿瘤的精确配准。除此之外,肝脏以外的器官,例如脾脏和胆囊部位,也均呈现出较好的配准结果。
图5 SynReg配准效果及对比实例
指标结果如表3 所示,SynReg 同时在肝脏区域Dice 指标和肿瘤TRE 指标上都优于对比方法,且相较于配准前有较大提升。其中除了肝脏Dice 组SyN与Unregistered、肿瘤TRE 组SyN、CycleMorph 和TransMorph 两两之间,其余每组指标之间的差异均有统计学意义(P<0.001)。
表3 SynReg配准结果Dice和TRE指标统计
在临床上对于小肝癌的诊断非常依赖精确的DWI 与DCE 配准,然而由于多模态间较大的对比度差异以及肝脏易形变的特性,目前常用的传统配准方法难以做到快速,精确的配准,这大大影响了小肝癌的检出率。而基于深度学习的配准方法[4-6],由于其网络结构中没有针对多模态影像对比度差异的相关设计,因此在肝脏DWI 和DCE 的配准任务中也表现欠佳。
随着深度学习网络架构的发展,在计算机辅助诊断领域的研究逐渐不局限于单独的配准、分割、检测等任务,越来越趋向于多任务间的引导、协同训练、对抗训练等。近年来,有许多关于多任务网络的相关研究[11-13],通过将配准任务与合成、分割、检测等任务的相互融合,使多任务相互促进以提高彼此的性能,并实现一站式诊断流程。本研究采用多任务网络结构,以配准任务为主,合成网络为辅,通过合成网络消除了多模态配准任务中对比度差异过大的问题,从而实现DWI与DCE的精确配准。
在图像合成任务中,SynReg输出的sDCE 在整体对比度上与DCE 高度相似,在解剖信息层面,例如肝脏轮廓和肝内血管等方面均能做到与DWI 严格对应,这使得后续将配准sDCE 和DCE 得到的变形场应用在DWI 上时,能得到准确的配准结果。而仅进行图像合成的对比方法GAN,虽然对比度上能做到与DCE 大致相似,但解剖信息无法做到与DWI 对应,且整体图像质量和分辨率都与SynReg 差距较大,这种差距也证明了多任务框架中的配准网络对合成网络有正向提升。在配准任务中,SynReg 对于肝脏区域和肿瘤区域有着高精度的配准结果,能有效解决层内和层间两种维度下的配准问题。对于一些在DCE 上肿瘤特征不明显(仅有包膜信息)的病例,SynReg仍能输出较好的配准结果,且配准后图像自然光滑,没有出现对比方法中的图像局部折叠现象。综上,在SynReg 多任务架构中,合成网络生成与DCE 对比度相似,且具有DWI 解剖信息的sDCE,而配准网络对sDCE 与目标DCE 进行配准得到变形场。通过这种方式得到的变形场由于消除了多模态间的对比度差异,比直接进行多模态配准得到的变形场更为准确,因此配准后的DWI 与DCE 更为匹配。因此有效提升如小肝癌检测等一系列临床任务人工诊断及计算机辅助诊断的准确性,降低了人工和时间成本。
本研究也有一定的局限性,首先本研究训练与验证的数据集为单中心数据集,而深度学习模型的鲁棒性也是非常重要的,因此未来还可以探究该模型在多中心,多设备数据集上的泛化性能;其次,在目前的损失函数的设计上,没有增加对sDCE 和DWI图像的结构相似性的直接限制,这样可以使网络更容易训练,但同时也会损失一定程度的结构对应性,之后可以尝试更多的损失函数,以进一步提升图像合成质量。
总之,本研究将图像合成网络和配准网络相结合,提出了合成配准多任务网络SynReg,并在264例肝硬化(部分HCC)患者数据集上进行了训练与测试,结果表明,SynReg 能提供较好的图像合成结果,进而提升了肝脏区域和肿瘤区域的配准准确率,这对于临床上HCC 的准确识别和诊断有着重要的实用价值。