基于多模态数据融合的MR图像超分辨重建

2023-10-30 04:46胡彦婷樊孝喜陈建军
关键词:残差注意力卷积

胡彦婷,樊孝喜,陈建军

(新疆医科大学医学工程技术学院,新疆 乌鲁木齐 830011)

核磁共振(Magnetic Resonance,MR)成像是利用射频波和强磁场产生人体内部器官或组织的三维影像.相比于其他成像技术,如计算机断层(Computed Tomography,CT)成像等,MR成像具有软组织分辨力高、多参数成像、无电离辐射等优点,是临床医学诊断的主要影像工具之一.然而,受成像条件、扫描时间等因素限制,MR成像设备获取的影像往往存在分辨率和清晰度低的问题,直接影响后期诊断和定量分析的准确性.

为了经济、高效地获得高分辨率的MR影像,超分辨重建(Super-resolution,SR)技术被应用于低分辨率MR影像的后处理中,可以在不改变硬件设备及成像环境的前提下提高MR影像的分辨率和清晰度.早期,基于插值的超分辨方法(比如双三次插值法等)因速度快、计算复杂度低,常被用于提高低质MR影像的分辨率,但该类方法重建细节能力有限,导致重建影像仍较模糊.为了提高重建质量,研究者们将图像先验信息引入超分辨重建过程,先后提出了基于自适应滤波的方法[1]、基于总变分的方法[2-3]、基于稀疏表示的方法[4].近些年,随着深度学习技术在各领域的成功应用,基于深度学习的模型也越来越多地应用于MR图像超分辨重建中[5-10],在重建质量和效率上取得了显著提高.比如,CHAUDHARI等[5]构建了三维残差网络,实现了对膝关节MR图像的超分辨重建;CHEN等[6]利用多级密集连接网络提取MR影像的体素信息,并结合对抗学习生成高分辨率MR图像序列;MAHAPATR等[7]建立了渐进生成式对抗网络,实现了由粗至精地重建高分辨率MR图像;FENG等[10]基于耦合投影机制,有效提高了残差网络对MR图像的重建性能.然而,以上方法均只利用了MR影像的单一模态数据,忽略了MR影像的多参数成像特点,未充分利用MR影像多模态数据间的相关及互补信息,从而在一定程度上影响了超分辨模型的重建性能.

MR成像可通过调整参数来获得同一解剖结构或组织不同模态的MR图像序列,比如T1加权像与T2加权像、质子密度(Proton Density,PD)加权像与脂肪抑制质子密度(Fat-Suppressed Proton Density,FS-PD)加权像.不同模态的MR影像既具有模态间的相关信息又有各自模态的互补信息,因而可满足不同的应用需求.在临床应用上,T1加权成像比T2加权成像具有更短的重复时间(Repetition Time,TR)和回波时间(Echo Time,TE),同样,相比于FS-PD加权成像,PD加权成像过程更短,这种差异使得高质量的T1加权像和PD加权像更容易获得.因而,可借助T1加权像或PD加权像的高分辨信息来重建T2加权像或FS-PD加权像在短时成像过程中丢失的信息,从而达到在缩短T2加权成像或FS-PD加权成像过程的同时获得高分辨率多模态MR图像序列的目的.最近,基于多模态数据的MR图像的超分辨重建方法也被相继提出.ZHENG等[11]利用关系模型提取不同模态数据之间的相关高频信息,实现了MR图像超分辨重建;ZENG等[12]构建了两个级联的深度残差网络,对MR图像同时进行基于单模态数据和基于多模态数据的超分辨重建;刘羽等[13]提出一种基于残差密集卷积网络的多模态MR图像超分辨重建方法,通过在网络输入端拼接双模态MR图像的方式来融合不同模态图像间的关联信息;FENG等[14]基于Transformer[15]架构,将双模态特征通过注意力机制交叉应用于各自的编码模块中,以利用多模态数据的多尺度信息来提高MR图像的超分辨重建效果.尽管基于多模态数据的MR图像的超分辨重建取得了一定进展,但多数方法[12-13]未充分利用多模态数据在网络多层级特征空间的关联性,仅在模型首端进行多模态数据融合,这种设计限制了模型的超分辨重建性能;另一方面,基于Tranformer[15]架构的模型[14]虽能利用多模态图像的全局相关信息来提高模型的重建性能,但其运算复杂度和存储占用高,致使其较难应用于资源受限的真实场景中.

鉴于此,本文利用MR多模态数据在多层级特征空间的相关及互补信息,构建基于多模态数据融合的MR图像超分辨重建网络.该网络结合高效的通道注意力机制,实现了多模态特征在多层级特征空间的多级融合.所提出方法的主要贡献:1)提出了在网络的多个层级处进行多阶段特征融合的多模态数据融合方法,以充分利用多模态数据的互补信息来提高模型的重建性能;2)利用高效的通道注意力机制,实现对多层级融合特征的自适应调制,以增强重要特征的作用并抑制冗余特征的影响;3)构建了基于多模态数据融合的MR图像超分辨重建网络,以低的运算量和参数量实现了MR图像的高效重建.

1 基于多模态数据融合的MR图像超分辨重建方法

1.1 网络整体结构

本文构建的基于多模态数据融合的MR图像超分辨重建网络(Multi-contrast Data Fusion Network for MRI Super-Resolution,MDFN)架构见图1,由两个特征提取子网络(Feature Extraction sub-Network,FENet)、多级特征融合子网络(Multi-stage Feature Fusion sub-Network,MFFNet)和上采样子网络(Upsampling sub-Network,UpNet)构成.假设以X和YSR表示需重建模态的低分辨率(Low Resolution,LR)输入和超分辨重建输出,以Xref表示参考模态的高分辨率输入,那么,两个特征提取子网络均由3层卷积层级联构成,且分别以重建模态的LR图像X和参考模态图像Xref作为输入提取低分辨率模态特征FFENet和高分辨率参考模态特征Fref,即

图1 基于多模态数据融合的MR图像超分辨重建网络架构

上采样子网络(UpNet)由1层亚像素卷积层[16]和1层 3×3 卷积层级联构成,用于将MFFNet输出特征FMFFNet上采样为高分辨率MR图像YSR,即

式中:Θ为所构建的MDFN模型参数.

1.2 特征融合模块

为了更有效地进行多模态特征融合,本文将注意力机制引入多模态特征融合过程,构建了基于注意力的特征融合模块.另外,由于参考模态特征空间尺寸大于重建模态特征空间尺寸,因此,在多模态特征融合之前,先对参考模态特征进行下采样,使其空间尺寸与重建模态特征一致.此操作不仅方便特征融合,而且使得多阶段融合均在小尺寸空间进行,从而降低了计算复杂度,并减少了存储占用.

图2 基于注意力的特征融合模块架构

式中:[·,·] 为特征拼接操作;Ffuse为融合后的输出特征.

由于不同通道特征所包含的信息存在差异,使其对细节重建具有不同的贡献度,因而,通过注意力机制来自适应增强高贡献度特征将有助于提高模型的表征能力.为此,本文将注意力机制应用于特征融合.HU等[18]提出的通道注意力(Squeeze-and-Excitation,SE)块是对每个通道的特征图沿着空间维度进行全局平均池化运算,以获得每个通道的汇总统计量,然后根据汇总统计量对不同通道特征分配注意力权重.然而,通过全局平均池化运算获取的统计量仅描述了特征的全局低频信息,忽略了高频信息.而对于超分辨重建等低级视觉任务而言,高频信息尤为重要.因此,本文采用对比度感知通道注意力[17]的做法,利用标准差来提取特征图的高频统计量,并将平均池化提取的全局信息与标准差提取的高频信息相结合,作为每个通道特征图的汇总统计量.假设注意力块的输入特征Ffuse=[f1,…,fc,…,fC] 是C个空间大小为H×W的特征图,那么第c(c=1,2,…,C) 张特征图fc的汇总统计量zc由其标准差和全局平均值相加而得,即

式中:fc(i,j) 为位于第c张特征图的空间位置 (i,j) 上的特征值.根据各特征图汇总统计量z,结合卷积运算、非线性运算及sigmoid函数为每个特征图分配相应的注意力权重,此过程可描述为

α=δ(W2*σ(W1*z+b1)+b2),

式中:δ(·) 和σ(·) 分别为sigmoid函数和GELU[19]激活函数;* 为卷积运算;W1和b1为第1个卷积层的参数,该卷积层用于缩减特征通道数量以减少运算量.之后,特征通道数又被参数为W2和b2的第2个卷积运算变换回原来数量.最后,sigmoid函数将第2个卷积运算向量值映射至0~1区间,即获得逐通道的注意力权重向量α.继而,利用注意力权重向量α对融合特征Ffuse进行重新校准,即

Fatten=Ffuse×α,

式中:Fatten为注意力块的输出特征;× 表示逐通道相乘运算.

为了增强信息流,特征融合模块采用残差结构,将其输入与注意力调制后的特征相加,再通过卷积层提取输出特征Fout,即

通过特征融合模块,能对多模态数据进行有效融合,且通过注意力机制可捕获重要特征信息,从而有效提高模型的特征表征能力.

1.3 特征融合残差组

以上级联的残差块将多模态特征变换至不同特征空间,进而在互补特征空间进行多模态特征融合.本文利用构建的特征融合模块将级联残差块输出的重建模态特征与下采样后的参考模态特征Fref进行基于注意力机制的特征融合.同时,为了增强信息在网络层间的传播,利用恒等映射连接将特征融合残差组的输入特征加至其输出端,从而构成了残差结构.以上过程可公式化为

通过级联RGFF模块,网络模型可将多模态特征变换至不同特征空间进行融合,从而实现在多层级中进行模态特征间互补信息的融合和提炼;同时,注意力机制的应用,实现了对多层级融合特征的重新校准,增强高价值信息作用,抑制了冗余特征影响;而且,残差块、特征融合残差组中的恒等映射连接促进了网络层及模块间的信息传播.RGFF模块的以上特点都有助于提升MR超分辨模型的重建性能.

2 试验结果与分析

本节介绍试验参数设置及实现细节,并通过试验分析模型结构及其组成模块的有效性,同时对比分析本文提出的方法与其他主流方法的MR图像超分辨重建效果.

2.1 试验参数设置

2.1.1 数据集及评价指标

本文在开放的MR图像数据集fastMRI[20]上进行模型分析和性能对比.类似于文献[21],我们选择227对和45对PD加权像序列与FS-PD加权像序列分别用于模型训练和测试,其中,PD加权像序列用于参考模态,辅助FS-PD加权模态影像的超分辨重建.通过在k空间对FS-PD加权的MR图像序列进行相应尺度的截断处理来模拟k空间的降采样过程,从而得到欠采样的低分辨率FS-PD加权MR图像序列.

本文采用归一化均方误差(Normalized Mean Square Error,NMSE)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和结构相似度(Structural Similarity,SSIM)[22]3个全参考评价指标对重建图像的质量进行客观评估.其中,NMSE值越小、PSNR和SSIM值越大表示重建准确度越高.

2.1.2 实现细节及优化设置

在所提出的模型中,所有的卷积层均有32个卷积核,除了用于特征拼接的卷积层的卷积核大小为 1×1 外,其余卷积层均采用 3×3 的卷积核.本文采用5个特征融合残差组,每个RGFF包含10个残差块和1个特征融合模块构成MDFN模型.

本文采用批量随机梯度下降法(Stochastic Gradient Descent,SGD)对模型进行优化,动量参数为0.9,权重衰减系数为10-4,批大小为8.学习率初始化为0.001,每20轮参数更新后学习率衰减10倍.提出的模型能快速收敛,约在50轮更新后收敛.试验基于PyTorch框架,在单个Turing架构、24 G显存、包含4 608个CUDA单元的NVIDIA TITAN RTX GPU上进行模型训练和测试.

2.2 模型分析试验

本节通过消融试验分别对模型的多级跳过连接模式、基于CCA的注意力机制、多模态数据多阶段融合策略的有效性进行分析.

2.2.1 多级跳过连接模式及CCA的有效性

为了保留网络前、中、后端的互补信息,本文在多级特征融合子网络(MFFNet)末端,通过多级跳过连接和特征拼接融合操作将第1个特征融合模块和级联其后的RGFFs产生的特征进行自适应融合和提炼.同时,为了更有效地进行多模态特征融合,将CCA引入FFM以对融合特征进行自适应校准,进而提高重建准确度.为了验证多级跳过连接模式及CCA对提高重建效果的有效性,建立了3个模型:第1个基础模型对应表1中的设置1,其未应用多级跳过连接及CCA;第2个模型是在第1个模型基础上,仅应用了基于多级跳过连接的多层级特征融合策略,对应表1中的设置2;第3个模型为同时应用多级跳过连接及CCA的模型(即本文提出的模型),对应表1中的设置3.为了公平比较,3个模型均采用多模态、多阶段特征融合,且参数量相当.表1给出了当上采样因子为 ×2 时,3种模型在fastMRI测试集45个MR图像序列上重建结果的平均NMSE、PSNR及SSIM值.

表1 多级跳过连接模式及CCA有效性分析

由表1可见:相比设置1的基础模型,应用多级跳过连接的模型(对应设置2)在降低重建结果NMSE值的同时提高了PSNR和SSIM值,说明基于多级跳过连接的多层级特征融合策略对重建效果的提升具有积极作用.同时,当应用基于CCA的注意力机制后(对应设置3),模型重建性能大幅度提升,其中,PSNR值相较于第2个模型提升了0.64 dB.由此说明,在融合多模态特征时,注意力机制能有效对融合特征进行重新校准,从而能够增强多模态融合特征中高价值信息的作用并抑制无用信息的影响,进而提高重建效果.以上对比结果验证了应用多级跳过连接模式和CCA机制对提高模型重建性能的有效性.

2.2.2 多模态数据多阶段融合的有效性

为了验证本文设计的多模态数据多阶段融合策略对提高MR图像重建效果的有效性,除了基于多模态数据多阶段融合的MDFN模型,另外建立了4种对比模型,见图3 b~e.第1种模型只基于单模态数据(FS-PD加权像)进行超分辨重建,第2至第4种模型均是基于多模态融合策略(参考模态为PD加权像)对FS-PD加权像进行超分辨重建,不同的是3种模型分别在网络前端、中端和后端进行1次多模态特征融合.为了公平比较,4种模型均应用多级跳过连接和CCA机制.图3 a为未进行多模态特征融合的基于CCA的注意力模块,此模块应用于图3 b~e所示的模型中.

图3 多模态数据多阶段融合策略有效性验证试验对比模型

表2为当上采样因子为 ×2 时,图3 b~e所示的4种模型和基于多模态数据多阶段融合的MDFN模型在fastMRI测试集45个MR图像序列上的超分辨重建结果.由表2可见:虽然网络前端、中端和后端所提取的特征不同,但仅在网络前端、中端或后端简单地进行1次多模态特征融合,并未显著提高单模态MR图像重建效果;而由于本文设计的多模态数据多阶段融合策略能使多模态数据在多层级特征中进行融合,且多层级融合后的特征可同时进入级联其后的网络层中进行特征变换,因而能在3个指标上提高单模态模型的MR图像重建性能,PSNR和SSIM值分别提升了0.04 dB和0.003 4,试验结果验证了多模态数据多阶段融合的有效性.

表2 基于单模态及不同多模态数据融合策略的超分辨重建结果

2.3 相关模型对比试验

为了进一步验证本文MDFN模型对MR图像超分辨重建的有效性,从客观质量评价、主观质量评价和模型参数3个方面,对比分析本文提出的方法(MDFN)、双三次插值法(bicubic)、基于深度学习的超分辨方法,包括基于单模态数据的EDSR[23]、IMDN[17]以及基于多模态数据的MR图像超分辨方法MCSR[12]的重建效果.为了公平比较,将以上算法按照其相同的模型参数设置在fastMRI训练集上重新训练,以保证算法具有相同的训练集和测试集.

表3为当上采样因子为 ×2 和 ×4 时,在fastMRI测试集上45个MR图像序列上重建结果的平均客观评价值,同时给出了各个模型的参数量.由表3可见:虽然MCSR利用多模态信息来辅助MR图像的细节重建,但由于不同模态数据之间既有互补性也存在差异性,因而MCSR只简单地在网络输入端进行多模态图像拼接操作,未能充分挖掘多模态数据之间的互补信息,反而使重建过程受到不同模态数据差异性的影响,导致重建效果欠佳.本文MDFN模型应用多阶段融合策略,能更好地在多层级特征空间融合多模态数据的互补信息,在两个尺度上,MDFN模型均取得了最高的客观评价值.例如,当上采样尺度为 ×2 时,MDFN能以较少的参数在PSNR值上获得比EDSR、IMDN和MCSR分别高出0.54、0.21、1.19 dB的重建结果.以上客观评价结果验证了本文提出方法的有效性和优越性.

表3 本文方法(MDFN)与其他超分辨重建方法在fastMRI测试集上的客观评价结果

图4~5给出了当上采样因子分别为 ×2 和 ×4 时,不同模型在部分测试图像上的主观质量对比结果,其中,HR为目标图像.同时,为了方便比较,给出不同方法的重建结果与目标图像的误差图像.

图4 当上采样因子为×2时不同方法在fastMRI测试集上的主观对比

图5 当上采样因子为×4时不同方法在fastMRI测试集上的主观对比

由图4~5可见,各方法均能重建影像的基本结构.然而,相比之下,本文的方法(MDFN)不仅重建误差最小,而且能更有效恢复膝盖影像的精细结构.主观对比结果表明,所提出的模型架构及多模态、多阶段数据融合策略能更有效提升重建精确度.

3 结 论

本文基于MR多参数成像特点,充分利用MR多模态数据间的相关及互补信息,构建了基于多模态数据融合的MR图像超分辨重建网络,以提高MR影像的空间分辨率.考虑到MR多模态数据既存在关联互补性又存在差异性,本文提出了在网络的多个层级处进行多阶段特征融合的多模态数据融合策略,以更有效地进行多模态数据融合,从而有效引导低分辨模态影像的超分辨重建.同时,结合对比度感知通道注意力机制和残差结构,构建了特征融合模块,实现了对多模态数据融合后特征的重新校准,从而有效增强高价值信息的作用而抑制冗余特征的影响.利用级联残差块和特征融合模块,构建了特征融合残差组(RGFF),并进一步通过级联RGFF模块,实现了多模态数据特征在多层级特征空间的有效融合.在MR影像测试集上的综合试验结果表明,所构建的模型能以低的模型参数量和计算复杂度获得主观和客观评价均优于其他超分辨方法的重建结果.

另一方面,本文研究发现,注意力机制在多模态特征融合过程中具有关键作用,能显著提高特征融合的效能.但目前,本文仅针对通道注意力机制进行研究,未深入研究其他维度注意力机制对特征融合的作用.因而,可以此为基础,在未来进一步研究空间注意力机制以及通道与空间注意力结合机制对多模态特征融合的有效性,以进一步提高MR图像的超分辨重建性能.

猜你喜欢
残差注意力卷积
基于双向GRU与残差拟合的车辆跟驰建模
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
平稳自相关过程的残差累积和控制图