基于多序列MRI的3D关系注意力网络预测HLA-B27阴性中轴性脊柱关节病

2023-12-11 07:18:54邹青清王梦虹陆紫箫赵英华冯前进
南方医科大学学报 2023年11期
关键词:分支阴性分类

邹青清,王梦虹,陆紫箫,赵英华,冯前进

1南方医科大学生物医学工程学院//广东省医学图像处理重点实验室,广东 广州 510515;2南方医科大学第三附属医院(广东省骨科医院)放射科,广东 广州510630

中轴性脊柱关节病(axSpA)是一种炎症性慢性疾病,其发病率为0.3%~1.4%,可导致慢性背痛和残疾[1,2]。根据国际脊椎关节炎学会(ASAS)分类标准(2009),人类白细胞抗原(HLA)-B27阳性或在MRI上可观察到骶髂关节的异常影像学改变,如软骨下骨髓水肿、骨侵蚀、骨硬化和僵硬是确诊axSpA的必要条件[1,3,4]。然而,HLA-B27阴性的发生率在axSpA人群中可能高达42%~57%[5],且HLA-B27阴性axSpA的MRI表现比HLA-B27阳性患者具有非典型的对称性病变、较少的放射学损伤以及边缘联合韧带,导致HLA-B27 阴性axSpA容易被延迟诊断[6]。此外,放射科医生对骶髂关节MRI的阅读和解释与个人经验有关,这可能进一步延误对HLA-B27阴性axSpA患者的最佳治疗时间[7]。如果患者错过最佳的早期干预,持续的疾病活动可能会导致不可逆转的结构异常、功能受损、严重残疾、心血管风险增加和精神障碍等[8-10]。因此,迫切需要开发有效工具来自动解释HLA-B27阴性患者的MRI数据并协助识别疑似axSpA。

近年来,放射组学作为一种很有前途的图像异质性研究定量方法,允许从感兴趣区域提取高维且有价值的图像特征信息[11]。放射组学目前已经在肺结节[12]、消化道癌[13]和乳腺癌[14]等疾病研究中得到广泛应用,这也引起了人们对axSpA 分类的研究兴趣。例如,Tenorio等[15]基于MRI图像进行了放射组学分析,将基于纹理的定量生物标志物与中轴型和外周亚型的骶髂关节炎联系起来,取得了一定效果。Ye等[16]使用放射组学来研究中轴性脊柱炎和非中轴性脊柱炎的影像学生物标志物,证明了临床放射组学列线图可以提高鉴别axSpA的性能,从而有助于临床决策过程。但标准放射组学研究包含数据预处理、ROI勾画、特征提取、特征降维和模型构建等多个步骤,过程比较繁琐;而且放射组学对特征提取参数较敏感,且无法根据标签自动学习和更新特征,因此其预测能力往往有限,仍具有较大的改进空间。

随着深度学习在医学图像分析领域取得的巨大成功和快速发展,基于卷积神经网络的分类方法也被应用于中轴性脊柱炎的分类[17-19]。Bordner等[20]基于MRI使用Mask-RCNN进行骶髂关节的检测和骨髓水肿的分类,与专家相比有良好的相关性;Bressem等[21]应用3D ResNet101网络从T1WI和STIR图像中提取特征并进行连接,用于对中轴性脊柱炎的炎症变化和结构变化检测,也获得了较高的准确率。但是,目前还没有采用深度学习方法对HLA-B27阴性axSpA和非axSpA进行鉴别诊断的相关研究报道。

联合采用多序列图像有助于提高深度学习任务性能,也与临床医生诊断习惯一致。目前深度学习技术可以在原始数据级、特征级和决策级上进行多序列融合[22,23]。例如:Ge等[24]提出了TripleNet融合基于VGG16网络提取的两种不同MRI序列的特征,用于皮肤镜图像和临床图像中的黑色素瘤分类。Vielzeuf 等[25]则提出了一种新的特征融合方法,针对每种MRI序列构建一个独立的深度卷积网络进行特征学习,同时使用可学习参数加权的方法融合多序列特征。但这些方法对于充分利用和融合多序列信息,仍存在如下两个主要挑战:(1)独立的特征提取过程意味着网络仍然只能基于单序列输入进行学习,因此提取特征的表征能力有限;(2)现有多序列特征融合一般通过拼接层完成,这种简单的连接无法充分解析不同序列特征之间的异质性,这可能导致融合后的特征内部存在较大语义差距,从而降低整体表现。为了解决这两个问题,本项研究提出了一种多序列融合注意力网络MSFANet。该网络由共享特征学习模块和类感知特征学习模块两部分组成。共享特征学习模块将输入的多序列MRI转换为图像空间特征。类感知特征学习模块由两个独立分支和一个融合分支组成,其中独立分支用于分别提取特定序列的鉴别特征,融合分支采用多序列融合注意力模块MSFA学习鉴别不同序列特征之间的相关性,并自适应地进行特征融合。此外,混合损失函数利用可学习的损失权重系数平衡不同分支对分类任务的性能。

本研究提出的结合交叉注意力和混合损失函数的多序列融合框架有助于对HLA-B27阴性axSpA和非axSpA的鉴别诊断。本研究的模型有潜力帮助临床放射医生更早、更准确地检测到HLA-B27阴性axSpA,减少临床中的误诊或漏诊,从而辅助提升axSpA患者的治疗、预后和疾病管理。

1 资料和方法

1.1 实验数据

该研究得到了南方医科大学第三附属医院区域伦理审查委员会的批准(IRB:2020-伦理审查-002)。所有访问的患者数据均提供了书面知情同意书,明确说明所有收集的信息,包括MRI和临床数据,将用于研究者发表。

数据收集:本研究为回顾性研究。分别收集了南方医科大学第三附属医院(TAH)和南海医院(NHH)招募的375例和49例HLA-B27阴性的axSpA(符合2009年版本的ASAS分类标准)和非axSpA患者的双侧骶髂关节MRI数据,其中TAH包括164例axSpA患者和211例非axSpA患者,NHH包括27例axSpA患者和22例非axSpA患者(表1)。数据排除标准如下:缺乏两个以上的临床特征;缺乏T1WI序列或FS-MRI序列;MRI质量差,严重阻碍了双侧骶髂关节的观察。

表1 Non-axSpA的疾病亚型Tab.1 Detailed disease subtypes in the non-axSpApopulation[n(%)]

1.2 数据获取及预处理

所有患者的MRI检查均在1.5T和3.0T MR的磁共振扫描仪下进行采集。两位具有3年和2年经验的肌肉骨骼放射科医生使用ITK-SNAP软件对MRI进行了标注,标注区域覆盖了双侧骶髂关节的整个区域(表2)。然后1名有31年诊断经验的资深医生回顾了有争议的标注案例,并确定最终的ROI。T1WI和FS-MRI 图像如图1A所示。

图1 T1WI和FS-MRI图像示例以及T1WI和FS-MRI图像ROI示例Fig.1 Representative T1WI and FS-MRI images(A)and the ROIs(B).

表2 磁共振采集参数Tab.2 Acquisition parameters of MRI

图像预处理由数据重采样、图像归一化和ROI提取组成。首先将所有病例样本重采样到统一图像分辨率,然后将图像灰度值统一归一化到[0,1]范围,最后利用放射科医生勾画的骶髂关节的ROI坐标,裁剪出以ROI为中心,尺寸为24×320×224 的三维图像,将这个三维图像作为网络的输入。图1B展示了T1WI和FS-MRI图像的ROI。

1.3 深度学习模型建立

本研究提出了一种名为MSFANet的3D多序列融合网络,旨在通过注意力机制建模序列间的语义关联来增强特征表示,从而促进对HLA-B27阴性axSpA与非axSpA 的分类性能。MSFANet 以3D 的T1WI 和FSMRI两种序列图像作为输入,由浅层共享特征学习模块和类感知特征学习模块两部分组成(图2)。对于MSFANet的训练,本文提出了一种混合损失函数,对3个分支进行监督。

1.3.1 浅层共享特征学习模块 该模块以3D T1WI和FS-MRI作为输入,由两个残差块组成,其中每个残差块包含两个卷积核尺寸为3×3×3的卷积层、批处理归一化层和ReLU激活函数。两个残差块的参数由T1WI和FS-MRI共享,可学习并提取两种序列图像之间共有的中级语义信息(图2)。

1.3.2 类感知特征学习模块 该模块(图2)通过3个不同的分支:T1WI分支、FS-MRI分支和Fuse分支进一步学习序列特征的高级语义信息并通过MSFA模块进行多序列特征融合。其中,T1WI分支和FS-MRI分支各包含2个残差块,Fuse分支包含1个残差块和2个MSFA模块。5个残差块结构相同但参数并不共享。这样的设计可以在减少计算开销的同时学习到更多三维图像多序列信息,提高分类的效率和准确度。

1.3.3 MSFA T1WI 和FS-MRI 是两种密切相关的序列,它们分别从结构和病变两个不同的方面反映了axSpA的特征,因此放射科医生通常需要结合两种序列来完成axSpA诊断。基于此本研究设计了MSFA(图3)对多序列特征之间的相关性进行建模。首先,MSFA通过1×1×1 的卷积核将两个输入序列特征Z1,Z2∈RC×D×H×W(C、D、H和W分别代表特征的通道数、深度、高度和宽度)投射到查询Q∈RN×d、键值K∈RN×d和值V∈RN×C中,其中N代表单个序列中的token数目(N=D×H×W),d为Q和K的特征尺寸,表示为:

图3 多序列特征融合Fig.3 Architecture of the proposed MSFA.

为了更好地融合上下文信息、构建两个序列Z1和Z2的相关关系,本研究将Z1,Z2作为MSFA的输入,对Z1的每个子特征进行查询,以获得包含每个token和其所对应的Z2的N个token之间1×N个相关性的注意力亲和矩阵。具体地,本研究在Q1和K2的转置之间进行矩阵乘法,并应用softmax层来计算空间注意图S,该图经过归一化后与Z2的关键特征V2中的相应子特征进行点积相乘得到A2。它们的点积将更多的注意力分配给具有高相关得分的区域。然后在A2和Z1之间进行加权求和,最终得到融合后的特征Zf:

值得注意的是,MSFA模块的输入和输出具有相同的大小,这使得MSFA模块的输出可以与其他分支使用相同大小的卷积块,并允许MSFA模块的输出和Fuse分支中的残差块构建一个残差连接以加速收敛,同时避免因网络过深导致梯度消失或者爆炸带来的训练困难问题。

1.3.4 损失函数 T1WI、FS-MRI和Fuse三个分支用独立的网络处理不同的序列特征,并用附加的注意力机制整合这些序列特征。Kawahara 等[26]提出的多序列多任务的损失函数有助于网络学习到更准确的参数,从而提升模型的诊断性能。受此启发,本研究提出了一个深度监督损失的方法,它对每一个支路的预测结果进行监督,旨在获得更鲁棒的诊断结果。提出的深度监督损失定义如下:

其中,Lf是根据Fuse分支输出计算得到的分类损失,L1、L2分别是T1WI分支和FS-MRI分支的分类损失。βf、β1和β2表示权重系数,通过网络学习而获得。另一方面,公式(4)后两项也可以看作是多序列正则化项,有助于提高网络的泛化能力。Lf、L1和L2均采用交叉熵损失函数L:

其中d为不同分支输出的预测分数,dgt为真实的病人标签。

1.4 模型训练

本研究将来自TAH的375例数据用于训练和内部验证,并把来自NHH的49例数据用于独立外部验证。本研究使用Adam优化器对网络进行优化,初始学习速率、批大小和权值衰减分别设置为1×10-4、6 和1×10-4。并且采用四折交叉验证方法对所有的模型进行了评估,其中每次训练迭代300个epoch。所有实验在Pytorch环境中采用NVIDIA1050Ti 8GB GPU 硬件实现。

1.5 Grad-CAM可视化

本研究使用了梯度加权类激活图映射(Grad-CAM)进行了可视化分析,突出显示与模型预测相关的图像区域,以提高网络的可解释性[27,28]。具体地,本研究从每一个序列的单独分支中选择最后一个卷积层,计算全连接层相对于该卷积层的梯度,得到权重向量,将权重向量和卷积层的输出特征图进行加权求和,得到加权后的特征图。再进行类别标签上采样,得到和输入图像相同大小的激活图。对于给定的3D图像,本研究按层输出激活图。其中fk(x,y,z)代表最后一个卷积层中第k个通道上第z层特征图(x,y,z)的激活值,激活值全局平均池化的结果是。对于类别c,输入到softmax里的类别得分表示为为Fk对于类别c的重要性(权重)。因此我们得到:

1.6 评估指标

在本研究中,采用准确性(Accuracy),敏感性(Sensitivity),特异性(Specificity),F1评分(F1-score)和受试者工作特征曲线下面积(AUC)评估所有模型的分类性能。指标的公式定义如下:

其中,TP,TN,FP,FN分别为真阳性(正确分类的正样本)、真阴性(正确分类的负样本)、假阳性(被错误标记为正样本的负样本)和假阴性(被错误标记为负样本的正样本)的数量。与其它4个指标相比,AUC为受试者工作特性曲线(ROC)与坐标轴围成的面积,其中纵坐标和横坐标分别为TPR和FPR,表示为由不同临界值决定的真阳性率和假阳性率,计算公式如下:

1.7 统计学方法

采用SPSS22.0软件进行统计学分析。所有的实验都进行了4折交叉验证,以4次实验结果的均数±标准差作为最终的结果。通过配对t检验,检测不同模型的差异性。所有统计检验均为双侧检验,当P≤0.05 时被认为差异有统计学意义。

2 结果

2.1 与最先进的方法进行比较

表3比较了MSFANet在内部验证集上与当前最先进的多序列分类方法的性能。从表中可以观察到,MSFANet的AUC、灵敏度、F1分数、召回率排名最高,特异性排名第二高。与其它两种多阶段融合方法CentralNet和Multi-stream相比,MSFANet取得了最高的AUC、准确率、灵敏度和F1 指数,分别为0.840,77.93%,83.7%和71.24%,比两种多阶段融合方法分别高出0.041 和0.040,2.93%和1.62%,0.45%和2.22%,2.67%和2.67%。另外,该表还给出了两个基于双分支结构的基线网络,ShuffleNet和EfficientNet,的分类结果。这些网络只在决策级融合序列特征,无法学习不同分支之间的相互关系。以ShuffleNet为例,它使用同一病人的T1WI和FS-MRI图像作为输入,特征提取器在训练过程中共享权重参数,为了融合多序列信息,将两种序列的特征直接拼接。与之相比,本研究提出的算法MSFANet在序列间的交互使得其在性能上平均提升超过3%。统计学检验结果显示,MSFANet显著优越于其它8种方法(P<0.05)。图4A对比展示了不同模型性能的ROC曲线。为了检验模型的可重复性,本研究还引入了独立外部验证集的数据(表4)。本研究发现,MSFANet在绝大部分指标上的预测性能相较于其它模型均有显著提高。具体来说,AUC上升了3%~7%,准确率提升了1%~5%,F1-score增加了2%~10%,且P<0.05。

图4 模型间的ROC曲线对比Fig.4 ROC curves for inter-model comparison.A: Comparison of the results of the proposed algorithm and other multi-sequence fusion algorithm.B: Comparison of the results using BCE loss.C: Comparison of the results using hybrid loss.D:Comparison of the results of different sequence algorithms.

表3 在内部验证集中不同模型的对比结果Tab.3 Classification results of the proposed algorithm and multi-sequence fusion algorithm in the internal validation set

表4 在独立外部验证集中不同模型的对比结果Tab.4 Classification results of the proposed algorithm and multi-sequence fusion algorithm in the external validation set

2.2 消融实验

2.2.1 MSFA的有效性 本研究首先比较了使用MSFA模块进行多序列特征融合的MSFANet 和没有使用MSFA模块的基线网络(Baseline)的分类性能。表5中的结果表明,当均采用Hybrid loss 作为损失函数时,MSFANet的分类性能显著优越于Baseline,其中AUC、准确度、和敏感度分别提高0.0721,2.93%,和1.41%(P<0.001)。当均采用BCE loss时,虽然MSFANet相比Baseline的灵敏度略降低了0.31%,但AUC,准确度和特异度分别提高了0.0691,3.2%和1.99%(图4B)。

表5 使用两种损失函数的不同模型的对比结果Tab.5 Classification results of all the models using the two loss functions

2.2.2 Hybrid loss的有效性 本研究比较了采用交叉熵函数和提出的混合损失函数对模型性能的影响。相比只使用单一损失函数,采用混合损失函数的MSFANet在AUC、准确度和灵敏度上分别提高了0.021、1.86%、0.43%(表5);同时,使用混合损失函数的Baseline比采用单一损失函数时的AUC、准确率和特异度分别提高了0.019、2.13%、6.75%(图4C)。

2.3 与单序列分类方法比较

与只采用单序列T1WI 和FS-MRI作为输入的模型(BaselineT1和BaselineFS)相比,采用直接拼接融合模型(BaselineTF)的准确率分别提高了5.58%和2.66%,而采用MSFA融合机制模型(MSFANet)的准确率分别提高了10.64%和7.72%(表6,P<0.05,图4D)。

表6 使用不同序列的不同模型的对比结果Tab.6 Classification results of different sequence algorithms with different models

2.4 可视化分析

图5显示了基于T1WI和FS-MRI两个序列图像生成的激活图,其中第1列和第3列是原始图像,第2列和第4列是对应的注意力图。激活图中从红色、黄色到蓝色区域分别表示重要性不断降低。

图5 分类模型的梯度加权类激活图示例Fig.5 Examples of gradient-weighted class activation mapping(Grad-CAM)for the classification model in a 40-yearold male patient with HLA-B27 negative axSpA(A)and a 35-year-old male with HLA-B27 negative non-axSpA(B).

3 讨论

HLA-B27阴性axSpA的早期诊断对提高病人的疾病管理和生活质量具有重要的临床应用价值和意义。MRI是一种广泛用于axSpA早期诊断的成像方式。然而,对于低年资放射科医生来说,正确识别且解释骶髂关节的结构和病理异常,从而准确诊断axSpA尚具有挑战性。本研究模仿临床诊断习惯开发了MSFANet,通过融合T1WI和FS-MRI两种序列图像,来区分HLAB27阴性群体中的axSpA和非axSpA病人。传统的多序列融合算法平等对待每一个序列数据,没有充分利用对分类有意义的多序列信息,造成算法瓶颈[34,35]。最近的一些研究在决策阶段进行序列特征融合,但这种方法无法针对中级特征挖掘更多有用的信息[24,25]。针对以上问题,本研究设计了基于序列间交互机制的多序列网络,通过捕捉T1WI和FS-MRI两个序列之间的全局相关性,以充分挖掘和利用来自不同序列的信息,提高对HLA-B27阴性axSpA的诊断性能。

本研究对MSFANet 的有效性进行了充分验证。首先,本研究将MSFANet与其他最先进(SOTA)的融合算法和分类算法进行了比较。MSFANet通过利用序列间的信息交互,取得了比其他SOTA算法更好的分类性能,其中在内部验证集上的AUC、准确度、灵敏度和特异度分别达到0.840,77.93%,83.70%和70.29%,在独立外部验证集分别达到0.783,74.47%,82.43%和70.40%。然后,本研究通过消融实验验证了所提出的MSFANet中每个创新模块对分类的重要性;结果显示,同时使用交互注意力模块和混合损失函数时,模型的所有评价指标都得到了提升。此外,为了验证融合多序列数据对提高诊断性能的有效性,本研究对比了相同框架下,采用单序列T1WI和FS-MRI以及融合双序列图像的模型性能。实验结果显示,双序列协同模型比单序列模型具有更出色的表现,证实了T1WI 和FS-MRI 在HLA-B27阴性axSpA诊断中的信息互补作用,而且也证明了所提出的MSFA模块对双序列特征进行细化和融合的有效性。

在现有研究的基础上,本文算法具有以下优势:共享特征模块和类感知特征学习的组合可以在保持高性能预测的前提下减小内存和计算需求;本研究提出的交叉注意力特征融合方法和混合损失函数,能够有效提升模型性能,其中MSFA模块比决策端直接融合方法的精度和鲁棒性有明显提升;通过深度学习可视化技术对模型的感兴趣区进行可视化,提高了模型的临床可解释性;独立外部验证检验了模型的可重复性;实验包括了在不同机器上使用不同参数采集的MRI图像,符合真实的临床场景,测试集结果表明本研究的模型对HLAB27阴性的axSpA诊断具有良好的临床泛化性。然而我们的研究仍然存在不足。首先,本研究是回顾性分析,不可避免地存在选择偏倚,因此需要前瞻性研究。第二,本研究选择了全局标签训练模型,并没有提供基于骶髂关节的象限分析,这将允许对不同的关节区域进行更准确的评估。

综上所述,本文提出了一种新的多序列融合框架,先通过共享特征学习模块提取浅层通用特征,再用独立的网络分支分别处理每种序列特征,最后使用额外的中央网络融合单序列特征。该框架可以有效地捕获多序列MRI信息,提高对HLA-B27阴性axSpA的诊断准确性。本研究设计了一种具有跨模态注意力机制的多序列融合模块MSFA,从多序列MRI中充分挖掘高质量的特征表示,并探索特征之间的潜在合作关系,从而增强融合特征的表达能力。本研究引入了混合损失函数,通过学习各支路的损失权重系数,平衡各个分支对分类任务的贡献,提高模型对任务的推断准确性。

猜你喜欢
分支阴性分类
分类算一算
巧分支与枝
学生天地(2019年28期)2019-08-25 08:50:54
分类讨论求坐标
钼靶X线假阴性乳腺癌的MRI特征
数据分析中的分类讨论
一类拟齐次多项式中心的极限环分支
三阴性乳腺癌的临床研究进展
教你一招:数的分类
hrHPV阳性TCT阴性的妇女2年后随访研究
黄癸素对三阴性乳腺癌MDA-MB-231细胞的体内外抑制作用