基于Transformer增强卷积的膝关节磁共振影像年龄预测

2023-04-29 13:14朱昊哲邓小冬廖培希杜文超陈怀歆刘洪陈虎邓振华杨红雨
关键词:深度学习

朱昊哲 邓小冬 廖培希 杜文超 陈怀歆 刘洪 陈虎 邓振华 杨红雨

摘要:年齡预测是临床医学中的一个重要课题和非常活跃的研究领域.最近,由于传统影像学检查中电离辐射的缺点,越来越多的研究使用磁共振影像进行年龄预测.本文基于膝关节MRI数据集,提出了一种新的端到端网络,结合卷积神经网络和Masked-Transformer网络互补地来提取局部特征和全局依赖,并使用一个特征聚合模块来聚合不同局部膝关节MRI切片的特征.通过整合卷积神经网络的特征图和视觉Transformer分支的特征编码,特征提取模块可以互补地提取局部和全局信息,更好地提取与年龄相关的特征.同时,该网络使用由图注意力网络组成的特征聚合模块,用于在特征级别集成不同MRI切片的局部特征,实现多切片局部特征之间的交互.大量实验表明,该方法可以在膝关节MRI年龄估计任务中达到最先进的性能.具体而言,本文方法在MRI数据集上进行了测试,该测试集包括44个年龄在12.0~25.9岁之间的膝关节MRI样本,其中五折交叉验证的最佳结果是年龄平均绝对误差为1.57±1.34岁.

关键词:深度学习; 膝关节年龄预测; 核磁共振影像; 计算机辅助诊断

中图分类号:  TP389.1   文献标识码:A  DOI:10.19907/j.0490-6756.2023.052001

收稿日期:  2022-11-30

基金项目:   四川省卫生健康委员会科研课题(19PJ007); 成都市卫生健康委员会科研课题(2022053);四川省自然科学基金(2022NSFSC1286); 成都市重点研发支撑计划项目(2021YF0501788SN)

作者简介:   朱昊哲(2000-), 男, 湖北武汉人, 硕士研究生, 主要研究方向为医学图像处理. E-mail: zzzhz@stu.scu.edu.cn

通讯作者:  陈虎. E-mail: huchen@scu.edu.cn

Transformer enhanced convolution based knee age estimation on MRIs

ZHU Hao-Zhe  1 , DENG Xiao-Dong  2 , LIAO Pei-Xi  3 , DU Wen-Chao  1 , CHEN Huai-Xin  4 ,

LIU Hong  1,4 , CHEN Hu  1 , DENG Zhen-Hua  2 , YANG Hong-Yu  1,4

(1. College of Computer Science, Sichuan University, Chengdu 610065, China;   2. West China School of Basic Medical Sciences and Forensic Medicine, Sichuan University, Chengdu 610041, China;

3. The Sixth Peoples Hospital of Chengdu, Chengdu 610051, China;

4. Department of National Key Laboratory of Fundamental Science on  Synthetic Vision, Sichuan University, Chengdu 610065, China)

Age estimation is regarded as a crucial topic and a very active research field in clinical medicine. Recently, due to the drawback of ionizing radiation from the traditional imageological examination, growing more and more studies have focused on using magnetic resonance imaging (MRI) for bone age prediction. This paper proposes a novel end-to-end network based on the knee MRI dataset, which combines the convolution neural network (CNN) and Masked-Transformer network to extract complementary features, and uses a feature aggregation module to aggregate features of different local knee MRI slices. By integrating the feature maps of CNN and the patch embeddings of visual transformer branches, the feature extraction module can complementarily acquire local and global information to better extract age-related features. A feature aggregation module composed of the graph attention network is proposed in our work to integrate the local features of different MRI slices at the feature level to achieve the interaction between multiple slice features. Extensive experiments demonstrate that our method can achieve state-of-the-art performance in the knee MRI age estimation task. Specifically, our method is tested on a dataset including 44 knee MRI samples aging from 12.0 to 25.9 years, and the best result of five-fold cross-validation is a mean absolute error of 1.57 ± 1.34 years in age regression.

Deep learning; Knee age estimation; Magnetic resonance imaging; Computeraided diagnosis

1 引 言

年龄预测在临床医学和放射学中是一个重要的研究领域  [1-2] ,可用于诊断内分泌疾病、判断青少年发育时间点以及规划骨科手术干预时间点  [3-4] .现有的人工年龄预测的方法,诸如Greulich and Pyle(GP)  [5] 和Tanner Whitehouse 2(TW2)  [6] 等方法对于手腕部医学图像中骨骼生长板骨化状况进行分级对照,从而预测出样本的年龄.参考GP和TW2方法,许多研究  [7-14] 总结了人工对于膝关节X光图像或MRI图像进行年龄预测的方法,从股骨远端、胫骨近端和腓骨近端三个部位  [15] 获取年龄相关信息.然而,传统的膝关节年龄预测方法需要专业放射科医生手动完成,这可能导致主观误差和低准确性.因此,需要开发基于深度学习技术的自动化算法来提高年龄预测的效率和准确性.

最近的研究  [16-18] 利用卷积神经网络对膝关节MRI进行年龄预测.这些方法将每个MRI样本看作多层面的二维图像,并使用共享参数的卷积神经网络和全连接层提取具有年龄相关性的特征信息,以预测每个切片的年龄并加权得到最终的年龄预测结果.尽管卷积神经网络在该任务中表现良好,但仍难以获取所有MRI切片的全局相关信息,在该项年龄预测任务中存在局限性.

自注意力模型近年来在计算机视觉领域得到广泛应用,尤其在图像识别、图像分割和目标检测等任务中表现突出.视觉Transformer模块通过捕获图像的全局依赖,在处理全局信息方面具有优势,这与卷积神经网络在处理局部细节方面的优势相互补充.

基于卷积网络和Transformer结构的优势和特点,本文提出了ResMAE网络结构.该网络由Masked-Transformer模块增强的卷积神经网络基本块组成,用于从每个膝关节MRI样本的图像切片中提取与年龄相关的特征.在提取到图像特征之后,应用一个由图注意力网络结构组成的特征聚合模块实现各MRI切片特征的聚合,以输入到全连接层和Softmax层中得到预测的年龄结果.本文的贡献主要包括:(1) 本文提出了一种新的端到端网络,用于处理膝关节MRI年龄预测任务,该网络显著提高了其在膝关节MRI的年龄预测任务的性能效果,并实现了临床应用的可行性;(2) 本文提出了一种Masked-Transformer增强的卷积特征提取网络结构.实验证明该网络在膝关节MRI年龄预测任务中比全卷积结构和全视觉Transformer结构具有更好的结果;(3) 本文在局部MRI切片特征级别上使用了图注意力网络  [19] 作为特征聚合模块.实验表明,相比原始的基于每个切片预测结果的机器学习聚合方法,该方法表现更佳;(4) 通过详细的实验结果证明,本文方法在可解释性、时间效率和性能方面均优于人工膝关节MRI年龄预测方法和现有深度学习方法.

2 膝关节核磁共振相关研究

2.1 膝关节年龄预测

近期的研究  [16-18] 采用深度学习技术对膝关节MRI图像进行年龄估计.这些方法将每个MRI切片看作一张二维图像,使用二维卷积神经网络和全连接层提取与年龄相关的特征信息,并使用机器学习方法预测每个切片的年龄并加权平均得到最终的年龄结果.然而,卷积神经网络虽然能够有效地提取局部特征,但在捕获所有MRI切片的全局依赖信息方面存在困难.同时,由于未考虑到不同切片之间的关系,直接将不同切片的年龄结果反馈到另一个机器学习回归函数中进行最终的年龄估计也不可靠.

具体而言,Dallora等人  [16] 使用GoogLeNet  [20] 和全连接层进行膝关节MRI切片图像的特征提取和年龄回归预测.Prove等人  [17] 引入U-Net结构  [21] 从膝关节MRI切片图像中分割出骨骼部分,用U-Net编码器提取骨骼掩膜图像中的特征,并将每个切片的年龄预测结果输入到随机森林回归函数中得到最终年龄结果.Mauer等人  [18] 使用AgeNet2D从局部膝关节MRI切片提取特征,并应用极端随机树回归器对每个切片的预测结果进行加权,以在其私人数据集中获得最佳预测结果.然而, 这些方法都采用两阶段方法,即使用二维卷积神经结构提取每个MRI图像切片的特征,并将每个切片的预测结果直接加权以获得最终年龄.

相比之下,本文提出了一种新的方法,使用视觉Transformer结构对膝关节MRI数据进行特征提取,以提高年龄预测的准确性.与现有解决方案相比,本文方法从全局角度提取更多与年龄相关的特征,并使用由图注意力网络结构组成的特征聚合模块在特征层面实现各切片特征的聚合,从而更好地考虑了不同局部切片之间的相关性.此外,本文的方法以端到端的方式实现,实现起来更加方便,并在后续实验中证明了其在预测性能上的优越性.

2.2 卷积神经网络

卷积神经网络在计算机视觉任务中表现惊人,其在膝关节MRI年龄预测任务中也不例外.ResNet  [22] 作为一个具有里程碑意义的深度卷积神经网络模型.过去,研究人员一直认为神经网络的深度对卷积神经网络的性能和拟合能力至关重要,因此一直通过增加层数来改进神经网络模型.但是He等人  [22] 证明,当网络深度增加到一定程度时,网络的拟合能力可能会下降.因此,ResNet使用跳跃连接来解决过拟合问题并加速训练.由于ResNet在特征提取方面的出色能力,本文选择ResNet作为该任务的主干网络.考虑到本文的训练数据集相对较小且图像分辨率相对较低,因此选择参数较少的ResNet34网络结构作为主干网络,以缓解过度拟合现象.

2.3 Transformer模块

Transformer  [23] 模块一直被广泛应用于NLP任务中.最近ViT  [24] 的出现证明了在视觉任务中使用Transformer结构的可行性,并展示了其在全局特征提取方面的优势.视觉Transformer网络通过将每个图像分割成带有位置编码信息的特征来构建一系列特征编码,并使用串联的Transformer模块提取参数化向量作为全局视觉表示.然而,全Transformer网络结构可能会忽略图像的局部特征细节,并且在数据量不足的情况下训练时的泛化性能较差.为了应对这些问题,近期许多工作着力于使用Transformer结构来增强卷积主干网络,提高网络的整体性能.

具体而言,Dai等人  [25] 提出了CoAtNet网络结构,以结合卷积神经网络和Transformer模块的优点.他们发现,深度卷积结构和自注意力机制可以自然地统一结合,并在浅层中更有效地垂直堆叠卷积和自注意力层.Conformer  [26] 使用并行混合的卷积神经网络结构和Transformer块,以利用卷积运算和自注意力机制来增强网络的泛化能力.

与现有工作不同,本文考虑到更好地提取所有MRI切片的全局特征和局部切片特征,在ResMAE的ResNet基本块的基础上,加入了类似于MAE  [27] 的编码器结构的Masked-Transformer结构,以将具有年龄相关性的全局信息融入切片图像特征提取中.同时,Masked-Transformer结构随机地对一些图像区域进行遮蔽操作,以此减轻Transformer结构产生的过拟合现象.后续部分将详细介绍本文所提出的ResMAE模块,并通过综合实验证明,ResMAE中的特征提取模块显著提高了膝关节MRI年龄预测任务的精度,在预测时间和精度方面都能满足临床应用需要.

3 方 法

本节将介绍用于膝关节MRI年龄估计任务的特征提取网络和特征聚合模块.整体网络结构如图1所示,网络的输入为12张二维切片图像,经过初始的3个卷积网络块得到浅层特征,接着输入到4个级联的基本块进行特征提取并得到每张图像的高级语义特征向量.最后,本文通过特征聚合模块(Feature Aggregation Module,FAM)将各切片的特征向量进行聚合,得到年龄相关性最强的切片特征,并使用全连接层和Softmax层输出预测年龄.

基于图1中的网络结构,我们来解释本文如何结合卷积神经网络和Transformer模块的优点来进行特征提取.同时,本文还介绍了如何使用Masked-Transformer模块以减轻过拟合现象,并展示了如何应用特征聚合模块对提取到的切片特征在特征层面进行聚合.

3.1 基于Transformer模块的特征提取网络

本节详细介绍了用于膝关节MRI切片特征提取的网络结构,如图2所示.与ResNet  [22] 结构相似,本文的特征提取网络针对膝关节年龄预测任务进行了修改.首先,为了避免图像细节的丢失,本文在网络的初始部分应用3个3×3的卷积块进行初始特征提取过程,将初始输入图像转换为具有初级语义特征的特征图.基本块的整体卷积结构与ResNet34结构类似,每个卷积块的卷积核大小为3×3,padding为1,并在其后跟随有一个BatchNorm层和ReLU激活层.

此外,如图2右上部分所示,本文在ResNet基本块的第二个卷积块后添加了一个Masked-Transformer模块,以更好地融合Transformer模块的全局依赖,实现更好的特征提取过程.Masked-Transformer 模块的结构如图2的下半部分所示,为了更好地表示网络的计算过程,这里假设上一个基本块或者卷积块的输出特征图为  f   c ∈ Euclid Math TwoRA@

B×N×C×h×w  (其中 B、N、C、h、w 分别代表训练的批次大小、MRI样本的切片数量、特征图的通道数量、特征图高和特征图宽).本文先使用平均池化操作减小特征图的尺寸大小将特征图压缩为  f    c ′ ∈ Euclid Math TwoRA@

B×E× h ′× w ′  (其中 E=N×C ,  h ′、 w ′ 分别为压缩后的特征图大小).然后使用一个类似于MAE  [27] 编码器的结构来对特征图的部分区域进行采样,同时对未采样区域进行遮蔽操作,此时可以得到随机采样后的特征图  f   m ∈ Euclid Math TwoRA@

B×E× h ′× w ′  (其中本文设置的遮蔽率为  M   r  ,  M   r  的大小在0~1之间,即对特征图仅保留 1- M   r  比例的部分信息,其余  M   r  比例部分进行零填充操作).同时,由于经过Transformer模块计算之后的特征编码需要还原到原始的特征图尺度大小,本文也使用了掩码标记的结构以通过一种可学习向量的形式来替代上一步中的被遮蔽部分.与文献[27]中类似,ResMAE给所有特征编码加上了位置编码信息以便还原为原特征图的维度大小.同时,为了将二维的特征图转化为Transformer模块输入的一维序列格式,本文按照ViT  [24] 的步骤,将特征图  f   m ∈ Euclid Math TwoRA@

B×E× h ′× w ′  转化为  f   e ∈ Euclid Math TwoRA@

B×P×E  (其中P表示Transformer模块的特征通道数, P= h ′× w ′× M   r  ).随后使用两个级联的Transformer模块来提取输入的特征序列  f   e  ,Transformer模块的格式按照标准的ViT  [24] 结构进行设置.如图2所示,ResMAE在基本块之后要实现原始卷积特征图和Transformer模块输出特征编码的拼接,为此本文使用前面提到的位置编码信息和掩码标记将Transformer模块的输出还原到输入的特征图大小,还原后的特征图为  f    t ′ ∈ Euclid Math TwoRA@

B×E× h ′× w ′  ,并且使用最近邻插值算法使特征图的维度大小调整为  f   t ∈ Euclid Math TwoRA@

B×N×C×h×w  .最后将卷积输出与Transformer模块的输出进行拼接即可得到基本块的输出结果.

可以通过后续实验部分证明,通过将带有随机遮蔽采样的Transformer模块嵌入到原始卷积块之中,不仅可以为卷积结构提取的局部特征添加全局表示能力,而且通过一种随机掩蔽的方式减轻Transformer模块带来的过拟合现象,增强特征提取网络的鲁棒性.

3.2 基于图注意力网络的特征聚合模块

考虑到不同MRI切片之间的原始顺序,本文从特征层面考虑不同切片特征之间的特征聚合,以消除不同切片之间年龄相关信息的差异性,获得年龄相关性更强的高级语义特征.对于特征聚合模块,本文使用图注意力网络  [19] 作为聚合局部切片特征向量的基本块.具体而言,假设特征提取网络得到的切片特征向量为  F   l ∈ Euclid Math TwoRA@

B×N×D  (其中 D 为特征向量的维度大小).在特征提取网络中,每个切片特征被视为图中的一个结点,每个切片结点  V   i ∈  V   1 , V   2 ,…, V   N   的特征维度为 1×D .考虑到磁共振影像中的每个相邻二维图像切片可能包含更多相似的年龄相关信息,本文让相邻的各图像节点之间相互连接,来实现信息的交互.

图注意力网络的输入为相邻结点之间的结点特征和边的集合.在一系列的图注意力加权操作之后,可以将切片特征向量进行聚合并进行加权平均为最终的输出特征  F   o ∈ Euclid Math TwoRA@

B×D  .最后,经过聚合的局部切片特征输入到全连接层和Softmax层中加权得到预测年龄 A∈ Euclid Math TwoRA@

B  .通过使用图注意力网络作为局部切片特征的特征聚合模块,本文的ResMAE网络结构可以更好地在不同切片图像上集成切片特征,并在局部图像域和全局图像域提取年龄相关性更强的特征.

3.3 损失函数设计

对于年龄估计任务而言,主要有两种方法来计算损失函数:基于分类的方法和基于回归的方法.为了增强网络的预测能力,Rothe等人  [28] 提出了一种将年龄回归作为一个深度分类问题,然后使用Softmax层细化期望值的方法,这样可以显著提高年龄预测网络的性能.同时,Pan等人  [29] 提出了对于年龄分布进行估计的平均损失函数,主要拟合减小预测的年龄分布均值与真实年龄分布均值的差异,在此基础上提高年龄分布的预测精度.基于上述两种方法,本文中使用Softmax损失函数和基于年龄分布估计均值的损失函数来预测年龄,让预测标签更接近于真实标签值.本文的损失函数使用细节如下.

首先,这里假设 X 为图1中最后的全连接层输出的特征向量,  S   i ∈{1,2,…,T} 表示整个数据集的标签年龄组.其中特征向量 X 的维度为 B×T (其中 B 为训练批次大小、 T 为特征向量的向量维度).将特征向量 X 输入到Softmax层中即可得到每个年龄标签  S   i  的概率分布 P (其中 P 具有与特征向量 X 相同的维度大小).因此,这里可以使用如下式得到概率分布的表示:

P    b,i =  e     X    b,i   ∑   T   t=1  e     X    b,t     (1)

其中,  P   b,i  表示样本 b 在所有年龄组  S   i  上的预测概率.因此,每个样本在网络输出的最终预测年龄可以用以上  P   b,i  和  S   i  的加权平均和来表示.最终的预测年龄  A   b  可以由如下公式计算得到:

A    b =∑  T   i=1   P    b,i * S    i   (2)

均值损失致力于减少网络估计的年龄分布均值与真实的年龄分布标签之间的误差.同时,均值损失和Softmax损失函数被嵌入到神经网络的预测部分,以平衡年龄预测的最终损失函数.因此,本文所用的整体损失函数如下式.

L=λ L    mean  + L    softmax    (3)

其中, λ 是用来平衡均值损失以及Softmax损失的超参数.均值损失按照前文的叙述可以由式(4)计算得到:

L   mean = 1 2B ∑  B   b=1     A    b - Y    b     2 =

1 2B ∑  B   b=1    ∑  T   i=1   P    b,i * S    i - Y    b     2   (4)

其中,  Y   b  为每个样本的真实年龄.同时Softmax损失可以由式(5)计算得到:

L   softmax = 1 B ∑  B   b=1  - log  P    b, Y    b    (5)

所以,综合上述的公式~式(5)可以得到最终的损失计算函数:

L=λ L   mean + L   softmax =

λ 1 2B ∑  B   b=1    ∑  T   i=1   P    b,i * S    i - Y    b     2 +

1 B ∑  B   b=1  - log  P    b, Y    b    (6)

4 实验与分析

4.1 膝关节MRI标注数据集

由于膝关节MRI年龄预测任务没有公开数据集,本文实验采用的数据为四川大学华西基础医学与法学院提供的膝关节MRI年龄预测数据集.数据集由259例年龄位于12.0~25.9岁之间的中国汉族男性受试者膝关节MRI数据组成,其中每个3D MRI样本可以映射为15~22张二维图像切片.每个MRI样本与该样本的真实年龄标签一一对应,作为本论文网络的主要数据集和标签.膝关节磁共振图像如图3所示. 本文在实验中将数据集的259例膝关节图像样本按照4∶1的比例进行划分,其中训练集样本数量为205例,测试集样本数量为44例,每个样本经处理后包含12张二维图像切片.

由于磁共振扫描设备中的磁场强度变化,磁共振图像通常显示出不均匀的结果,即在磁共振图像中,由于磁场强度的差异,图像的一部分在视觉上可能显得更亮或者更暗,这可能会降低后续图像处理算法的性能.因此,本文按照先前工作的思路  [17,18] ,首先对MRI数据进行N4ITK偏置场矫正  [30] 处理,以消除磁共振设备本身对于实验结果的影响.其次,由于原始的3D MRI数据分辨率为512×512×15~512×512×22,不同样本的二维切片数量不尽相同,为了方便后期的处理以及用作神经网络的输入,本文在华西医院专家的帮助下对于不同切片数量的膝关节图像进行选取并且统一插值缩放到128×128×12的尺度大小.并且,由于前人的工作  [17,18] 已经证明了在膝关节磁共振影像中首先通过分割任务提取出骨骼部分区域来进行年龄预测的有效性,所以本文按照U-Net  [21] 的实验设置,同样地对原始数据中的骨骼部分进行分割提取.本实验中的数据采集和处理步骤如图4所示.

4.2 实验设置

本文在Windows 10系统中使用Pytorch框架进行实验,其中GPU为Nvidia GeForce RTX 2080 8 GB GPU,内存为32 GB.由于显存容量的限制,数据输入的批次大小设置为2.同时,本文对于所有的Dropout层的概率设置为0.2,默认情况下本文使用Adam优化器来训练网络,Adam优化器的权重衰减设置为0.0005,初始学习率为 0.000 05 ,总训练周期为80次,并且每30个训练周期将学习率下降0.3倍.在后续实验中,平均绝对误差(Mean Absolute Error,MAE)、标准差(Standard Deviation,SD)和95%置信区间(Confidence Interval,CI)用于评估本文提出的方法和经典模型.另外,本文在数据集上使用五折交叉验证来报告不同模型在数据集上的预测性能.

4.3 实验结果分析

本文提出的模型利用Transformer模块在提取全局依赖性特征和卷积神经网络在提取局部细节特征的优势,结合Masked-Transformer结构来缓解Transformer模块提取全局特征时的过拟合现象.为了验证本文使用的网络模型的有效性,本文将ResMAE模型与最近在膝关节年龄预测相关论文的方法、计算机视觉领域中广泛使用的先进深度卷积网络和基于Transformer模块的网络结构进行对比.

表1列举了在本文数据集上使用不同模型的预测性能,以及按年龄区间段进行划分的预测结果的平均绝对误差(除了AgeNet2D  [18] 按照原论文设置为两阶段的实现方式以外,其余模型在提取到每个局部切片的特征之后都使用了本文提出的特征聚合模块进行特征层面的聚合).从表1结果可以看出,在融合了本文所提出的特征聚合模块之后,具有相对较少训练参数的神经网络结构可以取得较好的性能.即对于卷积神经网络SKNet  [31] 、ResNeXt  [32] 和基于卷积和Transformer结合的方法CoAtNet  [25] 和Conformer  [26] ,这些网络的性能低于GoogLeNet  [20] 、ResNet34  [22] 和ResNet50  [22] 等.同时,本文提出的端到端网络结构比具有两级结构的AgeNet2D  [18] 具有更好的预测结果,这在很大程度上取决于ResMAE中的Masked-Transformer结构以及提取局部切片特征之后所采用的特征聚合模块.由于本数据集样本数量相对较少,全Transformer结构训练难以获得足够的训练样本,所以对于类似ViT  [24] 的全Transformer结构并没有比全卷积神经网络结构获得更好的结果.此外,由于ResNet   [22] 的跳跃连接结构在特征通道加权中发挥了出色的作用,其在该任务中取得了较好的实验结果.本文提出的ResMAE结构使用ResNet34和Masked-Transformer模块作为特征提取的基本块,以一种全局和局部相结合的方式进一步提高特征的全面性,并且在表1的所有网络结构中取得了最好的性能.

如前文所述,与全卷积网络结构和全视觉Transformer结构相比,本文为了提升整体网络结构的特征提取能力,融合视觉Transformer在提取全局特征方面的优势以及卷积网络结构适用于局部特征细节的特点,在ResNet基本块中插入了Masked-Transformer模块.通过实验结果可以看出,卷积和Transformer结构结合的混合式结构明显优于单体网络结构,能够实现更好的年龄预测结果.并且本文中通过使用Masked-Transformer结构,能够进一步平衡Transformer和卷积网络在特征提取过程中的作用,有效避免过拟合现象,实现在膝关节年龄预测任务中的最佳实验结果.

此外,本文使用图5显示了表1中最佳网络模型ResMAE在五折交叉实验中的预测膝盖年龄与实际年龄的散点图.可以看出,在12~16岁之间,由于样本的膝关节骨骼生长板即骨骺区域并未完全融合,年龄特征相对来说比较明显,因此网络能够较为准确地预测出测试样本的年龄.以往的医学研究表明,男性的膝关节骨骺生长板区域完全愈合发生在16~19岁之间,并随个体的不同存在差异,因此在16岁以上的样本中通过膝关节MRI来判断个体年龄具有较大误差.同时由于膝关节MRI数据集中的部分受试样本中可能存在发育异常现象,即存在较大的个体差异可能性,在预测结果中16~22岁年龄区间内的少部分样本可能存在预测值偏大,22岁以上年龄区间内的少部分样本存在预测值偏小的现象.

同时,本文为了验证ResMAE网络模型在使用Masked-Transformer模块和特征聚合模块上的效果,以及在Masked-Transformer模块中使用不同大小的遮蔽率  M   r  对于模型预测效果的影响,进行了以下消融实验.

首先,如前文所述,本文采用Transformer模块来增强卷积神经网络的特征提取,以此来获得互补性的年龄相关性特征,并且应用Masked-Transformer结构的随机遮蔽策略减轻Transformer模块的过拟合现象.由于Masked-Transformer模块中不同遮蔽率  M   r  大小会对模型的性能以及预测效果产生影响,本文在不同遮蔽率大小设置下进行实验.如表2所示,在ResMAE中采用不同大小的遮蔽率会对结果产生不同的影响,在遮蔽率过小的时候由于Transformer模块对于全局图像的过拟合可能会导致网络的整体性能下降,同时当遮蔽率过大的时候会减弱Transformer模块对全局依赖的感知能力.当遮蔽率  M   r  设置为0.2时,ResMAE取得最佳的实验结果,因此在本文所提及的剩余实验中也将  M   r  设置为0.2.

其次,在前一章中提到,特征提取模块生成所有MRI切片的12个局部特征向量,为了更好地聚合局部切片特征向量,本文使用两层图注意力模块在特征层面上对于局部特征向量进行聚合.为了进一步说明特征聚合模块的作用以及Transformer模块对于特征提取的影响,本文对于网络是否使用特征聚合模块以及是否用到Masked-Transformer模块进行了实验,实验结果如表3所示.无论网络是否使用到了Masked-Transformer模块,与原始的网络相比,使用了特征聚合模块的网络结构可以显著提升预测效果,预测精度提升大约为0.5年左右.在使用Masked-Transformer增强卷积结构时,由于Transformer模块在提取全局特征的优势以及随机遮蔽策略能够缓解过拟合现象的特点,使用Masked-Transformer策略对于整体网络性能提升也能起到较大作用.同时,本文还评估了特征聚合模块对于网络收敛速度的贡献,网络模型运行的训练曲线如图6所示,可以观察到,在网络中使用特征聚合模块可以显著减少网络训练过程中的过拟合现象来加速网络的拟合速度,并在年龄预测任务中产生更好的性能.通过以上实验证明,本文通过使用Masked-Transformer模块实现更全面的特征提取过程,并应用特征聚合模块将不同切片特征在特征层面实现融合,极大程度上提高了网络的年龄预测表征能力并减轻过拟合现象.

最后,为了比较临床医生和已训练网络在本文数据集上的预测表现,本文在表4中展示了专家放射科医师、医师助理以及本文的ResMAE网络的预测结果.从表4中可以看出,膝关节年龄估计需要经过长时间的观察统计才能手动做出准确的决定,并且由于缺乏专业培训和相关经验,医师助理很难取得良好的预测结果.甚至即使对于该领域的专家而言,在时间和准确性方面也无法超过本文的ResMAE网络.可以看出,本文的工作可以大大减少膝关节MRI年龄预测任务中的时间消耗和平均绝对误差,这可以在很大程度上帮助临床医生和放射科医生精确预测年龄.因此,ResMAE可用于帮助专业临床医生进行膝关节年龄预测的任务,同时即使是非专业人员,在本文已训练模型的帮助下,其预测个体年龄的能力也能得到显著提高.

5 结 论

年龄估计被认为是临床医学中的一个重要课题.本文提出了一种新的端到端网络结构ResMAE,该网络使用Masked-Transformer模块来增强卷积特征提取过程,并使用了一个由图注意力网络组成的特征聚合模块来集成不同局部MRI切片图像的特征以用于膝关节MRI年龄预测任务.具体而言,本文在每个基本块的卷积块之后插入Masked-Transformer模块,以提取所有局部切片特征图的全局特征,这在实验中可以证明有助于更准确的年龄预测结果.此外,本文引入了一种基于图注意力网络的特征聚合模块,以将不同MRI切片的特征向量聚合为年龄相关性最强的特征,该结构在特征提取阶段发挥了巨大的作用.尽管本文中的总数据集较小,但ResMAE网络结构在此基础上也取得了很好的结果,这也展现了其应用在更大的数据集上能产生更好效果的前景.此外,本文方法在很大程度上提高了膝关节MRI年龄估计任务中的预测精度,并缩短了推理时间,这对临床医生或放射科医生的工作有很大帮助.最后,希望本文提出的在卷积神经网络中插入Masked-Transformer模块以增强特征提取的想法和在特征层面使用特征聚合模块的策略能够对相似医学图像回归或分类任务起到帮助作用.

参考文献:

[1]   Creo  A L, Schwenk W F. Bone age: a handy tool for pediatric providers [J]. Pediatrics, 2017, 140.

[2]  Schmeling A, Dettmeyer R, Rudolf E,  et al . Forensic age estimation: methods, certainty, and the law [J].  Dtsch Arztebl Int, 2016, 113: 44.

[3]  Martin D D, Wit J M, Hochberg Z,  et al . The use of bone age in clinical practice-part1 [J]. Horm Res Paediatr, 2011, 76: 1.

[4]  Martin D D, Wit J M, Hochberg Z,  et al . The use of bone age in clinical practice-part2 [J]. Horm Res Paediatr, 2011, 76: 10.

[5]  Garn S M. Radiographic atlas of skeletal development of the hand and wrist [J]. Am J Hum Genet, 1959, 11: 282.

[6]  Poznanski  A K. Assessment of skeletal maturity and prediction of adult height (TW2 method)[J]. Am J Hum Genet, 1977, 131: 1041.

[7]  Craig J G, Cody D D, Van Holsbeeck M. The distal femoral and proximal tibial growth plates: MR imaging, three-dimensional modeling and estimation of area and volume[J]. Skeletal radiology, 2004, 33: 337.

[8]  Dedouit F, Auriol J, Rousseau H,  et al . Age assessment by magnetic resonance imaging of the knee: a preliminary study[J]. Forensic Sci Int, 2012, 217: 232.

[9]  Cameriere R, Cingolani M, Giuliodori A,  et al . Radiographic analysis of epiphyseal fusion at knee joint to assess likelihood of having attained 18 years of age [J]. Int J Legal Med, 2012, 126: 889.

[10]  Faisant M, Rerolle C, Faber C,  et al . Is the persistence of an epiphyseal scar of the knee a reliable marker of biological age?[J]. Int J Legal Med, 2015, 129: 603.

[11] OConnor J E, Coyle J, Bogue C,  et al . Age prediction formulae from radiographic assessment of skeletal maturation at the knee in an Irish population [J]. Forensic Sci Int, 2014, 234: 188.

[12] Saint-Martin P, Rérolle C, Pucheux J,  et al . Contribution of distal femur MRI to the determination of the 18-year limit in forensic age estimation [J]. Int J Legal Med, 2015, 129: 619.

[13] Krmer J A, Schmidt S, Jürgens K U,  et al . Forensic age estimation in living individuals using 3.0 T MRI of the distal femur[J]. Int J Legal Med, 2014, 128: 509.

[14] Fan F, Zhang K, Peng Z,  et al . Forensic age estimation of living persons from the knee: comparison of MRI with radiographs [J]. Forensic Sci Int, 2016, 268: 145.

[15] O'Connor J E, Bogue C, Spence L D,  et al . A method to establish the relationship between chronological age and stage of union from radiographic assessment of epiphyseal fusion at the knee: an Irish population study [J]. J ANAT, 2008, 212: 198.

[16] Dallora A L, Berglund J S, Brogren M,  et al . Age assessment of youth and young adults using magnetic resonance imaging of the knee: a deep learning approach [J]. JMI, 2019, 7: 16291.

[17] Prve P L, Jopp-van Well E, Stanczus B,  et al . Automated segmentation of the knee for age assessment in 3D MR images using convolutional neural networks [J]. Int J Legal Med, 2019, 133: 1191.

[18] Mauer M A, Well E J, Herrmann J,  et al . Automated age estimation of young individuals based on 3D knee MRI using deep learning [J]. Int J Legal Med, 2021, 135: 649.

[19] Veli kovi  P, Cucurull G, Casanova A,  et al . Graph attention networks [EB/OL]. (2018-02-04) [2022-12-15]. https://arxiv.org/pdf/1710.10903.pdf.

[20] Szegedy C, Liu W, Jia Y,  et al . Going deeper with convolutions [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1.

[21] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-assisted Intervention. Munich: Springer, 2015: 234.

[22] He K, Zhang X, Ren S,  et al . Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770.

[23] Vaswani A, Shazeer N, Parmar N,  et al . Attention is all you need [C]//Advances in Neural Information Processing Systems. Long Beach: MIT Press, 2017: 5998.

[24] Dosovitskiy A, Beyer L, Kolesnikov A,  et al . An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL].[2022-12-15]. https://arxiv.org/pdf/2010.11929.pdf.

[25] Dai Z, Liu H, Le Q V,  et al . Coatnet: Marrying convolution and attention for all data sizes [C]//Advances in Neural Information Processing Systems. Virtual: MIT Press, 2021: 3965.

[26] Peng Z, Huang W, Gu S,  et al . Conformer: Local features coupling global representations for visual recognition [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 357.

[27] He K, Chen X, Xie S,  et al . Masked autoencoders are scalable vision learners [C]//Proceedings of the IEEE/CVF  Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022.

[28] Rothe R, Timofte R, Van Gool L. Dex: deep expectation of apparent age from a single image [C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. Santiago: IEEE, 2015: 252.

[29] Pan H, Han H, Shan S,  et al . Mean-variance loss for deep age estimation from a face [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 5285.

[30] Tustison  N J, Avants B B, Cook P A,  et al . N4ITK: improved N3 bias correction [J]. IEEE T Med Imaging, 2010, 29: 1310.

[31] Li X, Wang W, Hu X,  et al . Selective kernel networks [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 510.

[32] Xie S, Girshick R, Dollár P,  et al . Aggregated residual transformations for deep neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 5987.

猜你喜欢
深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究