面向小样本股骨骨折分型的多视角注意力融合方法

2022-03-26 05:26张亚东汪玲兰海翟禹樵程洪
中国图象图形学报 2022年3期
关键词:分型股骨样本

张亚东,汪玲*,兰海,翟禹樵,程洪

1.电子科技大学, 成都 611731; 2.成都大学附属医院, 成都 610081

0 引 言

股骨骨折是指股骨失去完整性或连续性,是一种常见的骨折类型。主要发生在老年妇女和青年男子群体中。股骨骨折常伴有周围肌肉和筋膜损伤,可能导致膝关节功能障碍。如果对股骨骨折治疗不当而延误,发生后遗症的可能性相对较高,特别是对于老年人而言,发生后遗症的可能性会更高。在临床诊断中,外科和放射科医生通常需要利用X射线或计算机断层扫描(computed tomography,CT)图像确定骨折的发生和确切性质,为选择正确的复位固定方法提供参考。不同的骨折类型,相应的治疗方案不同(陈振沅 等,2015;徐锴和李开南,2019)。但是,由于患者数量较大,医生难以在阅片工作中投入大量时间,加上医生经验和资质的差异,可能导致漏诊或误诊。计算机图像处理技术的发展,使得医生可以利用计算机辅助诊断手段提高诊断效率和准确率。

目前全世界骨科医生广泛接受的骨折分型标准是:针对X光片的AO/OTA(Arbeitsgemeinschaftfür Osteosynthesefragen/Orthopaedic Trauma Association)分型(Marsh等,2007;Klaber等,2021;Olczak等,2021)和针对CT 3维图像的6部分分型(郭小微,2014;Yoon等,2020)。无论哪种分型,都是利用图像数据进行分析。利用计算机图像处理技术进行分型的方法可大致分为两类:基于传统的机器学习方法和基于深度卷积神经网络的方法。

传统的机器学习方法通常通过提取人为设定的特征,再使用机器学习做进一步的训练,从而利用这些特征实现分类。由于骨折可以间接通过骨密度特征进行体现,有学者提出了四元素小波变换方法分析股骨X光片中小梁结构的各项特异性变化(Sangeetha等,2014)。该文通过使用小波变换获取骨密度的四元素,然后分析不同骨密度情况下四元素与骨折之间的联系,最终分析骨折趋势。有学者利用去噪、边缘检测和背景前景分离等一系列手段实现股骨的特征增强,最后通过支持向量机(support vector machines,SVM)进行分类(Tripathi等,2017)。有学者通过对原始CT图像不同的类型骨折进行建模(Li等,2019),根据骨折的类型手动绘制前后左右的骨折线,使用k-均值(k-mean)聚类提出新的骨折分型模型——Tang式分型。之后有研究对Tang式分型做进一步数学分析(Yin等,2021),证明该模型在目前所有分型标准中能获取最好的Kappa值,具有更好的一致性。此外还有其他学者利用3维模型的多视角图像(Wang等,2016),分别提取不同兴趣区域的骨折纹理,根据分型定义和假设检验理论,对骨折进行分型。同时有研究证实在股骨转子间骨折中,3维的CT数据比2维的X光片数据在AO分型和Evans-Jensen分型中具有更高的一致性和kappa值(Wada等,2020;赵旭 等,2020),对3维CT图像进行分类与预测具有一定的研究价值。上述分析方法在一定程度上可以检测骨折,但不能应用于更加复杂或精细的骨折分型场景,或者需要手动提取特征,难以广泛推广应用。

随着深度学习方法的不断发展,该类方法逐步在医疗领域得到应用(唐朝生 等,2021; 左艳 等,2021)。有学者将文字描述和X光片进行多模态联合学习,在459例训练数据集下,实现了较好的AO分型准确率(Lee等,2020)。但由于模型较为复杂,难以得到广泛应用。有学者通过对残差网络(residual neural network, ResNet)分层模型进行训练,得到了高精度的分类模型(Olczak等,2018),但该方法仍然需要大量的样本作为支撑。为了解决在实际问题中样本量较少的问题,运用生成式对抗网络(generative adversarial networks,GAN)增强方法来增加样本的容量,从而实现高准确率的分类(Mutasa等,2020)。但GAN网络的训练又会导致样本量需求的增加,所以只能在一定程度上减少样本数量的需求。有学者利用元学习方法,解决小样本问题(Chen等,2019),但该训练模型存在跨域问题,迁移后性能严重下降。有学者使用模型未知的元学习(model-agnostic meta-learning,MAML)训练方式与课程式学习相结合(Maicas等,2018),通过把乳腺癌肿瘤分成不同类型的任务,将不同类型任务间两两组合获取多任务最优初始点,然后使用该初始参数对目标任务进一步学习,从而加快目标任务的收敛速度,减少样本数量的依赖。但将该方法应用在更加复杂的分类上,无法实现较好的效果。

目前对骨折的检查方式主要有通过X光片或者CT断层扫描后的结果进行判断。2020年有学者针对这两种骨折的检查形式进行了进一步的评估(Wada等,2020)。该论文将不同的医学X光片和CT图像分为两组,采用不同的分型标准AO分型、Tang式分型和Evens分型交给经验丰富的临床医生。最后通过统计得出,不管是哪种分型标准,CT影像判断的结果总是比X光判断得到的结果具有更高的Kappa值,即具有更高的一致性,在分型过程中分型错误的概率更小。

总体而言,目前针对骨折分型,主要集中于对X光片2维图像的研究,要么分型任务简单,要么需要大量的样本数据,针对3维图像进行分析的报道较少。但在临床实践中,由于3维的CT图像相较于X光图像,能够提供更多的空间信息和较高的分辨率,在分型中更具有优势和更高的一致性。同时由于六部分分型为新型标准,针对骨折六部分分型的3维图像研究尚未见报道。此外在实际应用中,由于骨折类型的多样性和复杂的个体差异性,以及医学领域的专业性,难以获得大量标注训练样本。具有较好性能的深度学习方法,在骨折分型中的应用面临着巨大的挑战和困难。因此,针对上述问题,本文基于图像3维重建,提出一种包含注意力机制的多视角融合深度学习方法,使得在少量标注样本的情况下能具有较好的复杂分型效果。

1 骨折分型定义

对骨折以及伴发软组织损伤的范围和严重程度进行分类,可以为医生对骨折的治疗和研究提供统一的标准,帮助医生更好地制定治疗方案,追踪治疗结果并进行对比分析,同时也为新的治疗模式提供可评价的基础。

1.1 AO分型

AO/OTA骨折分型,如表1所示,将全身的骨骼以阿拉伯数字编码,每一骨骼分为3个部位或节段(近端、骨干和远端),每一部分骨折根据骨折形态分为 3型(A、B、C),每型下面又分为3组(1、2、3),这样一个部位或节段的骨折可以有27个亚组。本文仅讨论近端骨折,分型定义如图1所示。由于C型骨折的病例数量过少,所以本文分型仅针对于A型和B型两大类骨折。

表1 AO分型Table 1 AO classification

图1 AO分型Fig.1 AO classification

1.2 六部分分型

六部分分型标准定义如下(郭小薇,2014):

两型:骨折线累及转子间线为二部分骨折。

三型:骨折线累及大转子部或小转子部时即为三部分骨折。

四型:骨折线同时累及大转子、小转子及转子间线则为四部分骨折。

五型:在四部分基础上伴有股骨外侧壁或股骨后内侧壁缺损,为五部分骨折。

六型:在五部分基础上股骨外侧壁及股骨后内侧壁同时受累,为六部分骨折。六部分分型定义如图2所示。

图2 六部分分型Fig.2 Six-type classification

2 多视角融合注意力机制骨折分型

本文基于多视角融合注意力机制的骨折分型方法主要分为以下几个步骤:选取兴趣区域;3维重建;多视角图像重采样;建立包含注意力机制的深度学习模型;分型预测。如图3所示。

图3 骨折分型流程图Fig.3 The frame of the proposed classification method

2.1 数据预处理

本文实验所用的数据来源于成都大学附属医院,原始CT图像扫描区间差异较大:有的患者可能全身包含多处骨折,CT扫描数据包含了除股骨外的肋骨;有的患者因骨折无法横卧,CT扫描的股骨为坐姿数据;有的患者仅扫描了单一患侧。因此,首先需要对原始数据的股骨区域进行裁剪,以减少算法复杂度。

将原始CT图像的医学数字成像和通信格式(digital imaging and communications in medicine, DICOM)文件导入图像处理软件3DSlicer中,利用软件的兴趣区域选取功能,将股骨骨折部位分别从横断位、冠状位和矢状位进行裁剪,仅保留病患区域,如图4所示。将裁剪后生成的DICOM文件保存,再利用开源软件VTK(Visualization ToolKit)工具包进行3维重建,得到骨折区域的3维模型。

图4 兴趣区域裁剪Fig.4 The cut of region-of-interesting

由于本文实验涉及的样本总体数量为165例,裁剪后的3维数据大小约为300×400×110。针对3维体素数据直接使用3维卷积神经网络(3 dimensional convolutional neural networks,3DCNN)处理,对硬件存储空间要求较高。并且在基于体素的3DCNN方法中,当训练样本较少时,容易出现过拟合,难以获得预期的结果。在日常生活中,人类观察空间物体时,并不能一次性地观察到3维物体的全貌,而是通过3维旋转获取该物体不同角度的视图,最终判断物体的类别属性。与此类似,在深度学习中,可以将一组不同视角下的2维图像作为输入,为3维形状识别提供丰富的信息,从而获得比基于体素学习方法更好的性能(Su等,2015)。因此,本文将空间围绕Z轴的360°等分为12个视角,每个视角有一个虚拟相机获得该视角下的2维图像,如图5所示(其中数字1~12分别为12个视角)。利用多视角2维图像,充分获得3维信息,再使用深度学习方法进行模型训练。

图5 多视角2维图像Fig.5 Multi-view of two-dimensional images

2.2 添加注意力机制的多视角融合学习网络

多视角融合方法(Su等,2015)是将多视角图像分别经过卷积神经网络(CNN1)提出特征后,在通道上进行视角池化融合不同视角的特征,融合后的特征再经过多层卷积和池化操作(CNN2)得到分型预测。流程如图6 (a)所示。该融合方法可称为特征级融合。该方法仍然是针对大数量样本进行实验训练,在本文小样本数据的实验中并不能获得很好的效果。于是本文对原始的模型进行了修改,将特征级融合改为前端数据融合。由于单张视图所包含的信息重要程度不同,在模型中的权重应不同。因此,增加注意力机制,提升模型在少量样本下无法获取有效信息的能力。同时减少了原模型的卷积层,防止小样本条件下可能产生的过拟合。改进模型如图6 (b)所示,网络结构如表2所示。

图6 多视角融合网络Fig.6 Multi-view fusion network((a) the original multi-view network;(b) the proposed network)

表2 网络结构Table 2 Network structure

M个多视角图像首先组合为H×W×M维的张量T0;T0经过最大池化(max pooling)后得到1×1×M维张量T1;T1经全连接线性层(fully connected linear layer,FC)下采样为1×1×M/r维张量T2,其中r为下采样比例;T2再经过线性激活函数(rectified linear unit,ReLU)和FC层上采样为1×1×M维张量T3,最后经过Sigmoid激活函数归一化到[0,1]区间,得到权值

Ω={ω1,…,ωM}

(1)

(2)

(3)

(4)

式中,knc为符号函数,如果样本Xn属于c类,则knc=1,否则为0。

添加注意力机制的训练数据,通过网络的学习不断更新,利用优化目标函数与数据标签的约束关系,最终选取具有代表性分类特征作为输出。同时,通过多视角张量空间的构造,降低数据维度,使得样本数据较小时,深度学习网络也有较好收敛性能。

2.3 多视角位姿配准模型

由于不同样本CT扫描的角度存在差异,3维重建后的模型姿态不固定,经过虚拟相机多视角采样后的图像存在位姿差异,在网络融合学习中可能导致极大的不确定性,从而降低分型性能。在后续的实验中确实也证实了这种假设。因此,为进一步改进多视角融合性能,引入旋转网络(RotationNet)(Kanezaki等,2018),通过对位姿的隐藏估计消除3维重建后模型本身所带来的差异。

(5)

RotationNet训练示意图如图7所示,其中,主干网络CNN采用了AlexNet(Krizhevsky等,2017)网络(由5个卷积层和3个全连接层组成)。图7中以视图数M=3为例,即V1,V2,V3;类别数N为2,即A1,A2表示所属的类型,EI(error view)表示错误视图。训练样本由M幅未对齐的图像及其类别标签y组成。对于每个视角的输入图像,CNN输出M个直方图,每张视图都会在每个视角输出N+1个类别。每个直方图的最后一行错误视图EI,作为直方图不对应于每个视角变量的可能性的权重。根据直方图的值决定哪个图像对应于视图1、2和3。视图旋转有3个候选项:(1,2,3)、(2,3,1)和(3,1,2)。对于每个候选项,将直方图相乘并选择最佳选项(图示情况下为2、3、1)来计算真实类别的得分。最后,用估计的视角变量以反向传播方式更新CNN模型参数。

图7 RotationNet原理Fig.7 Principle of RotationNet

由于RotationNet采用的骨干网络为常用的2维卷积神经网络,本文中为提高对复杂骨折的分型性能,在训练中采用了迁移学习的方法。首先将原始网络在3维数据集ModelNet40上的预训练模型进行载入,由于ModelNet40中样本的差异性与本实验的差异性较大,不能通过部分微调来达到效果。因此,载入模型后在骨折数据上进行全参数训练微调,从而加快模型的收敛速度。

(6)

则式(5)通过全概率公式可以写为以下交叉熵优化问题

(7)

式中,参数R可以通过损失函数反向传播。由于vm在训练中需要不断优化,通过不断预测当前视图在所有视角下的概率,最终获得最佳的视角顺序,利用该视角顺序进一步提升分类性能。

3 实验及结果分析

本文实验数据来自于成都大学附属医院临床病例,由于样本数量不均衡,最终为每种分型选取了23个训练样本,10个测试样本。实验针对AO分型和六部分分型两种标准分别进行。AO分型病例为2类,即A1和A2型;六部分分型中病例为5类,分别是二型、三型、四型、五型和六型。实验数据如表3所示。原始数据经兴趣区域裁剪、3维重建和多视角成像后,每幅图像大小为300×400像素,并归一化到224×224像素。实验运行环境为Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40 GHz,NVIDA TITANX 12 GB的服务器。

表3 原始实验数据Table 3 Original experimental data

3.1 视角数量对分型性能的影响

首先验证视角数量对分型性能的影响。针对本文提出的多视角融合注意力机制的网络模型,分别计算视角数M=4,8,12,16时,AO分型和六部分分型的曲线下面积(area under curve,AUC)和准确率,如图8所示。从图8可以看出,当视角数由4到12时,分类性能逐渐提高;当视角数大于16时,性能出现波动。分析其原因,多视角采样导致图像间的相似度大大增加,引入冗余信息,相当于增加重复样本,对实验结果产生一定负面影响。折中考虑分类性能与运行时间,在后续实验中,以视角M=12为基准进行。

图8 不同视角数的分型性能Fig.8 The classification performance of different viewpoint((a) performance of AO classification; (b) performance of six-type classification)

3.2 增加注意力对模型性能的影响

为验证注意力机制对识别性能的影响,本节将引入注意力机制后的模型(MV_Att)与未引入注意力机制的模型(MVCNN(multi-view CNN))进行对比实验。这里的MVCNN模型是指在图6 (b)中,去掉T1至T3,直接将T0张量输入CNN网络。采用评价指标为:准确率(在图9中为综合准确率)、各类别的真阳率(true positive rate,TPR)和各类别的AUC值,实验结果如图9所示,其中图9 (c) (d)为五折交叉实验结果。

图9 增加注意力机制对模型性能的影响Fig.9 Effect of attention mechanism on MVCNN((a)AUC value changing of AO; (b) accuracy changing of AO; (c) AUC value changing of six-type classification; (d) accuracy changing of six-type classification)

由上述对比实验可以看出:在加入注意力机制后,模型的整体性能有一定的提升。在AO分型中,增加注意力机制后模型的整体性能均有一定的提升;在六部分分型中,由图9(d)中可以看出,在复杂分型上的检出率提升较大。从综合性能上看,MV_Att模型的性能要高于不加注意力机制的多视角模型。

3.3 不同模型性能比较

本文将提出的多视角融合注意力方法,分别与3维残差神经网络(3DResNet)、原始多视角网络(MVCNN)和旋转网络(RotationNet)进行了对比实验。各网络实验设置参数如表4所示。

表4 网络参数设置Table 4 Options of networks

AO分型与六部分分型实验结果如表5所示。从表中可以看出,本文改进后的多视角融合注意力方法明显优于直接使用体素作为网络输入的方法。其原因主要是因为样本数的限制,基于体素的深度学习方法难以很好收敛。而多视角采样的方式,相当于对样本进行了另一个维度的扩充,获得更多的2维采样样本,使得模型更容易进入收敛状态。

表5 不同算法准确率Table 5 The accuracy of different models

不同网络模型的受试者特征曲线(receiver operating characteristic,ROC)如图10和图11所示。由于ROC曲线常用来评价一个二值分类器的优劣,而本文存在多分类的情况,于是将每个类别单独取出来做二分类预测,取到某一样本时其余样本均算作负类,对每类进行相同的操作。

图10 不同模型的AO分型ROC曲线Fig.10 The ROC curves of AO classification((a) ResNet (b) MVCNN; (c) MV_Att; (d) RotationNet)

图11 不同模型的六部分分型ROC曲线Fig.11 The ROC curves of six-type classification((a) ResNet; (b) MVCNN; (c) MV_Att; (d) RotationNet)

从ROC曲线可以看出,基于多视角的方法在性能上明显优于基于体素的深度学习方法,ROC曲线变化过程更加平稳。其原因是由于在基于体素深度的学习方法中,样本不足导致模型抖动剧烈,且容易发生比较严重的过拟合现象。

对比图10和图11中的(b)(c)曲线,可以看出原始的多视角模型在分类效果上远低于改进后的模型。其原因是原始模型网络深度较大并且采用后端融合的方式,导致后端网络输出的特征被弱化,无法获取更多的特征信息,从而无法获取更高的准确度。

另外,在AO的分型中,由于分类任务简单,各种模型内的A1与A2的分类效果基本一致。但在六部分分型中,由于分类任务复杂,整体性能相比于AO分型都有较大幅度降低。其中四型和五型的分类性能效果均差于其他类别,究其原因是因为四型和五型分类间的差距较小,导致模型不能正常的识别两种类型的差别。而二型和六型,由于特征明显,分类性能较好。

在样本数有限的情况下,基于3维重建的多视角分类方法的分型性能优于基于体素的深度学习方法。并且在AO分型这种较粗略的分类问题中,本文提出的多视角+注意力方法具有更高的准确率。但在分类细粒度更高的六部分分型中,分类性能还有进一步的提升空间。

4 结 论

针对传统深度学习方法在小样本分类任务中难以取得较好性能的问题,本文通过对3维目标重建后进行多视角采样,扩充样本信息,引入注意力机制,实现对股骨骨折的分型。

由于医疗数据集的特殊性,通常难以获得大规模标注样本,且同类定义下的样本差异性也较大,传统的深度学习方法和基于元学习的小样本分类方法,难以通过模型迁移的方式应用在本文的数据中。因此,本文借鉴人类对3维物体进行分类识别的过程,采集多视角数据信息,并引入注意力机制,对不同角度特征进行不同权重融合相较于原始多视角模型具有更优的分类效果;同时,引入旋转网络可以归一化视角,消除视角差异带来的误差。从而,提高小样本条件下股骨骨折分型的性能。

总体来说,相比传统的直接使用3维体素数据进行深度分类学习的方法,本文提出的多视角融合注意力方法,既能减少图形处理器(graphics processing unit,GPU)的内存消耗,也能从2维的空间获取更多的数据,使得训练的过程变得更加平滑,增加了模型的稳定性,在准确性上也有一定的提升。另外,由于本文的六部分分型性能还有较大提升空间,而2维深度学习网络的种类繁多,具有更多的网络预训练参数,后续将考虑使用迁移学习来进一步提高网络模型的性能。

猜你喜欢
分型股骨样本
3D打印个体化导向器辅助膝关节置换术出现股骨前皮质切割的原因分析
肺炎克雷伯菌RAPD基因分型及其与氨基糖苷类药敏分型对比研究
用股骨近端防旋髓内钉内固定术对老年股骨转子间骨折患者进行治疗的效果分析
CT三维及X线在股骨转子间骨折分型的可靠性
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
复杂分型面的分型技巧
基于支持向量机的测厚仪CS值电压漂移故障判定及处理
33例老年股骨粗隆间骨折PFNA内固定术患者围手术期护理
七年级数学下册期末检测题(B)