谢秋晨 梅楠 陈坚 尹波
摘 要 在过去的几年里,深度学习的发展势头很强劲。在骨科和创伤学领域,已有一些研究使用深度学习来辅助检测X线片中的骨折。相比之下,在通过CT检测骨折和进行骨折分类方面,使用深度学习的研究还较少。本文概要介绍深度学习用于X线片和CT图像上骨折检测的方法、深度学习对骨伤影像学诊断的赋能潜力以及深度学习在骨折检测中的偏差和未来发展方向。
关键词 深度学习 卷积神经网络 骨折检测
中图分类号:TP391.5; R683 文献标志码:A 文章编号:1006-1533(2020)23-0010-04
Application of deep learning in orthopedic trauma imaging
XIE Qiuchen1*, MEI Nan1, CHEN Jian2, YIN Bo1**(1. Department of Radiology; 2. Department of Gastroenterology, Huashan Hospital, Fudan University, Shanghai 200040, China)
ABSTRACT In the past few years, the development momentum of deep learning has been very strong. In the field of orthopedics and traumatology, there have been some studies using deep learning to detect fractures in X-rays imaging. In contrast, there are relatively few deep learning studies to detect and classify fractures by CT. In this narrative review, we give a brief overview of deep learning techniques, describe the methods that deep learning has been applied to fracture detection in X-rays and CT imaging so far, discuss how deep learning empowers this field and comment on the bias and future development direction of this technology.
KEy WORDS deep learning; convolutional neural network; fracture detection
人工智能識别骨折是通过完成检测和定位这两个独立的任务而实现的。已有研究者训练神经网络自动裁剪相关解剖结构的边界框以进行骨折的检测,但对网络决策,使用显著图或热图来显示图像中的哪些特定像素即定位最为重要。理想情况下,突出显示的像素应对应诊断医师所能理解的高阶特征,即为显示骨折的图像区域。
大多数研究使用开源卷积神经网络(convolutional neural network, CNN)和大型训练数据集,以经验丰富的放射科医师的诊断为参考标准,检测髋[1-4]、肩[4-5]、腕[4, 6-8]、脚踝[4, 9]和脊柱[10-14]等多个身体部位的骨折。不同深度学习方法的诊断性能并不相同,但在所有研究中其受试者工作特征曲线下面积(area under the curve of receiver operating characteristics, AUC, 0.86 ~ 0.99)、敏感度(73% ~ 100%)、特异性(73% ~ 98%)和准确度(75% ~ 99%)都很高(表1)。
1 深度学习在骨折检测中的应用现况
在骨科和创伤学领域,多种深度学习方法已被用于X线片中的骨折检测,大大提高了骨折的临床诊断效率。Lindsey等[4]使用由135 409张X线片组成的训练数据集,通过改进的U-Net分类CNN检测11个身体部位的骨折,随后再用由300张随机挑选出的X线片组成的保留测试集进行验证,得出该机器检测骨折的AUC为0.99,敏感度和特异性分别为94%和95%。此外,他们也使用相同的数据集评估了急诊医师在使用和不使用机器的情况下诊断骨折的表现,结果显示在使用机器辅助检测X线片中的骨折时,急诊医师的误诊率平均降低了47%。
在使用深度学习检测骨折方面,绝大多数研究都集中在基于X线片的模型性能上,但现已有研究者开发出一种可用于CT检测和标记跟骨骨折的深度学习方法。Pranata等[15]使用CNN和计算机辅助决策(computer-assisted decision, CAD)相结合的方法,以经验丰富的放射科医师的诊断为参考标准,分析了683例有跟骨骨折患者和1 248例无跟骨骨折个体的非分割CT图像。他们先用ResNet分类CNN将CT检查中的横断位、冠状位和矢状位图像分为骨折和非骨折两类,然后再用由加速鲁棒特征、Canny边缘检测和轮廓跟踪算法组成的CAD方法来检测骨折在CT图像上的确切位置。通过使用由136例有跟骨骨折患者和250例无跟骨骨折个体的CT图像组成的保留测试集进行测试,发现该机器对跟骨骨折定位的准确度为98%。
2 深度学习在各部位骨折检测中的应用
CNN已用于中轴骨和附肢骨的骨折检测,并取得了很大的成功。随着成像容积不断增加,使用人工智能算法进行骨折自动检测不仅可提高临床工作效率,且有助于对患者的精准诊疗。以下按骨折位置回顾有关骨折检测方面已发表的研究报告,由此来介绍深度学习是如何给骨伤影像学诊断赋能的。
2.1 上肢骨折
已有研究者尝试使用CNN模型来检测骨折,并根据已知的分类系统(如Neer分类)对骨折进行分类。Chung等[5]开发了一种深度CNN算法,可在肩部前后位X线片上对肱骨近端骨折进行检测和分类,将正常肩部与肱骨近端骨折区分开来,准确度、敏感度和特异性分别达到96%、99%和97%。一般来说,使用CNN对骨折进行分类具有一定的挑战性,准确度仅有65% ~ 86%。但总体而言,使用CNN的检测表现优于普通放射科医师和普通骨科医师,与具有肩部专业知识的骨科医师相当,特别是在复杂的三部分和四部分骨折的检测中,其性能优势表现得更为明显。
Kim等[6]发现,使用中等训练数据集(约1 400张X线片)并在非医学图像上进行预训练的深度CNN迁移学习可用于腕部侧位X线片的骨折检测,其AUC为0.954,敏感度和特异性分别为90%和88%。迁移学习运用一种模型,能从本质上减少计算需求和大量训练的要求,因该模型已学习了可用于完成所有医学和非医学图像识别任务的低级图像特征(线、边缘和曲线等),只需使用用于完成特定医学图像检测任务的训练数据集(如X线片)对网络模型进行再训练即可。使用具有出色模型性能的迁移学习可大大减轻获取大量数据以进行稳健的网络开发的负担,且避免从头开始建模的需求。
目前已有研究比较了在使用或不使用人工智能的情況下急诊医师的骨折检测表现。Lindsey等[4]使用由资深骨科医师注释的具有真实性的大训练数据集,发现深度CNN能改善一线急诊医师检测X线片上腕部骨折的能力:在CNN辅助下,骨折检测的敏感度从81%提高到92%,特异性从88%提高到94%,误诊率降低了47%。研究者认为,深度CNN可有效地将亚专科技能提供给具有计算机访问权限的普通临床医师,从而显著改善这些医师的诊疗水平,且可保证患者在不同等级的医疗机构都获得同等高质量的影像学诊断。
2.2 髋部骨折
Cheng等[2]使用已使用四肢骨X线片预训练的深度CNN,发现其在骨盆正位X线片上检测髋骨骨折的准确度和敏感度分别为91%和98%,假阴性率为2%,AUC为0.98。研究者还使用梯度加权的类激活映射(即显著图)确认了被认为是类别区分的像素确在骨折部位上,并显示骨折定位准确度为96%。
Urakawa等[3]发现,在从全髋X线片手工裁剪的股骨近端前后位片上,使用CNN和骨科医师诊断股骨粗隆间骨折的准确度分别为96%和92%,敏感度分别为94%和88%,特异性分别为97%和97%。这些结果给人印象深刻,但由于该任务范围狭窄(仅包括股骨粗隆间骨折的髋部骨折)及需手工裁剪X线片,此算法的应用受到很大的限制。
2.3 踝关节骨折
在许多神经网络中,输入的是身体某一部位的单一视图,不能真实地反映其在临床实践中是如何发生的。Kitamura等[9]在没有选用小样本量的踝关节X线片训练数据集进行预训练的情况下重新训练了CNN(用约600张X线片),发现使用5个模型的集合和多个视图(三视图而不是踝关节的单一视图)可将CNN检测踝关节骨折的准确度从76%提高至81%。研究者将此相对较低的准确度归因于较小的训练数据集,但该准确度已与Olczak等[7]使用大训练数据集(256 000多张手腕、手和脚踝X线片)预训练的CNN所得到的83%的准确度相当了。
2.4 脊柱骨折
多项研究评估了人工智能是否可在多种成像方式(包括胸部X线片)中检测出偶发性和非偶发性椎骨骨折的能力[16]。Burns等[10]开发了一种能使机器自动学习的计算机系统,该系统使用支持向量机回归技术在CT图像上对胸椎和腰椎压缩性骨折进行检测、定位和分类,结果显示其诊断和定位的敏感度均为96%。Tomita等[11]创建了一个深度神经网络,用此网络对来自1 432次胸部、腹部和骨盆CT检查中得到的10 546张二维矢状位图像上的偶发性脊椎骨折进行自动检测,准确度为89%。
Mehta等[12]发现,在常规双能X线吸收测定法(dual-energy X-ray absorptiometry, DEXA)研究中,支持向量机学习算法经使用DEXA辅助数据后可识别出偶发性L1 ~ L4椎体骨折,而无需再进行诸如椎体骨折评估或其他放射学检查等。支持向量机分类器的整体平均准确度达91.8%,敏感度和特异性分别为81.8%和97.4%,而放射科医师不能预先识别出所有的骨折。值得注意的是,该算法基于DEXA定量辅助数据(如骨密度或椎体高度的测量值)而不是图像像素数据来检测骨折。真实数据的骨折标记是基于那些骨折患者在DEXA检查之前的腰椎的CT、磁共振成像或X线检查结果,而对没有骨折的对照组个体则是基于DEXA检查之后进行的类似用于诊断的影像学检查。研究者认为,在DEXA研究中通过人工智能辅助检测腰椎的偶发性骨折可改变临床决策,即能促使患者接受进一步的诊断性检查或将对患者的诊断更改为严重的骨质疏松症,而这些都无需额外的影像学检查。
Raghavendra等[13]使用专门设计的分类CNN分析100例有胸、腰椎椎体骨折患者和60例无胸、腰椎椎体骨折个体的整个脊柱非分割矢状位CT图像,该机器使用一个由210例有骨折患者和126例无骨折个体的CT图像组成的保留测试集,结果发现对椎体骨折检测的敏感度和特异性分别为100%和98%。Tomita等[11]使用耦合神经网络分析713例胸、腰椎椎体骨折患者和719例无胸、腰椎椎体骨折个体的整个脊柱非分割矢状位CT图像,先使用ResNet分类CNN进行特征提取,然后用循环神经网络模块聚集提取的特征进行分类和诊断。该机器使用由129次CT检查所得图像组成的保留测试集,结果显示对椎体骨折检测的AUC为0.91,敏感度和特异性分别为85%和96%。然而,这两项研究仅对整个脊柱是否存在椎体骨折进行了分类,故引发了对深度学习方法是否具有精准定位骨伤位置的能力的质疑。此后,Roth等[14]使用专门设计的CAD方法结合多图谱标签融合和边缘映射算法,以分离横断面CT图像中椎体后段移位的18例骨折患者和5例无骨折个体的单个椎骨节段,然后通过专门设计的分类CNN对分离后的椎骨节段进行分析,以确定是否存在骨折。使用由6例骨折患者分离后的椎骨节段图像组成的测试集,发现该机器检测椎体后段骨折的AUC为0.86,每例患者出现5和10次假阳性时的敏感度分别为71%和81%。
3 深度学习在骨折检测中的不足和未来发展方向
骨折检测的深度学习应用程序主要基于计算机视觉,这意味着算法的输入仅是单纯的图像数据,而无需考虑患者或医院的协变量。但是,算法可从训练数据集的像素中学习到患者和医疗过程模式,且所有训练数据集都有一定程度的内部偏差和混淆。例如,混杂的变量(从图像排序到图像获取间的时间或使用特定的扫描仪获取X线片等)与识别患者的敏感度或临床怀疑骨折有关,此反过来也会影响患者实际拥有显示骨折的图像像素的可能性。
Badgeley等[17]研究发现,CNN不仅可预测诸如髋部骨折之类的疾病,且还可根据图像像素来预测患者和医院的各种过程变量(如扫描仪型号、品牌和研究重点)。此外,与单独的图像特征相比,将这些具有图像特征的变量直接合并到多模态模型中可改善模型的骨折预测性能(AUC从0.78提高至0.91)。使用骨折风险在患者和医院的过程变量之间达到平衡的保留测试集进行测试,见该模型几乎随机运行(AUC为0.52),表明这些变量是该模型具有高预测性能的主要原因。随着CAD算法的潜在临床利用率持续提高,对临床医师和放射科医师来说,认识到此点很重要。如果CAD算法在其预测中固有地利用了其他患者和医院因素,则医师就不应再假定基于图像的预测在统计学上独立于其他患者数据。当然,还需进行更多的研究来检查这些因素之间的相互依赖性,以便临床医师和放射科医师能結合临床情况更好地解释模型的判断。实际上,混杂变量间的复杂的相互作用至少可用来部分解释为什么模型在多站点试验中显示其可能无法很好地用于其他医院,原因就在于该模型是基于特定医院来源数据的深度学习模式创建并进行疾病检测的[18]。
为了避免手动裁剪图像这一问题,有研究者研究了如何通过训练一种额外的模型来进行自动化裁剪,从而实现网络端到端的完全自动化。Gale等[19]开发了一种单独的CNN,作为一系列“级联”CNN的一部分来执行自动裁剪或定位任务,这些“级联”CNN是执行不同类型任务的序贯CNN。从本质上讲,这种预处理CNN可学习X线片裁剪方法并将重点放在感兴趣区域上,同时还可使网络保持感兴趣区域的高分辨率,防止在图像降采样过程中丢失重要的图像信息,且排除可能使网络混淆的潜在的无关图像像素。其他预处理步骤也可通过选择正确的图像类型并输入到相应的后续分类CNN中自动完成。例如,Gale等[19]的研究还训练了排除不合适或不相关图像的CNN,区分骨盆正位与髋部侧位X线片、胸部和脊柱X线片的CNN,以及能识别感兴趣区域中有金属伪影的图像并予以自动排除的CNN。
目前,尽管使用人工智能检测骨折基本上还处于研究阶段,但已有公司开始尝试向临床实用方向推进。美国FDA曾发信(https://www.accessdata.fda.gov/cdrh_ docs/pdf18/DEN180005.pdf)表示,Imagen技术公司的OsteoDetect深度学习系统在统计学上显著改善了临床上自成人腕关节后X线前位片和侧位片上诊断桡骨远端骨折的准确性(AUC从0.84提高到0.89)。美国FDA将该深度学习系统归类为“放射学计算机辅助检测和诊断软件”,并明确提及此机器的用途是告知“由临床用户作出的主要诊断和患者治疗决定”,且“不打算替代完整的临床医师评估或临床判断程序”。
参考文献
[1] Adams M, Chen W, Holcdorf D, et al. Computer vs human: deep learning versus perceptual training for the detection of neck of femur fractures [J]. J Med Imaging Radiat Oncol, 2019, 63(1): 27-32.
[2] Cheng CT, Ho TY, Lee TY, et al. Application of a deep learning algorithm for detection and visualization of hip fractures on plain pelvic radiographs [J]. Eur Radiol, 2019, 29(10): 5469-5477.
[3] Urakawa T, Tanaka Y, Goto S, et al. Detecting intertrochanteric hip fractures with orthopedist-level accuracy using a deep convolutional neural network [J]. Skeletal Radiol, 2019, 48(2): 239-244.
[4] Lindsey R, Daluiski A, Chopra S, et al. Deep neural network improves fracture detection by clinicians [J]. Proc Natl Acad Sci U S A, 2018, 115(45): 11591-11596.
[5] Chung SW, Han SS, Lee JW, et al. Automated detection and classification of the proximal humerus fracture by using deep learning algorithm [J]. Acta Orthop, 2018, 89(4): 468-473.
[6] Kim DH, MacKinnon T. Artificial intelligence in fracture detection: transfer learning from deep convolutional neural networks [J]. Clin Radiol, 2018, 73(5): 439-445.
[7] Olczak J, Fahlberg N, Maki A, et al. Artificial intelligence for analyzing orthopedic trauma radiographs [J]. Acta Orthop, 2017, 88(6): 581-586.
[8] Thian YL, Li Y, Jagmohan P, et al. Convolutional neural networks for automated fracture detection and localization on wrist radiographs [J/OL]. Radiol Artif Intell, 2019, 1(1): e180001 [2020-04-17]. doi: 10.1148/ryai.2019180001.
[9] Kitamura G, Chung CY, Moore BE 2nd. Ankle fracture detection utilizing a convolutional neural network ensemble implemented with a small sample, de novo training, and multiview incorporation [J]. J Digit Imaging, 2019, 32(4): 672-677.
[10] Burns JE, Yao J, Summers RM. Vertebral body compression fractures and bone density: automated detection and classification on CT images [J]. Radiology, 2017, 284(3): 788-797.
[11] Tomita N, Cheung YY, Hassanpour S. Deep neural networks for automatic detection of osteoporotic vertebral fractures on CT scans [J]. Comput Biol Med, 2018, 98: 8-15.
[12] Mehta SD, Sebro R. Computer-aided detection of incidental lumbar spine fractures from routine dual-energy X-ray absorptiometry (DEXA) studies using a support vector machine classifier [J]. J Digit Imaging, 2020, 33(1): 204-210.
[13] Raghavendra U, Bhat NS, Gudigar A, et al. Automated system for the detection of thoracolumbar fractures using a CNN architecture [J]. Future Gener Comput Syst, 2018, 85: 184-189.
[14] Roth HR, Wang Y, Yao J, et al. Deep convolutional networks for automated detection of posterior-element fractures on spine CT [EB/OL]. [2020-04-17]. https://arxiv.org/ pdf/1602.00020.pdf.
[15] Pranata YD, Wang KC, Wang JC, et al. Deep learning and SURF for automated classification and detection of calcaneus fractures in CT images [J]. Comput Methods Programs Biomed, 2019, 171: 27-37.
[16] Kasai S, Li F, Shiraishi J, et al. Usefulness of computer-aided diagnosis schemes for vertebral fractures and lung nodules on chest radiographs [J]. AJR Am J Roentgenol, 2008, 191(1): 260-265.
[17] Badgeley MA, Zech JR, Oakden-Rayner L, et al. Deep learning predicts hip fracture using confounding patient and healthcare variables [J/OL]. NPJ Digit Med, 2019, 2: 31[2020-04-17]. doi: 10.1038/s41746-019-0105-1.
[18] Zech JR, Badgeley MA, Liu M, et al. Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: a cross-sectional study [J/OL]. PLoS Med, 2018, 15(11): e1002683 [2020-04-17]. doi: 10.1371/journal. pmed.1002683.
[19] Gale W, Oakden-Rayner L, Carneiro G, et al. Detecting hip fractures with radiologist-level performance using deep neural networks [EB/OL]. [2020-04-17]. https://arxiv.org/ pdf/1711.06504.pdf.