刘恩情,谭雪梅,蒋子月,黄成颉,张伟聪,吕 海,苏志海
1南方医科大学第三附属医院脊柱外科,广东 广州 510000;2中山大学附属第五医院脊柱外科,广东 珠海519000
深度学习是当前人工智能(AI)发展最为迅速的一个分支。该技术凭借自动提取特征,高效处理高维度医学图像数据的优点,已成为医学图像分析在临床应用的重要技术之一。骨科领域疾病种类繁多,图像数据特征清晰,内容复杂丰富,本文就深度学习算法技术在骨科领域的应用研究进展进行综述,以供从事于骨科相关研究人员作参考。
深度学习是机器学习中新发展的一个分支,它由多级别特征学习组成,基本过程是通过构建多个简单非线性模块从原始数据获取并转换足够的特征信息,最后组合多层特征信息为检测对象让计算机自动检测,具有处理更复杂,更高维度的学习功能[1]。深度学习最大的特点是,它不再需要专家进行手动选择特征,可自动学习图像数据中隐含的特征信息,并进行特征自动快速提取,对未知的数据进行处理预测分析。
深度学习擅长处理分析高维数据的复杂结构,在医学影像的结构参数自动测量[2-3]、病灶检测[4-5]、疾病辅助诊断[6-7]、图像分割[8-9]以及图像配准[10-11]这五个分析处理任务方面上已得到了广泛的应用与发展,并取得了显著的成果。深度学习算法的基本框架是神经网络,其中的卷积神经网络(CNN)在医学图像分析处理任务表现最为突出[12]。但由于医学图像和疾病的复杂多样性,CNN网络需要不断优化,深度需要不断增加,才能更好应对和解决各种特定的任务。在结构参数自动测量任务和病灶检测任务中,典型的网络模型代表有CARNet、FARNet、Faster-RCNN、YOLO(you only look once)、SSD(single shot detection)等算法;AlexNet、GoogLeNet、VGGNet、ResNet以及DenseNet等网络算法在计算机辅助诊断任务中为典型的网络模型代表;而FCN、UNet深度学习算法最常用于医学图像分割任务;基于深度学习的图像配准方法主要有基于特征的组合配准方法、有监督学习的直接配准方法以及无监督学习的直接配准方法,多以CNN网络、UNet、空间变换网络以及生成对抗网络作为网络算法框架。
目前深度学习在骨科领域的临床应用主要包括骨关节关键参数测量、骨科疾病的病灶病变检测、计算机辅助诊断分级、解剖结构的图像分割以及图像配准五个方面。
深度学习在骨关节关键参数测量方面的应用主要包括骨龄预测、骨密度测量、骨关节结构测量。
骨骼年龄评估,简称骨龄评估,可用于治疗研究的探索与内分泌问题的诊断,比如遗传性疾病和儿童生长问题。在过去的几年里,最流行的骨龄评估方法是通过格雷里希-派尔或坦纳-怀特豪斯的方法来完成的。但通过这些方法进行骨龄评估具有一定的挑战性,除了严重依赖医生的领域知识与专业,而且在准确评估骨龄的观察者内与观察者间的差异性具有较高的偏差;更重要的是,这些方法都非常耗时。因此,很多基于深度学习的计算机辅助系统相继被开发应用于骨龄评估预测,以帮助临床医生更快更准确的进行骨龄评估预测工作。在早期工作中,有学者利用了多层卷积、归一化层和激活函数的直接组合构建了以CNNs网络为基层框架自动骨龄评估模型,这是第一个在公共数据集上测试的、针对所有年龄范围、种族和性别的自动骨骼骨年龄评估模型[13]。他们同时测试了几种自动评估骨骼骨龄的深度学习方法,结果显示,手动评估和自动评估之间的平均差异约为0.8年。2019年,有学者提出了一种基于回归CNN可通过手部X线片实现自动评估儿童骨龄的模型[14]。他们首先采用注意模块来处理所有的图像,并生成粗/精细的注意图作为回归网络的输入;然后,回归CNN遵循对训练过程中动态注意损失的监督,从而可以更准确地估计图像的骨龄。实验结果表明,他们的方法在两个大数据集上的临床和自动骨龄评估之间的平均差异为5.2~5.3月[14]。2020年,国内有学者提出一种基于深度学习的Inception Resnet v2优化网络模型,并在涵盖所有种族、性别和年龄范围的骨龄公共数据集上训练模型。模型性能将平均绝对误差降低至0.37岁,优于现阶段的计算机骨龄预测评估方法[15]。2021年,有学者为了评价深度学习模型在骨龄评估的准确性和临床疗效,采用CNN算法开发了格雷里希-派尔和改良的坦纳-怀特豪斯混合AI骨龄评估系统[16],结果表明,专家评估的骨龄与人工智能模型无显著性差异,自动人工智能评估与参考标准之间的平均绝对差异为0.39年;而且在AI模型辅助下,2 名研究放射科医生的平均阅读时间从54.29 s减少到35.37 s。目前,国内外已开发基于深度学习模型可进行儿童骨龄检测与评估的AI产品,各产品模型在骨龄预测的准确性能近于甚至优于临床医生,且效率高,实现秒级预测。这些产品可与影像存档与通信系统并行运行,辅助医生进行临床决策与诊断。
在骨密度预测方面,有学者采用深度学习的回归架构对9925例胸部CT进行了骨密度自动评测研究,结果发现此模型借助生物标记算法,无需显示感兴趣结构就可自动评测胸部CT图像的骨密度,并与骨密度参考标准值的相关性比较,获得了强相关性的皮尔斯系数0.940[17]。有研究通过采用深度学习提取的脊柱X射线图像特征,利用各种机器学习方法建立了多种高危骨质疏松人群的预测模型,并对各模型性能进行了评价,他们发现VGGnet的特征提取和基于最大平衡分类率的随机森林分类相结合的模型表现最好[18]。有学者开发了一种基于深度学习的系统,用于在低剂量胸部计算机断层扫描中完全自动化骨矿物质密度测量。其开发的系统在低剂量胸部计算机断层扫描肺癌筛查过程对机会性骨质疏松症具有高精度的筛查性能[19]。也有学者通过应用CNN的深度学习模型,可以从未增强的腹部CT图像中预测出腰椎椎体骨密度值[20]。2021年,国内有研究开发了一种基于DCNN的CT图像中椎体分割和骨密度计算的全自动方法,可用于CT图像中骨质疏松、骨质减少、正常骨密度的全自动识别预测。研究表明,基于DCNN的方法能够提供准确的腰椎椎体分割和骨密度的自动计算,对临床医生进行机会性骨质疏松筛查具有很大的潜力[21]。
在骨关节结构测量方面,有研究采用CARNet实现了对T1和T2序列MR脊柱图像的椎体与椎间盘高度自动测量[22]。在脊柱结构参数的自动测量研究中,有学者提出FARNet用于测量MR图像腰椎滑脱邻近椎体的相对位移距离的研究,准确预测了腰椎滑脱的分级程度,提高了评估腰椎滑脱分级程度的一致性与准确性[23]。2020年一项研究利用深度学习算法构建计算机自动测量儿童腿长系统,在179例儿童X线图像的腿长测量研究中发现,系统的测量儿童腿长的速度要比经过系统培训的儿科放射学医生要快96倍[3]。此外,有学者开发了相应的深度学习模型,可用于骨盆前后位片的关键点识别,实现儿童髋关节发育不良的初步诊断。该模型对髋关节脱位和髋臼指数的测量具有较高的准确性,可用于儿童髋关节发育不良病例骨盆前后位片的自动实时筛查[24]。
病灶检测通常是指在医学影像中定位与识别病变区域。临床病灶检测过程繁琐、耗时,并具有一定主观性,受医生水平与经验影响,容易出现漏检与误检。而深度学习的便捷、快速以及准确率高的特点在临床病灶检测愈加优势,可帮助医生提高病灶检测的效率与准确性。深度学习在骨科疾病病灶检测的应用方面主要有骨折检测、骨关节软骨病灶检测方面。
在骨折检测方面,2017年有学者开发了CNN模型DenseNet网络,以检测上肢骨折图像,包括肩部、肱骨、前臂、腕部、手掌以及手指在内的骨折,模型训练后的结果表明他们的模型性能水平表现良好,AUC 可达0.929,敏感度为0.815,特异性为0.887[25]。此外,有学者采用5种通用常见的深度学习网络(BVLCReferenceNet、VGG8、VGG16、VGG19、Network-In-Network)对256 000例X线骨折平片进行研究,针对骨折平片的四类特征(骨折、身体侧别、检查方位以及骨折部位)进行自动检测识别,结果表明这5种网络模型在身体侧别、检查方位以及骨折部位的检测识别准确率至少为90%;而VGG16网络模型在骨折分类的检测研究中性能表现最佳,准确率可达83%[26]。有研究构建了一种基于CNN深度学习的模型,用于肱骨近端骨折的骨折的检测与分类,在1891张X线图像训练测试结果发现,使用深度学习在检查肱骨近端骨折具有一定的临床可行性,在肱骨近端骨折分类方面,基于CNN模型性能优于普通医师与骨科医师,与肩关节医师性能相似。而且,该模型在复杂的三、四部分骨折中具有更佳的检测性能[27]。有研究基于CNN模型,开发了一种肋骨骨折的自动检测与分类系统,结果发现该模型具有良好的诊断性能,可在较短的时间内对肋骨骨折进行自动检测与分类,性能与放射医生诊断水平相似,使肋骨骨折的检测分类过程平均缩短了132 s,且在多中心测试中证明了该模型具有较好的鲁棒性[28]。有学者开发了一种基于CNN模型的骨质疏松性椎骨骨折自动检测系统,在1432例CT图像数据集中进行研究,结果发现其准确率为89.2%[29]。在压缩性椎体骨折方面,也有学者进行了相关的深度学习模型的开发与验证工作,他们使用深度学习算法成功构建了一个AUC为0.949的高精度新鲜骨质疏松性压缩性骨折检测系统[30]。该系统诊断性能可与两名脊柱外科医生相媲美,有利于帮助脊柱外科医生进行快速并准确的诊断新鲜性骨质疏松性压缩性椎体骨折病灶。骨折自动检测系统在辅助医师诊断疾病病灶中具有一定的价值,可作为医师临床诊疗的辅助手段,提高患者骨折的检出率的同时,极大程度的减少了医生的工作量。
MRI对骨关节软骨病灶识别有重要的临床意义,研究表明具有形态学软骨成像序列的MRI对关节软骨病灶的检测具有高特异性,但只有中等敏感度,诊断性能准确度取决于医生的阅读水平,只有中等程度的一致性[31]。在MRI检测软骨病变中开发基于深度学习方法将有助于最大限度地提高诊断性能,同时减少主观性、变异性和由于医师的分心和疲劳造成的错误。有学者通过使用分割与分类的CNNs模型开发了一种基于深度学习的全自动膝关节软骨病变检测系统,在17 395张软骨磁共振图像数据集中训练测试研究中发现,此模型的AUC高达0.917,表明这套检测系统具有高诊断性能,可用于检测软骨变性以及急性软骨损伤[32]。此外,有学者开发了一种基于深度学习的MRNet模型,用于检测膝关节MRI图像是否有一般异常、前交叉韧带是否撕裂以及半月板是否损伤,研究发现MRNet模型可以快速进行膝关节病理病变分类,在诊断前交叉韧带撕裂与半月板损伤方面上的准确性可与放射科医师相媲美[33]。
计算机辅助诊断是人工智能技术在医学影像的典型应用,它具有一致性与高效率的优点,可辅助医生提高诊断的准确性以及效率。深度学习在骨科疾病计算机辅助诊断分级方面主要有脊柱疾病分级和髋关节炎分级两方面。
在脊柱疾病分级方面,有学者在2017年提出一种SPINENet多任务网络模型,它可以同时对椎间盘退变分级、椎间隙狭窄、椎体滑脱、中央椎管狭窄、终板缺陷以及椎体骨髓信号改变等6个病理特征进行自动检测分类,结果显示SPINENet多任务网络模型可以进行多任务检测分类,并具有高准确度的诊断检测能力,特别是在椎体滑脱以及中央椎管狭窄方面上表现最佳[34]。2020年,一项研究通过比较放射科医师与计算机分类模型的一致性验证计算机辅助脊柱椎管狭窄分级系统的临床可行性,研究证明计算机辅助脊柱椎管狭窄分级系统在临床上具有一定的可行性[35]。有学者对腰椎椎管狭窄分级的研究取得了相对不错的成果,其采用UNet网络结构结合脊柱曲线拟合方法创建了一种多输入、多任务以及多类的卷积神经网络模型,同时对矢状位与轴位的腰椎磁共振图像进行输入研究,最后结合自然语言处理方案提取计算机预测分类结果[36]。2021年,有研究建立一种用于自动检测和分类腰椎中央管、侧凹槽和神经椎间孔狭窄的深度学习模型,结果显示,在中央管和侧隐槽狭窄的检测和分类方面,与亚专科放射科医师的一致性相当,而在腰椎MRI中,神经椎间孔狭窄的一致性略低[37]。该模型可在医生的监督下提供半自动的报告,以提供一致和客观的报告。
在髋关节炎分级方面,有学者创建了一种深度多任务检测分类学习模型,自动检测评估X线平片评估髋关节炎的严重分级程度,在15 364张髋关节平片X线图像数据集训练研究中发现,该模型可同时对髋关节五种病例特征进行检测分类并具有高诊断性能,性能表现水平不亚于放射科医师水平,并同时解决临床上多任务分类问题[38],结果证明,一种能够可靠地分级髋关节骨性关节炎特征严重程度的多任务深度学习模型在临床上具有一定可行性,特别是对于需要专家进行详细结构评估的大型流行病学研究。虽然已开发的基于深度学习的计算机辅助诊断分级模型的诊断性能接近于甚至优于医师的诊断水平,但相同疾病的不同医师间判读分级常常存在一定差异[39],如何建立用于深度学习算法的金标准显得极其重要。深度学习模型的进一步发展可能需要一个由国际专家组成的共识小组,以减少任何标记错误和偏见。
图像分割是医学图像分析的重要环节。医学图像分割之所以能够准确定位病灶位置以及确定病灶的形状和轮廓等形态学信息,主要是通过识别图像的内部像素点或者图像的感兴趣区域进行的。目前,在骨科领域中研究脊柱结构、膝关节结构分割较多。
脊柱图像的自动分割可在许多骨科应用中发挥着重要作用,包括各种脊柱疾病的评估、诊断、手术计划和图像引导下的介入程序。有学者在2018年MICCAI椎间盘分割挑战赛中凭借二维集成算法的CNN模型以Dice系数0.91获得了挑战赛冠军[40]。2019一项研究开发了CNN模型IVD-Net算法,采用多模态信息进行椎间盘分割,最佳Dice系数可达0.92[41]。此外,国内学者开发并训练了SpineParseNet算法模型,实现了磁共振图像椎间盘与椎体的多类别分割,总体脊柱结构分割的平均Dice系数高达0.87[42]。2020年,有研究开发并验证了一个基于S3egANet的深度学习算法模型,用于在体素水平上同时进行多个脊柱结构的三维语义分割[43]。首先,S3egANet通过一个能够提取细粒度结构信息的多模态自编码器模块,明确地解决了复杂的三维脊柱结构的高度多样性和变异性。其次,S3egANet采用了跨模态体素融合模块,整合了来自多模态MRI图像的综合空间信息。同时提出了一种多阶段的对抗性学习策略,以实现高精度和可靠性的多个脊柱结构模拟分割。在对90例患者的MRI图像进行的大量实验研究,结果表明,S3egANet的平均Dice系数为88.3%,平均敏感度为91.45%,显示了其作为临床工具的有效性和潜力。
在膝关节解剖结构分割方面,比如半月板、软骨与前交叉韧带的分割结果也令人满意。有学者开发了一种SegNet卷积神经网络算法模型,采用了CNN模型与三维可变形建模组合的方法在膝关节图像可快速进行软骨与骨解剖结构的自动分割[44]。有学者优化了2D-UNet算法模型,对膝关节磁共振图像数据进行软骨与半月板解剖结构的自动分割研究,结果表明2D-UNet算法模型可用于膝关节磁共振图像中形态学特征的快速提取与自动分割,在临床上具有一定的可行性[45]。有研究开发一种针对前交叉韧带的自动分割深度学习模型,能够在临床和研究环境中促进对该韧带的定量评估[46]。他们在对246张完整前交叉韧带稳态磁共振图像中的改良UNet全卷积网络模型进行了训练、验证和测试,结果显示从自动分割模型中提取的定量测量与人工分割没有区别,使它们能够用于定量磁共振成像管道来评估前交叉韧带。
三维骨科结构分割是减少费时消耗问题,为疾病治疗和手术提供定量参数的关键。然而,骨科结构分割的相关研究大多是基于二维或三维单结构分割。由于脊柱结构的高度复杂性,具有始终可靠、高精度的三维多重脊柱结构的分割仍然是一个重大的挑战。
图像配准是图像处理中一个基本问题,它是指在同一应用场景中将从不同时间、不同角度、不同传感器获取的两张图像进行对齐的过程[47]。2010年,有学者在寻求建立颈段脊柱前路手术相关结构的数字模型及三维可视化方法研究中,采用CT断层数据集作为基准三维坐标,用Mimics 软件Simulation 模块Reposition 功能对各个数字模型基于解剖结构外轮廓特征提取的匹配方法与连续CTA 动脉造影,MR 脊髓造影及臂丛神经薄层MRI 连续扫描断层图像进行多模态图像配准和校准[48]。该研究虽然成功构建了颈段脊柱前路手术相关解剖结构的三维可视化模型,可应用于数字化解剖教学,交互式方式进行手术训练和手术入路的设计;但此方法耗时长,在实际应用中很难保证实时性。基于深度学习的图像配准方法可以大大提升配准的实用性与减少配准时间,有着更优越的表现性能,逐渐成为研究图像配准方法的主流。在骨科领域方面的图像配准研究,已有部分学者初步在尝试。
术前三维图像与术中二维图像或者三维图像的配准是图像引导介入手术的关键技术之一。有研究采用CNN回归预测配准模型对数字重建放射影像与X线图像进行图像配准研究,在膝关节假体配准图像中模型只需0.1 s即可快速实现配准,平均配准误差在0.593 mm[49];也有学者使用卷积神经网络算法模型对术中脊柱CBCT图像与术前CT图像进行跨模态的图像配准研究[50]。近年来,也有学者提出带有生物力学约束的神经网络进行术前脊柱磁共振图像与术中CBCT图像的跨模态配准研究[51-52]。在脊柱形态学分析研究中,已有学者开发了一个腰椎CT/MRI融合图像系统,该系统可以使用深度学习从MRI腰神经体积数据中自动提取三维腰神经根图像,然后与腰椎CT图像进行多模态图像融合配准,主要研究内镜下经椎间孔手术入路三维Kambin三角的形态结构,评估与量化手术术野中操作的安全区域[53]。该系统可用于椎间孔结构相关参数测量与评估,包括骨骼和神经三维解剖关系,以确保微创手术的安全。虽然基于深度学习算法的图像配准已有学者进行相关研究并证明在实时性上优于传统的图像配准方法,但目前深度学习算法在图像配准精度还不能完全满足临床骨科手术的需求(特别是微创手术方面上)。如果需要进一步将其应用场景扩大到术中实时导航等手术中,进一步提升图像配准的精度将是未来深度学习算法在图像配准研究的主要解决问题。
本文主要针对骨关节关键参数测量、病灶检测、疾病分级、图像分割以及图像配准五大临床图像处理分析任务,综述地介绍了深度学习在骨科领域的应用现状。目前,虽然深度学习在骨科领域的不同图像分析任务中有着广泛的应用,并取得了一定的成果,但仍然面临着模型迁移能力差、数据标注成本高、可解释性差等挑战。
针对模型迁移能力差这一痛点,在数据收集时,应建立具有统一图像标准的、多中心、高质量以及大规模的骨科影像学的人工标注数据库,这样才能解决数据质量问题,训练出更为复杂、精准、稳定的模型,进而开发出相关临床辅助工作产品,使其在临床实践中落地。为了解决数据标注成本高这一难点,可以考虑众包数据标注,构建开放的众包数据标注平台,让众多专业人员志愿参与到数据标注的工作中,如在一些用户量较大的医学论坛网站上采用图片验证码的形式,让用户登录网站时通过输入正确的图像标注完成图片验证码的验证。另一方面,也可以研究自监督学习、半监督学习、弱监督学习等模型,降低深度学习模型对数据的依赖性。深度学习可解释性差源于数学、脑科学等基础研究的滞后性,提升基础研究水平将是提升深度学习可解释性的有效途径。
综上所述,深度学习在骨科领域的应用研究虽然还处于初级阶段,但是其未来的应用前景依旧乐观,这将离不开计算机科学家、医疗行业专家以及医学图像研发企业专家的紧密合作,共同携手创造智慧医疗新时代。