李 媛,张恩龙,李文娟,郎 宁,袁慧书
1北京大学第三医院放射科,北京 100191 2北京大学国际医院放射科,北京 102206
人工智能(artificial intelligence,AI)是一门包括计算机科学、控制论、信息论、数学等多种学科相互渗透,研究模拟人类智能并对其扩展延伸的一门综合性前沿学科。近年来,随着云计算、大数据、深度学习等技术的日益成熟,AI的应用领域不断扩大,各种AI相关产品也层出不穷。其中,在医疗健康相关领域的研究主要包括医学影像、药物研发、健康管理、疾病风险预测等多个方面,尤其在医学影像领域,AI可以辅助放射科医师判读和诊断,识别关键影像学表现,防止漏诊误诊,并可提示医师结合临床和影像学特征考虑诊断。AI技术的应用提高了影像图像的解读和诊断速度、准确性及质量,在某些疾病诊断上,其水平可以和熟练的放射科医生相媲美。目前AI在骨肌系统影像学中的应用研究逐渐增多,本文通过综合国内外大量文献,简述目前AI在骨肌系统影像领域的研究进展和应用前景。
骨龄评估是放射学中评估骨骼成熟度的一项常见诊断研究,对研究儿童内分泌、遗传和生长障碍具有一定的意义[1]。骨龄评估最常用的方法是G-P图谱法[2]。G-P图谱方法将患者的X线片与具有代表性年龄的标准影像图谱进行比较,选择出发育程度最为相似的标准片确定骨龄。对于放射科医生来说,使用此种方法评估骨龄是一个冗长而耗时的过程,并且很大程度上受放射科医生主观判断及不同放射科医生之间判读差异的影响[3]。如果把这个临床工作过程自动化,其受人为主观因素的影响将减少,检测速度也会增快。
因此,有研究者提出了几种计算机辅助诊断(computer aided diagnosis,CAD)方法来实现骨龄的自动化[1,4]。传统的CAD工具依赖于硬编码的骨龄算法特性,而这些特性存在一些缺点。机器学习(machine learning,ML),特别是深度学习这一子类型,在医学成像领域显示出广阔的应用前景,在执行困难的任务时显示出很高的准确性。研究者通过使用特定的特征提取技术,开发了自动算法评估手部X线片以确定骨龄。目前用于临床实践,具有与放射科医师相似的准确性[5]。
深度学习中的卷积神经网络(convolutional neural network,CNN)可以将图像本身应用于学习过程中,不需要在学习过程之前进行特征提取,最重要的功能是可以自动学习[6]。发表在Radiology杂志上的一项研究开发并验证了一种用于儿童手部X线片骨龄评估的ML系统[7]。通过使用CNN在12 611幅图像训练并构建模型,并在1425幅图像上验证模型,在两个不同的数据集上测试骨龄评估模型。第一个测试组的图像由4名放射科医生独立评估,通过分析确定计算机模型计算的骨龄与放射科医生判读的骨龄之间的差异。通过比较模型评估结果和参考标准结果的均方根和平均绝对差评估整体模型效能。研究结论是:深度学习CNN模型能够准确评估骨龄,其准确度与放射学专家和现有的自动化模型类似。其局限性在于:由于缺乏一个人类评估参考标准和评估的固有变化,很难对模型的性能与医生的表现进行比较。其次,类似于其他ML应用程序,该模型不会检测出医生可能从图像中检测到的某些疾病,例如软骨发育不全、佝偻病和先天性综合征等。再者,该模型无法预测2岁以下患者的骨龄,这可能与该年龄组的训练及检查数量相对较少以及儿科放射科医师认为G-P图谱法在该年龄组中的用处较少有关。
另有研究提出定制的、有目的构建神经网络比预先训练的成像数据集的网络提供了更好的性能,先进的体系结构可以在医学成像领域成功地从零开始训练,并且可以生成比现算法更好的结果,利用该研究提出的对大量可用数据的自定义神经网络体系结构,得到一个总体验证和测试集平均绝对误差分别为0.637和0.536[2]。迄今为止,这是利用深度学习进行骨龄评估发表的最好成绩。这也支持了其最初的假设,从而显著提高算法的准确性。国内在骨龄评估模型方面也有报道[8]。基于特征提取的深度卷积神经网络在骨龄回归模型上有更好的表现,结合人口和性别信息可进一步提升基于图像的骨龄预测准确率。
北美放射学会(Radiological Society of North America,RSNA)ML委员会发起了RSNA儿童骨龄ML挑战赛,并在2017年RSNA年会上公开表彰了创造出最佳算法的团队[9]。其目的是展示ML在医学成像中的应用,促进AI模型创建及发现医学成像领域的创新者[10]。参赛选手使用手X线片应用深度学习预测骨龄。参赛者可获得由12 611张儿童手部X线片组成的带注释的训练数据集,大多数参赛者使用CNN的深度学习方法,该比赛展示了通过共享一个公共数据集和目标来推进ML研究的潜力。骨龄的定量评估具有相对明确的性质,而且手X线片解剖结构相对一致和简单。在过去的20年里,利用ML确定儿童手部X光片的骨龄的文献已有数百篇,而本次竞赛提供了一个引人注目的例子,展示了研究共享已发表文章中的原始数据的研究潜力,从而促使新颖、创新的想法。值得关注的是,当将第2名(深度学习)和第4名(传统ML)的团队结合在一起时取得了更好的性能,从而使准确度超过了第1名[11]。
目前基于深度学习技术对儿童骨龄评估的相关AI产品在国内外都有研发,从读片到输出诊断报告达到秒级完成,各产品模型评估骨龄的准确性近似甚至优于放射科医师。
目前研究主要是AI在X线、CT检查中骨折判读及解剖定位,或者结合骨结构、骨密度等分析预测骨折风险,以及预测癌症骨转移患者骨折风险。AI对于骨折的研究主要涉及身体侧别的判定、骨折的识别和定位等,多项研究表明诊断的准确率不低于医生。
2018年5月,美国食品及药物管理局批准了一种名为OsteoDetect的新型AI工具,可帮助医生诊断腕骨骨折,数据采用25.6万个腕部、手部和踝部X线片,并确定了4个类别征象进行识别:骨折、侧别、定位和检查部位,然后选择5个适合这些图像的公开可用的深度学习网络,进一步将网络的性能与2位资深医生进行了比较,结果5种网络在识别侧别、身体部位和检查部位的识别准确率均达90%以上,表现最好的神经网络(VGG16layers)对骨折的识别准确率达83%,与2名高级骨科医师诊断准确率相似[12]。
另一项研究建立并验证了一种对CT图像检测、定位、分类压缩性骨折、测量胸腰椎骨密度的计算机系统,研究结果显示对压缩性骨折检测和定位的敏感性为95.7%(95%CI=87.0%~98.9%),基于病例的受试者工作特征(receiver operating characteristic,ROC)曲线分析灵敏度为98.7%,特异性为77.3%,按Genant类型分类的准确率为95%(95%CI=89%~98%),根据Genant高度损失等级分类的准确率为68%(95%CI=59%~76%)[13]。该研究建立了一套良好的对CT图像进行高灵敏度、低假阳性率的椎体压缩骨折的检测、解剖定位和分类并计算椎体骨密度的自动ML计算机系统。
Burns等[14]设计并验证一种CT对创伤性胸腰椎椎体骨折的检测和解剖定位的全自动计算机系统,利用软件分析实现全自动化脊柱分割和骨折检测、进行ROC分析,训练集对每个椎体内骨折的检测和定位灵敏度为82%(95%CI=68%~90%),每例患者的假阳性率为2.5%;骨折定位对正确椎体的敏感性为88%(95%CI=72%~96%),假阳性率为1.3%;测试集每个椎体内骨折检测和定位的测试集灵敏度为81%(95%CI=75%~87%),假阳性率为2.7%;骨折定位对正确椎体的敏感性为0.92(95%CI=0.79~0.94),假阳性率为1.6%。全自动计算机系统在CT图像上对胸椎和腰椎椎体骨折进行检测和解剖定位,灵敏度高,假阳性率低。
Muehlematter等[15]评价骨纹理分析结合ML算法在标准CT扫描中识别椎体不全骨折风险患者的诊断性能,结果显示纹理分析与ML相结合,可以在标准CT扫描中高精度地识别出椎体功能不全骨折的危险患者,与CT扫描上的CT值测量相比,纹理分析与ML相结合的应用提高了骨折风险预测,可以在标准CT扫描中以较高的准确性识别出椎体不全骨折的患者。然而,鉴别单个脊椎是否有骨折风险仍然是一个挑战。
Kruse等[16]应用ML预测髋部骨折,并在双能X线骨密度仪扫描的男性和女性人群中估计预测因子的重要性,收集1996至2006年丹麦双能X射线吸收测定法测量数据,共纳入4722名女性和717名男性,随访5年,在75%的数据上建立24个统计模型,然后在剩余25%的数据上进行验证,计算曲线下面积(area under curve,AUC),并校准概率估计,男性髋部骨折风险模型具有较高的预测能力,AUC值为0.89 [0.82,0.95],敏感性100%,特异度69%;女性髋部骨折风险良好,AUC值0.91,敏感性88%,特异性81%。ML可以改进髋部骨折的预测。另外,还有研究比较基于CT的影像特征和基于CT的影像和临床特征训练的两种模型对使用ML算法的肺癌患者进行病理性股骨骨折的预测能力,发现ML可以预测病理性股骨骨折[17]。
骨质疏松症是一种骨代谢疾病,其特征是骨密度减低和骨组织微结构退化,骨骼脆性增加,从而导致骨折风险增加。当骨量下降的速度快于身体替代它的能力时,就会导致骨强度大幅下降。目前已经开发出多种骨质疏松症风险评估的临床决策工具。Yoo等[18]收集1674例韩国绝经后妇女数据,1000例训练集,674例测试集,开发并验证了多种ML模型(SVM、RF、ANN、LR),旨在确定绝经后妇女患骨质疏松症的风险,并与传统临床决策制定工具的性能在准确度、ROC和AUC方面进行比较,与传统的临床决策工具相比,ML更准确地识别绝经后妇女患骨质疏松症的风险。Cruz等[19]综述了2000至2017年25篇相关文章,发现可以利用多种AI方法帮助筛选骨质疏松或骨折的危险人群,但仅限于特定的种族、性别或年龄,因此对未来此方面的研究提出了新的挑战。胡晓晖等[20]总结发现骨质疏松AI的开发离不开骨质疏松体检生物样本库的建设,高质量多中心大规模骨质疏松生物样本库构建过程中收集的大量可供机器人学习及再学习的资料是决定骨质疏松AI技术开发成败的关键。
骨关节炎临床表现通常为软骨退行性变和消失,识别软骨的变化可实现骨关节炎的早期诊断。目前的研究主要是对关节软骨的识别(自动分割)技术以及软骨损伤的定性检测。Norman 等[21]将2D U-Net卷积神经网络用于膝关节磁共振数据的自动软骨和半月板分割,以确定弛豫测量和形态测量,旨在分析与手动分割相比,自动分割的准确性和精确性,使用全自动深度学习软骨病变检测系统评估膝关节关节软骨的可行性,具有较高的诊断性能和良好的观察者一致性,可用于检测软骨退变和急性软骨损伤,该结果发表在Radiology上。另一项研究旨在评估用深度学习的方法检测膝关节磁共振中软骨病变(包括软骨软化、纤维化、局部缺损、软骨退变引起的弥漫性变薄和急性软骨损伤)的可行性[22],发现ML对骨关节炎患者分类有一定的应用前景[23]。
随着诸多影像图像的数据集和相关参考标准的不断收集,未来可用来开发更先进、更精确的计算机学习模型,同时可以进一步收集并使用前瞻性数据构建骨肌系统疾病的扩展预测模型,届时会有更多的AI技术方法应用于影像诊断的研究。而目前研究内容大多是对简单病灶或征象的识别,是否能达到“辅助”水平、如何对复杂疾病进行全面分析和诊断仍是进一步研究的重点。相信在不断的发展与突破后,AI将会克服其现有的不足,为影像医生提供更有效的帮助。