刘宗才,吴锦华,王荣品,刘昌杰,曾宪春
(贵州省人民医院放射科,贵州 贵阳 550002)
图2 拍摄的左手X线骨龄片
目前国内外广泛使用的骨龄评测方法主要有GP图谱法、TW3法、CHN法和中华05法[1]。图谱法简单、直观、易于掌握,但主观性强,可靠性不如计分法[2-4]。在TW2基础上,修订后的TW3法获得国际广泛采用,但TW3法基于欧美儿童及青少年,不完全适用于我国[4]。CHN法是在TW2法的基础上修改的适用于中国人的方法,但该方法取消了7块骨,影响骨龄评测准确性。为适应中国儿童及青少年生长发育趋势,张绍岩等[1]参照TW3法,分别制定了TW3-C RUS、TW3-C Carpal骨龄标准;基于法医学和运动医学的需要,又在TW3-C RUS基础上增加了骨成熟度指征,称为RUS-CHN法;以上方法总称为《中国人手腕部骨龄标准——中华05》(以下简称“中华05法”),在2006年成为目前中国唯一的骨龄行业标准。
中华05法的样本为东部沿海的5个城市,其对西南地区适用性有待验证。基于人工智能(artificial intelligence, AI)技术,骨龄评测已有多种自动化解决方案[5-7]。2012年后,深度学习技术开始应用于骨龄评测[8-10]。但由于骨龄标准固有的主观性和种族差异[11],客观评价深度学习骨龄评测系统的临床效能,仍有待研究[12]。本研究探讨适用于深度学习骨龄评测系统的临床试验方案,并对比深度学习模型(模型组)和2名住院医师(对照组)对贵州省儿童及青少年的骨龄评测准确性。
1.1 一般资料 回顾性收集2016年2月—2019年6月于我院就诊的148例儿童及青少年患者左手腕部骨龄X线影像,年龄2~17岁,其中男67例,平均(10.7±4.1)岁;女81例,平均(10.0±4.7)岁。生活年龄分布直方图见图1。纳入标准:父母及受检者均生长于贵州本地且发育正常(骨龄与生活年龄差距≤1岁)。排除标准:①手腕骨存在遮挡物;②分辨率差,影响骨骼特征观察;③有骨折、畸形或骨发育异常等影响骨龄判断的X线片。本研究获本院伦理委员会批准。
图1 样本生活年龄分布直方图
1.2 仪器与方法
1.2.1 骨龄片拍摄 采用Carestream Health DRX-1型号机器,按下列要求拍摄左手X线片(图2):①左手掌面紧贴暗盒,拇指与食指约呈30°,其余4指自然分开,中指与前臂中轴在一条直线上;②除手部完全显示外,桡、尺骨远端应显示3~4 cm;③DR机球管中心正对第三掌骨头,管片距70~90 cm。骨龄片以DICOM格式存储。
1.2.2 深度学习骨龄评测系统 采用深睿医疗Dr.Wise骨龄和生长发育预测软件0531beta版,硬件平台GPU采用英伟达Titan Xp,所得数据设为模型组(图3)。
图3 深睿医疗Dr.Wise骨龄和生长发育预测软件测量界面
1.3 骨龄评测参考标准制定 从北京、河北、大连、无锡、厦门招募12名有5年以上评分法骨龄评测经验的放射科和儿科医师。对所有医师,无论有无中华05 RUS-CHN法使用经验,均依据中华05法再次进行系统的骨龄评测培训。培训后,选用20例2~17岁规范骨龄片,对所有医师进行水平测试。选择水平最佳的3名医师(2名主任医师,1名副主任医师)对148例骨龄片进行双盲标注,并取三者均值,即为本研究金标准。
1.4 对照组 2名(医师A、医师B)住院医师中,医师A近一年骨龄片读片量不低于1 000张(采用中华05 RUS-CHN法),医师B近一年骨龄阅片量不低于 2 000张(采用中华05 RUS-CHN法)。阅片环境采用Dr.Wise远程标注平台(http://label.deepwise.com),可根据需要缩放图像、调节窗宽和窗位。
1.5 统计学分析 采用基于Python2.7(Python Software Foundation, Beaverton, Ore)的scipy、statsmodels库以及R软件。模型组和对照组医师评测骨龄的准确性采用平均绝对误差(mean absolute difference, MAE;骨龄评测误差的绝对值的算术平均值)衡量。采用组内相关系数(intraclass correlation coefficients, ICC)分析模型组和对照组与金标准评价骨龄的一致性,ICC>0.75为一致性良好。绘制Bland-Altman图,计算模型组和金标准骨龄差异(骨龄偏差)的95%一致性界限。采用配对样本t检验比较模型组和对照组医师A、医师B间平均误差(所有样本骨龄评测误差的算术平均值)、MAE,以P<0.05为差异有统计学意义。采用箱式图分析≥2~5岁、≥6~8岁、≥9~11岁、≥12~14岁、≥15~17岁5个年龄段骨龄评测误差的变化趋势。
2.1 模型组、对照组与金标准准确率对比 参照金标准,模型组MAE为0.295岁[95%CI(0.238,0.352)],对照组医师A MAE为0.438岁[95%CI(0.369,0.508)],医师B MAE为0.360岁[95%CI(0.295,0.425)]。模型组、对照组MAE≤0.5岁分别占84.46%(125/148)、67.57%(100/148;医师A)和74.32%(110/148;医师B)。模型组、对照组MAE≤1.0岁分别占93.92%(139/148)、89.19%(132/148;医师A)和89.86%(133/148;医师B),见表1。
表1 参照金标准,模型组和对照组不同性别MAE
对照组医师A、医师B与金标准分别存在+0.363岁和+0.269岁的平均误差。模型组与对照组MAE的差异,见表2。模型组的MAE显著优于医师A(t=-3.071,P=0.002),但与医师B的MAE差异无统计学意义(t=-1.563,P=0.120)。
表2 模型组和对照组骨龄评测的平均误差和MAE
2.2 一致性检验 以金标准为参照,模型组评估骨龄的一致性良好[ICC=0.994,95%CI(0.992,0.996)],对照组医师A[ICC=0.989,95%CI(0.959,0.995)]和医师B[ICC=0.991,95%CI(0.979,0.996)]评估骨龄的一致性良好。模型组和金标准评测骨龄偏差的95%一致性界限为(-0.896,+0.892),见图2。
2.3 不同年龄段之间骨龄值的比较 不同年龄段的箱式图见图3。≤2~5岁、≤6~8岁、≤9~11岁、≤12~14岁年龄段模型骨龄预测误差均值(虚线)小于≤15~17岁。
骨龄是评价儿童及青少年生长发育状况、预测身高、诊断疾病与监测治疗等的重要指标和依据,具有重要的临床意义。长期以来,广泛使用的图谱法虽然简单快捷,但评价者间差异大、评价者内可重复性差[2];而准确率相对较高的评分法又因其操作繁琐耗时,难以高效应用于临床[3]。骨龄评测的自动化、智能化是一项迫切的临床需要。
实验性骨龄评测系统常采用半自动方式,即先手动勾选13个骨骺区域,然后系统基于特征提取和机器学习分类器获得骨龄。2009年Thodberg等[5]基于主动表观模型等技术,在84例TW3数据集上取得了0.80年的掌指骨骨龄预测均方根误差[95%CI(0.68,0.93)]。近年来随着深度学习技术的发展[13],出现更精确、快速的骨龄评测方法,如卷积神经网络预测GP图谱法骨龄[8]。但算法的进展也对骨龄评测系统的临床验证提出了更高的要求。
验证模型准确性的关键是确定真实骨龄的参考标准。既往研究[3-4]表明,采用不同骨龄评测方法评价同样骨龄片,结果存在系统性偏差。因此,骨龄评测准确性的临床验证,首先需选定一种骨龄评测标准。本研究采用中华05 RUS-CHN法,设定了统一的标准。但骨龄评价的主观因素影响仍较大:①桡尺骨骨骺、掌指骨骨骺的生长发育均是连续的变化过程,临床采用TW3法或中华05 RUS-CHN法评价骨骺发育等级,是将连续的骨骺发育形态量化到一系列离散的典型指征,如骨骺发育状态介于两个发育等级之间时,阅片者只能依据主观认知选择最接近的等级;②受拍摄角度差异、个体发育差异等因素影响,并非所有骨骺形态都能与骨骺分级标准图对应;此时对骨骺等级的判定依赖于阅片者对手部骨骼三维解剖结构及常见变异情况的经验积累;③骨龄评测是重复性工作,长时间的连续阅片,即使有经验的医师可能也会出现偶然失误。骨龄评价方法可靠性研究[2]表明,随读片经验的不断丰富,骨龄评价的可靠性也在增加,且技术培训、统一评价标准也对评价者间的读片可靠性有重要影响[14]。
为尽量减少主观性影响,本研究在制定骨龄相对金标准时,对已具备经验的医师仍按统一标准进行系统培训和测试选拔,并取3名医师的均值作为标准。另外,为规避单中心阅片的局限,提升制定骨龄金标准的可靠性,本研究采用多中心报名的方式确定制定参考标准的3名阅片者。
本研究结果显示,模型组MAE小于对照组,模型组绝对误差≤0.5岁和绝对误差≤1.0岁的占比均高于对照组,提示模型的准确率均优于对照组2名医师;模型的平均误差和对照组2名医师的平均误差差异均有统计学意义,对照组2名医师均有高估骨龄的倾向,而模型组与金标准之间的平均误差非常小(1.930×10-3岁),表明深度学习模型不受主观偏好影响的优势;模型组和对照组医师A的MAE差异有统计学意义(P=0.002);模型组和对照组医师B的MAE差异无统计学意义(P=0.120),提示深度学习模型的骨龄评测准确率达到或超过了对照组2名医师。为进一步考察模型组骨龄评测值和金标准骨龄之间的一致性,本研究根据ICC数值判断结果表明,模型骨龄评测值与金标准骨龄的一致性优于对照组医师A。
影响骨龄评测准确性结果的另一因素是样本年龄分布,本研究在已有贵州儿童及青少年数据中,尽可能保证2~17岁年龄段的样本均衡分布。因本研究3岁以下入组骨龄片较少,仅纳入5例,多为左手外伤拍摄X光片,排除骨折的患儿;其余每岁样本量均控制在8~10例。本研究通过绘制Bland-Altman图,发现骨龄偏差的95%一致性界限为(-0.896,+0.892),优于Larson等[15]采用GP图谱法人工智能系统测评骨龄的一致性结果。此外,本研究还发现15~17岁年龄段模型骨龄预测误差明显大于其他年龄段,推测原因:使用中华05 RUS-CHN法,16岁以上骨龄片评测,主要取决于桡尺骨的融合程度(1/4融合、1/2融合、3/4融合),此处差异细微,不同标注者主观差异大,易导致模型训练效果欠佳。
本研究的局限性:①验证用样本量较小,未对各年龄段骨龄评测情况进行统计学分析;②纳入研究的样本虽同来源于贵州地区,但未考虑民族等因素的影响,将在其后的研究中进一步完善。
综上所述,将基于深度学习的骨龄评测系统用于贵州儿童及青少年临床骨龄阅片,可取得接近甚至优于对照组医师的准确性和一致性,具有广阔的临床应用前景。