曾 晨,孔俊沣,钟 雯,刘 嵩,曾文兵,乔 虹,杜文威,赵 勇
(1.哈尔滨医科大学附属第二医院内分泌科,黑龙江 哈尔滨 150000;2.重庆大学附属三峡医院放射科,重庆 404100;3.重庆大学附属三峡医院儿童保健科,重庆 404100;4.重庆市开州区人民医院放射科,重庆 405400)
骨龄评估(bone age assessment,BAA)已广泛应用于临床医学、体育科学、法医学、预防医学、生物学等领域。当前常用的骨龄测评方法有:G-P 图谱法、CHN 法[1]、TW3 法[2]、中华05RUS-CHN 法[3]等。传统骨龄评估人工阅片效率低下,不同阅片者水平不尽相同而重复性差,人工阅片的可靠性及骨龄推断的准确性受到质疑,临床迫切需要人工智能(artificial intelligence,AI)技术来帮助医师评估骨龄。重庆大学附属三峡医院于2020 年5 月引进了一套深度学习的儿童骨龄智能评估系统,该系统的临床效能还待验证。本研究旨在通过采用中华05RUS-CHN 法,探讨适于重庆三峡库区儿童青少年临床应用的深度学习骨龄评测系统,现报道如下。
1.1 一般资料 纳入2020 年6 月-2021 年7 月重庆大学附属三峡医院放射科PACS 系统中经过深度学习儿童骨龄智能评测系统评估的2500 例左侧手腕骨骨龄X 线片为研究数据集,其中随机选择2100例(84.00%)为训练集,200 例(8.00%)为验证集,另200 例(8.00%)为测试集。纳入标准:①受检者及其父母均来自重庆三峡库区;②受检者有完整的基本信息及临床资料。排除标准:①手腕骨X 线骨龄片图像差,不符合诊断要求;②手腕骨有器质性病变。测试集儿童青少年生活年龄及性别分布见图1。
图1 测试集样本的年龄和性别分布
1.2 检查设备及投照方法 投照设备为锐柯DRX Evolution。被检查者左手掌面向下并紧贴探测器,拇指与食指约30°,其余指骨自然分开,中指轴与前臂轴呈直线;掌指完全显示,尺桡骨远端显示3~4 cm;球管中心线正对第3 掌骨头,管片距约90 cm。
1.3 深度学习儿童骨龄智能测评系统 采用依图医疗研发的儿童手部X 射线骨龄辅助评估软件,版本号V2.0,界面见图2。采用的远程平台为:chrome 浏览器192.168.100.219/bone_age。该软件评估的骨龄数据称为AI 模型。
图2 依图医疗骨龄测定及生长发育评估预测软件界面
1.4 参考金标准及对照组 从多个医疗中心(重庆大学附属三峡医院、重庆市开州区人民医院、哈尔滨医科大学附属第二医院)招募3 名从事儿童影像及1名从事儿童内分泌专业医师作为专家组,4 名专家(主任医师1 名,副主任医师3 名)均有10 年以上评分法评估骨龄经验。4 名专家对纳入研究骨龄片进行双盲评估,要求严格按照中华05 RUS-CHN 法[4]标准线条图及文字说明判断,禁止参考AI 模型标准图谱,取专家组测得骨龄均值为本研究参考金标准。2 名有6 年以上骨龄评估经验的影像科医师(医师A、医师B)为对照组,对照组医师再次培训中华05 RUS-CHN 法的临床应用并独立阅片。按照双盲原则,2 名医师分别独立评定200 例儿童的13 块RUS骨骺的发育等级,确定各骨等级的得分并相加得到手腕骨成熟度总分,依据各年龄组骨成熟度得分百分位数曲线得出200 例儿童青少年骨龄,同时记录各自完成时间。
1.5 统计学方法 使用SPSS 22.0 软件(SPSS Inc.,Chicago,IL,USA)和GraphPad Prism7 软件(Graphpad Software,San Diego,CA,USA)。为比较AI 模型和人工阅片结果之间差异,使用多种变量。AI 模型和医师对照组评测骨龄的准确性采用平均绝对误差(mean absolute error,MAE)衡量,用配对样本t检验比较MAE 差异及评估用时差异。应用组内相关系数(intraclass correlation coefficients,ICC)分析AI 模型和对照组与参考金标准评估骨龄的一致性,ICC>0.75 为一致性良好。使用Bland-altman 分析计算AI模型和参考金标准结果差异的平均值和95%置信区间。使用±0.5 岁和±1.0 岁内准确率评估各组与参考金标准之间的准确性。P<0.05 为差异有统计学意义。
2.1 AI 模型、对照组医师与参考金标准准确率比较AI 模型与参考金标准之间的MAE 为0.46 岁[95%CI(0.36,0.56)],2 名对照组医师与AI 模型评估的MAE 比较,差异无统计学意义(P>0.05);当误差范围在±1.0 岁及±0.5 岁以内,AI 模型评估骨龄的准确率分别为92.50%、75.50%,AI 模型与2 名对照组医师评估骨龄的准确率比较,差异无统计学意义(P>0.05),见表1 及图3。
图3 AI 模型、对照组与金标准绝对误差值的分布比较
表1 各组MAE 及骨龄评估的准确率比较
2.2 一致性检验 参照参考金标准,AI 模型[ICC=0.98,95%CI(0.97,0.99)]、医师A[ICC=0.98,95%CI(0.98,0.99)]、医师B[ICC=0.98,95%CI(0.98,0.99)]三组评估骨龄的一致性良好,三组ICC 均>0.75。AI模型和参考金标准评测骨龄偏差的95%一致性界限为(-1.225,+0.98),见图4。
图4 Bland-altman 分析金标准与AI 模型结果的一致性
2.3 AI 模型与对照组医师评估骨龄时间比较 AI 模型、医师A、医师B 完成1 份骨龄评估用时分别为(1.31±0.82)s、(604.8±81.5)s、(672.5±132.4)s,2 名对照组医师评估用时长于AI 模型,差异有统计学意义(P<0.05),见图5。
图5 AI 模型组和对照组医师平均阅片速度比较
深度学习是学习样本数据的内在规律和表示层次,深度学习极大的促进了人工智能在医学尤其放射学领域的运用。骨骼X 线片包含了显示变化的黑白灰阶,骨龄图像就是训练深度学习算法的理想数据库[5]。深度学习方法较传统机器学习方法在骨龄评估应用中更有潜力[6-8]。近年来众多学者致力于骨龄评估的人工智能研究与开发,Spampinato C 等[9]研发的自动化骨龄评估模型—BoNet 及Lee H 等[10]研发的带有检测与分类卷积神经网络的深度学习平台分别被称为深度学习运用于儿童骨龄评估中的里程碑和最新成果。
不同骨龄评价方法评估相同骨龄片存在系统性偏差[11,12],因此验证骨龄智能评估模型的准确性需要选择合适的评价方法,即所选方法要体现其种族性、地域性及时代性。本研究AI 系统提供了G-P 图谱法、TW3 法、中华05 RUS-CHN 法。G-P 图谱法直观,但易受评估者主观因素影响,不同医师评估结果差异大[13,14]。TW3 法尽管基于评分系统,但其样本数据来源于欧州儿童青少年,不完全适用于我国儿童青少年,同时TW3 法骨骼发育等级分布中每级时间跨度大,不能准确区分接近成年型骨发育成熟度。本研究采用中华05 RUS-CHN 法基于以下考虑:①中华05 RUS-CHN 法是基于当代中国儿童样本,并在CHN法基础上,参照TW3 法制定的适合我国儿童青少年骨发育成熟度的测评方法;②中华05 RUS-CHN 法行业标准中主要推荐了桡-尺-掌指骨13 块骨的RUS 系列,该系列方法详细描述了我国儿童青少年的骨发育特征及长期趋势[15];③该法对骨龄等级读片的可靠性进行了论证[16]。不同评估者之间或同一评估者不同时期评估骨龄具有可变性,为保证骨龄参考金标准的准确性,本研究采用多个医疗中心专业人员评估骨龄。
本研究显示,当误差范围在±0.5 岁及±1.0 岁以内,AI 模型评估测试集的准确率分别为75.50%、92.50%,与报道[10,17]基本相符,2 名医师与AI 模型评估骨龄的准确率比较,差异无统计学意义(P>0.05),表明AI 模型达到了人工评估的准确率。近来有研究报道[18-20],基于深度学习儿童骨龄智能测评系统分别采用G-P 图谱法、TW3 法、中华05RUS-CHN 法的验证研究中,测试集的MAE 分别为0.536、0.46、0.37 岁。本研究基于中华05 RUS-CHN 法评估重庆三峡库区儿童青少年骨龄,测试集的MAE 为0.46 年,2 名医师与AI 模型评估的MAE 比较,差异无统计学意义(P>0.05),提示该模型评估骨龄具有可行性并在准确性方面与人工评估类似。ICC 数值表明AI 模型与参考标准评估骨龄的一致性良好,人工评估与参考标准评估骨龄的一致性不优于AI 模型。通过绘制Bland-altman 图,本研究发现AI 模型和参考标准评测骨龄偏差的95%一致性界限为(-1.225,+0.98),优于Wang F等[21]采用G-P 图谱法并运用相同人工智能系统测评骨龄的一致性结果。AI 模型骨龄评估效率远高于对照组医师,表明该系统可作为骨龄评估的便利工具。
本研究AI 模型与参考金标准不一致主要表现为:①较小儿童(女9 岁以下、男10 岁以下),第3、5掌骨/中节指骨及第1、3、5 近节指骨7 个掌指骨中,等级4、等级5 这2 个等级不一致多见,分别为:女29.61%(114/385)、男34.09%(105/308);②大儿童(女12 岁以上、男13 岁以上),骨骺与骨干开始融合、骨骺与骨干融合过半2 个等级不一致较多,分别为:女18.97%(74/390)、男25.17%(36/143);③3 例指骨骨骺与骨干局部重叠,AI 模型判读为完全融合;1 例指骨骨骺线早闭,AI 模型判读为骨化中心未出现。可见,该模型还需优化及深度学习。本研究不足:①参考标准为人工评估,不能完全避免主观因素影响;纳入样本年龄及性别构成比情况尽管与临床比较相符,仍可能存在选择偏倚;②测试集样本偏少,未对各具体年龄段进行细致分析,以后还需扩大样本量从多角度持续研究。
总之,运用中华05 RUS-CHN 法评估重庆三峡库区儿童青少年骨龄,基于深度学习的儿童骨龄智能评估系统准确性高、耗时短,与参考标准及对照组具有很好的一致性,可用于该地区儿童青少年骨龄的辅助评估。