彭丽琴,万雷,汪茂文,李卓,赵虎,王亚辉
(1.中山大学中山医学院法医学系,广东 广州 510080;2.司法鉴定科学研究院 上海市法医学重点实验室 司法部司法鉴定重点实验室 上海市司法鉴定专业技术服务平台,上海 200063)
正常人体骨骼发育过程中初级、次级骨化中心的出现时间、骨化速度、骨骺与干骺端闭合时间顺序以及形态变化都具有一定的规律性,这种规律性以“年”或“月”来表示,称为骨骼年龄。骨骼年龄评估较为经典的传统方法主要包括计数法、图谱法、计测法、计分法以及数学模型法等方法[1-2]。传统的骨龄评估方法主要通过人工读取骨骺和干骺端发育状况的形态特点进行骨龄评估,不同读片者之间以及同一读片者在不同时间读片时均会产生一定的误差,故读片结果会受到一定的质疑。于是,在20世纪80年代,便有研究小组提出实现骨龄评估的计算机化,其中最有价值的便是机器学习。1989年,MICHAEL的HANDX系统[3]以及1992年TANNER和GIBBONS的CASAS系统[4],率先将该想法投入实践,也拉开了机器学习在骨龄评估领域发展的帷幕。
机器学习(machine learning,ML)是一门人工智能(artificial intelligence,AI)的科学,该领域主要研究在经验学习中如何改善具体算法的性能,是一类自动分析数据,从中获取规律,并利用获得规律对未知的数据进行预测的算法。同时,机器学习又是使计算机具有智能的根本途径,是人工智能的核心,其应用遍布人工智能的各领域,主要使用归纳、综合等方法。目前,机器学习已有十分广泛的应用领域,如数据挖掘、自然语言处理、计算机视觉、DNA序列测序、生物特征识别、语音和手写识别及机器人应用等[5]。机器学习较为成功的应用领域便是计算机视觉,骨骼影像学图像识别属于计算机视觉范畴,因此,运用机器学习实现骨骼图像的识别,是实现人工智能骨龄评估系统的可靠途径之一。本文将对近年来国内外学者运用机器学习在骨龄评估中的研究进展进行综述。
机器学习[6-7]是人工智能的一个重要研究领域。学习是人类所具有的一种高级行为,而机器学习就是使计算机具有“通过解析输入的数据进行学习并预测”的能力,并且在实践中不断进行改进和完善。与基于相关运算规则的算法相比,机器学习利用了与实时更新的大型数据集进行接触的优势,可以实时改进和进行经验学习。一般来说,机器学习需要三组数据,分别用于训练、测试和验证过程。机器学习算法的发展经历了一个漫长的过程,从贝叶斯分类器(Bayes classifier,BC)、感知机(perceptron)、决策树(decision tree,DT)、反向传播算法(backpropagation algorithm,BPA)、支持向量机(support vector machine,SVM)的提出,再到随机森林(random forest,RF)和深度神经网络(deep neural network,DNN)的发展。随着数据量以及计算能力的迅速提升,以深度学习(deep learning,DL)为基础的诸多人工智能应用逐渐成熟,如图像识别、语音识别、无人驾驶等。机器学习任务通常分为三类[8],有监督学习、无监督学习和强化学习。有监督学习包括SVM、DT、线性回归(linear regression,LR)、logistic回归、贝叶斯网络(Bayesian networks,BN)、K最近邻(K-nearest neighbors)、RF、AdaBoost和神经网络方法等。无监督学习中包括K-均值、均值漂移(mean shift,MS)、层次聚类(hierarchical clustering,HC)、高斯混合建模(gaussian mixture model,GMM)、马尔可夫随机场(Markov random field,MRF)、迭代自组织数据分析(iterative selforganizing data analysis,ISODATA)等。而在强化学习任务中,计算机程序在一个动态环境中执行一项特定的任务,在该环境中,接受正强化和负强化的反馈,在与环境互动的结果中学习。在实际应用中几种任务范式可以任意进行组合。
机器学习因为在计算机辅助诊断和决策支持系统中表现的优越性和潜能,使人们对其在医学领域中的应用产生了巨大兴趣。目前已应用于药物研发、远程患者监测、医疗诊断和成像、风险管理、虚拟助理等领域[9],尤其在医学图像识别领域的应用尤为广泛。与传统的人工视觉评估方法相比,机器学习擅长识别成像数据中的复杂模式和人工无法检测到的图像信息,并能提供自动化的定量评估[10]。此外,机器学习还可以将多个数据流聚合到强大的综合诊断系统中[11],包括影像学、基因组学、肿瘤学、病理学及外科学等,进而协助临床作出诊疗决策。
在肿瘤的医学成像中,机器学习主要应用于肿瘤的检测、特征化描述和持续监测三个方面[12],包括精确描述肿瘤大小和体积随时间的变化、多病变的同时追踪、肿瘤表型细微差别与基因型的联系等。2017年,LIU等[13]采用一个包含4种量化的评分特征(短轴直径、轮廓、凹度、纹理)的线性分类器对182名肺部肿瘤患者CT图像进行处理,以对肺结节的恶性率进行预测,检测结果准确率为74.3%,灵敏度为66.7%,特异度为75.6%。其性能显著高于常用的基于多元logistics回归[14]的临床模型,降低了临床误报的概率。同样将机器学习应用于肺癌的还有HOSNY等[15-16]。除了传统医学影像片,病理切片的数字扫描片也被应用于机器学习领域。2019年,Nature Medicine刊登了CAMPANELLA等[17]在机器学习方面的进展。该团队收集了3个活检切片数据集(前列腺、皮肤、乳腺癌淋巴转移)并进行数字扫描,使用解剖病理学实验室信息系统(laboratory information system,LIS)提供的诊断,以弱监督方式对其进行训练,包括使用多实例学习(multiple instance learning,MIL)训练深度神经网络(deep neural network,DNN),从而产生一个语义丰富的像素级特征表示。然后将这些特征表示用于循环神经网络(recurrent neural network,RNN),以整合整个数字扫描切片中的信息并报告最终分类结果。其中数字扫描切片的聚合方法采用最大池法(max-pooling,MP)。研究结果显示:(1)三个数据集切片分别在放大20倍、5倍、20倍扫描的时候可获得最大预测准确性,AUC分别为0.986、0.990、0.965。(2)当训练集达到10000张切片时,平衡误差最小,并趋于平衡。(3)当对基于MIL的像素级分类器生成的热图中提取的人工特征用RF进行训练时,得到了0.98的AUC,与单独的MIL相比差异没有统计学意义。假阳性率得到下降,但是灵敏度亦下降。
此外,机器学习在鼻咽癌、脑肿瘤、结直肠癌[18]等医学领域也均有所发展。2017年,ZHANG等[19]基于图像模式和基于机器学习的分类器对鼻咽癌影像学图片构建计算机辅助设计(computer-aided design,CAD)分类系统。2018年,ZHOU等[20]描述了从脑肿瘤放射图像中提取定量特征的一套广泛的机器学习方法,以用于肿瘤的影像学诊断、预后和治疗反应。2010年,SUMMERS[18]通过计算机搜索结肠壁以寻找息肉样的突出物,并向临床医生提供可疑区域的列表以进一步分析。除了肿瘤以外,机器学习在医学的其他领域也应用甚广。2018年,CHEN等[21]利用CNN模型通过胸部CT医学影像报告单对肺栓塞进行诊断,发现模型精度高达99%,AUC为0.97,优于传统的自然语言处理模型。此外,对于神经退行性疾病如阿尔茨海默病(Alzheimer’s disease,AD),机器学习算法也发挥着自己的优势,通过对头部的正电子发射体层仪(positron emission tomography,PET)扫描片和相关生物标志物的智能分析,大大提高了对早期AD的诊断[22-23]。并且,机器学习能在PET的图像重建和衰减校正方面发挥重要作用,从而获得更高分辨率和更精确的图像,为相关疾病提供更好的诊断依据[22]。
在目前的骨龄鉴定中,常用的机器学习算法包括回归、神经网络[24-25]和SVM[26-27],使用较少的有BN、DT、K最近邻算法等[28]。有学者[28]经过统计发现,X线片是最常被使用的源数据,其次是CT片、MRI片,并且法医学家最感兴趣的区域属手部、腕部区域,使用较少的包括膝关节、骨盆、胸锁关节等。
手部和腕部区域一直是骨龄研究学者们最感兴趣的区域,因为该解剖区域存在大量可供骨龄评估的骨骼指标,这些掌骨、指骨、腕骨、尺桡骨、甚至籽骨等骨骼成熟度具有明显的先后次序性。机器学习在手部区域影像片中的应用也由来已久,早在1995年,PIETKA便开发了一种基于指骨和腕骨区域的模糊分类器[29]。国内的王亚辉等[30]在2014年使用SVM对华东地区青少年左侧腕关节的X片正位片进行训练,用留一交叉验证法(leave one out cross validation,LOOCV)和梯度方向直方图(histogram of oriented gradient,HOG)分别进行内、外部验证,建立了对尺桡骨远端骨骺的发育分级的自动化评估。大大提高了阅片者的阅片速率,但仍需相关专家进行最终的骨龄评估。次年,KASHIF等[31]从南加州大学提供的1 104张手部射线照片中各提取14个感兴趣的骨骺特征点(epiphyseal region of interest,eROI),分别用尺度不变特征变换(scale invariant feature transform,SIFT)匹配算法与加速稳健特征(speeded up robust feature,SURF)算法进行稀疏、密集特征描述以及用二进制鲁棒独立元特征(binary robust independent elementary feature,BRIEF)算法、二进制鲁棒不变尺度特征关键点(binary robust invariant scalable keypoint,BRISK)算法、快速视网膜关键点(fast retina keypoint,FREAK)算法进行密集特征点描述。采用SVM进行分类,最后进行5倍交叉验证。结果显示,SIFT的密集特征描述平均误差最小,为0.617岁。此外,中指区域特征点的表现要优于其他手腕区域。中指、食指、无名指的组合产生的效果最优。该方法鲁棒性强,易实现,相比于PIETKA等的方法不需要语义特征和地图册的标注。以上均是基于机器学习领域浅层学习方法而进行的骨龄评估。而最近几年深度学习以其独特的优势得到了更为广泛的应用。如深度卷积神经网络(deep convolutional neural networks,DCNN),因为能够从大型训练数据集中自动学习与任务相关的特性,省去了如传统的机器学习方法(如SVM或RF)所需要的手工特征提取的预处理步骤,其在解决各种机器学习和计算机视觉问题方面取得了巨大成功。2017年,LARSON等[32]采用CNN算法对14036张儿童左手部X片进行骨龄评估(12 611张作为训练集,1 425张作为验证集)并与人工专家评估结果进行比对,结果显示,CNN模型得出的骨龄结果与人工评估结果没有显著差异,并且随着训练集含量增大误差减小。KIM等[33]亦采用深度学习方法对儿童左手图像进行骨龄评估,结果显示模型评估骨龄与参考骨龄有69.5%的一致率,有显著相关性(r=0.992,P<0.001),并且减少了18.0%~40.0%的评估时间。综上可见,虽然机器学习与人工专家评估效能相当,但是卷积神经网络明显更省时间,并且不需要特定的学科知识以及特定图像软件工程的辅助,具有明显的优势。
2018年,KOITKA等[34]以来自北美放射学会(radiological society of North America,RSNA)儿科骨龄挑战赛[35]的240张微调过的人工注释手部X线片作为训练集,另外89张作为验证集,从远端指骨、中间指骨、中间指骨和近端指骨间以及近端指骨和掌骨之间的骨骺生长区、腕骨、尺桡骨远端分别提取相同类别及数量的感兴趣特征点(region of interest,ROI)。所有选定的图像都使用名为labelImg的开放源代码工具进行注释。整个实验采用TensorFlow r1.4进行,使用Inception-ResNet-V2作为底层特征提取器,Faster-RCNN模型来运行。最后得到的结果精确度为92.92%±1.93%。除了X线片外,手部MRI片也因其无辐射的优点在骨龄鉴定中得到了重视与发展。2019年,ŠTERN等[36]分别使用DCNN网络和RF网络对328名白人男性的手部3D MRI图谱进行训练并在二维X线片中进行验证。其中:(1)DCNN网络由一个特征提取器、多个FEE block(每个FEE block由两个卷积层和一个最大池层组成)、两个卷积层及一个年龄推断输出层构成。从手部3D MRI图谱中各提取13个骨骼特征(特征点选取参考TW2法)[37]。(2)在RF网络中,根据特征与阈值,将受试者的3D MRI骨骼图像推送到左或右子节点,直到达到最大树深(maximum tree depth,MTD),最后通过存储在叶节点中的受试者平均年龄(去掉5%的最高年龄和5%的最低年龄值,计算剩余者的平均年龄)来计算估计年龄。(3)结果显示,对于13~18岁的青年,DCNN模型的绝对偏差为(0.37±0.51)岁,RF模型的绝对偏差为(0.48±0.56)岁,均显著优于放射学家预测的年龄。该方法的优势在于使用的是3D MRI图片,不产生辐射。另外,预估误差也得到了明显改善,但是由于手部骨骼基本在18岁前完成了骨化,所以HALABI团队[35]只对13~18岁年龄段作了评估。这对于司法审判中的应用尚不够。不过该团队也指出,当再增加一些其他解剖部位来估计时,可以将预估的年龄段拓展至25岁。这将是一个值得发展的前景。
膝关节作为六大关节之一,其骺软骨板的骨化程度被证实与年龄显著相关。国内外均有团队进行了相关研究[38-39]。其中广为人知的是O’CONNOR等[40]提出的膝关节骨骼成熟度量表。该量表涉及骨骺形态变化以及骨骺闭合程度等10个指标,新版量表将其缩略至7个[41]。但以上均是基于阅片者的定性比较。近年来随着机器学习的发展,膝关节的骨龄评估也得到了进一步发展。2019年,王亚辉团队[42]采集了500例12~19岁维吾尔族青少年的膝关节DR摄片。采用主成分分析法(principle component analysis,PCA)对提取的方向梯度直方图(histogram of oriented gradient,HOG)与局部二值模式(local binary patterns,LBP)图像进行降维。最后采用支持向量机回归法(support vector regression,SVR)构建骨龄评估算法模型。结果显示,男女性年龄误差范围在±0.8岁及±1.0岁以内的准确率分别为80.67%、89.33%与80.19%、90.45%。与依赖“大数据、大计算、高性能”的深度学习方法相比,该方法具有较易实现、在小样本数据上学习能力及泛化能力良好的优点,并且关注到了骨龄发育在地区、民族间的差异性,对未来的司法鉴定有一定的价值。
近年来,对膝关节磁共振图像进行分割来进行自动化评估的方法有较多的研究[43],如DODIN等[44]运用Ray Casting技术,将MR图像分解成多个表面层,对骨骼的边界进行定位,并自动融合多个部分分割对象,最终得到完整的骨骼分割。受此类技术的启发,PRÖVE等[45]将图像分割应用到了骨龄鉴定领域。该团队利用CNN建立了一个基于三维无创MRI的全自动膝关节神经网络分割方法,用于76个数据集包含150名14~20岁男性右膝MRI,分别为训练集(74%)、验证集(13%)和测试集(13%),并采用多个预处理步骤来校正图像强度值及减小图像尺寸。该模型类似用于U-NET的编码器-解码器模型。与人工分割相比,训练后的网络获得了98%的戴斯相似性系数(Dice similarity coefficient score,DSCS),能够区分股骨、胫骨和腓骨。模型的精度和重复性也达到平衡,误差仅为1.2%。经过验证集的验证,该方法用于青少年骨龄评估的平均绝对误差可达到(0.48±0.32)岁。该模型切割MRI数据集不仅具有很高的准确性,而且能够从不同的方向切割。此外,该模型对训练集的噪声具有鲁棒性。同时,该网络具有高度的通用性,能够适应其他骨骼、不同的图像方向和不同的输入分辨率。当采用合成噪声时,能够获得比其所承受的噪声水平更高的精度。在未来,该无创方法有希望被推广于其骨骼、关节进行骨龄的评估。
在法医学领域,骨盆因其成熟期较晚而在对年龄相对较大的青少年进行骨龄鉴定中发挥了重要的价值。最常用于骨盆骨龄鉴定的包括Risser征和髂嵴骨化[46],其他还包括髂嵴和坐骨结节骨化程度[47-48]、髋关节和股骨近端的融合程度[49]、耻骨联合骨化程度[50]等。随着机器学习的迅速发展,其也被应用到了骨盆的骨龄评估。
2019年,邓振华团队[51]收集了一组1408张10.0~25.0岁中国西部汉族人群的骨盆X线片用于骨龄的机器学习,选择该年龄范围是基于髂嵴骨化过程一般晚于12.0岁而早于24.0岁的规律[52-53]。其中髂嵴上方腹部器官明显重叠的图像被从训练集中移除,但仍用于测试集。该研究采用的是微调版卷积神经网络,为基于ImageNet数据集预先训练的改良版AlexNet网络。其保留了原始AlexNet网络卷积层进行特征提取。回归部分则被3个新的全连接层所取代,最后一层为预期结果输出层。在训练过程中,为了避免过度拟合,固定了卷积层的参数,并且仅使用训练集对完全连接层的参数进行了微调。该团队采用Pearson相关系数和Bland-Altman图来评估模型的准确性。另外,还比较了估计值和真实值的平均绝对误差(mean absolute error,MAE)、均方根误差(root-mean-square error,RMSE)。结果显示,CNN模型的输出骨龄与参考骨龄显著相关(r=0.916,P<0.05),且MAE和RMSE分别为0.91岁和1.23岁,优于现有的基于骨盆髂嵴和坐骨结节发育状态分级系统的三元回归模型[47](MAE和RMSE分别为1.05岁和1.61岁),并且两性之间没有显著差异。Bland-Altman图则显示输出骨龄与实际骨龄的平均差异为0.1年,95%一致性极限为±2.60年。
综上,该系统在一定程度上解决了部分18周岁以上青少年(18~22岁)的骨龄评估问题,弥补了手部、膝关节影像片进行骨龄鉴定的不足。但是,另一方面其评估精度不如基于手部X线图像的深度学习体系。并且髂嵴上腹部器官叠加产生的伪影也可能会影响结果的准确性。这可能是导致精度不足的原因之一。
受伪影的影响,模型在自动学习的过程中容易受到干扰而不够准确。因此,目前对骨盆的应用尚少。未来有待通过对模型的改进,或者伪影的有效处理进一步提高骨盆骨龄评估的精度。
锁骨胸骨端是构成胸锁关节的重要解剖结构,是全身次级骨化中心出现和骨骺闭合时间最晚的骨骼,也是青春后期骨龄鉴定的重要指标之一,是判断是否为成年人的重要骨骼指标之一。SCHMELING等[54]提出的锁骨胸骨端骨骺发育分级方法是目前应用较广的分级方法,SCHULZE等[55]、WEI等[56]也提出了锁骨胸骨端骨骺发育的CT分级标准。与骨盆相同,受伪影(肺部、胸骨、支气管等相互重叠)的影响,锁骨胸骨端在机器学习中的应用相对较少。
几年前,大多数关于使用锁骨胸骨末端进行活体年龄估计的研究中,本质上仅是描述性的统计,或者某种形式的线性回归[57-58]。2013年时,HILLEWIG等[59]将贝叶斯网络运用于锁骨的骨龄评估中。2019年,STERN等[60]融合了锁骨、手部、牙齿三个解剖部位的MRI数据信息,利用DCNN对322名年龄在13~25岁的受试者进行训练。每个DCNN块由两个连续的3×3×3卷积层和一个最大池层组成。最终得到了(1.01±0.74)岁的平均绝对误差。将鉴定年龄范围从单纯使用手部的19岁拓展到25岁。为了衡量每个解剖部位对于预测年龄的重要性,该团队计算了特征提取块后全连接层的平均激活值。结果显示,手部的可靠性最高,其次是锁骨、牙齿。但在16~19岁青少年骨龄评估中,锁骨和牙齿的协同产生了最高的评估精度(在其他大部分年龄段,均为手部、锁骨、牙齿三者的协同误差最小)。可见,对于不同的年龄段,不同的解剖结构有不同的优势。因此,在实际应用中可根据不同的需求选择不同的解剖结构,并且各解剖结构之间的联合使用能够提高预测的准确度。
随着机器学习的迅速发展,在骨龄评估领域的应用也日趋成熟。如:(1)机器学习所使用的影像图片从最开始的X线片,到CT片,再到无电离辐射的MRI片,甚至是三维MRI片。随着影像检测技术的不断升级,更复杂的深层特征点有机会被挖掘,并且随着公众健康意识的增强,MRI检测技术或许是未来骨龄研究的重要发展趋势。(2)使用的算法从最开始的浅层算法如支持向量机、随机森林,到现在广泛应用的深度学习,从开始需要人工提取特征点到后来算法自动学习,算法模型在逐步优化。(3)随着各类机器学习网络模型及网络算法的不断改良和优化,今后在骨龄研究中,针对同一类骨骼指标,可以采用多种机器学习手段进行比较研究,从而总结出与人体不同骨骼指标相匹配的机器学习网络模型和网络算法,以期进一步提升机器学习在骨龄评估的应用价值。(4)评估部位由最开始的手腕关节,再到膝关节、骨盆及胸锁关节等。今后可以考虑运用机器学习针对不同年龄组融合多个解剖部位综合评估骨骼年龄。
综上,机器学习在医学领域及骨龄评估的发展前景可期,但我们也不能忽略其存在不足之处。正如HOSNY等[9]所说,由于内部机制的非透明性,目前人工智能尚不能完全取代放射学家而进行独立运作,但可以在法医人类学领域发挥重要的辅助作用,大大提高鉴定效能。
目前,对于胸锁关节、骨盆等部位的研究尚少,研究样本的数量有限以及摄片伪影等影响因素亦未得到有效解决。因此,基于机器学习的青少年骨龄鉴定研究的准确性仍有一定的提升空间,这也是未来需要法医学者及计算机学科专家努力解决的问题之一。此外,还可以将算法进一步优化,进一步提升骨龄评估精度,以更好地解决14.0、16.0、18.0周岁等法定关键年龄的鉴定问题。鉴于我国地广人多、是一个多民族国家[61],在今后的研究中,我们还会考虑民族、地区间的差异,在训练时采用混合数据集,或者对于骨龄评估差异较大的地区、民族,建立该地区、民族的独立算法模型。