运用3种卷积神经网络模型对青少年骨盆骨龄评估的比较

2020-12-06 11:16彭丽琴万雷汪茂文李卓王鹏刘太昂王亚辉赵虎

法医学杂志 2020年5期

彭丽琴，万雷，汪茂文，李卓，王鹏，刘太昂，王亚辉，赵虎

（1.中山大学中山医学院法医学系广东省法医学转化医学工程技术研究中心，广东广州 510080；2.司法鉴定科学研究院上海市法医学重点实验室司法部司法鉴定重点实验室上海市司法鉴定专业技术服务平台，上海 200063；3.上海真谱信息科技有限公司，上海 200444）

骨龄是基于个体骨骼成熟度进行的年龄估计，代表人体的生物学年龄。临床上常用于对儿童青少年的发育情况评估，法庭科学中常用于对青少年犯罪嫌疑人的定罪量刑。传统的骨龄评估方法主要是通过影像片人工读取骨骺干骺端的发育形态，其中使用最广泛的是Greulich-Pyle图谱法[1]和Tanner-Whitehouse法[2]。但是人工读片效率较低，且阅片者之间存在不可避免的内部差异性。因此，从20世纪80年代末开始，研究学者们开始探寻将骨龄评估计算机自动化[3-4]。其中，机器学习成为最受关注的技术，并应用于骨龄评估。

机器学习是人工智能的一个分支，其核心是使用算法解析数据，然后对某件事情做出决定或预测。该过程可以看作是寻找一个函数，输入是样本数据，输出是期望的结果。2006年，HINTON等[5]提出的深度学习（deep learning，DL）算法是其中最具代表性的算法之一，从海量的训练数据集中自动学习任务相关特性及多层网络模型的构建，大大提升了分类、预测结果的准确性。目前已被广泛应用于医学图像领域，如肺结节良恶性的预测[6]、前列腺癌的诊断[7]、鼻咽癌的预后估计[8]、骨龄评估[9]等。2017年，北美放射学会举行的骨龄评估挑战赛[10]中，排名前三的人工智能技术均为DL算法。

对于青少年骨龄评估而言，目前国内外绝大多数学者使用的是手腕关节X线影像学图片[11-14]，因为手腕关节中包含长管状骨、短管状骨及不规则骨等多种形态的骨骼，掌指骨、尺桡骨以及腕骨可以不同程度地反映全身各大关节不同形态骨骼的发育状况[15]。此外，手腕关节摄片较为简便，X线摄片对个体的电离辐射较小，可满足医学伦理学的基本要求。但使用手腕关节X线影像学资料进行青少年骨龄评估具有一定的局限性，因为手腕关节骨骼在18.0周岁左右已趋于闭合，这对于超过18.0周岁青少年群体的骨龄评估价值相对较弱，而18.0周岁是我国司法体系中一个重要的年龄节点。骨盆的髂嵴、坐骨结节骨骺则成熟相对较晚[16-17]，而且骨盆的继发骨化中心出现较晚，如髂嵴、坐骨继发骨化中心在11.0～12.0周岁才开始出现，至20.0周岁时，骨骺方趋于闭合[18]。因此，这完全符合《中华人民共和国刑事诉讼法》规定的14.0、16.0、18.0周岁的骨龄判断，采用骨盆X线影像学资料较好地弥补了青少年手腕关节骨龄评估的年龄缺陷。本研究拟选用VGG19、Inception-V3和Inception-ResNet-V2 3种经典的图像识别DL网络模型对我国汉族人群骨盆X线片进行骨龄评估研究，并对3种DL网络模型的性能进行比较。

1 材料与方法

1.1 样本收集

本研究调取了962例汉族11.0～＜21.0岁男、女性骨盆X线影像学资料作为数据集，上述骨盆X线影像学资料拍摄于2005—2018年上海市（200例）、浙江省（222例）、海南省（123例）、吉林省（128例）及河南省（289例）5个省市的医院。其中男性481例，女性481例。上述个体的生活年龄来自其身份证或户籍信息。

纳入标准：体检确认身体健康，营养状况良好。采用马尔丁金属测量计、经校准的杠杆秤分别测身高、体质量，选择在“国人正常身高、体质量范围调查表”[19]规定范围内的个体作为研究对象。排除标准：参加特殊文艺、体育训练的个体，服用影响骨骼发育药物史的患者，有影响骨骼发育疾病史或外伤史的患者。从上述男、女性青少年骨盆X线片样本集中采取随机抽样的方法抽取80%作为训练和验证集，用于模型拟合和超参数的调整；20%作为测试集，用于评估模型泛化能力。如图1所示。

本研究符合医学伦理学有关条款规定。

图1 训练和验证集、测试集样本分布Fig.1 Distribution of training and validation set and test set

1.2 方法

1.2.1 图像预处理

（1）骨盆骨骼X线片为DL网络模型的信息来源，采用python 3.7软件对图像进行预处理。人工裁减掉图像上的无关字符，如片号、姓名、拍摄日期以及医院名称等内容。

（2）将图像缩放至同一尺寸：通过双线性插值，将图像统一缩放至256像素×256像素。

（3）随机旋转：骨盆X线片的旋转理论上不应该影响对年龄的回归预测，为了增加模型的泛化能力，对所有的图像都会进行-30°～30°的随机旋转（图2）。

图2 图像旋转示意图Fig.2 Diagram of image rotation

（4）调整图像对比度、亮度：对比度是指一幅图像中明暗区域最亮的白和最暗的黑之间不同亮度层级的测量，即指一幅图像灰度反差的大小。亮度是指照射在景物或者图像上光线的明暗程度。骨盆图像对比度、亮度的变化，理论上不应该影响对年龄的回归预测，为了增加模型的泛化能力，随机调整X线片对比度（调节因子为0.5），并均匀选择亮度因子（调节因子为0.5～1.5），对图像进行亮度调整（图3）。

图3 图像亮度调整示意图Fig.3 Schematic diagram of image brightness adjustment

1.2.2 模型训练

（1）网络结构的选择

DL卷积神经网络（convolutional neural networks，CNN）因引入了权值共享、局部互联、阈值激活的方法，使得神经网络更符合生物神经元的稀疏性和有效性。CNN可扩展性强，通过多层叠加，可以实现不同特征的提取，通常浅层次的神经元提取浅层特征（如直线和圆弧）。通过前面的层层组合，深层次的神经元就可以提取出类似骨骺的外观、形态、大小等复杂特征。由于具备以上优点，CNN近年来在图像识别、回归预测等方面被广泛应用。其无需人为提取特征，而是将整张图像直接输入网络，由网络自己提取特征并回归识别，不同层次的网络会提取不同的特征[20]。

通常一个CNN由卷积层、激活层、池化层、损失函数层组成。卷积层的目的是提取输入对象的不同特征，网络层数更多则能从低级特征中迭代提取更复杂的特征。激活层用于增强判定函数和整个神经网络的非线性特性。池化层的主要作用为降采样，即减少参数的数量和计算量。损失函数层主要是度量神经网络的输出的预测值与实际值之间的差距，通常是网络的最后一层，各种不同的损失函数适用于不同类型的任务。本研究类型属于回归问题，因此选用均方根误差（root mean square error，RMSE）作为损失函数层。

在ImageNet大规模视觉识别挑战大赛上，从AlexNet[21]开始涌现出一大批超越人工识别准确率的网络。VGGNet[22]证明了2个3×3的卷积核可以替代1个5×5的卷积操作，有效降低了参数量，并提升了准确率。GoogLeNet[23]第一次组合不同大小卷积核提取的特征。ResNet[24]提出使用残差结构，可以使网络更好地关注高频差异信息，使得网络可以变得更深，大幅提升了准确率。DenseNet[25]提出密集连接的思想，将卷积神经网络的准确率推上了又一个台阶。因此，本研究将借鉴已有的模型（https://github.com/pytorch/vision/tree/master/torchvision/models）来进行迁移学习，这样既能保证网络的深度特征提取，又能降低学习的成本。本研究选取VGG19、Inception-V3和Inception-ResNet-V2 3种结构[26]进行对比实验。其中VGG19是由VGG16发展而来，加深了网络层数；Inception-V3是由GoogLeNet发展而来，通过并行的卷积和不对称卷积，利用更少的参数获取更好的结果；增加网络的深度和宽度都会提升网络的性能，Inception-ResNet-V2坚固了深度和宽度两方面特性，理论上可以使得网络性能达到最佳。

（2）参数的设置及算法优化

本研究使用迁移学习，即在训练前加载3种模型已经在ImageNet上训练好的权重作为初始权重，之后在自己的数据集上进行再学习。采用Adam优化算法对网络参数进行训练，将训练次数设置为200轮，训练的最小批量数是32。动量值为0.9，参数以0.0005的衰退值下降，以样本的图像为输入，样本的生活年龄作为模型训练的目标值。每一轮训练结束都在验证集上测试结果，保存在验证集上表现最好的模型参数。3种模型示意图分别见图4～6。

1.3 仿真环境与数据分析

本研究基于i9-9900K+RTX 2080Ti硬件平台的win10操作系统。算法开发过程借助PyCharm软件（美国Jetbrains公司）和开源工具Jupyter Notebook 6.0.2（美国Patent&Trademark办公室），并使用Anaconda进行开发环境管理。语言环境基于Keras-GPU以及python 3.7。采用python 3.7统计3种模型测试集男、女性各年龄段的年龄（）、RMSE、平均绝对误差（mean absolute error，MAE）指标。绘制Bland-Altman散点图计算预测数据的95%一致性界限（95% limits of agreement，95%LOA），以评估3种模型的预测性能。同时，采用SPSS 21.0软件（美国IBM公司）对3种模型RMSE、MAE值进行配对t检验，检验水准α=0.05。

图4 VGG19模型示意图Fig.4 Schematic diagram of VGG19 model

图5 Inception-V3模型示意图Fig.5 Schematic diagram of Inception-V3 model

图6 Inception-ResNet-V2模型示意图Fig.6 Schematic diagram of Inception-ResNet-V2 model

2 结果

2.1 各年龄组测试集的年龄、RMSE、MAE

VGG19网络模型中，RMSE范围为0.59～2.01岁，平均RMSE为1.29岁；MAE范围为0.49～1.74岁，平均MAE为1.02岁。其中12.0～＜13.0岁年龄组总测试集的RMSE值和MAE值最低，分别为0.85岁和0.68岁；11.0～＜12.0岁年龄组的RMSE值和MAE值最高，分别为1.73岁和1.42岁，结果见表1。

Inception-V3模型中，RMSE范围为0.50～2.88岁，平均RMSE为1.17岁；MAE范围为0.36～2.12岁，平均MAE为0.82岁。其中20.0～＜21.0岁年龄组总测试集的RMSE值和MAE值最低，分别为0.70岁和0.54岁；11.0～＜12.0岁年龄组的RMSE值和MAE值最高，分别为2.30岁和1.62岁，结果见表2。

Inception-ResNet-V2模型中，RMSE范围为0.41～2.14岁，平均RMSE为1.11岁；MAE范围为0.32～1.78岁，平均MAE为0.84岁。其中18.0～＜19.0岁年龄组总测试集的RMSE值和MAE值最低，分别为0.49岁和0.38岁；20.0～＜21.0岁年龄组的RMSE值和MAE值最高，分别为1.54岁和1.18岁，结果见表3。

2.2 3种CNN模型RMSE、MAE的统计学检验

将3种CNN模型的RMSE、MAE分别进行配对t检验，结果显示：VGG19模型的MAE与Inception-ResNet-V2模型的MAE之间差异有统计学意义（P=0.020），VGG19模型的RMSE与Inception-ResNet-V2模型的RMSE之间差异无统计学意义（P＞0.05）。VGG19模型与Inception-V3模型相比，RMSE、MAE之间差异无统计学意义（P＞0.05）。Inception-V3模型的RMSE、MAE与Inception-ResNet-V2模型相比，差异无统计学意义（P＞0.05）。

表1 汉族男、女性骨盆图像VGG19模型独立测试集预测结果Fig.1 The prediction results of the independent test set of the VGG19 model of the pelvic images of male and female Han nationality

表2 汉族男、女性骨盆图像Inception-V3模型独立测试集预测结果Fig.2 The prediction results of the independent test set of the Inception-V3 model of the pelvic images of male and female Han nationality

表3 汉族男女性骨盆图像Inception-ResNet-V2模型独立测试集预测结果Fig.3 The prediction results of the independent test set of the Inception-ResNet-V2 model of the pelvic images of male and female Han nationality

2.3 测试集Bland-Altman散点图分布

3种CNN模型测试集的预测年龄与生活年龄的Bland-Altman散点图（图7）显示：VGG19网络模型的预测年龄与生活年龄的平均差值的绝对值为0.16岁，95%LOA为-2.34～2.67岁；Inception-V3网络模型的预测年龄与生活年龄的平均差值的绝对值为0.26岁，95%LOA为-2.51～1.98岁；Inception-ResNet-V2网络模型的预测年龄与生活年龄的平均差值的绝对值为0.08岁，95%LOA为-2.25～2.10岁。其中Inception-ResNet-V2网络模型的散点图更为集中分布，Inception-V3模型分布在界限外的点数最少，而VGG19网络模型的散点图分布相对离散。

图7 模型测试集预测年龄与生活年龄的Bland-Altman散点图Fig.7 Bland-Altman plot of the prediction age estimated by 3 models on test set and real chronological age

3 讨论

近年来，机器学习在自动驾驶[27]、计算机视觉[28]、语音识别[29]、医学诊断[30]等领域均取得了巨大的成就。2014—2019年，王亚辉课题组[31-33]曾应用支持向量机、主成分分析等浅层学习算法对我国汉族青少年手腕关节、维吾尔族青少年膝关节X线骨龄深入研究，结果表明，基于支持向量机算法实现尺、桡骨远端骨骺发育分级的自动化评估是可靠的、可行的，基于支持向量机及主成分分析算法建立的骨龄回归算法模型可以实现较高准确率的年龄预测。随着人工智能技术的不断革新与换代，DL以及神经网络模型逐步成为机器学习领域新的研究方向及热点问题。DL逐步在影像学、肿瘤学、病理学、外科学以及语音识别领域的研究中取得突破性进展，在人脸识别、信息检索等领域也展示出独特优势并被广泛应用[34-35]。人工智能网络算法也由反向传播算法（backpropagation algorithm，BPA）、支持向量机（support vector machine，SVM）等浅层算法发展到当前的DL算法。DL算法不需要人工提取特征点，可以通过建立多层次的网络联系，自动从大数据中学习知识，预测效率及准确性更高。尤其CNN在图像识别领域有着突出的表现，多次在ImageNet大规模视觉识别挑战大赛中取得优异的成绩[21，36-37]。本研究选取的VGG19[38]、Inception-V3[39]、Inception-ResNet-V2[40]3种DL网络模型均为广泛应用于各种图像识别的经典CNN模型。髂嵴、坐骨结节骨骺发育相对较晚，相对于手腕关节而言，对年龄较大的青少年骨龄评估更有应用价值。鉴于此，本课题组调取了上海市、浙江省、海南省、吉林省及河南省962例汉族青少年男、女性骨盆X线片进行骨龄自动评估，研究的开展可为我国法医学领域骨龄评估的机器学习算法选择提供一定的参考价值。

3.1 RMSE、MAE及统计学检验结果分析

RMSE和MAE是衡量变量精度的两个最常用的指标，同时也是机器学习中评价网络模型的两个重要参数。RMSE是指预测值与真实值偏差的平方与观测次数n比值的平方根，用来衡量观测值与真实值之间的偏差。MAE是指绝对误差的平均值。RMSE和MAE越小，说明预测值越接近真实值、绝对误差越小，表明用于骨龄评估的网络模型效果越好。本研究结果显示，就RMSE指标而言，3种模型的差异无统计学意义。但对于MAE指标而言，VGG19模型的MAE值大于Inception-ResNet-V2模型，且二者差异有统计学意义。换言之，Inception-ResNet-V2模型骨龄自动评估的性能要优于VGG19模型。

另外，从本研究样本年龄组来看，上述3种DL网络模型中较小和较大年龄组的RMSE和MAE相对偏大，尤以11.0～＜12.0岁和20.0～＜21.0岁为著。这主要是因为在11.0～＜12.0岁时，可以反映骨盆骨龄的指标相对有限，加之髂嵴、坐骨结节骨骺尚未出现，因此，该年龄段的髂嵴、坐骨结节的发育状况尚不能全面反映骨盆骨龄的变化。因此，RMSE和MAE相对其他年龄组偏大。而在20.0～＜21.0岁时，髂嵴、坐骨结节等骨盆骨骺已趋闭合，髂嵴、坐骨结节已不能全面反映骨盆骨龄的动态变化，此时反映骨盆骨龄的指标已不再是骨骺的发育程度。因此，RMSE和MAE相对其他年龄组也会偏大。这一研究结果与临床实践中通过人工方法识别骨盆X线骨龄的结果是一致的。

3.2 Bland-Altman散点图结果分析

Bland-Altman散点图常用于评测两种测量方法的一致性。本研究结果显示，Inception-ResNet-V2网络模型的预测年龄与生活年龄的平均差值为0.08岁，在3种DL模型中最小，VGG19模型次之，Inception-V3模型的平均差值最大。同时，VGG19模型的95%LOA大于Inception-V3模型及Inception-ResNet-V2模型，散点分布更加偏离差值均值线。Inception-V3模型与Inception-ResNet-V2模型相比，95%LOA更大，散点也相对更偏离差值均值线。

综上所述，VGG19模型在骨龄自动评估性能方面明显弱于Inception-ResNet-V2模型。VGG19模型与Inception-V3模型相比，RMSE、MAE差异无统计学意义，虽然散点图中差值均值更小，但散点较Inception-V3模型更偏离差值均值线。据此认为，VGG19模型和Inception-V3模型的骨龄评估性能相当。而Inception-V3与Inception-ResNet-V2模型相比，RMSE、MAE值之间差异均无统计学意义，但进一步分析散点图发现，Inception-ResNet-V2模型的散点更集中于差值均值线附近。因此，笔者认为，在给予骨盆的年龄预测任务中，不同视野范围的卷积块的拼接效益要大于残差所带来的效益。对于青少年骨龄研究而言，更推荐使用Inception-ResNet-V2模型。综上，以上3种DL网络模型在用于骨盆骨龄自动评估时本研究组更推荐Inception-ResNet-V2模型。2018年，邓振华团队[41]采用AlexNet模型对来自四川的1 875例骨盆样本进行训练，得到MAE和RMSE值分别为0.94、1.30岁。本研究的VGG19模型结果与其相当，而Inception-V3、Inception-ResNet-V2模型优于该结果。

在医学图像领域，由于医护人员资源有限，标注数据困难，导致可用于训练集的同分布标注数据非常少，这是制约DL的关键因素，也是迁移学习在医学图像领域应用广泛的原因之一。因此，为了更好地捕捉样本的数据特征，我们选择了迁移学习，在预训练的基础上进行完全训练。并且应用数据增强技术，来泛化数据，增加模型的鲁棒性。本结果显示，在有限的样本量中，模型亦表现出了较好的准确性，这也证实了迁移学习在有限数据集里的可应用性。

本研究通过对3种热门DL网络模型在骨盆骨龄评估方面的性能进行对比，为我国年龄较大青少年的骨龄评估提供了一定的参考价值，并推荐青少年骨龄评估使用Inception-ResNet-V2模型。然而，本研究仍有进一步改进的空间：（1）3种DL模型的RMSE、MAE均略高于国内外用手腕关节X线影像进行DL骨龄评估时的 RMSE、MAE[11，13，42]。分析原因可能与手腕关节X线摄片的外部干扰因素如伪影等较少有关，而骨盆区域因有腹盆部器官的重影影响，在DL过程中可能造成一定的干扰。未来可考虑在图像预处理阶段将腹部区域伪影滤除，或采用三维CT等更高质量、结构清晰的影像；（2）本研究组采用的962例样本量在DL领域来说仍略显不足，理论上来说，一定范围内训练集样本量越大，DL的效果相对越好。虽然我们采用了迁移学习来弥补，但在未来仍可考虑加大训练集样本量。另外，我国作为一个多民族国家，各民族之间的生活环境、生活水平均存在一定的差异，因此骨骼发育亦可能存在差异，本研究样本均为汉族，未来可采集其他民族样本，训练相应民族的模型。