基于深度学习的骨龄评估方法研究

2021-05-24 08:29傅贤君汪婵婵

电脑知识与技术 2021年12期

傅贤君　汪婵婵

摘要：传统的骨龄评估方法通常是由骨龄专家根据GP法或计分法对手部X光片进行判读，这种方法具有较大的工作量，长测量周期和主观性强的缺点，而计算机辅助诊断具有快速、准确、可重复的优势。该文提出了一种基于数字图像处理技术与深度学习技术对手部X光片进行骨龄计算机辅助诊断的新方法，图像预处理方面综合阈值操作及提取最大连通域方法提取手掌轮廓，并基于Xception的深度卷积神经网络得到骨龄评估回归分析模型，多尺度提取特征，实现骨龄自动化精准评估。实验表明上述方法能快速准确地对灰度不均匀的手部X线平片进行骨龄检测。

关键词：骨龄检测;数字图像处理;深度学习;回归分析

中图分类号：TP391.4 文献标识码：A

文章编号：1009-3044（2021）12-0183-03

1 背景

通过骨龄评估能较准确的确定儿童的生物学年龄，及早了解儿童的生长发育情况，同时能对一些儿科内分泌疾病作出早期判断[1]。骨龄检测还能被更广泛应用于司法判案、运动员实际年龄确定之中。由于传统的人工判读骨龄方法烦琐费时，同时精确度因评定者而异。计算机辅助诊断具有快速、准确、可重复的优势，而传统的骨龄评估方法通常是由骨龄专家根据GP法[2]或计分法[3]对手部X光片进行判读，这种方法具有较大的工作量，长测量周期和主观性强的缺点。因此，随着计算机技术的不断发展，国内外科研机构都在积极探索利用使用计算机辅助诊断技术实现骨龄检测，并在最近几年取得了很大进展。

目前，国内外已有一些基于X光手部图像的骨龄评估方法。Thodberg等[4]开发了一款基于主动外观模型的网络远程自动评估软件BoneXpert，由于该系统无须人工干预，目前此软件已在多个国家使用并得到验证。但该方法容易导致欠分割甚至无法分割。Spampinato等[5]提出了基于深度学习方法的骨龄检测模型，并在公开数据集上得到了平均差异约0.8年的良好结果。而现如今深度学习技术的不断发展，也势必会带动骨龄检测的进展。本研究提出了结合传统数字图像处理技术与深度学习技术，对手部X光片进行分析，最终实现骨龄的自动准确评估。

2 手掌轮廓提取方法

手部X光图像中手掌轮廓与背景之间的变化较小，移除背景并提取出手掌轮廓图像能有效减少噪声干扰，因此需要进行图像预处理操作。在图像预处理部分，共分为DICOM图像格式转化为BMP图像格式[6]、中值滤波去噪[7]、手部X光图像二值化操作即阈值处理、提取最大连通域等四个方面。其中DICOM数据转化为BMP图像是为了使其方便使用OpenCV進行处理;中值滤波可有效去除图像中可能存在的脉冲噪声;自动阈值处理可获得手部轮廓，方便后面提取手掌感兴趣区域;提取最大连通域的操作可获得手掌感兴趣区域。

具体研究方案如图1。

这里简要介绍一下图像阈值操作及最大连通域操作过程。

2.1 图像阈值操作

图像阈值操作[8]是数字图像处理中主要承担提取形状特征、边缘分析处理、移除背景等多个方面作用，它也是图像预处理的一种基本方法。在医学数据可视化中，图像阈值处理对于提取图像边界轮廓特征，从而根据边界特征配准得到原图的主要特征是至关重要的，阈值处理后的图片也可通过掩膜处理得到移除背景后的感兴趣区域。

图像阈值处理通常有三种，包括全局、局部、动态阈值法。全局阈值法是指使用一个阈值来对整张图像进行操作，当图像中某个像素对应的灰度值大于阈值时，将该像素灰度值设置为前景;反之则设置为背景。局部阈值法则根据图像中某一像素灰度值与邻域中其他像素的局部灰度特性来特定该像素的阈值。动态阈值法则是基于局部阈值，通过加入像素的坐标位置优化分割，适用于灰度不均匀的图像，但可能时间开销较大。

这里为了提高算法的时效性，预处理过程仅采用全局阈值法对手部X光图片进行操作。

由于图像存在与手部影像软组织较为接近的背景，且灰度呈现变化，若设置固定阈值进行二值化对部分图片会遗留大量背景，使得获取最大连通域时出现偏差。这里使用一个自动获取图像背景阈值的方法，公式如下：

2.2 提取最大连通域

连通域标记算法[9]通常用于提取图像中的前景区域。常用的连通域快速标记算法有：基于像素的连通域标记算法。通过遍历图像中的所有像素并在每行或每列中记录连续的等效标记对，重新标记原始图像。基于游程的连通域标记算法。通过逐行扫描图像，将每行中的连续白色像素序列定义为组，将等效序列分配给每个组，然后重新标记原始图像。这种方法在不增加存储空间的前提下保证了提取结果的准确性。基于轮廓的连通域标记算法。从下到上，从左到右遍历图像，标记每个新轮廓。标记所需的空间在这种实践中是最小的。

本文采用基于轮廓的连通域标记算法，针对每一个轮廓，在标记每一个轮廓之后计算其面积，即像素点数量，根据阈值操作处理结果，其中面积最大的连通域即为手掌感兴趣区域，如图4所示，即最大连通域提取结果。

在得到最大连通域的基础上，通过计算最大连通域的最小外接矩形。为使得手指部分包含完整，对外接矩形进行微调，即可得到最终的手掌感兴趣区域。如图5所示。

3 基于深度学习方法的骨龄回归分析

3.1 卷积神经网络

卷积神经网络是一种由输入层、多个隐藏层、输出层及特征学习部分组成的多层神经网络，包含有卷积层（Convolution Layer）、池化层（Pooling Layer）、全连接层（Fully Connected Layer）、激活器（Activation Function）、优化器（Optimization Function）、损失函数（Cost Function）等。卷积神经网络的目的是找到一个未知函数的近似值，它是由许多相互连接的神经元组成，神经元接收输入并生成输出与权重。在网络训练过程中，反向传播是一个不断更新偏差和权重的过程，而损失函数用来计算预测值与真实值之间的差距来判定是否需要对权重及偏差进行更新。激活函数根据需要将神经元的输入层映射到输出层，被激活的神经元会输出结果。

Inception网络是现今广受欢迎的卷积神经网络。卷积神经网络相比较于传统神经网络的深度和宽度都大幅增加，意味着它能提取到更多的特征用于分类。Inception同样也是通过增加模型的规模来保证它的性能。模型复杂度增加虽然可以让神经网络变得更深，但也会导致参数量大幅增加，同时算力成本也会指数型增加。模型往往会出现过拟合的情况，因此不能没有根據地通过增加模型的深度和宽度。于是，为了增加模型的深度，往往减少模型的宽度来进行的。另一种普遍应用的卷积神经网络VGG则将尺寸全部替换成3*3，一方面保证了模型的性能，另一方面也可以减少模型的宽度，事实证明这样能取得很好的效果。传统的深度神经网络中卷积层是由完全连接实现的，而Inception网络将其转变成稀疏连接，且根据生物神经元工作的实际特质，采用多个尺寸不一致的卷积核的堆叠，在不同的空间尺度上提取更丰富的特征，然后通过多层级联使得输出一致，这样网络在确保参数量的不增加的情况下，提升了网络的宽度，同时也增加了网络在多个尺度下的适应性。

Inception v3[10]对Inception模块又做了进一步改进。首先是对大卷积核进行分解。分解卷积核尺寸主要有两个办法，其一是将其分解为对称的小卷积核，其二为分解为不对称的卷积核。对于5*5的卷积核，Inception v3将其分成2个3*3的卷积核。同时对于n*n尺寸的卷积核，Inception v3将其分为1*n与n*1尺寸卷积核的堆叠，这种不对称方法是的参数大量减少，同时非线性层的增加，提高了模型的表达能力，似的网络能提取到更多的特征，同时处理空间特征的速度与数量都大幅增加。但这种分解方法在低维的特征图中表现不好，在高维的特征图中有较好的结果。

本文的骨干网络采用Xception网络，Xception[11]是对Inception v3的一种改进，主要思想是在Inception v3的基础上引入了深度可分卷积，进一步提高了模型的分类效果，同时模型的复杂度也没有增加。若将Inception v3的原始模块简化，仅保留包含3*3的卷积分支，再将1*1卷积进行拼接，再进一步增多3*3卷积的分支，使它与1*1卷积的输出通道数相等。此时每个3*3卷积仅作用于包含有一个通道的特征图上，这就是Xception的基本模块，即深度可分卷积模块。

通过卷积神经网络，对前面预处理过的带年龄标注手部X光平片进行训练分析，建立快速、准确、健壮性高的模型。该模块采用多种当前效果优良的深度学习分类模型进行多对比实验，实现实时骨龄评估。具体逻辑如图6所示：

3.2 数据集

本文采用的数据集来自2018年北美放射研究学会（RSNA Pediatric Boneage）公开的12611张手部X光平片，生理年龄区间为2至14岁。通过手掌轮廓提取方法对X光片中的手掌轮廓进行提取后，实验采用10000张作为训练集，2611张作为验证集。

3.3 实验结果与讨论

本文所采用的Xception网络结构是在基于Python的深度学习库TensorFlow中实现的。实验平台为HPZ840服务器，Tesla K40c和 Quadro K5200， CPU E5-2650 v3 2.30GHz，内存126G，操作系统是Ubuntu16.04。优化器选择adam函数，激活函数使用ReLU，损失使用平均绝对误差（Mean Absolute Error，MAE）。MAE为绝对误差的平均值，能更好地反映预测值误差的实际情况，其公式如下所示。

其中[hxi]为模型预测值，[yi]为样本标签值。

使用本研究提出的手掌轮廓提取方法及基于Xception的预测模型，最终得到的模型测试结果为MAE=7.6个月，即骨龄预测结果与骨龄真实值之间的误差为0.63岁，已优于17年Spampinato等提出的使用深度学习回归分析方法得到的0.8岁结果。

当使用未使用手掌轮廓提取方法去除背景数据进行训练时，模型训练时的验证结果为MAE=9.6个月，证明本实验采用的去背景预处理是行之有效的。

同时，与国内外骨龄自动化评估方法进行对比，通过对比可发现，同样是在12.6K大小的RSNA Pediatric Boneage数据集上进行测试，本研究提出的方法误差要远优于Lee等提出的结果。相对比于其他数据量较小的结果，本文的准确率也有所提高，证明了本研究提出算法的优越性。

4 结束语

本文提出了一种基于数字图像处理技术与深度学习技术对手部X光片进行骨龄计算机辅助诊断方法。通过传统的数字图像方法对手掌轮廓进行提取，而后采用基于Xception网络的卷积神经网络方法进行回归分析。使用去背景后的X光手部图像在Xception网络中进行骨龄评估模型训练，当使用MAE作为评价标准，误差为7.6个月，相比较于国内外研究成果已处于国际先进水平。未来期望结合对抗生成网络进一步扩增数据集，同时优化骨干网络，提高深度学习特征提取能力，开发出性能更优的骨龄自动化评估模型。

参考文献：

[1] 张绍岩，刘丽娟，张继业，等.RUS-CHN图谱骨龄评价法用于推测青少年年龄[J].中国法医学杂志，2009，24（4）：249-253.

[2] Greulich W W，Pyle S I，Todd T W.Radiographic atlas of skeletal development of the hand and wrist[M].Stanford University Press Stanford，1959.

[3] Tanner J M，Healy M J R，Goldstein H，et al.Assessment of skeletal maturity and prediction of adult height （TW3）[M].3rd ed.London：WB Saunders，2001：243-54.

[4] Thodberg H H，Kreiborg S，Juul A，et al.The BoneXpert method for automated determination of skeletal maturity[J].IEEE Transactions on Medical Imaging，2009，28（1）：52-66.

[5] Spampinato C，Palazzo S，Giordano D，et al.Deep learning for automated skeletal bone age assessment in X-ray images[J].Medical Image Analysis，2017（36）：41-51.

[6] 王成波，陳伟，谢兵，等.DICOM图像与BMP图像的转换研究[J].医疗卫生装备，2004（1）：13-14，17.

[7] Ko S J，Lee Y H.Center weighted Median filters and their applications to image enhancement[J].IEEE Transactions on Circuits and Systems，1991，38（9）：984-993.

[8] Otsu N.A threshold selection method from gray-level histograms[J].IEEE Transactions on Systems，Man，and Cybernetics，1979，9（1）：62-66.

[9] 高红波，王卫星.一种二值图像连通区域标记的新算法[J].计算机应用，2007（11）：2776-2777，2785.

[10] Szegedy C，Vanhoucke V，Ioffe S，et al.Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.June 27-30，2016，Las Vegas，NV，USA.IEEE，2016：2818-2826.

[11] Chollet F.Xception：deep learning with depthwise separable convolutions[C].2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR），2017：1800-1807.

[12] Lee J H，Kim K G.Applying deep learning in medical images：the case of bone age estimation[J].Healthcare Informatics Research，2018，24（1）：86-92.

【通联编辑：谢媛媛】