融合纹理增强层的轻量级智能骨骼图像分类器

2022-03-28 06:31:46郭子昇王吉芳
关键词:X光骨骼纹理

郭子昇,王吉芳

(北京信息科技大学 机电工程学院,北京 100192)

0 引言

骨骼疾病是人类五大常见疾病之一,困扰全球约15亿人,竞技体育、交通事故等都可能致使骨骼损伤,易损伤部位包括肱骨、手骨、腿骨、肩骨等。伴随“智慧骨科”概念的提出,基于人工智能和大数据技术的机器人辅助骨科疾病诊疗成为一种发展趋势。对不同骨骼区域的诊疗首先需要对骨骼X光片进行归类,训练一种智能化骨骼区域X光片图像分类器,可以减少人为操作误差,大大加快归类速度,也有助于提高骨骼疾病诊疗效果,为建立标准化诊疗奠定基础。

在计算机视觉、图像分类的研究中,已产生了一些基本模式,即从图像特征的提取到分类器的选择。传统的经典分类器有支持向量机(support vector machine,SVM)、高斯混合模型(Gaussian mixed model,GMM)、k邻近(k-nearest neighbor,k-NN)等[1]。

Yann LeCun[2]1998年提出了卷积神经网络(convolutional neural network,CNN),基于CNN的分类器是仿照人类脑神经网络的感知机理训练而成的深度学习分类器。深度学习是在人工神经网络基础上发展起来的新技术[3],其深度卷积网络端对端的模型结构直接关联输入与输出信息,可有效降低操作难度并取得显著效果[4],为智能分类器的设计提供了基础。Alex等提出的AlexNet网络减少了全连接层的过拟合,实现了高效卷积运算,但拓展性较差。牛津大学[5]提出VGGNet网络,其具有降低错误率、增强拓展性的优势,但网络结构较为固化,不易优化。Szegedy C.等[6]提出模块化的网络结构GoogLeNet,K.He 等[7]提出一种深度残差网络结构ResNet,这些结构易于修改和扩展,在不加大计算量的同时提高了网络性能。

在图像识别、分类的应用上,MobileNet 系列更具代表性,Howard等[8]设计了一种利用深度卷积构造的轻量级网络MobileNetV1,可以有效地在延迟和准确性之间权衡;Sandler M等[9]提出MobileNetV2网络,其引入倒残差结构,可适应不同尺寸的图像并在低精度计算下具有强鲁棒性;之后Andrew Howard[10]等提出了MobileNetV3网络,其增添了互补搜索技术组合,开展网络设计和自动搜索算法在互补利用方面的研究,以提高整体技术水平并增强计算能力。

现有的图像分类器在不同骨骼区域的智能化分类任务上面临许多难点,如骨骼影像中各组织结构之间分界线不清晰;骨骼影像分析比场景图像更复杂,其复杂纹理、细粒度图像识别等特征有别于自然图像特征;由于同一骨骼区域的人体摄像位置、姿势不同,导致骨骼成像形态各异等。针对骨骼影像的复杂情况,本文基于MobileV3 large网络建立了一个智能化骨骼图像分类器,首先对骨骼X光片进行纹理增强处理,然后集成MobileNet系列历代网络结构优势,采用深度可分离卷积代替传统卷积形式,有效利用互补搜索技术组合,同时引入基于轻量级网络的残差结构。所构建的分类器对骨骼图像纹理特征进行逐层的深度学习,鲁棒性强,泛化能力好;同时提高了网络性能,降低了数据成本。在MURA数据集上的训练测试表明,该分类器能够实现对人体不同骨骼区域的快速识别和精准分类。

1 骨骼图像X光片分类器设计

文献[10]对多种神经网络检测模型及其准确率进行了对比分析,由其可知MobileNetV3的分类性能最优。MobileNetV3 large作为MobileNetV3的最新版改进网络结构,其参数量更小,故本文将MobileNetV3 large网络应用至骨骼区域分类中。

1.1 纹理增强融合轻量级注意力机制

针对骨骼X光片具有复杂纹理、细粒度图像识别等特征、各组织结构之间分界线不清晰等问题,为增强数据集质量,对其进行局部二值模式(local binary pattern,LBP)旋转不变纹理增强处理,然后充分利用MobileNetV3 large中轻量级注意力机制(efficient attention module,EAM)的优点,使网络对图像的增强区域纹理特征识别更富有针对性,促使纹理增强特征被EAM进一步深度聚焦,并缩减图片像素值,使训练、预测速度加快,本文应用两种LBP算子对骨骼影像集进行纹理增强。

圆形LBP算子为

(1)

旋转不变LBP算子为

(2)

式中:p为圆形域P个采样点中第p个采样点;i(c)为中心像素灰度值;i(p)为圆形边界像素的第p个灰度值。

为了使分类器性能和输入数据的复杂度之间取得平衡,配合纹理增强引入EAM可以调整每个通道的权重,可使网络在复杂度不变的情况下性能有较大的提升[11]。

1.2 深度可分离卷积结构

MobileNet网络训练速度快,为了减少网络参数,采用深度可分离卷积结构(depthwise separable convolution,Dwise Conv),如图1所示。

图1 深度可分离卷积结构

Dwise Conv为分层卷积,在其之后都会接一个1×1的卷积进行通道处理,同时设置一平均池化层为全连接层。将一个完整的卷积运算分解为深度切除卷积过滤与逐点卷积过滤两步进行。结构所需参数为:16(输入通道数)×1×1(卷积核大小)×32(输出通道数)+16(输入通道数)×3×3(内核大小)=656个。

1.3 MobileNetV3 large网络及其结构改进

基于MobileNetV3 large网络的分类器融合了MobileNetV1的深度可分离卷积,在输入1×1卷积进行升维后,再进行3×3深度可分离卷积;融合了MobileNetV2的具有线性瓶颈的逆残差结构,如图2所示,先利用1×1卷积进行升维度,再进行逆残差操作,并加入由池化和全连接层构成的注意力机制;在计算和参数量受限的前提下,又融合了MobileNetV3的互补搜索技术组合,有效利用平台感知网络附属存储(platform-aware NAS)搜索网络的各个模块,再使用Net Adapt对各个模块的网络层进行微调,利用其对每层的核数量进行优化,达到模块级搜索。

图2 Bneck结构

利用h-swish代替swish函数,进一步减少运算量并提高性能。h-swish激活函数为

(3)

式中:x为输入值;ReLU6为限制最大输出为6的ReLU激活函数。

瓶颈残差结构融合深度可分离卷积结合h-swish激活函数的集成改进网络,既可减少骨骼分类模型参数,降低计算量,又可增强梯度传播,减少推理期间所需的占用内存,有效解决网络训练中梯度消失、爆炸等问题。

2 实验与分析

2.1 实验指标

在图像分类中,准确率、损失率、错误率、灵敏度等为常见评价指标,对特定分类器而言需要针对性地提高某些指标。在骨骼区域的分类识别中,平均准确率、损失率和计算速度显得尤为重要,本文以其为评判标准,验证模型针对骨骼区域的分类性能。

2.2 实验环境

本实验平台搭建在x64处理器的Windows10操作系统,仿真环境采用tensorflow2.1.0,编程语言为 Python3.7,平台为 PyCharm2019.3.3,CPU使用Intel(R)Core(TM)i7-9750H,GPU使用Inter(R)UHD Graphics 630,运行内存为8 GB。

2.3 数据集

本文采用斯坦福大学于2018年发布的世界最大骨X光片数据集MURA进行实验。该数据集的共享促使骨骼诊疗领域向机器智能和诊疗标准化的方向迈进[12],其收集了近13 000名不同年龄性别人类的40 895张骨骼X光片图像[13],如图3所示。

图3 MURA数据集构成与分布

MURA包含了肘、手指、前臂、手掌、肱骨、肩膀、手腕等部位的X光片,图中0~6即依次对应这7类骨骼X光片图像,其中腕部图像最多,肱骨图像最少,共含有训练集图片36 808张,测试集图片3 197张,其中7类X光片图像示例如图4所示。

图4 数据集图像示例

2.4 实验过程

2.4.1 数据处理与标签

对数据集依次进行LBP与旋转不变LBP纹理增强处理,处理后各类图像如图5所示。建立测试集与训练集的文件,对其7类骨骼图片进行csv文件自动归类并给予标签处理,本实验标签为0-肘、1-手指、2-前臂、3-手掌、4-肱骨、5-肩膀、6-手腕。

图5 纹理增强处理

2.4.2 分类器训练及预测

本文使用所构建的改进MobileNetV3 large分类器,对纹理增强处理后的骨骼X光片数据集分别进行了20轮和50轮的训练,每次按顺序将8张图片喂入网络,类别数为7,调整图片的宽高皆为224,训练图片采用三通道;为了增强模型的泛化能力,使用rescale对图片的每个像素值均乘上1/255的缩放因子;为了避免神经元失活,把像素的值放缩到0和1之间进一步使模型收敛。多分类实验在“flow_from_directory()”加载图片数据流时,将参数“class_mode”设为“categorical”,初始学习率设为0.000 1,并配置optimizers.Adam优化器,使其动态地减小学习率,以实现效率和效果兼得。结合fit_generator进行训练以节约内存。

遍历预测集列表图片并调整图片宽高皆为224,使其符合喂入网络结构的要求,然后对图片转载成numpy类型数据,并进行归一化处理,最后调用模型,把转载后的数据放入模型,得到预测的结果。结果显示20轮的训练平均准确率为94.406%,50轮的训练平均准确率可达96.942%。

2.5 结果分析与优化

2.5.1 结果可视化

Tensorboard为谷歌所开发的Tensorflow内置的神经网络可视化工具[14],它可以记录图像的曲线平滑程度以及水平轴的变化情况,通过它观察每个epoch的梯度值,可以实时检测每次循环后正确率以及损失率的变化走势,以此分析出权值更新方向并判断其是否符合正常训练规律[15],进而为改进MobileNetV3 large网络学习率等参数做出相应设置和调整,对分类器进行调优。

在tf.summary模块置入相关变量,生成训练的各分量可视化数据Log文件[16]。由实验可知,损失率的递减表明h-swish激活函数能够在每一步有效地筛选训练结果,并加速收敛,训练的准确率、损失率可视化图如图6所示。

从图6(a)可以看出,准确率随迭代次数的增加不断增长,增加过程中虽然存在振荡波动,但整体持续增长趋势非常明显;从图6(b)可以看出,训练10次以内的损失率随迭代次数增加不断下降,但当训练10次后,损失率转而增加,表明产生了过拟合现象,即拟合了训练数据中的噪声和训练样例中没有代表性的特征,导致扩大了训练过程中的损失数据,不利于训练的准确性,需要减少过拟合现象以此降低损失。

图6 准确率与损失率走势

2.5.2 迭代次数设置

样本过少、训练集和测试集特征差异过大、样本里杂质数据干扰过大、权值学习迭代次数过多等都是模型过拟合的常见原因。解决过拟合的方案大致分4类,调小模型结构复杂度,缩小图像宽度和减小深度,使其适合目标训练集的数量级;正则化处理,引入额外新信息;扩充训练集,增加模型学习的样本数量;减少训练次数,寻找最佳迭代次数。

经过数据集处理,图像宽度深度已经优化,改进的轻量级网络MobileNet-V3 large参数量较小,结构也并不复杂;经过纹理增强处理后的数据集,对骨骼X光片图像的训练更加富有针对性,增强优化处理的数据集MURA特征分布一致,其特征信息数量级已达到最佳状态,无需引入额外信息;此外,原始数据集划分的训练集与测试集的文件可靠性强,样本图像数量充足,无需扩充训练集;但由于样本里的杂质数据干扰较大,训练次数过多,导致模型过分学习了错误的特征,忽略了真实的网络输入输出映射关系,拟合了训练数据中的噪声和训练样例中的无关特征。故判断过拟合现象由于权值学习的迭代次数过多导致,需要对模型进行迭代次数的寻优,以此把损失率控制到最小。

为进一步验证训练10次以内的损失率随迭代次数增加不断下降,设置训练次数为10,进行重新训练。由训练结果可知,在训练次数10以内,损失率随着迭代次数的增加而显著降低,反映出经过优化后的分类器具有逐渐降低的损失率与优秀的分类性能。

2.5.3 改进分类器综合性能讨论

最终使用测试集对骨骼区域分类验证,显示最高准确率为99.9%,最低准确率为87.3%,平均准确率为96.9%,总体计算时间快,分类精度高,骨骼区域分类准确率如表1所示。

表1 分类器对各骨骼区域分类准确率

使用原始网络MobileNetV3在MURA数据集上进行训练与测试,显示平均准确率仅为91.8%。表明加入旋转不变纹理增强处理的数据集,并引入残差结构融合轻量级注意力机制的改进分类器的分类精度有大幅提高。

从表1可以看出,本文分类器对于手指部位的分类精度稍低。由于训练集中X光片手指形态各异,不利于逐层学习的网络模型学习,在骨骼影像采集过程中,手指样例的弯曲、不同数量手指的拍摄、样例手指间的特征差异过大等都是影响网络训练准确度的重要方面。前臂、手腕与肘部的识别准确率最高,这是由于该部位特征较为明显,并且拥有较大的样本量,其中前臂的样本量较少,但准确率极高,可见前臂部位特征最为明显,更加适合逐层学习的网络模型训练。由此可见数据集的良好采集对于神经网络的训练及其性能评测具有至关重要的作用。

3 结束语

本文基于MobileNetV3 large网络建立了一个骨骼区域X光片智能分类器,对骨骼X光片进行旋转不变纹理增强处理,并集成MobileNet系列历代网络优势,然后利用Tensorboard对训练次数、训练集与测试集的相对值及计算时间等进行了可视化分析,从而对模型分类效果进行验证,并有针对性地优化分类器方案,完善后的分类器在MURA测试集中的平均准确率可高达96.9%,性能已接近影像科专家的人工判断结果,说明分类器可精确识别各区域骨骼X光片并进行分类。

本文提出的分类器设计方案精度高,但距离完全智能化的诊疗还有提升空间,一方面,深度学习算法的网络模型是数据驱动的模型,其数据样本的数量与质量直接影响模型分类器性能,而医学图像获取难、标注难、采集条件差,导致其数据集规模较小;另一方面,目前通用的深度学习网络模型大都是针对自然图像处理的模型,而医学图像单通道、小对比度、复杂纹理特征等特点使得较多通用模型难以达到理想效果。因此,建立共享的医学图像数据库才能提升深度学习在医学图像分析中的巨大潜力;同时,基于通用模型,改进并构建具有针对性的医学图像领域专用模型的分类器,是医疗领域智能化的重要过程。

猜你喜欢
X光骨骼纹理
做家务的女性骨骼更强壮
中老年保健(2021年5期)2021-12-02 15:48:21
三减三健全民行动——健康骨骼
中老年保健(2021年5期)2021-08-24 07:06:28
仿生武器大揭秘
基于BM3D的复杂纹理区域图像去噪
软件(2020年3期)2020-04-20 01:45:18
给动物拍张X光片
人眼X光
快乐语文(2019年9期)2019-06-22 10:00:38
使用纹理叠加添加艺术画特效
TEXTURE ON TEXTURE质地上的纹理
Coco薇(2017年8期)2017-08-03 15:23:38
骨骼和肌肉
小布老虎(2017年1期)2017-07-18 10:57:27
还在喂奶,能照X光吗?
妈妈宝宝(2017年2期)2017-02-21 01:21:28