孙芳芳,张 玲,梁乐平
(空军军医大学第二附属医院,西安 710038)
甲状腺结节是指甲状腺内出现一个或多个组织结构异常的团块,是最常见的结节性病变之一[1]。超声成像检查具有无创、低成本、无电离辐射、可实时成像等特点,被广泛用于检测和诊断甲状腺疾病,为临床早期诊疗方式的选择提供了很大的帮助。因此,深入了解甲状腺结节的超声图像组学特征,有利于提高此类疾病的诊疗水平和效果[2]。
由于超声图像存在对比度低、灰度不均匀、斑点噪声较严重、边缘模糊等缺陷,并且不同的检测设备和使用习惯等因素也会造成误差,导致超声诊断结果需要依赖医生经验和主观判断得出。利用计算机辅助诊断可有效降低对医生经验的依赖,提高诊断准确性[3],尤其是随着人工智能技术的发展,深度学习辅助诊断发挥了不可替代的作用[4-6]。深度学习通过多层神经网络,可以从医学图像数据中自动学习和提取隐含的图像特征,用于临床诊断和预测。深度卷积神经网络(convolutional neural network, CNN)通过引入卷积层和池化层可以压缩图像特征,减少参数数量,提高学习效率,是医学图像分析方面使用最广泛的模型[7-8]。但深度CNN是监督学习模型,要求标记大量训练样本数据,而在医学影像领域要获取大规模的训练样本数据集比较困难。针对该问题,可以采用迁移学习的方法,借助由自然图像数据集预训练完毕的深层网络模型,对医学图像数据进行特征提取[9-10]。
目前,采用深度学习方法检测和分析甲状腺结节超声图像的研究,主要集中在对结节良、恶性的分类与识别和结节部分图像分割等方面[11]。在此,主要研究对结节区域进行自动定位的方法。该方法不仅可为结节图像分割和特征提取提供有效支撑,同时也是基于图像诊疗的前提[12]。
在深度学习中,目标定位可以被定义为一个包围盒回归任务,其核心思想是通过神经网络直接学习将包围盒映射到其指定目标。本研究的包围盒指在训练图像中对甲状腺结节区域进行标注的矩形框。基于迁移学习的方法,本研究利用Xception、VGG-19和Resnet50三种深度卷积神经网络模型,提取甲状腺超声图像的隐含特征,然后采用已进行包围盒标注的超声图像对自定义网络进行训练,从而实现超声图像甲状腺结节的自动定位,有效提高医生的工作效率和检测精度。
迁移学习是将一个数据库中学习到的模型、参数运用到另一个场景中,两个场景应该是相似的领域,并且具有相似的任务。Keras有几个表现很好的CNN模型,这些模型通过特征提取或者微调等迁移学习方法,对ImageNet以外的数据集有很强的泛化能力。因此,利用在大规模图像集上训练完毕的VGG19、Xception和Resnet50预训练神经网络模型,采用迁移学习的方法提取甲状腺超声图像特征,将预训练网络的输出层替换为自定义网络,然后采用监督学习算法,利用放射科医生已进行包围盒信息标记的数据集对自定义网络进行训练,得到优化的神经网络结构,实现对甲状腺结节的自动定位。
VGG19网络包含16个卷积层、5个最大池化层、3个全连接层和1个输出层,在卷积层中每个卷积核大小都是3*3。Relu激活函数的最大特点是采用几个连续的小卷积核代替较大的卷积核,从而增加网络深度以确保学习更复杂的模式[13]。Xception网络引入了深度可分卷积,即先在每个特征图上进行空间卷积,再对每个特征点用1*1卷积来学习不同通道的特征,该设计在不增加网络复杂度的同时,提高了精度[14]。Resnet50网络中包含49 个卷积层和1 个全连接层,其使用深度残差网络,有效地解决了梯度消失和梯度爆炸的问题[15]。以上模型主要用于图像分类,其输出层为全连接层加上softmax以判断目标类别。本研究的目的是目标定位,即完成回归任务输出四个数字标记包围盒位置。需采用自定义网络对预训练模型进行修改,因此,网络会尝试将包围盒坐标“回归”到图像上,并根据对预定义的目标变量(数据集中的坐标集)的拟合来预测它们。
本研究基于迁移学习的网络模型在预训练模型的基础上,保留训练好的模型卷积层的参数,只去掉最后的全连接层,并在卷积层之后加入参数优化层。具体过程如下:
首先,Xception、VGG19和Resnet50被加载作为基础图层,其输入图像尺寸分别为(299,299,3)、(224,224,3)和(224,224,3),读取方式为RGB模式。其次,在预训练模型的输出端添加一个平坦层,提取包围盒坐标。然后, 添加丢弃率为0.5的dropout层,以降低该模型的计算量。 最后,添加两个全连接层,将输出维度降低到64和4,以对应于包围盒坐标的四个点。全连接层采用线性激活函数,网络结构见图1。将超声图像输入该网络可以对其进行训练,此时不再训练卷积神经网络,而仅训练自定义的输出网络并将卷积层的权重和内核冻结,由于这些卷积层通过训练已经能够识别图像的抽象特征,因此节省了大量的时间。
图1 基于迁移学习的甲状腺结节自动定位框架
本研究使用文献[16]中的数据集,甲状腺超声扫描的RGB图像大小为315×560和360×560像素。每一例均有原始超声图像和记录各种信息的XML文件,且包含由医生标注的包围盒坐标信息。在有监督训练中,XML信息一并写入。本研究使用了294张来自该数据集的原始图像,由于数据规模有限,为提高网络模型的泛化能力,防止过拟合,对数据集进行了数据增广。采取表1所示的图像增广方式,最终的增广数据集包括3 234张图像(294张原始图像和2 940张增广图像)。训练集、测试集和验证集的比例设置为60:20:20(分别有1 940,647和647张图片)。图2为其中一个原始图像的样本经数据增广后的效果对比。
表1 图像增广方式
图2 预先标记包围盒信息的超声图像和增广图像
实验的损失函数为均方误差(mean square error,MSE),采用批量训练方法,batch size设为20,优化方法为Adam。在性能指标中设置交并比(intersection over union, IOU),IOU指算法预测的包围盒和真实包围盒交集的面积除以它们并集的面积,取值为[0,1],交并比反映了算法预测的包围盒和真实包围盒的接近程度,交并比越大,两个包围盒的重叠程度越高。此外,在实验中基于图像尺寸将所有的坐标值进行归一化,从而使其范围被限制在0和1之间。
本研究中神经网络的训练和测试采用基于TensorFlow的keras框架。由于计算量很大,本研究使用googlecolab服务所提供的GPU资源。为客观地比较三种网络性能,实验过程中训练和测试环境均保证一致性。
训练过程持续25个epoch,在每个epoch 结束后,如模型损失得到改善,则保存模型权重。本研究基于Xception、VGG19和Rsenet50预训练模型的结节定位方法分别被表示为Xception-NLM、VGG19-NLM和Resnet50-NLM方法。Xception-NLM、VGG19-NLM和Resnet50-NLM这三种方法的训练过程图,见图3-图5。图中Training和 Validation曲线分别代表训练和验证的MSE损失和IOU性能随着迭代次数的变化。
图3 Xception-NLM训练过程图
图4 VGG19-NLM训练过程图
图5 Resnet50-NLM训练过程图
由图可知,三个模型的训练和验证MSE损失经过 2 次迭代后,接近收敛到一个较低水平。三个模型的IOU在迭代15次之后都趋于收敛到约80%的稳定性能,且Resnet50-NLM方法的IOU性能收敛较快。而验证集的IOU性能略优于训练集,为过度拟合的表现,是使用drop层的结果。采用训练好的模型对测试集进行测试,结果见图6,可以看出Resnet50-NLM方法的MSE损失和IOU性能是最优的。
图6 测试集MSE损失和IOU性能对比
表2 模型训练耗时(计算一次迭代)
表3 在测试集上的运行平均时间(647张图像)
三种方法的模型训练消耗时间和在测试集上的平均运行时间见表2和表3。可以看出,Resnet50-NLM方法的训练耗时最短,在测试集上的运行时间稍长。因此,Resnet50-NLM方法的综合性能优于其它两种方法,是拟合较好的模型。图7为采用不同方法对测试集进行结节位置预测的最好输出结果,可以看出,基于本研究所提迁移学习的方法可以有效地对甲状腺结节区域进行自动定位。
使用机器学习方法的优势在于可以识别由于图像质量、错误等原因而被放射科医生忽略的关键区域,提高了检测效率。本研究建立了一种基于迁移学习的甲状腺超声图像结节定位方法,利用带有标注信息的超声图像对网络进行训练,从而实现对结节的高效率定位。本方法的检测效率还有待提高,以达到临床应用效果。在后续工作中,需增加数据库的样本量,对模型的超参数进行优化,并对不同预训练模型的结果进行融合,以提高定位精度。