黄夏璇,黄 韬,袁师其,何宁霞,武文韬,吕 军
1. 暨南大学附属第一医院神经内科(广州 510630)
2. 暨南大学附属第一医院临床研究部(广州 510630)
3. 西安交通大学公共卫生学院(西安 710061)
近年来,基于深度学习的计算机视觉技术越来越多地应用于临床影像数据的分类和识别。在深度学习和机器学习领域,不论是数据还是模型都可进行一定的迁移,尤其是在某些应用场景下,如目标数据量较大但标注的数据样本较少时,机器可依靠模型的迁移捕捉到其他数据集中与目标数据集共享的参数信息,并将其迁移至目标数据集中,进而加强深度学习训练模型识别图像的能力[1]。迁移学习(transfer learning)作为一种机器学习方法,可将模型学习到的知识从源领域迁移至另一个目标领域,使得模型可以更好地获取目标领域的知识。迁移学习的方式包括基于样本的迁移、基于特征的迁移、基于模型的迁移以及基于关系的迁移四类。目前应用相对广泛的是通过源领域的数据和目标领域的数据空间模型对共同参数实现知识的迁移,即在已有的数据集中把训练好的数据集进行初始化,把结果迁移到需要学习的数据集中,并通过卷积神经网络(convolutional neural networks,CNN)提取图像特征(包括颜色或边缘等)进行训练,以达到提高识别图像准确率的目的[2]。MATLAB作为一款科学计算软件,拥有丰富的数据类型和结构、精良的图形可视化界面以及针对图像数据进行分析等的应用工具。相对于难以实现图像数据准确分析的传统计算机辅助诊断(computer-aided diagnosis,CAD)[3],基于传统机器学习方法的MATLAB迁移学习,更易对图像进行特征提取和自动化分类,从而为医学图像共性提取提供更好的平台。本研究以具体的图像数据为例,介绍如何使用MATLAB软件实现迁移学习。
本研究以MIMIC公共数据库中的MIMIC-CXR数据库为例,该数据库是由Johnson等于2019年1月发布的一个包含放射学报告的大型胸部X射线影像公开数据集,其不仅将DICOM的影像格式转换为 JPEG格式,还提取了文本报告中的重要信息并转换成结构化的标签形式,通过NLP算法从影像报告中提取了14个类别标签[4-6]。本研究选取胸腔积液资料组8 522名患者,其中男性4 477例(52.53%),女性4 045例(47.47%),每例患者均进行了至少一次的X线检查,共计获得不同检查时间的15 620张X线图像数据。为减小数据类别预测的偏差,以NegBio和CheXpert 两个开源工具从报告文本中得到的标签为依据,从中选取提示胸腔积液阳性(Pleural Effusion)和阴性(Normal)的X线图像数据各500张作为本研究的数据样本。
本研究所有实验均基于Ubuntu20.04位操作系统,针对CNN模型的训练过程,采用以MATLAB语言为主的编程环境,具体软件及硬件配置见表1。
表1 软硬件环境配置Table 1. Configuration of hardware and software environment
作为深度学习应用的主要算法,CNN是一种融合了卷积计算和深度结构的前馈神经网络[7]。相较于传统的机器学习方法,CNN可更好地提取图像特征,减少人工手动提取分类准确率低的不足[8]。目前使用较多的网络结构主要有AlexNet[9](8层)、VGGNet[10](16层)、GooleNet[11](22层)、ResNet[12](152~1000层),多数模型都是基于它们改进而来。随着CNN层数逐渐加深,模型性能和层数不断改进和完善,但也出现了训练误差增大的退化以及梯度随着连乘变得不稳定的梯度消失现象[13]。为此,ResNet模型利用残差网络引入恒等跳跃链接,提高前后两个残差块之间的信息流通,避免网络过深引起的退化及梯度消失问题,使训练网络随着深度的增加达到先减后增的趋势。因此,本研究以ResNet模型进行演示。表2展示了不同CNN典型模型的主要特点和优缺点对比[14]。
表2 CNN典型模型比较Table 2. Comparison of CNN typical models
本 研 究 使 用 MATLAB 2021a(MathWorks,Natick,MA)软件对图像进行预处理,操作流程为:①将所有数据集中的灰度图像转换为RGB图像;②将图片尺寸统一转换为224×224×3(ResNet适用的通道数);③读取全部数据集,得到标签胸腔积液阳性和阴性标签的数据各500张。
该阶段关键步骤在于改进网络结构:①读取原始ResNet网络模型,通过K折验证,将数据集拆分为10倍进行分析,即将数据集均分成10部分,将第一部分作为测试集,其余子集作为训练集,每次用不同的部分作为测试集重复训练模型,并计算模型的平均测试准确率作为验证结果,用于模型评估;②确定训练数据中需要分类的种类,创建新的网络层数,将新的网络层中的参数'Weight Learn Rate Factor'和'Bias Learn Rate Factor'分别设置为10;③为防止过拟合,创建softmax网络层更好地调整网络结构;④将批量训练和测试图像的大小调整为与输入层大小一致,将构建的网络在深度网络设计器显示可得到相对应的网络结构及其分析结果。
在ResNet 50网络模型构建完成后,对网络进行模型训练和参数设置,并用训练集对网络进行训练。根据训练结果进行微调,得到如下参数:学习率为1.00e-04,最小批次为25,最大训练回合数为64。并对数据进行增强,具体措施包括批量处理图像,以50%的机率随机对图像从水平和垂直方向上进行缩放、翻转、裁剪和平移,增加训练数据的多样性以及训练模型的识别和泛化能力。此次训练迭代次数为250次,训练完成时间为2min 38s,训练的准确和损失过程如图1所示。
图1 迭代次数250次的训练过程Figure 1. Training progress with 250 iterations
本研究使用的胸腔积液影像测试集和训练集呈均匀分布,阳性和阴性各500张,利用K折交叉验证的方法获得训练集和测试集。如图1所示,部分准确率曲线图在训练完成时达到80%,损失率则明显下降至20%以下。在迭代次数为250次的训练中最高准确率可达100%,耗时约2min 38s,训练时间与计算机性能密切相关。表3对比了不同迭代次数训练的结果,迭代次数较少的训练相对效果更理想,准确率高且耗时少。本研究还使用Grad-CAM代码生成热图,使模型提取的胸腔积液阳性标签X线图像中的重要特征区域可视化,以评估胸腔积液的阴性和阳性,并随机抽取部分预测结果进行验证,如图2和图3所示。
图2 胸腔积液的Grad-CAM和原X线胸片Figure2. Grad-CAM heatmaps source and X-ray chest radiograph of pleural effusion
图3 胸腔积液部分预测结果Figure 3. Some predicted results of pleural effusion
表3 不同迭代次数结果Table 3. Results of different iterations
混淆矩阵可以更好地衡量算法的性能,并且提供了精度和召回性能的角度,适用于本研究均匀分布的测试数据集,由迭代250次最佳训练结果绘制形成的混淆矩阵如图4所示。纵坐标以真实标签的角度预测分类结果,横坐标以分类器的角度预测分类结果。以纵坐标为例,在真实标签为阴性(Normal)的所有图像中,有457个图像被正确预测为阴性(Normal),43个图像被错误预测为阳性(Pleural Effusion),因此真实标签为阴性的图像中被正确预测的比例为91.4%,即该诊断性实验的特异度为91.4%。同理,在真实标签为阳性的图像中被正确预测的比例是84.8%,即本次实验的敏感度为84.8%。通过计算,绿色对角线下获得的全部真阳性和真阴性标签预测结果占所有图像样本的比例为88.1%,即本实验分类准确率(ACC)为88.1%。
图4 混淆矩阵Figure 4. The confusion matrix
本研究采用10折交叉验证评价分类模型的性能,使用曲线下面积(the area under the ROC curve,AUC)为评价指标[15],以假正类率(false positive rate,FPR)为横轴,真正类率(true positive rate,TPR)为纵轴,绘制得出ROC曲线。AUC 值越大,代表模型的预测结果和真实情况越接近,模型性能越好。本次模型训练获得的影像数据迁移学习预测结果的AUC值为93.53%(图5)。
图5 训练结果AUC图Figure 5. The AUC diagram of training results
胸腔积液作为临床上常见的胸膜病变,最常见的病因是结核和肿瘤。近年,随着肺癌发病率的逐年上升,恶性胸腔积液病例也日趋增多。由于胸腔积液发展迅速且持续存在,患者常因大量积液的压迫出现严重呼吸困难,甚至死亡,故早期诊断胸腔积液对患者的治疗和预后十分重要。本研究随机抽取MIMIC-CXR数据库中阳性、阴性胸腔积液影像数据各500例作为数据集,使用迁移学习方法,以ResNet模型为基础实现胸腔积液分类的早期识别。
数据集包含的大量胸腔积液影像具有肺叶与胸壁间的积液程度、密度增高影、纵隔移位和肋间隙增宽等特征,有助于在临床上快速诊断胸腔积液。本研究基于ResNet模型提取了上述特征,对胸腔积液原始图像进行重复多次的训练,并经过数据增强后得到了AUC为93.53%的结果,表明ResNet网络模型具有良好的性能。有研究也发现,利用ResNet网络模型与迁移学习的混合模式,可改善图像分类的准确性和鲁棒性[16]。
综上所述,基于模型的迁移学习方法实现了模型构建和数据训练的有效结合和增强,不仅优化了模型,避免了因标记样本过少可能导致的过拟合问题,且能得到较好的预测效果。因此,基于神经网络模型的医学影像训练迁移学习方法可为临床医生早期诊断胸腔积液提供一定的依据。
本研究存在一定局限,如实验训练时仅对胸腔积液进行了二分类,在图像处理上对同一病灶多个图像之间的相关性处理尚有不足,下一步可将二分类延伸至多分类多特征,实现对迁移学习的拓展和深入。