余美慧 袁 泉 曾书娥 程 慧 李 楠 叶华容
2020年全球癌症统计数据显示乳腺癌已成为威胁女性健康的首位高发癌症[1], 精准诊断对改善患者预后和降低死亡率至关重要[2]。超声具有操作简便、经济、无辐射、无创等优势, 是目前临床筛查乳腺癌的首选影像学检查方法[3]。然而, 超声医师的工作经验、专业水平等主观因素, 以及超声仪器、诊疗环境等客观因素均可能影响诊断准确性。近年来, 深度学习因其在图像识别和人工智能决策中的优异表现而受到广泛关注, 其可以自动对复杂的医学图像(如超声图像)特征进行定量评估, 提取有诊断价值的信息, 并将分析结果作为第二意见或决策支持提供给临床医师[4], 具有客观、可重复性等特点。迁移学习和卷积神经网络(convolutional neural networks, CNN)模型是目前医学领域最有效的深度学习技术, 已被证实优于传统方法[5]。基于此, 本研究旨在探讨基于超声图像的迁移学习模型在乳腺肿块良恶性鉴别诊断中的应用价值。
1.患者纳入情况:收集2018年5月至2021年3月我院收治的行超声检查、手术或穿刺活检的乳腺肿块患者, 均为女性。纳入标准:①肿块经病理组织学确诊;②恶性肿块经病理证实为原发性乳腺癌;③可获得标准的术前超声检查图像;④术前未行相关放疗、化疗或放化疗。排除标准:①超声图像质量差, 无原始格式;②术前行相关治疗。最终纳入300例患者, 年龄19~79岁, 平均(46.77±12.41)岁;其中良性144例(146个肿块), 恶性156例(158个肿块)。本研究为回顾性研究, 经武汉科技大学附属华润武钢总医院伦理委员会批准, 免除了书面知情同意的要求。
2.乳腺超声数据集情况:300例患者共582张超声图像(良性304张, 恶性278张)随机分为训练集和测试集, 训练集中良性患者96例(98个肿块, 256张图像), 恶性患者104例(106个肿块, 226张图像);测试集中良性患者48例(48个肿块, 48张图像), 恶性患者52例(52个肿块, 52张图像)。训练阶段最多提取同一肿块的4个不同截面图像和同一患者的2个肿块, 随机分配并使用训练集中200例患者204个肿块图像;测试阶段仅提取测试集同一患者一个肿块的一张超声图像。
3.乳腺X线摄影筛查数字数据库的更新和标准化版本(CBIS-DDSM)数据集:CBIS-DDSM[6]是乳腺X线摄影筛查数字数据库的更新和标准化版本, 共包含1590张图像, 其中良性肿块图像845张, 恶性肿块图像745张。将此数据集中70%的样本作为训练集, 30%的样本作为测试集, 以增强模型在超声数据集上的表现力, 并对模型进行微调和优化。
1.乳腺超声图像采集:使用Philips EPIQ 7C彩色多普勒超声诊断仪, 线阵探头, 频率3~12 MHz。受检者取仰卧位, 双臂外展, 充分暴露乳房, 探头置于乳房表面, 于平静呼吸状态下以乳头为中心行放射状全面扫查, 二维超声重点扫查病灶区域, 根据病灶位置、大小及回声适当调整深度、焦点位置和增益, 存储肿块最大径超声图像。
2.图像处理与数据增强:在完全保留乳腺病变区域的前提下, 对图像进行人工裁剪预处理, 具体操作如下:①从每张图像中裁剪出矩形视图, 删除包含无关内容的区域;②从矩形视图的左、中、右或上、中、下正方形区域裁剪3个块, 选择包括肿块在内的最合适的正方形视图;③在不改变纵横比的情况下, 重新缩放裁剪后的图片尺寸为256×256(像素), 见图1。由于数据集中的训练数据量有限, 训练过程中对图像进行翻转、旋转、平移、对比度增强等数据增强操作, 人为地将训练图像数据集扩充为其原始数量的4倍。
图1 人工裁剪预处理后的乳腺肿块超声图像
3.CNN模型选择:本研究选取了3种具有代表性的深度CNN模型, 即VGG-16、Inception-v3和ResNet-50。
4.迁移学习方法:使用ImageNet数据集预训练网络作为特征提取器, 即从头开始学习特征, 然后将训练模型参数迁移至3种CNN模型以对其进行初始化。第1次迁移学习利用CBIS-DDSM数据集中良恶性乳腺肿块X线图像对3种CNN模型进行训练优化并微调卷积层参数;第2次迁移学习使用乳腺超声数据集中随机挑选的训练集超声图像对3种CNN模型进行二次微调, 得到最优的模型参数, 并在测试集中输出最终分类结果。CNN模型迁移学习流程图见图2。
图2 CNN迁移学习流程图
5.模型训练和测试:本研究选取随机梯度下降为迁移学习的优化函数, 损失函数为交叉熵损失函数。为了训练网络, 每个Batch包含16张图像, 初始学习率设置为0.0001。最多训练200个epoch, 当10个epoch的验证误差不减少时, 训练提前结束。最后选择验证损失最低的模型用来测试。
应用SPSS 26.0统计软件, 计量资料以±s表示, 两组比较采用t检验;计数资料以例或率表示, 两组比较采用χ2检验。以病理结果为金标准, 绘制受试者工作特征(ROC)曲线分析迁移学习后3种模型鉴别诊断乳腺肿块良恶性的效能, 曲线下面积(AUC)比较行Z检验。P<0.05为差异有统计学意义。
良、恶性乳腺肿块患者平均年龄分别为(41.27±11.64)岁、(51.84±10.86)岁, 肿块平均最大径分别为(2.03±1.53)cm、(2.55±1.22)cm, 差异均有统计学意义(均P<0.001)。训练集和测试集患者平均年龄分别为(46.66±13.05)岁、(46.99±11.06)岁, 肿块平均最大径分别为(2.33±1.49)cm、(2.25±1.20)cm, 差异均无统计学意义。
未迁移与迁移学习后3种模型鉴别诊断乳腺肿块良恶性的准确率、敏感性、特异性、精准率、F1分数、约登指数见表1。
表1 未迁移与迁移学习后3种模型对乳腺肿块良恶性的鉴别诊断效能
1.第1次迁移学习与未迁移学习比较:3种模型第1次迁移学习后鉴别诊断乳腺肿块良恶性的准确率、敏感性、特异性、精准率、F1分数及约登指数均高于未迁移, 差异均有统计学意义(均P<0.05)。
2.第2次迁移学习与第1次迁移学习比较:3种模型第2次迁移学习后鉴别诊断乳腺肿块良恶性的准确率、敏感性、特异性、精准率、F1分数及约登指数均高于第1次迁移学习, 差异均有统计学意义(均P<0.05)。
ROC曲 线 分 析 显 示, VGG-16、Inception-v3、ResNet-50第2次迁移学习后鉴别诊断乳腺肿块良恶性的AUC分别为0.841(95%可信区间0.759~0.916)、0.865(95%可信区间0.756~0.946)、0.915(95%可信区间0.869~0.949)。基于ResNet-50建立的迁移学习模型鉴别诊断乳腺肿块良恶性的AUC高于其他两种模型, 差异均有统计学意义(均P<0.05)。见图3。
图3 第2次迁移学习后3种模型鉴别诊断乳腺肿块良恶性的ROC曲线图
近年来, 深度学习在乳腺疾病诊断中的研究越来越多, 但多是应用传统机器学习通过手动勾画感兴趣区域进行纹理分析或是基于深度学习的乳腺钼靶X线诊断, 而应用两次迁移学习鉴别诊断乳腺肿块良恶性的报道较少。基于此, 本研究采用深度学习的方法分别比较两次迁移学习后3种CNN模型(VGG-16、Inception-v3、ResNet-50)对乳腺肿块良恶性的鉴别诊断效能, 探讨基于超声图像的迁移学习模型在乳腺肿块良恶性鉴别诊断中的价值。
在基于深度学习的图像分类问题中, 数据是模型的根本和基础[7], 虽然可对数据进行增强处理, 但用于训练网络的样本仍然较少, 这可能会增加出现过拟合、模型泛化能力差等问题的几率, 导致在乳腺肿块良恶性鉴别诊断中无法获得良好效果。迁移学习是深度学习中一种新的学习方式, 其可在一定程度上缓解数据有限的问题, 解决医学图像分析中由于数据集较小导致模型不准确的问题[8]。Byra等[9]先在ImageNet数据集上对VGG19、Inception-v3及Inception ResNet-v2 3种模型进行预训练, 经过迁移学习后对149例良性和82例恶性乳腺肿块的超声图像进行分类, 其诊断乳腺肿块良恶性的AUC分别为0.858、0.829及0.860, 表明基于超声图像的迁移学习在鉴别诊断乳腺肿块良恶性中具有较好价值。Hadad等[10]基于乳房X线摄影图像训练了一个网络模型, 直接迁移至乳腺MRI数据集上并对其进行微调, 分析3种CNN模型在乳腺MRI图像病变分类中的表现, 结果表明在缺乏足够训练数据的情况下, 乳腺X线摄影和乳腺MRI之间的跨模态迁移学习可以显著提高诊断效能。本研究通过VGG-16、Inception-v3、ResNet-50 3种模型实现乳腺X线摄影和乳腺超声之间的跨模态迁移学习, 结果显示迁移学习后3种CNN模型对乳腺肿块良恶性的鉴别诊断效能均有所提高, 第1次迁移学习与未迁移学习及第2次迁移学习与第1次迁移学习比较, 准确率、敏感性、特异性均明显提高, 差异均有统计学意义(均P<0.05), 表明迁移学习算法能有效地在相似图像之间进行信息共享和迁移。此外, 在第1次迁移的基础上, 第2次迁移借助少量数据就能达到预期较好的诊断效果, 表明两次迁移学习较一次迁移学习效果更佳, 更适合用于小数据集的乳腺肿块超声图像良恶性鉴别诊断, 与Hodad等[10]研究结论一致。
本研究中基于ResNet-50建立的第2次迁移学习模型鉴别诊断乳腺肿块良恶性的准确率为88.0%, 敏感性为82.7%, 特异性为93.8%, AUC为0.915(95%可信区间0.869~0.949), 较VGG-16、Inception-v3模型具有更优的诊断价值, 分析原因可能为ResNet网络创新性地引入残差网络, 改善了由于网络深度加深而产生的学习效率降低和准确率无法有效提升的问题[11]。但Zhang等[12]研究显示, Inception-v3模型在测试集超声图像中鉴别诊断乳腺肿块良恶性的AUC为0.905, 相较于ResNet-50显示出更高的诊断准确率, 这可能是由训练数据量差异引起的。
年龄是罹患乳腺癌的高危因素之一, 本研究中恶性乳腺肿块患者平均年龄为(51.84±10.86)岁, 与良性乳腺肿块患者平均年龄[(41.27±11.64)岁]比较差异有统计学意义(P<0.05), 与以往研究[13-14]显示我国女性乳腺癌的发病高峰年龄为45~54岁基本一致。乳腺为多种内分泌激素作用的靶器官, 其中雌激素与乳腺癌的发病有直接关系, 分析其原因可能与年龄增长后的内分泌失调、卵巢功能紊乱及绝经后女性雌激素水平下降有关[15]。
综上所述, 基于超声图像的迁移学习模型能够提高乳腺肿块良恶性的鉴别诊断效能, 减少由于样本数据量少对基于深度卷积特征的乳腺超声图像应用产生的影响, 可为临床医师提供决策参考, 具有较高的临床应用价值。但本研究为单中心、回顾性研究, 纳入样本量有限, 图像来源于不同超声医师, 且缺乏独立的外部测试集以进一步验证模型的诊断效能, 未来仍需开展多中心、大样本研究进一步验证试验结果。