严丹丹,饶 洁,尹修恒,鞠仙莉,黄奥玲,陈正卓,夏良兵,袁静萍
甲状腺癌是常见的恶性肿瘤,发病率较高。根据甲状腺癌的病理组织学类型,可分为乳头状癌、滤泡状癌、髓样癌和未分化癌四种,其中乳头状癌的发病率最高(约占80%)[1]。尽管大多数甲状腺癌患者术后预后较好,但仍有10%患者死于复发或转移[1]。术中冷冻HE切片病理诊断是甲状腺疾病术中病理诊断的重要手段,病理医师需在30 min内对病变的类型及性质进行判断,其病理诊断结果对指导病灶切除范围和制定精确的手术治疗方案具有重要意义。在以往的术中冷冻HE切片病理诊断过程中,由于诊断时间限制和(或)诊断经验不足,甲状腺恶性肿瘤存在漏诊、误诊的可能。
随着人工智能(artificial intelligence, AI)的发展,一些学者将深度学习卷积神经网络技术应用于肺癌、前列腺癌、乳腺癌和胃癌的数字病理切片图像分析中,已经证明深度学习是开发病理辅助诊断模型的有力工具[2]。深度迁移学习是一种重要的机器学习技术,它可以在数据缺乏或时间紧迫等情况下利用已有的知识和经验来解决建模问题。深度迁移学习通常将已建立的模型定义为初始模型,使用另一个领域已标注的数据对其进行二次训练,从而实现“迁移”学习的效果。通过将一个领域中已经学习到的知识应用于另一个领域,深度迁移学习可以加速模型的训练、提高模型的性能和泛化能力[3]。本文采用乳腺疾病术中冷冻HE切片病理图像诊断模型作为初始值,使用少量甲状腺术中冷冻HE切片病理标注数据进行迁移学习。通过比较从零学习和迁移学习两种模型的性能差异,以探索深度迁移学习在病理图像分类中的有效性。
1.1 临床资料收集2021年1月~2022年12月武汉大学人民医院病理科682例甲状腺疾病术中冷冻HE切片标本,包括245例良性病变、349例乳头状癌、70例滤泡状癌、10例髓样癌和8例未分化癌。所有切片均使用江丰KF-PRO-005扫描仪扫描成×20数字病理图片(WSI),按照8 ∶2的比例分为训练集和内部测试集,其中546张WSI用于模型训练,136张用于模型测试。训练集中有病变的图片由具有15年病理诊断经验的高级职称病理医师进行像素级别的标注。此外,收集湖北省荆州市监利县人民医院2019年1月~2021年12月甲状腺疾病术中冷冻HE切片633例,包括良性病变210例、乳头状癌330、滤泡状癌76例、髓样癌8例、未分化癌9例,使用江丰KF-PRO-005扫描仪扫描成×20数字病理图片作为外部测试集。
1.2 方法
1.2.1模型构建 对于训练集和测试集中的所有数据,按照本研究前期建立的方法[4],首先采用Otsu算法和形态学滤波技术过滤切片图像的背景区域。然后,在20×视野下,以一定的步长将整张WSI按照580×580大小切割成图像块。在训练集中共生成859 662个阴性(不含癌区域)图像块和1 368 756个阳性(含癌区域)图像块,采用基于VGG算法建立甲状腺疾病癌区识别分类模型,实现阳性区域与非阳性区域图像的像素级识别。在模型训练过程中,将乳腺疾病术中冷冻HE切片图像分类模型的参数作为初始值,通过深度迁移学习方法,纳入甲状腺疾病术中冷冻HE切片病理图像数据,对模型参数进行二次训练。在前期的乳腺疾病术中冷冻HE切片图像模型训练中,其训练模型是基于牛津大学提出的VGG卷积神经网络模型,同时引入了拉普拉斯图像增强和加权损失函数方法进行优化的深度学习模型,该模型由1 412张乳腺HE切片训练,包括良性病变、原位癌、浸润癌,训练后模型的准确率在训练集达88.7%、在测试集达82.27%[5]。在模型构建过程中,训练集图像块经过随机旋转和镜像变换处理进行图形增强,同时对图像的亮度、饱和度、对比度和色调进行随机扰动,以增强模型对不同切片染色效果的兼容性。
1.2.2模型测试 在预测过程中,输入WSI经过预处理后,提取所有有效HE图像块输入模型。在模型得出图像块级别的预测概率后,标记病变发生位置的热力图。WSI级别分类阶段的预测概率是从图像块级别分类阶段的预测概率热力图中提取形成的。鉴于病理诊断更关注WSI级别的预测概率,在图像块分析完成后,取每张WSI像素级预测概率值最大的前100个概率值的均值作为整张WSI切片的预测概率。深度学习神经网络算法分类模型如图1所示。
图1 深度学习神经网络VGG算法分类模型
1.3 指标评价为评估深度迁移学习的分类效果,本研究将内部测试集和外部测试集中WSI级别的预测结果分别与原始分类标签进行比较,提取真阳性(true positive, TP)、假阳性(false positive, FP)、假阴性(false negative, FN)和真阴性(true negative, TN)四格表资料数据,以Accuracy、Precision、Recall、F1-socre值4个指标来评价其性能。其中Accuracy代表正确预测的样本占总样本的百分比,Accuracy=(TP+TN)/(TP+TN+FP+FN);Precision代表预测为某一类的样本中真正该样本的百分比,即查准率Precision=TP/(TP+FP);Recall代表样本中的某一类样本预测正确的百分比,即查全率Recall=TP/(TP+FN);F1-Score是综合评估查准率和查全率的指标,F1-socre=2×Recall×Precision/(Recall+Precision)。
此外,为评价模型的总体分类效果和应用价值,本研究采用ROC曲线下面积(area under curve, AUC)作为指标。AUC值0.5~0.7时准确性较低,AUC值0.7~0.9时准确性一般,AUC值0.9以上时准确性较高,AUC值越接近于1,说明分类总体效果越好。
2.1 深度迁移学习模型的有效性本研究对比了使用和不使用迁移学习两种条件下,深度学习多分类模型在测试集中的表现,以评估深度迁移学习模型的有效性。基于深度学习神经网络VGG算法分类模型,本研究测试集中病理图像分类结果在内部测试集和外部测试集的Accuracy、Precision、Recall和F1-socre值如表1所示。在内部测试集和外部测试集中,迁移学习模型均具备较好的预测正确率,且迁移学习的查准率和查全率均高于从零学习。
表1 在内部测试集和外部测试集中从零学习和迁移学习模型的分类结果
2.2 深度迁移学习模型的总体性能评价为评估基于深度学习神经网络VGG算法分类模型对内部测试集和外部测试集数据的总体分类效果,本研究采用AUC作为评价指标。内部测试集中,从零学习和迁移学习的AUC分别为0.938和0.956,表明在内部测试集中迁移学习分类效果的总体性能较好(图2A)。在外部测试集中,从零学习和迁移学习的AUC分别为0.915和0.930(图2B),表明本研究提出的迁移学习模型在甲状腺疾病术中冷冻HE切片病理图像分类模型中具备较好的推广性和较高的稳定性。
图2 深度学习神经网络分类模型在内部测试集(A)和外部测试集(B)的性能评价
甲状腺癌是内分泌系统常见的恶性肿瘤,全球发病率约占所有恶性肿瘤的1.5%。2020年WHO数据统计显示,全球新发甲状腺癌病例达43.72万例,其中女性病例数为31.18万,位列第五[6]。过去30年,全球范围内甲状腺癌的发病率大幅增加,已成为十大恶性肿瘤之一。近年来,我国甲状腺癌的发病率逐年上升,2022年2月国家癌症中心数据显示,15~44岁人群中甲状腺癌的发病率位居第二[7],而在女性恶性肿瘤中,甲状腺癌仅次于乳腺癌和肺癌,位居第三[7]。病理诊断是癌症诊断的金标准,精确的甲状腺肿瘤病理诊断是临床精准治疗的前提。随着甲状腺疾病的发病率逐年上升,患者数量逐渐增长,病理医师临床诊断工作负荷不断加重,导致了漏诊/误诊发生的可能。
术中冷冻切片是近年来应用于病理诊断的新技术,是目前最快速、难度系数最大、医疗安全风险最高的诊断之一。在手术过程中,术中冷冻HE切片病理检查对患者的病理诊断具有重要意义,可指导患者进一步的手术决策。在甲状腺疾病手术治疗过程中,术中冷冻HE切片病理检查可初步判断疾病的良、恶性,有助于临床医师精确制定手术切除的范围以及是否进行淋巴结清扫,进一步指导手术治疗方案。鉴于术中冷冻切片的质量低于福尔马林固定石蜡包埋切片,病理医师需在30 min内对病理标本做出诊断,即使是经验丰富的病理学家,术中冷冻切片的诊断也极具挑战性。据统计,全国有执照的病理医师缺口高达9万人,国内病理医师的培养周期较为漫长,而训练有素、有资格对术中冷冻切片进行诊断的病理医师数量更为稀少[8]。
近年来,随着数字病理和AI技术的发展,其在临床医疗领域的应用日新月异。以深度学习为代表的AI技术在目标学习和图像分割方面发挥了重要作用[9-11]。目前,深度学习在乳腺、肺、胃、结直肠、前列腺等器官疾病的病理诊断方面取得一定的成绩[12-15]。深度学习在病理图像分析领域的应用,有望使病理诊断结果更加精准和客观,并在一定程度上降低病理医师疲劳阅片,提高病理医师工作效率[16]。深度迁移学习是指将已经在一个领域上训练好的深度神经网络模型应用到另一个领域上,并对其进行微调以适应新任务的过程。一般情况下,深度迁移学习可以通过将预训练模型的一部分或全部参数固定,只对新的任务进行微调来完成[17]。基于本课题组已构建的乳腺疾病术中冷冻HE切片病理图像辅助诊断模型[5],考虑到乳腺疾病的病理图像与甲状腺疾病的组织病理学图像具有一定的相似性,本研究将已建立的乳腺疾病术中冷冻HE切片病理辅助诊断模型作为初始模型,然后使用少量已标注的甲状腺疾病术中冷冻HE切片病理图像数据作对初始模型进行训练,结果发现,从乳腺疾病到甲状腺疾病的迁移学习模型预测结果的查准率和查全率均高于从零学习,且在内部测试集和外部测试集中,迁移学习分类模型的总体性能均高于从零学习分类模型,展示出较好的推广性和较高的稳定性。
在模型测试集中,从零学习模型预测结果与迁移学习模型预测结果出现了不一致的情况。我们调阅原始HE切片发现,迁移学习模型预测热力图结果基本正确。在外部测试集中的某些病例中,迁移学习模型判断为甲状腺良性病变的区域在从零学习模型中被判断为甲状腺癌。复习原始HE切片发现,从零学习模型不仅将结节性甲状腺肿伴乳头状增生的区域误判为甲状腺癌,而且将部分甲状腺滤泡性腺瘤错误诊断为甲状腺癌。本研究进一步分析了导致从零学习模型预测结果和迁移学习模型预测结果不一致的切片,发现这些病例原始HE切片的制片质量存在一定问题。在部分切片中,苏木精染色较深,伊红染色较浅,甲状腺乳头状增生区域形成密集的假乳头状结构,导致了部分区域的细胞密集、核质比很高,且呈现出一片蓝染。在从零学习训练模型中,本组所选择均为染色均一、切片质量较好的HE切片,机器没有学习过质量差或染色异常的切片,因此难以辨别;而迁移学习训练模型利用已在乳腺疾病术中冷冻HE切片图像数据中建立的经验,进一步优化甲状腺疾病术中冷冻HE切片图像数据的建模过程,有效克服了染色不均、褶皱、刀痕等问题。通过将在乳腺疾病中已学习到的知识应用于甲状腺疾病,迁移学习提高了模型预测的诊断价值。在实际病理工作中,由于不同技师专业技术能力、不同批次染色效果的差异,导致病理制片质量很难一直维持在最佳水平。而迁移学习可以利用已有的知识和经验来解决在数据缺乏、资源有限等情况下的建模问题。通过将一个领域中已经学习到的知识应用于另一个领域,迁移学习可以加速模型的构建,提高模型的性能和泛化能力。尽管本研究的病理辅助诊断模型是以HE染色图像为基础,未来在深度迁移学习的帮助下,病理辅助诊断模型将推广应用到更宽广的领域。
机器学习在图像处理方面具有许多优势,可在短时间内对图像进行分类,具有可重复性和不会疲劳的特点。随着AI技术在医学图像研究领域的不断推进,AI在病理诊断方面展现出了令人瞩目的成果。AI辅助诊断不仅可以提高病理诊断效率,还可以减轻病理医师的工作负荷,降低人力资源成本。在AI辅助病理诊断模型建模中,从零开始训练是一项耗时且费力的工作,需要具有丰富诊断经验的病理医师对大量的病理图片进行标注以作为训练集。深度迁移学习在图像分类领域具有显著优势,能够利用预训练模型加速模型的构建,即使在新任务数据较少的情况下也能做到。此外,预训练模型可以学习到的大量特征表示可以迁移到新任务中,从而提高模型的泛化性能。随着AI深度学习算法技术的发展,深度迁移学习算法的进一步优化,其分类判读的准确率和稳定性也会增加,使用更少的数据得到更优质的算法模型在未来也将成为可能。深度学习算法技术在病理切片判读分类中也将应用到更多疾病的诊断中,使病理医师的实践诊断经验更好地积累和传承,提升和突破人类对疾病现有的认知。我们期待在不久的将来,AI将会给医疗诊断带来更为广阔的研究领域和应用市场。