蒋芙蓉,赵静文,刘翔,石蕴玉,汤显,宋家琳
1.上海工程技术大学电子电气工程学院,上海 201620;2.第二军医大学附属长征医院超声科,上海 200003
癌症是全球主要的死亡原因之一。据国际癌症研究机构(IARC)统计,2020年全球有1 929 万例新病例,996 万例与癌症相关的死亡。到2040年,预计每年新增病例数将达到2 950 万,与癌症相关的死亡人数将达到1 640万[1]。外科病理学报告不仅是简单记录或刻板印证临床猜想的一种手段,对于肿瘤病理学而言,它是诊断的主宰因素和确定治疗方案的一个重要决策因素[2],因此,组织病理诊断是临床诊断的金标准[3-5]。但是,在显微镜下观察组织病理图像并给出诊断的方式是有误差的,主要原因有(1)长时间的阅片使得病理医师不堪重负[6];(2)诊断主要依靠医师的主观经验[7-8];(3)有资质的病理医师配备数目极少且分布不均。
近年来,计算机应用的蓬勃发展促进了计算机辅助诊断(Computer-Aided Diagnosis, CAD)病理图像的兴起,利用CAD 既可以遵循统一的量化评价标准,大大减轻病理医师的负担,同时也可以解决医疗资源地区分布不平衡的问题。近年来,该领域涌现出大量的研究成果,本研究将对此进行梳理总结。
在临床医学中,CT、MRI及超声图像是医生诊断病情并给出治疗建议的常用依据。由于组织病理图像信息量更丰富、形态特征更明显,因而成为病理医师临床诊断的金标准。图1从诊断病理学的角度揭示了从组织病理到诊断的工作流程,理解这一过程对于自动化分析病理图像至关重要[9]。
图1 组织病理学工作流程图Figure 1 Histopathology workflow diagram
随着数字病理扫描仪和计算机技术的发展,WSI已逐渐取代传统切片成为病理学家诊断病情的依据。传统切片的诊断流程一般是医生通过显微镜观察病理切片的组织区域并给出诊断,这种方式需要病理医生不断调整显微镜视野去支持诊断结论[10]。WSI是通过石蜡组织切片之后进行染色,再利用全自动显微镜扫描平台得到。其中,染色方法一般为苏木精-伊红染色法,这是一种由碱性染液苏木精和酸性染液伊红构成的染色方法,主要应用于生物医学。苏木精使细胞核内的染色质与胞质内的核酸着紫蓝色,伊红使细胞质和细胞外基质中的成分着红色。病理医师主要根据细胞核的形态及分布进行病理学诊断[11]。
WSI通常以多分辨率金字塔结构存储,放大倍率从1 至40 不等(图2)[12]。与传统切片图像相比,WSI具有以下优点:(1)载玻片的数字化使得病理医师可在计算机上而不是通过显微镜观察病理图像,打破时间和空间的限制,促使远程会诊成为可能;(2)WSI 可永久保存,弥补了玻璃切片易褪色、易碎的缺陷;(3)WSI 分辨率高,色彩逼真,可从中观察出丰富的病理信息[13-15]。然而,图像文件包含原始图像的多个缩减采样版本,且尺寸较大,病变区域在低倍率下难以分辨,在高倍率下处理相当耗时。因此,实现WSI的全自动处理和分析仍是一个技术难题[16]。
图2 金字塔式WSIFigure 2 Pyramid whole slide image
随着计算机技术的普及,人工智能已渗透入生活的许多方面,医疗领域更是如此。数年前,疾病诊断主要依靠病理学家独立完成,高强度的显微镜阅片方式使医师不堪重负,并且受医生主观经验影响,最终的诊断结果也因人而异。相比之下,CAD 以其准确率高、便捷惠民、解放人力等优势促进了智慧医疗的蓬勃发展,越来越多的学者也投身于CAD 在病理图像方面的研究。一般而言,组织病理图像的辅助诊断和其他医疗影像类似,主要分阶段进行,大致分为以下几个步骤:(1)图像预处理;(2)感兴趣区域分割;(3)特征提取与选择;(4)疾病分类。本研究主要对感兴趣区域分割和疾病分类两大任务中的研究进展进行梳理归纳。
鉴于病理学家利用病理图像诊断病情的步骤,在机器学习领域,CAD 首先需准确分割出病变区域,即感兴趣区域,以便后期进行分类诊断。在病理学图像中,染色使不同的细胞结构呈现不同的颜色。细胞核是组织病理学中的感兴趣区域,因此常常以细胞核的形态变化作为病变分类的主要参考依据。目前,机器学习在这一任务中的方式主要有: 弱监督、有监督、无监督。
Jia等[17]提出一种弱监督学习算法来分割癌症区域,在多实例学习框架下,引入关于正例的约束条件,用全卷积网络分割癌变区域,该实验的F-score为0.622,性能超越先前的方法。Cui等[18]提出一种有监督的全卷积神经网络,首先对图像进行颜色归一化和分割为小块的预处理;其次提出核-边界模型用于检测每个小块,经由拼接得到粗糙的预测结果;最后运用快速和非参数的后处理得到精确的细胞核分割结果。实验最终在数据集BCD 和BNC 上得到了优越的量化指标,在BCD 数据集上的精准率为0.942,在BNC 数据集上的精准率为0.920。Moriya 等[19]提出一种将无监督学习和常规聚类相结合的方法,首先采用球形K-Means算法提取聚类质心,其次将传统的K-Means算法应用于由质心提取的表示,最终将聚类标签投影到目标图像。实验最终将肺癌标本的70张图像分割成3 类区域:浸润性癌、非侵入性癌及正常组织,所提出的方案优于多阈值Otsu 和传统的KMeans 方法,3 种方法的NMI 分别为0.626、0.167、0.168;其中,NMI 是度量聚类时,X 和Y 的相似程度,值域为[0,1 ],值越高代表聚类越准确。
此外,分割算法的计算复杂度也成为广大研究者的研究重点,Sulimowicz 等[20]从4 个方面实现了更精确和更快的感兴趣区域分割。(1)在使用从粗到细拓扑保持分割作为基线的前提下,提出使用超像素规则性优化方案来避免不规则和极小的超像素;(2)采用预测策略,仅聚焦于更精细图像级别的重要超像素;(3)将从最粗糙的图像级别获取的信息重新运用于其他精细的图像级别;(4)采用高效的并行化方案,运用自适应数据划分,从而得到较高的加速度。实验最终在数据集BSD500 和NLST 上进行验证,结果表明该算法相较于基准模型,速度提升了13倍。
作为病理图像诊断的另一重要任务,病理图像分类可为医师提供辅助意见,帮助医生制定治疗方案。同时,疾病尤其是癌症图像的分类主要依靠病理医师的主观经验,不同的医师可能会给出不同的诊断结果,因此实现病理图像的自动分类对CAD 至关重要。
基于梯度增强树分类器和几个常见深度神经网络,Rakhlin 等[21]使用10 倍交叉验证,在数据集ICIAR 2018 Grand Challenge on Breast Cancer Histology Images 上得到优于其他传统方法的性能。为避免在大尺寸图像上提取局部特征的弊端,Xu等[22]针对20 倍和40 倍放大倍数做提取斑块处理,并丢弃只有白色背景的补丁,随即将其输入到AlexNet,提取特征向量,进行特征选择之后采用支持向量机进行最终分类。
在处理大尺寸WSI 时,大多研究将整张WSI 分块输入模型中,从而进行分类;但这种基于块的处理忽略了相邻斑块间的关系,因此会降低分类性能。为改善这种情况,Takahama 等[23]提出一种结合特征提取模型和分割模型的病理图像分类模型,从分类模型中提取斑块特征,继而输入分割模型中,得到肿瘤概率热图,此方法同时考虑了全局特征和局部信息,相比传统的基于块的分类方法,性能有所提高。
此外,基于片级的处理方式会带来计算负担,并且疾病和健康类别的特征区分不明显,甚至会共享几个几何特征。Li 等[24]提出一种分析综合模型学习与共享特征算法,即引入联合分析和综合学习模型,将低秩共享字典和共享分析算子集成到该框架中,实现了计算简单的病例图像分类。
虽然机器学习方法在一定程度上减轻了专业医师的负担,诊断结果与专业病理学家相当甚至有所超越,但前期的特征提取仍依靠人工完成。随着深度学习的发展,可以省去人工提取特征的步骤,实现病理图像端到端的全自动诊断。深度学习发展至今,卷积神经网络一直是最常用的模型,只需将图像及图像标签输入模型中进行训练测试,便可输出相应的诊断结果。其中,基于AlexNet[25]、VGGNet[26]、GoogLeNet[27]等网络的病理图像诊断取得了长足发展。
Wang[28]选择了27 层的GoogLeNet,通过块级预测来区分肿瘤组织和正常组织,然后汇总进行肿瘤概率热图的绘制,提取热图上的28 个几何和形态学特征进行计算,构建随机森林分类器,完成整张WSI的分类任务,同时还可定位肿瘤所在部位。此外,实验在WSI 的40 倍放大倍数下获得了最佳性能,AUC为0.925。Motlagh等[29]首先利用ResNet V1 50实现4种类型癌症的检测分类,其次采用ResNet V1 50 和ResNet V1 152分别对良性肿瘤和恶性肿瘤实现亚型分类。在实验环节,和Inception 网络做对比评价,总结得出Inception 网络更适用于组织病理图像的自动分类。为不改变模型结构,Spanhol 等[30]提出一种基于斑块分类再聚合的策略,即对输入图像做一定修改,随即输入到AlexNet 中,表现出比传统学习更优异的性能,也避免了模型修改的计算代价。
在实践中,病理学家一般会在图像的多个放大级别下切换,以准确评估疾病类型。然而在深度学习中,图像一般在输入到卷积神经网络模型前就已固定好放大倍数,此流程与病理医师诊断流程不一致,有可能会造成误判[31]。Lao等[32]集成多个放大级别的图像构建图像集,采用成熟的ResNet 网络对BreakHis 数据集进行CAD。实验证明,此方法的分类准确率高于任一种固定放大级别的性能。
视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,然后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,抑制其他无用信息。近年来,注意力机制在深度学习多个领域被广泛使用,医学诊断领域也不例外[33]。Sun 等[34]开发了一种联合卷积神经网络和注意力机制的网络模型,突出局部的形态学特征,此举可有效提供诊断依据;最后采用10倍交叉验证,使用3 个常见的指标(Accuracy、Sensitivity、Specificity)量化评估结果,总体性能超过3位副主任医师的诊断结果。Mehta 等[35]基于注意力机制提出HATNet 结构,通过扩展单词包模型来学习全局表示;该方法通过汇集局部和全局的信息,使得网络能够在无标记情况下学习到图像特征以进行分类。
不可避免地,在病理图像数据收集层面,类别分布可能会不平衡。因此Momeni 等[36]提出Deep Recurrent Attention Module(DRAM),该模型在每个时间点t,有选择地聚焦在大块区域中的一个给定位置(一瞥),然后模型从这个一瞥中提取特征,更新其内部状态,并选择下一个要关注的位置。这个过程重复固定数量的步骤,在此期间,模型以一致的方式递增地组合信息。总体架构可分解成由多层神经网络组成的多个子组件,其中每个子组件将一些输入向量映射成输出向量,最后实现汇总分类。实验证明,通过选择性地选择聚焦位置,DRAM 可实现与最先进的算法[37-39]有相当的性能。
为了能针对误标记的病理图像,提高诊断准确性,Li 等[40]提出反向主动学习策略来去除训练集中的误标记补丁,其次提出用于分类的atrous DenseNet网络,将DenseNet 的普通卷积替换为atrous 卷积,实现多尺度特征提取。
针对组织病理图像较复杂的特点,越来越多的研究倾向使用多种网络结构集成的概念,以结合不同模型的优势。Hashimoto 等[41]提出一个集多尺度、区域对抗和多实例于一体的端到端系统,以实现癌症疾病的亚型分类,其性能明显优于其他病理专家和常规卷积神经网络方法。Alom 等[42]提出Inception Recurrent Residual Convolutional Neural Network(IRRCNN)模型,该模型融合了Inception-v4、ResNet 及RCNN 的优势,在BreakHis 和Breast Cancer Classification Challenge 2015 两个公开数据集上获得了优异的性能。
虽然公开数据集的存在使得病理图像的辅助诊断有较为统一的评价对比,但数据集规模仍较小,难以支撑深度学习对于大规模标注数据的需求。除了常见的数据增强预处理方法外,在实际的辅助诊断进程中,新兴的迁移学习方法也广泛应用于病理诊断领域。
然而,经典的AlexNet、VggNet层数较少,现代的卷积神经网络结构层数越来越多,且层级连接也更为复杂,如ResNet和DenseNet。因此,随之而来的研究和尝试也促进了深度学习,甚至是迁移学习的发展。
ResNet 引入跳跃连接,避免了神经网络训练在层数太多时导致的信息丢失,解决了梯度消失和信息爆炸的问题。另外,大多病理组织图像为彩色图像,使用ResNet可以学习到颜色和文本特征,利于分类[46]。DenseNet 中的Dense Block 模块利用了该模块中前面所有层的信息,即每一个layer 都和前面的layer 稠密连接,通过这一连接方式,增加了梯度的传递,特征得到了重用,相比ResNet拥有更少的参数数量,甚至减少了在小样本数据上的过拟合[47]。Talo等[48]使用预先训练好的DenseNet-161 及ResNet-50模型,分别用于灰色和彩色病理图像的分类,该研究还发现彩色病理图像相比灰色病理图像的分类准确率高出1个百分点,原因是DenseNet只学习到文本特征,而ResNet额外学习了颜色特征。
随着各种成像技术的兴起和自动诊断需求的上升,医学图像检索成为生物医学工程领域一项富有挑战性的任务。基于内容的图像检索和基于文本的图像检索是医学图像检索中最流行的办法,但是基于文本关键字的检索方法在应对大规模医学数据时有局限性,也对人工标记有很大要求;基于内容的图像检索由于关注图像的实际视觉内容,因而具有更强的客观性[49]。在病理图像检索层面,基于内容的组织病理图像检索是广大研究者关注的热点。组织病理图像检索是通过提取病理图像的形态结构信息,从数字病理库中查找在图像内容上与医生提供的感兴趣区域最相似的图像区域,并将图像区域所在的病例返回给医生,医生可以逐一查看检索返回的相似区域,同时参考相似病例的专家诊断意见,帮助医生更全面地了解查询图像包含的病变情况,做出更可靠的诊断[50]。
为提高整体的检索精度,李琛[51]提出粒子群-核极限学习机算法,利用粒子群算法[52]来优化核极限学习机中的参数,然后进行预分类,综合颜色和纹理特征进行病理图像检索,最后调用MATLAB GUI 界面构建病理图像检索的一体化平台。
经典的底层特征虽具有不错的可解释性,但难以区别不同的病变类别。为提高检索精度,Caicedo等[53]将用于文本分析的词袋模型应用到组织病理图像检索领域,底层特征映射到高层特征,有效地提高检索准确率。此外,其他成像方式的检索也可应用上述方法,如Kamath 等[54]将词袋模型应用到X-ray图像检索,利用具有旋转不变性的加速稳健特征算法进行特征提取以构建视觉词汇,继而采用K-means算法排除无关特征,最终保留下最鲁棒的80%特征;对于每个特征包编码,计算视觉单词的出现次数,使用支持向量机多类分类器实现检索功能,返回匹配图像。采用以上方法检索病理图像由于基于浮点特征会导致时间复杂度较大。为提高深度学习的可解释性和检索效率,受病理学家决策过程的启发,Peng等[55]设计了一个面向分类和检索的多任务学习框架。通过添加三重损失函数比较样本间距离,采用柯西哈希损失函数加速最近邻搜索,此方式直观且易被理解,检索得到10 张最相似图像可以有效支持医师进行临床决策。从概念上而言,组织病理图像检索是一个可以为医师提供辅助参考意见的决策平台。基于机器学习和深度学习诊断的输出结果较为单一,难以为医师提供充足的诊断证据。而组织病理图像检索的实用性和可解释性却更胜一筹,在流程上更加人性化,能提供相关参考意见,但医生的工作压力仍然很大。未来在自动检索方面如果可以发展一体化诊断治疗平台,将会大大提高诊断效率。
人工智能在多个领域皆有应用和发展,医学领域也不例外。病理诊断作为临床诊断的金标准,是病理医师提供诊断报告的最可靠的依据,但人工诊断方式仍有较大的主观性,缺乏统一的量化标准。计算机技术和成像技术的快速发展使得在计算机上观察组织病理图像成为可能,CAD 病理图像也成为新的热点及趋势。本研究参照病理专家的常规诊断流程,按图像类型、图像处理及病理诊断等方面总结了以往的重要成果,同时也提出几点改进方向:(1)深度学习一直由于缺乏可解释性而被称为“黑匣子”,难以被医学界理解接受,模拟病理医师的诊断思路来设计CAD模型是必须的;(2)单一模型的性能相比多模型结合的性能仍有局限,若利用多种经典模型并加以改进会更有利于病理诊断;(3)生成对抗网络在扩充数据集层面已有大量应用,在实际诊断方面的潜力仍待挖掘;(4)随着各种移动设备的兴起,开发CAD的一体化平台为大势所趋。总之,基于组织病理图像的CAD 是一个需要长期注入精力的领域。