复旦大学附属肿瘤医院放射治疗中心,复旦大学上海医学院肿瘤学系,上海200032
病理学的发展从根本上来说是病理学切片技术与数据分析的结合[1]。过去20年图像扫描技术、存储技术和计算机技术的革新带动了病理学的发展与演变[2]。1999年全切片数字化图像扫描技术的提出实现了病理学切片的数字成像和存储,简化了病理学实验室的工作流程[3-4]。
19世纪50年代人工智能的概念被提出,旨在用计算机模拟预测在相同情况下人类的行为[5]。机器学习是在机器中“学习”输入数据后通过自我调整和改进以预测的一种实现人工智能方法。19世纪80年代随着人工神经网络的发展,含有多层神经网络的深度学习被推广[6]。2006年Hinton等[7]攻克了深度神经网络训练上的难度,同时计算机处理能力提升,使得神经网络重新在人工智能领域掀起深度学习的热潮。
近年来,深度学习在解决图像分类任务中取得了巨大的成功与进步[8]。深度学习与病理学分析的碰撞,促进了现代数字病理学的发展。数字病理学原指病理学切片实现数字化图像的过程,现指用人工智能实现病理学图像的检测、分割、诊断和分析[1]。人工智能使病理学分析从定性分析转为定量分析,并能减少病理学医师的技术差异导致的诊断误判,节省诊断时间[9]。但传统的人工智能方法依赖于精准的人工标注,为使复杂的病理学诊断变得更加快捷准确、更适用于临床数据,深度学习在大数据量的全病理学组织切片(whole-slide image,WSI)数据集上已发挥其优势。目前科学家们正不断探索深度学习在病理学诊断、癌症患者预后判断等方面的应用场景。
目前卷积神经网络(convolutional neural network,CNN)是在病理学分析中使用最广泛的深度学习算法[10]。CNN是一个深层的前馈网络,因为在输入层和输出层之间存在多个卷积层而得此名称。CNN中的各层间未完全连接,下一层中的神经元仅与上一层的固定区域相互作用,而不与所有神经元相互作用。此外,CNN还包含了池化层,池化层的主要功能是缩小或减小特征的维数。基于CNN的深度学习方法已经广泛应用于图像的检测和分割任务中来识别和量化细胞分类[11-13](如中性粒细胞、淋巴细胞和胚细胞),组织学特性[14-16](如细胞核、有丝分裂、腺体),感兴趣区域[17](如肿瘤或肿瘤周围区域),以及癌症分类与分级[18](如肿瘤的分级和细胞的分类)。
全卷积网络(fully convolutional network,FCN)也是一种流行于病理学分析中的深度学习方法。FCN是没有全连接层的CNN。FCN可从每个像素学习表示,因此有可能检测到在整个病理学图像中稀疏出现的元素或特征。此属性使FCN可以进行像素级预测,并可能优于CNN。在头颈部肿瘤WSI中,FCN已实现了分离癌变区域和非阳性上皮区域[19]。在乳腺癌的WSI上,FCN被用于检测浸润性乳腺癌的区域[20]。
循环神经网络(recurrent neural networks,RNN)可以存储不同时间点的数据并以时序信息的形式处理数据。RNN考虑了被研究对象在不同时间的输入状态,并展现出数据的动态性[21]。Campanella等[22]运用CNN的方法对所有的病理学切片进行阳性级别预测排序后,输入到RNN汇总生成患者的肿瘤阴性或阳性预测。RNN的另一个潜在用途是可用于分析不同时间点的组织图像,如连续随访病理学图像的分析[2]。
对抗生成网络(generative adversarial networks,GAN)的方法在数字病理学中的应用程度也逐渐增高,如特征分割和污渍转移(改变颜色使得染色归一化)[23-24]。GAN是通过实现两个相互竞争的同步神经网络来运行的,包含一个从馈入网络的训练样本中生成数据的生成器和一个评估生成数据与原始数据一致性的辨别器。GAN的目的是减少第二个网络的分类误差程度,使得生成的图像更类似于原始图像。基于GAN的深度学习方法已经被应用于H-E染色的WSI图像转为虚拟的免疫组织化学染色,这有效地解决了基于破坏性免疫组织化学的组织测试的需求[25]。
由于WSI涵盖的信息庞大,揽括许多冗余的数据,实现数据挖掘必须对WSI数据进行特征提取[26]。特征提取的方法被分为人工标注与自动学习特征两种。传统的人工智能方法离不开高标注量的人工标注特征,而深度学习强大的自学习与适应能力显著减少了对人工标注的依赖。
在数字病理学中,深度学习的方法已应用于各种病理学图像的处理和分类中,神经网络被训练完成特定的图像分割、诊断或者预后情况判断。一些研究专注于自动诊断的耗时,这使得病理学医师能够将时间更多地花费于更高级别的决策中,如辨别与患者疾病相关的更复杂特征[10]。同时,深度学习被广泛应用于解决肿瘤学面临的问题,如通过预后分析评估疾病的严重程度、治疗反应的预测及预后。
Cireşan等[27]在2013年第一次成功地运用深度学习算法实现有丝分裂检测,开启了深度学习在WSI中的应用。深度学习的方法被应用在乳腺肿瘤、皮肤肿瘤等组织病理学切片的检测、分割、分类、分级及预后判断中。
2.1.1 乳腺癌领域
在所有病理学诊断中,深度学习在乳腺癌中的研究应用是最广泛的。2016年,国际生物医学影像研讨会举行了关于乳腺癌前哨淋巴结转移的诊断大赛,给出了高标注高质量的数据集——Camelyon16,包含了400张WSI切片图像,促进了深度学习在乳腺癌诊断中的发展[28],随后,又给出了1000张的乳腺癌前哨淋巴结转移的Camelyon17 WSI公开数据集[29]。Wang等[28]运用GoogLeNet网络构建有监督的分类模型,在分类任务中曲线下面积(area under curve,AUC)达到了0.925,并获得了Camelyon16比赛的冠军。此后,Google医疗打造了名为淋巴结助手(LYmph Node Assistant,LYNA)的工具,希望在Camelyon16数据分类的基础上得到提高。2018年,Google团队加入了美国圣地亚哥海军医疗中心的数据集后,LYNA 实现了AUC达到0.99的结果,且模型不受常见的组织学伪影(例如过度固定、染色不良和气泡)的影响[30]。Google也证实病理学医师们采用深度学习辅助诊断工具后诊断效率和准确度得到了提高[31]。2019年,Campanella等[22]提出了应用弱监督学习对大数据量的前列腺癌(24859个WSI)、皮肤癌(9962个WSI)、乳腺癌(9894个WSI)的数据集进行分类检测,实现了所有癌症诊断的AUC达到0.98。该研究仅采用报告诊断作为标签,而非大量的手动注释,证实运用基于大数据、低标注数据集的弱监督模型在临床数据中的应用效果优于基于高标注数据集的监督学习模型。
2.1.2 肺癌领域
近几年,人们也开始运用深度学习的方法分析肺癌的病理学分类和预后。2018年,Coudray等[32]利用深度卷积神经网络的方法实现了对非小细胞肺癌病理学切片的分类与突变基因的预测。该研究可以准确和自动地实现腺癌、鳞状细胞癌、正常肺组织的三分类,并且AUC达到了0.97;研究还对细胞中与肺癌相关的6种基因的突变情况进行预测,AUC达到了0.733~0.856。2019年,Wang等[33]提出了一种基于弱监督学习的肺癌图像快速分类方法,以AUC达0.973而超过了目前最新的方法,实现了非小细胞肺癌、小细胞肺癌的两个亚型和正常类型的四分类。该团队指出少量的粗略注释有助于进一步提高准确性,进一步肯定了弱监督学习的优势。Wang等[34]开发了一种自动的细胞类型分类管道ConvPath,它实现了肿瘤、基质和淋巴细胞分类,并提取了与肺癌病理学图像相关的肿瘤微环境特征,并开发了基于图像特征的预后模型[34]。
2.1.3 胃肠癌领域
在胃肠癌的病理学分析中,深度学习在诊断、预后、识别微卫星不稳定性中也逐渐得到了应用。2019年,Kather等[35]对结直肠癌病理学图像进行处理,用CNN识别在结直肠癌病理学图像上的不同组织类型,尤其是非肿瘤(“基质”)类型,并发现了部分组织的丰度可以评估肿瘤的微环境并预测预后[35]。同年7月,Kather等[36]基于胃肠肿瘤的切片图像运用深度学习残差网络Resnet18预测微卫星不稳定性(microsatellite instability,MSI)。该研究有助于识别可从免疫治疗中受益的胃肠道肿瘤患者,使得患者不需要经过基因检测和免疫组织化学检测,直接从H-E图像中预测MSI。但这种算法模型可能受癌种、样本类型、患者人种的影响,今后如想拓展使用,可能需要更大的数据集来训练。
2.1.4 前列腺癌领域
前列腺癌一直因为病理学图像的病灶小而使得病理学医师们在诊断过程中耗费大量的时间和精力,因此深度学习在前列腺癌病理学诊断上的应用一直被科学家们热切关注。2019年8月,Campanella等[22]提出了基于24859张前列腺WSI构建的弱监督学习模型,准确率达到了98%。而该研究的样本数据量也是目前前列腺癌病理学分析中最多的。同年6月,基于1226张前列腺癌WSI,Google提出了Gleason评分的深度学习系统。Gleason评分是对前列腺癌患者复发的预测,该模型诊断准确率达70%[37]。基于13188张前列腺WSI,Yamamoto等[38]同样用Gleason评分构造了无监督学习模型,实现了1年内的Gleason评分准确率为74.4%,5年内的Gleason评分准确率为69.5%的结果。
由于无法解释做出决策的过程,目前临床上应用深度学习方法在病理学图像分析过程中最大的困难在于监管机构的批准[39]。尽管这些算法在病理学分析上带来益处,但由于对医疗器械极为严格的要求,临床、法规和法律问题仍有待解决。令人鼓舞的是,目前相关的产品也逐渐获得了相关部门的许可[2]。
其次,深度学习的效果取决于数据的数量和质量。用于训练的数据应该是精心整理后的高标注数据,具有最大的信噪比,并要尽可能实现标注准确、全面[40]。但高标注的数据需要耗费病理学医师太多的时间和精力去完成,并且标注的质量高低可能会影响训练结果的准确度。于是弱监督甚至无监督学习开始被应用于病理学分析中,并已证实相较于监督学习模型而言,在临床的低标注数据上弱监督学习的适用性更佳。但弱监督学习依赖于大样本量的数据,WSI的数目需要高于10000[22]。并且在低分辨率的数据上应用高分辨率训练出来的模型可能会产生数据保真度的损失。
目前深度学习在病理学分析方面取得的突破只是晨曦初露,深度学习在病理学领域还未实现广泛的应用,尤其在预后方向。癌症分级与预后分析密切相关,但深度学习在该方向研究的准确度依旧不够高,目前仍处于处于初级阶段[35]。因此预后诊断方向可成为深度学习在病理学分析问题中的机遇。同时,在病理学基础上结合基因、免疫学等分析方法,也是深度学习可以被开拓应用的领域。虽然深度学习能否取代病理学医师只是一种推测,但不可否认的是在准确率和一致性上,病理学医师与深度学习结合分析的结果将比病理学医师单独完成的结果更优。尽管深度学习只能在某个狭窄的领域里作出初步决策,但病理学医师可以通过一个初步的决策结果综合其他信息作出最终决策,从而提高诊断效率和准确率。