不同扫描仪构建的结直肠癌全切片数字病理图像中人工标注迁移的研究

2020-10-31 02:26李江涛郑波潘怡王书浩刘灿城吕宁孙卓邹霜梅
中华结直肠疾病电子杂志 2020年5期
关键词:扫描仪切片医师

李江涛 郑波 潘怡 王书浩 刘灿城 吕宁 孙卓 邹霜梅

病理学通常被认为是医学诊断的金标准,尤其是癌症诊断。病理医师通过显微镜检查苏木素和伊红(hematoxylin and eosin,HE)染色的少量人体组织做出诊断。临床快速增涨的检查需求导致了全世界范围内病理医师的短缺[1-2]。自动或半自动工具来协助病理医师诊断成为一种需求。

近几十年来,机器学习,特别是深度学习的发展[3],在自然图像分类的计算机视觉领域取得了进展[4-5]。深度学习方法也被纳入许多医学应用[6-7],如阿尔茨海默病诊断[8],大脑功能区划分[9],解剖结构和病变分割等[10-14]。在组织病理学领域,利用开放获取的 TCGA[15-16]和 CAMELYON[17]数据集,各种新的卷积神经网络(CNNs)已经被用于高分辨率的病理全切片扫描图像(whole slide image,WSI)的诊断。在原发性乳腺癌[18-20]或淋巴结转移[11,21]的诊断中,基于深度学习的方法已经显示了潜在的临床应用可能性。

虽然一些研究通过对数字化病理切片的深入学习建立了有意义的诊断模型,但仍存在一个值得关注的具体问题。由于不同品牌的扫描仪可能具有不同的光学特性,因此将一台扫描仪建立的模型在应用于其他扫描仪创建的图像时可能存在偏差。一些研究表明,当训练数据和应用数据的参数不同时,模型的性能可能会降低[22]。对于该问题,通常通过采集对应的训练数据并重新训练模型以优化在目标扫描仪图像上的表现。然而,在模型建立过程中,需要病理医师对数字切片进行手工标注。同一幅图像可能在不同的扫描仪上显示偏差,可能需要重新标注,这大大增加了病理医师的工作量。在CT和MRI的研究中也关注过类似问题。许多自动工具可以用来修正线圈内不均匀的磁场,并用不同的参数对图像进行标准化,以消除不同制造商造成的图像差异[23-24]。然而据我们所知,在数字病理学中还没有标准化的工具可以有效地处理WSI来消除扫描仪之间的差异。

因此,本文将提出一种能够快速、准确地将病理医师的手工标注在不同扫描仪生成的WSI中的传输方法,以减少或消除重新标注的工作量。

材料与方法

一、材料

我们使用中国医学科学院肿瘤医院病理科数据库中181张福尔马林固定、石蜡包埋和HE染色的结直肠癌手术切除标本切片。每张切片的厚度为4微米,用VENTANA HE600系统(VENTANA Medical Systems,Inc.,USA)染色。

181张切片均由两种不同的扫描仪扫描,即KF-PRO-005-EX扫描仪(KFBIO®,中国)和EasyScan6扫描仪(Motic®,中国)。扫描格式分别为.kfb和.mdsx。共获得362张WSI。KF-PRO-005-EX扫描仪扫描的181张切片均由病理医师手工标注,每张切片中的癌组织由一组闭合曲线标注。EasyScan6扫描仪扫描的切片没有进行手工标注。

二、方法

因为Im和In是同一张玻璃切片的数字图像,我们假设它们在大小、位置和角度的差异可以通过仿射变换F弥补[25]。使用仿射变换F,In被映射到了Im的空间:

其中θ是仿射变换的参数集。这些参数可用仿射矩阵A表示,点映射计算如下:

当图像Im和的差异已经最小化后,我们可以得到理想的仿射变换参数:θ*=argmin loss(Im,In; θ)。

由于不同扫描仪产生的图像光谱特性和颜色特性的差异,不可能直接用图像颜色的差异来度量两个数字切片的相似性。为了解决这个问题,我们使用互信息[26-27]作为图像相似性的度量函数。为了避免由于WSI的高分辨率而导致的大量计算,我们在保证图像匹配精度的同时,在多尺度图像金字塔上使用随机抽样[28]方法来减少计算量。

在计算出最佳仿射变换参数θ*及其对应的仿射矩阵A*后,我们将图像空间Im中的标注曲线通过矩阵乘法迁移到图像空间In(按公式2),在In图像空间中得到相应的标注曲线。

结 果

一、切片扫描结果

181张HE切片的扫描结果表明,即使是同一张切片,不同扫描仪扫描的数字WSI在颜色、位置、大小等属性上都有不同的表现。一些原始的WSI图像如图1所示。

图1 不同扫描仪扫描的HE切片的差异说明。1A~1D:病例1~4。每个图左侧显示来自KF-PRO-005-EX扫描仪的WSI,右侧显示来自EasyScan6扫描仪的WSI

二、将.kfb空间中的手动标注直接映射到.mdsx空间的结果

三、对所提出的标注传递方法的测试结果

使用181张结直肠癌HE病理切片来测试上述标注传递方法。对于每一张切片,将带标注的WSI设置为目标图像Im,将对应的标注设置为Cm;将未标注的WSI设置为In;在迭代计算每个图像对的最佳参数θ*后,我们比较了根据公式3得到的目标图像Im与迁移图像。我们在目标图像Im和仿射迁移图像上均绘制了标注Cn。在图3中,我们展示了两个示例图像的反向映射结果。在图4中,我们显示了带有手动标注Cm的图像Im和带有迁移标注Cn的目标图像In。

在我们的实验中,181张结直肠癌切片中的179张(179/181,98.9%)得到了很好的标注迁移,即使在第二次扫描不清楚的情况下也能很好地匹配,如第四例所示。我们发现只有两张切片没有获得良好的图像匹配,如图5所示。这两个病例失败的原因是由于扫描仪中嵌入的预处理导致两个WSI之间存在很大的空间差异。由于两个WSI在空间上相距太远,因此配准所需的迭代计算步数远大于预设的参数。结果表明,虽然标注迁移的方向正确,但其移动量不足以匹配图像结构。第一个病例,目标图像Im显示的是整张切片,而图像In只显示了整个切片的一部分(大约50%)。第二个病例,两张切片的重叠部分很少,主要的组织部分彼此相距较远。

图2 显示直接将病理医师在WSI Im(左)空间上的标注应用于WSI In(右)空间的结果。结果表明,直接应用标注会导致在新的WSI空间中的偏差(2A~2D:病例1~4)

图3 最佳仿射变换迁移图像的图示。带标注的目标图像Im(左);带标注的仿射迁移图像(右)(3A~3D:病例 1~4)

图4 标注迁移结果的图示。带标注Cm的目标图像Im(左);仿射迁移标注Cn的图像In(右)(4A~4D:病例1~4)

图5 实验中的两个失败案例,每一行对应一对。左栏显示目标图像Im,右栏显示图像In。(5A、5B:失败病例1,5C、5D:失败病例2 )

四、时间成本统计

对于这181对结直肠癌图像,每对的计算时间从36.69秒到106.54秒不等。从时间-成本分布来看,我们发现大多数对(125/181)的计算时间少于1分钟(如图6所示)。

图6 每个图像对的计算时间成本分布

讨 论

由于光学设计、嵌入式图像处理、运动控制系统和参数设置的不同,不同的扫描仪具有不同的特性。因此即使使用相同的切片,它们在尺寸、颜色、位置、比率和清晰度等特征方面也会产生非常不同的WSI。在数字病理学研究中,由深度学习方法创建的模型在训练数据集中使用时最有效,而在其他数据集中可能效果较差,部分原因是其他数据集是来自不同扫描仪生成的WSI。在放射学中,特别是神经放射学研究中也存在类似的问题。一些软件程序如 FreeSurfer[29]、FSL[30]和 SPM[31]可以部分消除大脑图像中与设备相关的差异,从而解决这个问题。在病理学深度学习的研究中,有必要考虑扫描仪可能带来的负面影响,但目前还没有合适的方法来解决这个问题。

更重要的是,目前训练深度学习模型的方法首先需要病理医师在WSI上手动标注目标组织。因此,WSI上可以显示出病理医师的手动标注线。如果这些标注线直接迁移到由另一个扫描仪获得的WSI上,扫描仪的差异可能会导致手动标注区域的显著变化。重复标注这些WSI是不现实的,因为病理切片的WSI尺寸很大,手工标注需要花费大量的时间。另外,即使是同一个病理医师同时做两次标注,第二次的手工标注也不会和第一次完全一致,这可能会影响模型训练。因此,一种准确传递标注的方法将节省大量的时间和人力成本,并确保标注的一致性和准确性。

在这项研究中,我们使用两种扫描器扫描同一张病理切片,通过自动化算法将病理医师在其中一张WSI上的手工标注直接映射到另一张WSI上。结果证实,不同扫描仪在每个切片上产生的WSI存在差异。直接将手动标注映射到不同的扫描仪生成的WSI也会产生许多偏差。使用我们提出的方法,我们在98.9%的切片中成功地将标注线与新的WSI匹配。并且计算时间较短,表明该方法在大规模应用中是可行的。

在我们的实验中,我们有两个失败的例子,因为这两个图像中组织的初始位置非常不同。虽然图像匹配方法是为解决位置差问题而设计的,但是当初始点离实际点太远时,这种方法可能会失败。在这种罕见的情况下,我们首先使用手动裁剪来粗略地从宏观上减少空间差异,然后执行图像对齐时,这两幅图像也得到了很好的匹配。下一步,我们计划增加一个自动预处理步骤,可以自动解决位置差大的问题。

我们的研究有一些局限性。由于WSI图像的分辨率极高,我们需要使用缩略图进行对齐。因此,得到的转换可能具有超像素级的误差,其中超像素的大小是缩略图生成中使用的下采样率。当我们对WSI进行抽样时,一些重要的细节可能会丢失。该方法的另一个局限性是使用场景。目前,我们只能从不同扫描仪扫描的同一切片上为WSI传递标注,而不能像用于脑结构分割的atlas方法那样直接将标注从不同的玻片迁移到WSI上[32]。

在本文中,我们提出了一种自动、高效、实用的方法来实现来自同一物理切片的不同WSI之间的标注传递。利用互信息和随机抽样策略,在保持高精度和高效率的前提下,避免了病理医师对不同扫描仪图像的重新标注,保证了同一切片上不同扫描仪获取的WSI标签的一致性。通过使用所提出的标注传输方法,研究人员可以生成特定于多个扫描仪的带标注训练数据集,而不增加病理医师的工作量,从而加快开发特定的深度学习模型。

猜你喜欢
扫描仪切片医师
中国医师节
韩医师的中医缘
中国医师节
便携式膀胱扫描仪结合间歇性导尿术在脑卒中合并神经源性膀胱患者中的应用
《中国医师节》
新局势下5G网络切片技术的强化思考
5G网络切片技术增强研究
网络切片标准分析与发展现状
三维扫描仪壳体加工工艺研究
浅析5G网络切片安全