王素英 张慧芝 丁华新*
(宁波市临床病理诊断中心,浙江 宁波 315000)
近年来,使用数字扫描仪创建病理组织的切片图像(全切片数字化成像,Whole Slide Image, WSI),使病理医生的阅片可以不受显微镜的限制,极大地提高了病理教学、病例讨论等方面的效率,也使得远程会诊、开发病理人工智能等成为可能,全切片数字化成像(WSI)的使用因此越来越广泛。但是在使用过程中,也产生了一些问题,比如在载玻片的制备过程中,不可避免地会出现一些伪影(折叠、气泡、划痕、压缩等)[1]、染色不均、染色剂浓度差异和染色剂批次更换造成的差异;在载玻片的扫描过程中,不同的设备商可能采用不同的扫描方式进行载玻片的数字化,扫描仪的不同选择也可能会影响图像的质量,出现图片模糊、对比度低等情况[2]。造成差异的来源可能是不同因素或多种因素叠加,从而导致数字病理图像的呈现不同的实质性差异,这种差异制约了WSI 的临床病理应用。
从临床上看,由于制片扫片质量原因而被舍弃的载玻片在很大程度上拖累了临床病理工作流程,因为这些载玻片均需要重新制作或重新扫描,从而导致延长病理诊断的时间,造成人力、物力的浪费,也会加重病人的医疗费用[3,4]。从研究角度看,以伪影为代表的诸多噪声会对疾病检测、诊断和预后等任务的分类器的开发和验证造成不利的影响,这一点对于基于深度学习和机器学习来说尤为明显[5,6]。目前,大多数临床和研究应用的质量控制都是通过手动执行的,这使得数字图片质量控制过程主观、费时、费力且容易出错。因此,我们研究了一种自动化的数字病理图像质量控制方法,通过一系列的数字图像处理技术,针对病理图像的存在的噪声进行识别和剔除,从而达到对病理图像的自动化质量控制的目的,大大提高了病理工作者的工作效率,也为基于病理图像的医学研究提供可靠的数据源保障。
图像分割是自动识别图像中目标的基础,由于数字病理图像本身的组织特征复杂而丰富,噪点和模糊呈现的形式多样,因此一般的分割流程难以是有效分割出病理图像中的可用组织区域。本文的将多种图像预处理方法和分割方法相结合,形成一套完整的质量控制流程,所包含的处理模块流程如图1 所示。
图1 质量控制流程图
首先,应用数字扫描仪扫面制作完毕的玻璃切片,读取数字病理图像,然后进行病理组织区域提取。由于内存的限制,一般难以直接处理具有数亿像素规模的WSI,即使能处理,也是一项非常耗时、繁琐的工作,为了快速获得初步的WSI 组织区域,本文利用图像处理中的多分辨率金字塔结构[7]和OTSU 算法[8]提取WSI 中的组织区域。具体做法如下:首先利用Openslide 对WSI进行下采样获得低分辨率下的数字病理图像,由于在HSV 颜色空间中分析颜色值分布更加方便,因此我们将病理图像从RGB颜色空间转换为HSV 颜色空间;然后利用基于Otsu’s 的阈值分割方法生成二进制的分割掩码,并通过适当的形态学操作以获得最佳的分割掩码;最后再利用多级映射将分割掩码还原到WSI 上,从而提取出对应的组织区域,流程如图2 所示。
图2 基于多级映射的WSI 组织区域提取流程
污迹区域的检测内容主要包括裂痕、褶皱、层叠、气泡、划痕、压缩等噪声。对上一步获得的组织区域进行Canny 边缘检测[9],获得污迹的边缘轮廓;然后在污迹轮廓内做填充,并与原始的组织区域做交集运算,获得剔除污迹的组织区域。
由于没有准确对焦造成病理图像产生模糊区域,通常处理模糊区域一般使用聚焦评价函数以获得图像的模糊状态的分布情况。常见的聚集评价算子有以下几种:
灰度方差算子, 方差用来描述一组数据偏离平均值的程度。一幅聚焦清晰的图像要比一幅离焦的图像有更丰富的灰度变换,即方差结果越大[10,11]。所以用图像的灰度变化的平均程度即方差来衡量图像的聚集程度。
梯度算子,聚焦清晰的图像具有很强的边缘特征信息,由于梯度算子 ∇f(x,y)具有各项同性和旋转不变性,可以把图像中各异走向别的边缘和线条突出,聚焦程度越高,图像边缘锐化程度越高,所以图像的聚焦程度也可以用灰度梯度来评价,公式如下:
其中Wn×n是(x,y)像素点为中心,大小为n× n 的正方形邻域,f(x,y)是像素点(x,y)的灰度值。
上述的聚焦评价算子均是以一阶导数为基础的梯度函数,本文为了得到更加准确的模糊区域,采用以二阶导数为基础的拉普拉斯算子,其原因是二阶导数相比于一阶导数能够进一步放大函数值的变化,对高频分量的提取更加准确[12]。由于在拉普拉斯算子的原始形式中,对x 方向和对y 方向的二阶偏导数会存在符号相反,相互抵消的现象,从而使得图像的聚焦产生偏差。因此选用改进的拉普拉斯算子进行计算,其计算公式如下:
根据改进拉普拉斯算子计算出模糊区域状态的热力散点分布图,从而按照热力图阈值过滤出大于阈值的模糊区域分布,并对其进行高斯滤波,获取模糊区域的掩码。最后将原始组织区域与模糊区域掩码取差集,即可获得可用组织区域。
本研究采用任意的两张WSI 作为测试对象,测试结果如图3 所示。
图3 测试结果
从测试结果来看,无论是污迹区域还是模糊区域,本文中所研究的病理图像的质量控制方法能够很好的剔除噪声区域,只保留有效可用的组织区域,从而验证了本自动化的数字病理图像质量控制方法的有效性和可行性。
WSI 是数字病理学领域研究的基础,WSI 的质量控制是数字病理发展的重要一环。本文介绍的自动化数字病理图像质量控制方法,首先读取数字病理图像。利用图像处理中的多分辨率金字塔结构和OTSU 算法提取WSI 中的组织区域。检测污迹区域,利用Canny 边缘检测获得污迹的边缘轮廓,填充污迹轮廓内,与原始的组织区域做交集运算,获得剔除污迹的组织区域。采用以二阶导数为基础的拉普拉斯算子检测模糊区域,计算出模糊区域状态的热力散点分布图,按照热力图阈值过滤出大于阈值的模糊区域分布,对其进行高斯滤波,获取模糊区域的掩码,最后将原始组织区域与模糊区域掩码取差集,最终利用分割掩码进行多次差集运算,获得有效可用的组织区域。通过两次实验结果,验证了本文质量控制方法的正确性和可行性,有助于提高病理医生的诊断效率以及提供了可靠有效的高质量数字病理图像。