吴崇数,林 霖,薛蕴菁,时 鹏*
(1.福建师范大学数学与信息学院,福州 350117;2.数字福建环境监测物联网实验室(福建师范大学),福州 350117;3.福建医科大学附属协和医院放射科,福州 350001)
(∗通信作者电子邮箱pshi@fjnu.edu.cn)
近年来,世界肿瘤发病率和死亡率仍呈上升趋势[1]。作为肿瘤检测的金标准,组织病理学检验对肿瘤的诊断有十分重要的参考价值。在肿瘤组织显微图像的分析中,苏木精-伊红染色病理切片是肿瘤组织显微图像分析中常用的染色方法之一[2-3]。病理切片中细胞核被碱性的苏木精染成蓝紫色,细胞质被酸性的伊红染成红色,因此HE 染色图像中有三种不同的细胞结构:细胞核、细胞质和未染色的胞外间隙。然而,对于病理图像分析而言,人工分析大量的HE 染色图像数据是一项艰巨的任务,且分析的结果易受主观因素的影响,工作效率难以提高。
随着图像处理技术在医学领域的广泛应用,HE染色图像的自动分割成为计算机辅助诊断研究的重点之一。目前相关研究主要可分为两类,分别是基于阈值[4-6]、形态学[7-9]的图像处理方法与基于机器学习[10-13]的方法。其中基于阈值的方法主要通过对图像进行预处理,使其易于进行阈值分割,如转换色彩空间[4]、构建超像素图像[5],或利用优化算法得到最优阈值[6]。基于形态学的方法通过像素强度、梯度流和不同细胞结构间的染色差异来寻找分割边界,如统计水平集[7]、活动轮廓模型[8-9]以及其他的边缘检测算法。但由于染色后细胞核、细胞质以及胞外间隙之间没有明确的界限,难以寻找合适的阈值将各组织结构加以区分;而细胞核形状的多样性也导致在细胞核检测和分割中难以建立稳定的形状模型。
基于机器学习的方法则通过将图像中的所有像素划分为不同的类别达到分割的目的,近期在病理图像分割方面大部分为基于深度学习的监督学习方法。文献[10]利用多尺度卷积网络和基于图分割的方法实现了一个从粗到细的细胞核分割框架;文献[11]设计了类似于U-Net 的卷积神经网络结构进行各组织语义分割;文献[12]提出了一种基于全卷积网络的深度轮廓感知网络,可同时输出分割概率图及核间轮廓线;文献[13]将快速扫描深度卷积神经网络应用于像素级区域分割。虽然上述的基于卷积神经网络的方法在各自的实验中都取得了非常好的分割效果,但是在实际的HE 染色组织病理图像分析时,采用监督学习方法存在的困难主要有两点:第一,对病理图像的各组织轮廓标注是一项耗时且繁琐的任务;第二,HE染色质量参差不齐,染色结果存在较大差异,这使得如何选取训练样本成为一个难题,且每一个网络的分割能力与训练样本密不可分,泛化能力差。
在临床实践中,高通量计算机辅助HE 染色图像处理需要高鲁棒性和尽可能少的人工参与,将染色误差和主观错误对结果的影响降到最低。本文方法基于自监督学习思想,通过像素的第一层聚类,得到用于精确分类的带标签的训练样本,在基于可靠性选择的训练样本基础上再进行第二层分类,达到精确分割各类组织的目的。首先,在特征提取时考虑了HE 图像的色彩强度和局部相关性,对RGB 色彩空间进行互信息计算进行特征选择。将得到的与分割结果具有高相关性的特征进行组合,通过K-means 像素级聚类将图像分割成各类色彩稳定的预定义组织结构以及各类模糊区域。其中预定义色彩稳定区域包括细胞核色彩稳定区域、细胞质色彩稳定区域和胞外间隙色彩稳定区域,模糊区域包括核质模糊区和质隙模糊区。然后,将预定义组织结构稳定色彩区域组成训练集,采用朴素贝叶斯分类方法,对模糊区域进行像素级精确分割并通过形态学后处理,得到细胞核、细胞质和胞外间隙之间的精确边界。最后,对粘连细胞核区域进行基于形状和色彩强度相结合的混合分水岭分割,得到单个细胞核之间的准确边界,为病理学家对特定细胞核或感兴趣区域(Region of Interest,ROI)进行深入量化分析提供可靠依据。
为了得到有效且稳定的HE 染色图像分割结果,如图1所示,本文提出了一系列自动化处理流程,包括图像预处理、特征提取、K-means聚类、朴素贝叶斯分类以及粘连细胞核分割。该流程能够准确分离出图像中细胞的不同组织结构,在此基础上进行的量化分析所得一系列指标将帮助病理学家更高效地做出诊断。
图1 基于自监督学习的HE病理图像分割流程Fig.1 Flowchart of HE stained pathological image segmentation based on self-supervised learning
本文中采用的病理图像样本为脑膜瘤组织HE 染色图像。世界卫生组织(World Health Organization,WHO)将脑膜瘤分为三级:良性脑膜瘤(WHO Ⅰ级)、非典型脑膜瘤(WHOⅡ级)和间变型或恶性脑膜瘤(WHO Ⅲ级),并将一级称为低级别脑膜瘤,将二、三级称为高级别脑膜瘤[14]。实验中所收集的组织样本为高级别和低级别两类脑膜瘤组织切片,均来自福建医科大学附属协和医院的临床病例(伦理批件号:2019KJTYL024)。在染色图像获取阶段,对宏观组织切片进行切分得到微观组织切片,并用文献[15]中所述的标准组织学方法进行HE 染色。最后得到大小为2 048×1 536×24 比特的RGB 图像并存储为tif格式。由于原始HE 染色图像通常存在两种质量问题,即染料在组织细胞上的分布不均匀以及细小颜料颗粒形成的椒盐噪声。根据图像的特点,使用滑动窗口为5×5的中值滤波器[16]和高斯滤波器[17]相结合的方式对图像进行滤波处理,使得图像的色彩强度均匀化并消除了椒盐噪声。
本文所提出的自监督像素级分割方法的关键在于将每个像素作为一个单独的样本,从而将基于形态学特征的传统图像分割方法转变为基于像素的分类方法。因此,选择与分类结果具有高相关性的特征在该方法中起着决定性作用。如图2 所示,通过计算各类色彩特征与像素最终分类结果的互信息对特征进行选择,其中互信息能够反映类标签与备选特征之间的相关程度,互信息值越大,表示该特征对分类的结果影响越大[18]。此外,由于不同分类结果对应的特征互信息有较大差异,因此选取将像素分为三类的完整类标签和仅包含细胞核与背景的两类标签分别进行计算,增强特征选取的鲁棒性。
为节省图像预处理时间,提高分类效率,基于最常用的RGB色彩空间进行特征选择。具体计算方法包含以下步骤:
1)在RGB 色彩空间中,呈蓝紫色的细胞核、红色的细胞质以及白色的胞外间隙都有其特定的色域表现,因此能够有效分辨HE 染色图像的各细胞结构的色彩差异,故将RGB 色彩空间的各个色彩通道作为备选特征,如图2(d)~(f)所示。
2)基于层次K-means 聚类的HE 染色图像分割模型[19]已经被证明对于HE 染色图像的分割是有效的,因此将其作为基准分割模型,获得不同组织的可靠的类标签,如图2(b)所示。
3)分别计算各备选特征与类标签之间的互信息值。以离散变量为例,两个随机变量X与Y之间的互信息定义如下:
其中:Ωx、Ωy分别为X、Y的样本空间;p(x)、p(y)分别为X、Y概率密度函数;p(x,y)是X、Y的联合概率密度。
图2 用于互信息计算的特征导向图Fig.2 Feature-oriented graphs for mutual information calculation
表1互信息的计算结果给出了RGB色彩空间的三个色彩通道与类标签的互信息值。由互信息计算结果可知,在RGB色彩空间中,R、G 两个色彩通道为分类结果提供的信息量相近且都要远大于B 色彩通道,因此选择R、G 两个色彩通道并将其映射到二维特征空间中形成二维特征,将该二维特征表示为(R,G)。
表1 类标签与备选特征间的互信息值Tab.1 Mutual information values between class labels and candidate features
选取的二维特征集以色彩强度的形式保留了不同组织结构的色彩信息,因此使用K-means 聚类[20]可以将属于不同类型的组织结构自动地进行划分,对组合好的特征集进行聚类,并根据色彩强度值的特点采用曼哈顿距离作为相似度指标。其中曼哈顿距离表示两个点在笛卡尔直角坐标系上的绝对轴距之和,定义如式(2)所示:
其中:(xi,yi)和(xj,yj)为两个样本点特征量,d(i,j)为它们之间的曼哈顿距离。
由于HE 染色图像中,染色细胞核、细胞质以及胞外间隙之间界限较模糊,基于这一特点首先将像素聚类为以下5 类:细胞核色彩稳定区域、核质模糊区、细胞质色彩稳定区域、质隙模糊区以及胞外间隙色彩稳定区域。图3(b)给出了HE 染色图像经K-means 聚类后的每个像素所属的类别及分布,其中不同的像素类别色彩由外到内分别定义为浅黑色、浅灰色、灰色、浅白色、深灰色。红色(深灰色)为胞外间隙像素,黄色(浅白色)为质隙模糊区像素,绿色(灰色)为细胞质像素,青色(浅灰色)为核质模糊区像素,蓝色(浅黑色)为细胞核像素。由图3(c)、(e)和(g)可以看到细胞核色彩稳定区域、细胞质色彩稳定区域和胞外间隙色彩稳定区域在原图中的分布,分别代表了各自所属细胞结构核心区域的染色色彩强度,因此也是最接近先验知识的色彩部分,其分布近似于人类专家的标注结果,可作为自监督学习中第二层精确分类的标记样本。图3(d)为核质模糊区,其中的像素的RGB 值处于细胞核色彩与细胞质色彩的过渡区域。图3(f)为质隙模糊区,其中的像素的RGB值处于细胞质色彩与胞外间隙色彩的过渡区域。
图3 K-means聚类结果Fig.3 K-means clustering results
由于核质模糊区和质隙模糊区属于色彩过渡区域,因此二者需要根据一定的先验知识才能对其进行精细分割。由聚类所得到的细胞核稳定区域、细胞质稳定区域和胞外间隙稳定区域的色彩分布最接近先验知识,可基于此对模糊区域进行分割。本文采用朴素贝叶斯分类器对模糊区域进行像素级分类。
设S=(s1,s2,…,sn)为一个待分类项,每个si为S的一个特征属性。现有类别集合C=(c1,c2,…,cm),求出在S的特征条件下,所有类别的概率,选取概率最大的类别作为S的类别标签,可以得到朴素贝叶斯分类器的计算式[21]定义如下所示:
其中:V(S)为S的类别标签。对于所有类别,p(S)是一个常数,p(ci)为类别先验概率,p(s1|ci),p(s2|ci),…,p(sn|ci)是在类别为ci的条件下S中各特征属性的条件概率,这些都可以从训练集中得到。在此处,训练集由细胞核色彩稳定区域、细胞质色彩稳定区域和胞外间隙色彩稳定区域的像素组成,待分类样本由核质模糊区和质隙模糊区的像素组成。
在进行朴素贝叶斯分类实验中发现,训练集样本数量不足可能导致分类精度降低。因此需要对训练样本进行扩充,以提高细胞核的分割精确度,扩充的训练数据集由以下因素决定:
1)对细胞核的精确分割是HE 染色图像分割的首要任务。
2)如图3(d)和(f)所示,模糊区域主要集中在蓝色细胞核与红色细胞质区域。
3)由图3(g)可知,在进行像素聚类后,白色的胞外间隙部分已基本完全区分。
结合互信息的计算结果可知,R 色彩通道对细胞核的分割有最大的贡献,因此,取RGB 色彩空间中的R 色彩通道,并对其进行窗口大小为5×5、步长为1的均值滤波。
由式(4)计算所得特征记为R',并用其代替原特征集(R,G)中的R特征,构成新的二维特征集(R',G),将(R,G)和(R',G)一同作为朴素贝叶斯分类器的训练集。扩充训练集后,增加了R 色彩通道在进行朴素贝叶斯分类时的权重以及增强图像的局部相关性。基于扩充后的训练集,计算各组织结构的先验概率,待分类样本基于这一先验概率计算后验概率,取最大的后验概率作为待分类样本的类别。在图4 中,图(a)中两种模糊区域所有的像素经朴素贝叶斯分类后得到模糊区域像素所属的三个预定义类别,如图(b)中所示;在与第一层聚类所得的稳定区域结合后,得到完成分割后的所有像素分布图,如图(c)所示,红色(深灰色)属于胞外间隙的像素,绿色(灰色)属于细胞质的像素,蓝色(浅黑色)属于细胞核的像素;图(d)为总模糊区域;图(e)为第二层分割后的分割结果类标签伪彩色图像。
图4 朴素贝叶斯分类结果Fig.4 Naive Bayesian classification results
在临床生物学研究中,需要对组织病理学图像中的不同细胞结构进行定量分析,如计算细胞核数量、核质比等指标[19]。细胞核数量是肿瘤的分析的重要指标之一,仅将细胞核区域简单分割不能满足研究需求;因此,需要对细胞核区域进行精确分割,找到每个细胞核的边界。分水岭算法[22]是一种图像区域分割法,在分割的过程中,它会把跟邻近像素间的相似性作为重要的参考依据,从而将在空间位置上相近并且灰度值相近(求梯度)的像素点互相连接起来构成一个封闭的轮廓。分水岭算法常用的操作步骤如下:彩色图像灰度化,然后求梯度图,最后在梯度图的基础上进行分水岭分割,求得分段图像的边缘线[23]。由于存在一些细胞核粘连紧密,导致相互间的边界色彩无法与细胞核色彩进行区分,因此仅进行基于色彩标记的分水岭分割无法满足实际需要。针对HE 染色图像中粘连细胞特点,本文采用基于色彩标记与基于形态学相结合的混合分水岭分割方式加以改进。在设计初始标记(即区域极小值点)时,取聚类得到的细胞核色彩稳定区域进行形态学处理,得到初始标记,并以此进行第一阶段的分水岭分割。根据得到的细胞核形状,进行第二阶段的基于形状的分水岭分割,得到最终的分割结果,如图5所示。
图5 细胞核区域分水岭分割效果Fig.5 Nucleus region segmentation effect based on watershed algorithm
本文采用文献[19]中定义的一系列肿瘤HE 图像的特征指标对分割后图像进行量化分析。如表2 所示,这些关键指标表征了健康组织和肿瘤组织之间的形态差异,且能够反映出肿瘤的进展情况。其中,细胞核数量、细胞核面积占比和细胞核与细胞质的面积比三种定量指标与肿瘤的发展具有高度相关性,它们构成了相关病理统计分析所需的组织学微观结构,并且已经在淋巴瘤定量实验[19]中得到证实。
表2 肿瘤组织细胞的关键形态特征集Tab.2 Key morphological feature set of tumor tissue cells
在进行HE 染色组织切片图像采集时,不同时间、光照、对比度等条件下得到的图像的色彩有较大的差异,而且不同级别的脑膜瘤在细胞密度、细胞核占比以及核质比等指标上也存在差异,因此本文以脑膜瘤HE 染色图像验证算法的鲁棒性及精度。实验中选取高低级别脑膜瘤的HE 染色组织切片共46 例,其中高级别23 例,低级别23 例。图像获取过程中,选取每个组织切片中的5 个典型感兴趣区域(Region of Interest,ROI)进行图像采集,构成实验用HE图像样本集。与此同时,在2.50 GHz CPU 和8 GB RAM 的且无并行计算优化的环境下,使用Matlab 处理1 536×2 048像素的RGB 图像。本文实验共使用230(46 组×5)幅HE 染色图像对全自动分割模型进行评估,并针对以下三种评估方式进行了系统性实验:1)算法鲁棒性分析;2)与前期方法的分割效果对比;3)与人工专家的分割结果对比。
由于HE 染色图像的色彩分布受多种因素的共同作用,不同的采样组之间会呈现出图像色彩和细胞核形状上的多样性,因此实现不同组HE 染色图像的精确分割对算法的鲁棒性是一个巨大的挑战。为检验本文的分割算法在处理不同组HE染色图像时的稳定性,基于同一组织切片所得到的图像中各类细胞组织分布具有相对较高的相似度这一特点,本文从46 组HE 染色切片数据集中随机选取了10 组作为10 个样本,分别计算每组图像中细胞核、细胞质面积占比与核质比等能够反映细胞组织分布的特征,然后对每组所得到的数据计算标准差作为算法稳定性的判据,实验结果如图6所示。
图6 不同组图像各指标计算结果的标准差对比Fig.6 Standard deviation comparison of each indicator calculation result for different group of images
从图6中可以看出,对于属于同一组织切片的HE 染色图像,细胞核区域占比、细胞质区域占比和核质比的各自标准差都保持在10%以内,大部分在5%以内。这可以反映出以下两点:第一,所选定的组织切片上的细胞组织分布基本一致,可作为图像分割实验的可靠依据。第二,本算法对不同级别脑膜瘤的HE 染色图像的处理具有较高的稳定性,且对细胞核分割的稳定性高于对细胞质和胞外间隙的分割稳定性。
在对组织进行苏木精-伊红染色时会受到各种因素的影响,导致获得的图像质量下降。其中染料分布不均匀是最为常见的一种情况。染料分布不均匀会出现细胞核染色过浅或者细胞质染色过深的情况,这使得细胞核与细胞质之间没有清晰的色彩边界。因此在使用层次K-means 聚类对这类低质量HE 染色图像进行分割时,会出现这样一种情况:第一次聚类将较深的细胞质区域划分到细胞核中,第二次聚类在随机选择初始类中心时,属于细胞核类的聚类中心就会向细胞质区域偏移,导致第二次聚类时将原属于细胞质区域的部分像素再次划分到细胞核中,再加上图像区域填充,裂缝修复等图像后处理步骤,就会产生成片的粘连区域,导致后续无法对细胞核进行精确分割的同时也降低了细胞核的分割精度。图7中的两幅图像由于细胞质染色过深导致使用类别为3 的K-means聚类进行划分时,颜色较深的细胞质区域像素被错误地划分为细胞核区域,由此产生成片的粘连细胞核区域,加上分水岭分割后的效果如图7 中的层次K-means 聚类分割结果图。
图7 低质量图像分割效果对比Fig.7 Low quality image segmentation effect comparison
本文中改进的算法在进行第一层的聚类时,不直接将类别数设置为预定义结构的3 类,而是设置为5 类,目的是能够将边界过渡区域划分出来,并且得到的细胞核区域、细胞质区域和胞外间隙区域的色彩稳定区域,将其作为监督样本集。通过计算各类别的先验概率,第二层的朴素贝叶斯分类基于此先验概率对模糊过渡区域像素进行分类,效果如图7 中的本文方法分割结果。
细胞核数量是反映HE 染色病理图像分割精度的金标准,也是HE 染色图像分割的首要任务。细胞核的量化指标对病理图像分析起着至关重要的作用。在此设计实验对比几种常用的细胞核分割方法的分割效果,其中包括在医学图像处理上常用的ImageJ 软件[24]中的细胞核计数插件RetFM-J 方法[25],基于色彩标记的分水岭分割方法[26]和基于细胞核形态的分水岭分割方法[27]。从实验的高级别和低级别脑膜瘤HE染色图像组中分别随机选取3 组(一共6 组,每组中有5 幅图像,总图像数为30 幅)作为待测样本,然后用不同的几种分割的算法和病理学专家分别进行细胞核个数统计。由于图像中的细胞密度较大,病理学专家将每幅图等分成16(4×4)个区域,每个区域大小为384×512 像素,然后专家根据细胞分布选择4 个ROI 进行测量,并基于细胞均匀分布的原则估计整个图像的相关指标。详细的计数对比结果如表3 所示,以专家计数作为衡量算法准确度的标准,RetFM-J方法的细胞和计数远大于专家计数结果,基于色彩标记的分割方法仅将第一次K-means 聚类结果的细胞核核心色彩部分作为色彩标记进行分水岭分割,基于形态的分割方法将细胞核区域仅依靠粘连细胞形态进行分割,本文方法将色彩标记和形态分割进行结合。
表3 给出了各种方法的计数结果与专家计数的误差及方差情况。
从表3 中可以看出:本文方法的误差基本保持在5%以内,平均精度在96%以上,与其他方法相比,其方差维持在一个较低的水平;而且,本文方法对低级别3 号样本的分割误差与其他组的差距较大,其原因可能为在进行染色组织图像获取时,所选取的5个ROI区域的细胞分布不均匀。表3中的计数对比结果反映出对随机抽取的6 组样本细胞核计数结果中,本文的混合分水岭分割方法的细胞核数量最接近专家的计数结果。在细胞核形状较为均匀且均呈近似圆形的情况下,基于细胞形态的分割方法的分割精度也可能接近专家的计数结果。部分由本文的全自动分割方法的分割效果图放置在图8 中。结合表3 和图8 可知,本文提出的自动化分割方法可以代替传统人工计数方法,大大提高病理分析效率。
图8 高低级别脑膜瘤HE染色图像的分割效果Fig.8 Segmentation effect of HE stained images of high and low grade meningiomas
表3 细胞核统计结果对比Tab.3 Comparison of nucleus statistics
作为最常用的组织染色技术之一,HE染色图像被广泛应用于组织病理学分析。然而,与其他染色技术相比,HE 染色图像存在结构边界模糊、切片染色不均匀等问题,且不同实验环境下得到的图像的色彩有较大的差异,对算法鲁棒性和准确性要求较高。这使得HE 染色图像的高通量分析难以进行,也是制约分析效率的主要原因。
本文提出的方法将无监督学习K-means 聚类方法和有监督学习朴素贝叶斯分类方法相结合,形成了HE 染色图像全自动分割并量化输出相应指标的完整过程。三层逐步求精的自监督分割方法根据HE 染色病理图像本身的像素特点,自适应地寻找个组织结构色彩稳定区域作为监督样本,使得分割结果更加稳定和有效。实验结果表明,所提出的全自动自监督学习方法无需人工干预,在细胞核计数上已经达到了病理学专家水平。
与前期全自动层次K-means 聚类方法[18]相比,所提出的方法改进体现在以下几点:第一,将特征控制在RGB 色彩空间,并从中提取精炼的特征,不需要进行特征空间转换或更多的特征计算,降低了特征提取阶段的计算量。第二,通过对HE染色图像的色彩分布分析改进了聚类的类别数,提取到了各结构的稳定核心色彩区域,为实现第二层的朴素贝叶斯分类提供可靠依据。第三,因为监督集的存在,克服了层次聚类在一些低质量图像上常见的分割错误。此外,在未经优化的常规实验环境下,本文方法处理一幅图像平均时间花费在35 s左右,完全能够满足临床使用的实时性要求。
本文提出的方法优势主要集中在以下几个方面:第一,与传统HE 染色图像分割方法相比,该方法以单个像素作为研究对象,解决了基于形态学的分割方法在处理低质量图像时所存在的问题,同时考虑到邻域像素的影响,提取局部相关特征,提高了分割的准确性和鲁棒性。第二,与有监督方法相比,所提出的方法的训练样本由聚类自动生成,不需要额外的人工标记样本,可以实现全自动化批量处理。由于大部分HE染色图像与本实验所使用的脑膜瘤HE 图像有着相似或相同的细胞结构和色彩分布特性,因此本文的算法存在较强的泛化能力,能够适应不同类型的HE 染色图像分割任务。未来对本文方法进一步提升的方面将主要集中在第一层的聚类过程中。由于K-means 聚类在选择初始类中心时存在不确定性,可能会导致所产生的监督集不准确进而影响第二层的分割结果,最终导致分割精度下降。混合分水岭分割由于色彩标记的选择策略以及细胞核形态的多样性导致其仍然存在一定的过分割现象,针对这两个问题,在今后的研究中可以加入一些标注样本使得第一层产生的监督集更加准确,设计更稳定的混合分水岭分割模型以提高细胞核分割精度。