金文东,阴慧娟,李迎新
据美国癌症协会统计,癌症的总死亡率在20世纪经历了增长后,从1991年至2018年下降了31%,这主要得益于肿瘤预防、早期发现和治疗方法的改进[1]。为进一步了解癌症关键转变过程中肿瘤动态生物系统中细胞间的相互作用,实现对癌症的精确治疗,美国国家癌症研究所(National Cancer Institute,NCI)在癌症登月计划中提出建立包括肿瘤发生、局部扩张、转移和治疗抗性等关键转变的三维图谱——人类肿瘤图谱网络(Human Tumor Atlas Network,HTAN)[2]。这项工作主要通过分子分析、空间分子分析、组织学分析和解剖学分析生成数据,不仅包括肿瘤样本的收集,同时涵盖细胞空间数据分析及可视化工具的开发。
免疫组织化学(immunohistochemistry,IHC)作为组织病理学分析的金标准,可以实现多种肿瘤标志物的标记。全切片图像(whole slide images,WSIs)是通过图像扫描技术获得的全组织切片二维数字图像,通过空间、时间维度的扩展,可以实现单细胞图谱的三维和四维绘制。目前,IHC分析图像分割的金标准是颜色反卷积(colour deconvolution,CD)方法,常在ImageJ中实现[3]。针对WSIs这种大内存图像,Bankhead P等[4]开发了开源数字病理系统QuPath。基于CD的分割原理,ImageJ和QuPath均只能实现3种染色以下的明场图像分析,而肿瘤生物学效应常常具有多个肿瘤标志物;同时,目前的可视化分析方法缺乏对肿瘤标志物空间位置及组织与细胞间空间分布关系的分析。
Lab色彩空间是基于人类视觉原理,将颜色分成明度L*、红绿a*和蓝黄b*通道的一种色彩模式,比红绿蓝(red green blue,RGB)和青品红黄黑(cyan magenta yellow black,CMYK)的色域更广。K均值聚类是一种对目标数据集划分的无监督学习方法,结合Lab色域可以模拟人眼对颜色分类。空间分布分析[5]是地理信息系统(geographic information system,GIS)中对实体或事件的空间定量研究方法,通过对空间数据和空间模型的联合分析发掘空间对象的潜在信息,包括空间位置、分布、形态、形成、演变和空间对象间的空间关系等。据此,笔者提出对Lab色域的病理图像进行2次K均值聚类实现WSIs肿瘤生物标志物的分割和阈值提取,结合空间分布分析方法实现量化和可视化分析。以小鼠乳腺癌光动力治疗(photodynamic therapy,PDT)为例,阐述其在肿瘤生物学效应分析中的应用,基于获取的阈值对序列苏木精-伊红(hematoxylin-eosin,HE)、TdT介导的dUTP缺口末端标记(TdT-mediated dUTP nick end labeling,TUNEL)和血小板内皮细胞黏附因子(platelet endothelial cell adhesion molecule-1,PECAM-1/CD31)染色WSIs数据集进行图像分割,实现对肿瘤PDT后坏死、凋亡和血管等生物学效应的空间分布分析。
所用小鼠乳腺癌PDT3d后的HE、CD31和TUNEL染色WSIs数据集来自科学数据银行(Science Data Bank,ScienceDB)[6]数据库,图像分辨率为0.5μm/pixel;由中国医学科学院生物医学工程研究所激光医学实验室制作和采集。图像阈值提取、分割和空间分布分析均在MATLAB R2020a中实现。
1.2.1 阈值提取和图像分割
实验算法(Kmeans-Lab)以Lab色彩空间K均值聚类实现图像分割。阈值提取流程如图1a所示,随机选取3幅阳性WSIs,每幅截取3个1 000×1 000像素的阳性图像拼接成一个3×3的阳性图像(训练图像),用K均值聚类进行图像分割后提取模板用于整张WSIs的图像分割。HE、CD31和TUNEL染色切片均由3种颜色组分构成:HE明场背景、红染细胞质和蓝染细胞核;CD31明场背景、棕染细胞膜和蓝染细胞核;TUNEL明场背景、棕染细胞核和蓝染细胞核。K均值聚类均设置k=3,基于a*和b*两个通道聚类后散点图的边界绘制a与b的关系曲线,作为WSIs的颜色阈值。L*通道上将聚类图像分为背景、强阳性、弱阳性和阴性4类,2次K均值聚类获取亮度阈值。
1.2.2 空间分布分析
如图1b,基于颜色和亮度阈值制作掩膜分割WSIs,中值滤波(3×3像素)去除“椒盐”噪声并进行空间分布分析。将被标记的分子作为点对象,以其面积占肿瘤面积的百分比进行量化分析,定义肿瘤生物效应的空间分布密度。核密度估计[7](kernel density estimation,KDE)是点模式最常用的一阶效应分析方法之一,其中二维高斯核密度函数具有旋转对称性,而且权重随着中心点位置单调低减。考虑到细胞间(肿瘤细胞大小约为10μm)的相互作用,以21×21像素大小的高斯滤波器对目标区域进行卷积,并生成热力图,实现可视化分析。
图1 WSIs图像处理流程图Fig.1 Image processing flow chart of WSIs
1.2.3 图像分割性能验证
与训练图像相同,从阳性WSIs中截取共9个1 000×1 000像素的阳性图像,拼接成一个3×3的阳性图像(测试图像),用于图像分割性能的验证,对比分析Kmeans-Lab与下列常用图像分割方法的性能参数,包括归一化互信息(normal mutual information,NMI)、Kappa系数、平均交互比(mean intersection over union,mIoU)、平均精准率(mean precision,mPr)、平均召回率(mean recall,mRe)和平均准确度(mean accuracy,mA)[8,9]。
1.2.3.1 基于色域阈值的图像分割 基于色域阈值的图像分割方法是常用的彩色图像分割方法之一,目前比较常用的色域有RGB、色调饱和度明度(hue saturation value,HSV)、明度红蓝色度(luminance chroma-red chroma-blue,YCrCb)和Lab等。MATLAB的Color Thresholder应用,通过手动选取感兴趣区域(region of interest,ROI)可以实现不同色域阈值的半自动图像分割。其中RGB和HSV色域无亮度通道,苏木精着色区域与其他染料分割效果不佳,故仅比对MATLAB下Lab和YCrCb色域的阈值分割方法,分别命名为MATLAB-Lab和MATLAB-YCrCb。
1.2.3.2 基于机器学习和统计模型的图像分割 Fiji中的IHC Toolbox插件[10]是目前较为常用的IHC分析工具,其原理是通过对训练图像集中的ROI的机器学习,建立基于YCrCb色域的统计模型用于图像分割,这里将其命名为Fiji-YCrCb。
1.2.3.3 基于CD的图像分割 CD是目前IHC图像颜色分割中应用最为广泛的算法,其原理是基于朗伯比尔定律,针对不同染料RGB分量光的特异性吸收,将明场图像RGB通道转换为最多3个代表单个染料光密度的通道。QuPath软件以训练图像中的不同染料着色区域计算各自的着色向量,用于测试图像的CD,得到表征苏木精、曙红或二氨基联苯胺(3,3’-diaminobenzidine,DAB)通道的图像。Otsu算法[11]是图像处理中常用的一种灰度图像目标和背景的自适应分割方法,与CD联合运用实现不同染料着色区域的分割。这里将通过QuPath软件中的CD结合Otsu实现图像分割的方法命名为QuPath-CD。
采用GraphPad Prism软件进行Pearson相关性分析和线性回归分析。Pearson相关系数为负数时,表明变量存在负相关关系;正数时存在正相关关系;绝对值越接近1相关性越强,绝对值大于0.5时具有强相关性。P<0.05为差异有统计学意义,P<0.01为差异有显著统计学意义,P<0.001为差异有极其显著的统计学意义。
肿瘤生物学效应中凋亡、坏死和血管是疗效评估中最为常见的几个指标,分别对应着TUNEL、HE和CD31染色图像中的棕染细胞核、红色细胞质及白色空泡、棕染细胞膜部分。故以TUNEL和CD31染色图像提取的棕色目标区域表征凋亡和血管的空间分布,HE染色图像提取的红色和白色区域表征坏死的空间分布。
2.1.1 颜色阈值提取
如图2(a),两种染料着色的TUNEL、HE和CD31染色图像在a*、b*颜色通道上K均值聚类进行图像分割。TUNEL和CD31(k=3)均被分割成3个聚类图像,包括明场背景(聚类1)、蓝染细胞核(聚类2)和棕染细核/膜(聚类3);HE在k=3时,部分红染细胞膜被划分到蓝染细胞核,故选择k=4,将图像分割成明场背景(聚类1)、蓝染细胞核(聚类2)及红色深染和浅染的细核膜(聚类3+4)。其在a*、b*颜色通道上的散点图分别被标记为蓝、绿、红和黄色。聚类3和4为目标区域,在散点图中占据着红色和黄色区域。TUNEL和CD31中,基于a*、b*颜色通道的K均值聚类将明场背景(白色)和部分深染细胞核(接近黑色)归为一类,在聚类1中同时含有部分目标区域;HE中白色空泡被认为是坏死。故根据各种的散点图,排除聚类2,提取出各自聚类1、3和4图像的分布曲线作为颜色阈值(表1),由两条阈值关系曲线组成。
表1 TUNEL、HE和CD31染色图像分割阈值(聚类1+3+4)Tab.1 Segmentation threshold of TUNEL,HE and CD31 stained images(cluster 1+3+4)
2.1.2 亮度阈值提取
如图2(b),基于L*通道对TUNEL和CD31染色图像中的目标区域(颜色聚类1+3)再次K均值聚类(k=4,CD31的k=5),滤除目标区域中的背景和浅色阴性信号(亮度聚类3+4+5),得到深染的阳性信号(亮度聚类1+2)。对HE染色图像(颜色聚类1+3+4)再次K均值聚类(k=4),滤除目标区域中的深染细胞核信号(亮度聚类3+4),得到浅染的阳性信号(亮度聚类1+2)。得到的亮度阈值如表1所示,其中L=0为分割后黑色背景,故去除零点。
2.1.3 图像分割性能验证
如图3,Fiji-YCrCb对3种染色图像均有明显欠分割或过分割,而Kmeans-Lab在TUNEL和CD31染色图像中含有的浅染噪声明显少于其他4种方法。将5种方法分割结果分别作为真实分割图像(1~5分别代表MATLAB-YCrCb、MATLAB-Lab、Fiji-YCr-Cb、QuPath-CD和Kmeans-Lab方法的真实图像分割结果),对应5种方法的预测分割图像结果(A~E分别代表MATLAB-YCrCb、MATLAB-Lab、Fiji-YCrCb、QuPath-CD和Kmeans-Lab方法的预测图像分割结果)的性能参数如图4所示。总的来说,NMI、Kappa系数和mIoU的结果基本一致,MATLAB-YCrCb与MATLAB-Lab的结果相似度最高,NMI为0.55~0.76,Kappa系数为0.79~0.91,mIoU为0.82~0.91;MATLAB-Lab与Kmeans-Lab结果相似度次之,NMI为0.42~0.61,Kappa系数为0.68~0.84,mIoU为0.74~0.82;Fiji-YCrCb与其他方法的结果相似度均很低;QuPath-CD与除Fiji-YCrCb以外其他3种方法的NMI、Kappa系数和mIoU均无明显差异。将基于实际染料着色的QuPath-CD分割结果作为真实值,则对HE染色图像分割的mPr均为0.73,mRe为0.96~0.97,mA均为0.94;对TUNEL染色图像分割的mPr为0.84~0.90,mRe为0.90~0.93,mA为0.94~0.95;对CD31染色图像分割的mPr为0.80~0.91,mRe为0.81~0.89,mA为0.95~0.96。如图5,以蒙太奇方式分析笔者算法与QuPath-CD分割结果的差异,白色区域为真阳性,目标区域颜色特征明显;紫色区域为假阴性,HE染色图像主要表现为细胞核与细胞质的交界区域及过染的细胞质,TUNEL染色图像主要表现为浅染的细胞核及浅染的背景,CD31染色图像表现为浅染的背景和细胞核;绿色区域为假阳性,主要表现为“椒盐”噪声和污渍。
图3 TUNEL、HE和CD31染色图像不同算法分割结果比较Fig.3 Comparison of segmentation results of different algorithms for TUNEL,HE and CD31 stained images
图4 TUNEL、HE和CD31染色图像不同算法的性能参数热力图Fig.4 Thermodynamic diagram comparison of performance parameters of different algorithms for TUNEL,HE and CD31 stained images
图5 TUNEL、HE和CD31染色图像Kmeans-Lab与QuPath-YCrCb方法的分割结果比较Fig.5 Comparisonofimagesegmentationresultsbetween Kmeans-Laband QuPath-YCrCbmethodsforof TUNEL,HEand CD31stained images
如图6,以上述提取的a*,b*通道上的颜色阈值曲线和L*通道上的亮度阈值对肿瘤光动力数据集WSIs进行凋亡、坏死和血管图像分割和空间分布分析,1幅526.1 M内存的图像分割平均耗时约为28 s。通过笔者的图像分割和空间分布分析算法,PDT小鼠肿瘤凋亡、坏死和血管的横截分布和皮下组织深度的分布密度(面积百分比)如图6(a)和6(b)所示。如图6(c),对凋亡、坏死、血管密度和光通量经线性插值后进行Pearson相关性分析,发现肿瘤坏死密度与光通量线性相关程度最高,Pearson相关系数为0.88;进行线性回归分析,可得到关系式为:
图6 PDT小鼠肿瘤生物学效应空间分布分析Fig.6 Image analysis of spatial distribution of tumor biological effects in PDT mice
其中:Y为坏死密度;X为光通量。
肿瘤生物学效应空间数据分析和可视化是肿瘤图谱中的重要组成部分,不同于传统IHC分析,整体肿瘤生物标志物的分布区域和分布密度将是其研究重点。笔者针对肿瘤图谱中生物学效应的评估,提出基于阳性区域图像K均值聚类获取的目标区域的颜色和亮度阈值,实现WSIs的快速分割。采用a*和b*通道的关系曲线和L*通道阈值作为颜色阈值和亮度阈值,与传统单通道阈值相比分割精度更高,更符合人视觉习惯。以K均值聚类方法对色彩进行分割提取阈值,与常用的上述其他IHC图像分割方法相比,不仅提高了阈值提取的稳定性和重复性,同时解决了IHC基于染料着色CD分割的图像颜色不超过3种的局限性。在计算速度上,笔者算法经过1次色域矩阵变换和颜色、亮度阈值分割得到掩膜的时间频度为T(15 n),而基于CD和灰度阈值分割得到掩膜的时间频度为T(14 n),两者时间复杂度均为O(n);对大内存WSIs的分割速率约为54.5 s/G,快于基于神经网络的图像分割算法[12](313.6 s/G)。在图像分割性能上,如图3~5所示,与其他分割算法相比,Kmeans-Lab对浅染背景噪声的分割优于其他图像分割方法。与基于真实染料着色的QuPath-CD相比,HE、TUNEL和CD31染色图像中着色明显的区域分割结果基本一致;在DAB着色的TUNEL和CD31染色图片中对背景着色的分割效果优于QuPath-CD,但是对灰色污染和“椒盐”噪声的分割效果不佳,故对制作的切片样本有一定的要求,图像分割时需通过中值滤波去除“椒盐”噪声。
以PDT小鼠乳腺癌为例,实验运用Kmeans-Lab方法实现WSIs图像分割,结合GIS中的分布密度和KDE热力图对坏死、凋亡和血管量化和可视化。如图6,Kmeans-Lab方法结合空间分布分析方法用于序列HE、TUNEL和CD31染色的WSIs显示了PDT后坏死、凋亡和血管在肿瘤不同皮下组织深度横截面中的分布位置,对分布密度进行统计学分析判定和推算了各参数间的相关性和关系式,发现PDT引起的坏死与光通量线性相关,验证了笔者算法在肿瘤生物学效应空间数据分析中的有效性。