杨双
(桂林航天工业学院 电子信息与自动化学院,广西 桂林 541004)
近年来,分子标志物在胶质瘤诊断中的应用越来越广泛。常用于脑胶质瘤诊断的分子标记物主要包括IDH1/2、TERT、1p/19q等[1]。其中1p/19q共缺失状态实际上是对一种染色体变异的描述,具体是指1号染色体短臂和19号染色体长臂同时缺失。1p/19q共缺失最早发现于少突胶质细胞瘤样本中,在少突胶质细胞瘤中的发生率为80%~90%。2016年WHO最新分布的中枢神经系统肿瘤分类中,把少突胶质细胞瘤分为少突胶质细胞瘤(WHO-II级)及间变性少突胶质细胞瘤(WHO-Ⅲ级),又根据有无IDH1/2基因突变和1p/19q的缺失,把少突胶质细胞瘤和间变性少突胶质细胞瘤分为IDH突变型、1p/19q缺失型及未另行说明型[2-3]。同时,中国胶质瘤诊疗共识和NCCN指南中都已经明确纳入了1p/19q共缺失指标。因此,检测1p/19q是否共缺失在诊断少突胶质细胞瘤及判断患者预后方面有着重要意义[4-6]。
目前实验室检测1p/19q共缺失状态的方法主要有荧光原位杂交(fluorescent in situhybridization,FISH)[7]、基于杂合性缺失分析的聚合酶链式反应(PCR)[8]、阵列比较基因组杂交(CGH)和二代测序(NGS)[9]。其中使用荧光原位杂交(FISH)方法进行检测的方法检测成本较低,在临床诊疗中易于实现,是大多数医疗机构所采用的检测方式。该方法具体的主要检测原理是:1p/19q 缺失探针采用橘红色染料标记1号染色体短臂p36区域,采用绿色染料标记1号染色体长臂q25区域;采用橘红色染料标记19号染色体长臂q13区域,采用绿色染料标记19号染色体短臂p13区域[10],所获得的荧光原位杂交图像如图1所示。
在临床诊疗中,对于1p/19q荧光原位染色图进行细胞计数及细胞上红、绿点进行计数,并统计一定量细胞中红绿点的比例,再根据1p/19q的判定准则获取1p/19q共缺失的状态[11]。这一过程主要由病理科医生人工计数和统计,由于计数量较大,FISH图像的成像质量参差不一,细胞粘连情况普遍发生,因而这项工作的人工成本较大,工作效率不高。
近年来,由于计算机辅助诊疗的应用,对于临床医疗中复杂度较高,识别难度较大的工作希望能借助计算机的计算能力和数字图像处理能力来实现,以期在提高医生工作效率的同时,提升疾病的诊断效率和正确率。鉴于此,利用数字图像处理对1p/19q荧光原位染色图像进行细胞的自动计数工作具有较高的临床医疗辅助意义。
图1 1p/19q原位荧光染色图示例
由于大多数的荧光染色图像中,蓝色通道的图像是细胞图像结果,现有的针对荧光染色图像中细胞的计数工作通常将图像中细胞分割后再进行聚类统计的方法来进行计数。这类操作主要采取的步骤是:首先分离荧光染色图像的蓝色通道,即RGB通道中的B通道。对蓝色通道的图像进行二值化处理和形态学处理(例如:孔填充、伪影去除等操作),再利用聚类算法进行聚类,得到初步的细胞区域,最后通过相应的非椭圆形和边界区域抑制操作后进行细胞核计数[12]。
但是,根据图1中的1p/19q 图像示例,可以获知,细胞常常存在团簇粘连现象,单独分离的细胞并不多见,由于多个细胞粘连在一起,通过上述操作后往往存在团簇细胞无法分离的现象,这就导致了细胞自动计数的误判率较高,间接导致了最终的1p/19q共缺失状态诊断误差。这种粘连的情况如图2所示,其中 图2(a)图展示了1p FISH 原始图像,图2(b)图则展示了该图像的B通道所对应的经过二值化、形态学处理后的图像,图中矩形框标注区域可以发现多处细胞粘连情况,难以获得准确的细胞数量[13]。
图2 1p FISH图像经二值化、形态学处理后图像示例
为了解决这一问题,本文提出了一种基于1p/19q荧光原位杂交染色图像自身特点的细胞自动计数方法。该方法不再使用传统的细胞统计思路,而是利用1p/19q FISH图像中红色通道的图像特点,即同一细胞中的红点距离较近,不同细胞中的红点距离较远的特点,提取出各红点,并分析红点间距离,根据给定阈值来判断是否处于同一细胞,最终则根据红点的细胞归类结果来获取细胞数量。该方法可以免于分割粘连的细胞图像,并能获得较高的细胞自动计数结果。
由于判断1p/19q共缺失的依据是根据其荧光原位杂交图像中选择100个细胞,并分别统计这100个细胞中红点和绿点的数量,再计算两者的比值,根据比值大小来判断分子标记物1p/19q是否共缺失,因此,准确获知细胞数量将变得尤为关键。通过观察得知,属于同一个细胞的红点间距离较小,反之,则距离较大。本文提出的算法利用此特点,不再利用RGB图像的蓝色通道(B通道)进行细胞计数,而是利用红色通道(R通道)图像来进行处理。这一处理过程主要包括二值化处理,寻找连通域并计算其面积,以及两点间欧氏距离的计算。
数字图像的二值化处理过程实际是针对灰度图像所进行的处理。首先将彩色图像转化为灰度图像,此时图像中的像素点将具有范围从0~255的256个亮度等级。为了简化操作,并保留图像中的局部图像特征,再将灰度图像中各像素点的不同亮度值根据是否大于指定的阈值对应转化到亮度值为0或者为255。假设设置的二值化阈值为T1,G(m,n)为二维灰度图中坐标为m,n的像素点亮度值,B(m,n)表示该像素点二值化后新的亮度值,则有如式1所示的图像二值化操作:
(1)
经过二值化操作后的图像即成为黑白图像,可以起到简化后续操作的作用。图像的二值化操作除了上述的简单阈值法外,还有平均阈值法、双峰阈值法、大津法(Otsu’s method)等[14-15],但本文中考虑到1p/19q荧光原位杂交图像成像质量的高度差异性,在方法实现过程中仅采用了简单阈值法,并设置了GUI界面,供医生即时根据计数和标记结果进行阈值调节。
将图像经过二值化处理后,将会在图像中出现多个具有相同亮度的区域。在本文提出的方法中,二值化处理后将在图像中出现多个白色区域。这些区域大多数是细胞中的红点区域,但也有因为成像过程中杂质的存在所造成的干扰区域。但通常细胞中的红点区域面积较小,因此寻找并统计这些白色区域的像素点个数是本文方法非常重要的步骤。而这一过程则是数字图像处理的寻找图像连通域的操作。像素点亮度相同且相邻是划归到一个连通域的两个重要条件,不可或缺,而寻找二值图像的各连通域并标记的方法主要有种子填充法和两次扫描法[16]。种子填充法的主要思路为首先选出所有亮度值为非0 的像素点,将其放到一个集合中,接着在集合中选出任意一个像素点作为种子像素点,然后根据图像中的领域关系进行该种子像素点的连通域扩充,被选中的属于扩充范围的像素点从集合中删除,直到所选中的种子点像素的邻域无法再扩充则停止此次连通域寻找过程。然后选择集合中的其他像素点作为下次邻域扩充的种子像素点,重复上述操作,直至集合中不再有可作为种子的像素点。而两遍扫描法的图像连通域操作细节则是进行两轮图像遍历过程。在第一轮图像遍历过程中,如果各非0像素点的8邻域(已经扫描的点)都有相同的标签,则给该像素点标记一个数字标签。如果该像素点8邻域内的非0像素点已有数字标签时,进行标签数值比较,将两者中的较小值赋予当前像素点作为其数字标签,反之则赋予当前像素点新的数字标签,该方法需要两次遍历图像,因此在算法复杂度上较种子填充法高,本文算法中选用第一种方法。
本文方法的主要思想是利用每个细胞核上,红色荧光点的绝对距离来区分细胞核。由图1所示的荧光原位杂交图像中可以看出,绝对距离较近的红点应当是属于同一个细胞核,反之则属于另一个细胞核。因此,衡量点间的绝对距离则是非常重要的区分细胞核的过程。然而在图像处理过程中,衡量像素点间的绝对距离常采用计算两者间的欧氏距离。算法实现过程中,将计算两个独立红点间的中心像素点间的欧氏距离放在了连通域统计和干扰去除操作之后。其欧氏距离D计算原理如式(2)所示。
(2)
其中,xi,yi为第i个红点中心像素点坐标,xj,yj为第j个红点的中心像素点坐标。
如上所述,本文方法是利用1p/19q荧光原位杂交图像的成像特点来进行的细胞自动计数和标记,其具体的实现步骤为:
1)输入原始图像,并将该图像的RGB通道的红色通道(R通道)取出。
2)输入二值化阈值T1,对红色通道的图像进行二值化处理。
3)寻找二值化后图像中各连通域,并统计各连通域面积(像素点个数)。由于红点的连通域相对于背景干扰的非零区域面积较小,因此输入连通域阈值T2,将小于该阈值的区域去掉。此操作的目的是保留该通道内的干扰信息,用于后续干扰部分的去除操作。
4) 将步骤2所获得的二值化图像与步骤3中所获得的保留了干扰区域的图像进行异或操作,即可消除两者相同部分,保留具有有效红点的图像。
5) 对各红点的中心像素点间的欧氏距离进行计算。
6) 输入红点距离判别阈值T3,将红点间绝对距离小于该阈值的点归为同一个细胞上的红点,反之则认为是另一细胞的红点。
7) 统计细胞个数,即可获得本文方法的自动细胞计数数值,并将其输出。同时对各细胞区域进行标记,输出标记好细胞的图像,医生可根据标记结果进行相应阈值调整,直至满意结果输出。
为了更为直观地说明本文方法,在图3中给出了本文算法的具体实现流程框图。
本文所研究的图像取自于武汉大学人民医院脑胶质瘤病人的1p/19q共23张图像,相关的数据已通过伦理审核。本文中用于实验验证的1p/19q荧光免疫图像的原始尺寸为1 360×1 024,在进行处理前未进行裁剪等操作。
利用上述的细胞自动计数算法,基于Python 语言实现了该方法,并利用临床收集的1p/19q 荧光原位杂交荧光图像进行了实验结果的验证,获得了该方法的实验评估效果。基于上述算法,为了便于专业医师获得直观的细胞计数结果,本文设计相应的GUI界面,相应的实验结果如图4-6所示,图中使用圆圈将识别出的细胞进行标注。
图3 1p/19q 荧光原位杂交免疫荧光染色图像中细胞自动计数和标记方法流程图
图4 1p荧光原位杂交图像细胞自动计数及标记结果示例1
图5 19q荧光原位杂交图像细胞自动计数及标记结果示例2
图6 1p荧光原位杂交图像细胞自动计数及标记结果示例3
图4和图5中所示的分别是1p和19q的荧光原位杂交图像,图中细胞核的相对位置较为独立,细胞的粘连、团簇情况较轻,但仍然存在亮度不均的问题,经本文方法处理后获得了较好的细胞计数结果。图6呈现的是细胞核团簇情况严重的1p荧光原位杂交图像,经过本文方法处理后,从图中标记的细胞结果可以看出,在细胞团簇的区域,本文的方法可以标注出正确的细胞,获得较为精确的细胞数量,说明本文方法可以在细胞团簇较多,成像质量较差的1p/19q原位杂交荧光图像中实现较为准确的细胞自动计数和标记。
为了进一步地说明本文方法的正确率,将该方法应用于收集整理的23张1p/19q免疫荧光原位杂交免疫荧光图像,并将自动识别的细胞数与由医生识别的细胞数进行了对比。由于目前在临床中进行计算机辅助理疗的过程中,专业医生的判断结果仍然具有权威性,因此本文中将医生识别的细胞数作为金标准,在此基础上进行了本文方法自动识别细胞数正确率的定量评估和分析。本文方法细胞自动识别计数与医生识别计数结果的对比分析如图7所示,其中深色柱状条表示本文算法的计数结果,浅色柱状条表示医生计数结果。从图7中可以获知,大多数的算法识别结果都接近或等于医生识别结果,但是由于背景干扰的影响,也存在有算法识别结果大于医生识别结果(过识别)的情况。
从基于误差分析的角度出发,将细胞识别误差定义为算法自动识别细胞数与医生识别细胞数的误差的绝对值,具体的评估自动识别细胞数准确率的统计原理由式(3)给出:
识别准确率=
(3)
图8中展示了本文方法在每张图像上的细胞自动计数准确率统计结果,其中横坐标表示图像编号,纵坐标表示本文方法在每张图像上所获得的细胞自动计数准确率。可以获知,本文方法可以获得单张图片高于80%以上的细胞自动计数准确率,在成像质量较好、背景噪声干扰较小的情况下,所获得的细胞自动计数准确率可以达到100%。将各图像的细胞自动计数准确率进行叠加并除以总的1p/19q FISH图像数量,则可获得其平均准确率为92.53%。以上结果说明了在复杂的背景条件和细胞团簇情况严重的成像情况下,本文方法可获得较高的细胞自动计数结果。
图7 本文算法细胞自动计数与医生计数结果对比图
图8 本文方法细胞自动计数正确率统计结果
分子标记物1p/19q共缺失状态的确定是脑胶质瘤分级分类诊断的重要的指标之一。临床中多采用荧光原位杂交(FISH)方式获取的荧光图像来判断共缺失状态。这一过程中需要病理科医生计数定量的细胞数值后计算红、绿点的数量比值来判定1p/19q是否共缺失,由于细胞统计的数量较大,其成像质量不稳定,背景噪声干扰较多,且细胞团簇现象频频发生,此项工作对人力的消耗较大,大大降低了医生的工作效率。因此,本文提出了一种新1p/19q荧光原位杂交免疫荧光图像中的细胞自动计数和标记方法,解决了传统的使用蓝色通道图像(细胞荧光反应为蓝色,即RGB通道的B通道)因细胞团簇无法准确衡量细胞数量的问题,利用1p/19q荧光原位杂交图像自身的成像特点,使用R通道图像实现细胞自动计数。将该方法用于临床采集的23张1p/19q FISH图像,经过直观的展示和准确率的统计分析,可知本文提出的方法可以获得90%以上的平均细胞自动计数准确率,具有较好的临床使用意义。
值得注意的是,由于背景中亮度较高的红色区域影响以及成像过程中不同细胞中的红点亮度的差异,本文方法仍无法获得与医生完全一致的识别准确率,但目前所取得的结果仍然令人鼓舞,如何进一步提高此方法的准确率将是今后继续进行研究的方向。