于 跃,李东明
(吉林农业大学 信息技术学院,吉林 长春 130118)
随着计算机视觉的发展,医学图像技术取得长足进步,其中显微细胞图像的识别在医学图像处理中得到长足发展,图像分割逐渐成为医学图像分析和处理的关键技术其中图像分割是计算机视觉的重要环节,而对于细胞图像分割更是医学细胞图像分析的难点。图像分割基本上可分为两类,一类为基于边缘图像分割另一类为基于区域图像分割,医学图像技术上有基于细胞图像的边缘、区域等特征进行分割,诸学者提出了如边缘检测[1]、分水岭[2]、阈值[3]、水平集[4]、聚类分割等算法进行图像分割。在细胞图像分割中K-means聚类细胞图像分割是基于距离相似性的聚类算法,以空间中k个点为中心进行聚类,对最靠近他们的像素归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果,其缺点是需要自定义聚类数目,产生类的大小相差不会很大,人为主观因素较大,对于噪声很敏感[5]。FCM算法是一种无监督的聚类算法,它利用隶属度来确定每个像素点最后划分到某个聚类的一种聚类[6],但FCM对初始聚类中心和隶属度将矩阵以及噪声比较敏感,其次是当数据样本集合较大并且特征数目较多时,算法的实时性差。近几年阈值分割在处理医学图像上得到广泛应用,其主要是按照灰度级,对像素集合进行划分得到多个子区域,各个子区域内部具有一致的属性,而相邻区域不具有这种一致属性,这种划分可以通过从灰度级中选取一个或多个阈值来完成,近年基于阈值分割法的研究在处理细胞图像上得到广泛应用[7]。
目前结合统计学的模型区域划分的细胞图像分割方法比较流行,利用传统的马尔科夫随机场(MRF)描述分割图像的先验分布恰当好处,MRF图像分割方法利用图像某一点的特征关系只与其相邻领域有关,但MRF需要事先设定初始分类数,受到人为主观因素影响较大,费时费力,针对上述出现的普遍问题本文提出结合基于中国餐馆过程的马尔可夫随机场的细胞图像分割方法,利用中国餐馆模型找到聚类个数作为MRF的分类参数,结合最大后验概率进行细胞图像分割。传统的MRF图像分割方法需要事先定义分割区域个数的参数,本文提出的改进方法无需事先估计个数,有效的解决了分割速度慢和精度差的问题,能够准确找到要分割的双核和微核细胞,为后期细胞图像识别打基础。
(1)
δ(s)是定义在像素位置S={(i,j)|1≤i≤N,1≤j≤M}二维随机场上的领域系统的集合;xs表示在随机场空间区域的随机变量,r∈δ(s)为S的邻点;c⊂S的一个势团,C表示势团c的集合;L为状态空间,即随机场的相空间,表示将图像分割为不同区域的数目,相空间也直接关系到能否准确划分图像区域的关键;-(∑Vc(xs|xr))为能量函数。
在图像处理中基于统计学概率模型的图像分割问题可以转化为图像的标记问题,从而图像分割要解决的问题就是求出满足最大后概率准则对每个像素的分类标号,称为标号场,记为X。对于图像,可知标号场是用来对图像的像素进行跟踪标记,特征场是拟合原始的观测数据,图像数据的像素值就是观测数据,使图像分割的结果中能够保留更多的细节信息,尽可能准确地反映每一个像素位置的特征信息。根据贝叶斯估计准则和最大后验概率准则,将后验概率转换为先验概率与似然函数的乘积,似然函数是一个高斯分布,而先验概率通过MRF转换为Gibbs分布得到,最后更新标号场使得成绩最大,得到最佳分割[10]。根据贝叶斯准则,最佳分割准则为:
(2)
其中:Y为图像的灰度值;因此p(Y)为常数;X由MRF通过能量函数确定的条件概率,从而使其在全局上具有一致性,通过单个像素及其领域的简单的局部交互,通过计算局部的Gibbs分布得到全局的统计结果,可以获得MRF模型复杂的全局行为。考虑到计算效率,采用条件迭代模式(ICM)方法来实现MRF在图像分割上的应用。
中国餐厅过程是Dirichlet过程的一种无限混合模型表示方法,这种方法是一种无监督分类,可以提前估计聚类个数,根据数据的大小自动调整聚类数目,最终会趋向一个有限的固定值[11]。在进行数据分析分类时,能够快速找到潜在聚类数目。中国餐厅过程是关于n个顾客在同一个餐厅座位问题的一个随机过程。假设一家中国餐馆的餐桌数量不限,第一位顾客抵达后坐在第一张桌子上,第二位顾客可以选择以一定概率坐在第一张桌子上或者选择坐在一张新的桌子上,第三位顾客以一定概率可以选择坐在第一、二张桌子,也可以选择新开一张桌子,具体的概率分布[12]如下:
(3)
其中:Zn表示第n个顾客所选的桌子,nk表示k个桌子上已有顾客数,α为先验参数是一个正常数,中国餐厅过程好处是“客人就坐越多的桌子,新客人就会更有可能就坐”所以桌子的最终数量会趋向一个有限的固定值。根据图像中的像素信息,顾客代表像素,把桌子数看成被划分的分割数目,因此桌子的个数等于被分割像素的区域数,当图像中相似或者相同的像素点就会被分到同一个桌子,直到像素被分完,最后统计桌子数对应就是聚类数目。
中国餐厅过程是一个狄利克雷过程的一种描述性形式,整个过程运用的是狄利克雷过程混合模型,中国餐厅过程在狄利克雷混合过程模型中扮演数据的先验分布,假设存在观察数据{y1,...,yn},建立如下分布:
yi|θi~F(θi),
(4)
那么每张桌子也有一个分布来描述,记为F(θ),这里说的分布即为用中国餐馆过程构造参数θ的分布,因此图像数据集服从参数为θ~F(θ)分布,求解这种非解析表达式的概率问题,一般没有具体的解析式来计算,都是一个迭代收敛或者极限过程,所以运用MCMC方法的吉布斯算法把图像的像素值聚类到不同的分量分布上,实现数据的聚类,聚类数目的最大值就是分割区域w的数目,当图像中相似或者相同的像素点就会被分到同一个桌子,直到像素被分完,最后统计桌子号的W就是聚类数目。
从上面描述可知要进行图像分割首先要对位置、相空间以及有多少个位置和相空间进行描述,通过公式(1)我们可以知参数L表示图像分割为不同区域的数目,这个分割区域的数目如何给定,在给定初始参数L的准确性直接影响分割图像效果,MRF图像分割中采用人工设置初始参数L,通过上文2.2了解到中国餐馆模型是一种无监督分类,可以提前估计聚类个数,根据细胞图像染色不均匀,图像中细胞的大小不均,以及处理大量图像等问题[13],本文通过中国餐厅过程可对数据的大小自动调整聚类数目解决以上问题,因此通过2.2中得到的W参数数目代入公式(1)中得到:
(5)
此方法无需人为给定初始分割区域,可自动生成区域数目,有效的解决人为误分割问题,节省时间,根据传统MRF细胞图像分割需设定区域数目相比效果明显。
本文以人类口腔粘膜细胞为研究对象,通过对细胞进行提取染色得到的细胞图像,分辨率为1 600×1 200像素,对其200个细胞图像进行实验。算法用Matlab 7.0实现,实验平台为8内存,处理器为Intel(R)Core(TM) i5-3317U,Windows7操作系统。本次实验的算法基本流程如图1所示。
图1 算法流程图Fig.1 Flowchart of algorithm
针对细胞图像分割的区域分割方法进行主观评价[14],通过传统的MRF算法与本文算法效果对比图2、图3中可以看到本文算法自动生成的聚类数后分割的效果明显高于其他聚类数,通过本文算法与传统的MRF做比较,结果发现本文算法自动生成的聚类数通过MRF图像分割效果明显比传统的需要手动输入其它聚类数更加准确。传统的MRF算法的图像分割存在人为主观因素,相比较本文算法自动生成的聚类数的MRF细胞图像分割降低了人为主观因素,效果显著,在进行大量图片处理时的优势也较为明显。
对FCM算法、K-means算法分割、文献[15]与本文算法作对比实验,部分细胞图像分割实验结果如图4、5、6所示,对同一幅细胞图像进行定量分析,通过3种基于区域分割方法与本文分割方法进行对比。(a1)、(b1)、(c1)为原始的口腔粘膜细胞灰度图像,(a2)、(b2)、(c2)为无监督式聚类分割FCM。FCM聚类分割算法是基于模糊目标函数优化的数据聚类方法,主要目的在于将向量空间的样本点按照某种距离度量划分成几个子空间,聚类的结果特征是一个数据对聚类中心的隶属程度。本次实验中,能够准确找到细胞进而分割,但是难以确认细胞中的细胞核。(a3)、(b3)、(c3)为k-means聚类分割法,这里我们选取k=3为聚类中心个数(通过实验证明在k=3时会比同等K-means聚类其它聚类中心个数效果明显),精确度较差一些。(a4)、(b4)、(c4)为文献[15]分割方法,通过对遗传算子的改进优化二维最大熵的阈值分割,能够找到细胞和细胞中的细胞核部分,但是稳定性较差一些。(a5)、(b5)、(c5)为本文算法,利用中国餐厅餐馆过程聚类自动划分得到聚类数作为MRF分割算法的区域参数,使用 ICM迭代通过每个元素的最大条件概率来更新像素值得到本文算法。
图2 不同聚类数效果对比图。(a)原图;(b) 传统算法聚类数=2;(c)本文得到聚类数=3; (d)传统算法聚类数=4。Fig.2 Comparison of different clustering number renderings of original. (a) Original picture; (b) Number of traditional algorithm clusters = 2; (c) Number of clusters obtained by this thesis= 3; (d) Number of traditional algorithm clusters =4.
图3 不同聚类数效果对比图。(a)原图;(b)传统算法聚类数=3; (c)传统算法聚类数=5; (d)本文得到聚类数=4。Fig.3 Comparison of different clustering number renderings of original. (a) Original picture; (b) Number of traditional algorithm clusters = 3; (c) Number of traditional algorithm clusters = 5; (d) Number of clusters obtained by this thesis = 4.
图4 对原图a1的4种算法比较。(a1) 原图;(a2)FCM;(a3)K-means; (a4)文献[15];(a5)本文算法Fig.4 Comparing the four algorithms of the original image a1. (a1) Original picture; (a2)FCM; (a3)K-means; (a4) Literature [15]; (a5) Algorithm of this thesis.
图5 对原图b1 4种算法的比较。(b1) 原图; (b2)FCM;(b3)K-means;(b4) 文献[15];(b5)本文算法。Fig.5 Comparing the four algorithms of the original image b1.(b1) Original picture; (b2)FCM; (b3)K-means; (b4) Literature [15]; (b5) Algorithm of this thesis.
图6 对原图c1 4种算法的比较。(c1) 原图;(c2)FCM;(c3)K-means;(c4) 文献[15];(c5)本文算法。Fig.6 Comparing the four algorithms of the original image c1.(c1) Original picture; (c2)FCM; (c3)K-means; (c4) Literature [15]; (c5) Algorithm of this thesis.
为了进一步说明本文的算法对处理细胞图像的效果,使用Precision、Dice、MSE 3个指标进行评估,表1给出了对上面3组口腔黏膜细胞图像分割评价结果,图7给出3种算法在不同定量评价中的效果图。
表1 各算法对比结果Tab.1 Comparison results of algorithms
续 表
先手动标记被分割口腔黏膜细胞图像作为金标准,通过本文算法、K-means算法、FCM算法与金标准对比,其中Precision表示为:
(6)
式(6)中Precision表示正确结果的像素值除以所有返回结果的像素值,Precision越大证明精确度越高,分割效果越好。
Dice[16]表示为:
(7)
金标准手动分割结果重合像素的个数与利用算法分割结果与手动分割结果相比,式(7)中M值越大表示分割精度越好。
MSE表示为:
(8)
图7 算法对比结果图。(a) 对(a2)、(a3)、(a4)、(a5)的比较;(b) 对(b2)、(b3)、(b4)、(b5)的比较;(c) 对(c2)、(c3)、(c4)、(c5)的比较。Fig.7 Algorithm comparison results. (a) Comparison of (a2), (a3), (a4), (a5); (b) Comparison of (b2), (b3), (b4), (b5); (c) Comparison of (c2), (c3), (c4), (c5).
式(8)中,MSE是参数估计值(abserved)与参数真值(predicted)之差的平方期望差,MSE值越小,证明分割效果越好[17]。
本文算法基本上接近金标准,通多对200张不同的细胞图像做对比,结果显示本文的算法能够找到细胞中的细胞核、双核细胞、微核细胞并准确分割,高于FCM和K-means聚类算法和文献[15]的方法。
针对细胞图像分割的分割不精确等问题提出一种结合中国餐厅过程的MRF细胞图像分割的方法,自动获取初始分割区域,有效的解决人工设定初始参数的不确定性和错分的区域误差,减少了认为主观因素影响,可以清晰的分割出细胞核以及细胞核中的双核细胞、微核细胞,能够准确完成初始参数估计,降低了误分割,提高了效率,可准确锁定目标区域,较传统的区域分割方法具有更光滑的分割图像。通过对实验的定性和定量分析,本文的图像分割方法的准确率可以达96%以上。