蒋先刚,何晓岭,范自柱
华东交通大学 理学院,南昌 330013
粪便镜检图像分析是指通过对粪便中各种有形物的光学影像分析,来检验一个人的内消化系统是否有疾病、损伤和潜在病灶。粪便镜检图像中的有形物体具有比尿沉渣图像中的有形物体更复杂的背景和模糊的边界,在国内对粪便镜检图像的分析仍然主要依靠人工目检。
基于边缘的图像分割考虑的是局部图像的梯度变化,边缘检测通过确定灰度值的突变点来区分不同的区域,但是局部区域的弱边界使边缘检测方法往往不能获取完整的有形物区域[1]。对于复杂背景的粪便镜检图像,白细胞的胞核不清楚,胞浆呈颗粒状,红细胞呈现为双圆环结构,红白细胞的边缘比较模糊,单独采用阈值分割和边缘分割方法不能兼顾所有有形物体的分割[2]。红白细胞的透明性使以能量平衡为主要分割思想的Chan-Vese分割模型仍然不能有效分割出红白细胞区域,需要研究基于Chan-Vese模型的兼顾边缘加强和纹理属性保留的信息互补的分割方法,在对有形物体分割的基础上,基于随机决策森林的分类方法具备良好的数据泛化作用,对粪便镜检图像的分类具备更强的鲁棒性。
可利用多向Sobel算子求取图像的梯度边缘而得到分割区域,或者用迭代法或大津法直接得到二值区域,再结合各种形态学而获得比较规整的有形物体区域,但考虑到粪便镜检图像的特点,需采用对模糊边界区域分割的自适应性比较强的方法,包括高低阈值自适应的Canny边缘检测和基于Chan-Vese模型的分割方法。
高低阈值自适应Canny边缘检测的主要思路是将经过非模极大值抑制后的梯度幅值分为L级,将模极大值分成三类C2,C1,C0[3]。设定ni为模数为i的像素的总数,pi为该模级像素数占整个图像像素的比率:pi=,pi≥0,设 C0包含模级为[1,2,…,k]的像素,C1包含模级为[k+1,k+2,…,m]的像素,则C2包含模级为[m+1,m+2,…,L-1]的像素,如设总像素梯度幅值的期望为:
则三类点的对比率和类内期望为:
各类类内方差为:
通过对类内方差取得最大而确定双阈值的评价函数为:
由此求解得到的m,k即为自适应的Canny边缘检测的最佳高低阈值参数[4]。对这两个阈值取对应于最大抑制和边缘跟踪时的比例权重,γ1,γ2为不同的参数时可得到不同的边缘分割效果,图1为对尿液镜检图取不同权重参数下自适应高低阈值的Canny边缘检测效果,随着这些参数的增加,细弱的边缘将被放弃。通过空洞填充等形态学处理将能分割出红、白细胞区域,但对如图1左上方模糊边界的有形物体,无论边缘权重参数取多大的范围,仍不能勾勒出完整的圆形区域[5-6],对于具备更多模糊边界和透明细胞壁的红白细胞的粪便镜检图像需借助于与区域内外属性有别的分割模型。
图1 取不同权重参数下自适应的Canny边缘检测效果
2001年Chan和Vese提出了简化M-S的分割模型,即Chan-Vese分割模型[7],它设原图I(x,y)被活动轮廓c划分为目标wa和背景wb两个区域,设这两个区域的平均灰度分别为ca和cb,Chan和Vese提出简化 M-S图像分割模型的拟合能量函数如下:
式中,c是表示分割区域的闭合轮廓线;ca、cb是依赖于c的两个常数。很显然,只有当闭合活动轮廓线c位于两个同质区域的边界时,函数F(c)才能达到最小值。据此,Chan和Vese提出了如下的图像分割能量函数:
式中,L(c)为闭合轮廓c的长度;νs0(c)是c的内部区域面积;实参数 μ、ν≥0;λa、λb>0是函数各项的权重系数。
通过优化F(c,ca,cb)就可以求得最终分割曲线以及区域内外平均灰度值ca、cb,而且由此保证分割的结果是最优的。由于此模型利用了图像的全局信息,因此通过最优化能量函数可以得到全局优化的图像分割结果[8-9]。
设ϕ0是根据初始化轮廓线c0构造的符号距离函数(Signed Distance Function,SDF),即 {c0|ϕ0(x,y)=0} ,并令 ϕ0(inside(c))>0,ϕ0(outside(c))<0。可以证明,以水平集函数表达的轮廓线c的长度和轮廓内部的面积分别为:
式中的Ω是水平集函数的定义域,Heavisdie函数H(ϕ)表示如下:
Dirac函数 δ(ϕ)是取 Heaviside函数 H(ϕ)的导数,故水平集函数ϕ可表示为:
Chan和Vese用欧拉-拉格朗日方法推导出求解式,并采用梯度下降法,得到Chan-Vese模型的水平集演化方程为:
由于红、白细胞灰度值区域分布的不均匀性,将同时考虑边缘与灰度值空间分布的纹理属性作为最优化能量函数对象,将获得更适应图像状态的分割。如果根据对图像中每个像素不同方向的求导表示纹理的方向信息,用它们的组合代表结构张量来进行基于纹理的分割[10],将结构张量定义为高斯平滑算子Kp和图像梯度的卷积:
采用计算Tp各个分量总和的均值作为纹理图像的均值,则有:
这样使用纹理均值T图像代替原来的灰度图像I,公式(10)转变为公式(14),则基于Chan-Vese模型的张量场的最小化能量函数表示为:
公式(14)中的Ta和Tb与公式(10)中的ca、cb类似,表示每次水平集更新迭代过程中域内和域外的平均张量。实验中,μ是约束周长几何的参数,ν是约束面积几何的参数,λa,λb是约束区域内部和背景的几何参数[11]。图2是将欲分割区域属性增强的比较,图2(b)是原图经高斯过滤的效果如公式(13)中的Tp(12),图2(c)是各向梯度图像经高斯处理的效果如公式(13)中的Tp(11),Tp(21),Tp(22)综合效果,图2(d)是 Tp(11),Tp(12),Tp(21),Tp(22)共同融合效果,此时图像的背景更加平滑均匀,以暗黑色为分割目标区域,以浅灰色为背景的颜色块聚群更加明显,这更有利于Chan-Vese的分割模型的构造。
图2 灰度图像及各种增强属性的比较
取灰度、边缘、张量等属性或它们的组合作为Chan-Vese能量平衡模型分割区域会得到不同的分割效果。图3是基于Chan-Vese模型而采用不同属性和参数对粪便镜检图像进行分割的效果比较。图3(b)中采用原图灰度为属性的Chan-Vese分割将无法分割出有形物区域,以已兼容边缘和域中灰度分布的金标准图像为参考进行规定化处理后的图像灰度为属性的Chan-Vese分割也能得到较好的分割效果,但图3(d)采用Sobel边缘为属性的Chan-Vese分割基本能分割出有形物区域,但会产生过多的边缘噪声,红白细胞的透明部分仍不能得到有效分割,而图3(h)以张量属性表示的Chan-Vese分割模型能有效分割出有形物且不会带出更多的边缘噪声杂点,分割的区域更加均匀饱满。参数的不同选择将按参数的意义分割出强调周长、面积、面积周长比和区域与背景的属性比例关系的分割效果。
图3 基于Chan-Vese模型取不同属性和参数的分割效果比较
综合比对各种经典的分割方法,对粪便镜检图像采用各种边缘和区域分割的效果比较如图4所示。其中图4(a)为一幅粪便镜检图像,由于图像中红、白细胞中含透明的胞核等,这样在它们的边缘存在与背景非常相近的纹理和颜色,属于弱边界或部分无边界的状态,图4(b)是采用多向Sobel边缘加强取得的效果,虽然兼顾了各个方向的梯度变化,这种以边缘特性为对象的滤波方法仍然无法处理部分非常弱的边界,图4(c)是双阈值Canny分割的结果,虽然对正常态的红、白细胞有较好的圆形区域边界探测效果,但仍然存在分割后圆形细胞不闭合的轮廓,对弱边界物体区域的分割仍然缺乏鲁棒性,图4(d)是直接用迭代法阈值分割的镜检图像,这是基于图像灰度分布而自动选择阈值而进行的分割,这只适应类似尿液镜检图像的分割,图4(e),图4(f)是采用Chan-Vese和改进型Chan-Vese模型而进行的分割,这主要依据分割的内部区域和外部区域的能量平衡方程而进行的区域调整和划分,这种方法更注重图像的全局信息,适应于边界模糊或无边界区域的分割,改进型Chan-Vese模型更注重圆形区域内部和边界的融合信息,使分割的红、白细胞连通域更加具备几何区域的完整性。图4中的分割图像将继续经过腐蚀、膨胀、开运算、闭运算、空洞填充和杂质消除等形态学处理方法而得到更规整的区域划分。依据粪便镜检图像中分割后目标区域像素数与实际目标区域像素数之比来衡量,采用双阈值Canny的分割率为74%,迭代法阈值的分割率为72%,Chan-Vese的分割率为80%,改进型Chan-Vese的分割率为86%。
粪便镜检图像中的红、白细胞具备一定的特异性,将红、白细胞进行有效的分类识别,需在完成红、白细胞的分割以后,进一步提取两种细胞的各自特征。表1是将图像按1 024×768尺寸缩放,且处理的图像按金标准图像进行规定化处理后,对拟选择的红、白细胞、植物纤维和脂肪滴等有形物体的几何、灰度分布和纹理特征的相关描述和范围,作为对比分析需要,表中数据进行了量纲规一处理,在对图像的纹理特征计算时,以计算方向θ=0°的灰度共生矩阵为主,取相隔像元距离d为3,灰度层次为8。
图4 对粪便镜检图像进行分割的效果比较
表1中的 pi(x,y)表示灰度在0~255级出现的概率,p(i,j|d,θ)表示相隔像元距离为d,方向为θ时共现灰度i和 j的概率。“相关”特征计算中的 μx,μy,σx,σy为在X、Y方向的相关计算参数。实验证明表中的各种特征有重复表达和对正确分类贡献不大的特征,采用Relief和遗传算法可去除与分类不太相关的特征,保留对红、白细胞等区域的正确判断起到关键作用的特异性特征。利用Relief算法为各个几何、灰度统计和纹理特征赋予分类贡献的权重,根据权重的大小选出更有利于分类的特征,实验中采用的特征组合为Φ1:Φ1=[S L C G R E H I LS]T。
由Leo Breiman和Adele Cutler提出的随机森林分类算法,结合了Breimans的Bootstrap聚合思想和Ho的随机子空间方法,其实质是构建一个树型分类器的集合{h(x,θk),k=1,2,…,n}[12-13]。每棵树的训练样本和采用的特征小集合都采用了随机的方法,形成的每棵决策树之间不存在关联[14],每一棵树构成的输入样本都不是全部的样本而不容易出现过拟合现象,且从总的M个特征中随机选择m个子集对每一棵决策树进行学习,这样构成的不同训练条件下的随机森林决策模型对测试数据具备广泛的适应性和精确归类。
表1 红、白细胞等有形物体的特征计算及特征分布范围
图5列出采用不同训练特征数和森林树棵数对应的识别误差曲线,总的特征组合为M=9,在构造每棵数时,选择不同训练特征子集数量m时,决策森林树分类真阳性率会不同。训练过程中采用非常少的特征的组合,如采用m=(1~3)/9×M 比采用适当的特征组合m=(4~6)/9×M 的决策森林具备较差的分类效果,由过少的特征组合训练将产生过于简单的随机决策森林树,而过少的特征数分集将使决策边界的位置不能正确地被确定[15]。过少的训练特征使得需选择更多的树的棵数才能达到最小识别误差。采用如m=(8~9)/9×M等会产生过大的网络,由于随机性小而产生的决策森林也没在最佳状态。同时决策树的棵数对分类的精确性也有较大的影响,决策树的数量在选择87棵左右时取得最低的识别误差,决策树数量的进一步增加将增加计算时间且还不能使识别精度有大的提高。
图5 不同训练特征数和森林树棵数与分类误差关系
尿沉渣和粪便镜检图像分析系统的软件开发环境为Delphi 7,主机采用I7-3770 CPU,主频3.40 GHz,内存为8 GB。实验的图像来自相关分析化验诊室。实验和测试图片的规整尺寸分辨率为1 024×768,训练图像数为600幅,测试图像数为200幅,考虑到细节分析的需要,实验中采用的粪便镜检图像为截取的部分区域块图,所有图片为未染色显微图片,检测的红细胞用蓝色圈定,白细胞用白色圈定,而其他有形物用绿蓝色标定。图6(a)为对尿液镜检图像的分类处理过程,由于该类图的背景纹理比较同质且有形物体的边缘比较清晰,采用双阈值Canny分割基本上从背景中提取了有形物体所占区域的边缘,用改进型Chan-Vese模型则完全抠取了有形物体所占区域,通过随机决策森林基本上对红白细胞等进行了精确的识别。图6(b)为对粪便镜检图像的分类处理过程,由于该类图的背景复杂且有形物的边界比较模糊,背景上还包含许多暗黑模糊区域,且红、白细胞的部分胞壁是透明的,细胞周围存在模糊边界或无边界现象,采用过大权重的双阈值Canny分割以加强透明区域的边缘,必然引入许多杂乱的边缘,使边缘交错严重而仍无法正确提取有形物的区域,而用改进型Chan-Vese模型分割则兼顾了邻近区域边缘和纹理的综合信息而使红白细胞得到有效的分割,左上部分的半圆区域通过链码差的分析而修补成完整圆区域,在有效分割的基础上,通过形态学处理和区域链码描述得到对应的有形物区域特征,再用特征组合Φ1作为随机森林决策的测试样本输入参数而得到红、白细胞的正确分类。作为分析比较,各种分类方法的检测精确度如表2所示,由于RF的数据泛化能力使粪便镜检图像红白细胞的误检率明显减少。
图6 对尿液和粪便镜检图像进行分割和识别的过程比较
表2 各种分类方法对红白细胞检测精确度比较%
本文结合粪便镜检图像有形物边界难以用一般分割方法抠取的特点,采用高斯分布的张量描述有形物区域的综合属性,调整随机决策森林方法中合理的特征子集组合、决策森林训练特征数及决策树的数量的合理选择使随机决策森林的分类效果明显提高。对粪便镜检图像的红、白细胞分割精度达到了95.3%。对尿沉渣图像的有形物的识别精度达到了97.2%,实验结果表明,基于全局统计属性的Chan-Vese分割模型与随机决策森林的数据泛化能力的结合能有效提升对粪便镜检图像中有形物的辨别和分类精度。进一步的研究将采用深度学习的方法构建粪便镜检图像中红白细胞的模型与分类机制。