基于高斯混合模型的结核菌图像检测

2014-04-29 23:21:39王旭鞠颖
电脑知识与技术 2014年10期
关键词:结核菌

王旭 鞠颖

摘要:结核病是严重危害人类健康的一类疾病。通过计算机图像处理手段进行自动检测结核菌计数可以大幅提高医生诊断效率。高斯混合模型是单一高斯分布的延伸,是使用多个高斯分布加权来拟合给定的数据样本,通过确定拟合参数确定每个样本的分类概率。该文首先通过向量量化算法对图像预处理,降低所需处理数据量,然后从HSV、CIEL*a*b*、YCbCr颜色空间提取特征分量并送入高斯混合模型进行训练。根据实验结果,高斯混合模型比其他无监督分类算法(如K-means算法)准确度更高,与有监督的分类算法(如朴素贝叶斯分类算法)相比可以简化训练样本的制作,具有一定优势。

关键词:结核菌;痰涂片;高斯混合模型;最大期望

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)10-2363-04

Abstract: Cell recognition plays an important role in medical image-processing. First, we preprocess the images with vector quantization algorithm to reduce the computation. Then we extract different feature channels from HSV, CIEL*a*b* and YCbCr color spaces and put them into a Gaussian mixture model. Gaussian mixture models is a mature method for clustering unknown data. To determine the parameters of GMM, we use expectation maximization algorithm, which uses unlabeled data for model training. The experiment shows GMM finished the initial work of TB detection, while its performance wasnt high enough.

Key words: Tuberculosis, Sputum Smear, Gaussian Mixture Models, Expectation Maximization

结核病是严重危害人类健康的一类疾病[1]。人为进行结核菌检测计数非常耗时且容易出错,通过计算机图像处理手段进行自动检测结核菌计数可以大幅提高医生诊断效率,避免经验因素和人为因素引起的诊断失误。

已有的结核菌图像检测研究中,大部分采用有监督的分类方法,例如贝叶斯分类器[2]。需要人工制作大量的训练数据对分类器进行训练,需要涵盖结核菌的各种形态,重叠分叉状况,颜色变化范围等,也需要制作伪目标,颜色相近、形态类似的杂质等[2][3]。分类得到的效果较好,但花费时间较久,制作过程复杂。无监督的分类算法如K-means因无法很好的适应图像特征,分类效果较差。M.G.Forero等人曾使用高斯混合模型对荧光染色的结核菌进行自动分割[4],该文则对使用了齐-尼式钠氏(Ziehl-Neelsen)抗酸性染色法染色的图像进行分割。

1 结核菌痰涂片显微图像分析

本研究采用的痰涂片镜下图像经齐-尼式钠氏染色法染色,结核杆菌染成红色,其他非抗酸性细菌及细胞浆质等呈蓝色。其中结核菌杆菌为细条形,形态上会略有弯曲,分布密集程度视采样环境决定。背景组织分布不均,有些部分较为清晰,无颜色物质干扰,其余混杂有组织成分或杂质。由于图像分辨率、光线、染色程度、等因素,采样到的痰涂片图像相差很大。

本文尝试采用高斯混合模型进行自动图像分割。单个高斯分布具有很多良好性质,在许多统计测试中应用广泛,但仅通过期望和标准差无法代表复杂分布样本的位置和形状。高斯混合模型是单一高斯分布的延伸,是使用多个高斯分布加权来拟合给定的数据样本,通过确定拟合参数确定每个样本的分类概率。高斯混合模型在图像上表现为使用多个椭圆来近似任意形状的密度分布。高斯分布适用于拟合非人为操纵的数据,比其他无监督分类算法(如K-means算法)准确度更高,与有监督的分类算法(如朴素贝叶斯分类算法)相比可以简化训练样本的制作,具有一定优势。

本文算法主要有以下步骤:

1.1 图像预处理

向量量化(Vector-Quantization)是一种将信号离散化的算法,算法将样本分为若干组,每组中的点相互间距离最[5]。向量量化算法可以简化图像并降低高斯混合模型计算量,自动确定高斯混合模型的分类数目,以便输入高斯混合模型进行训练。

向量量化过程使用K-means算法,算法在数据集中选出K个类,每一类选出一个中心点,并且每一个类中的点到该类中心点的距离小于到其他类中心点的距离,即最小化下式

[J=n=1Nk=1Krnkxn-μk2]

其中

[rnk=1, n∈ cluster k0, n? cluster k]

具体计算时通过迭代法,先固定[μk],求得[rnk]。再固定[rnk],计算[μk]。

计算过程:

1) 随机生成K个中心点。

2) 将每个点归类于离它最近的中心点。

3) 用下式计算新的中心点。

[μk=nrnkxnnrnk]

4) 重复2-3步直至J的前后步之差小于阈值或达到最大迭代步数。

1.2 提取特征分量

经过实验,从HSV空间提取Hue分量,从Lab空间提取L、a分量,从YCbCr空间提取Cr分量可以较有效的提取结核杆菌部分(图2-a、2-b)。算法将使用以上特征分量。

1.3 使用最大期望算法训练高斯混合模型

我们将提取后的色彩分量重新组合并以此对高斯混合模型进行训练,训练算法为最大期望算法(Expectation Maximization)。最大期望用于寻找概率模型的参数最大似然估计,算法分为两步,第一步计算期望(E步),第二步最大化(M步)。两个步骤循环迭代可获得要求精度下的概率模型。

1.4 使用高斯混合模型对样本进行分类

训练高斯混合模型需要一定时间,训练后输入测试样本,高斯混合模型将对图像进行分类,模型数据可以保存供以后反复使用。

2 高斯混合模型与最大期望算法

2.1 高斯混合模型

高斯分布具有很多良好性质,在许多统计测试中应用广泛,但对于单个高斯分布无法拟合的概率分布,我们可以使用多个高斯分布来任意的逼近已知的分布。

高斯混合模型是K个高斯分布的线性组合,它的概率密度函数如下:

[px=k=1K pkpx|k=k=1KπkNx|μk, σk]

使用高斯混合模型之前需要确定未知的系数[πk]以及每个高斯分布的参数[μk],[σk]。

要求取未知参数,我们通过给定的数据点得到概率:

[i=1Npxi]

令其等于概率密度函数并求解使其最大的参数:

[i=1Npxi=k=1KπkNx|μk, σk]

在实际计算中我们两边取对数得到对数似然函数,并求导解方程:

[i=1Npxi=i=1Nlogk=1KπkNx|μk, σk]

2.2 最大期望算法

最大期望算法是一种在统计模型下寻找最大似然估计的迭代算法。迭代步骤中的E步使用当前的参数估计计算对数似然函数期望值,M步则利用上一次迭代的值计算新的模型参数。具体操作步骤如下:

1) E步

估计每个数据点属于第k类的概率,式子中的[πk],[μk],[σk]假定已知,取上一次迭代后的值。

[γi, k=πkNxi|μk, σkj=1KπjNxi|μj, σj]

2) M步

估计每个高斯分布的参数,利用E步求得的[γ(i, k)],容易得到:

[πk=NkN]

[μk=1Nki=1Nγi, kxi]

[σk=1Nki=1Nγi, kxi-μkxi-μkT]

其中[Nk=i=1Nγi, k]。

3) 重复迭代1、2步直到似然函数的两次计算结果小于给定的阈值,即似然函数收敛,算法结束。

3 实验结果及分析

分类测试时我们把数据分为4组,使用1组对高斯混合模型进行训练,再全部输入高斯混合模型进行分类,并与人工分类得到的结果作对比。对分类准确率的评判我们使用以下四个指标:

1) 是结核菌并被正确分类的目标Positive;

2) 是结核菌未被正确分类的目标Unrecognized;

3) 不是结核菌被误分类的目标False;

4) 分类器的灵敏度可用下式表示:

4 结论

本文提出了一种基于高斯混合模型的结核菌痰涂片图像分类算法,用于提取痰涂片图像中的结合军目标。算法首先使用向量量化算法对图像进行预处理,降低了运算量并自动获取分类数,然后分析并提取了HSV、Lab、YCbCr颜色空间下具有较高识别性的图像特征,最终算法以H、L、a、Cr通道作为特征输入高斯混合模型,最后使用样本数据训练高斯混合模型并测试,实验结果如图3所示。通过对准确率的考察,高斯混合模型能够完成结核菌图像的大部分分类工作,准确率在K-means与监督分类算法之间,保持了较好的性能和易用性。

参考文献:

[1] Global Tuberculosis Control: WHO Report 2010[M]. World Health Organization,2010.

[2] 翟永平,周东翔,刘云辉. 基于颜色及梯度统计特征的结核杆菌目标识别[J].国防科技大学学报,2012,34(5).

[3] KHUTLANG R, KRISHNAN S, DENDERE R等人. Classification of Mycobacterium tuberculosis in Images of ZN-Stained Sputum Smears[J]. IEEE Transactions on Information Technology in Biomedicine, 2010,14(4):949-957.

[4] FORERO M G, CRIST?BAL G, M. DESCO. Automatic identification of Mycobacterium tuberculosis by Gaussian mixture models[J]. Journal of Microscopy,2006,223(2):120-132.

[5] Vector quantization[J]. Wikipedia, the free encyclopedia,2014.

猜你喜欢
结核菌
PCR-反向点杂交法耐药基因检测和BD960结核菌药敏在耐药结核病检测中的应用价值
牛副结核病的发病过程及诊断方法
饲料博览(2020年3期)2020-12-30 12:05:51
艾滋病病毒结核菌双重感染预防控制策略
结核菌Xpertrpob基因利福平耐药快速检测的临床价值
健康大视野(2020年3期)2020-02-24 07:14:33
痰液性状和保存条件对结核菌培养阳性率的影响
重新认识结核病
大众健康(2018年3期)2018-01-29 01:53:32
结核菌培养方法对照与效果研究
今日健康(2016年5期)2017-01-23 06:50:10
12例隐球菌脑膜炎患者的临床误诊分析
gp10基因的原核表达及其联合异烟肼的体外抗结核菌活性
肺结核合并糖尿病68例临床治疗分析