基于综合特征和随机森林的白细胞分类算法

2015-06-01 14:54怀听听赵建伟曹飞龙吕永标楚建军
中国计量大学学报 2015年4期
关键词:颗粒细胞细胞核决策树

怀听听,赵建伟,曹飞龙,吕永标,楚建军

(1.中国计量学院 理学院,浙江 杭州 310018;2.嘉善加斯戴克医疗器械有限公司,浙江 嘉兴 314100)

众所周知,血液中各类白细胞的计数是医学血常规检查的主要项目之一.临床上医护人员常以血常规检查中各类白细胞的数目以及形态学特征作为系统疾病诊断的重要依据.根据细胞的不同形态和大小,白细胞主要分为嗜碱性粒细胞、嗜酸性粒细胞、淋巴细胞、单核细胞和中性粒细胞[1].

传统手工操作的血常规检查除了工作量大、效率低等缺点外,还容易受人为因素的影响.随着计算机技术和人工智能技术的快速发展,数字图像处理技术被广泛应用于医学显微图像研究领域.而血液白细胞图像自动分类识别技术正是这一应用的体现,它不仅可以解决白细胞人工计数方法存在的问题,而且还具有图片可保存、便于以后查验分类等优点.

一般来说,白细胞自动识别技术主要包括图像采集、图像分割、特征提取和分类四个方面,其中特征提取和分类是关键.目前,许多文献利用特征方法和分类器对白细胞进行自动识别的研究[2-8].其中,文献[6]提出的白细胞自动分类识别方法是利用序列前向选择算法(sequential forward selection,SFS)对白细胞的二十多种形态和几何特征进行不同维数的约减和选择,并分别采用支持向量机(support vector machine,SVM)分类器和人工神经网络(artificial neural networks,ANN)对五类白细胞进行分类.实验证明该分类方法的结果不仅与特征的选择有关,而且受分类器类型的影响.文献[7]采取了分层支持向量机的方法(hierarchical SVM,HSVM)对五类白细胞进行识别,该方法可以减少分类提取的特征数目并降低每一层的分类复杂度,但是存在误差逐层传递且得不到修正的问题,从而影响最终的分类效果.文献[8]提出了一种基于集成特征和随机森林的白细胞分类方法(ensemble features and random forest,EFRF),该方法利用随机森林分类算法对细胞核图像上提取的若干个特征进行分类,实验取得了比SVM分类器更好的识别效果.然而,EFRF在细胞核的特征选取上存在不足,即所选的特征不具有代表性,以致难以表达各类白细胞之间的差异,特别是三类颗粒细胞,因为其纹理和颜色特征大部分集中在细胞质上.

特征的提取和分类器的选择是继白细胞图像分割之后影响分类结果的重要因素.提取每一类白细胞最显著性的特征,对于有效区分五种细胞类型是十分关键的.为此,我们将提取细胞核和细胞质中的某些重要信息作为综合特征,提取常用的核质比和圆形度特征加大白细胞之间的类别区分度.同时,针对细胞核形状的多样性,引入积分不变量[11]提取白细胞的细胞核形状特征.该形状特征不受细胞核的尺度变换和旋转变换的影响.另外,我们引入旋转不变共生局部二值模式(pairwise rotation invariant Co-Occurrence local binary pattern,PRICoLBP)[9]来描述三类颗粒细胞之间的差异信息以及细胞质的颜色特征.将该特征用于颗粒细胞的识别,有利于提高算法的识别精度.最后利用运行速度快、识别精度高的随机森林作为分类器对上述所提取的综合化了的四类特征进行分类.实验证明我们所提出的白细胞分类方法比其他白细胞分类方法具有更高的分类精度,而且分类所需要的特征数目也远少于其他方法.

1 基于综合特征和随机森林的白细胞分类方法

提取白细胞的一些重要特征,如关于纹理、颜色和形态方面的特征,再结合随机森林作为分类器,设计了一种高效的白细胞分类算法.具体流程见图1.

在分割的细胞图像中,首先提取细胞的核质比、细胞核的圆形度、RGB颜色通道的PRICoLBP特征和细胞核的形状特征;其次,对细胞核的形状特征利用k-means算法进行中心聚类,并把所有的细胞核形状与每一类细胞核的形状中心的距离作为细胞核形状特征的表示;同时,针对PRICoLBP特征具有维数高以及随机森林节点属性随机选择的特点,利用SVM分类器获取PRICoLBP特征在五类白细胞上的“分数”,即该特征属性在每一类白细胞上的区分度,并以此替代原来维数过高的纹理PRICoLBP特征;然后,对上述提取的四个白细胞特征进行组合并作归一化处理;最后,选取效率高的随机森林作为分类器对上述特征进行识别,从而确定五类白细胞.

图1 基于综合特征和随机森林的白细胞分类方法Figure 1 A classification method based on synthetic feature and random forest for WBC

1.1 特征提取

五类成熟白细胞在细胞核的形状、大小和细胞质的颜色以及颗粒信息等方面存在不同程度的差异性,图2是五类成熟白细胞的图像.

图2 五类白细胞示意图Figure 2 Five types of WBC

从图2所示的白细胞图像上,我们可以看出细胞核的形状可以呈现多叶或单叶状态,不同时期的细胞核形态又不完全相同.对于颗粒细胞来说其主要特征几乎都呈现在细胞质的颗粒和颜色上,这也是医学上用来区分颗粒和无颗粒细胞的重要依据.因此,在分割的细胞核和细胞质图像上,我们提取了白细胞的如下特征:核质比、细胞核的圆形度、PRICoLBP特征和形状特征等.下面详细阐述本文所选取的白细胞的重要特征.

1.1.1 核质比特征

白细胞的细胞核与细胞质的面积之比简称为核质比R,可以表示为

其中:Snuc—细胞核面积,Scyt—细胞质面积.五类白细胞中,淋巴细胞与单核细胞的核质比存在差异最大.

1.1.2 圆形度特征

圆形度C是用来描述细胞核形状类圆度特征,其数学表达式为

式(2)中:P—细胞核边界的周长.圆形度越接近于1表示细胞核形状越接近圆形,0表示非圆.五类白细胞中,淋巴细胞的细胞核圆形度最大.

1.1.3 旋转不变共生局部二值模式特征

PRICoLBP是在局部二值模式(Local Binary Pattern,LBP)[10]上的变形和改进.LBP是一种对灰度变换和旋转变换都具有不变性的纹理特征,由于其能较好地刻画图像的纹理特性并且计算简单,因此它在图像分类和人脸识别领域有广泛地应用.PRICoLBP特征是对两个相对不同位置上的LBP纹理特征的结合,它可以表示成如下的数学形式:

其中:LBPru(A),LBPu(B,i(A))—A 点的旋转不变LBP特征和B点的一致LBP特征.B是相对于A点的一个坐标,它的位置由A点唯一确定.记A点的梯度方向和法方向分别为g(A)和n(A),则B点的位置计算如下:

其中a和b为常量.

PRICoLBP特征集合了A、B两点的LBP特征的同时又加入了它们之间的角度信息,使得它能够更强地描述纹理和空间的结构信息,并且它具有共生旋转不变性,如图3.

由于颗粒细胞的细胞质中还包含着大量的颜色信息,为了进一步描述细胞质的颜色特征和局部结构信息,本文把PRICoLBP特征的提取扩展到多尺度和多颜色通道上.在提取A点的纹理特征之前,我们先要根据式(4)确定B点的位置,然后通过计算式(3)得到这一点的PRICoLBP特征.文中选择在RGB彩色图像中提取白细胞在这三个颜色通道上的PRICoLBP特征,并设置该特征的多尺度模板参数为2.这样,提取到的多颜色PRICoLBP纹理特征是一个3540维的向量.

为了降低PRICoLBP特征的维数,我们利用核函数为χ2距离的SVM分类器对PRICoLBP特征进行降维.其目的是在不降低PRICoLBP特征描述力的情况下减少PRICoLBP特征对综合特征中其它低维特征的影响.具体的过程是利用PRICoLBP特征和SVM分类器对白细胞进行初步分类,得到SVM在五类白细胞上的一个类别判断,并用它替代原来的PRICoLBP特征,从而使得PRICoLBP变成一个5维的向量.

通过实验发现多尺度多颜色的纹理特征PRICoLBP不仅能够提取颗粒细胞的纹理还可以更好地描述细胞质的颜色信息,在一定程度上增加了五类细胞之间的区分度,提高了细胞的总体分类精度.

1.1.4 基于积分不变量的形状特征

白细胞的细胞核形状可以分为类圆形、单叶核、多叶核和不规则形状等,而且在不同成长阶段细胞核形状又呈现出不同程度的差异.提取细胞核的形状特征不仅对细胞分类有用,而且可以根据细胞核的形状来确定白细胞所处的生长时期,如晚幼或中幼的颗粒细胞.

为达到合理有效地描述细胞核的形状特征,我们引入积分不变量[11]提取了白细胞的细胞核形状特征.基于积分不变量的形状特征SD(σ)可描述为

其中:Gρ— 高斯核函数为尺度参数,表示形状目标D的特征函数.

为了在分类中进一步合理利用细胞核的形状特征,本文利用k-means聚类算法对每一类细胞核的形状进行中心聚类,计算所有形状特征与中心形状的距离,并把它作为最终的形状表示用于分类实验.

利用积分不变量提取的形状特征不仅对尺度变换和旋转具有不变性,而且对噪声有一定的鲁棒性.该特征对于多核和单核细胞具有很高的辨识度,同时对于判断多叶的核细胞所处的生长阶段也有所帮助.

1.2 随机森林分类器

随机森林是由若干个相互独立的决策树构成的一个多分类器[12].每棵决策树就是一个独立的分类器{h(x,θk,M)|k=1,2,…,N},其中 N 是样本个数,{θk,M|k=1,2,…,N}是训练决策树的样本集合,x为测试样本的特征向量.单棵决策树的训练过程如下:在大小为N的原始样本中按照有放回的bagging采样规则进行N次随机采样得到{θk,M},把它作为决策树根节点的训练样本.决策树在当前节点的M维特征属性中随机选择其中的m(m≪M)维,并逐个计算它们的基尼不纯度指数.利用基尼不纯度最小准则选出不纯度指数最小的特征,把它作为该节点的分裂属性,由分裂函数把当前树在此节点分为左右两支子树,以此循环直到不能再分裂或到达叶子节点为止.

随机森林分类包含了训练和测试两部分,由于决策树的训练是两个随机选择的过程,所以决策树的深度可以达到最大,在训练过程中不会出现过拟合的问题.随机森林对一个新的测试样本x分类,每棵决策树会给出一个类别判断,最后随机森林综合所有决策树的投票.按照最大投票法则得出分类结果,即把每棵决策树给出的分类看作是“选票”,随机森林分类要选出得票数最多的那一类作为测试样本的分类结果.

2 实验与分析

实验中所用到的白细胞图像共有800张,其中60张是来自于Cellavision细胞数据库网站上提供的标准白细胞图片,其余的白细胞图像都是由嘉善第一人民医院提供的.一般来说,人体外周血液中五种白细胞所占的比例不同.其中嗜中性粒细胞占50%~70%,淋巴细胞占20%~40%,单核细胞占3%~8%,嗜酸性粒细胞占1%~5%,嗜碱性粒细胞不超过1%.考虑到上述事实,本文在设计实验时采用非均衡的方法对五类进行采样,以尽量贴近实际情况.实验中用到的白细胞具体数目如下:嗜碱性粒细胞16张、嗜酸性粒细胞15张、淋巴细胞269张、单核细胞21张和中性粒细胞479张.由于原始细胞图像尺寸大小不一,本文实验中把细胞图片的分辨率均调整为300×300,并且在每一类白细胞图像中随机选取50%的样本作为训练样本,剩余的细胞图像作为测试样本.文中所有实验均在 MATLAB 8.2.0(2013b),4核1.9GHz处理器和8GB RAM 环境下运行.

实验中把提取的4个白细胞特征向量:细胞的核质比、细胞核的圆形度特征、降维后的RGB颜色通道的PRICoLBP特征和基于积分不变量的形状特征放到同一向量中,形成综合特征.为了缩小综合特征向量的不同分量之间取值量的巨大差异性,本文按照min-max标准化方法对它们作归一化处理,从而应用于随机森林分类器中.

在随机森林分类器中,我们设置其决策树的个数为300,且每次用于随机选择最优节点分裂的特征数目为默认参数,一般取[]或[log2M+1],其中M为特征的维数.实验过程共重复进行100次,取其平均结果作为最终的分类精度.表1是本文所提出的方法在800张细胞图像数据库上与文献[6]、[7]和[8]中的几种白细胞分类方法的测试实验结果比较.

表1 白细胞分类实验结果Table 1 Classification results of white blood cell%

表1的实验结果表明本文所提的白细胞分类方法比文献[6]、[7]和[8]中的方法有更好的分类效果.文献[6]和文献[7]采用细胞的一般形态学特征对颗粒细胞进行识别,因此识别率相对比较低,从而导致平均识别结果不高.文献[8]采用了随机森林作为分类器对白细胞进行分类,虽然在整体和样本数目较多的细胞类型上取得了比前两种方法([6]和[7])更好的分类结果,但是由于其缺乏细胞质的纹理和颜色等信息,使得它在样本数量较少的颗粒细胞上的精度不高.本文所提出的白细胞分类算法无论是从每一类白细胞的分类精度还是从平均识别结果上都要比文献[6]、[7]和[8]中的方法要高,总体达到95%左右.其中嗜碱性粒细胞和嗜酸性粒细胞识别结果相对较低,主要是由于这两类颗粒细胞数目较少,而且提取的特征容易受分割效果以及染色情况的影响.本文的分类方法之所以取得较好的识别结果,一方面是因为选取了有效描述白细胞的特征,另一方面是因为随机森林在分类上有较高的分类精度.

3 结 语

针对五类白细胞的细胞核和细胞质的特性,在常用的核质比和圆形度特征的基础上,我们引入描述效果较好的PRICoLBP特征和形状特征等,并选取高效的随机森林作为上述特征的分类器.实验表明本文所提出的白细胞分类算法要优于其他几种分类方法,原因是本文选取的特征,特别是PRICoLBP特征和形状特征能够更有效地描述细胞质的颜色、颗粒以及细胞核的形状等信息,从而提高特征的区分度;同时,选择的随机森林分类器具有更高的分类精度.

本文所提出的白细胞分类算法只适用于正常的成熟白细胞,对于病变细胞或者其他类型的细胞,还需要根据不同细胞类型的特点选择合适的特征.除此之外,如何进一步提高颗粒细胞特别是嗜碱性粒细胞和嗜酸性粒细胞的识别精度还有待深入地研究.

[1]王晓霞.外周血细胞形态学检查技术[M].北京:人民卫生出版社,2010:8-18.

[2]张立伟.白细胞显微图像分类研究[D].哈尔滨:哈尔滨工程大学,2008.ZHANG Liwei.The classification research on microscopic leucocyte image[D].Harbin:Harbin Engineering University,2008.

[3]PIURI V,SCOTTI F.Morphological classification of blood leucocytes by microscope images[C]//Proceedings of 2004 IEEE International Conference on Computational Intelligence for Measurement Systems and Applications.Boston:IEEE,2004:103-108.

[4]庄杨凯.基于形状特征学习的血液白细胞自动分类研究[D].杭州:浙江理工大学,2013.ZHUANG Yangkai.Automatic leukocytes classification based on morphological features learning[D].Hangzhou:Zhejiang Sci-Tech University,2013.

[5]SARASWAT M,ARYA K V.Automated microscopic image analysis for leukocytes identification:A survey[J].Micron,2014,65:20-33.

[6]REZATOFIGHI S H,SOLTANIAN-ZADEH H.Automatic recognition of five types of white blood cells in peripheral blood[J].Computerized Medical Imaging and Graphics,2011,35(4):333-343.

[7]TAI Weiliang,HU R M,HSIAO H C W,et al.Blood cell image classification based on hierarchical SVM[C]//Proceedings of 2011IEEE International Symposium on Multimedia(ISM).California:IEEE,2011:129-136.

[8]KO B C,GIM J W,NAM J Y.Cell image classification based on ensemble features and random forest[J].Electronics Letters,2011,47(11):638-639.

[9]QI Xianbiao,XIAO Rong,LI Chunguang,et al.Pairwise rotation invariant co-occurrence local binary pattern[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(11):2199-2213.

[10]OJALA T,PIETIKAINEN M,MAENPAA T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.

[11]HONG B,SOATTO S.Shape matching using multiscale integral invariants[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(1):151-160.

[12]BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.

猜你喜欢
颗粒细胞细胞核决策树
体外诱导猪颗粒细胞黄体化方法的比较研究
指向科学思维的“细胞核的结构与功能”教学设计
人卵巢颗粒细胞随年龄增长衰老的相关研究
大腿肌内颗粒细胞瘤1例
野生鹿科动物染色体研究进展报告
植物增殖细胞核抗原的结构与功能
决策树和随机森林方法在管理决策中的应用
补肾活血方对卵巢早衰小鼠颗粒细胞TGF-β1TGF-βRⅡ、Smad2/3表达的影响
决策树多元分类模型预测森林植被覆盖
基于决策树的出租车乘客出行目的识别