基于支持向量机的尿液细胞图像识别分类研究

2013-09-08 10:18秦颖博
计算机工程与设计 2013年6期
关键词:超平面特征参数像素点

秦颖博,孙 杰,陈 平

(1.天津理工大学 计算机与通信工程学院,天津300191;2.天津理工大学 电子信息工程学院 薄膜电子与通信器件天津市重点实验室,天津300191)

0 引 言

尿液检查以其简便、快捷、标本易得而被临床检查所广泛采用,是目前医院临床常规检测项目之一。尿液成分的形态表征是对肾脏实质性变化及其他累及病变的客观表达。因而,如何快速准确的统计出尿液中各类细胞的种类及含量成为人们的研究重点。

长期以来人们对医学图像的分析主要是依靠人工目测完成的,因而存在着效率低、工作强度大、易疲劳、人为误差频繁等缺点。本文将支持向量机 (SVM)技术应用于尿液细胞自动识别及分类[1-2],通过对不同特征参数的识别准确率、识别效率进行对比,得出采用SVM方法的细胞识别分类效果良好,达到辅助医务人员分析和识别尿液细胞图像的目的。本方法可给出病理检查重要信息,对疾病诊断、治疗监测及健康普查具有重要的临床意义。

1 尿液细胞识别分类原理

细胞识别与分类研究技术是图像处理,模式识别和人工智能技术相结合的产物,采用SVM对数字化细胞图像进行自动处理分析和分类的主要方法是运用图像处理分析技术提取细胞的特征信息,在这些特征信息的基础上采用SVM对细胞进行识别分类。

SVM细胞识别与分类原理流程图如图1所示。

图1 SVM识别与分类流程

2 支持向量机原理

支持向量机是近几年出现的一种统计模式识别方法[4]。在解决小样本非线性及高维识别中有特有的优势,具有极强的泛化能力和其它机器学习方法不可比拟的优势。其原理是用最优超平面作为分离训练数据的线性函数,解决线性分类问题。所谓最优超平面是指,若训练样本 (xi,yi),i=1,...,l,x∈Rd,y∈ {+1,-1},可以被超平面无差错分开,且超平面附近的向量离超平面距离最大,这样的超平面即为最优超平面[3]。

式 (1)中w是到超平面的法向量,b是偏移量。求距离最大值等同于求w的最小值

超平面:x·w+b=0要求

式中:C——惩罚因子,ξi——松弛变量.判决结果方程如下

式中:αi——拉格朗日乘子常数,其值在优化过程中确定。sv——支持向量集合,在很多实际情况下,训练数据集是线性不可分。例如在一维空间中,没有任何一个线性函数能解决下述划分问题,即图2所示:一维空间中,实线、虚线各代表一类数据,我们无法用线性函数将这两类数据区分开,可见线性判别函数有一定的局限性。

图2 一维空间数据

完全可以建立一个二次判别函数

用来很好的解决上图中线性不可分的问题。决策分类规则是:如果g(x)>0,则判定x属于C1,如果g(x)<0,则判定x属于C2,如果g(x)=0,则可以拒绝判定。如图3所示。

图3 二维空间的数据

二次判别函数g(x)= (x-a)(x-b)可以写成如下形式

新建向量

这样判别函数就可以写成

于是,非线性函数就转换成了四维空间里的线性函数。

在SVM中也是利用类似的思路解决非线性问题的,利用核函数将低维空间中的线性不可分数据映射成高维特征空间中的线性可分数据。在支持向量机中使用的核函数主要有:线性核函数、多项式核函数、RBF核函数、Sigmoid核函数四类。其中RBF核函数在实际使用中效果良好,因而本文采用RBF核函数作为SVM核函数。

3 特征参数与SVM参数

3.1 颜色特征参数

在RGB色彩坐标系统中,任意颜色都可看作是3个基本颜色——红 (R,red),绿 (G,green)和蓝 (B,blue)的不同组合。

在HSI色彩坐标系统中色调H:由角度表示,它反映了颜色最接近什么样的光谱波长。饱和度S:表征颜色的深浅程度,饱和度越高,颜色越深。亮度I:是表示光照强度或称为亮度。本文选择HSI作为颜色特征。HSI在许多处理中有其独特的优势。首先,在HSI中,亮度分量与色度是分开的,I分量与图像的彩色信息无关。其次,在HSI中,色调H和饱和度S的概念相互独立并与人的视觉系统最为接近。这些特点使得HSI被优先用于彩色图像分析算法中。

从RGB到HSI的转换公式如下[5]

3.2 空间特征参数

细胞图像是一种彩色物体,就单纯一个像素点而言,它所包含的信息量不仅仅指的是是其颜色或色度信息,还有该像素点的空间信息,即该像素点所处的空间位置或者该像素点周围像素的信息。因而在特征参数的选取上,仅有颜色参数是不可能表达像素的所有信息,有必要加入空间特征参数。为了提取某一像素点周围像素的信息,我们以该像素点周围5×5领域为研究对象,求取该像素点邻域中所有像素点颜色特征的平均值作为空间特征。从理论上而言,这种处理更加充分地利用了细胞图像所包含的信息。实验结果表明,加入空间特征能够更好地识别不同种类的细胞。

3.3 SVM参数确定

SVM的分类性能主要由两个参数确定,即:惩罚因子c和核函数的参数[6]。惩罚因子c用于调节学习机器置信范围和经验风险间的比例,使学习机器的推广能力达到最好。选取时由具体的问题而定,并取决于数据中噪声的数量。核函数和其参数对分类性能有很大影响,这里我们使用的是RBF核函数以及其参数g。SVM的参数确定过程实质上就是一个优化的过程。目前SVM参数确定方法主要有:经验选择法、实验试凑法、梯度下降法、交叉验证法[7]、Bayesian法等。本文提出网格搜索交叉验证法确定两个SVM参数:惩罚因子c和RBF核函数的参数g。

10-折交叉验证法是一种典型的SVM性能评价准则。其主要思想为:将训练样本集随机分为10个互不相交的子集合,即s1,s2,…s10。对其中的9个子集作为训练数据进行训练,求出判决函数,即可对剩下的一个子集合进行样本测试。记其中的错误分类样本数为li,该过程重复10次,取10次过程中的测试错误的平均值来估计期望泛化误差。利用网格搜索遍历所有可能的 (c,g)对值,然后进行10-折交叉验证,找出使交叉验证错误率最小的(c0,g0)对,就为最优参数。具体步骤如下:

(1)首先根据网格法搜索法初步设定参数变化范围,将所有不同参数组合按10-折交叉验证求得识别率。

(2)根据前述参数范围进一步细分网格,得到更精确的参数值,根据10-折交叉验证平均正确率排序,选择分类正确率最高的参数组合作为模型的最优参数。

4 实验过程与研究结论

尿液细胞识别分类过程如下:

(1)将尿液细胞样本图片中每一类细胞的特征参数作为一类样本,并以专门的格式存储于数据库中。

(2)读取这些特征样本分量作为SVM的训练样本进行训练,生成支持向量机分类器。

(3)使用已生成的支持向量机分类器对待检测的细胞图片所有像素点进行预测分类,最终达到识别分类的目的。

以上过程操作简单,只需使用少量样本训练一次,生成分类器后,就可对多种细胞同时进行识别分类。

程序软件由C++语言编写,同时结合SQL Server数据库[8],设计出操作简单,实用性强的尿液细胞识别分类程序。其中SVM部分是基于LIBSVM发展而来,LIBSVM是台湾大学林志仁教授开发的一套快速高效的SVM模式识别与回归的开源程序包[9]。

4.1 实验环境

软件环境:操作系统 Microsoft Windows XP Professional sp3,开发软件visual studio 2010,release版本。

硬 件 环 境: 处 理 器 Pentium4,2.40GHZ, 内 存1GB RAM。

4.2 实验步骤与程序演示

(1)利用图像预处理对待检测细胞图像进行处理。

利用高斯滤波法对待检测细胞图像去噪[4,10],有效的过滤掉图像中的散粒噪声,保留了细胞图像的细节信息,进而改善了细胞图像质量,如图4、图5所示。

(2)分割细胞图像结构,提取细胞特征参数。

在RGB颜色空间中R,G,B值作为颜色特征参数,ave_r,ave_g,ave_b作为空间特征参数。

在HSI颜色空间中H,S,I值作为颜色特征参数,ave_h,ave_s,ave_i作为空间特征参数。将以上所有特征参数储存于SQL Server数据库中用于后续处理。图6为样本特征参数的选取过程。

为了方便用户对SQL Server数据库进行必要的管理,我们编写了数据库管理界面,如图7所示。

图6 样本特征选取

图7 样本特征参数管理界面

(3)从数据库中读取特征值进行SVM训练,通过网格搜索交叉验证法确定SVM最优参数,然后根据SVM训练结果及参数进行细胞识别分类。分类结果如图8所示。

图8 RGB色彩系及HSI色彩系下识别实验

从图8中可以明显地看出,图8(b)、图8(c)中的识别效果比图8(a)好,而图8(d)中的识别效果要好于图8(b)和图8(c)。在整幅图中图8(d)的识别效果最好,即HSI色彩系下加入空间特征方法的识别效果最好。

4.3 实验结论

本实验一共选取16张图片,图片大小为800×600,细胞种类为6类,共107个,分别为白细胞、红细胞、上皮细胞、细胞管型、结晶、背景和杂质归为一类,一共六类。我们以RGB值作为特征参数为例,经过大量的实验测试,比较不同SVM参数下的识别效果,其中(c0,g0)为选取的最优参数对,并分别统计了各种细胞的识别率,见表1。

表1 不同SVM参数下识别结果比较 (%)

以上结果表明,当特征参数一定时,惩罚因子c和RBF核函数的参数g对SVM的性能起到决定作用,由网格搜索和交叉验证法确定SVM最优参数得到了理想的识别分类效果。

在SVM最优参数确定后,通过对不同的方法进行训练和测试,统计并对比所得到识别分类的结果和所消耗的时间。其中样本训练时间和识别时间由程序自动生成,时间单位为毫秒 (ms),结果见表2、表3。

表2 不同特征参数下识别结果比较 (%)

表3 不同特征参数下识别效率比较 (ms)

从识别的准确度来看,利用图像综合特征的分类方法是可行的,采用HSI颜色系作为颜色参数所取得的效果要比采用RGB颜色系要好。另外加入空间特征参数要比采用单纯颜色特征的分类效果要好,这说明图像像素点的信息,不是仅仅用该像素点的颜色就能表达的还与该像素点周围的像素有关。

从识别的效率来看,由于HSI颜色参数是根据RGB颜色参数由转换公式计算而来,因而计算量的增加导致样本训练和识别时间也会相应增加。在加入参数特征空间后,计算量也随之相应增加。准确度与效率一直以来就是矛盾的,如果过高的追求精确度,则效率会有比较大的下降,只能从二者之间取一个平衡。从程序反馈的消耗时间来看,我们在付出较小效率的代价下,提高了识别准确度。

实验结果表明:在利用SVM对尿液细胞进行识别分类的过程中,我们所提出的在HSI颜色空间选取颜色特征参数和空间特征参数,同网格搜索交叉验证法选取SVM最优参数相结合的方法得到很好的验证,取得了理想的实验结果。

5 结束语

本文选取符合人类视觉感知的HSI颜色空间作为主要特征参数,有效避免了RGB颜色空间的弊端。加入空间特征参数后,细胞图像信息更完整。使用具有广泛应用前景的支持向量机为基础的改进算法,并采用网格搜索交叉验证法选取最佳的核函数和相关参数,最终达到理想的分类效果。还同时重点考虑算法的实用性,便利性和可扩展性。以visual c++为平台设计软件,使其具有良好的兼容性,方便用户使用。使用SQL Server数据库保存特征数据,为以后的尿液细胞识别分类的网络化应用打下基础。

[1]GU Yaxiang,DING Shifei. Advances of support vector machine [J].Computer Science,2011,38 (2):14-17 (in Chinese).[顾亚祥,丁世飞.支持向量机的研究进展 [J].计算机科学,2011,38 (2):14-17.]

[2]WANG Yongfeng,HUANG Siming,XU Jing.A gradient method for choosing kernel parameters for SVM [J].Mathematics In Practice and Theory,2011,41 (1):7-13 (in Chinese). [王永峰,黄思明,徐晶.一种通用的基于梯度的SVM核参数选取算法[J].北京:数学的实践与认识,2011,41 (1):7-13.]

[3]Serafeim Moustakidis,Giorgos Mallinis,Nikos Koutsias,et al.SVM-based fuzzy decision trees for classification of high spa-tial resolution remote sensing images [J].IEEE Transactions on Geoscience and Remote Sensing,2012,50 (1):149-168.

[4]Mila Sonka,Vaclav Hlavac,Roger Boyle.Image processing,analysis and machine vision [M].CL-Engineering,2008.

[5]YE Xiaoling,LIU Yucheng,ZHANG Yingchao.Cell recognition research based on colorimetry and morphology [J].Computer Engineering and Design,2009,30 (6):1495-1498 (in Chinese).[叶小玲,刘玉成,张颖超.基于色度学与形态学相结合的细胞识别研究 [J].计算机工程与设计,2009,30(6):1495-1498.]

[6]Dheeba J,Tamilselvi.Classification of malignant and benign MICRO-calcification using SVM classifier [C]//IEEE Proceedings of Icetect,2011:686-690.

[7]FENG Heguo.Parameter optimizing for support vector machines classification [J].Computer Engineering and Applications,2011,47 (3):123-125 (in Chinese). [奉和国.SVM分类核函数及参数选择比较 [J].计算机工程与应用,2011,47 (3):123-125.]

[8]QU Yang.Visual C++实效编程280例 [M].Beijing:Posts& Telecom Press,2009 (in Chinese). [曲扬.Visual C++实效编程280例 [M].北京:人民邮电出版社,2009.]

[9]Hsu Chih wei,Changchih chung,Lin Chih jena.Practical guide to support vector classification [EB/OL].[2012-05-05].http://www.csie.ntu.edu.tw/cjlin.

[10]WANG Zhanquan,XU Hu.Digital image processing technology and engineering case for Visual C+ + [M].Beijing:Post and Telecom Post,2009 (in Chinese).[王占全,徐慧.Visual C++数字图像处理技术与工程案例 [M].北京:人民邮电出版社,2009.]

猜你喜欢
超平面特征参数像素点
全纯曲线的例外超平面
涉及分担超平面的正规定则
基于局部相似性的特征匹配筛选算法
冕洞特征参数与地磁暴强度及发生时间统计
基于交通特征参数预测的高速公路新型车检器布设方案研究
基于5×5邻域像素点相关性的划痕修复算法
涉及周期移动超平面的全纯曲线差分形式的第二基本定理
基于canvas的前端数据加密
基于PSO-VMD的齿轮特征参数提取方法研究
基于视频的车辆特征参数算法研究