甘 岚,吕文雅
(华东交通大学信息工程学院,江西南昌 330013)
基于LLE和LS_SVM的胃粘膜肿瘤细胞图像分类
甘 岚,吕文雅
(华东交通大学信息工程学院,江西南昌 330013)
胃粘膜肿瘤细胞图像的复杂性,组织器官形状的不规则性以及不同细胞的差异性,使得采用一般的线性分类方法对其进行分类很困难,结合局部线性嵌入(LLE)在处理非线性数据及最小二乘支持向量机(LS_SVM)在处理小样本、高维数及泛化问题方面的优势,文章提出一种基于LLE+LS_SVM的胃粘膜肿瘤细胞图像分类方法,并采用LS_SVM的线性拟合误差来判断实验效果,最后比较本文方法与其他分类方法的优越性。实验结果表明,该方法在分类准确率和运行时间方面都有很大的优势。
LLE;LS_SVM;肿瘤细胞分类
由于胃粘膜肿瘤细胞图像的复杂性,组织器官形状的不规则性以及不同种类细胞的差异性,细胞的结构、形状、稀疏程度、排列形状等,都会有很大的差异。在对图像的分类过程中,会遇到各种各样的细胞图像,从这些繁复杂乱的细胞图像中提取细胞特征,并进行有效的分类是很困难的。目前,很多基于机器学习的分类方法应用到图像识别领域,但一般的线性分类方法应用于高维的胃粘膜肿瘤细胞图像时,存在严重的泛化问题[1]。因此,找出一种适合于胃粘膜肿瘤细胞图像且将特征提取和分类融合在一起的非线方法是很有必要的。
局部线性嵌入(LLE)是Sam T在Science[2]杂志上提出的一种非线性非监督的流形学习算法,起初主要是应用于人脸识别和文件中的文本识别领域。LLE具有时间复杂度低、参数少等优点,对于结构复杂、非高斯分布、含有较多冗余信息的胃粘膜肿瘤细胞图像来说,LLE的非线性以及低维嵌入特性非常有利于胃粘膜肿瘤细胞图像的特征降维,而利用LS_SVM的线性回归特性,拟合其线性回归误差[3-4],更加有利于图像的分类。所以本文借鉴两者的优点,提出一种LLE和LS_SVM相结合的肿瘤细胞图像分类方法,并通过不断的实验验证此方法在分类准确率和运行时间上的优势。
胃粘膜肿瘤细胞图像内容丰富且结构复杂,如何有效的对其进行分类,是一个很复杂的问题,数据的采集和预处理对提高胃粘膜肿瘤细胞图像分类的准确率起着关键的作用。
本文采集的图像为医院病理科的切片显微图像,胃粘膜肿瘤分为正常、癌变、增生3大类,增生图像又分为轻度增生、中度增生和重度增生3类,原始采集的五种典型图像如图1所示。
由上图可以看出,最初采集的图像,存在维数高、噪声严重、含有较多的冗余信息、细胞粘连严重、特征难以提取等问题。
在模式识别中,预处理是图像分割和图像分类的前提,原始采集的胃粘膜肿瘤细胞图像是经过染色的彩色图像,图像的维数很高,且彩色信息对识别作用不大,因此图像的预处理主要是在图像分类之前对图像进行灰度化操作及一些去噪、增强等工作。灰度化一是可以降低图像的维数,二是可以去除图像多余的冗余信息,因此是每张图像必须采用的预处理方法,去噪、增强等方法则根据图像的不同有选择的进行。图2列出一幅原始图像灰度化操作之后的效果。
本文的算法是结合局部线性嵌入(LLE)及最小二乘支持向量机(LS_SVM)这两个核心算法的优点串联构成的。
LLE算法由N个输入实向量Xi组成,Xi∈RD,i∈[1,N]。首先将流形分成许多相互连接的局部区域,每个区域被认为是线性空间,从而可以采用线性方法求出区域内每个点的线性组合性系数。这个系数在低维嵌入时保持不变,因此LLE方法是局部线性化方法[5-6],算法可概括为以下3步。
1)为每个Xi找到它的K个最近邻域Xi1,Xi2,...,Xik;
2)测量由每个Xi的最近邻域组成的近似值造成的重构错误,计算重构权重,最小化重构误差[7];
3)计算能保持最佳重构权重的局部几何低维嵌入。
LS_SVM是在SVM的基础上进行改进的,其中把不等式约束改成等式约束,把偏差的一次方改为二次方,LS_SVM的线性回归和其核函数以及核参数选择与设置问题,是实验效果的关键。下面为常用的几种核函数[8]。
1)多项式核函数:K(x,x')={(x,x')+1}γ,此时得到的支持向量机是一个多项式分类器,γ为自主设定的参数。
3)Sigmoid函数:K(x,x')=tanh(v(x,x')+c),这时SVM实现的就是一个多层感知器网络,式中:v和c为一个常数,这里选取径向基(RBF)核函数,通过设置不同的γ和σ2参数来测试实验效果,其中γ和σ2代表LS_SVM的回归参数。
在实际控制计算中,桥梁施工预应力和桥梁自重是对大跨径桥梁连续施工的最大阻碍因素。根据上述的正向分析法和有限元计算模型,可以获取施工期间各阶段桥梁自重和预应力影响下桥梁进展阻挠值,再与实际施工结果相比较,如果发现误差较大的浇筑模块件,即可调整立模标高[5]。
将局部线性嵌入(LLE)及最小二乘支持向量机(LS_SVM)这两个核心算法串联构成基于LLE+LS_SVM方法的胃粘膜肿瘤细胞识别算法,首先对灰度化图像采用LLE方法降维和聚类,基于LS_SVM的线性回归功能,再对降维后的图像采用LS_SVM进行线性拟合[9],下面给出胃粘膜肿瘤细胞识别的具体过程。
给定一个非正常胃粘膜显微图像训练集X,训练图像总数为N,将其中属于癌变的归为一类,记为X1,X1类中的样本数目为N1,将其中属于增生的归为一类,记为X2,X2类中的样本数目为N2,即图像总的类别数为C=2,且N=N1+N2,各图像的高维特征维数为D=320×240。设任一癌变类图像为测试图像,下面为算法的具体实现。
1)∀x∈X,对测试样本任一数据xi与训练样本X集,并计算邻接点xi,j与当前点xi之间的距离α,其中:xi为测试样x的第i个数据样本点;
2)∀x∈X,如果存在pi个点满足dxij,xi<γ,那么这pi个点就可以作为最近邻域点,利用欧几里德距离计算测试样本xi与pi个癌类训练样本的最近邻距离β;
3)∀x∈X,利用xi与β构建癌类训练样本的权值矩阵wi,j,计算xi两个不同邻域xij和xil的协方差矩阵:Pi=(xi-xij)(xi-xil);
5)∀x∈X,利用矩阵Y计算xi与β是否属于同一最优面,若是即可判别为癌变;
6)∀x∈X,假定任一测试样本为增生类图像,做与步骤1和步骤3同样的操作,得到增生类的低维嵌入矩阵Y',利用Y'计算任一增生类训练样本与增生类最邻域距离是否属于同一最优平面,若是即可判别为增生类。
由于肿瘤细胞图像的复杂性,一次性分为5类比较困难,所以本文的实验目标是将其分为正常、癌变和增生3类。在实验过程中,选取45幅癌类胃粘膜图像和45幅增生类胃粘膜图像作为训练样本集,135幅癌类胃粘膜图像和28幅增生类胃粘膜图像作为测试样本。假定任一幅癌类图像作为测试图像。
在用LLE进行降维和聚类时,分别选取不同的邻域数,来测试选取不同参数的实验效果,首先用LLE将3类样本的高维特征映射到低维的线性空间,然后再结合LS_SVM对其进行有效的分类和对其进行线性拟合。经过反复的实验可知,选取不同的K邻域数,实验的效果是不同的,经过实验比对,选取邻域数K=12时,LLE算法的降维效果是最好的。
LS_SVM的线性回归和核函数及核参数的选择是线性拟合的关键,这里选取径向基(RBF)核函数作为核函数,并设置不同的γ和σ2值来比对实验结果,图3为选取不同参数的实验结果。
由图3的实验结果可知,选取不同的核参数,对实验结果影响很大,当选择γ=1,σ2=0.9时,拟合效果最明显。
基于LS_SVM的线性回归特性,对实验结果进行线性评估,以进一步验证该方法的有效性。图4为选取不同参数对其进行线性评估的结果。
由图4(a)可知,*点大部分落在曲线的波峰和波谷处,只有少数几个点偏离了波峰和波谷,说明该方法的聚类效果比较好。由图5(b)可知,*点几乎全部落在曲线上,只有几个点偏离,说明该方法有较高的分类准确率。
LLE选取不同的邻域数,LS_SVM选取不同的核参数,将他们综合起来,针对分类准确率和分类运行时间以及与其它分类方法的优越性进行比较,分别做了一系列的实验比对,分类准确率由表1表示,分类运行时间由表2表示。与其它分类方法的优越性比较由表3表示,表1列出了选取不同的邻域数和不同的核参数时该方法的准确率,表2列出了选取不同的邻域数和不同的核参数时该方法的运行时间。表3列出了选取不同数量训练样本和测试样本时的分类准确率和分类运行时间。
表1 不同参数的分类准确率Tab.1 Accuracy of different parameters
由表1可知,当领域数选取12,核参数选取γ=1,σ2=0.9时,此时分类识别的准确率最高,为87.58%。
表2 不同参数的运行时间Tab.2 Running time of different parameters
由表2可知,当领域数选取12,核参数选取γ=1,σ2=0.9时,分类识别运行时间受样本集大小影响最小,运行速度最快。
表3 不同分类方法的比较Tab.3 Comparison of different classification methods
由表3可知,本文分类方法在分类准确率和分类运行时间两方面都比其它分类方法有很大的优越性。
基于LLE解决非线性数据与LS_SVM解决高维数据、线性拟合的优势,将它们结合应用于胃粘膜肿瘤细胞图像的分类过程中,实验结果表明,该方法在分类准确率和运行时间方面都有很大的优势。但是该方法一次将肿瘤细胞分为5类的识别率不高,因此本文初步将肿瘤细胞图像分为正常、肿瘤和增生3大类,实验证明效果较好。在下一步工作中,可再次采用该方法将增生分为轻度增生、中都增生和重度增生3类,以完成对胃粘膜肿瘤细胞图像5个类别的分类识别工作。
[1]LANGAN W.Imporved PCA+LD aapplies to gastric cancer image classification[J].Journal of Computational Information Systems,2010,6(14):4867-4875.
[2]SAM T ROWEIS,LAWRENCE K S.Nonlinear dimensionality reduction by lo-cally linear embedding[J].Science,2000,290(5500):2323-2326.
[3]VAPNIKVN.The Nature of Statistical Learning Theory[M].NewYork:Springer,1995.
[4]PYUNG K,SEHUN R.Three-dimensional inspection of ball grid array using laser vision system[J].IEEE Transactions on Electronics Packaging Manufacturing,1999,22(2):151-155.
[5]KWANG I K.Support vector machines for texture classification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,124(11):1542-1550.
[6]候越先,吴静怡,何丕廉.基于局域主方向重构的适应性非线性维数约减[J].计算机应用,2006,26(4):895-897.
[7]文贵华,包丽,丁月华.局部线性嵌入算法中参数的选取[J].计算机应用研究,2007,10(2):60-62.
[8]崔世林,樊京.最小二乘支持向量机及其在故障诊断中的应用[J].微计算机信息,2006,22(6):214-216.
[9]彭代强,林幼权.基于AdaBoost算法的加权二乘向量回归机[J].计算机应用,2010,30(3):776-778.
Classification of Gastric Cancer Cells Based on LLE and LS_SVM
Gan Lan,Lv Wenya
(School of Information Engineering,East China Jiaotong University,Nanchang 330013,China)
It is difficult to recognize gastric tumor cell images by the the linear classification methods for the complexity of gastric tumor cell images,the irregular shape of tissues and organs and the differentiation of different cells.As nonlinear classification methods,local linear embedding(LLE)can well deal with nonlinear data and least squares support vector machine(LS_SVM)can well resolve small sample size,high dimension and generalization issues.A classification method is proposed in this paper based on LLE and LS_SVM.The linear fitting function is used to fit its linear errors,the linear fitting error is used to determine the results,finally superiority of method in this paper is compared with other classification methods.It is proved by the experiment results that this method has a significant advantage in classification accuracy and running time.
locally linear embedding;least square support vector machine;tumor cell classfication
TP181
A
2011-04-22
江西省科技厅项目(20051B0104800)
甘 岚(1964-),女,教授,研究方向为图像处理与模糊识别。
1005-0523(2011)03-0083-05