龙胜春,尧丽君
(浙江工业大学 计算机科学与技术学院,浙江 杭州 310023)
行程长度纹理特征应用于肠癌病理图片识别
龙胜春,尧丽君
(浙江工业大学 计算机科学与技术学院,浙江 杭州 310023)
摘要:传统的肠癌病理诊断都由病理医生完成,随着图像处理技术的发展,为满足医学病理图像辅助诊断的需要,提出用灰度行程纹理特征(GLRLM)来识别大肠病变切片.考虑到传统的灰度行程长度纹理特征预处理方式未充分利用图像彩色信息和病理图像的组织学信息,提出将模糊C均值应用于大肠彩色病理图像的预处理,然后提取图像的行程长度纹理特征,最后利用支持向量机分类.通过与灰度共生矩阵纹理特征对比,行程长度纹理特征和改进的行程长度纹理特征具有更高的分类准确率.同时用SVM分类器与BP神经网络、最近邻分类器对比,根据实验结果得出SVM分类器更适合小样本肠癌病理图像的分类.
关键词:肠癌;模糊C均值;灰度行程长度;辅助诊断;支持向量机
中图分类号:TP391.41
文献标志码:A
文章编号:1006-4303(2015)01-0110-05
Recognition of colorectal cancer pathological images based on
run length texture features
LONG Shengchun, YAO Lijun
(College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China)
Abstract:Conventional pathology of colorectal cancer is diagnosed by pathologists. With the development of image processing technology, the gray level run length matrix (GLRLM) is used to recognize the pathological images in order to meet the demand of computer-aided diagnosis for medical images. Because the traditional GLRLM algorithm ignores the color and structural information behind the images, an improved algorithm was proposed using FCM for the preprocessing. Then the run length texture features of the image are extracted. Finally, the SVM is used to classify the pathological pictures. Compared with gray level co-occurrence matrix texture feature extraction algorithm, the experiments show that the traditional GLRLM and improved GLRLM have higher classification accuracy. Meanwhile, compared with KNN and BP, experiments show that SVM classifier is more appropriate for classification of small samples such as colorectal cancer pathological images.
Keywords:colorectal cancer; FCM; GLRLM; computer-aided diagnosis; SVM
近年来,肠癌的发病率越来越高.要降低肠癌的死亡率,早期诊断和筛查是关键[1].而肠癌的诊断方法中,只有病理诊断才能确诊肠癌.病理检查是通过肠镜取得组织制成切片经HE(苏木紫-伊红)染色后,通过显微镜和数码相机获得病理图像,病理医生结合自己的临床经验进行诊断.但是这种传统的通过病理医生阅片的方法耗时并且劳动强度大.为了缓解病理医生阅片劳动强度和提高诊断精度[2],随着医学图像处理和模式识别技术的发展,国内计算机辅助识别癌症病理图片逐渐成为热点,比如,前列腺癌[3],宫颈癌[4].对于计算机辅助肠癌识别,国内外起步较晚,这些研究针对含有癌变图片进行分割[5-6],将异质区域分割成匀质区域;以及针对正常图片和肠癌图片进行分类[7-9].针对文献[7]利用灰度共生矩阵进行纹理特征提取只适合正常和低分化癌变分类,算法并不适合高分化肠癌识别,提出用行程纹理特征来识别高分化肠癌.
首先用传统的灰度行程长度矩阵提取纹理特征,传统方法预处理是基于灰度值来统计特征量,灰度行程纹理特征在遥感图像和分类和矿石识别[10-11]中得到广泛应用.这些算法首先将彩色图变为灰度图,然后将灰度图等间隔量化为8,16或者32个灰度等级计算灰度行程长度矩阵(GLRLM)以减小计算量.但是这种对灰度图像进行预处理会丢失图像中彩色信息包含的内容.针对这一缺点,作者提出一种改进型灰度行程长度矩阵(GLRLM)特征提取来识别高分化肠癌.该算法利用FCM算法量化彩色图像,针对量化后的矩阵统计各个方向的行程长度矩阵,克服了传统GLRLM算法未考虑组织学信息和颜色信息的缺点.主要贡献有以下两点:第一,首次将传统灰度行程长度纹理特征应用于肠癌病理图片分类.第二,针对传统预处理方式直接将彩色图灰度化利用灰度直方图压缩图像的灰度级会丢失图像彩色信息包含的内容,利用FCM对彩色图像进行聚类,然后提取图像的纹理特征进行分类识别.
1灰度行程长度纹理特征提取
传统灰度行程长度即在某一方向(0°,45°,90°,135°)上具有连续相同灰度值像素的个数.灰度行程长度矩阵定义为某个方向上连续j个点都具有灰度值i出现的次数,记为Pθ(i,j),其中i=0,1,…,M-1;j=0,1,…,N-1;M为灰度级数,N为最长的行程长度,由P(i,j)所组成大小为M×N的矩阵称为灰度行程长度矩阵.
由于计算灰度为256级的行程长度矩阵具有很大的计算量,传统的做法一般是将256级灰度转化为8,16或者32级.对于8级灰度等级,即首先计算灰度直方图,然后进行简单映射,即将原图中灰度为[031]的映射为新图的0,原图灰度为[3263]的映射为1,将[32n32(n+1)-1]的灰度映射为n(0≤n≤7).这样就能大大减小计算量,然后从行程长度矩阵中计算特征因子.
考虑到大肠正常病理图像和癌变病理图像纹理特征的差异,正常图像纹理较细,癌变纹理较粗,正常图像和癌变图像不同灰度等级行程数的差异,结合Galloway和Chu提出的特征量,提出结合量化后四个方向的行程长度矩阵分别计算以下特征因子:强调短行程的矩(SRE)、强调长行程的矩(LRE)、强调低灰度级行程的逆矩(LGRE)和强调高灰度级行程的逆矩(HGRE)公式分别为
(1)
(2)
(3)
(4)
其中s为图像中总行程数.式(1)中,矩1/j2对短行程给予较大的加权.行程越短,SRE越大,对应图像纹理越细;式(2)中,矩j2对长行程给予较大的加权.行程越长,LRE越大,对应图像纹理越粗;式(3,4)中强调的是灰度级的行程,作为对式(1,2)的补充.
2改进的灰度行程长度纹理特征提取
由于传统的灰度行程长度矩阵为了减小计算量直接将灰度等级采用灰度直方图的方式进行简单映射,这种简单的映射没有考虑从肠癌病理图像组织学意义,破坏图像本身纹理特性.
图1 大肠病理图片Fig.1 Colon histopathological images
考虑到大肠病理图像的特点,根据病理专家的指导,正常的大肠病理切片腺体排列整齐(图1a,b);癌变的切片(图1c,d),腺体排列紊乱,并且上皮细胞质消失.大肠病理切片中主要包含有上皮细胞核、间质细胞核、间质、腺腔和上皮细胞质.这四类有医学意义的物质经过HE染色后在RGB颜色空间会有三种颜色:白色(腺腔和上皮细胞质),紫黑色(上皮细胞核和间质细胞核,位于单个腺体和间质外围),紫色(间质),这些有组织学意义的物质,刚好通过颜色可以加以区分.因此采用模糊均值聚类(FCM)的方法大肠病理图像进行预处理,得到原图的映射,然后计算行程长度纹理特征.
由于聚类的类别数由大肠病理图片的特征决定为3类,而于FCM结果容易受初始中心位置的影响,将采用PCA方法[12]选出的3个初始聚类中心,把数据集中所有对象分成3类,通过隶属度确定每个像素属于某个类别的程度,使得被划分到同一类像素之间相似度最大,而不同类别之间的相似度最小,聚类准则式为
(5)
其中DikA=||xk-vi||=(xk-vi)TA(xk-vi).利用拉格朗日乘数法求目标函数的极小值,目标函数式分别为
1≤i≤c,1≤k≤N
(6)
(7)
其中:X={x1,x2,…,xn}为图像的像素构成的集合;c为聚类的总类数取3;m为加权指数,通常取值2;υi为初始聚类中心,在此通过PCA的方法确定;μik为xk以υi为聚类中心的模糊隶属度.初始中心确定后,将每个像素的R,G,B值到三个初始中心的欧氏距离作比较,欧氏距离最小的归为一类,然后不断迭代更新初始中心,直到算法收敛.为了节省篇幅,图2中只给出了图1(b,d)的聚类结果:
根据图2,即利用FCM量化后的图中得知,图2(b)癌变图片在某个方向上(比如90°方向)某个量化值连续出现的行程数明显比正常图片要多.因此考虑用行程长度矩阵来统计量化后的矩阵,并计算特征向量.图片2(b)只是90°方向一个例子,由于其他大肠正常和癌变图片在四个方向的行程长度矩阵(0°,45°,90°,135°)行程特征差异比较大,因此从四个方向行程矩阵中计算特征因子(SRE,LRE,LGRE,HGRE).计算得到的特征向量共16维.
图2 图(1)中部分图聚类结果Fig.2 Part of clustering results for Fig.1
3SVM分类器
支持向量机(Support vector machine)是一种新型机器学习方法[13],建立在统计学习理论的VC维理论核结构风险最小原理基础上,对于解决小样本模式分类问题有独特的优势、具有很好的泛化能力,在肠癌病理切片辅助诊断中有一定的应用[7-9].SVM模型中,惩罚参数c和核函数参数g对SVM分类准确率影响较大.SVM在线性可分的情况下,其最优分类函数为
f(x)=sgn{w*·x+b*}=
(8)
对于非线性可分的情况下,利用内积核函数将输入空间变换到高维空间,当维度增加到无限维时,不同类别之间就可以区分.然后在新空间求最优化线性分类面,最优分类面为
(9)
SVM分类器常用的核函数有线性核函数、多项式核函数、径向基核函数、Sigmoid核函数,需要根据实验选出最合适的核函数.
4实验结果与分析
4.1图片来源及实验设计
作者实验的大肠病理图片均来自浙江省立同德医院病理科.图片总数为360 张,大肠病理图片是由组织切片经HE染色后由显微镜通过相机拍摄获取的彩色图片,其中显微镜为20倍物镜,相机的分辨率为480×640.这360张大肠病理图片由专业病理医生对正常图片和癌变图片进行标注.作者实验平台及软件环境在Intel(R)Core(TM)i3-2350MCPU2.3GHz,内存为4GB,仿真软件为MatlabR2013b.支持向量机(SVM)采用台湾林智仁博士开发的LIBSVM软件包.训练图片为200,其中正常和癌变图片各100.测试图片为160,其中正常和癌变图片各为80.
算法的总体流程图如图3所示,具体步骤如下:
1) 把病理图片分成训练图片和测试图片2份.
2) 用根据颜色特征利用FCM量化病理图片,得到量化后的矩阵.
3) 依据量化后的矩阵计算四个方向行程长度矩阵.
4) 依据四个方向行程长度矩阵计算纹理度量指标.
5) 计算出的纹理度量指标即特征向量作为支持向量机的输入进行训练,待分类器训练好后,将待测图片的特征向量输入到分类器中进行识别.
图3 算法流程图Fig.3 Workflow of improved GLRLM algorithm
4.2实验结果对比及分析
为了说明提取特征的有效性,针对大肠病理图片,图1,首先进行FCM聚类,然后根据聚类的结果计算其四个方向(0°,45°,90°,135°)的类别行程长度矩阵,并从矩阵中提取能够反映出纹理的特征因子分别为(SRE,LRE,LGRE,HGRE)共16维特征.由于篇幅限制,主要写出90°方向的四个特征(表1).
表1 图1在90°方向特征
由表1可以看出:正常图片SRE相对癌变图片要大,由于正常图片的纹理较细,所以SRE要大,而癌变图片纹理较粗,变化缓慢,所以LRE对比正常图片要大很多.表格中的特征值正好与实际图片的纹理相符.对于正常图片和癌变图片LGRE和HGRE也有差异.大肠病变图像不同的图像表现从不同方向上特征值差异大,所以计算了四个方向行程长度矩阵将正常图片和癌变图片分类,由于篇幅限制表1只显示了90°方向的特征值.
对于所有的训练样本首先都计算出特征向量共16维(0°,45°,90°,135°)特征值SRE,LRE,LGRE,HGRE.然后用SVM分类器训练,找出最合适的参数.实验采用交叉验证(Cross validation)的方法寻找适合诊断的最优参数,KCV的思想是将训练集分成K组,每一组样本依次作为验证集,同时其余的K-1组作为训练集,就可以找到最优的c和g的值.训练集用10折交叉验证寻优,找出最合适的核函数参数g和惩罚参数c.核函数采用线性核函数,最优参数最终选定c=11.313 7,g=2.
为了评价实验结果,将160张测试图片(其中正常和癌变图片和80)的分类准确率,为验证作者算法的有效性与优越性,将该算法与基于传统灰度行程长度(GLRLM)纹理特征提取算法对比.灰度共生矩阵[7]应用于肠癌病理图片的分类国内也已经在研究,因此与文献[7]中肠癌病理图片分类算法结果对比.同时将三种分类器SVM,KNN,BP[14]应用于肠癌病理图片分类,实验结果如表2所示.
表2 算法对比结果
从表2中可以看出:针对同一种算法,用不同的分类器时,SVM能得到比其他分类器更高的识别率.而从当都用SVM分类器进行训练时,对于测试样本,作者算法比传统GLRLM算法和文献[7]的灰度共生矩阵识别准确率要高.当采用SVM分类器时,作者算法可以达到97%的分类准确率.由此也可以看出针对肠癌病理图片的特征,以及样本数量少的特性,采用SVM分类器比较适合.
为了分析改进后GLRLM相对于传统算法的优势,以下是传统算法将癌变图片分类错误的一个例子.图4(a)是笔者利用FCM算法量化彩色图像为3个等级后的图像.图4(b)是利用传统GLRLM算法,将灰度图像图等间隔量化为8个灰度等级.由于癌变的图像纹理较粗,作者算法提出利用FCM将彩色图像量化为3个等级,正反映了这一纹理特征如图4(a)所示.而传统的GLRLM算法未考虑组织学特征,直接将灰度图等间隔量化为8个灰度等级,导致癌变图像图4(b)的纹理与正常图像的细纹理接近,计算纹理特征向量时,尤其是在45°方向长行程因子会较小,从而将癌变图像错分到正常一类.
图4 预处理结果对比Fig.4 Comparison results for preprocessing
5结论
将传统行程长度纹理特征应用于肠癌病理图像的分类,通过与共生矩阵纹理特征对比,表明行程长度纹理特征对于肠癌病理特征分类的有效性.进一步对行程长度纹理特征进行预处理改进,得到更高的分类准确率,通过不同的分类器的分类准确率比较,得出SVM分类器比较适合小样本的肠癌病理图像的分类,此算法对于辅助病理医生诊断具有重要的价值.由于数据的获取不太方便,作者此次只做了高分化癌变的识别,如何提出更好的特征应用其他癌变情况识别将是作者下一步的研究计划.
参考文献:
[1]SIEGEL R, NAISHADHAM D, JEMAL A. Cancer statistics[J]. A Cancer Journal for Clinicians,2013,63(1):11-30.
[2]BARRETT J, JIWA M, ROSE P, et al. Pathways to the diagnosis of colorectal cancer:an observational study in three UK cities[J]. Family Practice,2006,23(1):15-19.
[3]JAFARI-KHOUZANI K, SOLTANIAN-ZADEH H. Multiwavelet grading of pathological images of prostate[J]. IEEE Transactions on Biomedical Engineering,2003,50(6):697-704.
[4]WANG Y, CROOKES D, ELDIN O S, et al. Assisted diagnosis of cervical intraepithelial neoplasia[J]. IEEE Journal of Selected Topics in Signal Processing,2009,3(1):112-121.
[5]TOSUN A B, GUNDUZ-DEMIR C. Graph run-length matrices for histopathological image segmentation[J]. IEEE Transactions on Medical Imaging,2011,30(3):721-732.
[6]TOSUN A B, KANDEMIR M, SOKMENSUER C, et al. Object-oriented texture analysis for the unsupervised segmentation of biopsy images for cancer detection[J]. Pattern Recognition,2009,42(6):1104-1112.
[7]JIAO Liping, CHEN Qi ,LI Shuyu, et al. Colon cancer detection using whole slide histopathological images[C]// Mian Long .World Congress on Medical Physics and Biomedical Engineering. Beijing, China:Springer Berlin Heidelberg,2013:1283-1286.
[8]XU Yan, JIAO Liping, WANG Siyu, et al. Multi-label classification for colon cancer using histopathological images[J]. Microscopy Research and Technique,2013,76(12):1266-1277.
[9]ALTUNBAY D, CIGIR C, SOKMENSUER C, et al. Color graphs for automated cancer diagnosis and grading[J]. Biomedical Engineering, IEEE Transactions on,2010,57(3):665-674.
[10]陈玲,沈红标,李咸伟,等.改进的图像纹理检索方法在矿石识别中的应用[J].中国图象图形学报,2007,11(11):1700-1703.
[11]王培珍,缪家龙,周可,等.基于行程长度纹理特征的焦炭显微图像分类算法[J].煤炭学报,2012,37(6):1051-1055.
[12]朱永忠,姚烨,张艳.基于主成分分析和Logistic回归的上市公司财务困境预警模型的研究[J].浙江工业大学学报,2012,40(6):692-694.
[13]古辉,吴佳丽.一种红细胞特征提取与分类识别的研究[J].浙江工业大学学报,2009,37(5):480-485.
[14]朱海涛,徐建明,何德峰,等.基于最小均方delta规则的神经网络工件识别[J].浙江工业大学学报,2014,42(2):219-224.
(责任编辑:刘岩)
作者简介:龙胜春(1970-),女,浙江杭州人,副教授,研究方向为无线传感器网络、医学图形处理,E-mail:longsc@zjut.edu.cn.
收稿日期:2014-09-05