融合LBP和小波矩特征的肺癌图像精细分类

2017-06-13 10:43:55王生生

东北师大学报（自然科学版） 2017年2期

关键词：纹理像素模板

王生生，王琪

(吉林大学计算机科学与技术学院，吉林长春 130012)

融合LBP和小波矩特征的肺癌图像精细分类

王生生，王琪

(吉林大学计算机科学与技术学院，吉林长春 130012)

在肺癌图像精细分类中，进一步区分小细胞肺癌、鳞肺癌、腺肺癌、细支气管肺泡癌还不够成熟，为此，在改进现有精细图像分类研究工作的基础上，利用无须码本与释文的快速模板匹配框架，融合了LBP(Local Binary Pattern)纹理特征和小波矩形状特征，提出了适合肺癌数据的精细图像分类新方法.将纹理特征与形状特征融合，通过分配两种特征的权重，用融合特征进行模板匹配.匹配结果表示成特征响应图的形式，再通过改进的均值空间金字塔模型，从特征响应图中抽取有用特征，进行分类训练.实验结果表明，该方法在肺部影像数据库联盟(LIDC)数据库上达到了91.75%的平均正确率，证明了肺癌图像精细分类方法的有效性.

医学图像；特征融合；精细分类；空间金字塔模型

0 引言

精细图像分类[1-3]是指区分具有相同基本层类别，或具有相似形状和视觉表观等对象.例如区分不同种类的飞机、花类、鸟类等[4-5].近年来，计算机技术及人工智能技术飞速发展，为精细图像分类的发展提供了理论与技术上的支持.由于精细图像分类在生态环境监控、食品监控、地质勘探、材料分析及刑事侦查等领域具有广泛的应用前景和实用价值，因此越来越受到计算机视觉领域研究者的广泛关注.但是将精细图像分类在医学领域应用的研究还比较少.

精细图像分类时，同一基本层类别下的各个类别之间往往只存在非常细微的差别，精细图像分类与普通分类的核心区别就在于如何捕捉这些决定性的细节信息.目前主要的普通图像分类算法有基于码书[6]和基于释文的图像分类算法.基于码书的图像分类算法是指将局部图像块特征映射成视觉单词，将这些视觉单词放在一起形成视觉词袋.输入图像与视觉词袋中的特征进行匹配来实现分类.它在以往的图像分类算法中属于最先进的一种，但是，这种“词典”通常用非监督方法进行构建，当被检测的区域映射成“词典词条”形式时，很多细节信息很容易被丢失；而基于释文的图像分类算法是指在分类的过程中，为待分类图像进行人工标注，通过手动标注的信息来实现分类.基于释文的方法在很大程度上弥补了基于码本方法的不足，而且识别效果也非常好，在很多分类中显示出令人振奋的优良效果，但是巨大的人工成本使其发展受到了很大的限制.以上局限性使得传统图像分类方法在图像精细分类时表现的效果并不理想.[7]

综上所述，我们在无须码本与释文的快速模板匹配框架下[8]，提出了一种基于LBP和小波矩融合特征的肺癌图像精细分类算法，通过分配两种特征的权重，用融合特征进行模板匹配.匹配结果表示成特征响应图的形式，再通过改进的均值空间金字塔模型，从特征响应图中抽取有用特征，进行分类训练.有效地识别肺癌图像精细分类所需的细节差异信息，实现肺癌图像的精细分类，这是精细分类思想在医学领域应用的一次尝试.

1 算法框架

在无须码本与释文的快速模板匹配框架下，提出了一种基于LBP和小波矩融合特征的肺癌图像精细分类算法，算法流程见图1.

图1 肺癌图像精细分类方法流程图

1.1 预处理

图2 病灶定位

以前提出的模板匹配框架，第一步采用随机生成大量模板的方法，在生成模板之前没有进行预处理，产生了大量含有无用信息的冗余模板块，在后续的缩放匹配过程中，导致提取特征维数过大，分类精度降低.基于此，在生成模板块之前，我们采用基于灰度变化的病灶区域检测方法先对病变部位进行定位，定位结果见图2.

通过病灶检测定位方法，将模板块的产生控制在病灶部位，减少了冗余模板的产生，降低特征维数，为提高分类精度奠定了基础.

1.2 特征提取与匹配

将输入样本图像进行不同尺度的缩放，分别对缩放的图像块与病灶定位后产生的模板块进行特征提取，提取纹理特征MBLBP与形状特征小波矩.然后为提取的两种特征分配权重参数，通过实验调整待分配的权重参数，最终选定两组分类精度较好的参数作为融合参数，把两种权重下的融合特征看成两类特征，再将其组合成一个新的特征作为最终分类器的训练特征.

(1) 纹理特征MBLBP的提取

LBP纹理特征在医学图像分类中已经表现出良好的效果.LBP最初定义于像素的8邻域中，以中心像素的灰度值为阈值，将周围8个像素的值与其比较，如果周围的像素值小于中心像素的灰度值，该像素位置就标记为0，否则标记为1.将阈值化后的值(0或l)分别与对应位置像素的权重相乘，8个乘积的和即为该邻域的 LBP值.[9]

在做肺癌图像的精细分类时，LBP算子提取的特征有限，很容易引入大量随机噪声，并且在纹理特征提取时忽略了细节信息的处理.所以针对LBP的局限性，本文在LBP思想基础上提出了改进的MBLBP方法.该方法将纹理特征的计算扩展到分块区域上，分块的大小决定了特征结构的大小，然后在子块区域内选取各像素点的平均值，强调了像素之间的相关性，而不是简单描述单个像素的值.这种方法首先在全局特征的层面上进行粗分析，又进一步通过分块的形式捕捉局部信息，使得分析越来越精细.捕捉到图像像素之间的细节信息，更有利于应用在图像的精细分类中，其计算原理如图3所示.图3给出了原始图像下MBLBP的计算过程，首先以像素gc为中心像素提取图像的一个3像素×3像素区域，顺序标记各子区域为gi(i=0，1，2，…，7).每个子块区域随机分为2*t个子窗口，各个子窗口的平均值作为这个区域的像素值，计算方法为

(1)

然后以中心区域的平均值为阈值，按照传统LBP编码的计算思想计算得到MBLBP编码.具体计算方法为：

(2)

(3)

MBLBP特征不仅得到包含图像模式微观结构的编码，而且也包含了宏观结构和更多的图像细节信息，更适合在精细分类的思想下应用.

g0g14633g7gcg37063g5g4均值化→Mg0Mg14Mg7MgcMg34Mg5Mg4阈值化→1000Mgc1011

图3 MBLBP原理示意图

(2) 形状特征小波矩的提取

基于小波变换的小波矩不仅能得到图像的全局特征，也能得到图像的局部特征.因此在识别相似物体时具有较高的识别率，并且对图像结构精细特征把握得较好.由于小波矩只具有旋转不变性，不具有平移性和比例不变性，所以应采用归一化的方法对图像进行归一化处理，使各个图像的中心位于坐标原点，各个图像的尺度保持一致.使其具有平移、旋转和比例不变性.

设图像为f(x，y)，则其标准矩可以定义为

wpq=∬xpyqf(x，y)dxdy.

(4)

由x=cosθ，y=sinθ将(4)式转化为极坐标系得矩阵特征的一般表达式为

Hpq=∬f(r，θ)hp(r)ejqθrdrdθ.

(5)

(6)

(3) 特征融合

单一纹理特征在医学图像的普通分类中已经显示出良好的分类效果，但是在图像精细分类的过程中，想要具体区分同一癌症下的不同类型，除了含有大量的纹理信息外，形状上也有细微的差别，精细分类要捕捉的就是这样的区别信息.小波矩特征具有良好的平移旋转和缩放不变形，加强了不变矩特征对图像结构精细特征的把握能力.所以我们提出调整权重参数的纹理特征与形状特征相融合的想法.由于纹理信息含有信息量大，在权重参数分配时，权重参数较大，形状特征含有的差异信息比较少，对应的权重参数就少.具体按照

(7)

进行融合.其中：WMBLBP表示融合特征；C1，C2为参数，表示纹理特征与形状特征分别所占的权重，满足C1+C2=1；Hm，n，q表示极坐标系下提取的小波矩特征，用来表示形状.经过实验证明，在参数分别取C1=0.8、C2=0.2与C1=0.75、C2=0.25时分类效果较好.将这2种参数下的融合特征整合为一个特征向量(WMBLBP1，WMBLBP2)，这个向量将用于后面的匹配、分类.

得到融合的特征向量后，我们用已有的高度优化的模板匹配算法进行匹配，[10]用P表示输入训练图像，S表示不同的特征类型(如颜色，梯度等)，本文方法中不同的特征类型就是2种不同权重下的融合特征，每个图像块的模板表示为T=P(r，s)，每一对r和s用于表示输入图像在位置r处的特征Ps.对图像缩放后得位置r处的图像块I，它与每个模板按照

(8)

进行匹配.其中：c′为图像I位置r处的邻域r+c，防止图像变形和噪声影响；Ps(r)是输入图像P在位置r处融合特征的值；Is(c′)定义同上；fs(Ps(r)，Is(c′))用来计算Ps(r)与Is(c′)的相似度.

图4 特征响应图

经过上面的匹配，每个模板与样本图像的每个缩放尺度会对应一个响应得分图，简称特征响应图，如图4所示.这个特征响应图就反映出了输入的示例图像与模板的匹配情况.

1.3 改进的均值空间金字塔模型将特征响应图转化为特征向量

上一步通过匹配得到了用于表示输入示例图像与模板块匹配度的响应图，然后我们用空间金字塔模型从响应图像中抽取特征，将响应图像转化为一个特征向量.用空间金字塔方法表示图像是传统BOF(Bag of Features)方法的改进.它是在不同分辨率上统计图像特征点的分布，从而获取图像的空间信息.首先将图像划分为不同的层，图像划分为4i个块，然后在每个块上统计直方图特征，最后将所有层的直方图特征连接起来组成一个向量，作为图形的特征.基于医学图像的精细分类，希望在金字塔分层结构中有更多的保留细节信息，所以本文在原始金字塔模型的基础上提出改进的均值空间金字塔模型进行图像特征匹配.改进的算法步骤如下：

Step1.将原始图像划分为3个层，分别为level(i)，i=0，1，2.每个层划分为4i个块，如图5所示.然后在每个块上统计直方图特征.

Step2.从第0层里选出4个响应最大的值，第1层中选出4个区域的值，这个值由第2层中的每个对应2像素×2像素区域的均值来表示.

Step3.将所有的直方图特征连接起来组成一个8维向量作为图形的特征，如图6所示.

Step4.将融合特征向量作为输入，利用支持向量机对肺癌图像进行精细分类.

图5 原始图像分层

图6 金字塔特征抽取

2 实验结果及分析

2.1 数据库

LIDC(Lung Image Database Consortium，肺部影像数据库联盟)[11]是美国国家癌症学会(NCI)2001年资助的一个项目.其主要目的之一就是建立一套公认的指南，用以创建肺部CT影像的数据库，用于开发、训练和评价利用螺旋CT进行肺癌检测和诊断的计算机辅助诊断(CAD)的方法.在该数据库的基础上，不同的研究者可以对比计算机辅助肺癌检测和诊断的性能及其临床应用价值，因此它的应用越来越广泛.目前LIDC包括68名病例的约10 000张全肺CT扫描图像(扫描层厚1.25～3 mm，大小为512像素×512像素).每名病例对应一个文件夹，包括完整的肺部CT扫描图像(DICOM格式)100～300张以及一个注释文件.在注释文件中给出了4名放射学专家对每张CT片中出现的结节的定义，包括结节的主要CT征象，如毛刺征(Spiculation)、分叶征(Lobulation)等以及结节的恶性度(Malignancy).结合这些信息及医学辅助信息，选取LIDC数据库中的68个病例，每名病例100张CT扫描图像，共6 800张图片样本作为本文实验的精细图像分类库，将这些样本图像分为小细胞肺癌、鳞肺癌、腺肺癌、细支气管肺泡癌4类进行实验.该数据库中某个病例的连续CT图像示例如图7所示.

图7 LIDC数据库图像示例

2.2 单一特征的分类结果

在用融合特征进行分类之前，首先使用单一特征进行肺癌图像的精细分类，更好地了解两种特征对分类精度的影响，也能与后面融合特征下的分类精度做比较.本文实验平均正确率结果均保留到小数点后两位，经过实验分类的结果如表1所示.

表1 提取单一特征肺癌图像的分类结果 %

通过表1实验结果可以看出，提取单一的纹理特征MBLBP时，图像精细分类的平均正确率较好，说明MBLBP纹理特征对图像精细分类是有效的，但还不是最好的分类效果.此外还可以看出MBLBP特征效果好于小波矩特征的效果，说明对肺癌图像的精细分类来说，纹理特征所占的权重要大一些.

2.3 不同融合特征不同参数下分类结果

通过以上实验可以看出，在使用单一特征进行肺癌图像精细分类时，MBLBP纹理特征的表现好于小波矩形状特征，但是单一的纹理特征表现仍差强人意.所以我们按照重要性为两种特征分配权重，分别在不同的融合特征下分配3组不同的参数，再来计算平均正确率.大量实验表明，在以下几组权重的分配下，分类精度较好，其中纹理系数C1=0.75，形状系数C2=0.25时分类效果尤为突出，具体实验结果见表2.

表2 不同融合算法精细分类结果 %

从表2可以看出，3组不同参数下，MBPLBP与小波矩的融合特征平均正确率都要好于另外相似的融合特征.这进一步说明了我们提出的由全局纹理信息到局部纹理信息的MBLBP纹理特征更好地捕捉了肺癌图像精细分类所需要的纹理信息.而小波矩形状特征结合了全局与局部的特征信息，更适合用在精细结构的分类上，这一点是其他矩特征所做不到的，也决定了小波矩特征在肺癌图像精细分类应用中的有效性.综上所述，两种应用在肺癌图像精细分类中效果较好的特征按照权重融合就得到了令人满意的效果.

2.4 不同精细分类方法的对比

图8 几种精细分类方法的整体检索性能对比

为了证明本文提出的算法对肺癌图像的精细分类的有效性，分别选取了几种不同的精细分类算法与本文做比较.共选取3种以往表现较好的精细分类算法，第一种是B.Yao等人[12]提出的结合随机化与区别化的精细分类算法，简称CRD方法；第二种是K.Duan等人[13]提出的结合本地化属性精细分类方法，简称DLA方法；最后一种对比算法是L.Zhang等人[14]提出的本地化未加注释图像小区域块的图像精细分类方法，简称LTOUI方法.选取的对比算法与本文的算法在同一数据库LIDC上实现，训练的样本数目保持一致.实验结果使用查准率-查全率(RP)曲线进行检测和识别的性能评价，查准率表示检索到的目标图像数与被检索的图像数的比值，查全率表示检索到的目标图像数与数据库中所有的图像数的比值.不同算子的RP曲线如图8所示.由图8可以看出，本文提出的肺癌图像的精细分类方法效果优于其他几个表现较好的精细分类算法.

3 小结

本文提出了一种基于MBLBP纹理特征和小波矩形状特征融合特征的肺癌图像精细分类算法.介绍了肺癌图像精细分类算法的研究现状与研究必要性，介绍了改进的MBLBP纹理特征和小波矩特征的提取，然后将两种特征按参数融合，通过大量实验获得效果较好的参数对.给出了匹配方法和改进的特征抽取算法，最终实现了肺癌图像的精细分类.实验部分在LIDC肺癌CT图像库上进行，实验结果证明了本文提出的融合算法优于单独的特征提取方法和相近特征的融合算法，也优于目前效果较好的几种精细分类算法，最好分类精度达到91.75%.实验结果也表明MBLBP 纹理特征和小波矩形状特征的融合有互补的作用，融合方法增强了图像特征的表示能力，捕捉到了普通分类方法容易忽略的细节信息，显著提高了图像精细分类识别性能，验证了提出的算法的有效性，为图像精细分类在医学领域的研究提供了参考.

[1] GAVVES E，FERNANDO B，SNOEK C G M，et al.Local alignments for fine-grained categorization[J].International Journal of Computer Vision，2015，111(2)：191-212.

[2] SHIH K J，MALLYA A，SINGH S，et al.Part localization using multi-proposal consensus for fine-grained categorization[J].Computer Science，2015：1-12.

[3] ZHANG L，GAO Y，XIA Y，et al.A fine-grained image categorization system by cellet-encoded spatial pyramid modeling[J].Industrial Electronics，IEEE Transactions on，2015，62(1)：564-571.

[4] ZHANG N，DONAHUE J，GIRSHICK R，et al.Part-based R-CNNs for fine-grained category detection[M]//Computer Vision-ECCV 2014，Zurich：Springer International Publishing，2014：834-849.

[5] NILSBACK M E，ZISSERMAN A.A visual vocabulary for flower classification[C]//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition，Newyork：IEEE，2006：1447-1454.

[6] SHINOMIYA Y，HOSHINO Y.A feature encoding based on fuzzy codebook for large-scale Image recognition[C]//2015 IEEE International Conference on Systems，Man，and Cybernetics(SMC)，Hongkong：IEEE，2015：2908-2913.

[7] FARRELL R，OZA O，ZHANG N，et al.Birdlets：subordinate categorization using volumetric primitives and pose-normalized appearance[C]//2011 IEEE International Conference on Computer Vision(ICCV)，Barcelona：IEEE，2011：161-168.

[8] YAO B，BRADSKI G，FEI-FEI L.A codebook-free and annotation-free approach for fine-grained image categorization[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)，Rhode Island:IEEE，2012：3466-3473.

[9] OJALA T，PIETIKINEN M，MENPT.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2002，24(7)：971-987.

[10] HINTERSTOISSER S，HOLZER S，CAGNIART C，et al.Multimodal templates for real-time detection of texture-less objects in heavily cluttered scenes[C]//2011 IEEE International Conference on Computer Vision(ICCV)，Barcelona：IEEE，2011：858-865

[11] ARMATO III S G，MCLENNAN G，BIDAUT L，et al.The lung image database consortium(LIDC)and image database resource initiative(IDRI)：a completed reference database of lung nodules on CT scans[J].Medical physics，2011，38(2)：915-931.

[12] YAO B，KHOSLA A，FEI-FEI L.Combining randomization and discrimination for fine-grained image categorization[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)，Colorado：IEEE，2011：1577-1584.

[13] DUAN K，PARIKH D，CRANDALL D，et al.Discovering localized attributes for fine-grained recognition[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)，Rhode Island：IEEE，2012：3474-3481.

[14] ZHANG L，YANG Y，ZIMMERMANN R.Fine-grained image categorization by localizing tiny object parts from unannotated images[C]//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval，Shanghai：ACM，2015：107-114.

(责任编辑：石绍庆)

WMBLBP=C1×MBLBP+C2×Hm，n，q

Lung cancer image fine-grained classification based on wavelet moment fused with LBP

WANG Sheng-sheng，WANG Qi

(College of Computer Science and Technology，Jilin University，Changchun 130012，China)

Lung cancer fine image is further divided into small cell lung cancer，squamous lung cancer，gland cancer，bronchioloalveolar carcinoma，yet can not be achieved.To this end，with improvement based on the existing fine image classification work，this paper takes advantage of fast template matching framework and the wavelet moment features fused with LBP(Local Binary Pattern)texture，presenting data for lung cancer fine-grained image classification method.This paper will feature the texture and shape of the feature fusion，by assigning two feature weights，characterized by the fusion template matching.Matching results expressed as characteristic response in the form of graphs，and through improved mean spatial pyramid model，extract useful features characteristic response from the figure for classification training.Experimental results show that our method on LIDC(Lung Image Database Consortium)database reached an average accuracy rate of 91.75%，which is the basic proof of the effectiveness of our lung images fine classification method.

medical image；feature fusion；fine-grained image classification；space pyramid model

1000-1832(2017)02-0057-07

10.16163/j.cnki.22-1123/n.2017.02.012

2016-06-15

国家自然科学基金资助项目(61472161，61402195，61502198).

王生生(1974—)，男，博士，教授，博士研究生导师，主要从事时空推理、机器视觉、计算智能、数据挖掘等研究；王琪(1992—)，女，硕士研究生，主要从事图像处理研究.

TP 391 [学科代码] 520·60