基于双尺度分解和模糊熵测量的特征选择算法

2015-07-18 11:26梁俊花孙兴华叶永飞刘乃迪
关键词:特征选择识别率相似性

梁俊花,孙兴华,叶永飞,刘乃迪,张 晓

(河北北方学院信息科学与工程学院,河北 张家口 075000)

基于双尺度分解和模糊熵测量的特征选择算法

梁俊花,孙兴华,叶永飞,刘乃迪,张 晓

(河北北方学院信息科学与工程学院,河北 张家口 075000)

针对当前树叶识别算法缺乏足够的鲁棒性和可区分度,提出一种双尺度分解和模糊熵测量的特征选择算法。首先采用自适应提升小波(ALW)和不同尺度高斯滤波的双尺度算法,然后根据中心对称的局部二进制描述算子(CS-LBP)提取形状和纹理特征,最后由模糊熵测量法(FESM)重新分配各个尺度的比例。实验结果说明算法具有较高的识别率和噪声容忍度。

自适应提升小波;CS-LBP;模糊熵

1 引 言

树叶识别在农业信息化、生态保护和自动树叶识别系统中发挥着重要的作用。目前常见的分类算法主要结合形态解剖学、细胞生物学、分子生物学和植物化学法,这些基于树叶生物特征性质的方法需要复杂的处理过程,不适用于在线的应用。近年,基于树叶图像的植物识别吸引了学者们的目光[1]。它可以从生物中直接提取植物特征,适合在线的识别应用。

早期的树叶识别方法聚焦于树叶图像的形状特征[2],这些方法使用边缘检测算子或现有的边缘检测方法来提取树叶的轮廓,对具有明显不同轮廓的树叶图像取得了较好的识别性能,但是对噪声非常敏感。事实上,有很多不同的植物品种具有相似的树叶轮廓,而且同种植物也会有不同的树叶形状。因此,这类方法对树叶识别应用的辨别率不是很高。

为了改进上述方法,部分学者提出将树叶轮廓的形态特征和区域特征结合的方法[3]。类似的方法还有流形算法、改进的最大平面准则算法等,这些方法在分类识别率上有明显的提高,但是鲁棒性和可区分性不是很强。

实际上,除了树叶轮廓,纹理在树叶图像中也是一个非常重要的特征。受此启发,本文将植物树叶图像中的纹理与轮廓结合应用于特征选择中。Sweldens设计的提升格式小波变换继承了经典小波变换的多分辨分析特性,又具有原位计算、低计算成本和易于硬件实现的性质。提升方案将小波变换分为预测和更新阶段,为不同应用的自适应小波变换提供了灵活的设计空间,出现了很多关注不同信号特征的自适应提升小波变换[4]。

本文提出了双尺度分解和模糊熵相似性测量的特征选择算法。该方法将预处理的树叶图像由自适应提升小波分解为一系列子带,每个子带与不同尺度的高斯滤波卷积,在子带域中提取树叶图像的形状和纹理特征,最后由模糊熵相似性测量法重新分布每个尺度对整体特征的贡献度。实验结果表明,这种特征选择方法明显优于近期的树叶识别方法。

2 双尺度分解和模糊熵测量的特征选择算法

2.1 双尺度图像分解

图1 自适应提升小波方案

双尺度图像分解包含两个阶段:第一由自适应提升小波将树叶图像分解成一系列子带,该阶段主要考虑携带重要纹理与轮廓信息的间断点;第二将每一个子带与不同尺度的高斯滤波卷积,进一步提高噪声容忍度。

结合树叶图像的局部特征,本文选用的自适应提升小波对图像纹理的间断点作了特殊处理[5],如图1所示:

x′(n,m)=x(n,m)⨁PnmUPnm(yh(n,m),yv(n,m),yd(n,m))

(1)

其中Pnm是二值映象判决器D的判决结果,对应二进值数0和1。更新操作UPnm和加操作⨁Pnm的运算法则如下:

(2)

(3)

其中,σ(n,m)为x(n,m)的八个邻域像素与其均值的梯度,T为选定的阈值。

(4)

(5)

由于树叶图像的间断点在识别中起非常重要的作用,该方案对平滑区域与非光滑区域作不同的处理。噪声和其它干扰引起的孤立点会影响树叶识别的效果,自适应提升小波方案可通过设定不同的阈值来平滑滤除这些奇异点。

为了将树叶图像中的主纹、微小细纹分裂成不同的结果,本文将小波分解的子图由一系列不同尺度的高斯滤波进行第二阶段的分解:

(6)

其中μ是均值,σ代表标准差,本文分别选取μ=0和σ=15,σ=1,σ=0.05。

2.2 中心对称的局部二进制描述符

局部二进制模式(LBP)最初应用于纹理分类,由于具有较强的鲁棒性、计算简单和较高的分辨度,成功扩展到机器视觉问题中[6]。但是传统的LBP描述符容易产生较多的维数,例如对于8像素的邻域,LBP的维数为256(28)。并且随着像素值的增大,维数成指数增长。为了克服这一缺点,更有效地描述图像感兴趣区域的纹理特征,本文采用中心对称的局部二进制模式(CS-LBP),数学表述如下:

(7)

其中,ni和ni+n/2是在半径为R的圆环上关于中心对称的N个像素灰度值。明显看出,应用CS-LBP后特征维数减半,降低到16(24)。

2.3 模糊熵相似性测量

由于不同尺度空间对特征识别的贡献度不同,本文引用模糊熵相似性测量的方法分析不同尺度空间的权重[7]。模糊集的特殊性在于引用了隶属度的概念,将模糊集与香农的概率熵结合,得到模糊熵定义:

(8)

其中,uA(xi)是模糊值,并且0

应用模糊熵算法的具体步骤为:

(1)计算标准矢量vj=(-vj(f1),…,vj(ft)),其中j代表样本种类,f代表样本种类j的特征,t代表这些特征的数目。vj可以通过广义平均值进行求解:

(9)

其中,#Xj是属于j的总样本数,m=1。

(2)计算未知集合与前一步建立的标准矢量之间的相似程度S

(10)

其中,x,v∈[0,1]t,p是广义Lukasiewicz结构中的参数,wr为权值,不同的权值重要性不同,此处wr=1。

(3)将相似值代入公式(8),得到对应的模糊熵H。本文将熵值分为3部分,即双尺度分解算法得到的特征。

(4)计算每一部分在总体中占的比例系数Cm。Cm由下面公式求解:

(11)

这里N为所有特征的数目,Km为第m层分解的特征个数。由模糊熵定义可看出,熵值越接近0.5,所包含的信息量越小。由此,本文将熵值大的特征赋予较小的比例系数,熵值小的特征赋予较大的比例系数。即强调重要特征,弱化次要特征。

(5)将每个尺度特征乘以对应的比重系数C,得到最终选择的分类识别特征。

3 算法仿真

3.1 算法流程

算法流程如图2。首先将预处理的树叶图像由双尺度法分解为一系列的不同级数S不同尺度σ的子图,根据模糊熵相似性测量方法计算双尺度域中不同尺度的权重,得到新的树叶图像特征,最后由对应的相似性分类器完成识别。

图2 本文算法流程

3.2 参数选择

在双尺度算法中,高斯滤波器的标准差σ以及CS-LBP模式中阈值的选择如表1所示。

表1 双尺度参数

采用相似性分类器,延续模糊熵相似性测量的算法思想,公式中P与M由不同的实验背景决定。

3.3 实验分析

算法仿真实验采用ICL植物树叶数据库。该库来源于中国科学院智能机器研究所,共包含221种植物近20 000幅树叶图像。这些样本图是在不同时期采集的,具有不同的方向、尺寸和自然光照。

为了验证本文算法的正确率,本次实验从ICL植物树叶图像中随机选取每个植物的20幅图像,形成4 420幅树叶图片。每幅图像的前5幅作为训练样本,其余为测试。本文算法与模糊整形算法[8]、基于形状的算法[9]、形态学方法[10]和最大平面法则算法[11]的分类率列于表2。从表中可明显看出本文算法优于其他方法。

本文算法的噪声容忍度在两种常见的噪声图像上进行,将第一次实验中的图像分别感染均值为零、方差σ=0.01的高斯噪声和密度为0.05的椒盐噪声,对应数据集A和数据集B。在每个数据集上的分类识别率对比列于表3。表3可以看出,所有算法的识别率在感染噪声之后都有所下降。但是本文算法的下降率是最小的,最大平面准则算法下降幅度最大。

表2 相关方法正确识别率比较(%)

表3 在数据集A与B上的正确识别率对比

4 结 论

本文提出一种双尺度与相似性测量的树叶识别算法,工作的亮点是:第一,提出了一种新的联合目标纹理与形状的特征提取算法;第二,提出了一种基于模糊相似的特征优化方法。通过在ICL植物树叶库上的对比实验,说明本文算法具有较高的分类识别率和噪声容忍度。

[1]CopeJS,CorneyD,ClarkJY,etal.Plantspeciesidentificationusingdigitalmorphometrics:Areview[J].ExpertSystAppl,2012,39:7562-7573.

[2]AbbasiS,MokhtarianF,KittlerJ,Reliableclassificationofchrysanthemumleavesthroughcurvaturescalespace[A].in:InternationalConferenceonScale-SpaceTheoryinComputerVision[C].Netherlands,1997:284-295.

[3]王晓峰,黄德双.叶片图像特征提取与识别技术的研究[J].计算机工程与应用,2006,(03):190-193.

[4]SweldensW.TheLiftingScheme:Acustom-designconstructionofbiorthogonalwavelets[J].ApplCompHarmAnal,1996,3(15):186-200.

[5]WangX,LiangJH,WangMZ.On-linefastpalmprintidentificationbasedonadaptiveliftingwaveletscheme[J].KnowlBasedSyst,2013,42:68-73.

[6]OjalaT,PietikinenM,HarwoodD.Acomparativestudyoftexturemeasureswithclassificationbasedonfeatureddistribution[J].PatternRecogn.1996,29(01):51-9.

[7]DeLucaA,TerminiS.Adefinitionofnon-probabilisticentropyinsettingoffuzzysettheory[J].InformControl,1971,20:301-312.

[8]WangZ,ChiZ,FengD,Fuzzyintegralforleafimageretrieval[J].ProcFuzzySyst,2002,1:372-377.

[9]LingH,JacobsDW.Shapeclassificationusingtheinnerdistance[J].IEEETransPatternAnalMachIntell,2007,20:286-299.

[10]ZhangSW,LeiYK.Modifiedlocallylineardiscriminantembeddingforplantleafrecognition[J].Neurocomp,2011,74:2284-2290.

[11]LiHF,JiangT,ZhangKS.Efficientandrobustfeatureextractionbymaximummargincriterion[J].IEEETransactNeuralNetworks,2006,17(01):157-165.

[责任编辑:王荣荣 英文编辑:刘彦哲]

Feature Extraction Based on Dual-Scale Decomposition and Fuzzy Entropy Measurement

LIANG Jun-hua,SUN Xing-hua,YE Yong-fei,LIU Nai-di,ZHANG Xiao

(School of Information Science and Engineering,Hebei North University,Zhangjiakou,Hebei 075000,China)

To improve the poor robustness and distinguishment for leaf recognition,a novel dual-scale decomposition and fuzzy entropy measurement algorithm is proposed.Firstly,the input leaf images are decomposed by adaptive lifting wavelet into several subbands,then each subband is filtered by a group of variable-scale Guassian filtered.Then CS-LBP is applied to extract shape and textural features.Lastly,the fuzzy entropy measurement is utilized to redistribute the proportion of each scale.The experimental results demonstrate that the algorithm has higher recognition rate and noise tolerance.

adaptive lifting wavelet;CS-LBP;fuzzy entropy

河北省教育厅重大项目(ZD20131085);河北北方学院重大课题(ZD201301)

梁俊花(1985-),女,山西文化人,助教,硕士。

张晓,教授,硕士。

TP 311

A

10.3969/j.issn.1673-1492.2015.04.008

来稿日期:2015-04-03

猜你喜欢
特征选择识别率相似性
一类上三角算子矩阵的相似性与酉相似性
浅析当代中西方绘画的相似性
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
Kmeans 应用与特征选择
高速公路机电日常维护中车牌识别率分析系统的应用
低渗透黏土中氯离子弥散作用离心模拟相似性
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统