白 帆,郑慧峰,沈平平,王 成,喻桑桑
(中国计量学院精密测试与控制研究所,浙江杭州310018)
基于花朵特征编码归类的植物种类识别方法
白 帆,郑慧峰,沈平平,王 成,喻桑桑
(中国计量学院精密测试与控制研究所,浙江杭州310018)
提出基于花朵特征编码分类的植物种类近似识别方法.运用以最大嫡阈值为主,GrabCut算法为辅的体系进行花朵图像分割,提取并筛选出符合人眼视觉特性且分类性能良好的颜色、轮廓、纹理、空间结构等特征.依照最大间隔分类理念、节点二分模式和分类网络结构,搭建编码分类体系以缩小识别范围.将颜色直方图、轮廓直方图和梯度空间共生矩阵相交进行相似比对拟合运算,得到库中各已知类别对象与待测目标的相似程度,列出最近似的对象,完成近似识别.对该方法进行实验验证、分析和完善,实验结果表明,该方法具备识别速度快、准确度高、识别目标扩展性能好等优点.
植物种类识别;特征提取;编码归类;相似度分析
用计算机辅助人进行植物种类识别,是近来机器视觉领域里的重要研究方向.花朵因其特征具有更良好的分类特性,逐渐取代了叶片而成为植物种类识别的首选器官.依据花朵特征实现高效的植物种类近似识别,是近几年植物识别领域的重要研究内容[1-4].Nilsback等[5]对花朵图像的分割、特征提取进行研究,提取了花朵图像的边界轮廓、纹理、空间、颜色等方面的多个特征.吴清锋[6]以中草药植物花朵为研究对象,通过支持向量机(SVM)分类器,以简单的颜色、纹理、形状3个视觉特征向量,实现了单一种类花朵的识别.Pornpanomchai等[7-8]尝试了基于花朵颜色Hu距、轮廓特征向量的欧式距离,查找最小距离植物类别的近似识别方法.Cho[9]借助花朵的部分独立性较强的颜色、结构特征,设计了基于二叉树递推判别的植物种类近似识别方法.
识别算法的选择需要考虑识别对象的特性、相近类别的近似程度等因素,保证识别结果符合人眼视觉特性的同时,追求识别过程快速、高效,并具备良好的扩展新识别种类的能力.在现有的基于植物器官图像的种类识别方法中:基于特征向量的SVM分类器扩展性差,训练过程复杂;二叉树分类算法对特征独立性的要求过高,易于局部收敛而丢失全局最优解;神经网络针对叶片特征的识别准确性良好,但花朵相对复杂多变的特性致使网络隐层单元过多[10],性能下降.以上方法因其诸方面与近似识别需求相违背,逐步被基于概率类特征的最小距离比对方法所取代,但后者的识别结果难以契合人眼视觉特性,且其全库搜索搭配比对算法的模式,无法兼顾识别速度及准确度.本文提出通过花朵的颜色、边缘轮廓、纹理、空间结构多项特征搭建编码分类体系,对待测目标“先分类、再比对”的近似识别方法.
搭建编码分类体系需要符合人眼视觉、且分类特性良好的特征集合.采用不符合人眼视觉感知特性的特征,会出现分类结果与人为判断截然相反的情况;所使用特征具备将花朵集合明确分为2类的良好分类性能,是分类结果可靠的前提.本研究先通过算法分割花朵图像,然后测试、分析各分类特征,筛选评价出分类特性良好的特征供分类体选用.
1.1 花朵分割
花朵图像的分割、轮廓信息的提取是颜色统计类特征、轮廓特征及纹理统计类特征得以精确提取的前提.本研究采用以最大嫡分割[10]为主、Grab-Cut[11]分割为辅的分割体系.通过分析目标H层、S层的直方分布图,对于与背景差异明显,即S层(饱和度)或H层(色调)有明显“双峰”特征的对象,使用分布比率值p(i)最大嫡处的阈值r进行分割并提取轮廓;目标边缘与背景近似的对象计算出的最大嫡阈值会接近饱和度或色调最大值,无法准确分割,故自动切换使用复杂的GrabCut迭代算法分割,在保证体系分割效果的同时提高运算效率.如图1所示为分割效果对比图.
图1 分割效果对比图Fig.1 Schematic diagram of segmentation results
1.2 特征测试及选取
图2 直方图对比示意图Fig.2 Schematic diagram of histogram comparison
1.2.1 颜色特征 颜色特征易于提取且特异性明显[12],如图2所示,S层(饱和度)直方图的“单峰”分布区域及“双峰”的有无分别用于判断“单色”目标和“复色”目标属于“黑白”或“彩色”;通过V层(亮度)直方图的尖峰分布区域区分“含有亮色”和“含有暗色”的目标;通过高饱和度像素的H层(色调)直方图中各个色系的分布情况,可以判定对象所含颜色的数量及种类等.综上可知,S层、V层直方图的“峰”数、均值、峰度及H层各颜色成分的含量等特征,涵盖了花朵的颜色特性.
1.2.2 边缘轮廓特征 拟合花朵边界呈多边形及凸包来计算各种轮廓特征.结合轮廓边角数Nc、面积周长比AP来判定轮廓“简单”或“复杂”[4];通过外接圆饱和度CC、凸包饱和度CH分别作为轮廓“简单”和“复杂”对象的饱和度[13]判定依据;通过最大缺陷比率MD、凸凹度VC、锐角比VA分别判定缺陷明显、凸性明显[14]、锐角比率高的对象,各特征对比如图3所示.
图3 花朵边缘轮廓特征对比Fig.3 Flowers’contour feature comparison
1.2.3 纹理及空间结构特征 考虑到纹理特征对方向的敏感性,选取灰度共生矩阵
衍生特征中受方向影响最小的能量特征ASM[14],来判定对象“平滑”或“粗糙”;通过Hough变换检测所得直线成分图判定直线成分较多的对象[15];通过Sobel核横、纵向卷积运算差值图的中心离散点数量[16],判断对象是否有花蕊;采用结合了空间结构特征的梯度-半径分布、能量-半径分布的最大嫡阈值所在区域,判定目标是否有“环状变化带”或“中心粗糙带”,使得纹理特征更符合人眼视觉特性,各特征的对比如图4所示.
图4 花朵纹理空间特征对比Fig.4 Comparison of flowers’texture and spatial structure feature
共生矩阵中i行j列的元素p代表θ方向间距为d的像素分别是i和j的概率,其多个方向的ASM均值可以用于反映目标区域的粗糙度.
1.3 阈值选定及特征评价
选取特征时主要考虑特征的分类特性,采用统一的分类特性评定方法对1.2节涉及的特征进行评价并得到分类最优阈值.以测试饱和度均值特征SAVR为例,通过分析统计花朵图片数据库中所有对象特征值的分布情况(见图5(a))可知,多数对象SAVR值分布在“较低”或“较高”2个区间,故排除了具有渐变特性的“复色”对象后,“单色”对象(见图5(b))可以用SAVR准确地分成“黑白”和“彩色”2类,而直方图的最大嫡处分割点即作为该特征的阈值.如图6所示,该特征配合所定阈值,分类性能良好且符合人眼视觉特性,适用于编码分类体系.
图5 饱和度均值分布图Fig.5 Saturation mean distribution map
针对全库搜索模式效率低的缺陷,设计了分类比对的近似识别算法.通过借鉴SVM分类器训练查找最大间隔分类面的理念、二叉树算法高效的节点二分模式以及神经网络优秀的分类网络结构,选用分类特性优秀的花朵颜色、轮廓、纹理、空间结构的特征集合,配以评价选定的最优阈值构成了编码分类体系.通过该分类体系对花朵分类,筛选出近似的对象以缩小识别范围,再使用复杂而精确比对算法,分析近似对象的相似度,最终将所有近似对象按相似度降序列出,完成植物种类的近似识别.
识别流程如图7所示,算法的核心为编码分类和近似比对2部分.前者基于人眼视觉特性的分类模式,高效、准确地对目标进行分类,缩小了识别范围;后者精确地近似目标比对运算,保证识别结果的准确性和横向可比性.
2.1 编码分类体系的搭建
图6 SAvR针对“单色”对象分类Fig.6 SAVRfor“monochrome”object classification
图7 识别流程示意图Fig.7 Schematic diagram of recognition process
表1 编码特征子组成结构Tab.1 Structure of features coding
分类体系选用十余种特征,以相关特征搭配结合、特异性特征独立描述的形式,组成了编码分类体系.如表1所示,3个8位二进制数组成了编码特征子,每一位由某一种或多种图形特征,配以特征评价测试所选定的最优阈值.将花朵集合划分成2个子类,并用特征值相应位数的“0”和“1”标示对象所属的子类类别或该特性的有无.如某花朵颜色特征值的第5位为“1”,则表示该花朵含有黄色成分;某花轮廓特征值1、2位都为“0”,则表示隶属于轮廓简单、且饱和度高的子类.该体系理论上可以将花朵集合细分成上千个子类.
通过将识别库中的图片按分类体系提取特征、编码分类,为识别目标时的一一比对环节缩小比对范围.识别时,通过分类体系筛选出库中最近似的10%的对象进入比对环节,大幅提高了识别效率.
2.2 近似比对识别
如图8所示,近似比对运算负责计算待测目标与识别范围内已知对象的相似度,其值由颜色、轮廓、纹理及空间结构三方面各自的相似度分量p,配以权值ω换算加权欧式距离d(式(9))得出,用以反映二者的近似程度.
直方图相交比率[10]是通过图A、B含有n列的直方图中每列共有像素数min(Na,Nb)与图A该列像素数Na比值的累加和L换算得出.
由于花朵包含的绿色、蓝色成分极少,将H层如图9(a)所示的色调分布调整为如图9(b)所示的权重;S层、V层的区分能力明显弱于H层,故在计算颜色相似度分量时缩减了二者的权值.
轮廓相似度分量通过几何直方图相交比率换算得出.二维几何直方图(PGH)[17]计算了每一对轮廓边缘夹角以及最大最小距离,具有尺度不变、旋转不变特性.轮廓比对时,通过将轮廓拟合多边形离散化、定量均衡化,以保证比对算法的普遍适用性.
图8 近似比对算法结构示意图Fig.8 Schematic diagram of approximate matching algorithm structure
在纹理及空间结构相似度的比对环节中,为了克服传统方法不具备旋转不变性[15]的缺陷,本文结合了空间结构特征,设计了如图10所示的基元划分模式.类比灰度共生矩阵,定义了由内向外(Ⅰ→Ⅳ)的“径向共生矩阵”和由近及远(1→5)的“环向共生矩阵”,利用2种矩阵的相交比率换算得到纹理相似度分量.
图10 花朵图像基元划分示意图Fig.10 Schematic diagram of flower image element division
基于VC++环境搭建了软件框架,使用110张不同品种、各类特性差异明显的月季花图片作为实验对象,测试体现归类识别算法优势的以下3个方面的性能.1)应对识别库扩展的分类体系的细分能力;2)归类识别相较全库搜索模式提高的效率;3)分类体系的准确度及稳定性.
3.1 细分能力实验
用分类体系对容量为30~90的随机图片库进行分类测试,结果如表2所示,细分均匀且库中无较大子类,细分能力良好.
3.2 归类识别的速率实验
实验通过对比全库搜索和归类识别2种模式的耗时来反映归类识别模式提高的效率,实验结果如表3所示.表中,t1为归类识别耗时,t2为全库搜索耗时.实验均采用2.2节的比对算法,比对2幅图片的平均耗时为0.8 s,按分类体系对待测目标提取特征、归类、筛选前10%识别对象的耗时约1 s,归类识别模式提高的效率达到85%.
表2 编码归类库搭建实验Tab.2 Building code classification database experiments
表3 识别模式速度对比实验Tab.3 Identification mode speed contrast experiment
3.3 分类体系准确度实验
选取比对量为10%和20%,将归类比对算法和全库搜索比对算法进行对比,结果如表4所示.当比对量为10%时,有一定的概率会发生近似解“遗漏”现象;该现象在比对量为20%时基本消除,可以适当调高比对量以保证归类准确度,通过分析“遗漏”现象发生的原因改善分类体系.
表4 识别准确度实验Tab.4 Identification accuracy experiment
3.4 实验分析与算法完善
通过对发生“遗漏”现象的实验进行调试分析,针对识别库分类时的误判、邻近子类筛选的误差、拟合总相似度的分量权值作了以下三方面改进措施.
3.4.1 分类体系的改进 分类误判的几率极低,但CC和CH饱和度特征值组合在与轮廓复杂度特征搭配使用时出现了少数交错现象,故将轮廓简单且饱和度较低与轮廓复杂且饱和度较高的2个子类合并,从而确保体系的可靠性.
3.4.2 归类算法的改进 实验3中低比对量时出现的“遗漏”现象,多为邻近子类的筛选“失误”造成.在如图11所示的筛选方式基础上,以各编码特征子分类性能的高低评定贡献度,进而优化邻近子类的计算.
图11 归类反馈示意图Fig.11 Classified feedback diagram
3.4.3 拟合权值的优化 花朵轮廓特性随花期的变化明显,且受分割效果的影响较大,可靠性较低,故适当削减其权值以提高结果的准确度.
通过以上改进措施基本消除了近似识别结果的“遗漏”现象,对于实验使用的容量不大于90的识别库,当比对量设为10%时,近似度前10%的识别结果与全库搜索比对结果一致.
设计综合花朵颜色、轮廓、纹理、空间结构各类特征的基于编码归类的物种近似识别算法,所搭建的分类体系使用符合人眼视觉特性的特征,采用遵循最大间隔理念的二分模式和能够反映三方面相似度以及拟合换算总相似度的相交算法.实验结果表明,与传统识别方案相比,具有识别速率快、准确度和稳定性良好等特点.
提出算法尚存在不足之处,为了保证识别结果的精准,在针对不同的花朵种类建立识别库时,须通过人工简单测试微调分类体系特征子的权值,尚无自适应调整环节;对于花朵特征区别不显著的植物种类,须通过人工经验或生物学方法进行分类.
(
):
[1]ZHANG J,HUANG X Y.A survey of plant recognition method based on image processing[C]∥International Conference on IEEE Electrical and Control Engineering.Wuhan:IEEE,2010:4974-4977.
[2]张蕾.基于叶片特征的计算机自动植物种类识别研究[D].长春:东北师范大学,2007:10-24.
ZHANG Lei.The research of computer-aided plant species identification based on leaf feature[D].Changchun:Northeast Teachers University,2007:10-24.
[3]TAN W N,SEM R,TAN Y F.Blooming flower recognition by using eigenvalues of shape features[C]∥6th International Conference on Digital Image Processing International Society for Optics and Photonics.[S.l.]:ICDIP,2014:4177-4180.
[4]SAITOH T,KANEKO T.Automatic recognition of wild flowers[C]∥Pattern Recognition,International Conference on IEEE Computer Society.[S.l.]:IEEE,2000:2507.
[5]NILSBACK M,ZISSERMAN A.Automated flower classification over a large number of classes[C]∥6th Indian Conference on Computer vision,Graphics and Image Processing.Bhubaneswar:IEEE,2008:722-729.
[6]吴清锋.基于内容的中草药植物图像检索关键技术研究[D].厦门:厦门大学,2007.
WU Qing-feng.Research onkey techniques of contentbased Chinese herbal medicine botanic image retrieval [D].Xiamen:Xiamen University,2007.
[7]PORNPANOMCHAI C,SAKUNRERARATSAME P,WONGSASIRINART R,et al.Herb flower recognition system(HFRS)[C]∥Electronics and Information Engineering.Kyoto,Japan:ICEIE,2010(V1):123-127.
[8]HSU T,LEE C,CHEN L.An interactive flower image recognition system[J].Multimed Tools,2011,53(1):53-73.
[9]CHO S Y.Content-based structural recognition for flower image classification[C]∥7th IEEE Conference on Industrial Electronics and Applications.Singapore:IEEE,2012.
[10]冯伟兴,贺波,王臣业.数字图像模式识别技术详解[M].2版.北京:机械工业出版社,2013.
[11]SPAGNOLO P,ORAZIO T D,LEO M,et al.Moving object segmentation by background subtraction and temporal analysis[J].Image and vision Computing,2006,24(5):411-423.
[12]NILSBACK M,ZISSERMAN A.A visual vocabulary for flower classification[C]∥Proceedings of the2006 IEEE Computer Society Conference on Computer vision and Pattern Recognition.[S.l.]:IEEE,2006:1447-1454.
[13]HONG A X,CHI Z R,CHEN G,et al.Region-of-interest based flower images retrieval[C]∥International Conference on Acoustics,Speech and Signal Processing.Hong Kong:IEEE,2003:589-592.
[14]孙即祥.图像分析[M].北京:科技出版社,2005:29-45.
[15]游福成.数字图像处理[M].北京:电子工业出版社,2011:73-86.
[16]王晅,马建峰.数字图像分析与模式识别[M].北京:科技出版社,2011:232-258.
[17]苏见欣,姚剑敏,郭太良,等.基于成对几何直方图的PCB标志检测与匹配[J].计算机与现代化,2012(6):43-46.
SU Jian-xin,YAO Jian-min,GUO Tai-liang,et al.Dectection and match of PCB mark based on pair-wise geometrical histogram[J].Jisuanji Yu Xiandaihua,2012(6):43-46.
Plant species identification method based on flower feature coding classification
BAI Fan,ZHENG Hui-feng,SHEN Ping-ping,WANG Cheng,YU Sang-sang
(Institute of Precision Measurement and Control,China Jiliang University,Hangzhou 310018,China)
An approximate identification method of plant species based on the encoding of the flowers’feature was proposed.Images of the flowers were segmented using maximum entropy threshold combined with GrabCut algorithm in order to extract and select the color,contour,texture and spatial structure satisfying good human visual features and classification performances.The coding classification system was built to narrow the range of recognition according to the concept of maximum spacing classification,binary node models and classification network structure.The color histogram,contour histogram and spatial gradient co-occurrence matrix were compared to the fitting operation to calculate the similarity degree of each class object and the testing target.The approximate identification was completed when the class object with the highest similarity degree was found.The method was verified,analyzed and improved through experiments.Experimental results show that the method has the advantages of high recognition speed,accuracy and good extensibility.
plant species identification;feature extraction;code classification;similarity analysis
TP 391
A
1008-973X(2015)10-1902-07
2014-08-21.浙江大学学报(工学版)网址:www.journals.zju.edu.cn/eng
国家自然科学基金资助项目(11474259);浙江省自然科学基金资助项目(LY14E050013,LY15E050012);浙江省公益技术应用研究项目(2014C31109);浙江省教育厅资助项目(201431549);浙江省“仪器科学与技术”重中之重学科开放基金资助项目;国家级大学生创新创业训练计划资助项目.
白帆(1989—),男,硕士生,从事数字图像处理技术的研究.E-mail:bfstl@qq.com
郑慧峰,男,副教授.E-mail:zhenghui-feng@163.com