陈淑君 周永霞 方勇军
1(中国计量大学信息工程学院 浙江 杭州 310018)2(杭州吾思智能科技有限公司 浙江 杭州 310018)
基于整体外观特征的植物种类识别研究
陈淑君1周永霞1方勇军2
1(中国计量大学信息工程学院 浙江 杭州 310018)2(杭州吾思智能科技有限公司 浙江 杭州 310018)
提出一种基于整体植物外观特征提取的植物自动识别方案。首先,用普残差法对植物图像进行显著性区域检测,较粗略地得到植物对象,再结合色调信息进行细分割。接着提取该对象区域的SIFT特征作为底层局部特征,建立视觉词包模型,最后设计分类器进行分类。选取了9种常见的室内盆栽,每种植物各28个样本。在实验中,分别对比当前流行的 BP神经网络、SVM和ELM三种分类器的分类性能。实验结果发现,支持向量机和极限学习机有较好的分类效果,识别率可以达到90%左右。这对植物识别的研究及应用推广都具有一定的积极作用。
普残差法 SIFT 视觉词包模型 支持向量机 极限学习机
植物与我们人类的生活密切相关。植物的自动化识别对农业的发展、人类的认知活动等都有着非常重要的作用。
当前对植物识别方法的研究较多,但大多都是基于叶片的识别[1-4],利用叶片的大小、形状、纹理等特征。文献[2]先对叶片做去阴影和背景校正等预处理,
再用随机森林的方法进行分类,在CLEF 2012叶片分类大赛中获得了第二名。文献[4]中的Leafsnap是利用叶子边缘构建多尺度曲率模型,以叶片图像进行分类,在美国东北部的184种树种数据库上取得了较高的识别率。但在实际应用中,用一片单独完整的植物叶片进行识别有诸多限制,而从整体植物中分割出单独的叶片难度很大。百度的识图系统可以对整体植物进行识别,但识别效果不佳,用户体验较差。所以本文对基于整体植物特征提取的植物识别进行相关研究。
植物对象的自动分割是植物识别领域所面临的一大挑战。不仅植物本身具有多样性,其背景及植物盆栽花瓶也各式各样,传统的分割算法对植物的分割适用性较差。本文用视觉显著性检测的方法对植物对象进行分割。
当前视觉显著性的研究,是从空域、频域以及空域频域相结合3个方向展开。其中空域模型,最经典的是Itti等提出的模型[5]。该模型直接线性融合多种底层特征的显著图,具有计算速度快且容易实现的特点,但对显著对象的描述通常较为模糊,有时会产生块效应,且轮廓定位不够精确,对复杂背景和噪声的稳健性较差。文献[6]中提出了一种基于全局对比度的显著性模型,由于其保留了原图像的分辨率,因此轮廓定位精确。而普残差模型[7]SR(Spectral Residual)是在频域内利用幅值谱从全局去除图像冗余信息获得显著信息,运算简单而快速。
在本文中,我们用普残差模型对植物前景进行分割。该模型是在频域内从全局角度研究图像的显著性特征。如式(1)所示,我们可以将图像的信息表示为显著信息H(Iinnovation)与背景信息H(Iredundancy)的和,那么从图像中减去图像的冗余信息就可以得到我们所需的图像显著域信息了。
H(Iimage)=H(Iinnovation)+H(Iredundancy)
(1)
得到显著图后,对图像进行去噪滤波、形态学操作等一系列处理即可得到植物对象。但其结果较为粗糙,为了得到较精确植物分割结果,我们再结合植物的色调信息进行进一步的分割。
视觉词包BOV(Bag-of-Visterms)[8-9]是最近几年比较流行的一种基于局部表现属性的图像表示算法。该模型首先提取目标的底层视觉特征,通过聚类获得视觉词典。然后将图像表示为视觉单词的频率直方图。BOV模型对类内改变、背景干扰、姿态变化、噪声等都有较好的稳健性。
2.1 底层特征的提取
所谓特征是指可供识别的特殊征像或标志,是图像中的“有趣”部分。
尺度不变特征变换(SIFT)[10]是目前应用最广泛的基于局部描述的特征算子之一。它具有对旋转、尺度、光照不变性,对视觉变化、仿射变换、噪声容忍度也较高,在各个领域上表现出了良好的性能,本文采用SIFT进行植物特征的提取,其主要步骤如下:
1)尺度空间的生成;
2)尺度空间极值点的检测;
3)极值点的精确定位;
4)特征点方向的确定;
5)特征点描述算子的生成。
2.2 视觉词典构建
我们在每类植物中选取一个样本,提取植物对象的SIFT特征构建视觉词典。由于SIFT特征点分布不均匀,会出现聚簇现象,且不同样本SIFT特征点数相差甚多。所以我们先对每个样本所产生的SIFT特征进行第一次K均值聚类,再对产生的中心进行第二次聚类,得到视觉词典。
视觉词典的大小,即类别K值的选取是建立视觉词包模型的一个关键问题。K取值太小,导致特征的判别力不高,可能会将不相似的特征被指定到同个类中;K取值太大,视觉词包的泛化能力有限,对噪声稳健性差,同时计算量也增大。要根据一些研究经验进行多次尝试。
2.3 统计视觉单词的频数
根据生成的可视词典,计算每个植物对象区域中所有视觉单词出现的次数。每个特征向量用欧氏距离衡量其相似性,根据最近邻原则将植物对象的每个特征向量归属到相应的视觉单词,即可得到视觉单词频率直方图。
本文设计了三种不同的分类器对植物实现分类。
3.1BP神经网络
BP神经网络是利用误差反向传播方法训练学习的一种传统浅层神经网络[11],能表示大量的输入-输出非线性映射关系,在各个领域广泛应用,但BP神经网络也一些不足:
1) 算法的收敛速度慢,特别是一些较复杂的问题,需要设置较大的神经元数和网络隐含层数时,训练时间可能会非常长。
2) BP神经网络最后收敛的值并不能保证是全局最小点,可能会陷入局部极值。
3.2 支持向量机(SVM)
SVM最初于20世纪90年代提出,近年来在解决“过学习”和“维数灾难”等重大问题上发挥了很大的作用,且相比BP神经网络,具有不会陷入局部极值的优点[12]。
3.3 极限学习机(ELM)
ELM是近年来才提出的一种比较新颖的前馈神经网络模型[13]。该算法参数设置简单,并且能产生唯一的最优解,又具有学习速度快和泛化能力好的特点,在各个应用领域表现出了良好的性能。
我们在室内拍摄了9种常见的室内盆栽,每种各28个样本,共252个样本。每种植物都从不同的角度,不同的远近距离进行拍摄,保证本文设计的算法具有一定的鲁棒性,其中部分样本如图1所示。
图1 植物样本
我们在Matlab 2014平台上实现设计的方案。
4.1 分割的结果
本文用普残差的方法做植物对象的分割,部分植物的显著图结果如图2所示。
(a) 植物一(b) 植物二
(c) 植物三(d) 植物四
(e) 植物五(f) 植物六
(g) 植物七(h) 植物八图2 植物的显著图
由图2我们可以发现,大部分样本显著点集中在植物对象上,通过一些滤波及形态学等操作可以较粗糙地得到植物对象。
由于植物对象的颜色特征一般与其周围的背景区别度较大,我们利用植物的颜色信息进行更精确的分割。RGB是一个不均匀的颜色空间,首先我们将RGB变换到更贴近我们人类视觉感知系统的HSV颜色空间。然后用植物的色调信息进行阈值分割,即可较精确地分割出所需的植物对象,如图3所示。
(a) 植物一 (b) 植物二
(c) 植物三(d) 植物四
(e) 植物五(f) 植物六
(g) 植物七(h) 植物八图3 分割结果
4.2 特征提取的结果
在分割出的植物对象区域中提取SIFT特征,每幅图片会得到上百到上千不等的特征点,如图4所示。我们可以看到特征点基本都落在植物区域。
图4 SIFT特征提取结果
特征提取后,我们借鉴已有的研究经验成果,进行多次尝试,构建相应的视觉词包模型。
4.3 分类的结果
将植物样本平分,其中126个样本用于训练,另126个样本用于测试。设计不同的分类器进行分类。分别用BP神经网络、SVM和ELM三种分类器对植物提取的特征进行训练学习、分类,实验结果见4.3.1节至4.3.4节。
4.3.1 BP神经网络
BP神经网络在小样本高维数特征情况下性能较差,而样本特征维数太小,又会导致特征的判别力太低。我们发现当一开始随着特征维数的增大,识别率渐渐上升,但当特征维数大到一定程度以后,分类效果急剧下降。经过多次尝试,我们最终选取视觉词典大小即特征的维度为500。
由于BP网络分类器可能会陷入局部极小值点,且模型参数的选取对分类器性能影响较大,所以需要进行多次参数的选择和训练。我们最后选取的模型如图5所示。
图5 BP神经网络模型结构
在训练集中,我们选取70%用于训练,15%用于交叉验证,15%用于测试,其结果如表1所示。
表1 神经网络训练结果
最后我们用更大的数据集即另126个样本上进行测试,其识别率为79.47%。
可以发现,BP神经网络分类器存在过拟合情况。过多拟合了一些噪声,训练数据的识别率很高,但模型的泛化能力很弱。
4.3.2 支持向量机
相对于BP神经网络,SVM在小样本高维度情况下性能较佳,经过多次尝试,我们选取了大小为1 000的视觉词典。为了防止部分数值过大及计算困难,我们首先对数据进行了归一化。
结合当前的理论学习和我们多次的实验结果,我们选择RBF作为SVM的核函数。RBF核函数涉及到两个重要参数,惩罚参数c和核参数g。为寻找合适的参数,我们将训练集随机分成5等份,进行交叉验证。用网格方法进行搜索,得到最佳参数c=20.080 1, g=0.009 5。
最后用最佳参数建立支持向量机的分类模型,对测试集进行预测,其识别率为88.89%。
4.3.3 极限学习机
极限学习机参数选取是个关键,其值不同,得到的分类效果也不同。借鉴相关经验,我们经过多次实验发现,视觉词典大小为1 500,核函数选取sigma时效果较好。同时,因为极限学习机是非稳定算法,为了提高识别率,我们用了三个ELM分类器进行集成,根据三个分类器投票机制得到植物的最终类别。其一些重要的结果如表2所示。
表2 ELM 实验结果
4.3.4 分类器的对比
对以上三种不同的分类器在识别率、运算速度和对特征维数的适应性三个方面上进行对比,结果见表3。
表3 分类器对比表
从表3中我们可以发现,相比与BP神经网络,SVM和ELM体现出了较好的性能。视觉词包模型的词典大小即特征的维度太小,会导致辨识度太低,但是,特征维度太大,会增加分类器分类的难度。对BP神经网络来说,当特征维度取1 000甚至1 500时分类性能急剧下降。而SVM和ELM在高维度小样本情况下体现了其优势,且BP神经网络有较严重的过拟合情况,而SVM和ELM在该问题有较大的改善。因此,其总体识别率比BP神经网络高出了许多。
另外,为了进一步分析,我们对比了三种分类器分别在特征维数选取500、1 000和1 500时的运行时间和识别率,结果如表4-表6所示。由于算法有一些不稳定性,尤其是BP神经网络,会收敛到局部极小值,其一样的参数设置,其收敛时间和识别率都会有所浮动,所以在运行时间上我们只对大致的数量级进行记录和对比。
表4 500维时的对比结果
表5 1 000维时的对比结果
表6 1 500维时的对比结果
如表4-表6所示,ELM分类器在特征选取为500维、1 000维和1 500维时,都有较高的识别率;SVM在较高的特征维数即1 000维及1 500维时才有较好的识别性能;BP神经网络在1 000维及1 500维高维情况下分类性能急剧下降,识别率很低。从运算速度上来说,SVM运算速度最快,其次是ELM,BP神经网络运算最慢。综上,在算法识别性能上,ELM分类器最佳;而在时间性能上,SVM分类器最佳。相比之下,BP神经网络在识别率和运算速度上都表现出了较差性能。
本文用普残差法对图像进行显著区域检测,再结合植物色调信息,分割出植物对象。然后提取SIFT特征,建立了视觉词包模型。最后比较BP神经网络、SVM和ELM三种不同分类器的分类性能。实验结果发现,用本文设计的实验方案,植物种类识别率较高,同时,相比与BP神经网络,SVM和ELM分类器表现出了较好的性能,识别率可达到90%左右,这对植物识别的研究及应用推广都具有一定的积极作用。
最后,我们对实验方案和实验结果进行了一些分析:
1) 在植物分割时,个别图像分割出的植物对象不够准确。当图像的背景存在复杂显著的区域时,用普残差法做显著性检测时,可能会将背景分割到植物对象区域中,比如图3中的植物八,从而影响了后面的特征提取及分类的准确性。
2) SIFT特征并不能完全表征出植物的特征,辨识度有待提高。在以后的改进工作中我们将结合其他一些植物特征进行识别。
[1] Prasvita D S, Herdiyani Y. MedLeaf: Mobile Application for Medicinal Plant Identification Based on Leaf Image[J]. International Journal Advance Science, Engineering and Information Technology, 2013,3(2):5-9.
[2] Arora A, Gupta A, Bagmar N, et al. A Plant Identification System using Shape and Morphological Features on Segmented Leaflets[C]// Team IITK, CLEF 2012.
[3] Mónica G L, Ariel E B, Roque M C, et al. Multiscale recognition of legume varieties based on leaf venation images[J]. Expert Systems with Applications, 2014,40(10): 4638-4647.
[4] Kumar N, Belhumeur P N, Biswas A, et al. Leafsnap: A Computer Vision System for Automatic Plant Species Identification[C]// European Conference on Computer Vision. Springer-Verlag, 2012:502-516.
[5] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11):1254-1259.
[6] Cheng M M, Zhang G X, Mitra N J, et al. Global contrast based salient region detection[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2015:409-416.
[7] Hou X, Zhang L. Saliency Detection: A Spectral Residual Approach[C]// Computer Vision and Pattern Recognition, 2007. CVPR ’07. IEEE Conference on. IEEE, 2007:1-8.
[8] Sivic I, Zissermau A. Video goggle: a text retrieval approach to object matching in videos [C]// Proceedings of the 9th IEEE International Conference on Computer Vision. Nice,France; IEEE,2003:1470-1477.
[9] Csurka G, Dance C R, Fan L, et al. Visual categorization with bags of keypoints[J]. Workshop on Statistical Learning in Computer Vision Eccv, 2004, 44(247):1-22.
[10] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110.
[11] 李弼程,邵美珍,黄洁.模式识别原理与应用[M].西安:电子科技大学出版社,2008:170-176.
[12] Sergios Theodoridis, Konstantinos Koutroumbas.模式识别[M]. 李晶皎,王爱侠,王骄,等译.北京:电子工业出版社,2010: 149-168.
[13] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006, 70(1-3):489-501.
THEPLANTSPECIESRECOGNITIONBASEDONTHEWHOLEAPPEARANCFEATURES
Chen Shujun1Zhou Yongxia1Fang Yongjun21
(CollegeofInformationEngineering,ChinaJiliangUniversity,Hangzhou310018,Zhejiang,China)2(HangzhouWusiIntelligentScienceandTechnologyCo.Ltd.,Hangzhou310018,Zhejiang,China)
In this paper, we propose an algorithm for plant species recognition based on whole appearance features. First, the Spectral Residual method was adopted in salient region detection to segment the plant object roughly. And then, the hue information was used to obtain the precise object. Second, SIFT in the object region was extracted to build the BOV model. Finally, three classifiers were designed and implemented to classify the plant species. In our experiments, there were nine different plant species, and 28 examples of each species. BP neural network, SVM and ELM, these three different classifiers were implemented and compared. The experimental results show that the SVM and ELM classifiers were better than BP neural network, and are able to identify about 90% of these plants correctly. It is important for the research and application of plant species recognition.
Spectral residual SIFT Bag-of-visterms Support vector machine Extreme learning machine
TP3
A
10.3969/j.issn.1000-386x.2017.09.044
2016-07-20。陈淑君,硕士生,主研领域:计算机视觉。周永霞,副教授。方勇军,工程师。