夏永泉,王 兵,支 俊,黄海鹏,孙静茹
基于随机森林方法的小麦叶片病害识别研究
夏永泉,王 兵,支 俊,黄海鹏,孙静茹
(郑州轻工业学院计算机与通信工程学院,河南 郑州 450001)
为了提高小麦叶部病害的识别准确率,采用高斯混合模型结合EM算法对小麦叶片进行提取,获得较大目标,使得分割准确率比直接分割病害区域有所提高,同时降低了分割难度。并结合HSV主颜色直方图和通过Tamura纹理特征中的粗糙度、方向度和对比度作为特征进行筛选,采用随机森林方法对小麦健康叶片、白粉病、叶枯病和叶锈病图像进行了识别,整体识别准确率可达95%。通过实验验证,该方法是有效可行的,并优于同等条件下的支持向量机(SVM)方法。
高斯混合模型;EM算法;HSV主颜色直方图;纹理特征;支持向量机
小麦是我国主要的粮食作物之一,其种植面积广泛,经济价值较高。病害问题是影响小麦产量的主要问题,但由于其病害种类繁多,如何快速对小麦病害进行有效地识别和预测有着重要的社会及现实意义。王美丽等[1]利用HSV颜色空间中的色相和饱和度,对病害的颜色特征值范围加以分析,对小麦白粉病和锈病加以识别,再根据几何形状特征(周长、面积、矩形度等)对叶锈病、条锈病和杆锈病进行了识别,效果明确,实现较为简单。余秀丽等[2]将小麦叶片病斑区域的纹理特征和形状特征进行结合,利用支持向量机(support vector machine,SVM)算法实现了小麦叶部白粉病、条锈病和叶锈病的准确识别。邓继忠等[3]对病害孢子图像的16个形状和纹理特征,进行分析优选,并对比了最小距离法、BP神经网络和SVM分类器实验效果,最终SVM方法的识别率较高,为小麦腥黑穗病害识别提供了可行的方法。张飞云[4]使用K-means硬聚类算法对小麦叶部病害进行彩色图像分割,得到彩色分割和二值化分割图像,其利用多重分形分析提取二值图像中的病害形状特征参数,分别提升小波变换和脉冲耦合神经网络完成从彩色图像中提取颜色及纹理特征,将其进行结合,最后利用向量量化神经网络进行识别,效果明确。
上述文献中多采用SVM的方法,但SVM的训练与参数寻优需要耗费大量的时间,而且存在过拟合、过程复杂等问题。神经网络方法也存在类似的问题。本文采用随机森林方法与SVM方法进行对比,验证了随机森林方法的分类优越性。使用主颜色描述符对图像颜色特征进行表述,使得颜色特征表述更加紧凑、准确,降低了运算复杂度,然后与Tamura纹理特征进行结合,使用随机森林方法对3种小麦病害和健康叶片进行分析识别,可达到较高的识别准确率,为小麦叶片常见病害识别和诊断提供了较好的参考价值。
为了模拟小麦病害发病的真实环境,图像的采集在开放大田自然光照情况下进行,分别采集表面洁净无泥土的小麦健康叶片、白粉病、叶枯病和叶锈病图片。众所周知,开放大田环境、自然光照下的小麦叶片背景异常复杂,需进行必要的简化背景处理,将采集到的小麦叶片置于背景简单且与叶片目标具有明显差异的环境下,如在实验室或室外沥青地面等环境下,对小麦叶片图片进行采集。为了保证采集样本的质量,需将小麦叶片固定并展开,可保证采集完整的叶部病害区域。为了提升分类的准确性,采集的样本均为病害初期的单一病种小麦叶片,预防意义较大;当多种病害同时发生时,分类难度增加,预防的意义也随之降低。
目前,对于小麦叶片目标的提取未有统一的特定方法,其效果也因目标的不同而不确定,阈值等经典方法虽然能够快速分割,但分割精度不能满足实验要求。而且由于识别精度很大程度上会受分割精度的影响,故分割精度十分重要。本文采用高斯混合模型结合EM算法[5]进行实验,可以较好地满足实验要求,并较准确地提取小麦叶片目标。采用对图像像素数据进行无监督聚类的分割算法,即根据最大似然估计方法计算数据像素的高斯混合模型的先验概率,然后通过概率比较将每个像素进行相应的分类,实现聚类。通过EM算法的E-step和M-step进行不断迭代,其迭代次数越多,结果越准确,本文设定当误差小于0.1时停止迭代,完成分割,提取目标叶片。由于叶片目标与病害区域多为黄色和绿色,利用颜色阈值法来保持绿色和黄色,可以弥补边界的提取缺陷,使其更加符合实验要求,并提高了分割的准确性,其分割难度一般低于直接分割叶片病害区域,且易于实现。在分割之前大部分的病害图像需经人工进行裁剪等操作,以便获得较简单的子图像再进行分割,这样并不利于分割的自动化,而本文提取方法减少了人工干预,提取效果也可满足实验要求。提取效果如图1所示。
图1 小麦病害叶片提取结果
为了辨别不同的小麦叶片病害种类,需要选取合适的特征对不同病害进行较为准确地描述。如果特征选取不当,会造成分类准确率低或计算时间过长、效率过低的情况出现。因此合适的特征选取对于小麦叶片病害的分类十分重要。特征提取是一种针对兴趣区域表示为紧凑特征向量的降维方法。本文主要选取颜色和纹理特征相结合的方法进行筛选,这是因为病害种类的不同伴随有颜色的差异,而选取的3种小麦病害用纹理特征可以较为准确地捕捉病害的高级视觉特征[6]。在完成小麦叶片目标提取的基础上可进行颜色与纹理特征的提取。
经过小麦叶片提取后,已将背景中的简单、无关颜色进行了滤除,若使用传统的颜色直方图或色彩矩进行描述会使得计算复杂度变大,故此引用了HSV颜色空间下主颜色描述符[7]对叶片颜色特征进行描述。基于此采用更加紧凑的主颜色描述方法会显得更加准确,也可以使实验结果更加精准。
对每个分割区域执行颜色聚类以获得其代表颜色,由于背景在目标提取的基础上变为了黑色,在更加紧凑的前提下,少量的颜色足以表示图像整个区域中的颜色信息,即称为主颜色描述符。主颜色描述符由代表性颜色及其在给定区域中的相对分布组成。主颜色描述符和颜色直方图之间的区别在于,前者从每幅图像出发计算其代表性颜色,而不是在颜色空间中计算距离,从而允许特征表示更加精确且紧凑。
每个代表性颜色及其对应的百分比形成描述图像区域中的颜色特性的一对属性。需计算不同颜色所占的百分比。主颜色描述符定义为[7]
其中,是图像区域的颜色总类别,可因区域而异;是一个三维的颜色向量,P是其所占比例,其和为1。
通过主颜色描述符可对颜色特征进行提取,同一种病害的不同叶片的HSV主颜色直方图拥有相似分布特性,而不同种类病害的主颜色直方图分布特性各异,其结果如图2所示。
基于人类对纹理特征感知的心理学研究,TAMURA等[6]提出了纹理特征的表达,其度量对应与心理学角度纹理特征的6种属性为:粗糙度、对比度、方向度、线性度、规整度和粗略度。前3种可很好地表达纹理的高级视觉特征,在本文中可很好地表达小麦叶片纹理特征。
(1) 粗糙度。反映纹理粒度的一个量,是最基本的纹理特征。当两种纹理模式的纹理基元尺寸不同时,给人的感觉较大的更粗糙。数据集粗糙度如图3所示。
(2) 方向度。指定纹理区域的全局特性,表达了纹理是如何沿特定方向集散或集中的。数据集的方向度如图4所示。
其值可以对整幅图像或特定区域中对比度进行全局度量。数据集对比度如图5所示。
图4 数据集的方向度(前140为训练集,后120为测试集)
图5 数据集的对比度(前140为训练集,后120为测试集)
随机森林算法是BREIMAN[8]于2001年提出的一种集成机器学习算法。随机森林分类器由一些列相互独立的树状分类器(即决策树)构成。决策树预测从决策点开始,不断对分类的属性测试,根据属性值选择输出分支,到达结果节点,实现分类。类似于多个专家举手表决的决策过程就是随机森林的核心思想。
随机森林法是以决策树为举出预测器的组合分类模型。决策树模型表示为{(,),=1,2,…,}。其中代表输入向量;{}是独立同分布的随机向量,用于控制决策树的生长。随机森林利用bootstrap从原始训练集抽取个样本,并同时建立个决策树模型,从而形成分类模型序列{1(,1),2(,2)…h(,)}。在给定自变量的情况下,每个决策树会得到一个预测结果。对于分类问题,随机森林的预测结果取决于各个决策树结果的简单多数投票。其公式为[9]
其中,()为随机森林分类模型;为分类的标签;()为示性函数。
随机森林解决了决策树创建不稳定、过拟合等问题,在分类精度上比弹珠的决策树有明显的提高。此外,随机森林对比其他主流分类算法具有分类速度快和能够处理高维数据等特点,而且具有对噪声和孤立点不敏感,不存在过拟合问题[10]。
实验选取开放环境、自然光照下的小麦健康及病害图片样本260个,其中健康叶片、白粉病、叶枯病和叶锈病每类65个;将140个样本作为训练样本(每类35个),其余120个作为测试样本(每类30个),均有对应的正确标签。为了提高分类的准确率,全部样本都进行了归一化处理,均在[0,1]范围内。用训练集对随机森林进行训练得到分类模型,再用得到的模型对测试集进行类别标签预测,并在matlab2016仿真软件下进行仿真实验。
分类树数目是随机森林方法的一个重要参数。一般而言,随着分类树数目增多,正确识别率会升高,错误识别率会降低直至收敛,但预测花费时间增多。对于文中训练图像,通过实验发现以50棵分类树数目进行识别,其正确识别率比较高。当分类树数目大于50时,虽然对正确识别率和错误识别率都有一定的影响,但差别不大。其正确识别率和最优参数(惩罚因子=2.8284核参数=2.8284)下使用径向基核函数的SVM方法[11]的预测结果如图6所示。
在不使用参数寻优的情况下,SVM方法的预测准确率仅为40.5%,由于其准确率太低就不计入分类结果准确率当中,仅比较这两类的测试集分类识别结果,见表1。
表1 分类识别结果
通过表1可以发现,随机森林方法对于健康叶片可以进行准确地识别(100%),是因为其具有明显的颜色特征;而错分主要是受自然光照条件下光照和阴影对于颜色特征的影响,将叶枯病和叶锈病错分为白粉病。SVM方法对叶枯病具有良好的分类准确率(100%),而其他3类会错分为叶枯病,识别率不高,其原因为:①叶枯病和叶锈病由于光照使得颜色相近,以及发病部位几近相同使得分类易产生错误;②在过渡曝光的情况下会将叶锈病错分为白粉病;③健康叶片与叶枯病纹理差异较小,受光照等影响较大,易出现健康叶片和叶枯病的错分,这些原因大大降低了其整体分类的准确率。
随机森林方法的整体正确分类结果可以达到95%,优于参数寻优情况下使用径向基核函数的SVM方法,为小麦同一部位发病诊断提供了有效手段。目的是在小麦发病前期快速判断出小麦病害种类,防止病害扩散。
对自然光照条件下的小麦叶片进行背景简化处理,并结合颜色特征和纹理特征对小麦叶片常见病害进行了有效地识别。经过测试集测试结果验证,对于小麦常见3种病害的白粉病、叶枯病和叶锈病以及健康叶片,在样本数目不变的情况下,整体120次实验有114次准确识别,其识别准确率大致是(0-1)分布的参数,通过计算其置信度为95%的近似置信区间为(0.895, 0.976),结果较为可靠。3种常见病害的识别准确率均在90%以上,基本可以达到实用化水平。对小麦叶片病害的快速识别诊断可以提供一些参考,避免病害的扩散,降低经济作物产量的损失,对农业现代化和人力成本的节省都有较大地提升。
[1] 王美丽, 牛晓静, 张宏鸣, 等. 小麦叶部常见病害特征提取及识别技术研究[J]. 计算机工程与应用, 2014, 50(7): 154-157.
[2] 余秀丽, 徐超, 王丹丹, 等. 基于SVM的小麦叶部病害识别方法研究[J]. 农机化研究, 2014, 11(36): 151-159.
[3] 邓继忠, 李敏, 袁之报, 等. 基于图像识别的小麦腥黑穗病害特征提取与分类[J]. 农业工程学报, 2012, 28(3): 172-176.
[4] 张飞云. 基于提升小波和学习向量量化神经网络的小麦病害图像识别[J]. 江苏农业科学, 2013, 41(5): 103-106.
[5] 黄韶杰, 刘建功. 基于高斯混合聚类的煤岩识别技术研究[J]. 煤炭学报, 2015, 40(S2): 576-582.
[6] TAMURA H, MORI S, YAMAWAKI Y. Textural features corresponding to visual perception [J]. IEEE Transactions on Systems, Man and Cybernetics, 1978, 8(6): 460-473.
[7] DENG Y N, MANJUNATH B S, KENNEY C, et al. An efficient color representation for image retrieval [J]. IEEE Transactions on Image Processing, 2001, 1(10): 140-147.
[8] BREIMAN L. Random forests [J]. Machine Learning, 2001, 45(1): 5-32.
[9] 张经纬, 贡亮, 黄亦翔, 等. 基于随机森林算法的黄瓜种子腔图像分割方法[J]. 农机化研究, 2017, 37(10): 163-167.
[10] 顾海燕, 闫利, 李海涛, 等. 基于随机森林的地理要素面向对象自动解译方法[J]. 武汉 大学学报: 信息科学版, 2016, 41(2): 228-233.
[11] 刘铭, 黄凡玲, 傅彦铭, 等. 改进的人工蜂群优化支持向量机算法在入侵检测中的应用[J]. 计算机应用与软件, 2017, 31(1): 230-235.
Identification of Wheat Leaf Disease Based on Random Forest Method
XIA Yongquan, WANG Bing, ZHI Jun, HUANG Haipeng, SUN Jingru
(College of Computer and Communication Engineering, Zhenzhou University of Light Industry, Zhengzhou Henan 450001, China)
In order to improve the recognition accuracy of wheat leaf disease, the Gaussian mixture model combined with EM algorithm was used to extract the wheat leaves and obtain the bigger target, which made the segmentation accuracy higher than the direct segmentation disease area. And the roughness, the degree of orientation and the contrast were selected by combining the HSV main color histogram and the Tamura texture feature. The images of wheat healthy leaves, powdery mildew, leaf blight and leaf rust were identified by random forest method and recognition accuracy is up to 95%. Experiments show that this method is effective and superior to the support vector machine (SVM) method under the same conditions.
Gaussian mixture model; EM algorithm; HSV main color histogram; texture feature; support vector machine
TP 391.41
10.11996/JG.j.2095-302X.2018010057
A
2095-302X(2018)01-0057-06
2017-04-10;
2017-05-20
国家自然科学基金项目(61302118,81501547)
夏永泉(1972-),男,辽宁绥中人,副教授,博士。主要研究方向为图像处理、计算机视觉、模式识别与人工智能研究。E-mail:563241627@qq.com