摘要[目的]解决水稻害虫传统识别方法的低时效性问题。[方法]采用数字图像处理方法对水稻害虫进行图像识别和分类,对水稻害虫的虫体面积、虫体周长、偏心率、形状参数、似圆度、叶状性、球形性等几何形状特征进行提取和研究,并采用支持向量机(SVM)分类器对水稻害虫二化螟、三化螟、稻飞虱、卷叶螟进行分类。[结果]利用所建立的6个特征判别函数对4种水稻害虫进行判别分类,识别率达到96.67%,说明这6个经过筛选的特征具有很强的判别性。[结论]支持向量机分类器的识别方法很好地解决水稻害虫传统识别方法的低时效性问题。支持向量机以风险最小化为原则,兼顾训练误差与测试误差的最小化,具体体现在分类模型的选择和模型参数的选择上。
关键词图像处理;特征提取;识别分类
中图分类号S126文献标识码A文章编号0517-6611(2014)23-08043-03
作者简介李文斌(1990- ),男,浙江温州人,硕士研究生,研究方向:数字图像处理。
收稿日期20140707水稻是我国最重要的粮食作物之一,因此提高水稻产量是当前水稻生产的重要目标。但是,由于生产设备和预防监控措施落后,尤其是农业生物灾害又频频发生,对水稻生产造成了非常严重的影响。近年来。水稻害虫危害逐年加重。因此,害虫准确、及时地预测预报成为了水稻害虫预防和治理的前提,而水稻害虫预测预报的核心内容就是图像识别和分类。
然而,以往的水稻害虫识别方法都是依靠人为完成,通过大量的工作人员实地考查水稻害虫的形状、颜色等外部特征进行,需要较长的工作周期,并且实时性差,严重影响了水稻害虫识别速度。基于此,笔者对水稻害虫图象自动识别技术进行研究。
1系统流程
图像自动识别技术包括两个方面:水稻害虫图像几何特征提取和图像识别分类。图像几何特征反映了水稻害虫的一些基本特征,合理的几何特征便于更好地获得有效的害虫形态特征信息,进而用于图像识别分类。该研究通过对多种水稻害虫的面积、周长、偏心率、形状参数、似圆度、叶状性、球形性等几何形状特征进行了提取和研究,并采用支持向量机分类器(SVM)对多种水稻害虫进行了分类识别处理,解决了以往识别技术中时效性差的问题。系统流程图如所示。
系统流程2图像预处理
2.1图像去噪及其灰度化基于ARM系统的COMS摄像头获得的图像由于受到自身像素及其各种自然环境和拍摄角度的影响,往往图片质量会较差,从而给后面的识别工作带来困难,因此,需要对水稻害虫初始图像进行必要的预处理,以提高图像质量。为了提高图像质量,减少初始图像中的噪声,采取了图像平滑处理来去除噪声。常用的图像平滑方法有均值滤波和中值滤波,该系统采用中值滤波的方法,这是因为在同等尺寸大小下,中值滤波具有更好的去噪能力和较低的模糊度[1]。
另一方面,通过COMS摄像头获取的图像都是彩色图像,然而彩色图像包含较多的像素,因此会占用较大的计算时间,而图像灰度化就是将彩色图像转换为灰度图像的过程,这样可以减少计算时间和减少内存占用,所以在进行图像特征提取之前首先将图像进行灰度化处理,处理结果如所示。
2.2图像灰度阈值变换处理在图像识别中,对直接拍摄得到的图像直接进行分类是不科学的,这是因为没经过处理的图像数据占用很大的存储空间,如果直接进行识别,则具有大量的计算量,降低效率;另外,直接拍摄得到的图像有很多冗余的信息,如图像的背景等一切与虫体无关的信息量,因此,在提取水稻害虫特征前必须先去除背景等无用信息,
原始图像及处理后的灰度图像突出虫体有效信息。因此,采用灰度阈值变换处理,使得背景图案和蟲体能够很好地分离开来。
所谓灰度阈值变换就是将一幅灰度图像转换成黑白的二值图像,设置一个灰度值,该灰度值起到分界线的作用。图像中某像素的灰度值小于该灰度值,则将该像素的灰度值设置为0,否则设置为255,这个起到分界线作用的灰度值成为阈值。
在试验中,得出将灰度阈值设置为180的时候的二值化图像是最优的,基本上完整地描绘出了整个昆虫图像的轮廓。当设置为大于180的时候,图像的轮廓会变得厚重圆滑,从而使得外形失真;当灰度阈值小于180的时候,图像轮廓会有不同程度缺失,会使得大量数据丢失。试验结果如所示。
灰度图像及处理后的二值化后图像3图像特征提取
对于人类视觉而言,人们通常利用水稻害虫的物理结构特征来进行识别处理,但这些特征对于机器识别是具有很大难度的[2]。所谓特征提取就是从水稻害虫中提取出可以把虫体种类区分开来的并能被机器所直接使用的数据量。要对水稻害虫进行特征提取,首先要确定水稻害虫有哪些虫体特性参数。其次,要适当地选择提取的特征参数,特征参数选择的好坏直接影响到后面能否正确地识别出害虫种类,因为有些虫体原始特征对于分类器的识别分类影响不大。因此,需要从试验的所有特征参数中挑选出效果最好的特征参数。该系统中,主要对水稻害虫的面积、周长、偏心率、形状参数、似圆度、叶状性、球形性和孔洞数等形态学特征进行识别分类[3]。
3.1虫体面积虫体面积是一个能直接区分虫体种类的特征参数,直接关系到虫体的形状和大小,是用来描述水稻害虫大小的基本特性,图像虫体面积表示该图像中虫体在一定范围内所占的像素点总数。虫体面积表达式如下:
A=Mx=1My=1f(x,y)
3.2虫体周长周长和面积一样,是描述虫体外围形状和轮廓的重要参数。水稻害虫种类不同,它们的图像所占区域的大小也相差很大;周长P=A-SUM(in),其中,A表示图像区域面积,SUM(in)表示图像的4邻域范围内的像素总数。
3.3偏心率偏心率的表达式为E=p/q,是一个用来描述虫体紧凑性的一个参数,它在一定程度上表示水稻害虫的虫体形状,体型狭窄度。一般情况下,偏心率越大,则虫体就越狭窄;偏心率越小,则虫体外形就越宽大。
3.4形状参数形状参数的表达式为C=P3/4πA,该参数描述了虫体所占图像区域的紧凑性,形状参数这一特征可以有效地识别那些虫体受损的水稻害虫。一般情况下,当虫体受损后,很难将其区分出来,而加入形状参数后,这一缺陷得到了很好的改善。
3.5似圆度似圆度R=4A/πl2,其中,A是图像面积,L是图像横轴长度。似圆度描述了图像形状的问题,是一个相对参数,可以用来描述水稻害虫的形态特征。
3.6叶状性叶状性反映水稻害虫的边界幅度变化特性,定义为:B=R1/W,式中,B为叶状性参数,R1为区域重心到边界的最短距离,W为图像的横轴长度。
3.7球形性球形性SP=Ri/Rc,其中,Ri和Rc分别表示目标内切圆和外切圆的半径,两个圆的圆心都在区域的重心上。
3.8孔洞数将水稻害虫图像区域中无用的小区域定义为孔洞,对小区域进行标记并计数实现孔洞数的计算。
4图像特征提取结果分析
选取50幅二化螟图像、50幅三化螟图像、50幅稻飞虱图像、50幅卷叶螟图像,测得上述8个特征数据如所示。从可以看出,二化螟图像面积在3种水稻害虫中最大,周长也最大;而卷叶螟图像偏心率最大,是卷叶螟体型狭长、细窄的体现;稻飞虱、二化螟和三化螟展翅宽度较大,反映为偏心率较小。叶状性反映了目标边界的曲直变化频率和幅度。在4种昆虫中,卷叶螟图像的叶状性最大,是由于卷叶螟向外伸展使得图像边界幅度和方向变化很大,二化螟和稻飞虱的翅和体之间也有比较大的变化,其叶状性小于卷叶螟而大于三化螟,根据似圆度,也可以判断出卷叶螟似圆度最大。另一方面,根据球形性和孔洞数很难判断出一个昆虫的形状特征和种类。
因此,运用逐个分析方法对上述特征进行筛选,得到6个特征,分别为区域面积、偏心率、形状参数、周长、似圆度、叶状性,剔除了孔洞数特征以及球形性。利用所建立的6个特征判别函数对以上4种昆虫进行了判别分类,结果如所示,识别率达到96.67%,说明这6个经过筛选的特征具有很强的判别性。
图像特征提取结果水稻害虫虫体面积虫体周长形状参数似圆度叶状性偏心率球形性孔洞数二化螟10 393.54768.824.690.370.008 460.440.1526.44三化螟5 196.72521.324.350.350.001 800.310.1126.12卷叶螟2 846.29415.647.651.040.146 001.640.1322.04稻飞虱4 351.63498.326.590.980.009 400.420.1725.02
5支持向量机(SVM)分类器的设计
一般情况下,传统意义上的识别技术都是通过分类器对训练样本的拟合情况进行虫体识别,利用最小化训练集上的分类器作为训练目标,通过提供充足的样本来提高分类器的识别率,然而,这个方法存在一个很严重的缺陷。当样本数量严重不足的时候,不能保证一个很好地分类了训练样本的分类器也能够很好地测试样本,在缺乏代表性的小训练集情况下,一味地降低训练集上的分类错误就会导致过度拟合。
针对传统识别模式中存在的缺点,采取支持向量机(SVM)分类器的识别方法,该方法很好地解决了这一问题。支持向量机以风险最小化为原则,即兼顾训练误差与测试误差的最小化,具体体现在分类模型的选择和模型参数的选择上[4]。
该试验中,将二化螟、三化螟、稻飞虱、卷叶螟4类水稻害虫分别标记为A、B、C、D 4类样本,将这4类样本两类两类地组成训练集,得到(A,B)、(A,C)、(A,D)、(B,C)、(B,D)、(C,D)。对于这4类样本中的任意一类,就可以用相对应的分类器来识别,像A类样本,可以組合成(A,B)、(A,C)、(A,D)这3类分类器来对害虫进行分类识别,因此可以根据这些分类器的置信度来对这些二分器进行可靠性排列。一般情况下,置信度高的分类器得到的结果可靠性就高,置信度低的分类器出现误判断的机会就比较大。虫体识别判别过程如下所示。
第1步:对不同分类器的置信度大小进行排列,依次为(A,C)、(A.B)、(A,D)、(B,D)、(C,D)、(B,C),并分别编号为第1类分类器、第2类分类器、第3类分类器、第4类分类器、第5类分类器、第6类分类器。
第2步:设被识别对象为未知昆虫X,首先由第1类分类器进行识别操作,根据第1类分类器的判别函数的结果来判断。当第1类分类器的判别函数的结果为正数时,则结果为类型A,所有关于类型C的判别函数均被淘汰;若结果为负数时,则结果为C,所有关于类型A的判别函数都被淘汰;若判别函数的结果为0,则表示拒绝判断,这时选用第2类分类器进行识别;如果结果类型为C,则所剩判别函数为(B,D)、(C,D)、(B,C)。
第3步:被识别对象X再由第4类分类器进行识别,若判别函数结果为正数,淘汰所有关于D类的判别函数,则所剩下的判别函数为第6类分类器(B,C)。
第4步:被识别的样本在由第6类判别函数进行识别,若得到结果为正数,则判定最终的分类器结果为B。
6分类识别结果
由可知,4种水稻害虫的识别率分别为96%、94%、94%、90%。
4种水稻害虫识别率
水稻害虫识别数目识别率∥%二化螟4896三化螟4794稻飞虱4794卷叶螟4590注:参试水稻害虫的数目均为50。
42卷23期李文斌水稻害虫图像识别技术研究7结论
该研究初步选择8个水稻害虫图像特征,并根据试验过程和结果挑选出6个具有实际判别意义的几何特征,这些特征是相互独立的,符合建立分类器要求特征之间具有相互独立性的原则。该研究提取8种几何形状特征非常直观并易于提取,能够反映水稻害虫特点,也能反映出昆虫的体型结构以及形态特征。但如何提取更多能够直接反映昆虫形态特征和鉴别特征的特征及其设计更有效的分类器是今后努力的方向,也是完善昆虫数学形态学理论的重要步骤之一。