基于颜色特征的油菜害虫机器视觉诊断研究

2016-03-23 06:45徐胜勇赵海涛李卫豪
农机化研究 2016年6期
关键词:直方图分类器基准

朱 莉,罗 靖,徐胜勇,杨 勇,赵海涛,李卫豪

(1.湖北工业大学 太阳能高效利用湖北省协同创新中心,武汉 430068;2.华中农业大学 工学院,武汉 430070)



基于颜色特征的油菜害虫机器视觉诊断研究

朱莉1,罗靖2,徐胜勇2,杨勇2,赵海涛2,李卫豪2

(1.湖北工业大学 太阳能高效利用湖北省协同创新中心,武汉430068;2.华中农业大学 工学院,武汉430070)

摘要:害虫的准确识别是针对性地施用农药以有效治理虫害的基础,而人工识别的劳动强度大且主观性强。为此,提出了一种利用颜色特征的害虫视觉识别技术。使用GrabCut算法从虫害图像中分割出完整的害虫主体图像并计算其最小外接矩形区域的H/S通道直方图,使用害虫基准图像对其进行直方图反向投影并计算交叉匹配指数。匹配指数和害虫标签共同组成的特征向量用于训练C4.5分类器。计算待检害虫图像的交叉匹配指数,输入分类器即可得到识别结果。实验结果表明:该技术可准确识别菜蝽、菜青虫、猿叶甲、跳甲及蚜虫5种害虫,准确率达到92%。

关键词:油菜害虫;计算机视觉;颜色直方图;C4.5算法

0引言

油菜是我国第一大油料作物,但病虫害的日趋严重制约了其单产的提高。针对不同的病虫害选择性地施用农药,可以有效保障虫害的治理,减小环境污染。准确施药的基本前提是病虫害类别的精确判定。传统的虫害检测方法是农业工作者根据经验进行肉眼判断,劳动强度很大且缺乏客观性,往往很难准确预测、识别、防治病虫害而导致错过最佳治疗时机,或者农药使用不当造成环境污染。因此,迫切需要一种快捷而准确的油菜虫害识别方法。

计算机视觉使用的各种图像传感器拥有远超人类的视觉分辨能力,非常适用于病虫害的识别[1-2]。基于计算机视觉的病虫害识别技术可以分为两类:一类是利用病虫害为害作物形成的特征进行反向识别。如文献[3]中提出的基于多特征融合的农作物害虫图像识别,通过多种特征组合方式准确识别水稻、油菜、玉米、大豆4种作物的34种害虫。文献[4]提取为害棉花叶片的颜色、形状和纹理特征,应用径向基支持向量机识别主要棉花虫害,识别正确率达 88.1%。蔡清等对虫食菜叶图像进行预处理后,自动提取虫食菜叶图像圆度、复杂度、球形度等7个形状特征值,并构建BP神经网络模型进行识别[5]。文献[6]计算椪柑病虫害为害状图像的傅里叶变换幅度谱的多重分形特征作为特征值,建立 BP 神经网络病虫害识别模型进行病虫害自动识别。另一类是利用害虫本体特征进行直接识别。例如,高雄等提出一种基于机器视觉的欧氏距离病虫害自动识别检测方法,以颜色特征为基础利用几何阈值选取和RGB空间特征的变换,实现病虫害的自动识别,准确率达到88.3%[7]。

颜色特征对图像本身的尺寸、方向、视角的依赖性较小,具有较高的鲁棒性。因此,本文提出了一种基于颜色特征的油菜害虫智能识别方法,综合运用图像分割、颜色特征提取与匹配、数据挖掘技术,实现了大田环境下的5种主要油菜害虫的精确识别。全部算法基于OpenCV(因特尔公司开发的开源视觉函数库)和VS2010(微软公司开发的编程软件)实现,具有较好的通用性和可移植性。

1基于颜色直方图反向投影的特征提取

常见的油菜害虫有菜青虫、跳甲、猿叶甲、蚜虫及菜蝽等5种,其颜色差异明显。颜色直方图常被用于描述颜色特征,表征不同色彩在整幅图像中所占的比例,特别适于描述那些难以进行自动分割的图像[8]。HSV颜色空间的两个分量色调H和饱和度S包含了图像的颜色信息。不同油菜害虫的H/S通道颜色直方图存在显著的区别,图1所示为跳甲和蚜虫的H和S通道直方图。因此,可以根据害虫的颜色直方图特征进行识别。

图1 跳甲和蚜虫图像及其H/S通道直方图

直方图反向投影是一种记录像素点或者像素块如何适应直方图模型中分布的方式。使用一个颜色直方图,可以利用反向投影在图像中找到该区域。目标图像经过直方图反向投影会得到一幅概率密度图(即反向投影图),图中的每一个像素点的灰度值反映观测数组在某个分布下的概率[9]。图2展示了猿叶甲基准图像对5种害虫图像的H/S通道直方图反向投影图。其中,图2(d)具有最大面积的高亮区域,表征较高的匹配度,这与实际情况一致;与此同时,图2(a)的整体亮度也较高。这种情况下,无法根据单组反向投影结果唯一确定害虫种类,必须使用待检的虫害图像与全部害虫基准图像进行反向投影图,即交叉匹配进行识别。

图2 猿叶甲基准图像对5种虫害图像的反向直方图投影

RGB格式图像转换为HSV格式后,再分别计算H和S通道的颜色直方图[10]。对于一幅M×N分辨率的测试图像和P×Q的基准图像,直方图反向投影的计算流程为:

1)从测试图像中的像素坐标(0,0)开始,切割一块(0,0)至(P,Q)的临时图像,并生成直方图;

2)将临时图像和基准图像的直方图对比,对比结果记为反向投影图的像素点(0,0)的像素值;

3)从测试图像中切割区域为(0,1)至(P,Q+1)的临时图像,对比直方图并记录像素值到反向投影图的像素坐标(0,1);

4)重复前述步骤直至结束。

设立“匹配指数” Pm衡量两幅图像颜色直方图相似的程度。对反向投影图中有效匹配点(灰度大于设定的阀值的像素点)的像素值进行加权算术平均处理,并计算其在全部灰度级中出现的概率作为匹配指数,则有

(1)

其中,Pm是匹配指数;C是像素值大于阀值PT的像素点个数;Pi是第i个不为零的像素点的灰度值,是加权系数,一般取Pi=2~3;n是数字图像的灰度级。

2基于C4.5算法的模式识别

2.1C4.5算法分类器

决策树是以实例为基础的归纳算法,适合于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。C4.5算法是经典的决策树算法ID3算法的改进,增加了对连续型属性、属性值空缺情况的处理[11-12]。C4.5算法采用基于信息熵的方法递归形成决策树。不确定性的最佳评估方法是平均信息量,即信息熵。信息量计算式为

(2)

其中,pi是任意样本属于Ci的概率,用si/S表示;S是数据样本的集合,假定类别属性具有m个不同值,定义m个不同类Ci(i=1,…,m)。设Si是类Ci中的样本数,利用属性A划分当前样本集合所需信息熵E(A,S)计算式为

(3)

设属性A具有m个不同值{a1,a2,…,am},利用A将S划分为m个子集{s1,s2,…,sm}。其中,Sj为S中在A上具有值aj的样本,sij是子集Sj中类Ci的样本数。

fG(A,S)=I(S1,S2,L,Sm)-E(A,S)

(4)

C4.5算法采用信息增益比来描述属性对分类的贡献,用以消除偏向具有大量属性值属性的偏差。其中,确定属性A本身需要的信息熵,即分裂信息公式为

(5)

其中,S1~S2是m个值的属性A分割S而形成的m个样本子集。实际上,分裂信息是S关于属性A的各值的熵。增益比率是衡量属性分裂数据的广度和均匀性。信息增益比定义为

(6)

采用此增益比划分属性得到决策树,其每个节点取具有最大信息增益比的属性。C4.5算法具体的实现步骤如下:

1)训练数据集的设置和获取。训练数据集由一组特征参数和对应的唯一分类标签组成。每一幅训练图像与全部基准图像进行直方图反向投影并计算匹配指数,得到一组交叉匹配指数,即为一组特征参数。在本文中,分类标签为A-E,依次代表菜蝽、菜青虫、猿叶甲、跳甲、蚜虫。

2)训练。每种类别标签对应着一种属性,首先计算所有样本的信息增益比,根据最大的信息增益比确定根属性,引出一个分支,样本按此划分;对引出的每个分枝用此分类法进行分类,再引出分枝直至分类完毕;输入训练数据集,算法执行完毕,生成分类规则。

3)分类。计算测试图像的交叉匹配指数,组成测试向量输入C4.5分类器,依据分类规则,分类器将测试数据集标注类别标签,得到分类结果。

2.2程序流程图

交叉匹配指数的计算是本文算法的关键。首先,使用GrabCut算法获取虫害图像中的害虫本体区域,并计算其最小外接矩形作为训练图像。害虫基准图像对训练图像进行直方图反向投影得到反向投影图,该反向投影图的有效像素点使用式(1)计算匹配指数。一幅训练图像对全部基准图像的匹配指数加上该害虫对应的分类标签,组成C4.5算法的训练数据集,输入分类器完成训练,生成分类规则。在模式识别环节,计算待检图像与全部基准图像的交叉匹配指数,输入C4.5分类器,根据之前训练得到的分类规则,自动地得到分类结果,即待检图像中害虫的种类。完整算法流程如图3所示。

3实验与结果分析

3.1实验图像的获取及预处理

实验图像统一为彩色的JPG格式,主要通过油菜大田拍摄、因特网及书籍文献等途径获取。基准图像是基于颜色特征进行害虫识别的参考图像,对识别结果具有关键影响。5种害虫各选取4幅颜色特征最显著的图片用于制作基准图像。为排除图像背景对诊断产生的干扰,使用GrabCut算法从基准图像中分割出害虫本体,再进行后续处理,以提高匹配精度[13]。图4为使用GrabCut算法从虫害图像中提取的害虫本体图像,依此为菜蝽、菜青虫和猿叶甲。

图3 算法流程图

图4 使用GrabCut进行害虫本体图像提取

计算害虫本体图像的最小外接矩形,并取矩形中心的80像素×80像素矩形区域,作为基准图像。图5展示了5种害虫4组基准图像中的一组。

Fig.5 A set of the template image

3.2害虫识别实验

在H/S通道颜色直方图计算中,设定30个划分度,其中H通道取值范围为[0,180],S通道取值范围为[0,255]。计算颜色落在每个小区间内的像素数量可以得到颜色直方图,再计算直方图反向投影图和匹配指数。

在C4.5算法分类器的训练中,5个标签各设置了4幅共计20幅基准图像,并对应设置了6幅训练图像共计30幅。1幅训练图像与全部20幅基准图像进行H/S通道直方图反向投影并计算交叉匹配指数,得到1组交叉匹配指数和1个类别标签一起组成一个21维的训练向量。30幅训练图像得到的训练向量共同构成了训练数据集,输入C4.5分类器进行训练生成分类规则并保存为TXT格式文档。

5种害虫各使用10幅共计50幅测试图像,用于测试本文算法。测试图像的交叉匹配指数组成50×20矩阵,作为分类器的测试特征向量输入,得到分类标签,即识别结果。表1展示了测试的结果,0~9是测试图像的序号,标签A~E依次代表菜蝽、菜青虫、猿叶甲、跳甲、蚜虫。其中,编号“A4”等4个样本识别结果错误,总体识别准确率达到92%。

表1 C4.5分类测试结果

由于实验图像多样化的获取方式,在环境、光照、背景等影响下,油菜害虫图像的颜色特征缺乏绝对的一致性,因此测试了基准图像和训练图像数量对诊断结果的影响。图6左图为基准图像数量对诊断结果的影响,诊断准确率随着图像数量的增加而提高,大于4之后保持稳定,反而会导致计算时间的增加。图6右图为训练图像数量与诊断准确率之间的关系。一般而言,训练样本数量的增加会导致诊断准确率的提升,训练样本数量超过一定数量(大于8)时准确率基本维持不变。

图6 基准图像和训练图像数量对诊断准确率的影响

4讨论与结论

基于颜色特征的虫害识别对于图像源的质量要求很高,在图像分割环节GrabCut图割方法有效保证了识别准确率。基准图像和训练样本的数量对于C4.5算法产生稳定而精确的决策参数也有很大的影响。总体而言,油菜害虫识别的结果是令人满意的。其中,菜青虫的错检率较高,这是由于在图像分割环节菜青虫与背景(通常是绿色)分割误差较大,造成后续的匹配指数计算产生较大误差。预计通过改进图像分割算法,可以有效提升检测精度。此外,在直方图反向投影环节,H/S通道的分辨率设置过低,会降低识别正确率,设置过高会导致程序执行时间成倍增加,本实验中分别设置为40和10。根据图像源质量设置合理的分辨率,有助于提高识别速度和准确率。

本研究表明:依据颜色特征进行油菜害虫识别方法是准确而高效的。本文仅对害虫的颜色特征进行了研究,若综合考虑害虫的纹理和形状特征,将进一步提高识别准确率。此外,幼虫阶段的害虫识别对于大田生产更具实际意义,有待进一步深入研究。

参考文献:

[1]邹修国.基于计算机视觉的农作物病虫害识别研究现状[J].计算机系统应用,2011, 20(6):238-242.

[2]施文,邹锐标,王访,等.基于多重分形的油菜病虫害叶片图像分割[J].湖南农业大学学报:自然科学版, 2014,40(5):556-560.

[3]Jie Zhang, R W, Chengjun Xie,et al. Crop Pests Image Recognition Based on Multi-features Fusion[J].Journal of Computational Information Systems,2014, 10(12):5121-5129.

[4]张建华,冀荣华,袁雪,等.基于径向基支持向量机的棉花虫害识别[J].农业机械学报, 2011,42(8):178-183.

[5]蔡清,何东健.基于图像分析的蔬菜食叶害虫识别技术[J].计算机应用,2010,37(7):1870-1872.

[6]温芝元, 曹乐平.椪柑果实病虫害的傅里叶频谱重分形图像识别[J].农业工程学报, 2013, 29(23):159-165.

[7]高雄,王海超.甘蓝菜青虫自动识别系统的开发与试验研究[J].农机化研究, 2015,37(1): 205-208.

[8]Z Zivkovic, B.K.An EM-like algorithm for color-histogram-based object tracking[J]. Computer Vision and Pattern Recognition, 2004(1):798-803.

[9]董傲霜,宋宏亮.基于SIFT 特征和颜色融合的图像检索方法[J].吉林大学学报:工学版, 2013,43(S1):440-444.

[10]M J Swain, D H B. Color indexing[J]. International Journal of Computer Vision, 1991, 7(1): 11-32.

[11]Kretschmann, E, W Fleischmann. Automatic rule generation for protein annotation with the C4.5 data mining algorithm applied on SWISS-PROT[J]. Bioinformatics, 2001,17(10): 920-926.

[12]Serpen, G, D Tekkedil,M Orra.A knowledge-based artificial neural network classifier for pulmonary embolism diagnosis[J]. Computers in Biology and Medicine, 2008,38(2):204-220.

[13]Rother, C, V Kolmogorov. "GrabCut" - Interactive foreground extraction using iterated graph cuts[J]. ACM Transactions on Graphics, 2004,23(3):309-314.

Abstract ID:1003-188X(2016)06-0055-EA

Machine Vision Recognition of Rapeseed Pests Based on Color Feature

Zhu Li1, Luo Jing2, Xu Shengyong2, Yang Yong2, Zhao Haitao2, Li Weihao2

(1.Hubei Collaborative Innovation Center for High-efficiency Utillization of Salar Energy, Hubei University of Technology, Wuhan 430068,China;2.College of Engineering, Huazhong Agricultural University, Wuhan 430070, China)

Abstract:The accurate identification of rapeseed pests is the foundation for using the pesticide pertinently. Manual recognition is labour-intensive and strong subjective. The principal part image of the pets was extracted using the GrabCut algorithm and the minimum circumscribed rectangle of the principal part was calculated. Then histogram backprojection in H/S channels was employed between the template images and the rectangle image to obtain the cross matching ratio. The feature vector consist of the ratio and the label of pests was employed to train the C4.5 classifier. With the cross matching ratio of the checking image, the C4.5 classifier may identify the species of the pets. The experiment showed that the proposed method may identify five kinds of rapeseed accurately such as erythema, cabbage caterpillar, colaphellus bowringii baly, flea beetle and aphid with the recognition rate of 92%.

Key words:rapeseed pests; computer vision; color histogram; C4.5 Algorithm

文章编号:1003-188X(2016)06-0055-04

中图分类号:S431.192;TP391.41

文献标识码:A

作者简介:朱莉(1982-),女,武汉人,讲师,博士,(E-mail) julianabiding@126.com。通讯作者:徐胜勇(1980-),男,湖北蕲春人,讲师,博士,(E-mail)xsy@mail.hzau.edu.cn。

基金项目:湖北省自然科学基金面上项目(2014CFB589);中央高校基本科研业务费专项(2014QC004);太阳能高效利用湖北省协同创新中心开放基金项目 (HBSKFMS2014032)

收稿日期:2015-05-05

猜你喜欢
直方图分类器基准
符合差分隐私的流数据统计直方图发布
用直方图控制画面影调
应如何确定行政处罚裁量基准
基于实例的强分类器快速集成方法
中考频数分布直方图题型展示
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
明基准讲方法保看齐
基于空间变换和直方图均衡的彩色图像增强方法
滑落还是攀爬