相 林,侯 潮,孙 敏
(1.淮阴工学院 计算机与软件工程学院,江苏 淮安 223003;2.淮阴工学院 数理学院,江苏 淮安 223003;3.淮阴工学院 生命科学与食品工程学院,江苏 淮安 223003)
基于图像内容的常见蔬菜病害诊治研究
相林1,侯潮2,孙敏3
(1.淮阴工学院 计算机与软件工程学院,江苏 淮安 223003;2.淮阴工学院 数理学院,江苏 淮安 223003;3.淮阴工学院 生命科学与食品工程学院,江苏 淮安 223003)
摘要:研究计算机视觉技术在蔬菜病害诊治中的应用,构建黄瓜、番茄等常见蔬菜的病害图片库,对图片库中的图片和待检测图片进行预处理,并使用PCA算法对图像提取特征,得到蔬菜病害的特征库;提取待检测的病害图片的特征,使用余弦相似度与病害特征库比较,检测出病害图像。实验结果表明,将PCA算法应用到蔬菜病害的图像识别,有较好的识别效果。
关键词:病害识别;特征提取;PCA;余弦相似度
0引言
数字图像处理技术出现在20世纪50年代,并在60年代初期成为一门正式的学科。近年来,随着数字图像处理技术的专业化和各种模式识别技术的日趋成熟,数字图像处理技术的研究越来越深入,并在农作物缺素识别诊断、种子质量检验、农产品品质检测与分级等方面得到了广泛应用,在现代化农业领域显示出巨大的应用潜力。
相比于计算机视觉技术在土壤和杂草等背景的识别、叶面积和株高测量、叶片的形态识别与作物营养信息监测等农业领域的应用,基于图像内容的机器视觉技术在作物病虫害方面的研究起步相对较晚,文献也较少。1985年,安冈善文等[1]通过叶片的红外线图像来对植物进行病害诊断,虽然用到了图像技术,但还处于人工诊断阶段。2004年,Mohammed E1-Helly等[2]开发了综合图像处理系统自动检测叶片病斑来识别病害类型, 此系统利用人工神经网络作为分类器,能较好地识别黄瓜白粉病、霜霉病和受潜叶虫危害的叶片,但是识别的种类较少,有局限性。
近年来,图像识别技术的发展越来越精确,在国内也有很多专家对图像识别技术在农业领域的应用进行研究。2009年,田有文与牛妍[3]以Matlab7.0为平台对10类常见病害进行识别,他们采用支持向量机(SVM)对黄瓜病害进行分类的方法,提取了病斑的形状、颜色、质地与发病时期等特征作为特征向量,利用支持向量机分类器,选取4种常见核函数来进行识别,取得了较为理想的识别效果。赵玉霞等[4]根据玉米叶部病害特点,综合应用阈值法、区域标记方法与 Freeman 链码法,对玉米叶部病害图片进行图像分割和特征的提取,从图像中提取玉米叶部典型病斑的特征后使用 Visual C开发了病斑诊断系统,系统对玉米叶部的锈病、弯孢菌叶病斑、灰斑、褐斑和小斑的诊断准确率在80%以上。
本文主要研究黄瓜、番茄等常见蔬菜的病害图像,提取图像的特征,结合模式识别技术,对蔬菜病害进行诊断。研究前期,还构建了一个常见蔬菜病害的图片库。基于从待诊断图片中提取的特征,利用识别算法与该图片库中的病害进行比对,得到识别的结果。实验结果表明,该病害诊断方法有较好的识别效率和准确率。基于图像内容检索及诊断蔬菜病害图像,对农业病害的诊断研究和图像检索技术的发展都有着重要的意义。
1预处理
通常,采集的病害图片都是彩色的。为了提高效率,在识别之前可以先对图片进行预处理,预处理的过程包括灰度化和归一化。图像的灰度化主要是指将包含色彩和亮度的原始彩色图像转换成只包含亮度的灰度图像。利用加权平均值法,先找出彩色图像中每个像素点的R、G、B值,再通过式(1) 得到该点的灰度值,从而构成灰度矩阵。
Y=0.30*R+0.59*G+0.11*B
(1)
图像的归一化就是将图像转化成统一的标准形式的过程。通过对图像进行标准化处理,以此消除其它因素对图像识别的影响[5]。利用双线性插值的方法对图像进行适当地缩放,得到尺寸大小相同的图像,便于提取特征和检索图像。
2病害图像检索
2.1特征提取
主成分分析(PCA, Principle Component Analysis),又称K-L变换,是一种常用的基于变量协方差矩阵对信息进行处理、压缩和提取的统计分析方法。算法通过线性变换,从众多数据中选出能够代表整体的少数数据,是特征提取的经典算法。由于PCA算法在数据降维和特征提取方面的有效性,在图像识别领域得到了广泛的应用。其实现的主要思想是,从图像的灰度矩阵构成的数据中提取出最能代表该矩阵,且含有较少维数的新矩阵,以达到降低原矩阵维数的目的[6]。
利用PCA算法提取图像的特征时,首先将图片库中的每一张图片按行首尾相连,作为矩阵的一行构成图像信号的输入矩阵X。按照PCA算法的思想,对输入矩阵X进行标准化;求出协方差矩阵的特征值和特征向量,选出能代表数据85%~95%信息量的特征值所对应的特征向量,构成特征向量空间;最后,将原图像数据向该空间进行投影,投影的系数即为主成分,实现特征提取。PCA算法得出的特征是全局特征。该算法实现的流程如下:
Step 1 图片库中每张图片的灰度值矩阵按行首尾相连,构成输入矩阵的一行,得到图像信号的输入矩阵X;
Step 2 对矩阵X进行标准化处理,得到零均值与单位方差的样本矩阵;
Step 3 求出X' 的协方差矩阵C;
Step 4 求出矩阵C的特征值和特征向量,并选择代表绝大部分信息的较大特征值对应的特征向量构成特征向量空间;
Step 5 将原数据矩阵X' 向该空间投影,得到投影系数,即为主成分。
从几何意义上讲,PCA算法就是利用一个旋转变换,将原来的坐标系旋转到特征向量方向上。一般选择前 N 个较大特征值对应的特征向量构成子空间, N是所需要的子空间维数,一般N远小于原空间的维数,以此达到降维提取特征的目的。例如,对于一个256×256的图像,构成一个包含65536个分量的向量,使用 PCA 降维后,可以将其投影到一个100×300维的子空间中,且此空间可以包含原数据的绝大部分信息,从而大大降低了维数,提取了图像的特征。
2.2余弦相似度
本文使用最近邻算法进行特征的匹配,寻找图片库中与测试图像的特征距离最近的图像作为目标图像。度量相似度的方法有欧式距离、向量余弦相似度等。根据文献[7]的介绍,余弦相似度是图像处理模型中更有效的度量标准,所以本文采用其作为相似度的度量方法。
对两个向量而言,可以通过测量两个向量内积空间夹角的余弦值的绝对值大小来度量它们之间的相似性。余弦值的取值范围在-1到1之间,其取值的正负决定了这两个向量的方向。考虑余弦绝对值时,取到最大值1时,认为两个向量相似度最高;反之,取到最小值0时,两个向量最不相似。余弦相似度的值在0到1之间。
设btest是测试集的特征向量,btrain是训练集的特征向量,那么两者的余弦相似度通过式(2)计算。
(2)
2.3病害图像检索流程
本文主要实现蔬菜病害图像的检索,选择主成分分析算法提取特征,采用余弦相似度计算度量特征间的相似度,并且对图像进行预处理来提高检索效率。本文提出的基于图像内容的蔬菜病害检索流程,如图1所示。
图1 蔬菜病害检索流程图
3结果与分析
3.1建立蔬菜病害图像数据库
为了验证图像检索的有效性,本文收集了205张蔬菜病害图片构成了一个病害库,该库中包含4种蔬菜包括番茄、黄瓜、辣椒和茄子的52种常见病害,每种病害有3至4张图片,分别显示了病害不同时期不同部位的症状。图2、图3、图4分别显示了番茄、黄瓜、辣椒三种蔬菜灰霉病、疫病、叶枯病的果实部位和叶子部位的病害图像。另外,还创建了一个测试图片库。库中图片是由针对样本库中的52种病害,分别有2张对应的图片构成,用来测试算法的检索效果。
图2 番茄灰霉病果实病害图
图3 黄瓜疫病叶子病害图
图4 辣椒叶枯病叶子病害图
3.2预处理
预处理过程包括灰度化和归一化。先将图片库所有彩色图像由RGB格式转化为灰度图,灰度值在0~255之间;再对图像进行归一化处理,通过双线性差值将灰度化处理后的图像大小归一化为60*50,以提高检索效率。以病害图像数据库中一个大小为563*820的黄瓜病害图像(如图5a所示)为例,对其灰度化和归一化预处理,得到图5b所示灰度图像。原图大小为563*820,经过预处理得到了一个60*50的灰度矩阵(如图6所示)。按此方式,对图片库中所有的病害图像进行相同的预处理操作。
(a)病害RGB图像 (b)病害灰度图像
(a)病害RGB图像对应的数字矩阵 (b)病害灰度图像对应的数字矩阵
3.3主成分分析提取特征
对预处理后的图像,利用主成分分析的方法提取特征。由于预处理后的图像大小为60*50,则待提取特征的向量维数为3000维。将所有预处理后的图像构成矩阵,并计算协方差矩阵的特征值和特征向量,按照包含90%以上信息量的原则,取前49个较大特征值对应的特征向量,构成主成分空间。然后将预处理后每一张图片向该空间投影,得到每张图片的特征。
3.4病害图像检索
以黄瓜的黄瓜白粉病、黄瓜疫病和黄瓜细菌性角斑病的三种病害图片库为例,进行病害图像识别实验。输入如图7(a)所示的待检测图像,通过提取特征,利用余弦相似度进行检索,得到如图7(b)所示的检索结果。根据主成分提取的特征,通过余弦相似度,计算出来测试图与数据库中的图像相似程度分别为:
(-0.2943,0.9564,-0.8102)
显然检测图像与黄瓜病害数据库中的黄瓜疫病图像的相似度最大值为0.9564。因此,检索结果为黄瓜疫病,而这与之前的设想相吻合,验证了图像识别可行性。
(a)待检测图像 (b)检索结果
本文还在创建的一个包含黄瓜白粉病、黄瓜斑点病、黄瓜根腐病、黄瓜黑星病、黄瓜灰霉病等在内的9种黄瓜常见病害的图库上,应用了PCA算法提取特征进行病害检索,识别率达到73.34%,进一步说明该算法在蔬菜病害识别中应用中的有效性。
4结论
本文将PCA算法应用于蔬菜病害图像检索的研究中,并进行了仿真实验,取得了较好的检索效果。对于图像识别问题,识别率的高低决定于所提取的图像特征的优劣,以及训练样本库中的样本容量及代表性。PCA算法可以去除变量间的二阶相关性,得到不相关的主分量,向特征空间投影得到的投影特征具有较强的鲁棒性,图像可以被快速而准确地检索出来。这对于解决病害图像的识别问题具有重要的实际意义。但是,图像数据间除了二阶相关,还存在高阶相关性,如何提取出相互独立的特征对病害图像进行高效、鲁棒的检索是下阶段研究的内容。
参考文献:
[1] 安冈善文.图像处理技术在环境中的应用[J].电气学会杂志,1985(特集):455-458.
[2] 彭占武,司秀丽,王雪,等.基于图像处理和模糊聚类方法的黄瓜霜霉病识别研究[J].中国农机化学报, 2013, 34(2):212-216.
[3] 田有文,牛妍.支持向量机在黄瓜病害识别中的应用研究[J].农机化研究,2009,23(3):36-39.
[4] 赵玉霞, 王克如.基于图像识别的玉米叶部病害诊断研究[J].中国农业科学, 2007,40(4):698-703.
[5] 尹飞,冯大政.基于PCA算法的人脸识别[J].计算机技术与发展,2008,18(10):31-33.
[6] 陈伏兵,杨静宇.分块PCA及其在人脸识别中的应用[J].计算机工程与设计,2007,28(8):1889-1892.
[7] M. S. Bartlett,R. Javier,et al.Face Recognition by Independent Component analysis [J].IEEE Transactions on Neural Networks,2002,13(6):1450-1464.
(责任编辑:尹晓琦)
Diagnose of Common Vegetables Disease Based on Image Content
XIANG Lin1,HOU Chao2,SUN Min3*
(1.Faculty of Computer and Software Engeneering,Huaiyin Institute of Technology,Huai'an Jiangsu 223003,China;2.Faculty of Mathematics and Physics,Huaiyin Institute of Technology,Huai'an Jiangsu 223003,China;3.Faculty of Biology Science and Food Engineering, Huaiyin Institute of Technology,Huai'an Jiangsu 223003,China)
Abstract:A computer visional technology was applied to diagnose vegetable diseases in this paper. Firstly, an image database was constructed, which was consisted of common vegetables such as tomatoes, cucumbers. Secondly, PCA algorithm was used to extract image features so as to obtain a database of disease features after images in database were preprocessed.Lastly, we extracted the feature of image to compare with that in disease database based on cosine similarity to recognize the disease image.The experimental results showed that PCA was effective to recognize images of vegetable diseases.
Key words:disease recognition;feature recognition;PCA;cosine similarity
收稿日期:2016-04-08
基金项目:淮安市科技支撑计划(农业)项目 (SN13045,SN13046);江苏省高等学校大学生创新创业训练计划项目(201511049037Y)
作者简介:相林(1982-),女,江苏宿迁人,讲师,在读博士,主要从事人工智能研究;*为通讯作者。
中图分类号:TP391
文献标识码:A
文章编号:1009-7961(2016)03-0001-05