罗匡男, 彭 琳, 齐伟恒
(云南农业大学云南省高校农业信息化重点实验室,云南昆明 650201)
三七是我国的名贵中草药,属典型的阴生植物,必须在人为遮阴条件下进行栽培[1],其特殊的生长环境,常诱发各种病害。圆斑病与黑斑病近年来已成为三七地上部分的主要病害,且已成为众多三七科研工作者的研究热点[2]。三七病害的诊断也成为刻不容缓的问题,其中杨涛等通过建立人工抗病性鉴定方法来诊断三七的黑斑病[3];王志敏等通过人工检疫法来识别三七的黑斑病和圆斑病[2]。以往的三七病斑识别都是人为识别或者生物试剂识别,这些传统的识别方法往往很难实现且时效性差,给广大三七种植户带来了较大的经济影响。人工智能技术和农业信息化技术的不断发展,使得用图像处理和模式识别对作物病害进行识别成为可能。1989年穗波信雄等利用计算机视觉技术分别对缺乏钙、铁、镁营养元素的茨菇叶片进行了基础研究[4];2009年Carmargo等采用图像处理的方法识别植物病害的视觉特征[5];2014年刘涛等通过计算机视觉技术对水稻病斑进行特征提取和识别[6],这些国内外研究为机器视觉识别植物病害提供了理论和实践基础,然而在三七叶片病斑识别方面却鲜见通过机器视觉方法对病斑进行自动识别的研究。在此背景下,本试验主要针对三七在雨季常发的2种病害(黑斑病、圆斑病)的自动识别进行研究。
本研究的样本为三七发病率较高的黑斑病、圆斑病(三七发病率较高的2种病)的图片。病斑图片是在云南农业大学农学院三七研究实验室的帮助下进行采集的。由于受光照不均或者其他外界环境的影响,采集的图片即使经过预处理也很难去除图像的阴影和噪声,因此需要将采集后的图片进行人工选取,选择光照较均匀的图片作为样本。选取黑斑病、圆斑病的病斑叶片图片各60张,共计120个样本。
本研究采用东京大学Shibata教授团队提出的一组基于方向边缘对图像和视频中关键特征进行提取和表示的方法进行样本图片特征提取。其中Yagi博士等提出的投影主要边缘分布(projected prcipal-edge distribution,简称PPED)特征[7]是一种较优的全局特征表示方法,能够将分辨率为64×64的图像(或图像的局部区域)通过1个64维的特征向量进行表示。相比于其他全局特征提取算法,Yagi博士等提出的PPED特征提取方法具有提取速度快、获取的向量维度较低且在硬件电路上的实现比较容易等优点。
算法的具体实现包括图片的预处理、特征向量的计算、特征向量的滤波等步骤。
1.2.1 三七图片预处理 图像在进行特征提取前需进行预处理,这里主要是将其转化为分辨率64×64的灰度图像。图1为三七黑斑病叶片的原图像,图2为经过上述处理后的图像。
1.2.2 边缘检测
1.2.2.1 给定模板卷积 为检测4个方向的边缘信息,这里给定了水平、垂直、正负45°方向的卷积模板(图3)。依次用卷积模板与目标图像中的每个5×5区域进行卷积运算,对于图像边缘的像素,为了方便卷积运算,可以把图像分辨率扩展为68×68,多余的部分都补充为0。4个方向的模板都卷积完成后,即可得到4个方向上包含边缘信息的矩阵。图4为卷积后的输出图像。
1.2.2.2 动态阈值 利用阈值运算法(阈值法)提取边缘检测出来的形状,阈值的选取对最终结果有很大的影响。这里采用的是动态阈值法,具体的思路是在目标图像的5×5区域块中,分别计算各相邻像素水平方向、垂直方向数值差的绝对值。计算完毕后,可以得到40个值,然后求出这40个值的中值(t),该中指即为动态阈值。1个点与4个方向的模板卷积后得到4个值,分别记为b、c、d、e,用max_con表示4个值中的最大值。当max_con大于t时,则最大值所在方向的对应值设为1,其他方向为0;当max_con小于t时,则4个方向的值都设为0,最终可以得到4个对应值都是1或0、分辨率为64×64的矩阵,4个矩阵分别用Br、Cr、Dr、Er来表示,图5为动态阈值后的图像。
1.2.3 特征向量计算
1.2.3.1 水平方向 把Br的每行元素相加得到64个数据,用cCrPositive 45表示,再把这64个数据中连续的4个数据相加得到16个数据,存入bBrTemp。
1.2.3.2 垂直方向 把Dr的每行元素相加得到64个数据,再把这64个数据中连续的4个数据相加得到16个数据,存入dDrTemp。
1.2.3.3 正45°方向 该方向的处理比水平方向和垂直方向复杂。把正45°方向的所有数据相加,得到127个数据,存入positive45中,并采用公式(1)进行数据处理,公式中positive45代表正45°方向投影向量,k代表向量维数。最终得到64个数据,用cCrPositive 45表示,再把64个数据中连续的4个数据相加得到16个数据,存入cCrTemp。
cCrPositive45(k)=positive45(2×k)/2+positive45(2×k+1)+prositive45(2×k+2)/2;
k=0 ∶63;
positive45(0)=positive45(128)=0。
(1)
1.2.3.4 负45°方向 处理过程和正45°方向类似,最后把处理完的数据存入eErTemp中。最终得到的特征向量如图6所示。
1.2.4 特征向量滤波 由于向量中的高频成分可影响图像匹配时的准确性,因此要对不同方向的特征向量进行滤波处理。滤波时有2种选择,一种是只对水平和垂直方向的向量进行滤波;另一种是完全滤波,即对4个方向的特征向量都进行滤波处理。经过对比试验,完全滤波的效果更佳。对特征向量进行滤波后的结果如图7所示。
以水平方向为例,滤波后的值用bFilter表示,其滤波公式为
bFilter(k)=bBrTemp(k-1)/4+bBrTemp(k)/2+bBrTemp(k+1)/4;
k=1 ∶16;
bBrTemp(0)=bBrTemp(17)=0。
(2)
通过投影主要边缘分布方法提取出图像的特征向量后,利用机器学习中的聚类算法来区分不同特征的图像。学习分为有监督学习和无监督学习,聚类算法属于无监督学习。聚类算法的实质是对未知所属类数据进行分组,将相似的数据分为同一组,不相似的数据在不同组。k-means算法是聚类算法的典型代表,该算法计算聚类的相似度是基于簇中对象的平均值来进行的[8-10]。
1.3.1k-means 本研究使用k-means算法识别三七病斑的具体步骤为:
(1)从120个三七病斑特征向量中,任意选取2个向量作为初始中心点;
(2)分别计算剩余118个向量到这2个中心点的距离d,本研究使用欧几里得距离,其计算公式为
(3)
(3)找到每个向量的最小距离d,将其归入到与中心点相同的簇中;
(4)遍历完所有向量后,重新选择每个簇的中心点;
(5)重复步骤(2)、(3)、(4),这个过程循环进行,直到最后1次选择的中心点和倒数第2次选择的中心点相同。
1.3.2k-means++ 由于k-means聚类算法的初始中心点是随机选取,所以聚类的结果属于局部最优值。而Arthur等提出的k-means++算法[11-13],可以很好地解决这个问题,该方法改进了初始中心点的选取方法,使聚类结果可以获取全局最优值。k-means++算法的基本步骤:
(1)从给定数据集X中随机选取1个簇中心点A1;
(3)重复执行步骤(2),直到k个聚类都被选完为止;
(4)以选取簇中心点使用k-means算法进行聚类。
算法的本质是在选择初始簇中心时,选择距离绝对值最大的向量作为初始簇中心点。本研究在使用k-means++算法的过程中首先从输入的120个特征向量中随机选择1个向量作为第1个簇中心点,对于其他119个特征向量,计算与第1个簇中心点的距离D,选择较大距离D的向量作为第2个簇中心点,使用这2个簇中心点运行标准的k-means算法。
图像中包含大量的信息,对图像进行处理时,为方便处理,都需要通过某种方式来提取图像信息中最能代表该图像独特特征的信息,同时去除掉大量冗余的信息。这样在后序的处理过程中就可以节省大量的资源,从而快速提高数据处理的速度。特征提取是图像处理中的第1步,选取合适的特征进行提取和特征表述算法对于后序的处理有着至关重要的作用。将使用PPED特征提取方法提取的2种类型的病斑特征向量图进行对比,由图8可以看出,此算法可将分辨率 64×64的图片用64维特征向量表示。
为避免结果的随机性,确保试验的准确性和可靠性,试验分4组进行,其中前3组由每类三七图片各选20张组成,最后1组把所有的三七图片进行分类识别,最终的试验结果见表1。由表1可知,每组的识别率都在80%以上,其中黑斑病的平均识别率为85.825%,圆斑病的平均识别率为 90.425%,说明本算法在三七病斑的分类识别上有良好的效果。
表1 不同样本组的识别结果
本研究通过对三七的雨季常见病(黑斑病,圆斑病)图片进行采集,并采用机器视觉的方法对这2种病进行识别,解决了传统人工识别时效性差的缺点,为三七黑斑病和圆斑病的快速识别提供了一种有效的方法和途径。
使用投影主要边缘分布(PPED)特征法提取三七病斑的特征向量,与传统的特征提取方法相比,PPED特征提取和表示方法的运算复杂度低,特征的辨识能力强,适用于硬件电路上的运算。
使用结合k-means++的k-means算法进行病斑识别,平均识别率为85.825%,达到了较好的识别效果。
[1]林良斌,刘彦中,杨志新. 植物基因工程在应用中存在的问题及对策[J]. 云南农业大学学报,2001,16(2):144-147.
[2]王志敏,皮自聪,罗万东,等. 三七圆斑病和黑斑病及其防治[J]. 农业与技术,2016,36(1):49-51,53.
[3]杨 涛,陈昱君,段承俐,等. 三七黑斑病抗性人工鉴定方法的建立[J]. 云南农业大学学报,2006,21(5):549-553,559.
[4]赖军臣,李少昆,明 博,等. 作物病害机器视觉诊断研究进展[J]. 中国农业科学,2009,42(4):1215-1221.
[5]Camargo A,Smith J S. An image-processing based algorithm to automatically identify plant disease visual symptoms[J]. Biosystems Engineering,2009,102(1):9-21.
[6]刘 涛,仲晓春,孙成明. 基于计算机视觉的水稻叶部病害识别研究[J]. 中国农业科学,2014,47(4):664-674.
[7]Yagi M,Shibata T. An image representation algorithm compatible with neural-associative-processor-based hardware recognition systems[J]. IEEE Trans Neural Networks,2003,14(5):1144-1161.
[8]Zhu Q,Yeh M C,Cheng K T,et al. Fast human detection using a cascade of histograms of oriented gradients[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006:1491-1498.
[9]Shi C,Yang J,Han Y,et al. A 1000 fps vision chip based on a dynamically reconfigurable hybrid architecture comprising a PE array processor and self-organizing map neural network[J]. IEEE Journal of Solid-State Circuits,2014,49(9):2067-2082.
[10]Kanungo T,Mount D M,Netanyahu N S,et al. An efficientk-means clustering algorithm:analysis and implementation[J]. IEEE Transactions on Pattern Analysis and Machine Inbelligence,2002,24(7):881-892.
[11]Arthur D,Vassilvitskii S.k-means++:the advantages of careful seeding[C]. Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms,2007:1027-1035.
[12]岑梓源,李 彬,田联房. 基于k-means++聚类的体绘制高维传递函数设计方法[J]. 计算机应用,2012,32(12):3404-3407.
[13]邓继忠,李 敏,袁之报,等. 基于图像识别的小麦腥黑穗病害特征提取与分类[J]. 农业工程学报,2012,28(3):172-176.