基于形状特征和支持向量机(SVM)的茶叶病害识别方法

2021-06-25 06:31周文玉
贵州农业科学 2021年4期
关键词:炭疽病识别率病斑

陈 荣, 李 旺, 周文玉

(1.铜仁学院 大数据学院, 贵州 铜仁 554300; 2.铜仁市为拓网络技术有限公司, 贵州 铜仁 554300)

0 引言

【研究意义】中国是茶叶大国,2019年中国茶产业的总产量、总产值、内销量、内销额、出口量和出口额等多项指标均创历史新高,茶产业助力精准扶贫的主力军作用进一步凸显[1]。随着社会经济的快速发展,消费者的生活水平不断提高,其对茶叶的质量要求越来越高。同时,茶产业的转型升级也需要进一步提高茶叶质量,促进茶叶品牌和产品市场竞争力的提升。病害是影响茶叶质量的主要因素之一,茶农对茶叶病害的鉴别仍主要依靠自身经验[2],受限于其主观性、局限性及模糊性,无法有效识别茶叶病害,影响茶叶病害防治效果。因此,探索快速准确识别茶叶病害的技术手段,为及时开展科学防治提供支撑,有利于保障茶叶质量,进而促进茶产业的可持续发展。【前人研究进展】近年来,随着机器学习技术的发展,已有应用机器学习技术识别茶叶病害的研究。王佳平[3]以茶叶病害中较为常见的茶白星病、茶褐色叶斑病和茶云纹叶枯病为研究对象,运用BP神经网络和支持向量机(Support Vector Machine,SVM)原理提出了基于图像特征的茶叶病害分类识别方法。张帅堂[4]利用茶叶病害的高光谱数据,分别构建了识别茶炭疽病、茶赤叶斑病、茶白星病的支持向量机、随机森林和BP神经网络模型。黄太远等[5]以茶炭疽病、茶饼病、茶白星病作为研究对象,对茶叶病害图像进行处理和特征提取,运用支持向量机方法进行分类识别。孟树林[6]利用茶赤叶斑病、茶圆赤星病、茶黑煤病、茶炭疽病的图像数据集,提出了基于多特征优化和改进关系网络的2种茶叶病害识别算法。吴昊昱[7]提出了一种基于支持向量机和深度网络的小样本下自然场景图像中茶叶病害识别方法。【研究切入点】贵州是我国主要的茶叶产区之一,茶产业是贵州重点发展的十二大产业之一,近年来规模化和标准化发展迅速,但鲜见以贵州茶区为研究区,探索当地茶叶病害智能识别方法的报道。【拟解决的关键问题】针对贵州茶区茶叶常见病害,采用图像处理技术提取不同茶叶病害病斑的形状特征,运用支持向量机原理对茶叶病害进行分类识别,探索茶叶病害正确识别率较高的机器学习方法,为提高茶叶病害识别的准确性,推动茶叶病害诊断的数字化发展提供参考。

1 材料与方法

1.1 茶叶病害图像获取与处理

根据专家建议,卯时茶叶生长旺盛、易于发现病症,是采集茶叶病害图像的最佳时期,因而于早晨7:00左右、自然光照条件下斜对茶叶50°视角,在贵州省梵净山区紫薇茶场,采用Canon G35X110Z数码相机采集茶炭疽病、茶饼病和茶白星病3种较为常见的茶叶病害图像,每种病害60幅,共180幅。每幅图像分辨率为2 200×1 836像素,存储格式为JPG。

为得到清晰的病害特征,以提高后续分类识别的准确率,从每种病害图像中分别选取包含病斑的子图像80幅(90×90 dpi),采用MATLAB 8.0的图像处理工具箱对每幅子图像进行处理:1) 将彩色图像灰度化;2) 中值滤波去除图像噪声,阈值分割病斑;3)对分割处理后可能存在的孔洞进行填充;4)对分割处理后存在的无关小对象进行去除;5)对病斑轮廓存在的毛刺进行数学形态学处理,优化分割区域使其变得光滑(图1)。

图1 茶叶病害子图像的不同处理结果

1.2 茶叶病害形状特征的构造与提取

根据不同茶叶病害因其致病机理不同而具有的不同形状特征进行识别。采用MATLAB 8.0计算处理后每种茶叶病害图像的以下8个形状特征参数值,并进行归一化,以减少不同形状特征参数因取值范围不一影响后续对茶叶病害的识别。结果如表1所示。

表1 归一化处理后的茶叶病害特征值

1) 病斑面积(S)。即病斑区域的像素个数总和。

2) 周长(L)。病斑区域的外边界所有像素的中心距离之和。

3) 外接矩形和外接椭圆面积(Sc)。外接矩形是包含病斑的最小面积矩形;外接椭圆是包含病斑的最小面积椭圆。

4) 复杂性(f1)。其是单位面积的周长大小,描述了病斑的复杂程度,值越大,表明病斑越复杂。计算公式

(1)

5) 伸长度(f2)。其是外界矩形的宽与长的比值,值越小,表明病斑越细长。计算公式:

(2)

式中,a和b分别表示病斑外接矩形的宽和长。

6) 矩形度(f3)。面积与外接矩形面积的比值,值越接近1,表明病斑越接近于矩形。计算公式:

(3)

7) 圆度(f4)。单位面积周长的大小;值越大,表明病斑越接近于圆形。计算公式:

(4)

8) 面积凹凸比(f5)。病斑面积与最小外接凸多边形面积的比值,描述病斑的凹凸性。计算公式:

(5)

1.3 基于形状特征的茶叶病害识别方法

1.3.1 SVM算法模型 支持向量机(SVM)是VAPNIK提出的一种分类性能好的模式识别技术,能够有效解决小样本、高维、非线性等方面的识别问题[8-13]。设线性可分的样本集{(xi,yi),i=1, 2, …,N;j=1, 2}可被1个分类线(二维空间)或分类面(多维空间)分开,则称为线性可分,且可用线性函数分开。如图2所示,方形和圆形分别代表两类不同样本,H为分类线,H1和H2分别为平行于H且距离样本最近的分类线,H1和H2的垂直距离为分类间隔。若分类间隔越大,则推广能力越好,使分类间隔最大的分类线(面)为最优分类线(面)。

图2 不同情况下的SVM分类识别模型

对于线性不可分的情况,为近似实现可分,允许个别样本分类错误,权衡考虑最大分类间隔和最小错分样本数,引入松弛变量ξi和惩罚因子C 2个参数,最终求出分类判决函数。对于非线性可分的情况,通过不同的内积核函数将低维空间中的线性不可分问题转换为高维空间中的线性可分问题,在高维中间中求最优分类面(图2)。最终的分类判决函数[14-18]:

式中,a*为支持向量对应的拉格朗日乘数,b*为分类阈值,x为待分类的测试样本,xi(i=1,2,…,N)为N个训练样本,SV为支持向量的集合。K(xi,y)为核函数,其主要有以下类型[19-22]:

线性核函数(Linear):

K(x,y)=x·y

多项式核函数(Polynomial):

K(x,y)=[γ(x·y)+c]d

式中,d为确定映射空间的维度,c为常量。

径向基核函数(RBF):

K(x,y)=exp(-γ‖x-y‖2)

Sigmoid核函数:

K(x,y)=tanh[γ(x·y)+c]

式中,c为常量。

依次以上述8个单一形状特征作为特征参数,每种病害的形状特征归一化数据随机选取70%的记录作为训练样本、30%的记录作为测试样本,采用线性核函数,设松弛变量ξi=0.1、惩罚因子C=10,建立SVM进行基于单一形状特征的茶叶病害分类识别。另外,由于不同的内积核函数代表不同的SVM性能,影响其对茶叶病害的正确识别率,为筛选正确识别率较高的SVM,同样从每种病害的形状特征数据中随机选取70%的记录作为训练样本、30%的记录作为测试样本,组合复杂性、伸长度、矩形度、圆度、面积凹凸比5个形状特征参数,分别采用Linear核函数、Polynomial核函数、RBF核函数、Sigmoid核函数建立SVM进行基于组合形状特征的茶叶病害分类识别。其中:设松弛变量ξi=0.2、惩罚因子C=12;Polynomial核函数中d=3,γ=1,c=1;RBF核函数中γ=3;Sigmoid核函数中γ=0.3,c=1。

1.3.2 SVM多分类识别器的建立 SVM为二分器,只能用于两类样本的识别,为解决多类样本的识别问题,采用投票最大策略建立SVM多分类识别器。

将茶炭疽病、茶饼病和茶白星病3类样本两两组成训练集,得到3个SVM二分类器:(茶炭疽病,茶饼病)、(茶炭疽病,茶白星病)、(茶饼病,茶白星病)。

将茶炭疽病、茶饼病和茶白星病3类样本的票数初始化为0。

将测试样本x使用(茶炭疽病,茶饼病)分类,若分类器将x判定为茶炭疽病,则茶炭疽病的票数增1,否则茶饼病的票数增1;将测试样本x使用(茶炭疽病,茶白星病)分类,若分类器将x判定为茶炭疽病,则茶炭疽病的票数增1,否则茶白星病的票数增1;将测试样本x使用(茶饼病,茶白星病)分类,若分类器将x判定为茶饼病,则茶饼病的票数增1,否则茶白星病的票数增1。

计算将测试样本x分别判定为茶炭疽病、茶饼病和茶白星病的票数,根据票数最大的分类结果,最终判定测试样本x的病害类型。

2 结果与分析

2.1 基于单一形状特征的SVM对茶叶病害的正确识别率

从表2看出,面积、周长、外接矩形和外接椭圆面积作为特征参数时,基于单一形状特征的SVM对3种茶叶病害的正确识别率较低,均在65%以下;复杂性、伸长度、矩形度、圆度、面积凹凸比作为特征参数时,相应SVM对3种茶叶病害的正确识别率均在63.33%以上,且均高于面积、周长、外接矩形和外接椭圆面积作为特征参数时对同一病害的正确识别率。原因是不同病害的面积、周长、外接图形面积可能相同。因此,选取形状特征时应考虑该形状特征是否具有平移、旋转、缩放等不变的性质。面积、周长、外接图形面积并不具备上述特性,因而不适合作为进行茶叶病害分类识别的单一形状特征参数。对于采用单一形状特征参数的SVM,可选取复杂性、伸长度、矩形度、圆度、面积凹凸比作为特征参数,但综合看,此类SVM对3种茶叶病害的正确识别率仍然不高,均在82%以下。

表2 基于单一形状特征的SVM对3种茶叶病害的正确识别率

2.2 基于组合形状特征的SVM对茶叶病害的正确识别率

从表3看出,与基于单一形状特征的SVM相比,组合复杂性、伸长度、矩形度、圆度、面积凹凸比5个形状特征参数的SVM对3种茶叶病害的正确识别率明显提高,对单一病害的正确识别率均在80%以上,总识别率在83%以上。表明,对于茶炭疽病、茶饼病和茶白星病的分类识别,应选择组合形状特征的SVM。

表3 基于组合形状特征的不同核函数类型SVM对3种茶叶病害的识别率

比较不同核函数SVM对3种茶叶病害的识别率,采用Linear核函数的SVM对3种茶叶病害的总识别率最高,为90%;采用Polynomial核函数和Sigmoid核函数的次之,分别为88.00%和86.05%;采用RBF核函数的最低,为83.33%。表明,采用Linear核函数的SVM对3种茶叶病害的分类识别性能较好,比较适于茶炭疽病、茶饼病和茶白星病的分类识别。

3 讨论

茶叶病害智能识别的基本原理是从病害图像中提取病害特征参数建立数据集,在特定算法下对数据集进行机器学习训练,进而对具有不同特征的病害实现识别。在识别对象上,以茶炭疽病、茶饼病和茶白星病为主[3-6],识别方法主要基于支持向量机[5-7]和BP神经网络算法[4]。本研究采用不同核函数的支持向量机作为分类器识别茶炭疽病、茶饼病和茶白星病,总识别率达90%,与黄太远等[5]运用支持向量机对相同病害的识别率相近。对于特定病害的识别,研究得出,基于Linear核函数的支持向量机对茶白星病的正确识别率较高,达93%,与王佳平等[3-4]的研究结论一致。除茶白星病外,王佳平[3]研究表明,支持向量机对茶褐色叶斑病和茶云纹叶枯病的识别率低于BP神经网络算法。张帅堂[4]研究发现,通过特征组合和特征降维,可提高支持向量机对茶叶斑病、茶炭疽病和茶白星病的识别率。孟树林[6]也指出,采用多特征优化算法对茶叶病害图像特征进行处理,可提高梯度提升树算法对茶赤叶斑病和茶圆赤星病的识别率。可见,对不同茶叶病害的识别,包括支持向量机在内的各种算法有其一定的适用对象,但对茶叶病害特征的选择、图像提取和数据处理,是提高各种算法识别率的关键。

本研究仅针对茶炭疽病、茶饼病和茶白星病3种叶部病害,以叶部病害形状特征对其进行识别,也未考虑病害的颜色、纹理等特征。由于茶叶病害种类多、症状复杂,今后应进一步针对更多茶叶病害种类,如根、茎病害,融合更多病害特征进行研究,以扩展识别方法的适用性,同时进一步提高识别准确率。

4 结论

应用图像处理技术和SVM对铜仁茶区常见的茶炭疽病、茶饼病和茶白星病进行识别,以复杂性、伸长度、矩形度、圆度、面积凹凸比作为单一特征时的正确识别率明显高于面积、周长、外接矩形和外接椭圆面积;以复杂性、伸长度、矩形度、圆度、面积凹凸比作为组合特征时的正确识别率明显高于单一特征下的正确识别率,采用Linear核函数的SVM总识别率最高,分类性能优。

猜你喜欢
炭疽病识别率病斑
苦瓜长“雀斑” 警惕炭疽病
草莓育苗炭疽病防治关键因子研究
档案数字化过程中OCR技术的应用分析
套袋对柠檬果实外观品质的影响
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
Ophiognomonia castaneae协同板栗褐缘叶枯病病原菌致病作用的研究
人工智能现状和发展
轻松治愈花斑癣
轻松治癒花斑癣