基于机器学习的农业害虫识别与分类

2024-01-16 10:22
农业灾害研究 2023年10期
关键词:特征提取纹理分类器

陈 旸

漳州职业技术学院 文智能制造学院,福建漳州 363000

计算机视觉在植物病虫害识别、品种检测等农业领域的应用越来越广泛[1-2]。农业害虫影响作物生长,导致作物产量下降,因此农作物生长早期的虫害防治十分重要。传统防治虫害技术的局限性较大,人工观测方法很难获得不同类型作物的害虫类型、害虫特征和种群密度等准确信息。为了突破这些局限性,利用计算机视觉技术,如图像处理、机器学习算法检测害虫攻击,在小麦、大豆和水稻等作物害虫防控方面发挥了巨大作用[3]。

在图像处理中使用特征提取和分类算法对害虫进行自动识别和分类[4]。有关学者提出了一种基于形状和颜色特征的昆虫自动识别方法识别蝗虫和蝴蝶。HOG特征已成功用于行人检测、人脸识别和昆虫检测[5]。使用HOG的最大稳定极值区(MSER)算法在麦田中检测不同颜色和密度的蚜虫,从蚜虫的雄性和雌性训练样本中提取HOG特征,提高了蚜虫检测的准确性。

利用机器学习处理多维害虫特征数据,提取有效信息,可以提高对外观相似害虫的分类精度。利用图像处理技术从害虫图像中提取特征,并利用机器学习算法建立分类模型。分析不同特征对害虫的分类作用,利用基础分类器和集成分类器对害虫分类系统进行了不同特征组合的训练。

1 检测方案

应用计算机视觉技术识别和分类不同害虫,分为图像采集和预处理、特征提取、分类、多数投票和分类结果评价等阶段。基础分类器和集成分类器等机器学习算法分别应用于不同的特征组合,最后采用多数投票策略提高分类结果的准确性。应用集成分类器从害虫图像中提取合适的特征,提高了分类精度,有助于农民防控虫害,提高生产力。

1.1 图像采集和预处理

研究使用的数据集来自中国科学院合肥物质科学研究院农业病虫害研究图库,利用水稻等农作物的害虫图像数据集对不同的害虫种类进行分类。然后对害虫图像进行预处理,重新调整至300×255像素大小进行特征提取,部分害虫样本图像见图1。

图1 部分害虫样本图像

1.2 特征提取

特征包含害虫图像的纹理和颜色等信息。从害虫图像中提取了最显著的纹理、颜色、HOG和GIST特征,并由这些特征组合形成特征向量。

1.2.1 纹理特征提取表面纹理是昆虫分类和识别的重要因素。GLCM(灰度共生矩阵)是一种提取纹理特征的统计方法,统计分析灰度值为“x”的像素及其具有一定空间关系的灰度值为“y”的像素在指定区域出现的次数。由于灰度共生矩阵的数据量较大,一般不直接作为区分纹理的特征,而是基于其构建的一些统计量作为纹理分类特征。此处采用3种基于灰度共生矩阵计算而来的统计量,即能量A、熵E、对比度C作为二阶统计测度:

1.2.2 颜色特征提取使用颜色直方图从害虫图像中提取颜色特征。从预处理后的RGB彩色害虫图像中提取出单个的红、绿、蓝通道,获得3个独立的二维矩阵,每个颜色通道对应1个。数据集图像的RGB颜色通道见图2。利用MATLAB中直方图函数,确定红、绿、蓝通道的直方图计数值,并将其作为昆虫图像的3个主要颜色特征。

图2 RGB颜色通道

1.2.3 HOG特征提取HOG(定向梯度直方图)特征提取分3个阶段进行,即梯度计算、直方图生成和块归一化。将昆虫图像划分为16×16像素,对图像进行重叠分块,共分成105块,每个块包含2×2个单元格,大小为8×8像素,确定每个块的梯度方向和大小:

式(4)中,Gx和Gy分别表示像素点沿图像x和y方向的梯度,则梯度的大小为:

梯度方向为:

将梯度方向分布至9个角度区间,并计算每个块的梯度直方图,生成9维向量。将所有块的梯度直方图向量作归一化处理并进行级联,生成包含3 780个特征的向量。

1.2.4 GIST特征提取GIST使用全局特征信息对场景进行识别与分类,采用开放度、粗糙度和险峻度等5个描述指标表示场景的空间包络特征,不需要对图像进行分割和局部特征提取,可以实现快速场景识别与分类。GIST描述符是全局图像描述符,图像搜索的效率极高,能提升缩放、裁剪和压缩算法的精度。GIST特征的计算方法是将昆虫图像与32个Gabor滤波器在4个卷积尺度、8个方向上进行卷积,生成32个特征图。每个特征图被划分为16个区域(4×4网格),并为每个区域确定特征图的平均值。将所有32个特征图的16个平均值连接起来,得到1个512(16×32=512)的GIST特征:

式(7)中,gmn(x,y)表示具备卷积尺度为m,方向为n的Gabor函数,cat表示滤波器组。

1.3 分类算法

昆虫分类中最常用的机器学习算法是LDA、NB、SVM、决策树、RF、神经网络和最近邻算法。根据从昆虫图像中提取的纹理、颜色、HOG和GIST等特征对昆虫进行分类。所有这些特征集形成一个特征向量,并应用于分类器以识别昆虫的种类。所使用的基本分类器是NB、SVM、KNN和MLP,RF算法、装袋算法和XGBoost算法作为集成分类器。与基础分类器相比,集成分类器结合多个基础分类器,提高了分类精度。

1.4 多数投票策略

对基础分类器和集成分类器的结果采用多数投票策略优化,以提高分类性能。对于不同的分类器算法h1(X),h2(X),…,hn(X)。多数投票策略综合所有单个分类器结果C(X)=BM{h1(X),h2(X),…,hn(X)},将得票最多的分类结果作为最终的分类结果。

2 试验结果与分析

2.1 试验数据集

利用害虫数据集进行分类性能测试,采用图像增强技术扩大数据集,将害虫数据集分为70%的训练数据集和30%的测试数据集。表1描述了所有害虫数据集的详细信息。

表1 害虫数据集详细信息

2.2 在不同特征组合下基础分类器和集成分类器的分类性能

从害虫图像中提取3个纹理特征(对比度、能量、熵)、3个颜色特征(红、绿、蓝通道的最大直方图计数)、HOG和GIST特征,并将这些特征应用于分类器进行训练。所有的特征提取方法都在MATLAB 2017a中执行,并选择SKLEARN机器学习框架进行分类。分别应用4个基础分类器(NB、SVM、KNN和MLP)和3个集成分类器(RF、Bagging和XGBoost)对害虫进行分类。将昆虫数据集分为k个子组,其中,1个子组作为测试集,其他k-1个子组作为训练集。

2.2.1 基础分类器分类性能分析首先应用NB、SVM、KNN和MLP等基础分类器针对害虫图像的纹理、颜色、HOG和GIST特征进行分类。单一特征(纹理、颜色、HOG和GIST)进行分类比较困难,因为其结果之间的区别不显著,所以综合考虑多种特征组合。通过对比,KNN算法和MLP算法对纹理+颜色特征的分类效果较好,而SVM对数据集HOG特征的识别效果优于其他分类器(表2)。HOG和GIST的特征组合提高了分类器的区分度,这2种特征对害虫分类的价值较高。这一结果证实了使用低水平特征可以提供有效的空间尺度信息,而无需从数据集进行分割。因此,GIST能够快速体现局部特征,提高对害虫的识别能力。

表2 基础分类器分类结果

2.2.2 集成分类器分类性能分析为了获得更好的分类精度,使用RF、Bagging和XGBoost算法对害虫数据集进行分类。在RF方法中,选择100棵随机决策树,采用快速决策树学习器(REPTree)和J48决策树分别作为Bagging学习算法和XGBoost算法的基础学习算法。从表3可以看出,在不同的特征组合下,RF分类器均优于其他2个集成分类器(Bagging和XGBoost)。此外,RF分类器还可以在更短的时间内完成大量特征数据的处理。相比之下,Bagging算法的分类准确率比其他2种算法都低。

表3 集成分类器分类结果

2.3 多数投票策略性能分析

对所有基础分类器和集成分类器的组合特征分类结果进行多数投票。从表4可以看出,当结合RF、Bagging和XGBoost等集成分类器时,多数投票结果具有更高的分类精度,特征组合中包含的特征越多,多数投票的分类结果越好。

表4 多数投票决策分类结果

3 结论

针对害虫数据集,开发了一种利用机器学习算法对农业害虫进行识别和分类的方法。利用基础分类器(NB、SVM、KNN和MLP)和集成分类器(RF、Bagag和XGBoost)分析了纹理、颜色、HOG和GIST等所有特征的不同组合,通过对基础分类器和集成分类器进行多数投票,提高了分类精度。

试验结果证实,在集成分类器中,多数投票的性能优于以往的方法。结合纹理、颜色、HOG和GIST等特征,多数投票策略的结果正确率达到92.09%。由于同种类害虫的分类特征相似,区分同种类害虫比较困难,因此需要更多的训练样本进行训练。试验结果证明了在集成分类器中进行多数投票的有效性,可以为农作物种植的早期虫害防控提供可靠的判断依据,深度学习算法将用于训练更高效的害虫识别模型,以提高实时害虫数据的分类性能。

猜你喜欢
特征提取纹理分类器
基于BM3D的复杂纹理区域图像去噪
使用纹理叠加添加艺术画特效
基于Daubechies(dbN)的飞行器音频特征提取
BP-GA光照分类器在车道线识别中的应用
TEXTURE ON TEXTURE质地上的纹理
Bagging RCSP脑电特征提取算法
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
消除凹凸纹理有妙招!
基于MED和循环域解调的多故障特征提取