图像特征和样本量对水稻害虫识别结果的影响

2018-07-20 01:13马鹏鹏周爱明姚青杨保军唐健潘修强
中国水稻科学 2018年4期
关键词:训练样本样本量识别率

马鹏鹏 周爱明 姚青, 杨保军 唐健, 潘修强



图像特征和样本量对水稻害虫识别结果的影响

马鹏鹏1周爱明1姚青1,*杨保军2唐健2,*潘修强3

(1浙江理工大学 信息学院, 杭州 310018;2中国水稻研究所 水稻生物学国家重点实验室, 杭州 310006;3浙江工贸职业技术学院 信息与传媒分院, 浙江 温州 325002;*通讯联系人, E-mail: q-yao@zstu.edu.cn; tangjian@caas.net)

【目的】在传统的模式识别分类中,从大量的干扰物体中识别出目标物体,图像特征参数的选择和不同训练样本数量的比例对目标物体的识别结果有着较大的影响。研究的目的在于明晰不同的图像特征和样本量对水稻灯诱害虫识别结果的影响。【方法】根据5种目标害虫体型大小,将水稻灯诱昆虫分成大型昆虫和小型昆虫。研究水稻昆虫图像的全局特征、局部特征和不同特征融合对水稻目标害虫识别结果的影响;研究基于小样本条件,选择不同训练样本比例对水稻目标害虫识别结果的影响。【结果】当非目标昆虫样本量约为目标害虫样本量的4倍时,基于全局特征和HOG特征融合训练得到的支持向量机分类器识别水稻3种大型害虫,可获得91.4%的识别率和8.6%的误检率;当非目标昆虫样本量约为目标害虫样本量的2倍左右时,基于全局特征的支持向量机分类器识别水稻2种小型害虫,可获得94.9%的识别率和4.9%的误检率。【结论】针对小样本数据,从大量非目标中识别出目标物体,选择合适的特征和设置合理的训练样本比例可获得较好的目标识别结果。

水稻害虫;模式识别;全局特征;局部特征;训练样本;支持向量机

随着图像处理和机器学习理论的发展与应用,基于图像的昆虫自动识别技术取得了很大的进展。昆虫图像识别方法的研究步骤一般包括昆虫图像采集、图像预处理、昆虫特征提取与优化、分类器的训练和测试等;其中,昆虫特征的提取与优化和训练样本的选择对昆虫识别结果的影响很大。研究对象不同,选取的特征也不一样。用于昆虫识别的特征主要包括全局特征、局部特征或多特征进行融合。刘芳等[1]提取了蝴蝶正面和反面的颜色特征值,结合神经网络实现了对蝴蝶的自动识别,准确率达95.2%。于新文等[2]提取了6种几何形状特征,利用判别函数识别3种昆虫,准确率达100%;张红涛等[3]提取了7个形态学特征,对稻纵卷叶螟等9种害虫图像进行自动识别。赵三琴等[4]将归一化傅里叶描述子用于稻飞虱形状的识别,根据稻飞虱形状特征系数基准值,将灯下稻飞虱与其他昆虫分开。Zhao等[5]基于Gabor纹理特征描述子的纹理特征,对6种不同形态的害虫图像进行识别,取得较好效果。Larios等[6]提取石蝇的PCBR(principal curvature- basedregion detector)检测器识别石蝇幼虫,有效地区分出两种难以辨别的石蝇。Wen等[7]建立了基于全局特征和局部特征的组合模型,实现了果树害虫的分类识别。李凡[8]利用图像轮廓特征和灰度共生矩阵特征,训练支持向量机(support vector machine, SVM)分类器来识别50种蝴蝶,准确率达到98.0%。胡永强等[9]利用图像颜色、形态和纹理,结合稀疏表达来识别5种油菜害虫,识别率为80.7%。

深度学习(Deep Learning)在图像识别中表现出色,已有学者开始将卷积神经网络(convolutional neural network, CNN)应用到昆虫识别中,取得了较好的结果。Liu等[10]首先利用显著性分割方法定位害虫,然后建立CNN模型对自然环境下拍摄的12种水稻害虫进行识别,识别率高达95.1%。杨国国等[11]利用CNN模型对23种茶园主要害虫进行识别,获得了91.5%识别率。Wen等[12]提出一种基于深度学习方法的改进金字塔堆叠去噪自动编码器(improved pyramidal stacked de-noising auto-encoder, IpSDAE)模型对9种田间昆虫进行识别,识别率达98.1%。虽然深度卷积神经网络在图像识别中已取得较好的表现,但它严重依赖于大数据。

上述研究,不管是传统的模式识别方法,还是目前流行的CNN模型,在特定且有限的昆虫种类和样本中识别,均能获得较好的识别效果。实际上,自然界昆虫种类繁多,而我们的训练样本不可能囊括所有种类的昆虫,如果待识别昆虫不在训练样本集中,将被误检为已知昆虫。为了有效排除非目标,Lytle等[13]利用朴素贝叶斯模型预测待测图像的概率,并与概率阈值进行比较,实现了非目标石蝇图像的排除,分类准确率可达到96.4%。2015年,冼鼎祥等[14]则将非目标昆虫作为一类,利用昆虫图像的全局特征训练SVM分类器识别3种水稻目标害虫,获得了较高的识别率。

针对小样本数据,如何利用传统的模式识别方法,从大量的未知种类的昆虫图像中识别出某些种类的目标昆虫,是本研究的主要目的。在经典的模式识别方法中,筛选出能区分目标昆虫的图像特征是获得良好分类器的前提,这样可以减少特征维数、增强模型泛化能力、减少过拟合和提升模型的性能[15]。当非目标昆虫数量远远多于目标昆虫,目标和非目标样本量不均衡情况下,如何确定目标与非目标样本的比例以获得最优的分类器,值得进一步探讨。因此,本研究以水稻灯诱昆虫为研究对象,为了从大量的水稻灯诱昆虫图像中识别出5种目标害虫,研究不同的图像特征和设置不同数量的训练样本训练得到的SVM分类器对目标害虫识别结果的影响。

1 材料与方法

1.1 昆虫材料

利用智能虫情测报灯[16]诱集水稻昆虫。这些昆虫经远红外杀死和烘干后,被平铺于白色平台上,通过工业相机(1200万像素)采集这些昆虫图像。利用最大熵阈值分割方法[17]去噪、填充空洞、去除无效连通域、与原图进行映射等预处理方法去除背景,并用黑色背景进行填充。在这些水稻灯诱昆虫图像中,非目标昆虫约占90%以上(图1-A~B)。需要识别的水稻目标害虫包括体型较大的3种螟虫[大螟()、二化螟()和稻纵卷叶螟()]和体型较小的2种飞虱[白背飞虱()和褐飞虱()](图1-C~J)。在非目标昆虫中,有很多昆虫在颜色、形态、纹理和大小上与目标害虫有一定的相似性。统计目标害虫的像素面积,飞虱为1000~3500像素,螟虫为10 000~65 000像素。由于我们仅识别5种目标害虫,不在此范围内的昆虫将直接判为非目标。我们将面积在1000~3500像素范围内的昆虫定义为小型昆虫,在10 000~65 000像素范围内的昆虫定义为大型昆虫。因此,3种螟虫属于大型昆虫,2种飞虱属于小型昆虫。

落在平台上的目标害虫存在不同姿态。观察发现大螟、二化螟和稻纵卷叶螟可分为背面和腹面2种姿态(图1-C~H),共6类;2种飞虱,一般为侧面姿态,共2类(图1-I、J)。除了目标害虫外,其余水稻灯诱昆虫都作为负样本(图1-A、B)。当分类器输出时,每种目标螟虫的背面和腹面两种姿态被归为一类。用于训练的灯诱昆虫样本图像数量见表1。

A-大型非目标昆虫;B-小型非目标昆虫;C-大螟背面;D-大螟腹面;E-二化螟背面;F-二化螟腹面;G-稻纵卷叶螟背面;H-稻纵卷叶螟腹面;I-白背飞虱;J-褐飞虱。

Fig. 1. Rice light-trapped insect images.

为了能更好地利用图像特征,将所有的昆虫图像样本旋转摆正,即首先计算每个昆虫的最小外接矩形,将最小外接矩形旋转至垂直状态;然后计算最小外接矩形内上下两部分昆虫所占面积,根据小型测报害虫上大下小和大型测报害虫上小下大的形态特征,垂直翻转最小外接矩形使昆虫图像统一呈头朝上的状态。对摆正好的昆虫图像进行背景填充,使大型水稻昆虫图像放大到统一尺寸500×500像素,小型水稻昆虫放大到统一尺寸80×140像素。

1.2 方法

由于大型昆虫和小型昆虫在体型上差异较大,前期研究表明使用一个分类器来识别所有昆虫,效果不好。因此,将所有的昆虫样本根据昆虫面积范围分成大型昆虫样本集和小型昆虫样本集,分别进行特征提取和分类器的训练与测试。

表1 可用于训练和测试分类器的昆虫图像样本量

图像特征一般分全局特征和局部特征[18]。其中,全局特征包括颜色特征、纹理和形态特征[19];局部特征包括HOG[20]、Gabor[21]、LBP[22]、SIFT[23]、SURF[24]等。为了从大量的非目标昆虫中识别出5种目标害虫,我们选择了全局特征中基于颜色直方图的颜色特征、基于灰度共生矩阵的纹理特征、形态特征和局部特征中描述物体轮廓和形状的HOG特征、描述纹理的Gabor和LBP特征。通过不同的特征或特征组合训练SVM分类器,根据测试结果来筛选具有较好区分度的图像特征。

由于5种目标害虫样本量差异较大,而非目标样本量较多(表1)。针对不同昆虫种类训练样本量不均衡的情况,通过设置目标和非目标训练样本量的不同比例,测试不同训练样本比例对目标害虫识别结果的影响。

1.2.1 全局特征的提取

1.2.1.1 颜色特征

颜色直方图是常用的颜色特征提取和匹配的方法。对直方图进行量化可以减少特征维数,根据文献[25],分别在、、三个通道上进行非均匀量化,将量化后的颜色空间按照1∶1∶1的比例合成一维向量。提取R分量颜色均值、能量和峰度等3个特征,分别提取G、B分量的颜色均值和能量4个特征,提取分量的颜色均值、方差和能量等3个特征;共10维颜色特征向量。

1.2.1.2 纹理特征

采用基于灰度共生矩阵的统计法提取纹理特征值,根据文献[26],设定统计距离为=1,共生矩阵生成方向为=0°,45°,90°,145°,求出角二阶矩、熵、惯性矩和相关性等4个反映纹理特征的参数,求这些参数的均值和方差[27];共8维纹理特征向量。

1.2.1.3 形态特征

根据文献[14],将昆虫图像二值化,提取矩形度、长宽比、狭长度、紧凑度、似圆度、等效椭圆长短轴比,共6维特征;根据文献[28],用二阶、三阶归一化中心距构造Hu不变矩。为增强Hu矩的辨识度和鲁棒性,根据文献[29],对Hu矩加以改进,根据冗余关系选择8维不含冗余的特征。共14维形态特征训练。

1.2.2 局部特征的提取

1.2.2.1 HOG特征

在计算机视觉和图像处理中,梯度方向直方图(histograms of oriented gradients,HOG)描述子常被用于物体的检测。如果把图像看成二维离散函数,导数即为图像梯度[20]。HOG描述子将整个检测窗口划分为块(block),每一块由若干单元格(cell)组成,对单元格内像素的一维梯度方向直方图进行统计,将所有单元格内梯度方向直方图组合起来,用于描述整个图像的特征[18]。

对昆虫图像提取HOG特征,大型和小型昆虫的块大小分别为250×250和40×70像素,每个块由4个单元格构成,大型和小型昆虫每个单元格分别由125×125和20×35像素构成,采用9个bin直方图来统计每个cell的梯度信息。得到每个块内有4×9=36个梯度直方图,大型和小型昆虫的单元格分别为125×125和20×35像素,最终得到HOG特征为324维。

1.2.2.2 Gabor特征

Gabor小波对图像的边缘比较敏感,能够提供良好的方向和尺度选择特性,但对光照变化不敏感,对光照变化具有良好的适应性[30]。

提取昆虫的Gabor特征,采用5个尺度8个方向共40个Gabor滤波器对昆虫图像进行小波变换。如果将原昆虫图像分别与40个Gabor滤波器进行卷积,会得到太高的维数。为了避免维数灾难,采用双线性插值法[31]将大型昆虫图像变换为10×11像素,小型昆虫图像变换为8×13像素。然后,将40个Gabor滤波器分别与10×11和8×13像素的小图像进行卷积,获得大型和小型昆虫图像的Gabor特征维数分别为4400和4160。

1.2.2.3 LBP特征

2015年中国急性ST段抬高型心肌梗死诊断和治疗指南,2016年中国经皮冠状动脉介入治疗指南,均对抗血小板治疗增加了大量篇幅,较以前指南更加重视[1],对于STEMI指南对血小板糖蛋白(glycoprotein,GP)Ⅱb/Ⅲa受体拮抗剂在有效的双联抗血小板及抗凝治疗情况下,不推荐STEMI患者造影前常规应用GPⅡb/Ⅲa受体拮抗剂(Ⅱb,B)[2]。高危患者或造影提示血栓负荷重、未给予适当负荷量P2Y12受体抑制剂的患者可静脉使用替罗非班或依替巴肽(Ⅱa,B)。直接PCI时,冠状动脉内注射替罗非班有助于减少无复流、改善心肌微循环灌注(Ⅱb,B)。

局部二值模式(local binary pattern,LBP)是Ojala等[32]在1994年提出的一种用来描述图像局部纹理特征的算子。LBP算子定义在像素3×3邻域内,以邻域中心像素为阈值,相邻的8个像素的灰度值与邻域中心的像素值进行比较,若周围像素大于中心像素值,则该像素点的位置被标记为1,否则为0。这样,3×3邻域内的8个点经过比较可产生8位二进制数,将这8位二进制数依次排列形成一个二进制数,这个二进制数字转化为十进制数,即为中心像素的LBP值,可反映该像素周围区域的纹理信息[20]。本研究使用对LBP算子改进后的等价模式[33],在3×3领域8个采样点内提取水稻昆虫的共58维LBP特征。

1.2.4 分类器

传统的分类方法有模糊模式识别[34]、贝叶斯分类器[35]和模板匹配[36]等,这些方法都是建立在最小风险决策基础上,泛化能力较差。支持向量机(support vector machine,SVM)是建立在结构风险最小原理上、具有较好泛化能力的一种分类方法[37]。与传统的分类算法相比,SVM方法主要是利用内积核函数代替向高维空间的非线性映射,解决了线性不可分的问题,同时SVM的决策函数是由那些少数的支持向量的数据来决定而非所有的数据,大大提高了运算速率。

利用带后验概率的支持向量机[38],即利用Sigmoid函数把SVM的标准输出映射到[0,1]区间上的一个概率估计,分别对大型昆虫和小型昆虫进行判别。使用LIBSVM工具箱[39]进行分类器的训练,选择径向基函数(RBF)作为核函数,使用一对一方法组合多个二分类器;按照交叉验证机制并利用粒子群寻优(POS)算法寻找最佳的惩罚因子C和核函数中gamma参数获得最优的训练模型。

由于3种螟虫与2种飞虱体型相差较大,我们在处理的时候,利用两个分类器分别来识别螟虫和飞虱。为了得到最佳分类准确率下对应的C和gamma,通过交叉验证找到最优的惩罚因子C和RBF核函数中的参数gamma。当用于大型水稻害虫识别时,C=2048和gamma=0.03125,用于小型水稻害虫识别时C=512,gamma=0.03125,可以获得SVM分类器的最高识别率。

1.2.5 识别结果的评价参数

2 结果与分析

2.1 不同的全局特征对目标害虫识别结果的影响

针对小样本目标害虫,3种螟虫训练样本全部参与训练,并随机取1450幅大型非目标昆虫图像作为训练样本;2种飞虱训练样本量均为800,并随机取1600幅小型非目标昆虫图像作为训练样本。

表2 不同全局特征训练SVM分类器识别目标害虫的结果

表3 不同局部特征训练SVM分类器识别目标害虫的结果

提取大型昆虫和小型昆虫训练样本的颜色、纹理和形态特征,用它们及其两两组合或三个特征组合,分别训练14个SVM分类器。对测试样本集进行测试,SVM分类器对5种水稻灯诱测报害虫的平均识别率与误检率见表2。

由表2可以看出,3种全局特征对大型目标害虫的识别率从大到小依次为:形态>颜色>纹理;对小型目标害虫则表现为颜色>形态>纹理。表明颜色和形态特征比纹理特征能更有效得识别出这5种目标害虫。3种特征两两组合要比单独使用一种特征对5种目标害虫的识别率明显提高,误检率明显下降。当使用三种特征组合时,SVM分类器获得了最高的识别率和最低的误检率。

2.2 不同的局部特征对目标害虫识别结果的影响

训练样本同2.1。提取大型昆虫和小型昆虫训练样本的HOG、LBP和Gabor 3种局部特征,分别训练6个SVM分类器。对测试样本集进行测试,SVM分类器对5种水稻灯诱害虫的平均识别率与误检率见表3。

由表3可知,三种局部特征中,HOG特征识别大型和小型目标害虫表现最好,其次是Gabor特征,LBP特征识别效果最差。HOG特征是描述物体局部的轮廓和形状的,Gabor和LBP是描述物体纹理的,因此害虫的轮廓和形状相比纹理更具有辨识度。这与利用全局特征识别结果是一致的,特别是大型害虫。

2.3 全局特征和局部特征融合对目标害虫识别结果的影响

将全局特征的3种特征组合与HOG特征进行融合,用同样的训练样本训练SVM分类器,对相同的测试样本集进行测试。从表3可以看出,利用颜色+纹理+形态+HOG特征融合后训练SVM分类器获得的测试结果,对于大型目标害虫,识别率(91.4%)比利用3种全局特征组合获得的识别率(90.5%)和单独利用HOG特征获得的识别率(87.6%)要高;对于小型目标害虫,识别率(94.2%)和误检率(5.4%)虽然比单独利用HOG特征获得的结果要好很多,但稍逊于利用颜色+纹理+形态特征组合获得的识别率(94.9%)和误检率(4.9%)。

因此,针对水稻大型目标害虫识别,我们优先选用颜色+纹理+形态+HOG特征训练的SVM分类器;针对水稻小型目标害虫识别,则优先选用颜色+纹理+形态全局特征训练的SVM分类器。

2.4 不同训练样本量比例对目标害虫识别结果的影响

由于目标害虫与非目标昆虫训练样本量存在不均衡的情况,设置了不同比例的样本量组合,对大型目标害虫识别,提取颜色+纹理+形态+HOG特征训练SVM分类器;对小型目标害虫识别,提取颜色+纹理+形态特征训练SVM分类器。

表4 不同训练样本比例对大型目标害虫识别的结果

2.4.1 不同训练样本比例对大型目标害虫识别结果的影响

由表1可知,由于水稻大型目标害虫存在不同姿态,共分为6类,每类训练样本数量在330~430之间,平均为366,大型非目标昆虫样本量最多为5800。我们采用了全部的目标害虫训练样本,同时设置了7个不同样本量的非目标昆虫组合,提取颜色+纹理+形态+HOG特征训练SVM分类器。分别对同一测试集进行测试。

从表4可见,大型非目标昆虫样本量不同时,识别率和误检率也不同。当非目标样本量是每种分类目标样本量的1~3倍,目标害虫识别率均非常高,但误检率也较高。当非目标昆虫样本量继续增加时,目标害虫识别率下降,同时误检率大大降低,即非目标误检为目标害虫的比例下降,由于实际样本中,非目标昆虫远远多于目标害虫,所以必须选择较低的误检率。为了保证高识别率和低误检率,选择大型非目标昆虫样本量为1450,即约为目标样本量4倍时,识别率和误检率的综合效果达到最优。

表5 不同训练样本比例对小型目标害虫识别的结果

2.4.2 不同训练样本比例对小型目标害虫识别结果的影响

由于褐飞虱训练样本量最小,仅为800,针对白背飞虱和小型非目标昆虫,我们设定了7组不同训练样本量组合,提取颜色+纹理+形态特征训练SVM分类器,分别对同一测试集进行测试。

从表5可见,当两种飞虱样本量一样,小型非目标昆虫样本量与目标害虫样本量相同时,获得了较高的识别率,同时平均误检率也较高;当非目标昆虫是目标害虫样本量的2倍时,识别率稍微下降,但误检率下降到4.9%。随着非目标样本量继续增加,平均识别率下降较多,误检率也下降到2.7%。表明非目标昆虫样本量越多,能获得较低的误检率,但也不是越多越好,因为会导致目标害虫识别率下降。当白背飞虱1600个训练样本均参与训练,非目标样本量也为1600,飞虱识别率较高,但误检率也较高。当增加非目标昆虫样本量后,飞虱识别率明显下降,误检率变化不大。

因此,训练样本中,尽可能使目标种类样本量均等,而非目标昆虫样本数是目标害虫样本数的2倍,可获得较高的识别率和较低的误检率。这与2.4.1螟虫识别结果是不一样的。

表6 在最优图像特征参数和训练样本比例下的水稻大型害虫识别结果

2.5 在最优图像特征参数和训练样本比例下水稻害虫识别结果

针对水稻大型害虫,选择非目标昆虫样本量为1450时,提取全局特征+HOG特征,训练SVM分类器,对测试样本进行测试,获得的目标害虫混淆矩阵见表6;针对水稻小型害虫,利用全局特征,选择2种飞虱样本均为800,非目标昆虫样本为1600时,训练SVM分类器,对测试样本进行测试,获得的目标害虫混淆矩阵见表7。

表7 在最优图像特征参数和训练样本比例下的水稻小型害虫识别结果

由混淆矩阵可知,由于水稻小型昆虫训练样本数较多,获得了较高的识别率和较低的误检率。对于水稻大型害虫,大螟、稻纵卷叶螟和二化螟都获得了较高的识别准确率,而大型非目标昆虫由于种类繁多并且一部分形态特征和螟虫比较相似,导致整体识别准确率下降,误检率较高。

为了进一步说明带后验概率的支持向量分类器识别水稻害虫的能力,根据真阳性率和假阳性率分别画出水稻大型害虫和水稻小型害虫的受试者工作特征曲线(receiver operating characteristic curve)。从图2-A可以看出,水稻大型目标害虫均具有较好的识别率,但非目标的识别率较低;由于大型目标害虫样本量较小,如果增加目标样本,同时相应的增加非目标样本的数量,识别率有望提高。从图2-B中看出水稻小型害虫和非目标均获得较高的识别率,说明该分类器设计的合理性。

A-水稻大型害虫; B-水稻小型害虫。PSB-大螟;RLF-稻纵卷叶螟;SSB-二化螟;WBPH-白背飞虱;BPH-褐飞虱。NT1-大型非目标昆虫;NT2-小型非目标昆虫。

Fig. 2.Receiver operating characteristic curve of support vector machine classifiers.

3 讨论

为了从大量的水稻灯诱昆虫中识别出5种目标害虫,我们将非目标昆虫作为一类,研究了不同的图像特征参数和不同的训练样本量比例训练获得的SVM分类器对水稻目标害虫识别结果的影响。结果表明,识别水稻大型昆虫中3种螟虫,当非目标样本量约为目标样本量的4倍时,基于全局特征和HOG特征融合训练得到的SVM分类器获得了3种螟虫平均识别率为91.4%,平均误检率为8.6%;识别小型昆虫中2种飞虱,当非目标样本量约为目标样本量的2倍左右时,基于全局特征的SVM分类器识别水稻小型昆虫,获得了2种飞虱平均识别率为94.9%,平均误检率为4.9%。

在传统的模式识别中,图像特征的提取和筛选对分类器识别结果的影响很大。如何从不同的研究对象的原始图像中筛选具有较强表示能力的图像特征是智能图像处理的一个重要步骤。邓江洪等[40]针对图像分类中的特征选择问题,提出一种多特征筛选与支持向量机融合的图像分类模型,对图像多种特征进行筛选,降低了图像分类开销,并提高了图像分类性能;沙睿[41]针对单一特征在判定的算法上存在误判区域,将单一特征进行对比得到一个多特征融合的综合性算法,提高算法的准确率和鲁棒性,具有较强的适应性。本研究利用昆虫颜色、纹理和形态三种全局特征组合训练的SVM分类器可获得目标害虫更高的识别率和较低的误检率,表明全局特征的综合特征更有利于害虫的识别。局部特征中描述目标物体轮廓和形状的HOG特征对昆虫识别表现得更好。将全局特征与HOG特征融合,更有利于水稻螟虫的识别,但对小型害虫飞虱的识别没有起作用,主要是因为飞虱个体较小,其局部特征不明显。

由于采集的水稻灯诱昆虫中大量的样本属于非目标昆虫,种类繁多,个体差异较大,容易造成和目标之间的误判,故将其作为一类样本与目标害虫样本一起训练分类器。但非目标样本量并不是越多越好,需要和目标样本之间保持一定的比例,而且不同目标样本之间也需要保持在合理的比例之内,使分类器的分类识别结果达到最优。在对3种螟虫进行识别时,目标平均样本量与非目标样本量比例约为1∶4时,可保证较高的识别率和较低的误检率;超过这个比例时,识别率大大下降,而误检率大大上升。在对2种飞虱进行识别的时候,非目标样本量约是目标样本量的2倍时,可保证较高的识别率和较低的误检率;超过这个比例时,识别率大大下降。因此,在目标样本小样本情况下,为了从大量样本中识别出目标,需要保证目标害虫之间、目标害虫和非目标昆虫之间比例保持在合理的范围内,分类器才能获得较好的识别结果;否则,比例失衡会导致SVM的分类决策面发生偏移,使识别分类结果变差。

[1] 刘芳, 沈佐锐, 张建伟,杨红珍. 基于颜色特征的昆虫自动鉴定方法. 应用昆虫学报, 2008, 45(1): 150-153.

Liu F, Shen Z R, Zhang J W, Yang H Z. Automatic insect identification based on color characters., 2008, 45(1): 150-153. (in Chinese with English abstract)

[2] 于新文, 沈佐锐, 高灵旺, 李志红. 昆虫图像几何形状特征的提取技术研究. 中国农业大学学报, 2003, 8(3): 47-50.

Yu X W, Shen Z R, Gao L W, Li Z H. Feature measuring and extraction for digital image of insects., 2003, 8(3): 47-50. (in Chinese with English abstract)

[3] 张红涛, 胡玉霞, 赵明茜, 邱道尹, 张孝远, 张恒源. 田间害虫图像识别中的特征提取与分类器设计研究. 河南农业科学, 2008, 37(9): 73-75.

Zhang H T, Hu Y X, Zhao M Q, Qiu D Y, Zhang X Y, Zhang H Y. Feature Extraction and classification in the image recognition for agricultural pests., 2008, 37(9): 73-75. (in Chinese)

[4] 赵三琴, 丁为民, 刘德营. 基于傅里叶描述子的稻飞虱形状识别. 农业机械学报, 2009, 40(8): 181-184.

Zhao S Q, Ding W M, Liu D Y. Rice hopper shape recognition based on Furier descriptors., 2009, 40(8): 181-184. (in Chinese with English abstract)

[5] Zhao J, Cheng X P. Field pest identification by an improved Gabor texture segmentation scheme., 2007, 50(5): 719-723.

[6] Larios N, Deng H, Zhang W, Sarpola M, Yuen J, Paasch R, Moldenke A, Lytle D.A, Correa S.R, Mortensen E, Shapiro L G, Dietterich T G. Automated insect identification through concatenated histograms of local appearance features: Feature vector generation and region detection for deformable objects., 2008, 19(2): 105-123.

[7] Wen C, Guyer D E, Li W. Automated insect classification with combined Global and local features for orchard management//An ASABE Meeting Presentation, June 21-24, 2009Reno, Nevada: 2009.

[8] 李凡. 基于数字图像的蝴蝶种类自动识别研究. 北京:北京林业大学, 2015.

Li F. The Research on Automatic Identification of Butterfly Species Based on the Digital Image. Beijing: BeijingForestry University, 2015. (in Chinese with English abstract)

[9] 胡永强, 宋良图, 张洁, 谢成军, 李瑞. 基于稀疏表示的多特征融合害虫图像识别. 模式识别与人工智能, 2014, 27(11): 985-992.

Hu Y Q, Song L T, Zhang J, Xie C J, Li R. Pest Image recognition of multi-feature fusion based on sparse representation., 2014, 27(11): 985-992. (in Chinese with English abstract)

[10] Liu Z, Gao J, Yang G, ZhangH, He Y. Localization and classification of paddy field pests using a saliency map and deep convolutional neural network., 2016, 6: 20410.

[11] 杨国国, 鲍一丹, 刘子毅. 基于图像显著性分析与卷积神经网络的茶园害虫定位与识别. 农业工程学报, 2017, 33(6): 156-162.

Yang G G, Bao Y D, Liu Z Y. Location and recognition of pests in tea plantation based on image saliency analysis and convolutional neural network., 2017, 33(6): 156-162. (in Chinese with English abstract)

[12] Wen C, Wu D, Hu H, PanW. Pose estimation-dependent identification method for field moth images using deep learning architecture., 2015, 136: 117-128.

[13] Lytle D A, Martínezmuñoz G, Zhang W, Lorios N, Shaprio L. Automated processing and identification of benthic invertebrate samples., 2010, 29(3): 867-874.

[14] 冼鼎翔, 姚青, 杨保军, 罗举, 谭畅, 张超, 徐一成.基于图像的水稻灯诱害虫自动识别技术的研究. 中国水稻科学, 2015, 29(3): 299-304.

Xian D X, Yao Q, Yang B J, Luo J, Tan C, Zhang C, Xu Y C. Automatic identification of rice light-trapped pest based on image., 2015, 29(3): 299-304. (in Chinese with English abstract)

[15] 刘鹏宇. 基于内容的图像特征提取算法的研究. 长春: 吉林大学, 2004.

Liu P Y. Study on the algorithms for content-based image feature extraction. Changchun: Jilin University, 2004. (in Chinese with English abstract)

[16] 梁勇. 智能虫情测报灯在水稻害虫测报上的应用效果. 广西植保, 2009, 22(1): 21-23.

Liang Y. Application effect of intelligent insect report lamp on rice pest monitoring., 2009, 22(1): 21-23. (in Chinese)

[17] 张新明, 张爱丽, 郑延斌, 孙印杰, 李双. 改进的最大熵阈值分割及其快速实现. 计算机科学, 2011, 38(8): 278-283.

Zhang X M, Zhang A L, Zheng Y B, Sun Y J, Li S. Improved two-dimensional maximum entropy image thresholding and its fast recursive realization., 2011, 38(8): 278-283. (in Chinese with English abstract)

[18] 苏煜, 山世光, 陈熙霖, 高文. 基于全局和局部特征集成的人脸识别. 软件学报, 2010, 21(8): 1849-1862.

Su Y, Shan S G, Chen X L, Gao W. Integration of global and local feature for face recognition., 2010, 21(8): 1849-1862. (in Chinese with English abstract)

[19] 彭晶. 基于全局特征点提取的指纹识别方法研究. 长春: 吉林大学, 2005.

Peng J. The study of fingerprint identification based on the deltas and cores.Changchun: Jilin University, 2005. (in Chinese with English abstract)

[20] Liu B, Wu H, Su W, Sun J. Sector-ring HOG for rotation-invariant human detection., 2017, 54(C): 1-10.

[21] Zhu J X, Su G D, Li Y C. Facial expression recognition based on gabor feature and adaboost., 2011, 17(8): 993-998.

[22] Lei Y M, Zhao X M, Guo W D. Cirrhosis recognition of liver ultrasound images based on SVM and uniform LBP feature//2015 IEEE Advanced Information Technology, Electronic and Automation Control Conference (IAEAC),19-20 December, 2015. Chongqing, China: IEEE, 2015: 382-387.

[23] Olgun M, Onarcan A O, Sezer O, Koyuncu O. Wheat grain classification by using dense SIFT features with SVM classifier., 2016, 122(C): 185-190.

[24] Dlin S, Jiang Y T, Lin J J. Object Tracking Using a Particle Filter with SURF Feature., 2014, 8815(3): 339-344.

[25] 王娟, 孔兵, 贾巧丽. 基于颜色特征的图像检索技术. 计算机系统应用, 2011, 20(7): 160-164.

Wang J, Kong B, Jia Q L. Color-Based Image Retrieval., 2011, 20(7): 160-164. (in Chinese with English abstract)

[26] 任国贞, 江涛. 基于灰度共生矩阵的纹理提取方法研究. 计算机应用与软件, 2014(11): 190-192.

Ren G Z, Jiang T. Study on glcm-based texture extraction methods., 2014(11): 190-192. (in Chinese with English abstract)

[27] 郑淑丹, 郑江华, 石明辉, 郭宝林, 森巴提, 孙志群, 贾晓光, 李晓瑾. 基于分形和灰度共生矩阵纹理特征的种植型药用植物遥感分类. 遥感学报, 2014, 18(4): 868-886.

Zheng S D, Zheng J H, Shi M H, Guo B L, Sen B T, Sun Z Q, Jia X G, Li X J. Classification of cultivated Chinese medicinal plants based on fractal theory and gray level co-occurrence matrix textures., 2014, 18(4): 868-886. (in Chinese with English abstract)

[28] 杨舒, 王玉德. 基于Contourlet变换和Hu不变矩的图像检索算法. 红外与激光工程,2014, 43(1): 306-310.

Yang S, Wang Y D. Image retrieval algorithm based on contourlet transform and Hu invariant moment., 2014, 43(1): 306-310. (in Chinese with English abstract)

[29] 张华. 基于形态特征提取的图像匹配搜索技术研究. 物联网技术, 2013(11): 16-18.

Zhang H. Research on image matching search technology based on morphology characterization extraction., 2013(11): 16-18. (in Chinese)

[30] Arivazhagan S, Ganesan L, Priyal S P. Texture classification using Gabor wavelets based rotation invariant features., 2006, 27(16): 1976-1982.

[31] 王昊京, 王建立, 王鸣浩, 阴玉梅. 采用双线性插值收缩的图像修复方法. 光学精密工程,2010, 18(5): 1234-1241.

Wang H J, Wang J L, Wang M H, Yin Y M. Efficient image inpainting based on bilinear interpolation downscaling., 2010, 18(5): 1234-1241. (in Chinese with English abstract)

[32] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns//IEEE Transactions on Pattern Analysis and Machine IntelligenceSpringer Berlin Heidelberg, 2000: 404-420.

[33] 曾凡涛. 基于改进LBP特征的图像理解. 长春: 吉林大学, 2014.

Zeng F T. Image Understanding Based on Improved LBP Methodology. Changchun: Jilin University, 2014. (in Chinese with English abstract)

[34] 陈振华, 余永权, 张瑞. 模糊模式识别的几种基本模型研究. 计算机技术与发展, 2010, 20(9): 32-35.

Chen Z H, Yu Y Q, Zhang R. Research on several models of fuzzy pattern recognition problems., 2010, 20(9): 32-35. (in Chinese with English abstract)

[35] 王双成, 杜瑞杰, 刘颖. 连续属性完全贝叶斯分类器的学习与优化. 计算机学报, 2012, 35(10): 2129-2138.

Wang S C, Du R J, Liu Y. The learning and optimization of full bayes classifiers with continuous attributes., 2012, 35(10): 2129-2138. (in Chinese with English abstract)

[36] 吴晓军, 邹广华. 基于边缘几何特征的高性能模板匹配算法. 仪器仪表学报, 2013, 34(7): 23-30.

Wu X J, Zou G H. High performance template matching algorithm based on edge geometry features., 2013, 34(7): 23-30. (in Chinese with English abstract)

[37] 罗昕. 基于Fisher鉴别分析对支持向量机算法进行优化的研究. 昆明: 云南大学, 2016.

Luo X. Research on the optimization of support vector machine algorithm based on Fisher discriminant analysis. Kunming: Yunnan University, 2016. (in Chinese with English abstract)

[38] 任俊, 李志能. 支持向量机在字符分类识别中的应用. 浙江大学学报: 工学版, 2005, 39(8):1136-1141.

Ren J, Li Z N. Application of support vector machines in classification and recognition of characters., 2005, 39(8): 1136-1141. (in Chinese with English abstract)

[39] 崔萌, 张春雷.LIBSVM, LIBLINEAR, SVMmuticlass比较研究. 电子技术, 2015(6): 1-5.

Cui M, Zhang C L. The comparison study of LIBSVM, LIBLINEAR and SVMmulticlass., 2015 (6):1-5. (in Chinese)

[40] 邓江洪, 赵领. 多特征筛选与支持向量机相融合的图像分类模型. 吉林大学学报:理学版, 2016, 54(4): 862-866.

Deng J H, Zhao L. Image Classification model with multiple feature selection and support vector machine.:, 2016, 54(4): 862-866. (in Chinese with English abstract)

[41] 沙睿. 基于多特征融合的图像相似性研究. 南京: 南京大学, 2011.

Sha R. A Study of image Similarity based on multi-features. Nanjing: Nanjing University, 2011. (in Chinese with English abstract)

Influence of Image Features and Sample Sizes on Rice Pest Identification

MA Pengpeng1, ZHOU Aiming1, YAO Qing1, *, YANG Baojun2, TANG Jian2, *, PAN Xiuqiang3

(College of Information,,,;State Key Laboratory of Rice Biology,,,;Information and Media Institute,,;Corresponding author,;)

【Objective】In the traditional pattern recognition methods, image features and the sizes of training samples have a great influence on the identification results of target objects from a large number of distraction objects. Our objective is to study the influence of different image features and sample sizes on identification of rice light-trapped pests. 【Methods】Rice light-trapped insects were divided into two broad categories:big insects and small insects. The global and local image features of all insects were extracted and different sizes of training samples were set to train support vector machine classifiers. 【Result】The support vector machine classifier based on the combination of global features and HOG features could obtain the identification rate of 91.4% and false detection rate of 8.6% when the non-target sample size was fourfold as many as target samples in big rice pests. The support vector machine classifier based on global features could obtain the identification rate of 94.9% and false detection rate of 4.9% when the non-target sample size was two times as many as target samples in small rice pests. 【Conclusion】In the small sample sets, appropriate image features and reasonable training sample proportion help achieve good identification results when some targets need to be identified from a large number of non-target objects.

rice pest; pattern recognition; global feature; local feature; training sample; support vector machine

S435.112; TP391.411

A

1001-7216(2018)04-0405-10

2017-09-21;

2017-12-17。

国家863计划资助项目(2013AA102402);浙江理工大学521人才培养计划资助;浙江省科技计划资助项目(2016C32103)。

10.16819/j.1001-7216.2018.7116

猜你喜欢
训练样本样本量识别率
一种基于进化算法的概化理论最佳样本量估计新方法:兼与三种传统方法比较*
医学研究中样本量的选择
人工智能
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十一)
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十)
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
档案数字化过程中OCR技术的应用分析
科技文档中数学表达式的结构分析与识别
基于小波神经网络的网络流量预测研究