杨国国,鲍一丹,刘子毅
基于图像显著性分析与卷积神经网络的茶园害虫定位与识别
杨国国,鲍一丹※,刘子毅
(浙江大学生物系统工程与食品科学学院,杭州 310058)
为实现在茶园环境中快速、准确地识别害虫目标,该文提出了一种基于卷积神经网络的深度学习模型来进行害虫定位和识别的方法。该文通过对整个图像进行颜色衰减加速运算,结合超像素区域之间的空间影响,计算各个超区域的显著性值,进而提供害虫目标的潜在区域,最终结合GrabCut算法进行害虫目标的定位和分割。对于分割后的害虫目标,通过优化后的卷积神经网络进行表达和分类,并进一步对卷积神经网络的结构进行了约减。通过对23种茶园主要害虫的识别,试验结果表明,识别准确率在优化前后分别为0.915和0.881,优化后的模型内存需求和运行耗时分别降低至6 MB和0.7 ms,取得了较好的识别效果。
像素;算法;识别;害虫检测;图像显著性分析;深度学习;卷积神经网络
茶树是中国重要的经济作物,如今国内的茶园面积达到了3 529.0万hm2,约占世界茶园面积的50%以上,遍及18个省。茶树在生长过程中,极易遭受多种害虫危害[1]。在现代生态化茶园建设中,害虫种群监测是农业虫害防控的重要环节之一。害虫的防治手段取决于害虫种群数量的多少[2],更加精准、实时监测害虫种群将为虫害防治决策提供重要依据。目前,农业害虫的种类区分及相应的统计计数主要由人工完成,劳动强度大,工作效率低。基于计算机视觉、机器学习技术对害虫图像的自动化识别在近年来已成为研究学者研究的热点[3]。然而,害虫本身是一类纹理丰富、结构复杂的视觉目标,加之姿态变化丰富、种内变化、种间相似以及所处环境背景复杂,令图像识别成为一类细粒度识别问题[4],技术难度较大。
目前国内外的害虫识别研究主要集中于以下2个方面:1)基于计算机视觉的图像表达,即图像底层特征的设计、提取及相应的高层表达(从特征中获取和组织有效信息);2)基于机器学习的模型构建,即选择和优化分类模型,如支持向量机[5-6](support vector machine,SVM)来区分表达信息。早期的识别方法多采用害虫图像的全局特征,如灰度直方图[7-8]、几何不变量[9-10]、子空间方法[11-12]等。此类特征虽易于提取和计算,但在害虫姿态变化或图像背景复杂时,基于全局属性的描述则难有作为。伴随计算机视觉技术的进一步发展,近年的研究转向以局部图像特征为核心而设计的表达框架,并在准确性和稳定性上获得显著提升。以应用最为广泛的“视觉词袋框架”[13](bag-of-words,BOW)为例,此类方法首先提取尺度不变特征[14](scale invariant feature transform,SIFT)和方向梯度直方图[15](histograms of oriented gradients,HOG)等局部兴趣点。将单一特征重构为数量分布直方图、或对多种特征作相应融合后,选择最优分类器作为输入。
上述特征本质上仍是人工预先设计特征进行识别,针对害虫目标的识别问题,其适用性往往受到抑制,难以确定最优方案[16]。而简单的直方图表示或特征融合,往往忽略了害虫本身的相对空间信息,因而存在诸多局限。相比传统方法,近年来兴起的深度学习模型则直接由数据本身来驱动特征及其表达关系的自我学习。其中,卷积神经网络[17](convolutional neural network,CNN)在图像识别领域的应用尤为广泛,在一系列大规模、细粒度的识别任务中取得巨大成功。CNN的主要思想是通过深度神经网络的层层映射,来自主学习图像像素特征、底层特征、高层抽象特征直至最终类别间的隐式表达关系,更加有利于捕获数据本身的丰富内涵信息[18],同时也避免了复杂的人工设计过程。当前比较成功的CNN模型包括AlexNet[17]、GoogLeNet[19]和ResNet[20],这些网络架构均是针对广义的物体识别而设计。以AlexNet为例,该模型由Krizhevsky等[17]于2012年提出,被认为是当前对卷积神经网络进行研究和改进的标准架构。
针对害虫识别的特殊性和困难性,以及目前害虫图像识别依赖于研究人员的主观特征设计的局限性,本文采用基于图像显著性分析和Grubcut[21]算法对复杂背景下的害虫目标进行定位,通过AlexNet卷积神经网络架构对茶园主要害虫进行表达和分类,避免了人的主观因素影响分类的结果。由于AlexNet的最初提出是针对ImageNet[22]数据集(包含1 000个类别,超过1 000 000幅图像)而设计,模型规模较大。对于数据集包含数量相对较少的茶园害虫图像,为避免过拟合,加快模型的运行速度,本文进一步针对其重要的结构参数和训练策略进行优化和改进,建立一种基于深度学习模型(卷积神经网络)的茶园害虫分类模型。
1.1 害虫图像数据集
本文以生态茶园害虫作为测试对象,选取23类常见的茶园害虫。原始图像数据集由Google、Naver和FreshEye等搜索引擎检索和茶园实地拍摄2种方式获取。原始数据集涵盖害虫目标的不同拍摄视角,并由人工标注和筛选以避免数据的重复和错误。筛选处理后,互联网检索数据集包含6 556幅图像,各类别样本量呈不均匀分布(详见表1)。茶园实地拍摄图像1 150幅,为均匀分布数据集(各类均为50幅)。本文将互联网检索的图像用于卷积神经网络的训练和参数优化验证,分别从各类别随机选择70%样本构建训练集,30%作为验证集。考虑训练集中数据不均衡现象易对模型训练造成偏差(例如模型倾向于表达拥有较多样本量的类别),而训练集中最大类别包含图像样本约为390幅(556幅×70%),故将所有训练样本小于260幅的类别进行随机采样,控制类别间样本量比例为1:1.5(390幅/260幅)。模型优化完成后,将茶园实地拍摄图像作为测试集,将本文方法与现有害虫识别方法进行对比分析。由于测试数据集中各类别样本数量呈均衡分布,因此可将测试结果视作平均准确率(average accuracy,AA),并将平均准确率作为本文模型的识别效果评价指标。
表1 试验数据集详情
1.2 图像的显著性分析
图像的目标和定位一直是图像处理领域的研究热门和难点。近年来的研究发现,自然图像中的害虫目标通常会占据与背景形成高度对比的颜色区域(图1)。目前,大量的生物学试验和机器视觉模型已经证明,这种相对其他区域所形成的颜色对比可以被量化为目标区域的图像显著值,从而使图像显著性分析成为目标定位的重要手段[23]。
本文应用一种基于全局对比度的显著性区域检测方法[24]进行害虫目标的定位。该方法的主要思想是根据害虫目标与背景区域的颜色对比和空间关系进行显著值计算,具体流程如图1所示。为加速计算,首先对原始图像进行颜色衰减,将原始图像分别在R、G、B三通道的256级灰度值量化为10级。利用图割法[25]将衰减后图像分割为多个超像素区域,依据式(1)计算各个区域的显著值
式(1)中,(r)为区域r的显著值,r代表图像中的其他区域,D为当前区域r的重心与其他区域r的中心之间的欧氏空间距离,2是距离加权项,以此来增强较近区域对目标区域的影响,通过前期试验将该值设为0.4。(r)为区域r所覆盖像素数目,用以弱化背景之间的相互作用。D为区域之间的颜色对比,具体计算过程为
(2)
其中,1,2代表各个区域的颜色总数。(1,i)、(2,j)为加权项,代表相应颜色1,i和2,j在1和2中的出现频率,以此强调区域内主导颜色的作用。为区域1和2的颜色空间距离。
原始图像的显著图提供了害虫目标的潜在区域。将潜在区域作为GrabCut算法的初始区域,对害虫目标的进一步分割。GrabCut算法是一种交互式图像分割算法,通过用户选定待分割图像的目标区域后,经过计算图像中的纹理、颜色信息和边界反差信息,可以达到自动、准确的分割目标。
1.3 卷积神经网络
本文选取应用广泛的卷积神经网络AlexNet作为基础网络架构,并对其重要的结构参数和训练策略进行优化,以获取适合害虫图像识别的模型架构。AlexNet网络的详细结构及各层的具体配置如图2所示。
AlexNet网络的核心部分由5个卷积层(Conv1~Conv 5)和3个池化层(pooling1~pooling 3)交替构成。卷积层主要作用是提取特征,即包含一组经数据驱动进行自主学习的卷积核,又称特征提取器。针对不同的特征提取密集度,卷积核用固定大小的卷积步幅与输入(来自上一层的输出或原始图像)作卷积运算,经由激活函数变换后构成卷积特征图,代表对输入图像特征的响应。卷积特征图的计算过程可以表示为
式(3)中,和分别为第层(当前层)第-1层(上一层)的第个和第个特征图,表示作用于2个特征图之间的卷积核。()为激活函数,代表偏置项。在所有卷积层中,Conv1层中的卷积核又称作局部感受野,负责直接从原始输入图像提取最低层特征。
池化层通常与卷积层级联出现,作用为特征映射。通过对卷积特征图进行下采样后构成池化特征图,克服图像目标发生位移、畸变、旋转所造成的影响。池化层的特征图的计算过程可表示为
式中是选取的下采样模板,为模板的权值。依据模板的权值的不同,池化计算的方式包括最大值池化、平均值池化和随机池化等。AlexNet网络中采用最大值池化进行计算,经多层级联后,全连接层(FC6,FC7)对Pooling3池化特征图作矢量变换,构成特征向量输送给分类层,AlexNet在分类层采用Softmax分类器[26]。AlexNet各连接层的详细功能与计算操作,详见参考文献[17]。
本文中卷积神经网络的训练方式与文献[17]类似。网络初始权重提取自标准差为0.01,均值为0的高斯分布。训练阶段采用动量项为0.9的异步随机梯度下降,并设置权重参数的初始学习速率为0.01。本文代码实现主要基于CAFFE(convolutional architecture for fast feature embedding)[26]深度学习框架,计算平台采用单块型号为NVDIA GTX Titan X的图形处理器(GPU),搭载于Intenl Core i7 4790 CPU,内存为16 GB的台式计算机。
AlexNet的结构参数及训练策略在初始提出时均基于ImageNet数据集设计,主要应用于广义的物体识别。若将原始AlexNet网络直接引入特定的害虫图像识别,易因数据集规模、数据类别间的粒度差异而造成模型收敛效果差、过拟合等风险。本文对害虫图像经过显著性分析和定位后的分割结果进行裁剪,用图像平均像素填充较短边并缩放为256×256 dpi。定位的图像在输入卷积网络前被随机裁剪为227×227 dpi,并作镜像翻转以扩增数据集。同时,从以下4方面依次对AlexNet网络进行优化:
1)局部感受野的尺寸、数目和卷积步幅:分别取卷积核尺寸大小为7×7、9×9、11×11、13×13、15×15 dpi大小的像素块,逐步减少卷积核数目至32个,对网络进行训练和测试。同时,卷积步幅由数值2开始逐步增加,直至与优化后的卷积核尺寸相当,进而考察特征采样密度对模型性能的影响。
2)全连接层的神经元随机抑制(Dropout)[27]:由于全连接层FC6,FC7为致密连接,参数量约占AlexNet网络规模的90%,因此对FC6,FC7层采用神经元随机抑制(Dropout)以控制过拟合。Dropout的主要思想是在模型训练的每一次迭代中,按一定概率随机对目标层部分神经元进行抑制,仅针对剩余神经元作参数更新,本质上是训练了多个规模较小的子网络。在模型测试阶段对子网络进行融合,即采用全网络架构。本文在0.5~0.9范围内搜索最优Dropout概率。如果所采用Dropout概率过小,则反映出当前模型存在相当数量的冗余参数,可考虑对网络架构作进一步约简。
3)分类层的损失函数:在分类层采取不同的损失函数来构建相应的分类器。本文针对2类常见损失函数Hinge loss[26](对应SVM分类器)和Softmax loss(对应softmax分类器)进行网络性能的对比分析。
4)中间层参数约简:卷积神经网络的实际应用往往对计算运行的资源需求较高,尤其在植入农业机器人、手机移动端等低性能计算平台时,内存消耗和运算速率都会受到限制。依照Dropout概率对模型识别准确率的影响,本文对AlexNet局部感受野与分类层之间的中间层作深度(网络层数)和宽度(层内卷积核数目)的约简,进而考察不同架构的计算资源需求和对识别准确率的影响。
3.1 局部感受野不同参数下的识别准确率
局部感受野通常被认为是卷积网络架构中最为敏感的参数,负责直接由原始输入图像提取最低层特征。局部感受野的尺寸和数目对卷积神经网络识别准确率的影响如图3所示。
由图3可以看出,模型识别性能随卷积核尺寸的减小呈上升趋势。卷积核尺寸为7×7 dpi时,验证准确率最高。由于相似的害虫种间的区分往往依赖于对图像局部纹理的描述,当使用大尺寸卷积核时,会导致所提取特征易于响应粗粒度的特征(如边缘特征),从而使传递给高层卷积核的细节信息丢失过多。固定卷积核尺寸为7×7 dpi,模型验证准确率随局部感受野数目的增加先升高后降低,当局部感受野数目为64时,验证准确率最高。该结果表明,由于本文数据集涵盖种类和样本数量相对较少,AlexNet网络需足够数量的低层特征来确保对数据的拟合能力,以克服由害虫的种类多样性或姿态变化等因素所带来的数据复杂度。
为了进一步验证所确定底层特征不存在冗余性,图4对全部卷积核进行可视化,发现并无重复或随机性卷积核(未得到有效训练)出现。
在固定最优卷积核尺寸及数目情况下,图5给出了采取不同卷积步幅后的识别效果及对应的模型训练耗时。显然,密集的特征提取更有利于对害虫图像目标细节信息的保留,从而获得更大的性能收益。但当卷积步幅小于4时,识别准确率的变化并不明显,模型的训练耗时明显增加。为获取模型识别性能与所需计算资源之间的均衡,将该参数确定为4较为合适。
3.2 不同Dropout概率下的识别准确率
Dropout概率对模型性能的影响如图6所示,模型识别准确率在Dropout概率为0.70时达到峰值。该结果也表明处于局部感受野和分类层间的网络中间层存在冗余的参数。因此,有必要对中间层作参数约简,以确定适合害虫图像及相应数据集规模的网络架构。进一步增加该值,模型识别性能出现明显下降。其主要原因在于所训练的子网络规模不足,导致其对数据的拟合能力下降,难以有效建立害虫图像数据与最终类别之间的映射关系。
3.3 不同损失函数下的识别准确率
为了直观地呈现Hinge loss和Softmax loss函数对网络性能的影响,图7给出了这2类损失函数在整个模型训练过程中的误差变化曲线。当训练误差近似时,Softmax loss函数的验证误差更小,同时收敛更加迅速。但值得注意的是,2类损失函数在本文数据集上的差异,并不意味着Softmax loss将一定作为网络在分类层的标准选择。有研究指出,当图像种类及图像差别的粒度显著增加时,Hinge loss函数可能表现出更优的效果[22]。
3.4 压缩网络架构的效果分析
为进一步去除模型冗余参数、降低计算资源需求及提升运算速率,本文分别对网络中间层作深度和宽度的约简。约简后不同网络架构的内存需求(包括模型本身和数据流的消耗)、运行耗时及识别准确率如表2所示。可以看出,模型对计算资源的占用主要来自于网络全连接层FC6,FC7,去除后内存消耗下降至29.8 MB,但对运行耗时及识别效果影响较小。相比而言,卷积层Conv2~Conv5承担了主要的图像表达功能,且需要进行密集的卷积运算。因而在逐层去除后,识别准确率及运算耗时均出现显著下降。该结果也表明,约简卷积层深度并非适宜策略。表2同时给出了去除FC6,FC7,逐步减少Conv2~Conv5层卷积核数目的效果变化。对比发现,对模型作宽度压缩不仅在识别准确率上获得了一定程度的增益,而且模型运行时的内存需求及运行耗时亦可得到有效控制。以架构10(64-192-192-64)为例,识别准确率损失相较压缩前仅减少0.027,但模型内存需求降低至6 MB(参数和中间数据流内存消耗分别降至2.8和3.2 MB),运行耗时为0.7 ms,降低3.3倍。从而使得该架构对于低端的运算平台更具有适用性。
表2 不同网络架构的运行效果
注:编号8~10分别列出压缩后卷积层Conv2~Conv5的卷积核数目。
Note: Convolution kernel numbers of Conv2-Conv5 after shrinking are respectively listed at 8-10.
3.5 模型的效果验证
在茶园实地拍摄数据集上,选择表2中网络架构1和架构10与表3所列的方法进行识别准确率比较。针对原始AlexNet,在未对测试图像采取定位操作情况下AA仅为0.849。
表3 不同害虫识别方法的性能对比分析
显然,缺乏定位处理会引入更多图像背景区域的干扰,增加网络对害虫目标的识别难度。文献[28-30]所提的3种方法为传统害虫图像识别方法,均需对害虫图像提取人工选取的底层特征,并进行特征融合后交由分类器进行判别。对采取定位后图像进行测试,3种方法的AA分别为0.591,0.772和0.803。此类方法受限于底层人工选取的底层特征通用性低的特点,因此3种方法的特征选择差别较大,难以确定最优方案。更为重要的是,由于缺乏高层次表达,也难以体现所选底层特征间的空间关系,因此识别相对困难。
而原始的AlexNet网络以及本文采用的架构1和架构 10的AA分别为:0.849、0.915、0.881。本文采用的模型获得的AA比原始的AlexNet网络提高了至少3.2个百分点,比传统方法至少提高了7.8个百分点。
本文通过对茶园23种常见害虫进行试验,采用图像的显著性分析对害虫定位,利用优化约减的AlexNet卷积神经网络模型对害虫目标进行识别,约简前后的平均准确率(average accuracy,AA)为0.915和0.881。同时,简约后的模型的内存需求和运行耗时分别降低至6 MB和0.7 ms。
本文采用的模型对于在自然环境下获取的害虫图像样本有较好的识别效果,突破了大多数研究集中于实验室获取简单背景的害虫图像进行试验的前提,并且避免了在害虫识别中由研究者主观选取特征的不足。此外,通过对模型的参数优化和结构约简,加强了该模型在低端计算平台上的适应性。
[1] 史庆才,李向阳,陈志伟,等. 茶园假眼小绿叶蝉的防控技术研究进展[J]. 农学学报,2015,5(1):20-24.
Shi Qingcai, Li Xiangyang, Chen Zhiwei, et al. Advances on prevention and control technology of empoasca vitis göthe in tea garden[J]. Journal of Agriculture,2015, 5(1): 20-24. (in Chinese with English abstract)
[2] 马世骏. 谈农业害虫的综合防治[J]. 昆虫学报,1976,19(2):14-26.
Ma Shijun. On the integrated control of agricultural insect pests[J]. Acta Entomologica Sinica, 1976, 19(2): 14-26. (in Chinese with English abstract)
[3] 陈梅香,杨信延,石宝才,等. 害虫自动识别与计数技术研究进展与展望[J]. 环境昆虫学报,2015,37(1):176-183.
Chen Meixiang, Yang Xinyan, Shi Baocai, et al. Research progress and prospect of technologies for automatic identifying and counting of pests[J]. Journal of Environmental Entomology, 2015, 37(1): 176-183. (in Chinese with English abstract)
[4] 李文勇,李明,陈梅香,等. 基于机器视觉的作物多姿态害虫特征提取与分类方法[J]. 农业工程学报,2014,30(14):154-162.
Li Wenyong, Li Ming, Chen Meixiang, et al. Feature extraction and classification method of multi-pose pests using machine vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2014, 30(14): 154-162. (in Chinese with English abstract)
[5] Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.
[6] 胡玉霞,张红涛. 基于模拟退火算法-支持向量机的储粮害虫识别分类[J]. 农业机械学报,2008,39(9):108-111.
Hu Yuxia, Zhang Hongtao. Recognition of the stored-grain pests based on simulated annealing algorithm and support vector machine[J]. Transactions of the Chinese Society for Agricultural Machinery, 2008, 39(9): 108-111. (in Chinese with English abstract)
[7] Zhu L Q, Zhen Z. Auto-classification of insect images based on color histogram and GLCM[C]// Seventh International Conference on Fuzzy Systems and Knowledge Discovery. IEEE, 2010: 2589-2593.
[8] 范艳峰,甄彤. 谷物害虫检测与分类识别技术的研究及应用[J]. 计算机工程,2005,31(12):187-189. Fan Yanfeng, Zhen Tong. Research and application of grain pest detection and classification technology[J]. Computer Engineering, 2005, 31(12): 187-189. (in Chinese with English abstract)
[9] Solissánchez L O, Garcíaescalante J J, Castañedamiranda R, et al. Machine vision algorithm for whiteflies () scouting under greenhouse environment[J]. Journal of Applied Entomology, 2009, 133(7): 546-552.
[10] 邹修国,丁为民,刘德营,等. 基于4种不变矩和BP神经网络的稻飞虱分类[J]. 农业工程学报,2013,29(18):171-178.
Zou Xiuguo, Ding Weimin, Liu Deying, et al. Classification of rice planthopper based on invariant moments and BP neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(18): 171-178. (in Chinese with English abstract)
[11] 谢成军,李瑞,董伟,等. 基于稀疏编码金字塔模型的农田害虫图像识别[J]. 农业工程学报,2016,32(17):144-151.
Xie Chengjun, Li Rui, Dong Wei, et al. Recognition for insects via spatial pyramid model using sparse coding[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(17): 144-151. (in Chinese with English abstract)
[12] 张红涛,毛罕平,邱道尹. 储粮害虫图像识别中的特征提取[J]. 农业工程学报,2009,25(2):126-130.
Zhang Hongtao, Mao Hanping, Qiu Daoyin. Feature extraction for the stored-grain insect detection system based on image recognition technology[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions ofthe CSAE), 2009, 25(2): 126-130. (in Chinese with English abstract).
[13] Sivic J, Zisserman A. Video google: A text retrieval approach to object matching in videos[C]// IEEE Computer Society. IEEE International Conference on Computer Vision. 2003: 1470.
[14] 王利强. 点特征配准算法及其在储粮害虫种类识别中的应用研究[D].郑州:河南工业大学,2011.
Wang Liqiang. Study Point Feature Matching Algorithm and its Application in Stored Grain Pest Species Identification[D]. Zhengzhou: Henan University of Technology, 2011. (in Chinese with English abstract)
[15] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]// IEEE Computer Society. IEEE Computer Society Conference on Computer Vision & Pattern Recognition. 2005:886-893.
[16] Larios N, Deng H, Zhang W, et al. Automated insect identification through concatenated histograms of local appearance features: Feature vector generation and region detection for deformable objects[J]. Machine Vision and Applications, 2008, 19(2): 105-123.
[17] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// Curran Associates Inc. International Conference on Neural Information Processing Systems. 2012: 1097-1105.
[18] Sermanet P, Eigen D, Zhang X, et al. OverFeat: Integrated recognition, localization and detection using convolutional networks[J]. Eprint Arxiv, 2013.
[19] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]// IEEE Computer Society. IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1-9.
[20] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 770-778.
[21] Rother C, Kolmogorov V, Blake A. GrabCut: Interactive foreground extraction using iterated graph cuts[J]. ACM Transactions on Graphics (TOG), 2004, 23(3): 309-314.
[22] Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database[C]// Computer Vision and Pattern Recognition. IEEE, 2009: 248-255.
[23] Ko B C, Nam J Y. Object-of-interest image segmentation based on human attention and semantic region clustering[J]. Journal of the Optical Society of America A, 2006, 23(10): 2462-2470.
[24] Cheng M M, Mitra N J, Huang X, et al. Global contrast based salient region detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569-582.
[25] Felzenszwalb P F, Huttenlocher D P. Efficient Graph-Based Image Segmentation[J]. International Journal of Computer Vision, 2004, 59(2): 167-181.
[26] Jia Y, Shelhamer E, Donahue J, et al. Caffe: Convolutional Architecture for Fast Feature Embedding[J]. Eprint Arxiv, 2014:675-678.
[27] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[28] Wen C, Guyer D. Image-based orchard insect automated identification and classification method[J]. Computers & Electronics in Agriculture, 2012, 89(3): 110-115.
[29] Venugoban K, Ramanan A. Image classification of paddy field insect pests using gradient-based features[J]. International Journal of Machine Learning & Computing, 2014, 4(1): 1-5.
[30] Zhang J, Wang R, Xie C, et al. Crop pests image recognition based on multi-features fusion[J]. Journal of Computational Information Systems, 2014, 10(12): 5121-5129.
Localization and recognition of pests in tea plantation based on image saliency analysis and convolutional neural network
Yang Guoguo, Bao Yidan※, Liu Ziyi
(,310058,)
Tea is one of important cash crops in China. Computer vision plays an important role in pest detection. Automatic classification of insect species in field is more difficult than the generic object classification because of complex background in filed and high appearance similarity among insect species. In this paper, we proposed an insect recognition system on the basis of image saliency analysis and a deep learning model, i.e. convolutional neural network (CNN), which has a good robustness with avoiding the features selected by artificial means. In image saliency analysis, we segmented the original images into super-pixel regions firstly. Then we quantized each RGB (red, green, blue) color channel and made them have 10 different values, which reduced the number of colors to 1 000, and sped up the process of the color contrast of the pest objects and the background at region level. Finally, we obtained the saliency value of each region by combining their color contrast and spatial distances. The saliency values of all regions in each image were used to construct a saliency map, which was offered as the initial area for GrabCut algorithm to define the segmentation result and localize the pest object. The images after localization were quantized to 256×256 dpi for CNN training and classifying. CNN was trained end to end, from raw pixels to ultimate categories, thereby alleviating the requirement to manually design a suitable feature extractor. Based on theoretical analysis and experimental evaluation, we optimized the critical structure parameters and training strategy of CNN to seek the best configuration. The overall architecture included a number of sensitive parameters and optimization strategies that could be changed. We determined the local receptive field size, number, and convolutional stride as 7×7 dpi, 64 and 4, respectively. Dropout ratio for the fully-connected layers was 0.7. The loss function Softmax was fit for the pest classification system. To further improve the practical utility of CNN, we focused on structural changes of the overall architecture that enabled a faster running with small effects on the performance. We analyzed the performance and the corresponding runtime of our model by reducing its depth (number of layers) and width (number of convolution kernel in each layer). Removing the fully-connected layers (FC6, FC7) made only a slight difference to the overall architecture. These layers contained almost 90% of the parameters and when they were removed, the memory consumption decreased to 29.8 MB. But, removing the intermediate convolutional layers (Conv2, Conv3, Conv4, Conv5) resulted in a dramatic decrease in both accuracy and runtime. This suggested that the intermediate convolutional layers (Conv2, Conv3, Conv4, Conv5) constituted the main part of the computational resource, and their depth was important for achieving good results. We then investigated the effects of adjusting the sizes of all convolutional layers, and the filters in each convolutional layer were reduced to 64 each time. Surprisingly, all architectures showed significant decreases in running time with relatively small effects on performance. Finally, we determined the convolution kernel numbers of Conv2-Conv5: 64-192-192-64. On the test set of tea field images, the architecture before and after shrinking respectively achieved the average accuracy (AA) of 0.915 and 0.881, respectively, superior to previous methods for pest image recognition. Further, after optimization the running time reduced to 0.7 ms and the memory required was 6 MB.
pixels; algorithms; identification; pest detection; image saliency analysis; deep learning; convolutional neural network
10.11975/j.issn.1002-6819.2017.06.020
S126
A
1002-6819(2017)-06-0156-07
2016-09-19
2016-02-20
国家自然科学基金(31471417);博士点基金项目(20130101110104)
杨国国,男,河南洛阳人,研究方向为大田害虫的识别技术。杭州 浙江大学生物系统工程与食品科学学院,310058。Email:ggy@zju.edu.cn
鲍一丹,女,浙江杭州人,博士,副教授,主要研究方向为精细农业领域,现代检测技术和自动控制、虚拟仪器技术等。杭州 浙江大学生物系统工程与食品科学学院,310058。Email:ydbao@zju.edu.cn