基于LIBSVM的烟青虫成虫雌雄判别研究

2018-09-10 04:39刘迦南朱洋李艺嘉韩婧
粮食科技与经济 2018年9期
关键词:图像增强支持向量机

刘迦南 朱洋 李艺嘉 韩婧

[摘要]为了实现对烟青虫的有效防治,借助计算机对烟青虫雌雄成虫进行有效的图像识别是非常重要的。在机器视觉与图像识别技术的结合下,通过支持向量机对害虫进行有效识别。烟青虫雌雄成虫图像属于典型的二分类问题,为此,在自动提取其颜色及纹理等36个特征的基础上,研究了将LIBSVM工具应用于害虫性别判别的方法。通过K折交叉验证选取分类机的最优参数组合并建立模型,对目标害虫图像进行了自动分类,识别率达到95%。实验结果表明,利用该方法可以对害虫性别做出有效判别。

[关键词]烟青虫;图像增强;雌雄害虫;支持向量机

烟青虫,Helicoverpa assulla(Guenee),又名烟草夜蛾,铃夜蛾属,寄主植物达70余种,主要危害烟草、辣椒,是世界性的烟草害虫,国内各烟区均有分布。其中黄淮烟区、华中烟区、西南烟区的四川、贵州等地分布较多,国外集中分布在日本、朝鲜、印度等地,每年给种植者、政府造成巨大损失[1]。

在对烟青虫的系统探究过程中,需要进行虫体的雌雄判别。小菜蛾雌雄比例是衡量饲料是否成功的重要指标之一[2];在对害虫食料进行选择性及适应性的研究中,雌虫的产卵喜好及嗜食性差异是综合治理的重要依据[3];在不同光源对害虫诱杀效果的评价研究中,雌雄上灯比率有明显差异,表现为雄性上灯率远多于或近似于雌性的上灯率[4];在田间预测预报与诱杀防治的研究中,利用性激素诱导害虫,可以获得雌雄虫比并推算其种群动态变化[5];在夜蛾昆虫数学分类应用中,利用翅脉特征可对棉铃虫等六种害虫做出有效判别[6];对害虫在不同寄主植物适应度的研究中,通过比较不同龄期虫在七种植物上的存活率、体重、产卵率等指标,发现在棉花、大豆作物上适应度最高[7];在工业应用的研究中发现,成虫体内含有的蛋白酶经纯化后可与金属离子氧化还原,在漂白剂、有机溶剂和商业洗涤剂中具有很高的稳定性和相容性,是一种具有重要工业特性的生物资源替代品[8]。

目前对烟青虫雌雄成虫的形态描述多限于专家经验及教科书,大多数是利用手绘或移动设备拍照形成原始图像再进行人工判别,利用计算机视觉技术对烟青虫性别做出自动判别还未见报道。

本研究通过饲养害虫多代,对烟青虫雌雄成虫进行系统观察,利用图像处理和模式识别相结合的方法描述烟青虫的识别分类特征,从而对雌雄害虫做出有效的自动判别,为其相关领域的研究及应用等工作提供参考。

1 图像采集与预处理

本文研究对象来自河南农业大学植物保护室刚孵化未交尾的烟青虫雌雄成虫,连续培养多代。经试验,采取活体拍照取样方法最佳,即通过蜂蜜水或者蔗糖水将烟青虫吸引至白色背景板,采用美国菲力尔公司(FILR)生产工业相机(型号为BFLY-PGE-50S5C-C,25mm工业镜头)进行害虫RGB高清彩色数字图像的获取。所获取图像格式为BMP,原始图像经有效区域裁剪后分辨率为380×380像素。原始图像可用作颜色特征的提取,对原始图像进行图像增强,采用直方图均衡化后,发现RGJB图像的B通道灰度图像纹理效果良好,有利于后续的纹理特征提取和选择[9]。本文所用程序算法在MATLAB 2014a環境中实现,软件运行环境为LENOVO PC兼容(32GRAM, InlelCore i7 CPU,3.6GHz主频)。图1为实验室饲养的烟青虫雌雄成虫RGB图像,按上述方法得到的单通道图像见图2。

2 特征提取

人们往往通过肉眼观察昆虫的颜色、纹理、形状甚至害虫的外生殖器等特征来对害虫进行区分判别,但借助人工识别往往容易因为疲劳等因素导致结果出现偏差[10]。

(1)颜色特征:颜色信息通常分布在颜色低阶矩中,颜色矩方法的思想在于图像中任何的颜色分布都可以用它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,如一阶矩描述平均颜色、二阶矩捕述颜色方差、三阶矩描述颜色的偏移性,利用低阶矩就可以近似表示颜色分布的特征[11]。

(2)纹理特征:已有对纹理特征描述方法进行研究,如统计法、合成法、结构法、边缘描述法等[9]。在纹理特征统计方法的描述中,最主要是生成图像的CLCM(灰度共生矩阵)和GLDS(差分统计法),并通过计算其中的各个量度值来捕述图像。纹理是一种不依赖于颜色或亮度变化的反映图像中同质现象的视觉特征,刻画了图像像素邻域灰度空间分布的规律,是所有物体表面都具有的内在特性[12]。不同物体具有不同的纹理,比如不同昆虫图像所对应的纹理数值具有差异,基于此可用纹理特征对害虫性别进行有效区分判别。

(3)不变矩特征:不变矩是一种比较经典的特征提取方法。单纯的中心矩或是原点矩尽管可以表征平面物体的几何形状但都不具有不变性,然而可以从这些矩构造不变量。这种方法最初由Hu提出,他利用中心矩构造出7个不变量,这些不变量已经被成功地应用于很多领域[13]。其中最多被应用于图像识别,图像在平移、镜像、旋转变换时具有变量不变性,以此作为7个特征可供选取特征量时的参考。

本文对雌雄害虫图像有效区域进行特征提取,最终提取特征包括颜色、纹理与不变矩特征,具体提取方法如下:颜色矩(颜色一阶矩、颜色二阶矩、颜色三阶矩)、灰度共生矩阵(0°、45°、90°、135°)、差分统计矩阵、七个不变矩,共计36个特征。烟青虫雌雄虫体之间各个特征量纲差异较大,如果直接进行分类识别不仅影响系统性能且对计算精度影响较大。因此,对提取的所有原始特征数据进行归一化处理以降低计算时间,提高计算效率及精度。利用MATLAB中自带函数MAPMINMAX对数据做归一化处理,经过归一化处理后,特征数据的范围为0-1。

3 雌雄烟青虫的自动判别

支持向量机(Support Vector Machine,SVM)是一种新型的监督式机器学习方法,其算法原理是依据1995年Vapnik创立的统计学理论中的风险经验最小化准则(SRM),将样本点误差以及结构风险水平降到最低,对样本数量范围没有过多要求,极大地提高了模型的推广能力[14]。线性可分时,利用最优分类面选取思想,选择目标距离最远的折中,使待区分的目标准确无误地分开,并使待检测目标的分类间隔最大。对于烟青虫雌雄体的判别问题,可以把它作为一个二分类问题来解决。利用LIBSVM软件包在MATLAB环境下来实现,LIBSVM作为通用的SVM软件包,可以解决分类问题(c-SVC,v-SVC)、回归问题(ε-SVR,v-SVR)以及分布估计(one-class-SVM)等,提供了四种核函数(线性、多项式、径向基和s形),可以有效地解决多类问题、交叉验证参数优化、对不平衡样本加权、多类问题的概率估计等[15]。支持向量机基本求解公式如下(本文选用c-SVC分类和RBF(径向基核函数:K(x,xi)= exp(-g‖xi-x‖2)):

其中g为方差且>0,Yi为符号函数,ω为权向量,xi为样本向量,b为截距,C为惩罚因子,εi岛为松弛变量,l为样本总数。

LIBSVM软件包使用的一般步骤如下[6]:(1)根据LIBSVM软件包的格式要求准备数据集。(2)对数据集进行必要的缩放操作。(3) -般考虑选用RBF核函数。(4)用交叉验证搜索参数C与g的最优参数组合。(5)用搜索到的最优参数组合对整个训练集进行训练,得到支持向量机模型。(6)利用得到的训练模型对测试集进行预测。

烟青虫成虫的雌雄判别属于二分类问题,LIBSVM工具箱采用的是一对一的SVM算法,在对训练样本进行训练的过程中,构造出所有可能出现的二类别分类器,经过140个烟青虫样本(其中雌雄各为70个)训练后的SVM分类器的nSV(支持向量)共112个。用SVM分类器对60个(雌雄各30个)雌雄害虫样本进行测试,正确识别率为95%。结果显示仅有3个样本被误判,其余57只均实现了自动精确分类判别,取得了较好的分类结果,结果见图3。

4 结论

(1)把K折交叉验证训练模型的识别率作为分类器性能的一个主要评价因素,训练测试得到的最优C与g,当C=19.6983,g=0.0272时,识别率达到95%,使得测试样本识别率达到了最佳。

(2)研究运用LIBSVM进行烟青虫雌雄成虫判别分类的可行性,并采用径向基核函数对雌雄害虫特征数据进行SVC数据的分类,通过大量样本的训练与测试,识别率为95%。实践证明烟青虫雌雄成虫图像识别中基于SVM的分类器能够达到预期的效果。因此,支持向量机分类模型在实际中可以作为判别害虫类别的依据。

(3)所采集烟青虫均为户外自然条件下采集且连续饲养多代,与野生害虫体型有略微差别,下一步应将自然状态下害虫加入分类样本数据集,结果更加具有意义及广泛性。

参考文献

[1]任广伟.烟蚜和烟青虫的发生与防治[J].烟草科技,2002 (5):75-79.

[2]莫美华,庞雄飞.二次正交旋转回归设计在小菜蛾饲料配方筛选中的应用[J].生态学报,2006 (7):2935-2941.

[3]张勇,王开运,王刚,等.烟青虫对三种食料植物的选擇性及适应性[J].应用昆虫学报,2006 (6):781-784

[4]张玥.20种光源对蔬菜地主要害虫的诱杀效果评价[D].武汉:华中农业大学,2010.

[5]刘超,邢茂德,边文波,等.淄博市棉铃虫种群动态及其在测报中应用分析[J].农业科技通讯,2016 (8):123-125.

[6]蔡小娜,黄大庄,沈佐锐,等,蛾翅翅脉特征在夜蛾昆虫数学分类学中的应用,中国农业大学学报,2015 (5):188-193.

[7] REIGADA C, GUIMARAES K F PARRA J R P Relative fitness ofhelicoverpa armigera (lepidoptera: noctuidae) on seven host plants:8perspective for IPM in Brazil[J].Journal oflnsect Science,2016(1):3

[8] AKBAR S M, SHARMA H C Alkaline serine proteases fromHelicuverpa armigera: potential candidates for industrial applications[J].Archives oflnsect Biochemistry&Physiology,2017(1):21367

[9]刘舒,姜琦刚,邵永社,等应用灰度共生矩阵的纹理特征描述的研究[J].科学技术与工程,2012 (33):8909-8914.

[10]张红涛,毛罕平,邱道尹.储粮害虫图像识别中的特征提取[J].农业工程学报,2009 (2):126-130.

[11]戴天虹,王克奇,杨少舂.基于颜色特征对木质板材分级的研究[J].系统仿真学报,2008 (5):1372-1376.

[12]孙君顶,马媛媛,纹理特征研究综述[J].计算机系统应用,2010 (6):245-250.

[13]柳林霞,陈杰,窦丽华.不变矩理论及其在目标识别中的应用[J].火力与指挥控制,2003 (2):13-15.

[14]张红涛,胡玉霞,毛罕平.基于SVM的储粮害虫图像识别分类[J].农机化研究,2008 (8):36-38.

[15]王慧勤,雷刚.基于LIBSVM的风速预测方法研究[J].科学技术与工程,2011 (22):5440-5442+5450.

[16]李坤,刘鹏,吕雅洁,等.基于Spark的L|BSVM参数优选并行化算法[J].南京大学学报(自然科学),2016 (2):343-352.

猜你喜欢
图像增强支持向量机
通过图像增强与改进Faster-RCNN网络的重叠鱼群尾数检测
基于非下采样剪切波变换与引导滤波结合的遥感图像增强
基于双树四元数小波变换的图像降噪增强
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
图像增强技术研究