茶树尺蛾科典型害虫成虫智能识别技术研究

2014-05-25 00:33吴阿林周孝贵
浙江科技学院学报 2014年3期
关键词:智能算法识别率茶树

吴阿林,周孝贵,肖 强

(1.浙江科技学院 理学院,杭州 310023;2.中国农业科学院 茶叶研究所,杭州 310008)

茶树尺蛾科典型害虫成虫智能识别技术研究

吴阿林1,周孝贵2,肖 强2

(1.浙江科技学院 理学院,杭州 310023;2.中国农业科学院 茶叶研究所,杭州 310008)

以设计茶树害虫成虫智能识别应用系统为目的,提出了构建基于图像特征组合智能识别关键技术的三维空间结构(特征组合可分性结构、算法切合度和识别率)研究思想,系统地阐述了三维空间结构的内涵、指标体系、筛选条件、研究模型及实践方法;以尺蛾科典型害虫成虫为实例,认证了研究办法和实现途径的可行性,并对构建智能识别关键技术之三维空间结构知识库的实现路线图进行了展望。

茶树;尺蛾科害虫;图像特征;三维空间结构;智能识别

随着中国“数字农业”的不断深入发展,对“农业数字化”所涉及的对象、技术和过程,进行数字化、信息化的表达、设计、控制和管理已成为农业新技术应用和研究的主要方向[1-3],特别是开发能为广大农民提供操作简单、基于智能新技术的应用系统及构建农业技术信息资源库和远程网络平台,是满足“大众化需求”、实现“数字农业”最有效的途径和手段。

茶树害虫及其防治领域的应用技术研究和信息化资源库建设日臻发展,中国农业科学院茶叶研究所茶树害虫成虫标本收集系统已开始运行(详见网址http://www.chinateaprotection.com),成虫标本信息库也正在不断扩充之中。如何进一步提升成虫标本信息库资源的利用价值,开发适合于茶农的简捷易学并能自主获取农业技术和服务的应用系统,将推进茶树植保信息化数字化智能化发展的进程,而应用系统的技术核心就是准确智能地鉴别茶树害虫。

当今,互联网技术、图像处理和模式识别新技术及相关理论正在飞速发展,为开发昆虫智能识别系统提供了极大的技术可行性和广阔的实现途径。由于昆虫智能识别应用系统具有节省人力、快速和智能化等优点,已经成为“农业数字化”领域的研究热点之一。目前,基于图像的昆虫自动识别研究属于多学科交叉研究,涉及昆虫学、图像处理技术、模式识别和人工智能等科学领域。国内外学者利用这些技术和理论对昆虫自动识别做了许多研究,研究对象从昆虫标本到活体昆虫[4-6],研究目的从单纯的昆虫分类[7-8]到实际应用[9-10]。虽然研究对象和研究目的不同,采用的具体方法有所区别,但是,基于图像的昆虫自动识别的研究步骤仍保持了“昆虫图像采集、图像预处理、昆虫特征提取与优化、模式识别和计数”等流程模块。其中,昆虫特征提取与优化从基于图像几何、纹理和颜色的特征算法[11-12]转向基于视觉特征的小波变换、连通区域计数等算法[13-15],以及多特征融合算法;模式识别(分类)技术从二叉树识别、模板匹配法和模糊模式识别等图像库搜索技术[16-19],发展到反向传播算法(back propagation algorithm,简称BP算法)、支持向量机(support vector machine,SVM)等智能算法技术[20-25],特别是多个应用系统付诸于实践[26-30]并在相关领域取得了进展。

本研究旨在通过分析和比较国内外昆虫图像特征提取和优化方法、智能识别算法和应用系统的优缺点基础上,以茶树尺蛾科典型害虫的成虫为主攻对象,依据昆虫分类识别研究方法的基本流程模块,力争在智能识别体系构建思路、办法和途径上有所创新。

1 智能识别技术的核心思想

1.1 特征组合的可分性

突出昆虫分类鉴定中经常采用的多位专家联合鉴定的实用模式,基于专家拥有对局部特征信息的引入、增强和应用等专业知识之上,遵循不同专家对自己关注的局部特征拥有显著的信息感知力、综合识别力等分类鉴别能力的基本判断,提出了图像特征信息组合(特征组合)的可分性(Separability,设为s),并认为特征组合的可分性不是单纯的图像信息函数,而是与分类识别目标和智能算法(视专家判断为某种智能算法)及高识别率(专家鉴别的高水平)等因素密切相关。

1.2 智能算法的切合度

鉴于不同专家对相同的特征组合有可能拥有同样的高感知能力(视为智能算法)和高鉴别能力(智能算法识别率),即特征组合下有多种智能算法具备专家型高识别力,定义智能算法数为特征组合的智能算法切合度(Algorithm fit,设为r),将高识别率(比如80%)作为优选特征组合下智能算法最佳拟合条件,定义高识别率为特征组合的智能算法识别率(Recognition rate,设为rel)。

1.3 三维空间结构

遵循多专家联合鉴定的思想,应用系统理论和优化理论为研究方法,以实践计算结果为认证手段,以专家型高识别率为优选指标,从能凸现应用系统高效、实用的3个指标集(特征信息集、智能算法集、专家型识别率)中优选出具备专家鉴别能力的“三维空间结构”单元,构建基于图像特征信息的智能识别关键技术之三维空间结构知识库研究模型,并以茶树尺蛾科典型成虫为例,通过实践数据计算及其结果认证来研究办法的可行性,为构建茶树害虫智能识别关键技术之三维空间结构知识库提供可行的非图像库搜索智能识别技术方法和实践途径,以此引起茶树植保研究人员对智能应用系统研究的关注和参与。

2 智能识别关键技术构建及路线图

面对茶树害虫成虫分类鉴定问题,在继承和借鉴传统的研究理论、计算技术和实现步骤的基础上,本研究将突出系统性最优化研究思想与数学计算实践方法相融合,定义了以特征信息组合的可分性、算法切合度和分类识别率等度量指标新概念,提出了构建茶树目标害虫成虫智能识别关键技术之三维空间结构知识库V{s,r,rel}的技术方法和实践途径。

2.1 智能识别关键技术构建

2.1.1 图像特征信息

探索、研究目标害虫成虫特征组合的可分性(即对目标害虫成虫具有高识别率的特征组合)的内涵、优选技术和评价指标,并通过实践数据的数学运算结果选取可分性最优组合。

2.1.2 智能分类算法技术(智能识别算法)

尝试和体现多学科交叉研究方法的优势,综合昆虫学、图像处理技术、模式识别和人工智能等传统理论[3],比较现有智能识别算法研究成果及存在的优缺点,遵循既要重视单个学科理论的应用,更要重视特征组合优化、算法收敛性、目标误差、运算量、收敛误差等算法技术优劣指标,突出应用时的实用性和有效性,科学地定义和构建特征组合与快速智能识别算法技术间的切合度的内涵和综合评价指标集,提出特征组合的算法切合度的度量办法。

2.1.3 智能识别体系构建办法和实现途径

融合几何、纹理和颜色等特征信息,将原始图像特征组合信息提前到智能算法技术优选和指标评价的数学计算实践阶段,对特征组合的可分性、算法切合度和分类识别率进行多目标优化筛选;同时,突出专家鉴定中对显著性局部特征信息的引入、增强和应用的智能识别模式,通过实践数据计算认证,构建茶树尺蛾科典型害虫成虫智能识别关键技术之三维空间结构知识库V{s,r,rel},为开发实用的茶树害虫智能识别应用系统探索获取关键技术的新方法和新途径。

2.2 智能识别关键技术路线

路线图见图1。

图1 智能识别技术路线图Fig.1 Roadmap of technique for intelligent identification

3 三维空间结构知识库研究模型V{s,r,rel}及计算方法

按标准化方式采集茶树尺蛾科典型害虫成虫的原始图像,选择合适图像特征算法提取n维特征信息,对所有的i维特征组合ssij的训练集数据sxsij和测试集数据scsij,选择智能算法ak进行实践计算,根据计算结果分析i维特征组合ssij与智能算法ak的“切合度”评价指标值rk(算法收敛性sssijk、目标误差ssoijk或收敛误差sseijk、收敛总步数ssbijk等),以及训练集识别率rel*ijk和测试集识别率relijk,通过设定算法切合度优化筛选条件rtj,选出符合优选条件的i维特征组合ssij,构建i维高可分性特征组合sik、算法切合度rik指标集和识别率relik,即三维结构单元{sik,rik,relik};再对在不同算法ak下所得的三维结构单元{sik,rik,relik}进行相同sik进行重复计数可得算法切合度rik,对relik极值整合得算法切合度relik,组合成茶树害虫成虫智能识别关键技术之三维结构单元{sik,ri,reli}。其内涵就是:在特征组合sik下存在ri个有效的分类智能算法,均有接近reli分类识别能力,所有三维结构单元{sik,ri,reli}构成目标害虫智能识别关键技术之三维空间结构知识库V{s,r,rel},其研究模型及计算办法简述如下。

3.1 算法ak下第j个i维特征组合ssij算法切合度rijk和分类识别率rel*ijk、relijk的计算

式中:∝―与...有关;ak―第k种算法;ssij―含i个特征信息的第j种组合;sxsij―第j个i维特征组合ssij对应的训练集数据;scsij―第j个i维特征组合ssij对应的测试集数据;sssijk―基于算法ak和第j个i维特征组合ssij下收敛性;收敛sssijk=1,不收敛sssijk=0;ssoijk,sseijk―基于算法aj和第j个i维特征组合ssij下收敛性目标误差和收敛误差;ssbijk―基于算法ak和第j个i维特征组合ssij下算法收敛的总计算步数;re―基于算法ak下相对于第j个i维特征组合ssij训练集数据sxsij的分类识别率;relijk―基于算法ak下相对于第j个i维特征组合ssij测试集数据scsij的分类识别率;rijk―基于第j个i维特征组合ssij训练集数据的算法ak的收敛性、设定误差和收敛误差、总步数等算法切合度指标集。

3.2 算法ak下满足筛选条件rtj的i维特征组合sik之三维结构单元{sik,rik,relik}

式中:筛选条件rtj为收敛sssijk=1、re≥90%、re≥80%;目标误差或收敛误差(ssoijk,sseijk)较小,总步数ssbijk不大(运行量不大);sik―基于算法ak满足筛选条件rtj的i维“高可分性”特征组合;{sik,rik,relik}―基于算法ak满足筛选条件rtj的三维结构单元。

3.3 智能识别关键技术之三维空间结构知识库V{s,r,rel}之结构单元{sik,ri,reli}

式中:ri―对“相同特征组合”的sik进行重复计数,称为特征组合sik的算法切合度,寓意存在ri个智能算法具备满足优选条件(类似有ri个专家通过对特征组合sik观察实现高识别率分类鉴定能力);reli―对“相同特征组合”sik的识别率relik进行极值计算,构建对i维特征组合sik“分类识别率”区间。

4 茶树尺蛾科典型害虫成虫智能识别关键技术的应用

以数学实践计算研究方法分析和获取图像特征信息所有特征组合的可分性、算法切合度和分类识别率等度量指标及相互关系,通过设立筛选条件体现智能识别关键技术的实用性、有效性,构建尺蛾科典型害虫成虫智能识别关键技术之三维空间结构体系V{s,r,rel},实验计算取得了预料的研究结果。

4.1 特征信息维、智能识别算法的选择和三维结构单元的构建

本研究以茶树尺蛾科5种典型害虫的成虫作为分类目标对象,选择面积、周长、长宽比、矩形度和复杂度5个图像特性作为几何特征信息维,选择BP、SVM和分类回归树算法(classification and regression tree,CART)作为分类智能算法ak(k=1,2,3),分别对所有的特征信息组合ssij(i=1,2,…5;j=1,2…)进行实践计算,计算获取所有特征信息组合ssij的可分性sik、算法切合度rijk、分类识别率re和relijk,通过预设的筛选条件和实践计算获取有效的预设的三维结构单元{sik,ri,reli},构建茶树尺蛾科典型害虫成虫智能识别关键技术之三维空间结构知识库V{s,r,rel}。

4.2 实践环境与计算结果

本实践按尺蛾科害虫成虫的本体占3/5图像面积的标准进行干体标本照相获取原始图像,选择茶树尺蛾科5种典型的害虫成虫(茶尺蠖、茶银尺蠖、茶用克尺蠖、木橑尺蠖和油桶尺蠖)作为实验的分类目标对象,共获取120幅原始图像,并选取90幅图像作为训练数据集sxs,30幅图像作为验证数据集scs,选择BP、SVM和CART智能算法进行仿真计算。其实践计算结果见表1至表3。

表1 在BP(a1)算法下二维特征组合ss2j对应的r2j1、、rel2j1的计算结果Table 1 Calculation results of r2j1,,rel2j1for two dimensional feature combination ss2jbased on BP

表2 在BP算法(a1)下i维特征组合ssi1的三维结构单元{si1,ri1,reli1}的筛选结果Table 2 Screening results of three-dimensional structural unit{si1,ri1,reli1}for i dimensional feature combination ssi1based on BP

观察所有特征组合ssi1对应的rijkre、relijk的计算结果,可见特征维度的增加并没有带来可分性、切合度和识别率的相应提升,甚至出现不收敛或收敛误差大于目标误差的训练网络。因此,由“矩形度、复杂度”特征组合构成了BP算法下满足筛选条件的唯一的可分性组合,其对应的三维结构单元可表示为{s21,r21,rel21}。

表3 3种算法ak下满足筛选条件的三维结构单元{sik,rik,relik}汇总及说明Table 3 Summary description of three-dimensional structural unit{sik,rik,relik}that meet screening conditions based on three algorithm

5 结论与展望

本研究计算采用3种算法进行实践,构建了茶树尺蛾科5种典型害虫成虫智能识别关键技术之三维空间结构知识库V{s,r,rel}={{s21,r21,rel21},{s32,r32,rel32},{s23,r23,rel23},{s33,r33,rel33}}。比如,特征组合{矩形度、复杂度}具有优良的可分性,算法切合度为2(BP、CART),分类识别率在80.00%~86.67%。根据实践计算结果显示,矩形度和复杂度具有较好的可分性、识别率和算法切合度,作为茶树尺蛾科典型成虫的智能识别特征信息组合是有效的和可行的,其实现途径可选择BP算法或CART算法。

本研究提出的智能识别关键技术之三维空间结构知识库的研究思想和实现途径,尽管只在茶树尺蛾科5种典型害虫成虫的图像几何特征信息上取得了预期结果,可用于辅助识别和进行昆虫分类;但仍可以期待,当引入颜色特征、纹理特征,选择更多的智能算法,进行更多的实践计算时,也许能取得类似的预期的好结果。当然,随着特征信息维度的增加,实践计算工作量会指数级上升,找到可分性更好、算法切合度更高的特征信息组合之三维结构单元仍需进一步实践、研究和认证。同样,从“科”分类阶元研究如何推广到“目、纲”分类阶元,更是有待有志于此项研究的科技工作者的共同努力。

志谢:本研究得到了中国农业科学院茶叶研究所殷坤山研究员在茶树尺蛾科典型害虫成虫的形态鉴别特征方面的指点,特此感谢!

[1] 黄大卫.新世纪的中国昆虫系统学[J].昆虫学报,2003,46(1):90-95.

[2] 李清西.计算机在昆虫分类学中的新用途[J].昆虫分类学报,2000,22(2):153-156.

[3] 姚青,吕军,杨保军,等.基于图像的昆虫自动识别与计数研究进展[J].中国农业科学,2011,44(14):2886-2899.

[4] Weeks P J D,O'Neill M A,Gaston K J,et al.D.Automating insect identification:exploring the limitations of a prototype system[J].Journal of Applied Entomology,1999,123(1):1-8.

[5] 赵汗青,王小艺,杨忠岐,等.利用图像对白蜡窄吉丁的自动识别[J].植物检疫,2006,20(5):286-287.

[6] Boissard P,Martin V,Moisan S.A cognitive vision approach to early pest detection in greenhouse crops[J]. Computer and Electronics in Agriculture,2008,62(13):81-93.

[7] 赵汗青,沈佐锐,于新文.数学形态学在昆虫分类学上的应用研究.Ⅱ.在总科阶元上的应用研究[J].昆虫学报,2003,46(2):201-208.

[8] 王庆林,夏敏,杜瑞卿,等.粗糙集理论在昆虫分类学上的应用[J].动物分类学报,2005,30(3):478-483.

[9] 周红,王宏坡.基于Visual C++.NET的昆虫图像自动识别系统的研究[J].天津农学院学报,2005,12(2):39-41.

[10] 李志刚,傅泽田,史岩.棉花虫害自动识别和智能决策系统设计:基于机器视觉系统[J].农机化研究,2006(7):122-124.

[11] 刘德营,丁为民,赵三琴.稻飞虱图像形状和颜色特征提取的研究[J].江西农业学报,2009,21(5):97-98.

[12] Park Y S,Han M W,Kim H Y,et al.S.Density estimation of rice planthoppers using digital image processing algorithm[J].Korean Journal of Applied Entomology,2003,42(1):57-63.

[13] 张红涛,毛罕平,邱道尹.储粮害虫图像识别中的特征提取[J].农业工程学报,2009,25(2):126-130.

[14] 竺乐庆,张真,张培毅.基于颜色直方图及双树复小波变换(DTCWT)的昆虫图像识别[J].昆虫学报,2010,53(1):91-97.

[15] 牟少敏,孙永香,朱红梅,等.昆虫图像的自动计数方法的研究[J].仪器仪表学报,2003,24(4):426-427.

[16] 张红梅,范艳峰,田耕.基于数字图像处理技术的储粮害虫分类识别研究[J].河南工业大学学报:自然科学版,2005,26(1):19-22.

[17] 黄世国.基于图像的昆虫识别关键技术研究[D].西安:西北大学,2008.

[18] 程蕾.基于局部特征几何结构的目标识别方法研究[D].合肥:中国科学技术大学,2009.

[19] 程小梅.基于图像的昆虫识别研究与设计[D].西安:西北大学,2008.

[20] 刘芳,沈佐锐,张建伟,等.基于颜色特征的昆虫自动鉴定方法[J].昆虫知识,2008,45(1):150-153.

[21] 方明,周龙.基于BP神经网络的储粮害虫分类识别研究[J].武汉工业学院学报,2009,28(4):70-73.

[22] Larios N,Soran B,Shapiro L G,et al.Haar random forest features and SVM spatial matching kernel for stonefly species identification[C]∥Proceeding of 20th International Conference on Pattern Recognition.Seattle,WA,USA:University of Washington,2010:2624-2627.

[23] 甄彤,范艳峰.基于支持向量机的储粮害虫分类识别技术研究[J].计算机工程,2006,32(9):167-169.

[24] 齐丽英.基于多特征综合的昆虫识别研究[J].安徽农业科学,2009,37(3):1380-1381.

[25] 胡玉霞,张红涛.基于模拟退火算法-支持向量机的储粮害虫识别分类[J].农业机械学报,2008,39(9):108-111.

[26] 高灵旺,沈佐锐,李志琦,等.基于二叉分类推理的昆虫分类辅助鉴定多媒体专家系统通用平台Taxo Keys的设计与开发[J].昆虫学报,2003,46(5):644-648.

[27] 张小斌,陈学新,程家安.基于Web中国昆虫科级鉴别分类系统Insect ID的设计与开发[J].昆虫分类学报,2006(1):102-105.

[28] Larios N,Deng H,Zhang W,et al.Automated insect identification through concatenated histograms of local appearance features:feature vector generation and region detection for deformable objects[J].Machine Vision and Applications,2008,19(2):105-123.

[29] 刘军,耿国华,任治斌.基于多结构元素的农作物病虫识别系统[J].计算机工程与设计,2009,30(6):1488-1490.

[30] 黄世国,周明全,耿国华.一种角度无关的Gabor-SVM昆虫识别[J].小型微型计算机系统,2010,31(1):143-146.

Study on technique for intelligent identification of typical geometridae adults in tea tree

WU Alin1,ZHOU Xiaogui2,XIAO Qiang2
(1.School of Sciences,Zhejiang University of Science and Technology,Hangzhou 310023,China;2.Tea Research Institute of Chinese Academy of Agriculture Sciences,Hangzhou 310008,China)

To design application system of intelligent identification of the typical geometridae adults in tea pests,this paper presented a kind of research idea of three-dimension special structure of intelligent identification.The key technology is based on image features such as separability structures,algorithm fit and identification rate.It was systematically elaborated on aspects of the implication,indicators system,screening conditions,researching model and the practices of this three-dimension special structure.Identifying the typical moth in family geometridae of tea pests was cited as a feasibility study example of research method and implementation way.In addition,the realization of intelligent identification key technology knowledge was previewed in this paper.

tea tree;geometridae;image features;three-dimension special structure;intelligent identification

TP391.41;S435.711

A

1671-8798(2014)03-0192-07

10.3969/j.issn.1671-8798.2014.03.007

2014-04-26

国家科技基础性工作专项(2008FY210500);浙江省教育厅科研计划项目(Y201224733)

吴阿林(1963― ),男,浙江省东阳人,副教授,主要从事计算数学、计算力学、图像处理和信息管理系统等研究。

猜你喜欢
智能算法识别率茶树
茶树吸收营养物质的特性
神经网络智能算法在发电机主绝缘状态评估领域的应用
平和白芽奇兰的修剪技术要点
幼年茶树如何定型修剪
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
山茶树变身摇钱树
提升高速公路MTC二次抓拍车牌识别率方案研究
从鸡群算法看群体智能算法的发展趋势
档案数字化过程中OCR技术的应用分析