张翔鹤 王晓丽,3 刘婷婷,3 胡 林 樊景超,3*
(1.中国农业科学院农业信息研究所,北京 100081;2.国家农业科学数据中心,北京 100081;3.农业农村部农业大数据重点实验室北京 100081)
数据库(集)基本信息简介
我国是果业大国,随着我国经济结构的调整,果品产业已成为我国种植业的第三大产业。但是我国水果需求量仍然很大,根据国家统计局数据显示,近几年我国水果进口数量均大于出口数量。2020 年我国水果出口金额为68.32万美元,进口金额为115.6万美元。究其原因,是我国出口的水果达不到进口国的水果质量标准。近年来,人们对高质量产品的需求不断提高,如何生产出高质量的绿色有机水果已经受到了社会各界的广泛关注。对果园的治理包括疏花疏果、树体保护、灾害防治等措施,及时观察、测报和随时清理果园中的病虫源是最为有效措施。果园虫害轻则导致果园减产,重则导致果树损毁。现阶段,我国果园病虫害造成投入成本高,病虫害的发生造成的直接经济成本约为总成本的十分之一以上。对病虫害的防治成本约为总成本的百分之四十以上。果园病虫害种类繁多,过去的果园病虫害监测和防治已经很难满足当前时间、空间和成本上的需求,而基于图像识别技术对果园害虫进行精准识别,能够降低成本,精准治理果园,提高果实质量,增加收益。通过害虫图像对其种类进行精准识别,对果树进行害虫情况预测,进而针对具体害虫进行精准用药或者引入天敌生物等措施[1],达到精准治理病虫害。由此看来,果园害虫的分类识别对果园综合治理至关重要[2-3]。本研究收集了果园中常见的六种害虫的图像数据,对开展果园害虫的机器识别提供了基础图像数据。
随着深度学习技术和计算机图像处理水平的快速提升,诸多学者也采集了很多果园害虫图像数据用以机器的深度学习训练。李文勇[4]设计了一套果树害虫采集系统,采集各种果树害虫的图像数据,并以此研发了一种基于机器视觉的果园性诱害虫在线识别与计数方法;程鲁玉等[5]也依据果林害虫的图像数据,根据机器视觉方法提取害虫图像特征,从而实现了果林中果害虫图像特征高效分类识别,能够为果林病虫草害的诊断提供有力依据;田冉等[6]则将工业相机采集的果园害虫图像数据和红外传感器识别结果相结合,得到一种红外传感器与机器视觉融合的果树害虫识别和计数方法,可以一定程度上提高害虫的识别准确率。
此外,对于有记载的可信度高的同类调查数据集,山东农业大学相关研究人员[7]对北京昌平等地苹果园的虫害进行调查,含有采集地、采集部位、采集人、采集单位等数据。当前我国果园病虫害数据的收集,主要集中于对害虫资源的发生危害信息,害虫本身的图像数据集较少。
本数据集通过网络搜索引擎收集了果园常见的六种害虫:桔小实蝇、金龟子、梨小食心虫、青叶蝉、星天牛和柑桔大实蝇的原始图像数据,并对模糊不清、分辨率低和尺寸不一的图像进行筛选,最终得到可用于图像识别技术的图像1613 张。并提供其中三种害虫的显著度图像,可用于进一步的害虫分类研究。本数据集为果园害虫相关研究提供了数据基础。
本数据集的测试对象为果园害虫,经过文献调研和资料调查,选取六种最常见的害虫图像,通过网络爬虫和搜索引擎获取。基于建立的模型,其适用度有所不同,考虑到一般的显卡容量以及运行时间,对图片尺寸的要求为100~300px之间[8]。收集到的图像样本数据量如表1所示。
表1 果园害虫图像样本数据量Tab.1 Orchard pest image sample data
对于本数据集中的显著图图像数据,由于图像质量对模型的构建至关重要,并且决定了后续相关研究提取昆虫特征的有效性,因此图像处理方法至关重要。对于害虫图像的有效特征提取,有很多种方法,如蚁群优化算法等[9],本数据集采用反卷积方法,能够选取最有效、最适合构建模型的原始图像的样本[10]。本数据集采用的实验设备是一台联想Thinkstation图形工作站,显卡是Nivida Quadro K4000显存3GB,GPU运算能力是3.0。
选定适量的测试集,预先对AlexNet 网络模型进行训练,达到一定效果后,对本数据集收集的害虫图像进行反卷积可视化[11-12],反卷积可视化方法可以有效遴选适合进行模型构建的原始图像样本[8]。通过所得图像判断当前图像能否有效提取害虫特征,第一层识别图像不显著,再对图像进行第二层反卷积可视化。如此,便得到原始害虫、低维特征、特征组合以及全局的高位特征图像,如图1所示。
图1 害虫图像反卷积可视化Fig.1 Pest image deconvolution visualization
由此,通过反卷积过程提取到有效的害虫的识别特征,将这些样本遴选出来作为高质量的样本集合。由于每一类害虫的图像数据样本量不一致,分辨率高低不一致,训练精度往往会因此降低。所以,将每一类害虫的数据样本量控制在一定范围内,适量删减其分辨率不一致的图像,最终得到总样本集合799 张显著图,这些高质量的样本图像数据便可以直接用于神经网络的训练和验证。
每一类害虫的图像数据保存为一个文件夹,命名方式为“品种名称”。该文件夹包含原始数据和两层显著图数据,命名方式为“原始图像”、“第一层识别图像”和“第二层识别图像”。内部文件命名方式为“品种名+序号”。部分样本示例如图2 所示。本数据集共收集保存桔小实蝇原始图像372 张,第一层识别图像372张,第二层识别图像372张;柑橘大实蝇原始图像217 张;金龟子原始图像418 张,第一层识别图像38 张;梨小食心虫原始图像497 张;青叶蝉原始图像58 张,第一层识别图像18 张;星天牛原始图像54张。
图2 桔小实蝇原始图像、第一层识别图像、第二层识别图像Fig.2 The original image of Bactrocera dorsalis,the identification image of the first layer and the identification image of the second layer
在数据收集和整理过程中,原始图像尺寸控制在100-300px 之间,并对原始样本图像数据进行机器识别,提取其特征。运用反卷积遴选方法,对提取出有效特征的样本进行筛选,从而得到高质量的具有有效特征的样本。再对这些提取出有效特征的样本进行删减,将分辨率控制224。最终得到高水平的数据集:显著图分辨率一致,并且均具备有效特征。
此外,在拍摄图片的复杂背景下分割出害虫图像,从而提取有效的特征信息,是相对复杂的[13]。本研究采集的害虫图像背景简单,也为分割图像提取特征提供了方便。随着现代图像处理技术的发展,复杂图像的识别分割将不会是难题。
本数据集是经过大量搜索提纯后得到的高质量数据集,除了原始图像数据集,对于拥有清晰昆虫特征的图像数据,提供机器识别后的显著图,包括神经网络第一层和第二层的识别图,可以直接用以相关研究,如研究建立昆虫识别模型等[14-15]。
利用图像数据,进行特征提取后,借助SVM 分类器等进行昆虫种类的智能识别[16-17]。此外,使用数据集时可以直接对六种害虫,分析其图像特征,针对这些特征研究制定防范虫害的措施等[18]。
数据作者分工职责
张翔鹤(1997—),女,山东青岛人,硕士,研究生,主要从事农业科学数据管理与分析研究。主要承担工作:数据汇总整理及论文撰写。
王晓丽(1982—),女,河北栾城人,博士,助理研究员,主要从事农业科学数据管理与分析研究。主要承担工作:数据整理与分类汇总。
刘婷婷(1985—),女,北京人,硕士,助理研究员,主要从事农业科学数据获取与研究。主要承担工作:数据集整合与处理。
胡林(1967—),男,内蒙古商都县人,博士,研究员,主要从事科学数据管理相关研究。主要承担工作:总体方案设计与组织实施。
樊景超(1980—),男,辽宁沈阳人,博士,副研究员,主要从事农业科学数据管理与分析研究。主要承担工作:图像数据采集,总体方案设计与组织实施。
引用数据
[1]张翔鹤,王晓丽,刘婷婷,等.桔小实蝇等六种常见果园害虫图像数据集[DB/OL].国家农业科学数据中心.DOI:10.12205/asda.j00003.00008.
Zhang X H,Wang X L,Liu T T,et al.Image data set of six common orchard pests such as Bactrocera dorsalis[DB/OL].National Agriculture Science Data Center.DOI:10.12205/asda.j00003.00008.