袁媛 ,陈雷
1.中国科学院合肥物质科学研究院,智能机械研究所,合肥 230031
2.国家基础学科公共科学数据中心,北京 100190
葡萄是重要的经济作物,在世界多个国家和地区广泛种植。我国葡萄栽培面积大且产量较高,据国家统计局2019年的数据显示,仅葡萄园种植面积就有72.62万公顷,年产量高达 1419.54万吨。葡萄病虫害是直接影响葡萄产量和品质的关键因素。随着栽培方式的改变和栽培面积的扩大,葡萄病虫害种类逐渐增多,病虫害的威胁逐渐加大[1]。
人工智能、大数据和计算机视觉技术的发展为农作物病虫害图像识别提供了新方法。尤其是2006年Hinton提出深度学习[2]以来,在诸多领域尤其是图像分类方面取得了显著的效果。然而,深度神经网络方法的使用需要有较大规模的训练数据,其数据的规模和质量在很大程度上决定了训练的效果。葡萄病害图像识别需要大规模的葡萄病害图像基础数据。文章作者在有关项目的支持下,通过采集、整合数据,建设了农业病虫害研究图库(IDADP)[3],涵盖农业病虫害图像采集、分类、标记、存储与建模等多方面的内容,面向科研学者与农技人员两大类用户群体提供农业病害在线诊断及相关的技术咨询等服务。此次发布的数据集是IDADP中的葡萄病害图像资源,共计7种病害3622张图像,可为机器学习建模提供训练和测试样本。
由于IDADP-葡萄数据集和《大田作物病害识别研究图像数据集》[4]的数据采集和处理方法、数据存储和管理、数据质量控制和评估、使用方法等都相同,因此这些部分请参考关联文献[4],具体不再赘述,两者的比较如表1所示。两个数据集都属于IDADP,由于病害种类多,数据采集及整理需要时间,因此仅当数据集满足深度神经网络建模的需求时发布。
表1 数据集比较Table 1 Dataset comparison
数据集依然以图像数据库形式进行存储与管理,此处以葡萄病害数据为例作为示范,具体如表2所示。本数据集中的部分图像样本示例如图1所示。
图1 葡萄病害识别研究图像数据集中的样本示例Figure 1 Examples of the grape disease image dataset
表2 葡萄病害图像数据词典的数据表字段与示例Table 2 Data table fields and examples for the grape disease image data dictionary
由于数据版权原因,本文所上传的图像数据已进行适当压缩,如需获取更高质量的图像数据请前往图库网站[3]或联系作者。
致 谢
感谢安徽省农业科学院黄亮、陆丽娟提供葡萄病害图像拍摄基地,并协助对葡萄病害图像进行鉴定与分类。
数据作者分工职责
袁媛(1981—),女,安徽省肥东县人,博士,副研究员,研究方向为计算机视觉方法及在农业病害图像识别中的应用。主要承担工作:本数据集原始数据的采集、整理与相关软件工具的研发。
陈雷(1981—),男,安徽省巢湖市人,博士,副研究员,研究方向为机器学习理论方法及在大数据环境下的应用。主要承担工作:本数据集平台的规划、建设和维护。
中国科学数据(中英文网络版)2022年1期