马艳兰,木 霖,曹志勇,高 俨,郭 晋,陈云辉,刘梦然
(1.云南省农业环境保护监测站,云南昆明 650201;2.云南农业大学,昆明黑龙潭 650201)
随着互联网、云计算、大数据等信息技术的快速发展,可为数据量庞大的云南省农业环境与农产品质量现状调查与安全评价提供数据支撑与保障。云南省农业环境保护工作在实施耕地及农产品协同监测中,不能及时可视化、电子化、信息化,工作模式严重滞后于国家倡导的“智慧农业、数字农业”,严重影响了全省耕地土壤环境质量与农产品质量安全评价的时效性与效率,结合云南省实际,基于云技术的云南省农用地土壤环境质量协同采样系统开发及应用数据库的构建,通过大数据平台及技术,对土壤及农产品的采样、质控、汇总、分析等过程提供云技术服务,实现耕地土壤和农产品调查、采样的可视化、实时化、科学化、空间化,以提高工作效率与数据的分析处理能力。
土壤是经济社会可持续发展的物质基础,关系人民群众身体健康,关系美丽中国建设,保护好土壤环境是推进生态文明建设和维护国家生态安全的重要内容。耕地是农产品生产的源头,耕地土壤环境质量直接影响农产品质量。定期或不定期的对全省耕地土壤环境质量现状进行监测与评价,是保护耕地土壤可持续发展及农产品质量安全的基础。但是长期以来,全省农业环境保护系统的科技人员在实施耕地及农产品协同监测样品采集、采样质量控制、样品流转、样品制样与样品分析等一系列工作中依然采用传统的作业模式,做不到实时可视化、电子化、信息化,这种工作模式严重滞后于国家倡导的“智慧农业、数字农业”,严重影响了全省耕地土壤环境质量与农产品质量安全评价的时效性与效率的提高。
农用地土壤环境质量协同采样系统通过地图网格化,经纬度定点,土壤样本采集、食用农产品样本采集,样本实验分析,同时通过数据挖掘和分析技术,找准土壤、食用农产品数据的潜藏价值及联系,有效直观地呈现云南省土壤环境质量现状和趋势,为云南省耕地土壤环境质量和农产品质量安全相关活动的发展规划、指导、监督、管理,提供数据支持。系统建设主要包括以下内容:
整个平台采用基于主流Hadoop的发行版本CDH (Cloudera’s Distribution Including Apache Hadoop)作为数据存储和计算的基础平台。平台采用分层式的架构模式,具有松散耦合、逻辑复用等特性,可及时响应业务需求变化和高效应对平台的扩展,其架构如图1。
1.农业环境大数据融合管理平台。通过数据融合任务,将已有的各个部门、州(市)的土壤相关数据、农产品数据、污染面源数据等从各个系统中抽取到平台或通过Excel、CSV数据格式导入到平台中,并进行数据的清洗、转换和存储。数据融合平台负责多数据源融合、大数据平台管理、系统基础支撑管理、系统监控。在整个项目中总领“心脏”的角色,为整个项目的平稳有效运行保驾护航。
完成功能:
(1)开发Hadoop集群进行统一的管理和监控功能;
(2)开发Spark作业提交、任务监控和资源调度、任务提交管理、任务队列管理、任务删除管理、任务执行策略管理、任务状态管理功能;
(3)实现平台使用Sqoop组件对外围业务系统的关系型数据库数据的抽取;
(4)使用Oozie组件对数据抽取任务的计划调度管理;
(5)开发对数据抽取任务的监控;
(6)开发对Excel数据表格、CSV数据表格数据的处理与导入功能;
(7)开发对大数据平台组件:HDFS、HBase、Hive、Impala、Zookeeper、Sqoop、Spark、Yarn、Oozie、Solr的健康状态的实时监控、对大数据平台各个节点的CPU、内存、IO使用率的实时监控功能;
(8)开发对大数据平台组件:HDFS、HBase、Hive、Impala、Zookeeper、Sqoop、Spark、Yarn、Oozie、Solr的日志的实时监控、日志统计分析功能;
(9)开发对大数据平台的分角色和应用的权限管理;
(10)开发系统的基础管理功能包括:用户管理、角色管理、权限管理、菜单管理;
(11)开发系统监控功能:CPU、内存、JVM使用率实时监控仪表盘、系统操作日志管理。
2.云南省耕地土壤环境质量专题成果基础档案分布式数据库。负责现场采集app或无人机采集回传的耕地土壤图片、视频,以及包括PDF文档、Word文档成果报告、GIS相关数据等结构化或非结构化数据的分布式存储,确保数据的规范性与标准性,并对外提供数据访问、数据检索、数据交换等共享服务。
非结构化存储使用Hadoop框架中的HDFS分布式文件系统,具备高度容错性,适合部署在廉价的机器上。同时其能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
对于其他结构化的农业耕地土壤详查数据、专题成果基础档案数据、农田资料数据、农业资源等数据,通过数据融合后,使用HBase分布式数据库进行数据存储,利用其特点可在廉价PC Server上搭建起大规模结构化存储集群。
完成功能:
(1)实现HDFS/HBase分布式存储框架存储耕地土壤详查数据、专题成果基础档案数据的结构化数据;
(2)实现HDFS/HBase分布式存储框架,存储采样调查中的图片、视频等非结构化数据;
(3)实现使用分布式计算引擎Spark/MapReduce2对耕地土壤数据、农产品数据进行批处理计算和分析;
(4)实现流式计算框架Spark Streaming对实时流数据进行分析计算;
(5)实现分布式数据仓库Hive和Impala对耕地土壤数据、农产品数据构建数据模型并进行存储;
(6) 实现Yarn对计算资源的统一调度和管理;
(7)开发耕地土壤数据、农产品数据的数据目录功能;
(8)开发耕地土壤数据、农产品数据的数据目录服务功能;
(9)开发耕地土壤数据、农产品数据的数据共享交换服务功能;
(10)开发数据共享交换服务的安全保障功能。
3.云南省耕地土壤环境质量数据平台及分析系统。
一是采样任务管理。负责现场采集任务管理、采样数据管理、采样数据汇总分析。担任整个项目中“管家”的角色,任务的操控、数据的采集、进度的统计都由云南省耕地土壤环境质量数据平台及分析系统管理运作。
管理员可以对采样任务进行新增、删除、查询、修改等管理操作。
每个采样点系统会生成唯一的编码(点位编码)。后续采样检测结果会依据该编码进行回填。采样任务包括土壤采样、农产品采样、污染物采样、其它等类型,创建时可选择任务类型。
二是任务监控。各区县可监控各个采样点队伍的采样任务完成情况。
各州市可监控下辖各个区县的采样任务完成情况。
省级管理员可监控各州市的采样任务情况。
三是现场采样app。采用app可接收平台下发的采样点任务,采样队伍收到任务后即可前往采样地点完成采样任务。采样队伍根据任务点位来到预定地点,可打开app进行采样,app调用拍照功能进行现场采样拍照。完成后,如有网络可进行上传,无网络则可暂存,等到有网络时进行上传。采样app自动记录拍照点位精确的经纬度信息,以及时间信息,上传采样任务数据时,自动上传经纬度和时间信息,确保采样质量。现场采样完毕后,样品送到实验室进行检测,检测结果出来后,需进入平台将采样检测结果回填到平台中。
样品经过实验室检测后,可根据采样点编码将采样检测结果回填到对应的采样任务中。填报完毕后,可提交数据进行审批校验。样品检测结果填报完毕后,提交审批员进行数据审批,审批完成后,任务状态变为已完成,采样数据进入通过数据接口进入分布式数据库中。对于非重点监测点位,如果采用无人机采集或其他手段采集,可以提供非重点监测点位数据的填报功能,按设定的表格填报完成后,提交审批,审批通过后,通过数据接口进入分布式数据库中。
完成功能:
(1)开发云南省耕地土壤数据平台,并封装到农业环境大数据融合管理平台;
(2)开发土壤采样任务的管理功能,支持采样任务系统自动生成;
(3)开发土壤检测结果填报系统,支持土壤采样任务监控功能、支持采样任务的催报功能、支持采样任务审批;
(4)开发移动端app,支持任务接收及数据回传功能;支持自动保存采样时间和采样点的经纬度坐标;
(5)开发云南省土壤基础信息数据管理功能;
(6)开发土壤检测化验数据汇总分析功能。
2019年2 月下旬,项目组到玉溪红塔区进行项目实地测试。根据项目需求书内容,实测了用户模块、任务中心模块和任务管理模块。在实测过程中,信息平台主要功能均得到实现。同时根据农业环境监测的要求,通过优化算法、增加样本点位核实功能等手段,对实测中GPS定位精度及协同检测工作流程质控手段进行了优化。
2019年3-4 月,采样app首先在师宗、罗平、会泽、鲁甸4县进行农产品采样试点工作。在工作过程中,不断与基层采样人员沟通、协同完善采样功能、优化质控手段、提高运行效率。项目组成员在培训过程中不断与采样人员进行沟通交流,听取基层工作人员对于软件使用过程中操作细节的建议,并将所有建议进行完整记录、汇总分类,之后对软件进行了完善和优化。
在师宗县试点过程中,共完成任务数724条,采样数556条,核实数724条,获得采样图片1439张,收集了11条意见,增添了手动添加任务功能,完善了数据采集表单内容,优化了数据同步功能,添加2个范围标识圈,对采集任务定位误差的距离做了更加符合基层意见的修改,进一步优化采样质量控制手段。经过对师宗县试点工作总结,形成通过“试点县培训+实操指导+获取修改意见”的软件迭代更新模式,并将该模式拓展到罗平县、会泽县、鲁甸县3县,不断完善软件功能和运行效率。
2019年3月23 日,到罗平县进行了培训,之后试点工作共完成任务数587条,采样数207条,核实数532条,获得采样图片572张,收集了8条意见,新增步行导航,采样界面显示经纬度及距离,同时在任务界面地图可切换卫星影像及电子地图功能。为进一步对采样进行质控,对采样样品表单修改添加偏移量、偏移说明等字段。
2019年4月2 日,到鲁甸县进行了培训,共完成任务数449条,采样数309条,核实数413条,获得采样图片1363张,获得3条修改意见,在移动端新增是否采样状态标识,并进一步优化采样字段。
会泽县试点工作,共完成任务数1127条,采样数720条,核实数645条,获得采样图片1323张,获得3条修改意见,对后台各县任务进度导出功能进一步优化,对样品数据关联导入核实数据进行了优化。
随后,在2019年下半年的普及推广过程中,共协助27个县完成7190条采集任务,获取140种农产品样本,经过专业检测机构评定,最终形成35950组检测数据并顺利入库。2020年,全省剩余98个县农产品协同检测样品采集、信息收集全部采用这个平台系统。据后台统计, 截至2020年7月24日,共完成省级下达任务数8899条,县级采样数5054条,核实数8475条,获得采样图片35 378张,达到了农产品协同监测采样、核实、数据收集实时质量控制要求。
项目进行过程中,前期与业务单位沟通不及时,部分技术内容未能准确表达业务意图。
开发后期通过与业务部门加强沟通,积极深入基层试点示范和培训,梳理基层意见,调整、优化软件功能,保证了项目对业务工作支持的可靠和可用。
通过数据库连接、抽取、电子表格数据导入、在线监测数据接入、数据上传接口等多种数据融合方式。但因没有或不能使用地图底图图层数据、土壤详细数据(包含云南省农用地土壤分布)、食用农产品详细数据(包含食用农产品分布、食用农产品种类)、土壤检测结果等数据,故不能快速生成全省土壤质量和农产品质量分析的分布情况、重点污染区域分布情况,暂不能为决策人员部署实施全省农业环境污染治理方案提供直观、有效、科学的依据。
为农业环境监测数据建立全省统一的采集标准和使用规范,为现有业务数据和未来数据融合以及使用提供统一标准和规范。
现有监测范围过窄,监测种类数据偏少(土壤和农产品),无法对农业生态环境监测信息统一发布形成有效支撑。
为推广应用农产品质量安全档案信息追溯,建立长期有效的农产品质量安全工作机制,为从农田到餐桌“舌尖上的安全”源头——农业环境质量现状打下基础。