王泽平,黄启厅,黄海荣,方 辉,颜梅新,李修华,李 翔*
(1.广西壮族自治区农业科学院甘蔗研究所/中国农业科学院甘蔗研究中心/农业农村部广西甘蔗生物技术与遗传改良重点实验室/广西甘蔗遗传改良重点实验室,广西 南宁 530007;2.广西大学,广西 南宁 530002)
随着物联网、云计算、移动互联网等信息技术的飞速发展,目前全球已步入大数据时代,大数据驱动传统农业向数字化和智能化方向转型,成为现代农业效率提升和产业结构优化的巨大推动力[1]。将数据转换为知识能力正成为衡量一个国家、一个行业科学研究水平的关键[2]。甘蔗产业作为关系广西民生的重要支柱产业,近几十年来整个产业链积累了大量数据和信息技术,为全面开展甘蔗农业大数据建设及向数字化种植管理发展打下了信息化理论基础并建立了数据应用优势,而在大数据基础上建立与之对应的标准体系,是产业链利用甘蔗农业大数据实现提质增效的前提和先决条件。长期以来,数字技术在甘蔗产业的普及应用及标准化程度都比较低,生产方式与几十年前相比变化不大,85%以上的面积还是散种散管,生产与科技两张皮现象严重[3]。笔者基于前期从事甘蔗种质、育种、农艺、植保、生物信息学等领域科研工作及科技特派员服务经历,于2020年首次提出了“数字蔗田”的概念,此概念建构到今天已渐趋清晰,如图1所示。“数字蔗田”是指将遥感(RS)、地理信息系统(GIS)、全球定位系统(GPS)技术(下称3S技术)以及多(高)光谱、计算机、通讯、大数据、自动化、人工智能等工程技术与农学、数学、物理学、地理学、土壤学、遗传学、生理生态学、生物信息学等农业基础学科有机地结合起来,实现在甘蔗育、繁、推、耕、种、管、收、榨、售过程中对其“三生”(生命、生产、生态)现象从宏观、中观到微观的实时数据监测和定期信息获取,生成动态空间信息系统,并通过数字化可视化技术对甘蔗“三生”现象及过程进行模拟,以达到合理利用农业资源、降低生产成本、改善生态环境,最终实现提高甘蔗产量和蔗糖分的一种生产模式。为高效利用甘蔗“三生”大数据,建立我国首套基于生长模型的甘蔗智能决策与支持系统(Growth-based Model of Decision and Support System for Sugarcane Management,GMDSSSM),并服务于“数字蔗田”模式生产,本文根据我国农业大数据及甘蔗产业标准体系建设现状,首次提出了这套专门面向深度学习领域及生产管理应用的甘蔗农业大数据标准和管理体系,并初步描述了实现该体系建设的具体路径,以此助力农业大数据为甘蔗产业深度学习算法模型研究、甘蔗物联智控系统研发以及促进广西糖业数字升级提供标准支撑和理论指导。
图1 “数字蔗田”生产模式
“数字蔗田”生产模式大数据标准体系建设聚焦广西“数字蔗田”技术平台的构建与应用示范,以大数据技术应用为基础,以标准化手段为支撑,以数据赋能甘蔗生产核心技术为重点,通过规范数据采集、数据质控、数据挖掘、数据服务等流程,确保大数据安全以及规范平台建立、维护和深度开发,从而通过大数据技术应用提升糖业主管部门和各类市场主体在甘蔗育、繁、推、耕、种、管、收、榨、售等生产环节决策的科学性和有效性。
本标准体系框架设计选择“‘数字蔗田’生产模式分析——大数据应用场景模型建立——标准需求分析——标准体系框架”的实现路径。一是“数字蔗田”生产模式分析。通过国内外数字农业案例比对、实地走访、在线调研、专家座谈等形式深入分析“数字蔗田”生产模式。二是大数据应用场景模型建立。从“数字蔗田”生产模式各环节提炼应用场景,分析大数据技术与甘蔗产业的结合点;从业务要素、业务环节和标准类型等维度分析大数据解决方案,建立大数据应用场景模型。三是标准需求分析。基于“数字蔗田”生产模式分析模型和大数据应用场景模型,形成标准需求参考模型,形成标准体系并最终细化到具体标准。四是形成标准体系框架。围绕标准需求参考模型,确定甘蔗农业大数据标准体系框架的应用范围,理清与已有规范性文件的关系,建立标准体系框架。
系统架构设计[4],如图2所示。从数据链、IT技术链和数字甘蔗产业链3个维度对甘蔗农业大数据所涉及的关键技术、数据处理、生产模式特征等内容进行描述,明确甘蔗农业大数据的标准化需求、对象和范围,指导广西甘蔗农业大数据标准体系建设。IT技术链是整合数据生命全周期的相关技术体系,包括物联网、3S、人工智能、云计算和区块链等。数据链是指进行甘蔗产业数据生命全周期过程管理的活动,包括数据采集、处理、存储、分析、赋能和服务等。数字甘蔗产业链是指甘蔗产业链中大数据价值实现的各个环节,包括甘蔗“三生”、市场以及管理等领域。甘蔗农业大数据价值增值的关键在于实现贯穿甘蔗“三生”全周期数据收集、预处理、分析、可视化和访问等环节的纵向集成,跨物联网、3S、人工智能、云计算和区块链等不同技术处理的横向集成,以及覆盖“三生”、市场和管理的各个环节的端到端集成。
图2 甘蔗农业大数据管理系统三维架构
数字甘蔗产业链典型应用场景四维结构[4],如图3所示,从业务要素(包括资源、数据、角色和职能)、业务环节(“三生”、市场、管理等)和标准类型(基础标准、数据标准、应用标准等)3个维度梳理出了大数据技术与甘蔗产业的潜在结合点,进一步从甘蔗产业各环节提炼应用场景与模型,归纳甘蔗大数据技术能够提供的解决方案。大数据典型应用场景包括数字育种、数字植保、产量预估、糖分预测、灾害预警、榨期调控、双碳计量、物联智控、市场分析等,该四维结构分析基本界定了甘蔗农业大数据标准体系的边界与基本内容。
图3 数字甘蔗产业链典型应用场景四维架构
甘蔗农业大数据标准体系规划将充分发挥标准在数字甘蔗生态构建中的顶层设计和基础性引领作用,参照其他作物已有大数据平台,将其分为基础标准、数据标准、技术标准、平台标准、安全标准、管理标准、应用标准等部分,每个标准又继续细分为若干个子体系[5],如图4所示。
图4 “数字蔗田”标准体系框架设计
2.3.1 基础标准
在农业大数据标准体系中,基础标准作为底层标准,为上层标准体系建设提供基准性、可靠性数据标准规范要求和概念支撑。甘蔗农业大数据中所涉及到的基础类标准包括但不局限于总则、术语和架构模型。
总则,规范甘蔗农业大数据标准体系建设中应当遵循的实施准则、发展方向、要求规范、应用指南等。
术语,规范甘蔗农业大数据中通用术语、相关名词、专业词汇、有效定义等。架构模型,规范甘蔗农业大数据标准体系中的基础架构、设计模型、技术指标、研究范围等。
2.3.2 数据标准
数据标准通过对农业大数据标准体系的底层数据进行统一规范,包括但不局限于元数据、数据字典、数据目录、数据元、编码格式、数据共享等。
元数据,规范甘蔗农业大数据的内容、特征、表达形式、约束范围、相关说明、数据质量等元数据结构信息描述,如种质、杂交、育种、农艺、植保、农机及地理经纬度等。
数据字典,规范甘蔗农业大数据的数据项、数据结构、数据流程、处理逻辑等业务间信息传递描述。
数据目录,规范甘蔗农业大数据目录的查询标准、管理方式、数据检索、内容分类、元数据描述、更新维护等内容,以及数据目录的编写规范、存储手段等。
数据元,规范甘蔗农业大数据的基础数据元及代码集,包括公共和各农业领域专用的基础数据元,如榨季、宿根、蔗区面积、地块编码等。
编码格式,规范甘蔗农业大数据各个领域中数据的编解码方法、格式参考、标准代码表等,包括农艺学、生态学、表型组学等学科。
数据共享,规范甘蔗农业大数据中各个业务系统之间的数据开放和共享交换形式,如各类多源异构数据库建设、访问接口、交易标准、数据归档等。
2.3.3 技术标准
技术标准通过对分散在甘蔗产业各业务系统中的现有数据进行提取、转换、清洗和加载过程进行规范,包括但不局限于数据采集、数据存储、数据预处理、数据分析、数据可视化等标准。
数据采集,规范甘蔗农业大数据的采集对象、采集方式、采集原则、采集流程、采集指标、采集工具、采集范围、采集精度、采集频率等。
数据存储,规范甘蔗农业大数据中结构化数据、半结构化数据、非结构化数据的存储内容、存储空间、存储格式等。
数据预处理,规范对甘蔗农业领域原始数据采集后的清洗、集成、变换、归约等流程,实现蔗田农情、种植面积、长势与产量、病虫草害与自然灾害等数据融合。
数据分析,将机器学习应用于甘蔗农业生产全领域,提升品种追溯、蔗情、病情、虫情、草情、灾情监测以及合同履约监管等能力,规范甘蔗农业大数据在育、繁、推、耕、种、管、收、榨、售等典型应用场景中的算法分析及模型构建等。
数据可视化,规范甘蔗农业大数据的数据可视化应用、可视化方案、可视化场景等。
2.3.4 平台标准
平台标准通过对甘蔗农业大数据各业务系统与平台接口进行规范,包括但不局限于技术架构、接口标准、功能需求等。
技术架构,规范甘蔗农业大数据平台在架构层次、业务分类、应用管理、数据维护等框架设计。
接口标准,规范甘蔗农业大数据中各平台间调用接口的参数定义、版本方案、安全性能、代码设计、可读性等。
功能需求,规范甘蔗农业大数据在各项业务应用中的平台范围、技术指标、性能要求等。
2.3.5 安全标准
安全标准引用国家标准和地方标准,包括但不局限于网络安全、应用安全、管理安全、数据安全等。
网络安全,规范甘蔗农业大数据标准体系建设中网络环境安全、信息传输安全、入侵检测安全等。
应用安全,规范甘蔗农业大数据标准体系中软件运行安全、平台接入安全、平台隔离安全等。
管理安全,规范甘蔗农业大数据标准中安全管理制度、权限管理机制、日志管理安全、流量监控安全、备份管理安全、系统运维安全等。
数据安全,规范甘蔗农业大数据在设计、生产、制造、管理、服务过程中实行数据保护、数据加密、数据备份、数据还原等。
2.3.6 管理标准
管理标准通过对甘蔗农业大数据标准体系建设中的数据管理方法、流程、机制进行规范,包括但不局限于质量管理、资源管理、评估管理等。
质量管理,规范甘蔗农业大数据的数据指标、规格参数、数据溯源、数据能力、数据服务水平等。
资源管理,规范甘蔗农业大数据的数据资源分类、数据资源优化、数据资源目录建设等。
评估管理,规范对甘蔗农业大数据的数据质量、业务规则、流程建设和系统性能、平台验收等方面的评估管理要求,如评估准则、评估方式、评估指标、评估方案等。
2.3.7 应用标准
应用标准通过对甘蔗农业大数据标准体系建设中的应用服务涉及的技术进行规范,包括但不局限于应用领域、服务功能等。
应用领域,从育种组合筛选、品种区划、生长模拟、远程诊断、优化投入、双碳计量、智慧课堂以及农业决策方面等展开应用,运用大数据等技术开展甘蔗大数据关联分析、分布式计算和多维度展示,规范农业大数据中典型应用场景所产生的特定数据应用标准。
服务功能,规范甘蔗农业大数据实施应用解决方案中的模型建立、分析流程等,构建决策知识库、模型库、方法库,实现通过模型进行分析决策,提升发展数据支撑能力。
数据要素的加入势必会导致甘蔗糖业产前、产中、产后各环节的加速融合,任何一个生产环节的脱节都会影响整个产业链的经济效益,这就要求甘蔗数字化生产全过程形成相对统一的数据标准和调用制度。本文从标准体系建设和数据格式共享问题出发,通过设计一种服务于“数字蔗田”生产模式的标准体系,实现对甘蔗农业大数据的流程标准化处理,为今后在糖业大数据领域中开展深度学习研究提供理论指导。同时,将糖业大数据标准体系定义成一个开放和可扩展系统,根据未来农工贸大数据平台融合需求,还可对现有标准框架进行修订、补充和完善,以进一步提高标准体系的科学性和有效性。