蒋 锐 黄凤洪* 吴 渝 霍梦佳 刘华威
(1.中国农业科学院油料作物研究所,武汉 430062;2.中国农业科学院农业信息研究所,北京 100081;3.神州数码信息服务股份有限公司,北京 100094)
近些年来,电子信息技术日新月异,互联网飞速发展,信息传播速度加快,我国农业也进入了大数据时代。大数据是驱动农业现代化发展的重要力量,是工业社会的“石油”资源,谁掌握了数据,谁就掌握了主动权。2019 年中共中央办公厅、国务院办公厅发布的《数字乡村发展战略纲要》中指出加快推进重要农产品全产业链大数据建设[1]。农产品全产业链大数据建设对于推进农业信息化,开展“互联网+”现代农业行动,推动农业发展方式加快转变,加快农业转型升级、提质增效和可持续发展有着重要意义。然而,目前我国农产品全产业链建设仍存在许多问题,如乡村信息基础设施不健全,农产品加工链不完善、产业链中的企业缺乏数据意识,对数据的收集与保护不到位等[2]。因此,健全产业链数据维护制度、促进农产品全产业链数据建设刻不容缓。
选择单品种农产品开展全产业链大数据建设是我国发展农业优势产业的突破口。油料作物是植物油脂和蛋白质的最重要来源,在保证食用植物油有效供给、改善食物结构、促进养殖业和加工业发展等方面具有重要意义[3]。推动包括油料(油菜、花生)等重要油料作物在内的传统农业向数字化转型发展,既是建设数字中国的重要内容,也是实现传统农业转型发展的重要手段。尽管我国油料(油菜、花生)产业近年来取得了长足发展,生产模式已取得重大突破,但仍存在单产水平不高、效益低、需求快速增长、生产经营与管理决策缺少大数据支撑、生产经营的智能化水平与发达国家差距较大等问题[4]。开展油料(油菜、花生)全产业链大数据建设,不仅对油料(油菜、花生)产业发展而言具有重大意义,还可以形成一系列试点示范经验,探索一套可复制的大数据应用模式。湖北省作为油菜种植面积较大的省份,开展单品种大数据建设能够依托本地区优势特色产业,开展单品种全产业链大数据建设,建立完善的数据采集、数据分析和数据服务机制,增强生产经营的科学决策能力[5]。
同时,全球新一轮科技革命、产业变革方兴未艾,物联网、智联网、大数据、云计算等新一代信息技术加快应用,深刻改变了生产生活方式,引发经济格局和产业形态深度变革,形成发展数字经济的普遍共识,为油料全产业链大数据建设带来了新的思路与发展方向[6-7]。
基于以上分析,我们以“大数据为基础性战略资源,新一代人工智能为创新引擎”为指导思想,在湖北省试点范围内进行油料(油菜、花生)全产业链大数据建设,构建油料(油菜、花生)全产业链大数据平台,基于先进的人工智能技术,面向多个主题针对产量、气象、多光谱遥感、期货价格等油料大数据展开深度挖掘分析,为油料产业提供了一种多源数据驱动的研究方法,从而加速油料全产业链上各类资源的有机整合,优化资源配置,提高运行效率。系统运行后续将陆续扩大该项目的试点范围,扩大油料种植作物品种(大豆、芝麻等)的种植面积监测、生产成本与效益等内容。
1、油料全产业链信息化基础建设薄弱,有待进一步提高。
(1)油料全产业链大数据建设需要依靠强大完善的信息基础设施,而目前农村地区信息基础设施不完备,基础设施设备建设的市场化程度比较低,基建水平参差不齐,特别是在一些偏远地区,附加交通不便的因素更加阻碍油料产业信息化发展[8]。加强对油料产业信息化基础设施的建设是保证油料全产业链大数据建设中数据采集、数据分析等基本功能的必要条件。
(2)由于我国幅员辽阔,油料作物包含油菜、花生等多个种类,同一种类又因为气候条件、温湿度、海拔高度以及种植方式等的不同而产生很大区别,常常出现信息难采集、采集误差大、处理能力差的问题[9]。
(3)目前油料全产业链大数据建设的核心技术研发滞后,不足以满足政府宏观决策管理、油料产业发展与产业主体的决策需求,特别是目前决策管理更多关注油料产业链中业务数据,对生产环境监测数据、互联网舆情数据等多源异构数据的采集不足,对油料全产业链大数据深入挖掘与分析不足,油料全产业链大数据价值未得到充分发挥[10]。
2、油料产业管理规划和技术创新不足,有待进一步优化。
(1)油料产业链涉及生产、加工、运输、售卖等多个环节,各个环节主体空间位置分布广、数量大,并且产业链上各利益相关者之间沟通不及时,存在严重的信息偏差,导致油料产业整体资源整合程度低、信息不对称、协同性差[11]。
(2)油料产业管理和规划不到位,绝大部分的油料种植未按照产业培植的要求进行管理,同时存在油料品种混乱的问题[12]。
(3)科技进步和创新是农产品全产业链建设和发展的基本动力,而现有科研机构偏重于基础研究,其市场转化率与科研融合性较低,阻碍了油料全产业链大数据建设的进一步发展。
基于对油料全产业链大数据建设现状的分析,本文以构建油料全产业链大数据平台为基础,围绕解决制约农业农村大数据发展的突出问题和薄弱环节,瞄准“数从哪来、数谁来用、数怎么管”,充分利用移动互联网、云计算、物联网、人工智能等新一代信息技术与农业的跨界融合,统筹共享油料全产业链大数据资源,推进大数据在农业生产、经营、管理、服务等各环节、各领域的应用,打造基于互联网平台的现代农业新产品、新模式与新业态,提高农业农村经济运行监测的能力和水平,更好地服务政府部门决策和市场主体生产经营决策。油料全产业链大数据平台的建设思路如下所述:
(1)统筹规划、资源整合
油料全产业链大数据平台是新时期、新常态下农业农村信息化建设的重要组成部分,是与乡村振兴、数字乡村等各方面紧密结合的系统工程,必须从宏观、系统的角度出发,按照“统一规划、统一标准、统一建设、资源整合”的要求,做好统筹规划,构建农业农村大数据云平台整体框架,建立统一的管理体系和协调机制[13]。
(2)互联互通、资源共享
在统一规划的前提下,制定相应标准体系和保障体制,促进现有农业农村信息基础设施、应用系统和信息资源的兼容共享,减少重复投入,避免“信息孤岛”现象,打破“利益壁垒”,提高农业农村大数据云平台建设的效率。横向到边,汇聚农业农村厅业务部门数据资源,纵向到底,汇聚全省各市县涉农数据资源,与农业农村部实现数据共享交换。在促进数据共享的同时,加强安全管理体系建设,确保信息和系统安全。
(3)数据驱动,智能决策
在油料生产环节,通过智能设备获取多源数据信息,指导农业生产主体如何科学种植油料。在油料流通环节,利用大数据技术的数据信息整合和集成功能,广泛搜集聚合油料产业的相关业务数据,通过对油料价格、政策等信息采集和分析,用于指导生产、增强政府和企业决策能力、提升工作效率与效能。同时基于机器学习、深度学习、自然语言处理等人工智能技术实现油料全产业链监测预警、产量和价格预测预警、市场监测和研判、农业资源合理配置、产业政策分析决策等,为油料产业发展提供有力支撑。
(4)技术先进、稳定实用
油料全产业链大数据平台建设从服务农业农村的业务需求出发,充分应用卫星遥感、互联网、物联网、大数据等先进技术,解决数据资源分散和数据挖掘应用面临的困难,提高数据服务水平。针对油料全产业链大数据服务的应用场景特点设计,确保业务平台的技术领先,确保大数据中心能够承受大的数据量和大负荷的考验,确保系统架构灵活、可扩展、性能稳定、功能实用、操作易用、易于维护。
(5)安全第一、公共优先
油料全产业链大数据平台设计充分考虑建立有力的安全体系,建设及运行应遵守国家信息安全和互联网管理法律法规,强化信息安全责任机制,加强数据安全防护。遵照农业行业数据规范、接口规范、交换规范等标准,采用标准化的技术和标准化的协议,保证大数据中心开放性和公共服务优先的同时,加强保障安全性[14]。
油料全产业链大数据平台利用互联网、物联网、大数据、人工智能等现代信息技术,为油料产业的数据资源整合管理、产品质量安全可追溯、全产业链环节可实时监测预警提供工具,以促进油料生产、流通、销售方式创新,推动油料产业乃至农业产业的跨越式发展。
油料(油菜、花生)全产业链大数据平台的架构如图1所示,主要包括4个层级,具体如下所述。
图1 油料(油菜、花生)大数据平台总体架构Fig.1 The overall structure of big data platform for crops (rapeseed and peanut)
(1)IAAS层。负责数据中心虚拟化环境的管理,提供相应的存储资源、计算资源、安全资源、软件资源、网络资源、存储资源等基础设施服务。
(2)DAAS 层。大数据资源区,根据油料(油菜、花生)业务应用需求,构建数据资源集市(支撑数据库、数据资源库、公共库)、Hive数据仓库。
(3)PAAS 层。服务层,提供大数据技术支撑服务,开发包含数据采集、数据管理、数据分析以及大数据集群管理平台。
(4)SAAS 层。应用展示层,全方位展示油料(油菜、花生)全产业链大数据应用和建设成果,包括综合展示分析、一张图、共享交换、监测预警等。
油料全产业链大数据平台采用Hadoop分布式计算开源框架,数据库采用Hive,可以将结构化的数据文件映射为一张数据库表,通过类SQL 语句快速实现简单的MapReduce 统计,采用HBase 高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
油料全产业链大数据平台的总体功能布局包括三个层次:
(一)一套面向油料全产业链大数据融合的数据标准
科学合理的标准规范建设是油料全产业链大数据平台实现多源异构油料相关数据资源汇聚治理的基础,能够从根本上解决油料大数据存在的不标准、不完整、重复、错误、不一致的质量问题,使数据在汇聚、整合、应用的过程中实现统一标准的管理,从而提升数据质量,实现数据价值。面向油料全产业链大数据融合的数据标准体系具体包括:
(1)统一油料(油菜、花生)产业的各种标准,建立油料质量安全、油料品种认定、转基因检测等油料(油菜、花生)产业标准。
(2)统一规范流程,主要包括油料(油菜、花生)种植流程及注意事项、油料(油菜、花生)加工流程及注意事项,将油料(油菜、花生)种植、油料(油菜、花生)加工作业规范化、流程化。
(3)统一数据的采集、数据结构、存储、分析,数据采集统一通过大数据信息采集系统进行采集,经过必要的清洗、比对、敏感数据处理后形成结构化的数据进行存储、分析。
(4)统一数据集中管理,外部需要对接时提供共享接口请求进行对接处理。
(二)一个油料全产业链大数据中心。
建设油料(油菜、花生)大数据中心,建立“用数据管理、用数据决策、用数据创新”的管理机制,优化利益主体间合作方式及运作流程,协调油料产业链各环节间的协同合作,推动产业链转型升级。油料全产业链大数据中心的功能包括:
(1)汇聚油料(油菜、花生)全产业链数据:各省、各地市油料(油菜、花生)主产区的种植信息数据、产量分布数据等;相关产业链企业信息数据;科研、气象、保险、期货、金融等信息;线上线下的销售数据。
(2)构建生产、消费、贸易、价格、成本收益核心数据库。
(三)一套油料全产业链大数据融汇与分析应用系统。
油料全产业链大数据融汇与分析应用系统主要包括三种类型:油料全产业链大数据建设支撑平台、集成平台和应用平台。
(1)油料全产业链大数据建设支撑平台。包括:油料(油菜、花生)全产业链信息采集平台和油料(油菜、花生)全产业链一张图平台,实现油料(油菜、花生)全产业链发展相关各类涉农数据的整合集成、提供社会公众、企业用户的统一门户入口。
(2)油料全产业链大数据建设集成平台。包括:全产业链监测预警系统集成,建立油料(油菜、花生)面积、产量、价格的监测预测系统系统;全产业链数据库集成,将各子系统应用数据汇总集成至大数据中心,进行数据分析综合展示;全产业链大数据分析预测集成,提供业务建模、流程建模等方面的一组集成开发测试工具集,以便可研团队进行模型构建与变量因子分析。
(3)油料全产业链大数据建设应用平台。包括:油料(油菜、花生)大数据面积监测系统,主要基于遥感影像面积信息的提取,监测区域内油料(油菜、花生)的种植区域分布、种植面积、及不同种植阶段的时序性分析;产量监测预测系统,通过油料(油菜、花生)生长生育规律进行模型化定量分析,预测油料(油菜、花生)产量,通过大数据的多模泛化关联分析气象各要素对油料(油菜、花生)单产之间的关系分析、分析油料(油菜、花生)产量形成过程中的物质投入的影响。种植管理系统,建立油料(油菜、花生)产业的基本信息数据库,实现种植户信息的分析、应用、查询和统计功能,便于了解油料(油菜、花生)生产的种植户人口结构、人力状况和分布情况;加工管理系统,建立油料(油菜、花生)加工信息库,便于了解各地区油料(油菜、花生)加工企业经营、企业分布、加工工艺变化的分析;流通管理系统,建立油料(油菜、花生)流通信息库,便于分析油料(油菜、花生)流通企业分布、产品销售途径、采购来源、消费监测预测系统,基于压榨企业产能、国内外市场价格变化对企业压榨加工能力变化、市场变化、技术变化和资本市场变化进行油料(油菜、花生)加工消费分析;价格监测预测系统,通过对影响油料(油菜、花生)价格的因素进行分析,建立油料(油菜、花生)价格的监测预警,进行未来价格的趋势预测。
平台基于深度学习、机器学习、自然语言处理等多种先进的人工智能技术,面向油料作物产量预测、价格预测、政策演变等多个主题,针对产量、气象、多光谱遥感、期货价格等油料大数据展开深度挖掘分析,为油料作物的生长监测、市场洞察和产业决策提供一种多源数据驱动的研究方法。其中构建的主要分析模型如下所述。
(1)油料气象产量预测模型
整合空间异质的油料作物物候、气象(包括气温、降水量、地表温度等因素)、产量数据等,基于深度学习LSTM(Long Short-Term Memory,长短期记忆网络)构建油料气象产量预测模型,估算全国县级油料的气候产量并探究不同变量与产量之间的关联关系[15]。LSTM 是深度学习中一种特殊的循环神经网络模型,具有时序依赖、信息选择性传递、非线性拟合的特点,能够有效学习属于时间序列特性的油料气候数据中包含的长期依赖信息,从而使得油料气象产量预测模型达到更高的预测精度。
(2)油料遥感产量预测模型
整合遥感时间序列数据,利用深度学习模型中长短期记忆网络和注意力机制,构建用于油料遥感产量预测的多时相深度学习模型,充分提取多时相多光谱卫星遥感数据中的油料作物生长信息[16]。该模型具备自动高效地捕捉遥感数据中长期时序特征的能力,能够充分利用油料作物生长过程中的累积效应实现对油料作物产量的预测,为近实时的大规模油料作物产量预测提供了一种遥感大数据驱动的解决方案,尤其是缺乏可靠地面参考标签的农业地区,比多层感知器、随机森林等传统方法具有更高的预测精度和空间泛化能力。
(3)油料期货价格预测模型
针对油料期货价格具有的典型时序性特征以及其非线性、非平稳等特点,基于深度学习模型中DBN模型(Deep Belief Network,深度信念网络)构建油料期货价格预测模型,用于监测油料市场变化和辅助决策制定[17]。DBN 模型是深度学习中概率生成模型,在模型结构上具有更好的灵活性和扩展性,能够自主学习大量无标注油料期货数据的本质特征并进一步实现油料期货价格的预测,其精度相对传统预测方法具有明显提升。
(4)油料政策主题演化模型
通过网络爬虫技术爬取全国范围内发布的油料相关政策文件,基于动态主题构建油料政策主题演化模型[18-19]。在将文本数据按时间顺序、以相同的时间窗宽进行划分的基础上,刻画主题动态演变的能力较强。该模型用于揭示不同时间同一主题的演变趋势,发现政策主题的出现、延续、弱化、消失、合并等规律,并能够有效分析不同政策主题下特征关键词的变化。
(5)油料政策语义对比分析模型
以油料政策文件为语料库,基于scattertext 算法构建油料政策内容语义对比分析模型,以地理区域为单位有效分析油料政策文件之间的内容差异。模型可在计算政策分组中特征词的领域特征得分以及类别关联归一化F值的基础上,综合考量这些特征词的领域代表性和类别关联性特征,有效展现不同油料政策分组中特征关键词的类别倾向性以及交叉相关性分布规律,实现非结构化数据结构化处理,并实现不同政策文件的内容差异转化,实现特征关键词之间的语义关联与分布差异。
油料全产业链大数据建设是新时期、新常态下农业农村信息化建设的重要组成部分,是与乡村振兴、数字乡村等各方面紧密结合的系统工程,有助于政府和企业全面掌握油料全产业链和资源底数,并借助持续动态的数据更新,及时监测石油全产业链关键和核心数据,提升用数据说话、用数据管理、用数据决策的能力。对于油料(油菜、花生)全产业链大数据的建设依然是一个开放性课题。在构建的油料全产业链大数据平台的基础上,我们将进一步探索油料全产业链大数据的深度挖掘分析与应用,包括:油料(油菜、花生)在多种生产环境变量因子(作物品种、气候环境、生产投入等)同时作用条件下,油料(油菜、花生)的产量变化趋势;在国际贸易趋势(进出口量、进出口价格)、国内油料(油菜、花生)市场价格、国内油料(油菜、花生)国家政策调控下,油料(油菜、花生)种植面积的变化波动的情况等。