农业大数据关键技术及应用进展

2018-04-24 02:44毛克彪蔡玉林孟祥金袁紫晋
中国农业信息 2018年6期
关键词:农业

赵 冰,毛克彪,蔡玉林,王 涵,孟祥金,袁紫晋

(1. 山东科技大学测绘科学与工程学院,青岛266590;2. 中国农业科学院农业资源与农业区划研究所,呼伦贝尔草原生态系统国家野外科学观测研究站,北京100081;3. 湖南农业大学资源环境学院,长沙410128;4. 重庆交通大学,重庆400074;5. 山东建筑大学测绘地理信息学院,济南250100)

0 引言

据联合国粮食及农业组织估计,到2050 年,全球人口将增长30%以上,这意味着粮食增产规模必须达到70%[1]。而2018 年3 月以来,美国打响的中美贸易战持续升级,我国的农业发展受到冲击,面临挑战。农业对国民经济的稳定发展具有重要作用。据国家统计局数据显示,2017 年末我国总人口为13.9 亿,世界总人口约75 亿,我国人口占世界总人口的18.5%。我国是个人口众多的大国,解决好吃饭问题,始终是治国理政的头等大事[2]。然而,耕地流失[3]、农业环境污染[4]、极端天气频发[5]、农产品质量安全等问题,制约着我国农业发展。

2005 年以来,随着物联网、云技术、移动互联网等技术的飞速发展,数据量增长速度非常快,其中所隐含的信息也发生了质的变化。数据量的爆炸式增长极大地提高了挖掘分析的价值,传统的数据库和分析方法不能满足新时代的需求,这极大拓展了数据挖掘产品的应用范围。大数据在这种背景下诞生,为海量数据分析提供了契机。大数据首先在金融、医疗、交通等领域发挥了巨大作用,IBM 公司投资160 亿美元进行30 多次与大数据相关的收购,使业绩稳定高速增长,2012 年,IBM 股价每股突破200 美元大关,3 年内翻3 番[6];2009 年谷歌通过对网络检索词条挖掘分析成功预测了H1N1 在全美地区的传播范围,预测结果比传统的疾控中心数据更加有效和及时[7];伦敦在2012 年奥运会期间对地铁、公交和社交网络等方面数据实时采集,利用数据挖掘分析预判和控制交通情况,在道路使用率增加25%情况下保障了城市交通的井然有序。

由于农业领域产品附加值不高等特殊性,大数据在农业领域应用发展相对较慢。随着互联网、物联网、云计算的发展,全球导航卫星系统、遥感、地理信息系统技术在农业领域的应用,智慧农业、精准农业、设施农业的不断实践,农业产业链中获得的生命信息数据、环境信息数据、位置数据和农产品储藏运输数据以前所未有的速度增长。人们开始意识到大数据应用对农业的重要性,大数据技术有助于加强农业生产各部门的深度耦合作用,对于提高农业生产效率、保障食品安全与产品质量、促进农产品市场供需信息流通,推动农业优质高效可持续发展具有十分重大的意义。

1 大数据在农业领域的应用进展

自2010 年以来,农业大数据的发展已经引起了高度关注,以美国为首的发达国家起步较早。2012 年3 月,美国政府投资2 亿美元以上,正式启动“大数据发展计划”,计划在科学研究、环境、生物医学等领域利用大数据技术进行突破[8];2013 年,美国在第二次国家政府行动方案的实践中对data.gov 网站进行改进,开放了农业和营养方面等政府数据供公众下载使用;2013 年,英国在大数据研究上投资1.89 亿英镑,并启动了农业技术战略,利用大数据推动农业科技商业化。在学术研究层面,Morota 等[9]研究了大数据挖掘和机器学习方法在精准畜牧业中的作用,并分析了机器学习在动物基因组预测、乳房炎检测、图像分析等中的应用。Young 等[10]利用对遥感影像大数据的分析结合网页爬虫技术,研究了美国Baltimore 市城市农业试点的情况。Frelat 等[11]对撒哈拉以南地区超过13 万个小农家庭的土地利用和粮食生产数据进行研究,得出了粮食供应变化的驱动因素,并提出了改善粮食安全、消除贫困现状的建议。

我国也对农业大数据的发展给予了重视,2015 年12 月,农业部印发了《关于推进农业农村大数据发展的实施意见》;2018 年9 月,国务院印发了《乡村振兴战略规划(2018—2022 年)》,明确提出要实施数字乡村战略,深化大数据的创新应用。在具体研究实施方面,“渤海粮仓”大数据平台[12]、国家农业科学数据共享中心[13]、农业大数据应用云平台、全国基层农技推广信息化平台[14]等农业大数据平台集成了不同层面的农业数据为农业生产和研究服务。国内众多学者也对农业大数据展开了研究。温孚江[15]最早阐述了农业大数据发展在政府、企业管理、学科发展等方面的重大战略意义;孙忠富等[16]阐述了农业大数据的内涵及关键技术并分析了农业大数据对智慧农业的推动力;王文生等[17]对农业大数据的内涵、获取途径、应用现状进行了介绍,并对农业大数据在精准农业技术体系、国家农村综合信息服务系统等5 个方面的应用进行了展望;王东杰等[18]针对农业的开放共享问题的现状及存在问题进行了探讨并提出了相应建议。Yan M 等[19]人基于农业大数据平台的多源数据,对冬小麦生长周期进行判断,提炼出了判断农业季节的关键指标。顾军林[20]利用农业无人机平台、无线传输装置和地面站等收集的大数据基于Hadoop 框架进行分析,对无人机的航线规划、飞行控制和图像处理取得了不错的效果。

国内外学者发表了大量论文,对农业大数据从数据源的获取、数据的处理技术手段及应用案例等不同角度进行了研究,同时分析了农业大数据的困境,设计了智能分析平台等。文章对农业大数据的基本概念进行了简要剖析,从数据源、数据的处理技术以及数据应用3 个维度,特别是应用维度对国内外农业大数据的研究进展进行了着重讨论与比对,探讨中国在发展农业大数据中所面临的问题并提出合理化建议,为农业大数据的进一步发展应用提供参考,进而推动农业大数据应用的发展。

2 农业大数据的体系结构

农业大数据挖掘是指利用数据挖掘技术从海量的数据中提取潜在有用的信息为农业服务的过程。农业大数据的数据来源众多、层次丰富,涉及农产品生产、运营管理、市场流通等的方方面面,不仅包括种植业数据(粮食、蔬菜、经济作物、牧草、花卉等)、养殖业数据(家畜、家禽、水产等)、农产品加工业等不同农业生产部门的作业数据,还包括农资行业的农业运输机械、化肥、农药、种子数据、农业气象数据、市场数据等。数据的格式不仅包括传统的结构化数据,还包括来自地面传感器、卫星影像、无线射频识别技术(Radio Frequency Identification,RFID)、各种智能终端等的半结构化、非结构化数据。数据范围,包括本地市的生产流通的统计数据、农业信息数据,还包括国家层级以及借鉴的国外数据。不同来源、层次、级别、类型的数据共同构成了农业大数据的庞大数据集。农业大数据的处理流程可以分为数据获取、数据的预处理、内存分析、智能数据分析、数据的可视化5 部分(图1)。

图1 农业大数据挖掘分析框架Fig.1 Analysis framework of agricultural big data mining

2.1 数据源

农业大数据不仅贯穿整个农业生产过程,而且在农业科研、市场运营等的交互中不断累积,包括音频、视频、图片、视频、办公文档、查询文件、文档、文件、链接信息等结构化、半结构化、非结构化数据。根据数据源的不同,可以把农业大数据分为4 类,即历史数据库数据、物联网数据、网络媒体数据、农业遥感数据。

(1)历史数据库数据:历史数据库数据是指农业生产过程中大量通过人力手动输入存储的数据,如统计数据、电子化交易数据等。历史数据库以二维表结构为数据模型,利用关系数据库进行管理和访问,数据结构统一,存储在静态数据库和数据集中。历史数据库为农业生产中的农产品健康情况监测、灾害预测等提供了宝贵的参考资料。

(2)物联网数据:各种物联网设备,如各种传感器、无线射频识别仪器、智能采集终端以及GPS 在农业中的应用,实现了对海量农作物/畜禽的长势数据、环境数据信息的实时自动获取。物联网数据对农业生产的自动化管理提供了强劲的推动力。

(3)网络媒体数据:截至2018 年6 月,我国网民规模为8.02 亿,手机网民规模达7.88 亿,居全球第一[21]。Google、百度等搜索引擎,微博、微信等各种社交网络平台,农业知识服务网站、论坛,电子商务等各种网络平台的数据库中都存储着大量涉农数据。网络数据的繁杂化、信息的碎片化、真实性等特征也对处理分析模型提出了更高的要求。

(4)农业遥感数据:遥感技术具有获取信息量大、无接触破坏,数据获取快捷简便、客观等优点,而且多种分辨率的遥感数据能够满足不同的农业作业需求,已成为农业大数据的重要来源之一。

2.2 数据获取

农业生产管理生物量多、生物状态差异明显、易受环境变化和人为因素的影响,传统的人工实地采集方法不能满足现代农业对详细、实时、大量的数据需求。目前农业数据的采集更加自动化和智能化。采集技术主要有以地面传感器和遥感卫星为代表的感知技术、射频识别技术、智能移动终端数据采集等。同时,大数据时代网络爬虫、开放应用程序编程接口(Application Program Interface,API)等网络数据采集技术为农业大数据的采集提供了新颖、高效的技术手段。

2.3 预处理

由于采集的原始数据中包含噪声数据、缺失和不一致数据,并且随着数据量增加,噪声也在累积,不仅降低数据分析建模的执行效率,甚至干扰挖掘分析的结果[8]。

弗兰兹·卡夫卡出生于布拉格,是一个犹太商人家中的长子。从小喜爱戏剧、文学,最初学习文学、化学,后转学法律,获得博士学位以后一直在保险公司工作。尽管一生中有多次订婚史,但却终生未娶。于41岁因肺痨过世。

数据的预处理就是在保证原有的数据语义、信息量的基础上减少数据分析时噪声数据的干扰,将数据格式规范化,达到更理想的挖掘效果。数据的预处理主要包括:(1)数据清洗,去除数据采集时的人工错误数据、冗余数据,估计和填充不完整数据、光滑噪声数据;(2)数据集成,将多个数据源的数据有机集中在一致的数据存储中;(3)归约,将数据集进行简化或压缩,使原始数据体积减小,提高处理效率;(4)数据变换,不同来源、不同级别的数据粒度、规范各异,需要将数据格式统一化、标准化、结构化,便于数据挖掘算法的执行。

2.4 内存分析

农业大数据存储既面临着数据量大、数据类型繁杂带来的存储难题,又需要满足上层接口对于数据查询、处理分析的高吞吐、强扩展的需求。在大量的数据存储需求和动态数据流不断涌入挑战下,传统的关系数据库检索速度缓慢,维护艰难,非关系型的数据库技术NoSQL 的出现有效解决了这一难题。NoSQL 提供了4 类存储模式,即Key Value存储模型(如Riak)、基于Column Family(列分组)存储模型(如谷歌的BigTabel)、基于文档模型(如MongoDB)和基于图模型的模式(如Neo4j),应对不同的存储要求[22]。

2.5 数据智能处理分析

传统的农业数据分析采用标准的统计方法,如回归分析、方差分析和主成分分析[23]。这些方法通常为选取样本数据进行拟合分析,样本数据虽然具有代表性,但不能精确反映全体数据的变化情况,而且受样本数量和分析方法的限制,分析方法以简单的线性分析求解因果变化为主,无法发掘目前数据密集环境下多源异构、高维的农业数据间蕴藏的相关关系。在大数据环境下,数据挖掘分析更加注重从海量数据中寻找相关关系和进行预测分析,与传统的小样本统计分析有着本质的不同[24]。

针对不同的数据格式和处理时效等要求,催生了不同的农业大数据处理工具:对静态数据集处理的批处理工具(如Mahout、Dryad 等)、对实时数据流处理的流处理工具(如Storm、StreamCloud 等)、易于以图表或表格的形式查看、比较和分析数据的交互式分析工具(如Google’s Dremel 等)[25]。数据分析的主要算法依赖机器学习,与传统的机器学习的区别是融合了大数据处理的分布式处理和并行运算技术等理念方法,并且在学习模型及算法不断改进创新过程中满足现实应用场景的需求。机器学习算法是通过重复的执行训练和测试过程构造算法,发现数据间的规律模式,以实现数据到知识的转换。大数据机器学习能够应对大数据的海量、高维、高稀疏、时效性要求高等处理难点,借助Hadoop 和Spark 等并行计算系统,利用音频、视频等数据的融合技术,在线学习和流式学习的实时流数据处理技术解决大数据机器学习的难题。机器学习算法凭借超强的数据处理能力和泛化能力,在农业大数据的分析和处理中占据重要地位,已应用于诸多方面,如气象预测[26-28]、食品质量安全[29-30]、农业防灾减灾[31]、小麦农时判别[20]、杂草识别[9]等。

2.6 数据结果的可视化

农业领域与传统的经济等领域不一样,具有地理区域信息、关联领域多、影响因素多、数据采集复杂、决策管理困难等特点[32-33],传统大数据数学模型与数据挖掘方法分析处理具有庞杂数据格式的海量农业数据存在缺陷。数据可视化技术将重要的信息特征压缩于图与表中,通过图形化技术简化数据关系,降低复杂数据的理解难度,提升人类对数据潜在内容的感知[33-34],从而在无序的、庞杂的、不相干的海量农业数据中抽取更完整、更真实的信息。数据可视化已成为实现大数据分析统计和数据分析成果展示的重要基础手段[33,35]。分析结果可视化呈现是驱动大数据实现价值的强有力武器[6]。数据挖掘结果的可视化实现了对动植物疫病的动态可视化诊断、农情可视化监测、趋势预测信息可视化查询,数据分析结果更加直观,易用性更高。常见的可视化技术有原位分析、标签云、历史流、空间信息流、不确定性分析等[36]。

3 农业大数据的应用领域

农业生产具有类型多样,涵盖区域广泛,影响因子复杂等特征,而且具有时空变异的特点,是适合大数据实现应用价值的领域,农业领域大数据技术的应用是十分重要和必要的。该文选取国内外4 个应用案例说明农业大数据在不同领域中的应用。

3.1 国外实例

3.1.1 农业大数据应用于精准种植和产量预测

孟山都公司对农业大数据的应用探索开始较早,已成为种业的领先者。1901 年成立的美国孟山都公司在2012 年和2013 年收购了大数据精密种植公司Precision Planting 和天气大数据公司The Climate Corporation,助力农业大数据的研究。孟山都公司将收集的海量土壤、种子、气象相关数据存入数据库系统,利用大数据分析,确定了不同土壤类型在不同的气候条件下最适宜的种子品种。孟山都公司为农民实地测土选种,帮助农民在同一地块根据不同的土壤情况、作物品种进行不同深度、间距的差异化种植和灌溉,以达到最佳种植效果。另外,孟山都公司利用降雨、气温、光照等气象数据结合土壤数据,为农民提供作物产量预测服务。

食品安全事件具有突发性、群发性、危害大等特点,食用农产品加工、流通环节众多,快速找出问题环节和流通范围对保障消费者的身体健康和生命安全尤为重要。印度CropIn 公司是一家为农场生产和管理运营提供服务的农业科技公司,该公司利用RFID 技术、智能传感技术和二维条码技术等多种技术对生产、流通、消费环节的数据实时采集与监控,建立了农产品质量安全追溯系统。CropIn 为农产品设置唯一的ID 标识,发生农产品安全事故时,通过ID 信息对采集的数据挖掘分析,快速追溯问题农产品的污染源头和流通范围,可有效提升突发食品安全事件发现的时间效率和精准程度,减小问题产品的危害程度。

3.2 国内实例

3.2.1 农业大数据应用于测土配方施肥

吉林省是我国重要的粮食产地,也是用肥大省。吉林省从2004 年开始测土配方施肥工作,政府每年投资2 500 万元用于土壤属性数据的采集,建立了庞大的土壤信息数据库。丰富的土壤信息大数据让涉农企业为农户提供精准营销成为可能。吉林省某公司借助政府发布的土壤数据建立了测土配方施肥专家系统。该系统通过农户拨打电话自动定位,对所在地块位置的土壤属性数据分析,自动生成施肥配方,帮助农民科学施肥。仅2006 年,吉林省通过测土配方施肥减少肥料用量3.68 万t,增产粮食5.6 亿kg[37]。土壤大数据的使用,实现了从源头对化肥污染工作的治理,提高了企业的营销效率,也让农民从科学施肥中获益。

3.2.2 农业大数据辅助政府管理决策

农业大数据体系庞大,不仅涵盖农产品生产、加工和市场销售方面的内容,还包括了农业环境、气象数据、资源等一系列和农业相关、可以为农业服务的数据。佳格天地通过环境和农业大数据收集、处理、分析和数据可视化,提供环境和农业解决方案的大数据[38]并将大量免费开放的遥感、气象等环境大数据用于大面积农作物识别中。借助环境大数据,佳格天地公司对各种经济作物、粮食作物进行了识别计算,为政府调整优化种植业产业结构提供决策支持;对潍坊市23 万多个蔬菜大棚中的废弃大棚进行识别,为政府确定大棚种植的数量,准确发放补贴提供可靠支持;对秸秆焚烧的地块识别监测,为政府环境治理提供决策支持。农业大数据应用于政府工作过程,有助于政府更好地掌握农业发展态势,提高监管、服务、决策的工作效率。

3.3 农业大数据应用发展存在的问题

农业大数据具有为农业决策提供可靠数据支撑的优势,在实践应用过程中已取得显著进展。但农业大数据发展中存在的问题与障碍也在日益凸显,有待进一步研究突破。目前主要存在农业大数据基础建设薄弱、数据开放共享问题、数据的分析挖掘能力有待加强和农业大数据专业人才缺乏4 个方面的问题。

3.3.1 农业大数据建设基础薄弱

由于我国农村地区网络通信不发达,信息技术传播慢等原因,现代化建设水平不高,缺少专业的数据采集设施,农业基准数据总体较少。现存的农业数据也存在结构不规范、内容不完整、细节程度不够等问题,造成数据可用性低、数据汇交困难。

3.3.2 数据开放共享问题

农业数据的开放共享,有利于加强农业生产经营各个环节间的耦合作用,避免公开数据集的匮乏,加强农业市场数据信息流通与使用。当前农业大数据开放面临较大的挑战,一是相关部门、企业受体制机制的限制和观念束缚,将数据存储在各自的数据库中造成众多数据“闲置”和数据重复采集;二是数据格式不一致,缺乏统一的数据开放标准和有效的数据开放平台,数据开放存在技术难题。

3.3.3 大数据的分析挖掘能力有待加强

当前大数据的处理分析技术已经有了很大进展,但农业生产的分散性、时空差异性、关联复杂性、动态变化性和实时性等特征造成数据的繁杂性进一步加大,大数据的数据挖掘算法和处理分析模型还需要进一步加强。

3.3.4 农业大数据专业人才缺乏

农业大数据价值的挖掘,离不开专业技术支持。目前我国农业生产经营领域的大数据挖掘与利用意识与信息化教育普及不够、专业人才奇缺、专业分析人员的需求与缺口并存[39-40]。具备大数据和农业相关知识复合型人才的缺乏,关键数据采集不全、数据挖掘不充分,效果不理想。农业大数据专业人才的瓶颈已成为制约我国农业大数据发展的关键问题之一。

4 结语与展望

该文对农业大数据的概念、发展、关键技术和应用案例等进行了论述,通过文献分析,对农业大数据应用的最新技术形成如下结论。

(1)农业大数据是一个富有巨大潜力的研究领域,在促进生产标准化、加速作业效率、促进产销有序衔接、保障产品质量安全等方面已经有所展现。农业大数据的价值,将在更多的实践应用中逐步释放。

(2)数据不断涌入的大数据时代背景下,还需要进一步加强农业大数据的探索实践,增强对农业大数据技术方法、软件系统的研究和全方位推广应用。

结合相关研究进展,今后需在以下几个方面加大研究力度:一是加强农业大数据基础建设。增强农村的信息化水平,完善数据的采集基础、数据标准,增强农业基准数据的质量和数量,为农业的发展决策提供可靠的数据保障。二是促进数据开放共享。加强数据立法,制定有关数据共享行为规范的法律条文,对数据利用过程加强监管,为农业信息公开、合理利用提供法律保障;制定数据的格式和规范要求,增强数据的可用性,促进不同部门、行业、区域的共享系统对接,实现全国范围内数据资源的互利共享。三是增强大数据分析挖掘能力。一方面要结合农业领域的特点对农业大数据的知识库、模型库不断优化,减小多个模型组合时多参数分析导致的误差累积,另一方面需要开发更强大的分析工具和更高性能的数据处理系统架构,增强系统的并行处理能力和计算精度,建立能够满足不同群体应用需求的综合性农业大数据处理平台。四是进行农业大数据专业人才培育。政府、高校应加大对人才培养投入力度,开展更多专业学科,同时开展相关工作人员技术培训,培育更多具有农业专业知识与大数据技术的复合型人才。

猜你喜欢
农业
国内农业
国内农业
国内农业
山西农业
擦亮“国”字招牌 发挥农业领跑作用
新农业 从“看天吃饭”到“看数吃饭”
原始农业、古代农业和近代农业
欧盟发布短期农业展望
九十九分就是不及格——有机农业,“机”在何处?
“5G+农业”:5G如何为农业赋能?