基于Hadoop架构的大数据平台在水稻病虫害监测中的应用

2022-05-30 08:08宋昌罗光华
电脑知识与技术 2022年27期
关键词:数据采集

宋昌 罗光华

摘要:随着大数据技术的深入发展,在数字中国和全面实现乡村振兴,推动现代农业发展的大趋势下,大数据在农业领域的应用也扮演着重要角色。文章对大数据Hadoop架构设计原理和核心组件进行了简要阐述,结合农业大数据平台系统病虫害预警应用模块案例分析,证明了Hadoop技术在水稻病虫害防治过程中数据采集、数据挖掘和分析、灾害预警的高效性和可适用性。

关键词:农业大数据;Hadoop架构;数据采集;病虫害监测

中图分类号:TP311    文献标识码:A

文章编号:1009-3044(2022)27-0059-02

开放科学(资源服务)标识码(OSID):

随着大数据技术的飞速发展,其应用领域越来越广阔和成熟,基于大数据技术的智慧农业就是一个典型的应用领域。我国作为一个农业大国,普遍存在大面积播种水稻的场景,传统的水稻管理都是依靠人工进行,效率低下且成本高昂,在大数据时代,充分利用大数据技术的优势,在水稻管理中能够带来极大的便利和高效。清远市是广东省的一个农业大市,播种有大量的水稻,相比过去传统的水稻病虫害管理模式,在应用了大数据技术之后,水稻的病虫害管理的效率大大提高,成本也随之大幅降低。文中就清远的水稻病虫害管理中应用大数据技术所带来的高效率低成本的框架设计和技术进行探讨,有一定的参考借鉴价值。

1 Hadoop技术架构

Hadoop是Apache Software Foundation软件基金会主导开发的一个分布式系统架构[1],它的主要目的是提供一个具备较可靠、效率高、可灵活变换伸缩的方式处理分布式的“大数据”。此系统框架能够为业务端应用提供可靠的数据处理和数据迁移和变换移动,从而产生一种名为MapReduce的编程模式,它可将业务应用程序切分为若干部分,且每一个部分都能够在数据集权的随意节点上进行执行,其架构图如图1所示。Hadoop架构目前已经应用于多个行业和业务场景,包括基础架构管理、图像处理、诈骗检测、IT安全、医疗保健、农业等[2]。

HDFS(Hadoop Distributed File System 分布式文件系统)、HBase、Hive、MapReduce(分布式运算编程框架)和ZooKeeper是组成Hadoop系统架构的主要组件。HDFS文件系统作为架构底层用于存储节点文件,它来驱动执行程序MapReduce引擎。Hadoop的核心部分是HDFS、YARN、MapRuduce等构成。

Pig是一种大数据分析工具[3],它作为一种数据语言以及运行环境为基于Hadoop的大数据平台提供分析,为复杂和数据量比较庞大的数据同时并行的计算提供了便捷的操作工具和开发编程接口。Hive是Hadoop架构的数据仓库工具,可进行完全的SQL查询功能,能将SQL语言转化成MapReduce任务进行执行, MapReduce作为一种编程模型,可用于大规模(通常是大于1T)数据集的并行运算,MapReduce 引擎由 JobTrackers 和 TaskTrackers 组成。HBase是一种分布式数据库,它是开源的,且基于列存储模型。ZooKeeper提供分布式且开源的分布式应用程序协调服务[4]。HDFS是一种高容错的分布式文件系统,适合规模较大数据集的应用程序。

2 基于Hadoop架构的清远农业大数据平台设计

聚合性集成的农业产业服务大数据平台“广清农业众创空间大数据平台”,在对其Hadoop架构的应用进行了调查研究。平台数据层积累了海量数据,其中包含结构性数据和非结构性数据,数据来源复杂:物联网传感器实时监测所采集到的日志数据信息、视频图像数据信息、农业服务数据信息、农业生产管理数据信息、农产品数据信息等,且同时来自系统内部数据产出和外部数据接入。在农业大数据平台系统中通过Hadoop架构,利用HDFS高度容错性的分布式文件系统,提高了系统的数据流通量和处理效率。通过性价比较高的HBase技术能够在普通的PC服务器的基础上搭建较大规模的结构化数据存储集群。Pig为复杂的海量数据并行计算提供了便利,通过数据分析工具,生成分析报告从而指导农业的生产管理和提供科学决策支持。其大数据应用包括病虫害监测、农作物生产气候环境监测、精细化种植和生产管理等,我们对其中的病虫害监测方面的应用进行了深入研究和分析。

视频和图像处理技术的发展已历经数十年,不断地提升图像处理算法的准确性和处理速度[5]。如今的数字经济时代下各种行业和应用场景下所产生的数据量也是呈指数级发展,且复杂程度和处理难度越来越高,传统淡季处理远远无法满足需求。而大规模的图像处理数据储存在分布式文件系统,并通过分布式计算技术并行处理,能解決日益增长的需求和需要处理计算的数据量,而Hadoop架构的数据处理平台是一个非常高效的解决方案。基于Hadoop架构的清远农业大数据平台设计如图2所示。

3 病虫害监测农业大数据平台功能实现

3.1 病虫害识别及防治信息处理模块

本模块的作用是帮助农业管理人员利用拍照识别功能快速有效地掌握水稻的病虫害产生的原因,并得到合理有效的治疗方案。具体的实现过程:首先是农业管理人员将受病虫害的水稻叶子拍照后发送到病虫害监测系统上,系统自动对上传的照片进行格式的合格性进行判断是否通过。如果通过,则会得到相应的识别记录,更新数据库后就会传送到客户端呈现出来。如果无法通过,农业管理人员则可以通过系统的“专家识别”功能来获取专家反馈的结果。具体的模块图如图3所示。

3.2 数据采集模块

在广东省清远市连山壮族瑶族自治县的水稻生产基地通过田间摄像头和物联网监控设备,采集了6300亩水稻田2年的数据,实时进行气候环境包括温度、湿度、风向、风速、雨量等数据项目的采集,并构建了聚合性集成的农业产业服务大数据平台“广清农业众创空间大数据平台”,平台基于Hadoop技术架构开发。数据层积累了海量数据且数据来源复杂,其中包含物联网监测采集设备产生的数据以及业务系统产生的数据,物联网传感器实时监测的日志数据、视频图像数据、农业服务数据、农业生产管理数据、农产品信息数据等,且同时来自系统内部数据产出和外部数据接入。

3.3 数据预处理模块

在农业大数据平台系统中通过Hadoop架构,利用HDFS高度容错性的分布式文件系统,提高了系统的数据流通量和处理效率,运用性价比较高的HBase技术能够在普通的PC服务器的基础上搭建较大规模的结构化数据存储集群。Pig为复杂的海量数据并行计算提供了便利,通过数据分析工具,生成分析报告从而指导农业的生产管理和提供科学决策支持。其大数据应用包括病虫害监测、农作物生产气候环境监测、精细化种植和生产管理等[6]。

高清视频监测站采集到大规模的图像数据储存在分布式文件系统,并通过分布式计算技术并行处理,能解决日益增长的需求和需要处理计算的数据量,而Hadoop架构的数据处理平台是一个非常高效的解决方案。病虫害监测系统采集到图像后需要提交分析请求,Job Client会把图像特点分类的数据拷贝进HDFS文件,经过Job Tracker取得图像处理分类任务识别编码,从而对相关任务的信息开始比对筛查,按照输入数据的区分可从HDFS文件中取得并做好执行所请求任务的准备。

3.4 虫情预警模块

病虫害发生的时间与季节与气候有很大关系,虫害一般发生在每年的3月中旬至12月,同时受到风速、风向、降雨量以及温湿度的影响,气候环境的数据将会分析病虫害繁殖的时机以及生长环境适宜度。数据主要分为两个部分的数据集:气象信息数据集和病虫害数据集,其中病虫害数据集中包含图片识别数据库。气象传感器所采集到的气温、比湿、风速等数据作为气候因子。

我们需要对数据进行量化和数值化来应对数据的预处理,可将病虫害发生级别分为4级:轻微-1、中度-2、偏重-3、重大-4。分别对应1~4的数值。对照水稻生长的幼苗期,返青期、分蘖期、长穗期、结实期,分别编号为1~5。

对采集到的病虫害监测图片进行分类任务,在Map流程阶段,当取得了Job Tracker分配的任务后,就可以从HDFS文件系统中获取相关数据和JAR系统文件,同时储存于本地磁盘。在本地磁盘虚拟机可对JAR文件和数据开展加载,从而接收监测病虫害图片信息的数据。通过计算病虫害特点数据库中图像特征和相对应的分类下虫害信息描述的图像特点之间的距离,比对特点图像库中图像分类和计算的结果,在MapReduce处理上使用FFmpeg把农场监控的视频信息分割为图像再把图像转化为JavaCV能够识别的数据。

接下来对数据进行清洗、变化监测、区间划分等数据预处理动作,算法的运行时间伴随着数据样本的增多而变得越来越短,在MapReduce引擎在进行分布式运行中,在多个任务节点进行的同时进行并行方法建树使得算法时间上的斜率变得平缓,在Hadoop分布式平台的算法并行后得到了良好的加速比,与数据样本集群的大小和规模有很大关系,来证明算法的有效性。

4 结论

随着我国数字化进程的高速发展和推动全面实现乡村振兴的政策推动下,在农业领域的应用也凸显成效,在农业生产中,利用Hadoop架构来帮助实现农产品病虫害的识别和监测和精细化种植,可大大提升数据采集和分析效率,并对减灾防灾,协助确保粮食安全,推动我国现代农业发展具有重要意义。

参考文献:

[1] 贠佩,晁玉蓉,樊华,等.基于Hadoop的数据分析系统设计[J].数字技术与应用,2019,37(3):180,182.

[2] 李锋,贾茂想,涂如男.基于Hadoop的企业知识管理系统[J].计算机系统应用,2018,27(8):63-69.

[3] 韩朵朵,刘会杰,许爱雪.基于Hadoop生态系统的大数据解决方案[J].石家庄铁路职业技术学院学报,2019,18(2):71-75.

[4] 曾俊.一种基于Hadoop架构的并行挖掘算法研究[J].现代电子技术,2018,41(1):117-119,124.

[5] 刘江霞.一種基于Hadoop的大数据仓库技术研究[J].电脑编程技巧与维护,2017(17):48-49,75.

[6] 付蓉.基于Hadoop的大数据挖掘理论与方法研究[J].科技创业月刊,2017,30(5):23-24.

【通联编辑:梁书】

猜你喜欢
数据采集
Web网络大数据分类系统的设计与改进
CAN总线通信技术在电梯监控系统中的应用
基于大型嵌入式系统的污水检测系统设计
基于AVR单片机的SPI接口设计与实现
CS5463在植栽用电子镇流器老化监控系统中的应用
大数据时代高校数据管理的思考
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
基于开源系统的综合业务数据采集系统的开发研究
大数据时代的管理会计