朱亮 钟艳雯 贺炜 罗林艳 欧阳计跃
摘要:介绍了湖南省农业气象大数据平台利用分布式存储与计算架构大数据体系构建,包括数据收集系统、多源数据管理系统、多源数据应用系统和制定数据管理规范。平台了实现对农业气象数据的收集、存储和应用,便于下一步综合运用大数据、云计算、智能化等技术实现气象数据与跨学科、跨行业相关联数据进行深度融合,为“三农”服务、气象防灾减灾提供数据支撑。
关键词:农业气象;大数据;分布式
中图分类号:S16 文献标识码:A
文章编号:0439-8114(2019)06-0128-03
DOI:10.14088/j.cnki.issn0439-8114.2019.06.029 开放科学(资源服务)标识码(OSID):
Abstract: This paper introduces the construction of Hunan Agrometeorological Big Data Platform using distributed storage and computing architecture, including data collection system, multi-source data management system, multi-source data application system and data management specification. The platform realizes the collection, storage and application of agricultural meteorological data, and facilitates the comprehensive use of big data, cloud computing, intelligent technology and other technologies to realize the deep integration of meteorological data and interdisciplinary and cross-industry related data for the “three rural” services. Data support for meteorological disaster prevention and mitigation.
Key words: agrometeorology; big data; distributed
随着经济发展、社会进步、科技创新不断深入,农业、水文、林业、国土、环境、交通、军队等各行业业务流程与气象数据呈现出越来越密切的关系,气象防灾减灾的效果特别明显。湖南省是农业大省,位于长江中游南岸、南岭以北,山地、丘陵、平原兼俱,处亚热带季风气候区,气象灾害发生十分频繁,是全国发生最多的省份之一,常年遭受干旱、暴雨、高温、低温、冰冻、热带气旋(台风)、雷电、冰雹、霜冻、寒潮等灾害性天气及山洪地质、森林火灾等次生灾害的影响。目前,湖北省各地农田小气候站因厂家不一致,数据格式不统一,极大地影响了农田小气候数据的应用。随着气象观测的技术不断提升,区域站数据传输频次由1 h上升至5 min,然而如此高密度的觀测数据在农业气象应用中并没有得到体现;与此同时,农业气象服务资料来源涉及中国气象局下发、省内各气象业务单位制作共享及水文国土等其他行业共享。湖南省缺少统一的平台面向农户、农业气象企业提供对这些农气象预警资料、产品进行展示、应用和共享。
同时,随着云计算和大数据技术不断推进,社会各行业也逐步将行业内部数据进行广泛共享。2018年中国农民丰收节等的设立,中央对“三农”工作的越来越重视,2016、2017 年全国气象局长会议更是明确要求“发展基于‘互联网+的智慧农业气象服务”,为促进气象信息化发展,实现对气象服务指导产品、为农气象服务产品的集约化、共享,为发展“智慧气象”奠定基础,因此建立农业气象大数据平台。
1 平台主要功能
系统总体框架包括数据收集系统、多源数据管理系统、多源数据应用系统和数据管理规范(图1)。
1.1 数据收集系统
数据收集系统利用大数据收集等技术,实现从数据服务器、数据库、数据采集器、手机等多设备上收集到文本、结构化数据、数据流、文档图片视频等多样数据,依托地面宽带网络、专线链路、移动网络,实现从数据源收集农业气象等数据并进行数据预处理及数据加工处理(图2)。可通过接口将获得的各业务系统数据、外部数据经过预处理后导入数据平台,支持多种数据收集方式。收集方式包括但不限于网上数据填报、批量数据导入、实时数据采集、网上爬虫方式、主动数据抽取等,同时实现数据交换信息监控。
1.2 多源数据管理系统
农业气象数据库存储数据包括数据入库、存储和管理,主要有站点数据、格点数据、文档数据、图片数据和视频数据五类。多源数据管理系统依托分布式数据管理、大数据等技术,建立高效、安全、稳定的数据存储系统;系统具有数据导入、追加、更新、数据的备份和恢复、数据清理维护等功能。
1.3 多源数据应用系统
多源数据应用系统农业气象大数据库为基础,架构考虑了上层应用的复杂多变,提供丰富的应用服务和数据共享接口[1],采用统一访问接口(API访问、Web Service等)、文件目录共享服务提供统一、分级数据检索接口和服务,满足用户对农业气象数据资料检索访问的各种需求。
1.4 数据管理规范
“标准先行”已成为当前各行业数据应用的共识,有了标准数据才能共享,才能支撑大数据平台应用的开展[2]。根据现有《全国智慧农业气象服务平台综合数据存储规范》[3]相关标准规范,制定数据交换标准和应用接口标准。
2 主要技术实现
Hadoop架构是一种分布式开源计算平台,因为具有水平扩容的特性, 使得经济存储海量数据成为可能。Hadoop由Apache公司为实现Google的MapReduce编程模型的一个云计算开源平台,Hadoop平台包括最底部的文件系统(HDFS)、数据库(HBase)、数据处理(MapReduce)等功能模块,某种程度上可以说Hadoop已经成为大数据处理工具事实上的标准[4-6]。Spark是基于内存的迭代计算框架,其核心是弹性分布式数据集,可以快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法。湖南省农业气象大数据平台要保证1 TB以上大数据量分析探查的高效灵活的响应,支持列式存储,内存计算等提高查询速度的技术。由于自动站数据量非常大,平台在软硬件上采取的策略是,一方面在硬件上采用高性能服务器组成服务器集群;另一方面采用Hadoop大数据分析技术,利用HBase数据库、Kafka数据接收、Tachyon內存管理、Spark统计分析等组件,解决自动站查询统计慢的问题。
2.1 硬件环境
系统底层硬件资源采用通用X86服务器部署,利用分布式存储与计算架构大数据体系构建,并根据需求进行一定封装和订制开发;处理后的数据根据上层应用需要向各系统提供数据订制服务和数据共享服务[7]。按照《气象信息化基础设施资源池建设指南》的技术指标进行购置和搭建,纳入到信息化基础设施资源池进行统一管理,共计采用5台服务器。同时采用内部交换与外部访问独立的方式,内部数据交换采用堆叠的两个万兆交换机,外部数据交换采用堆叠的两个千兆交换机(图3)。
2.2 软件环境
5台服务器操作系统为Linux同一版本的操作系统,CentOS Linux release 7.3.1611(Core),64位。管理节点2台,通讯节点3台,其中,2台管理节点同时作为通讯节点,数据节点5台,管理节点、通讯节点同时作为数据节点。程序设计语言:Windows平台配置Java程序设计语言。数据库系统使用Hbase记录存储收发日志信息、气象数据等(图4)。
2.3 软件展示与应用
农业气象大数据平台完成了农气月报、农气旬报、农田小气候资料,农气站作物观测,土壤水分、水文资料及日照、辐射、省内与周边六省国家站区域站资料以及种植大户信息录入,其中农气站作物观测起始时间自1981年,自动站累计16 935站,频次达分钟级。尤其是会商视频点播、自动站分钟降水实况与统计等功能移植整合,整合了会商视频点播,中小尺度系统等功能单一、小而散的业务系统(图5)。平台实现对气象服务指导产品、为农气象服务产品的集约化、共享,为发展“智慧气象”奠定基础,增强农业气象服务的主动性、及时性、针对性,加强“三农”服务、气象防灾减灾,加快发展智慧气象,提高服务质量和效益。
2.4 统一接口访问
针对农气月报、天气预报等文件类产品提供文件下载目录,对日照、水文等数据采用接口访问方式进行访问,满足对各级用户对数据访问需求(图6)。
3 小结
大数据的研究应用已逐步成为一项数据工程,研究跨领域的农业气象大数据平台需要支撑大数据采集、存储、管理和分析处理等活动。目前提出的主要用来实现农业气象大数据平台的基础应用研究,未来前景可观。总体得出以下结论:
1)农业气象大数据平台通过分布式技术实现了多源数据的收集、存储及应用,增强农业气象服务的主动性、及时性、针对性,加强“三农”服务、气象防灾减灾,提高服务质量和效益。
2)平台整合了中小尺度系统等功能单一、小而散的业务系统,符合集约化发展理念。
3)采用统一访问接口(API访问、Web Service等)、文件目录共享服务提供统一、分级的数据检索接口和服务,满足用户对农业气象数据资料检索访问的各种需求。
参考文献:
[1] 彭 庆.基于大数据技术的数据共享平台方案研究[J].电信技术,2014(10):22-23.
[2] 宫夏屹,李伯虎,柴旭东,等.大数据平台技术综述[J].系统仿真学报,2014,26(3):489-496.
[3] 中国气象局减灾司关于印发《全国智慧农业气象服务平台数据存储规范(试行)》的通知[EB/OL].http://www.cma.gov.cn/root7/auto13139/201612/t20161213_349710.html.
[4] 张 洁,薛胜军.云计算环境下气象大数据服务的应用[J].安徽农业科学,2016,44(5):298-301.
[5] 宋 杰,孙宗哲,毛克明,等.MapReduce大数据处理平台与算法研究进展[J].软件学报,2017,28(3):514-543.
[6] 孟小峰,慈 祥.大数据管理:概念技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[7] 陈 娜,徐歆壹,宋红兵,等.基于Hadoop的电信BSS大数据平台建设研究[J].电信科学,2013(3):36-40.