智慧粮食数据采集、交换、存储研究

2018-02-18 10:36谭可华冯晟陈俏均郭子昌高红霄
中国科技纵横 2018年21期
关键词:存储数据采集

谭可华 冯晟 陈俏均 郭子昌 高红霄

摘 要:“智慧粮食”是一个承载了广泛的涉粮数据、分析模型和应用平台,对智慧粮食数据模型进行分析,建立数据存储和交换系统,是实现“智慧粮食”建设目标愿景的重要基础性工作。

关键词:智慧粮食;数据采集;交换;存储

中图分类号:F326.11 文献标识码:A 文章编号:1671-2064(2018)21-0031-02

1 智慧粮食数据采集、交换、存储标准研究背景

智慧粮食数据资源池的建设,是典型的数据仓库系统的建设,按照业务主题划分,涉及计组织机构、生产、存储、消费、市场、农产品、事件、渠道等主题。这些数据存在数据来源多,数据格式复杂,结构化数据和非结构化数据并存等问题。因此,编制数据采集、交换、存储的标准和规范,对数据进行分类存储,为后续数据挖掘、分析、管理提供基础,是建设智慧粮食大数据资源池的重要内容。

2 智慧粮食数据主题域分析

粮食数据主题域的准确划分包括:(1)原粮种植(生产);(2)原粮收储;(3)原粮交易(国内流通、进出口);(4)成品粮加工;(5)成品粮交易(国内流通、进出口、批发);(6)成品粮零售(消费)。其中,原粮包括小麦、稻谷和玉米;成品粮包括面粉和大米。考虑到原粮的一个重要出口是工业用粮和饲料用粮,因此还可以增加工业用粮和饲料用粮主题域。

3 智慧粮食数据模型分析

3.1 原粮种植(生产)数据模型分析

原粮种植阶段,数据主要包括播种区域、种植户、播种情况、农业气象情况和产量,原粮种植(生产)数据维度如表1所示:其中,最小粒度为种植户每季播种品类,粒度提升方向主要为乡镇、县、市、省、全国;核心数据为各播种区域每季每品类原粮播种面积和产量;非核心数据包括其他播种情况和农业气象情况,为影响原粮产量的相关因素,在采集全面的前提下,可用于预测原粮产量,分析原粮产量变化趋势和影响因素。

3.2 粮食储存和流通数据模型分析

从原粮种植到成品粮消费的中间过程实际上是一个粮食的储存和流通过程,粮食储存和流通过程图,如图1所示。

在图1中,粮食的储存和流通主要发生在粮储企业、成品粮加工企业、成品粮批发企业、成品粮零售企业;原粮的收储主要发生在粮储企业和成品粮加工企业,成品粮储存则涵盖成品粮加工企业、成品粮批发企业、成品粮零售企业和最终消费端。

因此,可以把粮储企业、成品粮加工企业、成品粮批发企业和成品粮零售企业看成主要的粮食储存和流通节点,掌握了这些节点的粮食储存和流通数据,就全面掌握了粮食的储存、流通和消费情况。

不同类型的粮食储存和流通节点基础数据模型,如图2所示。

在图2中,数据模型由入库数据、库存数据和出库数据三部分组成,对于原粮收储,还可以加入质量检测数据,以反映库存原粮的质量信息。

其中,按时间、地区维度统计库存数据,即可得到粮食库存的全面信息和变化趋势,分析各地粮食库存的特点和差异;将各粮食节点的入库数据、出库数据绘制成基于时序的流向图,则可得到粮食流通的全面信息,用来分析原粮交易、成品粮交易的流向、现状和变化趋势,分析各地粮食交易和口粮消费的特点和差异。

以上述数据为基础构建分析或预测用的数据集市,则可以进一步对粮食价格和粮食消费进行统计分析或趋势预测。

4 智慧粮食数据存储

根据上述分析,在智慧粮食大数据资源池中,数据可以按以下方式存储管理:

4.1 源数据存储

源数据为大数据资源池各内部系统、外部采集上报系统、外部数据交换系统中获取的原始数据,其中包含上述数据模型中所含的数据信息。源数据需要单独存储,以备随时取用来进行后续的数据仓库和数据集市建设。源数据可以HDFS文件的形式存储在Hadoop平台中。

4.2 数据仓库

数据仓库用来存储经过标准化整理的数据,用于向数据集市提供符合数据标准和数据质量要求的数据。数据仓库由一系列数据表组成,例如:(1)由最小粒度原粮种植数据的组成的全国原粮种植数据表;(2)由最小粒度原粮收储数据的全国原粮收储数据表;(3)由最小粒度原粮交易数据的全国原粮交易数据表;(4)由最小粒度成品粮加工数据的全国成品粮加工数据表;(5)由最小粒度成品粮批发数据的全国成品粮批发数据表;(6)由最小粒度成品粮零售数据的全国成品粮零售数据表。

同时,需要为数据仓库设置配套的分类标准、数据字典和数据标准,主要包括:(1)原粮品类/成品粮品类标准;(2)涉粮企业类别及名录;(3)粮食价格类型和数据标準。

数据仓库主要以Hive表的形式存储。

4.3 数据集市

数据集市可包括通用集市、专用集市、查询集市和挖掘集市。

通用集市用于支持通用报表的快速生成,主要以Hive表的形式存储,例如可包括:(1)全国/各省原粮种植数据集市;(2)各品类原粮种植数据集市;(3)全国/各省原粮交易数据集市;(4)各品类原粮交易数据集市;(5)全国/各省成品粮加工数据集市;(6)各品类成品粮加工数据集市;(7)全国/各省成品粮交易数据集市;(8)各品类成品粮交易数据集市;(9)全国/各省成品粮零售数据集市;(10)各品类成品粮零售数据集市。

专用集市用于支持满足特殊需求的专用报表的快速生成,主要以Hive表的形式存储,例如可包括:(1)各品类原粮种植对比分析数据集市;(2)原粮交易流向分析数据集市;(3)成品粮交易流向分析数据集市;(4)成品粮零售对比分析数据集市;(5)原粮收储价格分析数据集市;(6)成品粮交易价格分析数据集市;(7)成品粮零售价格分析数据集市。

查询集市用于支持快速响应高并发自由查询,内容可与上述通用集市、专用集市相同,但主要以基于HATP技术的形式存储。

挖掘集市主要面向数据挖掘或机器学习建模所需的训练数据集,按需建设,主要以HDFS文件的形式存储。

数据集市主要通过可自动批量运行的数据ETL任务管道连通数据仓库,从而保持自动定期更新。

5 智慧粮食数据交换

智慧粮食数据交换主要指以数据交换、数据查询的方式为其他部门提供数据服务,主要涉及数据权限和交换方式两项内容。

数据权限主要包括地区权限、涉密权限两类,地区权限可用数据的行政区划维度来划分,涉密权限则需要准确到表、字段和时间维度。

数据交换机制如图3所示,主要提供离线订阅方式,订阅方按权限订阅数据,数据平台则定期将更新后的数据包发送给订阅方。

数据查询主要提供在线查询服务,用户方可根据权限查询所需数据,并将查询结果下载到本地。

猜你喜欢
存储数据采集
档案管理中电子文件的存储探究
基于开源系统的综合业务数据采集系统的开发研究