渔业大数据综述

2017-05-30 07:19:13于喆
安徽农业科学 2017年9期
关键词:渔业大数据

于喆

摘要对渔业大数据概念和发展现状做了阐述和说明,对关键的技术框架进行了介绍,并分析了今后渔业大数据发展所面临的挑战和机遇。

关键词渔业;大数据;技术框架

中图分类号S951.2文献标识码A文章编号0517-6611(2017)09-0211-03

Review of Fishery Big Data

YU Zhe

(Liaoning Ocean and Fisheries Science Research Institute,Dalian,Liaoning 116023)

AbstractThe concept and development status of fishery big data were described and illustrated, the key technical framework was introduced. This paper analyzed the challenges and opportunities in the development of fishery big data in the future as well.

Key wordsFishery;Big data;Technical framework

随着传感器、互联网、云计算等技术的迅猛发展,人类社会产生的数据量呈“井喷式”增长,“大数据”时代已经到来。我国在渔业领域有大量的数据产生,将这些数据搜集、清洗、整合、分析变为有用的信息,可以为政府决策、企业管理、科学研究提供翔实、可靠的依据。2015年9月5日,国务院印发了《促进大数据发展行动纲要》,至此,“大数据”不单单是停留在概念炒作阶段。笔者对渔业大数据概念和发展现状做了阐述和说明,对关键的技术框架进行了介绍,并分析了今后渔业大数据发展所面临的挑战和机遇。

1渔业大数据概念

1.1渔业信息化

渔业是指人类利用水中生物的物质转化功能,通过捕捞、养殖和加工,以取得水产品的产业。讨论渔业大数据的概念,不得不提到渔业信息化。渔业信息化是指利用信息技术为渔业的生产、供给、销售以及相关管理和服务提供数据支撑[1],具体包含水产养殖环境信息化、渔业资源调查信息化、渔业管理信息化、水产品加工流通信息化等。可以说渔业信息化既是粗放型渔业向集约型渔业转变的前提,又是现代渔业对比传统渔业所具备的一个重要特征。

1.2大数据

数据(Data)一词,在拉丁语中的意思是“已知”的意思,在英文中的解释是“论据、事实”。“科普中国”百科科学词条编写与应用工作项目对“数据”给出了这样的解释:数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据是信息的表现形式和载体[2],文字、数字、视频、音频等都是数据。数据本身没有意义,只有对实体行为产生影响时才成为信息。

大数据的“大”实际上指其占存储器的容量大。随着信息技术的发展,存储设备的普及,每天各个行业产生的数据量难以估算,且数据产生的速度越来越快、越来越多。而存储设备价格越来越低,容量越来越大。

作为一个快速发展的新技术领域,大数据的定义并不明确。研究机构Gartner对“大数据”给出了这样的定义[3]:大數据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。即大数据是难以使用现有普通的软件技术来存储、读取的海量数据集。维基百科对“大数据”的定义是难以在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。其具备几个特征[4]:①容量(Volume):至少PB级;②种类(Variety):数据类型多样性;③速度(Velocity):指获得数据的速度;④可变性(Variability):容易妨碍处理和有效地管理数据的过程;⑤真实性(Veracity):數据的质量真实可靠;⑥复杂性(Complexity):数据量巨大,来源多渠道。

1.3渔业大数据

渔业信息化和大数据技术的发展造就了渔业大数据。渔业大数据是利用大数据的理念和相关技术架构,结合数学模型把渔业信息化产生的大量数据加以处理和分析,并将有用的结果以直观的形式呈现给需求者,来解决渔业领域出现的问题。

渔业信息化产生的大量数据包含水产养殖、捕捞、加工、供销、科研、管理等各个环节以及影响这些环节的各类因素(气象、水质、市场、政策等)所产生的所有数据的集合。

渔业数据处理和分析的过程是对数据进行获取、分类、加工、管理、挖掘、分析的过程,最终,有价值的信息会被提取展示给需求者。总之,“渔业大数据”——数据是根本,分析是核心,利用信息技术提高渔业综合生产力是目的。

2渔业大数据的分类和发展现状

2.1分类

按照渔业大数据的特征来划分,主要包含以下几类[2]:①按照领域划分,以渔业领域为主体,涵盖了养殖业、捕捞业、加工业,可以扩展到苗种、饲料、渔业机械、环境、运输等;②按照地域划分,不仅包括全球的数据,还包括国内数据,省(市、县)数据,从而进行更精准地研究;③按照企业来看,包含经济主体的基本信息、投资者信息、生产信息、坐标信息、人事信息等;④按照学科专业领域划分,可分为气象数据、水环境数据、生物基因数据、市场经济数据等。

2.2发展现状

大数据在我国互联网、金融、能源、制造、交通领域已经得到广泛应用,随着传感器、物联网等信息技术和渔业信息化的发展,渔业领域也具备了发展大数据的可能,但仍存在很多问题[5]:

①近年来,我国食品质量安全包括水产品质量安全受到前所未有的关注,渔业生产涉及养殖、捕捞、运输、加工等多个步骤和环节,包含生态环境、生物分子、社会经济、食品安全等多方面,影响面也越来越大,单一专业领域的信息难以应对这样复杂的局面,需要从渔业生产的整个产业链的高度来掌握各类渔业信息。但是数据相对分散,没有得到集成利用和有效整合,形成了信息孤岛,不利于各相关主体做出科学决策。

②渔业信息资源质量低。渔业属于第一产业,在生产一线的信息站点非常少,科研院所、职能机构远离基层,而一线基层人才缺乏、仪器设备质量和技术水平都普遍较低,数据的搜集非常困难,相关网站多为重复、过时的信息。

③渔业信息服务机制有待完善。经常出现养殖户盲目跟风养殖某种水产,造成供大于求的现象。缺乏水产市场的供求预测,总是做事后分析,没有对市场的预警机制。大数据技术的目的就是通过大量的现有数据进行分析和预测,渔业市场的监测亟需通过大数据技术来完善。

3渔业大数据技术架构

该研究主要介绍以Hadoop技术为核心的渔业大数据技术架构[6]。由图1可知,可划分为3层:数据采集层、数据存储计算层和数据应用层。大数据的技术架构有别于传统信息技术架构,它由适应海量数据管理的分布式文件系统和NoSQL非关系型数据库;处理大规模数据集并行运算的MapReduce编程模型;进行分布式数据存储、数据处理、系统管理的Hadoop框架等各类相关技术组成。

3.1大数据的采集

数据是根本,渔业数据的采集是整个大数据技术架构后续存储、共享、分析各个步骤的前提。数据的获取主要涉及数据的采集和数据的传输。渔业大数据的采集方式主要有传感器数据、RFID射频数据、互联网数据、业务信息系统等[6]。

传感器通过光敏元件、气敏元件、湿敏元件、热敏元件、色敏元件等各类感知功能的元件将环境变量转变为数字信号。这些环境变量可以是温度、压力、盐度、视频、音频等。这些数据信息通过有线网络或者无线网络传输到采集节点[7]。

有线传感器网络通过网线(屏蔽双绞线)传输,这种传输方式适合易于部署的环境下,對电源、环境都有一定的要求。其传输距离比较短,一般各个网络節点间不超过90 m,否则将有信号衰减。对于远距离的有线传输,需要通过光纤完成。有线网络的传输速率较高,信号稳定,能满足实时视频、图片、音频等数据的高速传输要求,常应用在养殖池塘的视频监控、水产品加工的视频监控、水下生物的图像采集等。

无线传感器网络(WSN)是由大量静止或移动的传感器以自组织和多跳的方式构成的无线网络,以协作的感知、采集、处理和传输网络覆盖地理区域内被感知对象的信息,并最终把这些信息发送给网络的所有者。近些年无线传感器网络得到广泛的研究,在养殖水质监控、生态环境监控等领域也有所应用。但是目前海水理化参数监测探头的价格仍较高,因此没有得到良好的普及。

RFID射频识别技术是一种无线通信技术,可通过无线电讯号识别特定目标并读写相关数据,而无需识别系统与特定目标之间建立机械或光学接触。随着物联网技术的发展,基于RFID射频识别技术,水产品从养殖、加工、配送到销售可实现全程的跟踪与追溯。

互联网数据也是渔业大数据采集的重要方式。很多气象部门、环境监测部门通过互联网发布各类数据,并提供数据接口;通过网页爬虫的方式也可以搜集到大量数据。

近年渔业主管部门、企业、科研单位也都建立了自己的各类业务信息系统,保存着各类渔业数据。如中国水产养殖网(www.zgsc123.com),该网站汇集了大量的、实时的全国范围的水产品报价、供求信息、行业咨询,并提供金融服务、数据仓库服务和社交服务;国家水产种质资源平台(hzzzy.fishinfo.cn),此平台整合了多家国家级水产原良种场及龙头企业,包含129个数据库,标准化表达了3.5万条水产资源记录。

3.2数据的存储计算

HDFS(Hadoop Distributed File System)和MapReduce是Hadoop体系的核心,前者负责处理海量数据的计算和数据处理,后者负责进行海量数据的存储[8]。

HDFS的基本原理是将大文件切分成相同大小的数据块(一般为64 MB),存储在多个数据节点上,并具备校对、负载均衡等功能。HDFS具有以下特性:①良好的扩展性。在集群当前的存储不能满足需求时,可以将一些廉价的机器增加到Hadoop集群中(横向扩展),来达到存储扩展的目的。同时可以借助HDFS提供的工具,将已有数据进行重新分配存储,均匀地分布到新增的机器节点中。②高容错性:集群中一个或多个节点出现故障,HDFS内部会把数据形成多个拷贝(通过数据冗余实现),从而保证数据不丢失。

MapReduce是一种用于大规模数据并行计算的编程模型,Map(映射)和Reduce(简化)为其核心思想。编程人员可以不用分布式程序设计语言,即可使自己的程序运行在分布式系统的环境下。它具备以下功能:①划分数据块及计算任务调度。可自动将一个JOB分为多个数据块,每个数据块对应一个任务,自动调取相应的计算节点,处理对应的数据块。计算任务调度功能可监控管理各个计算节点的运行状况,分配任务。②数据和程序代码的相互定位。MapReduce主要处理的是大量的离线数据,因此计算节点将最大程度地处理其本地存储的数据,这就是程序代码定位数据。而本地无法完成数据处理和计算时,会将数据发送给其他临近的计算节点来完成,这就是数据定位程序代码。③系统优化。基于最大限度地降低通信开销的目的,Reduce节点会合并处理一些数据,多个Map节点会通过策略划分将具有相关性的数据发送至1个Reduce节点处理。除此以外,对于较慢的任务,系统会进行多拷贝计算,以最快完成计算的节点作为计算结果,从而提高运算的速度。

ETL(ExtractTransformLoad)是用户将从数据源中调取数据经过清洗[9],并按照规定的模型加载到数据仓库中。ETL过程占数据仓库建设50%以上的时间。将数据按照规范的格式转换加载到数据仓库中,实现了渔业大数据的规范化、持久化,并建立了数据分析的长效机制。

3.3数据的展示和分析

在用户端,可以使用BI(商务智能)工具,Adhoc query(即席查询)以及其他数据接口和产品来直接调取数据库中的数据进行分析和展示[10-11]。

BI工具可以迅速准确地提供调取数据库中的数据产生报表,为企业及时做出经营决策。虽然叫做“商务智能”,但BI技术已经不局限于商业领域。凡是涉及产生数据报表做分析和展示的都可以借助BI工具来实现。常见主流的BI工具以国外的产品为主,包括SAP BO、Oracle BIEE、MSTR、Qlikview、Tableau等,国内流行的BI工具以FineBI、永洪BI等为主。

即席查询技术出现在数据仓库领域,与已编程好的信息系统的查询模块不同,用户可以在经过授权后直接面对数据库,按照自己的要求查询相关数据。现在,很多数据展示工具都提供了即席查询的功能,用户可以通过语义层选择表,建立表间的关联,最终生成SQL语句。它与通常的SQL查询并没什么不同,只是效率较低,因为数据库的设计难以考虑用户即席查询的需求。各类相关的业务信息系统也可以通过接口访问数据库,进行增删改查的操作。

4结语

大数据、云计算、物联网等信息技术在通讯业、金融业、交通运输业、互联网行业等第三产业中有了广泛的應用,这些技术已经改变了人们的生活方式,對于农林牧渔业这类第一产业,其工作对象是自然界的物质,因此,在感知和数据搜集方面现在的技术还有待完善,很多理化参数需要人工来搜集,但这并不影响渔业大数据平台的建设。数据、技术思维将是新的生产资料、生产工具和生产者[12],结合数据分析工具,渔业将进入智能决策的时代。

参考文献

[1] 周洵.大数据技术与中国渔业[J].中国水产,2015(8):31-33.

[2] 温孚江.农业大数据研究的战略意义与协同机制[J].高等农业教育,2013,11(11):3-6.

[3] GANTZ J,REINSEL D.Extracting value from chaos[R].IDC,2011:1-12.

[4] MANYIKA J,CHUI M,BROWN B,et al.Big data:the next frontier for innovation,competition,and productivity[R].2011.

[5] 曾首英,闫雪,静莹.我国渔业信息化发展现状与对策思考[J].渔业信息与战略,2013,28(1):20-26.

[6] 李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015,45(1):1–44.

[7] 刘雨青,吴燕翔,吴晓栋.工厂化养殖循环水处理控制系统的设计[J].科学技术与工程,2012,12(7):1526-1530.

[8] 董新华,李瑞轩,周湾湾,等.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S1):1-5.

[9] GALHARDAS H,FLORESCU D,SHASHA D,et al.An nextensible framework for data cleaning[C].Proceedings 16th International Conference on Data Engineering.San Diego,CA,USA:ICDE,2000.

[10] 任修仕,邵剑飞.一种基于Hadoop的数据展示研究[J].新技术新工艺,2016(1):83-85.

[11] 李琳.BI商务智能系统及其技术架构研究[J].中国管理信息化,2016,19(12):56-57.

[12] 郭承坤,刘延忠,陈英义,等.发展农业大数据的主要问题及主要任务[J].安徽农业科学,2014,42(27):9642-9645.

猜你喜欢
渔业大数据
欢迎订阅2020年度《河北渔业》
世界农药(2019年4期)2019-12-30 06:25:06
休闲垂钓 传统渔业新引擎
中国水产(2017年2期)2017-02-25 07:56:29
中菲渔业合作重启 菲渔业代表团来华培训交流
中国水产(2017年2期)2017-02-25 07:56:08
大数据环境下基于移动客户端的传统媒体转型思路
新闻世界(2016年10期)2016-10-11 20:13:53
基于大数据背景下的智慧城市建设研究
科技视界(2016年20期)2016-09-29 10:53:22
数据+舆情:南方报业创新转型提高服务能力的探索
中国记者(2016年6期)2016-08-26 12:36:20
湖南省渔业协会成立
关于加强海上渔业安全管理的几点思考
世界海运(2015年8期)2015-03-11 16:39:04
渔业
江苏年鉴(2014年0期)2014-03-11 17:09:36