基于BP神经网络的海洋监测数据等级划分

2016-06-15 09:08邹国良韩金菊屠正飞叶建成陈小琴上海海洋大学信息学院上海0306三江学院土木工程学院江苏南京0000
海洋通报 2016年2期
关键词:BP神经网络

邹国良,韩金菊,屠正飞,叶建成,陈小琴(.上海海洋大学 信息学院,上海 0306;.三江学院 土木工程学院,江苏 南京 0000)



基于BP神经网络的海洋监测数据等级划分

邹国良1,韩金菊1,屠正飞1,叶建成1,陈小琴2
(1.上海海洋大学信息学院,上海201306;2.三江学院土木工程学院,江苏南京210000)

摘要:数据的分类是数据处理和应用的重要环节和前提。在海洋领域中,海洋数据呈现多元、多类等的复杂多样性,给数据的分类带来一定的技术挑战。主要针对海洋数据分类难这一问题,首先利用BP神经网络技术对海洋环境监测数据进行分类,且通过对获取的海洋环境监测数据进行分类预测,最后,实验验证了海洋环境监测数据分类方法的正确性和可行性,给海洋监测数据根据秘密等级进行数据分类提供了支持。

关键词:数据分类;BP神经网络;海洋监测数据;隐含层单元个数

2001年,著名的高德纳咨询公司(Gartner)在一份研究报告中指出,数据的爆炸性是“三维的”、是立体的,这三个维度,主要表现在以下三个方面:一是同一类型的数据量在快速增大;二是数据增长的速度在加快;三是数据的多样性,即新的数据来源和新的数据种类在不断增加。如何收集、保存、维护、管理、分析、共享正在呈指数级增长的数据是必须面对的一个重要挑战。(徐子沛,2013)

近年来,由于海洋监测数据获取手段多样化,包括卫星遥感、航空、气象气球、台站、浮标、船舶、以及水下传感器等多种方式;各个涉海相关职能部门累积的海洋数据类型复杂,主要包括了海洋水文、环境质量、地质、气象、经济、化学及生物等各种各样的资料;数据多尺度、数据量大,涉及空间范围极广,既有全球范围的海洋观测数据,也有小范围的定点观测数据,同时具有时间跨度大的特点,有即时海洋观测数据,也有几十年长序列的海洋气象数据,并且交叉了海洋科学相关多个学科,累积数据总量已远远超过PB级,尤其是我国的重点海域,其累积数据量往往占数据总量的绝大部分,海洋监测数据已呈现爆炸性增长的趋势;随着遥感、浮标、台站等各类观测手段的应用,海洋数据的动态更新变得日益简单和频繁。

由于海洋监测数据的获取手段多样、数据类型复杂、数据频繁变动和数据量爆炸性增长,在实际应用中,常常要对采集到的海洋监测数据进行相应的划分处理,而这种划分处理的方法需要简单易行且准确率高,BP神经网络中的网络工具箱中包含了设计神经网络模型所需要的各类函数及算法,包括初始化函数、训练函数、仿真函数等等。这样一来,设计者在进行BP神经网络模型的设计时,只需要调用神经网络工具箱中的相关函数和程序,即可建立所需的网络模型,在面对大范围变动的数据时,节省了程序的设计与调试时间,提高了实验设计的效率,更具有可靠性。通过BP神经网络把数据划分成不同的安全等级,进而采取不同的安全措施。

目前对海洋信息的处理有了一定的发展,魏永星等(2014)提出了对实测海洋环境噪声数据进行数据处理,为更广泛的海洋环境噪声数据的分析和应用奠定了基础;周鹏等(2011)提出了海洋环境放射性监测数据科学判断模式,为海洋环境放射性监测的数据处理提供借鉴;王晓民(2008)在分析“数字海洋”信息需求的基础上,提出了数据处理与信息服务模型;Narayanan等(2014)提出了一种新的数据分类方法用于电力公司的安全框架,将数据分类应用到企业数据中。

利用BP神经网络对数据进行分类也有了一定的研究基础,通过描述并分析BP算法,利用实际案例证明BP网络在数据分类领域具有实际应用价值(莫礼平等,2006);利用BP神经网络化对探数据分类(阴江宁等,2010);将BP神经网络应用在高维数据分类中(曹云忠等,2007)。但是对海洋监测数据利用BP神经网络进行秘密级的划分方面的研究开展的比较晚,研究报道相对比较少,本文在阅读大量文献的基础上,利用BP神经网络工具箱将海洋监测数据划分为不同的秘密等级,实现了数据秘密等级分类。

本文实现了对海洋监测数据进行秘密级分类,分类的过程具有简单、易行、实用等特点。

1 BP神经网络隐含层数的确定

1.1BP神经网络的原理

BP神经网络(Back Propagation)是一种按误差逆向传播算法训练的多层前馈网络,分为输入层、隐含层和输出层,层与层之间采用全互连方式,层内神经元之间无连接,其模型结构如图1。

图1 BP网络结构

BP算法通过迭代地处理一组训练样本,将样本的网络预测与实际已知类标号比较来进行学习。对于各样本反向修改其权值,使得网络预测与实际类之间的误差平方最小。BP算法按照最优训练准则反复迭代,确定并不断调整神经网络结构,通过迭代修改,当权值收敛时,学习过程终止(李穗丰等,2006;蔡自兴等,1996)。

1.2行隐含层单元数的确定方法

以下3种途径可用于选择最佳隐含层单元数时的参考公式(飞思科技产品研发中心,2005,沈花玉等,2008)。

(3)n1= log2n,其中,n1为隐含层单元数,n为输入单元数。

在实际问题中,通常的选择是每种方法分别验证其最佳隐含层单元数,然后确定网络最终的最佳隐含层单元数。

2 海洋数据等级划分实验仿真

2.1海洋数据的来源

本文的数据采集有一部分是来自于网络资源数据(http://www.ndbc.noaa.gov/;樊妙等,2013),有一部分是来自于我院对我国某重点海域环境监测数据的收集。这些数据中包含大比例尺、长周期、远岸和近岸数据,这些数据必定是有一定海洋研究价值,是符合本文数据秘密等级分类的要求。

在指标的选取时,所选取的这些指标是海洋环境监测的基础要素指标,这些指标参量数据中包含有本文收集的大比例尺、长周期、近岸、远岸数据,是符合本文价值等级分类实验要求的数据,其中有1/5的数据是大比例尺、长周期、近岸数据;1/5的数据是长周期,大比例尺数据;1/5的数据是长周期,近岸数据;1/5的数据是长周期,远岸数据;1/5的数据是远岸数据。实验环境是MATLAB神经网络工具箱。实验数据如表1。收集海洋监测数据的工具为各类浮标、水位观测网络和石油平台,图2、图3为海洋环境监测数据浮标,图4为海洋环境监测数据分布图。MATLAB神经网络工具箱提供了一系列相关建立BP网络模型的函数,只需掌握这些函数的调用,即可建立所需的网络模型,从而可以提高研究效率(刘松青,2003)。

表1 部分归一化后的训练数据

图2 海洋环境监测浮标

图2中浮标为海洋环境监测浮标,其主要参数如下:

浮标类型:近岸监测浮标

浮标自重:57 kg

毛排水量:622 kg

整体毛重:307 kg

最大浮力:320 kg

浮力/重量比:2.96:1

浮标尺寸:1.83 m直径,1.13 m高

支架高度:1.52 m

浮标整体高度(不含顶端加装设备的高度):2.58 m

最大整体高度(含典型的天线及灯标):不超过4.5 m

图3 海洋环境监测浮标

图4 数据分布图

2.2数据分类依据

海洋资料涉及国家机密,属于保密范围。为使海洋资料既利于保密又便于使用,结合几年来海洋工作的具体情况,国家海洋局对主要海洋资料的密级划分作如下规定(http://sdinfo.coi.gov.cn/hyfg/ hyfgdb/fg151.htm):

(1)绝密:我国实测的重力资料及其整编成果;实测的我军舰艇水下噪声资料等。

(2)机密:各种海洋调查计划;我国实测的磁场资料及其整编成果等。

(3)秘密:海洋站的潮位资料和潮汐调和常数;位于军港的海洋站观测资料等。

(4)内部:非位于军港的海洋站观测资料(除潮位);各种未经公开的船舶测报资料等。

(5)公开资料:纯理论性的科研成果;一般的海洋仪器技术资料等。

2.3实验基本流程

本文利用MATLAB神经网络工具箱,对海洋监测数据进行秘密等级划分,首先将海洋监测数据划分成训练和校验两个样本集,然后利用训练样本集将神经网络训练达到误差可接受的范围,最后用校验数据进行校验,数据分类流程如图5所示:

图5 数据分类流程

2.4隐含层数的确定

通过1.2所述,隐含层单元数的确定需要样本数,输入单元数,输出单元数。本实验利用MATLAB神经网络工具箱,对数据的秘密等级进行划分。将流速、流向、波高、气压、气温、水温、纬度、经度、可访问人数这9个元素作为输入,将绝密、机密、秘密、公开4个指标作为输出,输出结果的方法依次表示为0001,0010,0100,1000,见表2。选取500个样本数据进行实验,其中有300个数据作为训练数据,有75个数据作为校验数据,有125个数据作为测试数据,通过1.2所述的3种方法,分别计算隐含层的单元数。

(3)n1= log2n,n = 9,计算n1= 4。

通过方法(1)、(2)、(3)中计算的隐含层单元数,选择隐含层单元数分别为4,5,6,7,8,9,10,11,12,13,14时,利用BP神经网络工具箱训练数据,观看数据训练后的混肴函数,如图6-9所示。当隐含层数为6时,训练数据的混淆函数已经达到很好的收敛,由于篇幅原因,此处不再赘述插入当隐含层数为8-14时的混淆函数。

表2 价值等级输出表示

图7 隐含层数为5

图9 隐含层数为7

图10 隐含层数为6时的准确率

图6-图9分别代表隐含层数为4-7时,BP网络训练数据的具体情况,以图6为例加以说明:图6中共包含4个图,其中分别为训练混淆矩阵、验证混淆矩阵、测试混淆矩阵和总混淆矩阵。

训练混淆矩阵是对网络训练数据情况的具体反映,由训练混淆矩阵图可以看出矩阵的横坐标代表目标类,矩阵纵坐标代表输出类,根据输出指标得到训练混淆矩阵横纵坐标分别表示为1、2、3、4四类,实验的训练数据为300条,图6的训练混淆矩阵中有88条1类数据被训练成1类数据,有0 条1类数据被训练成2类数据,有6条1类数据被训练成3类数据,有0条1类数据被训练成4类数据。2类、3类、4类数据训练情况以此类推。

验证混淆矩阵是对训练完成的网络进行验证情况的具体反映,由验证混淆矩阵图可知验证数据为75条,其中有23条1类数据被判断为1类数据,0条1类数据被判断成2类数据,0条1类数据被判断成3类数据,0条1类数据被判断成4类数据。2类、3类、4类数据验证情况以此类推。

测试混淆矩阵是对训练完成的网络进行测试情况的具体反映,由测试混淆矩阵图可知测试数据为125条,其中有35条1类数据被判断为1类数据,0条1类数据被判断成2类数据,4条1类数据被判断成3类数据,0条1类数据被判断成4类数据。2类、3类、4类数据测试情况以此类推。

总混淆矩阵反映了总体数据分类的情况,与上述混淆矩阵类似,此处不再赘述。

图10这张准确率的图可以看出,训练数据、校验数据、测试数据的错误率大部分都在0.000891,少部分在0.00135,极少部分在0.00359 和0.003131。

2.5等级划分仿真实验

由2.4节可知,本实验确定的隐含层数为6,当隐含层数为6时,网络训练速度快,所需迭代次数少,误差小,收敛性好,因此本文采用了的网络结构,网络结构如图11所示,表3为测试数据的输出,可以看出使用训练好的密级分类模型所得到的评估结果是符合期望的。

利用训练好的BP数据分类模型进行预测评估,结果显示出利用BP数据分类网络模型对浮标系统中存储的数据的秘密等级进行预测评估是可行的,只要有足够准确可靠的样本数据供网络进行学习训练,就可以对海量海洋数据的秘密等级进行分类,这对于海量海洋数据的分类保存具有十分重要的意义。

图11 网络结构图

表3 测试数据输出

3 比较

本文在总结了计算BP神经网络隐含层单元个数方法的基础上,利用BP神经网络工具箱,构建出最符合数据秘密级分类的网络结构,在莫礼平等(2006)给出的数据分类思想的基础上,将BP神经网络延伸到海洋领域,使用MATLAB神经网络工具箱比莫礼平等(2006)所使用的方法简单易行,且可大幅度降低海洋监测数据学习时间,500多个点的输入只需学习几次,且收敛性也很好。同时,本文考虑到了BP神经网络隐含层单元数个数的选取,这是莫礼平等(2006)所没有考虑到的。本文所使用的方法可以很好的处理海洋监测数据,正确的划分了海洋数据的秘密等级,具有现实的应用价值。

另外,本文采用了实际的应用案例,克服了周鹏等(2011),王晓民等(2008)单纯使用判断模式的缺点,得到的结果更加真实可信。

4 结论

随着海洋事业的发展,海洋监测数据的爆炸性增长问题已经是一个不可回避的问题,本文利用MATLAB神经网络工具箱对海洋监测数据进行秘密等级划分。通过实际的应用案例,利用BP神经网络可以达到很好的精度和较高的学习效率,收敛速度快。

参考文献

http://sdinfo.coi.gov.cn/hyfg/hyfgdb/fg151.htm.

蔡自兴,徐光佑,1996.人工智能及其应用(第二版).北京:清华大学出版社.

曹云忠,王超,2007.多神经网络在高维数据分类中的应用研究.计算机应用与软件,24(7):146-148.

樊妙,章任群,金继业,2013.美国海洋测绘数据的共享和管理及对我国的启示.海洋通报,32(3):246-249.

飞思科技产品研发中心,2005.神经网络理论与MATLAB7实现.

李穗丰,陈燕清,2006. BP神经网络及其在数据分类中的应用.电脑与电信,(9):13-15.

刘松青,2003. MATLAB神经网络BP网络研究与应用.计算机工程与设计,24(11):81-83.

莫礼平,樊晓平,2006. BP神经网络在数据挖掘分类中的应用.吉首大学学报(自然科学版),27(1):59-62.

沈花玉,王兆霞,高成耀,等,2008. BP神经网络隐含层单元数的确定.天津理工大学学报,24(5):14-15.

王晓民,张新,池天河,2008.“数字海洋”的数据处理与应用模式研究.计算机应用,28:358-363.

魏永星,于金花,常哲,等,2014.海洋环境噪声数据处理及时空特性研究.电子设计工程,22(14):28-30.

徐子沛,2013.大数据,广西师范大学出版社.

阴江宁,肖克炎,李楠,等,2010. BP神经网络在化探数据分类中的应用.地质通报,29(10):1564-1571.

周鹏,李冬梅,蒋跃进,等,2011.海洋环境放射性监测的数据处理中存在的问题.海洋通报,30(5):544-550.

(本文编辑:岳心阳)

Marine monitoring data hierarchy based on the Back Propogation neural network

ZOU Guo-liang1,HAN Jin-ju1,TU Zheng-fei1,YE Jian-cheng1,CHEN Xiao-qin2
(1. Shanghai Ocean University,College of Information,Shanghai 201306,China;2. San Jiang University,College of Architecture and Construction,Nanjing 210000,China)

Abstract:Data classification is the key step of marine data processing. In the ocean field,the multiple and multiclass diversity of marine data brings technical challenges to the data classification. This paper mainly focuses on solving this problem. First,BP neural network technology is used to classify the marine environmental monitoring data. Then we bring out a prediction from the classification of obtained marine environmental monitoring data. At last,the experiment verifies the validity and feasibility of the method of marine environmental monitoring data classification,which has laid a foundation for the marine monitoring data classification based on secret levels.

Keywords:data classification;BP neural network;marine monitoring data;hidden layer unit number

中图分类号:P736.22

文献标识码:A

文章编号:1001-6932(2016)02-0187-07

Doi:10.11840/j.issn.1001-6392.2016.02.009

收稿日期:2014-12-21;

修订日期:2015-06-05

基金项目:上海市科委重点支撑项目(12510502000);华东师范大学河口海岸学国家重点实验室开发基金(2008DFB90240)。

作者简介:邹国良(1961-),男,博士,教授,主要从事信息安全、信号系统研究。电子邮箱:glzou@shou.edu.cn。

通讯作者:韩金菊,硕士,研究生。电子邮箱:994825467@qq.com。

猜你喜欢
BP神经网络
基于神经网络的北京市房价预测研究
一种基于OpenCV的车牌识别方法
基于遗传算法—BP神经网络的乳腺肿瘤辅助诊断模型
一种基于改进BP神经网络预测T/R组件温度的方法
基于BP神经网络的光通信系统故障诊断
提高BP神经网络学习速率的算法研究
就bp神经网络银行选址模型的相关研究
基于DEA—GA—BP的建设工程评标方法研究
复杂背景下的手势识别方法
BP神经网络在软件质量评价中的应用研究 