徐立萍 ,门雅彬
(1.上海出版印刷高等专科学校,上海 200093;2.上海理工大学,上海 200093;3.国家海洋技术中心,天津 300112)
基于数据挖掘算法的WCPO金枪鱼围网渔情预测研究
徐立萍1,2,门雅彬3
(1.上海出版印刷高等专科学校,上海 200093;2.上海理工大学,上海 200093;3.国家海洋技术中心,天津 300112)
利用数据挖掘方法对1990年1月—2001年7月10余年的WCPO金枪鱼围网作业生产数据以及该时段的18个与WCPO金枪鱼围网产量相关的海洋环境因子进行分析,将信息增益分析技术和基于粗糙集的属性化简方法相结合用以确定影响WCPO金枪鱼围网产量的关键因子集。利用多元回归分析方法建立基于关键因子集的预测模型,经过大量试验对比选择较佳的预测模型,达到了理想的效果。同时,验证了所确定关键因子集的可靠性,有效性。首次利用多种数据挖掘方法相结合的方式对多种影响因子进行分析,开展渔情预报研究,达到了较好的效果,为渔情预报研究提供了一种新思路,同时为渔业生产提供了可靠的依据。
中西太平洋;金枪鱼围网;信息增益;粗糙集;渔情预报
中西太平洋海域WCPO(Western and Central Pacific Ocean)是世界金枪鱼围网渔业最主要的渔区,其年产量在100万t左右[1]。在金枪鱼围网作业中,寻找鱼群是最为重要的步骤,除了靠目视侦察等传统方式外,还有依靠温度、盐度和叶绿素浓度分布及其变化情况来进行渔情预报,渔情预报所需的海洋环境信息主要来自于国外,一艘围网船只每年约需支付4万美元[1]。因此对该海域进行渔情预报,对我国金枪鱼围网渔业的发展有着极为重要的意义。
渔情预报研究中,确定关键的影响因子是极为重要的一步,传统的预测方法所涉及因子较少,其结论具有一定的局限性。而数据挖掘算法的优点就是从海量数据中找到潜在有用的信息,目前也得到了一些应用,如沈新强[2],陈新军[3]等在该领域做了大量研究。历年来对金枪鱼分布情况的研究,以及对金枪鱼渔业的渔情研究,主要涉及的环境因子就是水温,而其它环境因素如盐度、温跃层、营养物等与金枪鱼分布的关系则研究较少。本研究旨在将数据挖掘方法应用于中西太平洋海域金枪鱼围网渔业渔情预报研究,通过对1990—2001年金枪鱼围网生产数据以及海洋环境因子数据进行分析,确定影响产量的关键因子集,进而利用多元线性回归方法建立基于关键因子集的预测模型。
在影响中西太平洋海域金枪鱼围网产量的众多环境因子中,水温是个非常关键的影响因素,而且构成也非常复杂,包括了海洋表面温度、各水层的水温以及不同水层的温跃层等。本研究选取了18个水温因子作为研究对象(表1)。由于金枪鱼围网主捕对象为鲣鱼,约占总产量的70%~80%,因此以鲣鱼产量作为代表进行分析。研究海域为中西太平洋海域(20°N~25°S,175°W以西),时间段为 1990 年 1 月—2001年7月。在数据分析中,以1990年1月—1998年12月期间数据作为试验样本,1999年1月—2001年7月间数据作为检验样本。
由于生产统计数据和水温数据的空间分辨率不同,分析之前统一转化为5°×5°。采用了算术平均值方法计算5°×5°区域的海水垂直温度、表温及历史平均值,公式如下:
式中:T(m,n)表示以经度为m,纬度为n的点为中心的5°区域的平均属性值(表示海水垂直温度、表面温度或历史平均值),T(i,j)表示包含在这 5°区域里的相应属性值,N 为求和属性值的个数。
在分析过程中,采用数据挖掘方法。为避免一种算法对某种数据的倾向性,同时为了确保试验结果的可靠性,试验过程中,将信息增益分析技术和基于粗糙集的属性化简方法相结合,确定影响WCPO金枪鱼围网产量的关键因子集。利用多元回归分析方法构建预测模型,同时反向检验关键因子集的可靠性。分析过程如下:
表1 18个水温因子及其来源
(1)利用面向属性归纳的思想对数据进行预处理。
(2)通过信息增益分析技术对1990年1月—1998年12月的数据进行分析,计算各个属性的信息增益值确定各属性对产量的影响强度,确定与产量强相关的属性集。
(3)为避免只依赖某一种工具,选取多种工具是非常必要的。同时采用了面向粗糙集的属性化简方法(利用Skowron提出的可辨识矩阵得到属性的最佳化简)[4],同样对上述18个因子及产量数据进行分析,找出影响WCPO金枪鱼围网作业产量的关键属性集。
表2 信息增益分析技术的结果
(4)结合上述两种方法的结果,确定影响WCPO金枪鱼围网产量的关键因子集。
(5)利用多元回归方法构建预测中西太平洋海域金枪鱼围网产量的数据模型。
通过信息增益分析技术对1991年7月—1998年12月数据进行分析,得到表征对WCPO金枪鱼围网产量影响强度的信息增益值(表2)。
利用面向粗糙集的属性化简方法得到的核属性集为:
从试验结果看,信息增益大于0.02的影响因子均包含在用面向粗糙集的属性归约算法找出的核属性集中,同时信息增益分析技术分析的结果表明,12.5DeepTemp和37.5DeepTemp的信息增益值总是非常相近,即对总产量的影响程度差不多。面向粗糙集的属性化简结果:12.5DeepTemp和37.5DeepTemp只需包含一个就可以构成核属性集。因此我们确定了信息增益分析技术中确定的关键因子的可靠性。
两种方法实验结果表明各有优点,面向粗糙集的属性归约算法可以找出核属性集,并且可区分出有些影响强度差不多的属性只择其一就可以了,但无法区分各因子的影响强度。当核属性集较大时,我们就无法进一步决定应去除哪些属性了。信息增益分析技术恰恰能解决这个问题,信息增益值表征出各属性对对比类的影响能力。试验结果表明两种方法相结合可以达到非常好的效果。
(1)确定属性集I
选取信息增益值大于阈值0.03的关键因子287.5DeepTemp,237.5DeepTemp,12.5DeepTemp,37.5Deep Temp,SeaSurfaceTemp,结合面向粗糙集的属性归约算法的试验结果,仅需选12.5DeepTemp,37.5DeepTemp两者之一,此处选择12.5DeepTemp,同时考虑到温跃层对产量具有一定的影响力,因此加进信息增益值最大的温跃层属性187.5TempDiff(137.5~187.5 m水层每米平均温度变化),构成属性集I:
{287.5DeepTemp,237.5DeepTemp,12.5DeepTemp,SST,187.5TempDiff}
(2)确定属性集II
为了避免人为因素的影响,取187.5TempDiff信息增益值0.022 2为阈值,将大于此阈值的属性全部确定为关键因子。这样,构成属性集II:
(3)利用多元回归分析方法建立模型对比两个属性集
通过多元回归分析方法建立模型,检验属性集I与属性集II的预测效果。试验中发现利用属性集II建立的模型与用属性集I建立的模型预测效果相仿。因此,在此确定属性集I为影响WCPO金枪鱼围网产量的关键因子集,建立预测模型。
用SPSS软件中的多元分析方法,用强相关因子建立中西太平洋金枪鱼围网产量预测模型,经过多种建立模型方式,确定了一种预测效果较好的考虑因子交互效应的预测方程(NetNum为投网次数):
预测产量=-17252.6+2394.849*[287.5DeepTemp]
试验结果证明预测效果较好,基本可以反映出相应产量信息。用1999年1月—2001年7月数据进行检验,预测效果如图1;对1990年1月—2001年7月数据进行预测。当仅对总产量大于500 t进行预测时平均误差为2.89%;对总产量大于300 t进行预测时平均误差为19.3%;对总产量大于100 t进行预测时平均误差为61.9%,当对总产量大于50 t的进行预测平均误差就非常大了,由此看到此模型对于产量大于300 t的渔区预测效果还是非常好的。
图1 预测模型预测结果图
在研究过程中利用数据库技术对原始数据进行了清理、集成、选择。利用面向属性的归纳方法将数据进行预处理,变换成所选数据挖掘算法可用的数据。采用了信息增益技术和一种面向粗糙集的属性化简方法相结合从选定的18个海洋环境因子中确定出与中西太平洋海域金枪鱼围网产量强相关的因子,利用多元回归方法建立预测模型。从一系列的试验中得到以下结论:
(1)各因子的影响强度
从关键属性集{287.5DeepTemp,237.5DeepTemp,12.5DeepTemp,SeaSurfaceTemp,187.5TempDiff}来看,对WCPO金枪鱼围网产量影响强度较大的是较深水层的海水温度,海水表温,影响强度较大的温跃层是137.5~187.5 m水层的温度变化值。
(2)预测模型
在确定了关键属性集之后,采用了多种方式构建预测模型,从试验结果得出,考虑交互效应的预测模型要优于不考虑交互效应的取自然对数的预测模型。
采用数据挖掘方法对海量数据进行分析,获取信息量远大于用传统方法进行预报,摆脱了数据量小,效率低的约束,避免了信息的局部性,增强了结论的可靠性;采用信息增益技术与基于粗糙集属性化简两种方法相结合的手段,避免数据对单一方法的依靠。对数据进行多种方式预处理,以适应分析方法所需数据的形式,确保研究技术路线的科学性与合理性;根据关键影响因子集,经过由简到繁的一个过程,综合对比不同建模方法构建模型的预测效果,确定最终的预测模型。从获取方法上保证了结果的科学性,而实际生产的检验表明结果的可靠性,为渔业生产提供了可靠的依据。
[1]林龙山,丁峰元,程家骅.中西太平洋金枪鱼围网渔获物组成分析[J].海洋渔业,2005,27(1):10-14.
[2]沈新强,叶施仁.中国渔场智能预报系统的设计与实现[J].中国水产科学,2000,7(2):69-72.
[3]陈新军,俞存根,卢伙胜,等.渔业资源与渔场学[M].北京:海洋出版社,2004.
[4]陈文伟,黄金才,赵新昱.数据挖掘技术[M].北京:北京工业大学出版社,2002:1-48.
[5]杨松.中西太平洋金枪鱼围网渔业资源丰度、渔场变动及其与表温关系研究[D].上海:上海水产大学,2005.
[6]David Hand,Heikki Mannila,Padhraic Smyth.Principles ofData Mining[M].机械工业出版社、中信出版社,2003:233-255.
[7]Han jiawei,Micheline Kamker.Data MiningConcepts and Techniques[M].北京:机械工业出版社,2001.
[8]苗振清,严世强.模糊类比分析法在渔业数值预报中的应用研究[J].青岛海洋大学学报.2003,33(4):540-546.
[9]Pawlak Z.Rough sets[J].Intemational Journal ofComputer and Information Sciences,1982,1(11):341-356.
[10]Pawlak Z,et a1.Rough sets:probabilistic versus deterministic approach[J].International Journal ofMan-Machine Studies,1988,29(1):81-95.
[11]Joseph J,Miller F R.El Ninoand the surface fisheryfor tunas in the eastern Pacific.Bull.Jap.Soc.Fish[J].Oceanography,1989,53:77-80.
[12]苗振清,严世强.模糊类比分析法在渔业数值预报中的应用研究[J].青岛海洋大学学报,2003,33(4):540-546.
[13]Lee MA,Lee KT,Shiah GY.Environmental factors associated with the formation oflarval anchovyfishingground in coastal waters ofsouthwest Taiwan[J].Mar Biol,1995,121:621-625.
[14]袁红春,汤鸿益,陈新军.一种获取渔场知识的数据挖掘模型及知识表示方法研究[J].计算机应用研究,2010,12:4443-4446.
[15]徐立萍,张健,陈新军.基于信息增益及粗糙集的属性化简算法[J].微型电脑应用,2007(10):62-64.
Study of WCPO Tuna Purse Seine Fishery Prediction Based on Data Mining
XU Li-ping1,2,MEN Ya-bin3
(1.Shanghai Publishing and Printing College,Shanghai 20093;China 2.University of Shanghai for Science and Technology,Shanghai 200090,China;3.National Ocean Technology Center,Tianjin 300112,China)
In order to find the key influence attributes set to tuna purse seiner output in WCPO,the attained data of tuna purse seiner output from Jan 1990 to Jul 2001,and eighteen environmental factors associated with tuna purse seiner output in the same period were analyzed with the information gain analysis method and rough set theory.Several fishery prediction models were established by multiple regression analysis based on the key attributes set and then were compared to confirm the best one.The good prediction effect of that model proved that the key attribute set contains the main information of those influence attribute data.Two data mining methods were combined to analyze multiple factors,which could be a new analyzing method of fishery prediction study.The prediction model based on the key influence attributes set improves the fishery prediction precision and provide the important information to fishery industry.
western and central Pacific Ocean;tuna purse seine fishery;information gain;rough set;fishery forecast
S973.1
A
1003-2029(2012)01-0103-04
2011-09-20
国家高技术研究发展计划(863)资助项目(2003AA637030)
徐立萍(1977-),女,讲师,博士在读,主要研究方向为数据挖掘与预测。Email:xlp20010609@gmail.com