大西洋热带海域长鳍金枪鱼渔场预报模型的比较*

2022-03-25 10:32:20宋利明任士雨洪依然张天蛟隋恒寿

海洋与湖沼 2022年2期

宋利明任士雨洪依然张天蛟隋恒寿李彬张敏

宋利明1, 2任士雨1洪依然1张天蛟1隋恒寿3李彬3张敏1, 2

(1. 上海海洋大学海洋科学学院上海 201306; 2. 国家远洋渔业工程技术研究中心上海 201306; 3. 中水集团远洋股份有限公司北京 100032)

为提高大西洋热带海域长鳍金枪鱼()渔场预报的准确率, 对K最近邻(k nearest neighbor, KNN)、逻辑斯蒂回归(logistic regression, LR)、决策与分类树(classfication and regression tree, CART)、梯度提升决策树(gradient boosting decision tree, GBDT)、随机森林(random forest, RF)、支持向量机(support vector machine, SVM)和Stacking集成(stacking ensemble learning, STK)共7个模型的预报性能进行了对比分析。该7个模型利用2016～2019年在大西洋公海海域(19°16′S～16°21′N; 46°27′W～2°09′E)作业的13艘中国远洋延绳钓渔船的渔业数据, 结合0～500 m不同水层的温度、盐度、溶解氧、叶绿素浓度、海表面风速、涡动能和混合层深度数据建立。各模型取75%数据作为训练数据, 25%为测试数据, 采用预报准确率(accuracy, ACC)与接受者操作特征曲线下面积(area under curve, AUC)评价建立的单位努力量渔获量(catch per unit of effort, CPUE)与海洋环境因子关系模型的性能。结果表明: (1) STK模型对大西洋长鳍金枪鱼渔场的预报性能相比其他模型明显提高, ACC为75.92%, AUC为0.742; (2) 基于STK模型预测得到的中心渔场范围总体上与实际作业渔场一致; (3) 影响大西洋长鳍金枪鱼渔场分布的海洋环境因子主要为100 m水层的温度、盐度, 以及100、150、500 m水层的溶解氧。研究表明STK模型对大西洋长鳍金枪鱼渔场的预报准确率较高, 性能良好。

长鳍金枪鱼; 渔场预报模型; 模型性能比较; 大西洋热带海域

长鳍金枪鱼()广泛分布于热带、亚热带及温带海域, 为高度洄游性鱼类, 是我国远洋延绳钓渔业重要的捕捞对象之一。近年来, 国内外学者研究了长鳍金枪鱼分布与海洋环境之间的关系 (Chen, 2005; Domokos, 2007; Zainuddin, 2008; Briand, 2011; 林显鹏等, 2011; 杨嘉樑等, 2014; Goñi, 2015; Lehodey, 2015; Williams, 2015; 储宇航等, 2016; 郭刚刚等, 2016; 宋利明等, 2017a), 宋利明等(2017b)研究得出温度是影响库克群岛海域长鳍金枪鱼分布的主要环境因子; 闫敏等(2015)认为海表面温度和叶绿素浓度与长鳍金枪鱼渔获率分布有关; 张嘉容等(2020)认为温度对长鳍金枪鱼分布的影响最大, 叶绿素浓度的影响最小。但大部分模型仅分析海洋表层环境与长鳍金枪鱼分布的关系, 缺乏使用海洋立体环境因子的分析研究。

目前长鳍金枪鱼渔场预测大多使用较为传统的单一预报模型, 如一元非线性回归模型(范江涛, 2011)、栖息地指数模型(任中华等, 2014)和神经网络模型(毛江美等, 2016)等。随着渔业生产对渔场预报精度要求的提高, 深度学习开始在长鳍金枪鱼渔场预测中得到应用, 如袁红春等(2019a, 2020)。Stacking集成学习是一种多模型的集成方法, 能够得到比单模型更准确的结果(罗智青等, 2019; 侯娟等, 2020)。但海洋立体环境因子间的共线性会影响如逻辑斯蒂回归(logistic regression, LR)模型的预测精度(Raykov, 2010), 且环境因子过多容易导致K最近邻(k nearest neighbor, KNN)、梯度提升决策树(gradient boosting decision tree, GBDT)、随机森林(random forest, RF)和支持向量机(support vector machine, SVM)等模型的复杂性, 造成过拟合问题, 降低模型可解释性(Jou, 2014; Assegie, 2021)。目前大部分机器学习模型均未针对海洋立体环境因子间的共线性进行分析及因子筛选。

本研究根据2016～2019年中国船队在大西洋公海作业的延绳钓渔业数据, 结合不同深度的海洋环境数据进行共线性分析与因子筛选, 建立KNN、LR、决策与分类树(classfication and regression tree, CART)、GBDT、RF、SVM和Stacking集成(stacking ensemble learning, STK)模型; 各模型取75%站位的数据作为训练数据, 25%站位的数据为测试数据, 采用预报准确率(accuracy, ACC)与接受者操作特征(receiver operating characteristic, ROC)曲线下面积(area under curve, AUC)进行性能评价, 以提高大西洋热带海域长鳍金枪鱼渔场预报的准确性。

1 材料与方法

1.1 数据来源

本研究选取的渔业数据来源于中水集团远洋股份有限公司, 时间为2016～2019年, 区域为19°16′S～ 16°21′N; 46°27′W～2°09′E范围内的大西洋中部热带海域, 数据信息包括延绳钓捕捞渔船(共13艘)船名、作业时间(年-月-日)、作业地点(经纬度)、不同鱼种的产量、渔获尾数及下钩数等。将每天长鳍金枪鱼的渔获尾数划分到1°×1°的网格内, 并算出CPUE (尾/千钩)。

海洋环境因子主要包括表层因子和0～500 m深度因子共29个。其中, 表层因子包括: 叶绿素浓度(chl_)、混合层深度(mixed layer, MLD)、海表面风速(wind speed, WS)、涡动能(eddy kinetic energy, EKE); 0～500 m深度因子包括: 0、50、100、150、200、250、300、400、500 m水深处的温度(采用0、50、100、150、200、250、300、400、500表示); 0、50、100、150、200、250、300、350、400、450、500 m水深处的溶解氧(采用0、50、100、150、200、250、300、350、400、450、500表示); 100、200、300、400、500 m水深处的盐度(采用100、200、300、400、500表示)。以上因子数据除WS来源于美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration, NOAA)的数据库(https://oceanwatch. pifsc.noaa.gov/)外, 其他数据均来源于哥白尼海洋环境监测服务中心(copernicus marine environment monitoring service, CMEMS)网站(http://marine.copernicus. eu)。环境因子数据的初始时间分辨率为d, 初始空间分辨率为0.25°×0.25°。本文将环境因子和渔业数据进行了匹配, 最终的空间分辨率统一为1°×1°, 以d为单位。以上数据预处理过程通过MATLAB软件完成。

1.2 数据处理

1.2.1 长鳍金枪鱼CPUE的计算方法 CPUE作为评价渔场的指标(沈智宾等, 2015)。将每天的长鳍金枪鱼的渔获尾数划分到 1°×1°的网格内, 根据每天的船位数据等得到每天每网格内的总钓钩数, 算出每天每个网格内的长鳍金枪鱼CPUE (尾/千钩), 计算各网格内CPUE的公式为

, (1)

式(1)中:E,F和H分别表示在第年、第月、第天、第经度、第纬度的网格内的CPUE、尾数和下钩数量。

1.2.2 海洋环境因子的共线性分析由于建立模型所用的叶绿素浓度、混合层深度、海表面风速、涡动能以及0～500 m水层的温度、溶解氧、盐度等海洋环境因子的量级单位不同, 数值范围差别较大, 为防止对模型产生数值影响且为了提高模型运行的准确度, 对所有环境变量进行归一化处理(张天蛟, 2016), 公式为

, (2)

针对29个海洋环境因子之间存在的多重共线性, 本文采用方差膨胀因子(variance expansion factor, VIF)(Akinwande, 2015)进行分析。

对于方程:

=11+22+33+…+αX++αX+,(3)

式(3)中,为因变量,为自变量,1、2、3、…、α为回归系数,为常数项。则第个自变量的VIF计算公式为:

, (4)

式(4)中,表示方差膨胀因子VIF的取值;R为线性方程中的决定系数。当VIF值较大时, 表示环境变量之间存在多重共线性, 即VIF值越大, 表示环境变量之间多重共线性越严重, 一般认为<10, 即表示各环境变量之间没有多重共线性。选取<10的海洋环境因子用于建立大西洋热带海域长鳍金枪鱼的渔场预报模型。

1.2.3 海洋环境因子相对重要性分析海洋环境因子相对重要性的计算方法为: 利用SPSS软件计算长鳍金枪鱼CPUE与筛选后各环境因子的Pearson相关系数; 根据Pearson相关系数绝对值判断其相对重要性。

1.3 模型建立

渔场分类时, 若CPUE等于0, 为“非渔场”; CPUE大于0, 则为“渔场”, 其中零值比列为40.11%。从数据集中随机选取75%站点的数据作为训练数据, 25%站点的数据为测试数据; 并使用训练数据分别建立KNN、LR、SVM、CART、RF、GBDT和STK7种模型。系列模型的基本原理和参数选择方法如表1。

Stacking算法框架如图1所示, 第一层由3个基学习器组成, 并输入原始训练集, 即第一步将与各个海洋环境因子匹配好的大西洋热带海域长鳍金枪鱼CPUE原始数据集, 基于非共线性海洋环境因子的筛选, 划分为75%的训练数据和25%测试数据; 第二步从7个模型中选择预测效果较好的3个模型作为初级学习器, 选取结构简单的LR作为次级学习器; 第三步将75%的训练样本随机划分为个数量相同的训练集子集1,2, …,D, 取作为测试子集,D–1{1,2, …,D}(DÏD–1)作为KNN、RF和GBDT的训练子集, 接着将各个模型的预测结果统一为LR模型的训练集′, 各个单模型对测试集的预测结果合并为LR模型的测试集′, 最终输出预测结果。

1.4 模型性能评价

将25%测试数据代入各模型得出预测结果, 对模型性能进行评价。本文采用AUC和ACC作为模型性能评价指标。其中AUC取值范围为0～1, 值越大说明该模型的预测性能越好, 反之预测性能越差(张天蛟, 2016); 同理, 所得ACC值越大, 说明该模型整体预测效果越好, 反之预测效果越差, 所以本文按照两者结果, 对比并选取预测准确度较高且性能稳定的模型。

表1 各模型的基本原理与参数选择

Tab.1 The basic principle and the parameter selection of each model

图1 Stacking 集成学习方法

注: KNN: k nearest neighbor, K最近邻模型; RF: random forest, 随机森林算法; GBDT: gradient boosting decision tree, 梯度提升决策树; LR: logistic regression, 逻辑斯蒂回归

将25%的测试数据代入预测能力最佳的模型, 计算得出“渔场”和“非渔场”并使用ArcGIS软件画出实际“渔场”和“非渔场”与模型预测得到的“渔场”和“非渔场”叠图, 定性评价最佳模型的预测能力。

1.5 中心渔场的确定

本研究把25%的测试站点的环境数据代入预测能力最佳的模型, 计算得出“渔场”位置, 利用ArcGIS软件的核密度分析工具计算并画出“渔场”位置密度分布图, 把密度大于最大密度的60% (8个/km2)以上的范围定义为中心渔场。

2 结果

2.1 长鳍金枪鱼渔场分布

通过ArcGIS软件画出长鳍金枪鱼CPUE分布图(图2), 得出长鳍金枪鱼渔场主要分布在15°N～15°S, 15°～45°W的大西洋中部热带海域, 其高CPUE渔区集中分布在4°～10°N, 30°～45°W海域和5°～10°S, 18°～30°W的海域。

2.2 海洋环境因子筛选与相对重要性分析

按照各环境因子的||<10, 筛选得出20个用于渔场预测的环境因子, 分别是chl、MLD、WS、EKE、0、50、100、150、250、400、0、50、100、150、200、500、100、200、300和500(表2)。相关系数分析结果表明, 100 m水层温度(100)与CPUE的相关系数最高, 达到0.399; 100、150、500 m水层的溶解氧、100 m水层的盐度与CPUE的相关系数较高, 分别达到0.372、0.334 、0.322和0.322; 相关系数较小的是MLD和叶绿素浓度, 分别为0.21和-0.148; 海表面温度(0)和海表面风速(WS)的相关系数分别为0.140和0.069; 而涡动能(EKE)的相关系数最低, 为-0.036, 影响程度最小(表2)。

图2 2016～2019年大西洋热带海域13艘渔船长鳍金枪鱼CPUE分布

2.3 模型性能评价

各个模型总体的ACC和AUC如表3所示, 单个模型预测结果中RF的准确度最高, 为75.57%, KNN和GBDT的准确度并列为第二(73.92%), 因此选取RF、KNN和GBDT用于STK模型; CART最低, 为66.85%。STK模型的ACC最高, 达到75.92%, AUC也达到了0.742。综合上述结果, 表明STK模型预测性能良好。

表2 多重共线性和相关性分析结果

Tab.2 Results of multi-collinearity diagnosis and correlation analysis

对于STK模型, 将测试数据中得到的实际渔场与预测渔场进行叠加, 得出渔场主要分布在2°～14°N, 32°～45°W和2°～10°S, 18°～28°W的海域, 极少分布在5°～10°W附近, 且预测的0°～18°W海域的渔场的误判率很高(图3); 将测试数据中的实际非渔场与预测非渔场进行叠加, 实际非渔场主要分布在5°～14°N, 30°～45°W和2°S～7°N, 12°～30°W的海域, 极少分布在2°～12°S, 2°～10°W海域附近, 且预测的2°～8°S, 20°～30°W海域的实际非渔场的误判率较高(图4)。各模型对渔场和非渔场的判别准确率比较结果见表4。说明Stacking集成模型的预测性能良好。

表3 各个模型预测结果对比

Tab.3 Comparison of forecast results of each model

注: 注：ACC: accuracy, 预报准确率; AUC: area under curve, 曲线下面积

图3 实际渔场与预报得到的渔场对比图

图4 实际非渔场与预报得到的非渔场对比图

2.4 中心渔场

2016～2019年25%的测试数据中实际渔场密度分布如图5a所示, 其中心渔场集中分布在4°～10°N, 33°～43°W海域, 以及5°～8°S, 27°～29°W和7°～9°S, 22°～24°W的海域。STK模型预测渔场密度分布如图5b所示, 从整体来看预测的中心渔场比实际中心渔场略大, 但基本吻合。

表4 各模型对渔场和非渔场的判别准确率(%)比较

Tab.4 Comparison of discrimination accuracy (%) for fishing ground and non-fishing ground of each model

3 讨论

3.1 模型对比分析

STK模型的渔场预报性能比6种单一模型(KNN、LR、CART、SVM、RF、GBDT)对大西洋热带海域长鳍金枪鱼渔场预报的性能要好, 为最佳模型。CART的渔场预报性能最差。这是因为STK是一种堆叠集成方法, 能够将KNN、RF和GBDT预测结果再次进行次级训练, 克服单一模型的局限性, 能综合三种模型的优势, 而CART容易过拟合, 导致泛化能力不强, 且某些自变量的占比过高时, 容易导致预测能力降低。RF对长鳍金枪鱼渔场的预报性能与STK模型相近, 这可能是因为RF在构建模型时通过自助采样选取训练样本, 增强其泛化和抗噪能力, 在一定程度上降低了不良数据对模型预测能力的影响(方匡南等, 2011)。GBDT与RF都是由多个分类树通过不同算法构建的模型, 但GBDT的预测性能明显低于RF, 这是因为GBDT训练样本选取的方法与RF不同, 其在模型构建过程中使用同一个训练样本, 导致模型泛化能力降低。LR、KNN、SVM的预测性能都比较低, 这几个模型不能有效克服构建模型所使用的样本数据质量不高的问题(如各类别的样本数据不平衡、数据缺失等)。

图5 25%的测试数据中渔区密度分布图

3.2 环境变量共线性分析

由于海洋环境非常复杂, 环境因子相互影响, 可能导致环境变量之间存在多重共线性, 会对预测结果产生偏差。Dormann(2013)认为当环境变量之间的相关系数大于0.7时, 说明存在共线性的可能性较大。多重共线性是影响SVM和LR预测精度和运行速率的主要原因之一(惠守博等, 2006; 张玲, 2010), 虽然CART、RF和GBDT在模型训练的过程中会自动消除多重共线性对预测精度的影响, 但是共线性使得环境变量的大部分信息相互叠加, 导致数据大量冗余, 模型的运行效率降低以及误判解释变量的贡献率。故消除环境变量之间的多重共线性, 在一定程度上提高了模型的预测精度、稳定性和可靠性。

VIF方法虽然可以消除共线性, 但也有可能导致原本生态学意义重要的因子被删除, 本研究从29个潜在的影响因子中删除了9个具有共线性的因子(200、300、500、250、300、350、400、450、400)。这些被删除的因子均为200 m以深的因子, 由于长鳍金枪鱼偏好觅食的水层为160～240 m水层, 且在该水层主要受饵料分布及水温的影响(杨嘉樑等, 2014), 因此本研究未删除对长鳍金枪鱼具有生态学重要意义的因子。

3.3 环境因子的相对重要性及中心渔场

研究认为温度直接或间接影响鱼类分布、集群和洄游(陈雪忠等, 2013), 其垂直水温是影响长鳍金枪鱼渔场分布主要原因之一(郭刚刚等, 2016)。研究表明, 100 m水层的温度、溶解氧和盐度与长鳍金枪鱼CPUE关系较为密切, 可能的原因是该水层是水温急剧下降的温跃层, 温度和盐度等环境因子适宜长鳍金枪鱼生存, 并且具有丰富的饵料生物资源, 较高的溶解氧含量(张嘉容等, 2020)。张嘉容等(2020)研究分析得到南太平洋中对长鳍金枪鱼CPUE具有显著影响的环境因子是120 m水层的温度和盐度, 这与本研究结果基本一致。叶绿素浓度和WS对长鳍金枪鱼渔场分布的影响较小, 这是由于海面风速能够改变叶绿素的空间位置和含量(Pickett, 2006; Jufaili, 2019), 而较高的叶绿素浓度会吸引更多浮游生物在附近繁殖(杨胜龙等,2012), 但长鳍金枪鱼并不会直接捕食浮游生物。EKE对长鳍金枪鱼渔场分布的影响最小, 这可能是因为EKE是通过影响环流、海洋温度以及叶绿素的垂直和水平分布(Tussadiah, 2018)间接影响长鳍金枪鱼渔场的分布。2016～2019年25%的测试数据中预测得到的中心渔场比实际中心渔场范围略大, 可能是由于渔业生产作业不能均匀、完全覆盖整个区域, 而预测是根据海洋环境数据进行平滑计算得出的, 预测得到的中心渔场范围可靠。另外, 准确预测中心渔场能够使渔船缩短搜索渔场的时间、节省燃油, 增加长鳍金枪鱼的渔获量, 提高经济效益。

4 展望

本研究根据29种海洋环境因子, 建立6种模型并筛选最佳的三个预测模型构成STK模型, 提高了大西洋热带海域长鳍金枪鱼渔场预报的精度, 但长鳍金枪鱼渔场预报的精度还与数据的空间分辨率、渔捞日志记录的数据的准确度、饵料资源分布、洋流、流速等其他环境变量有关, 还会受到气候的年代际, 如北大西洋涛动等大尺度海洋事件的影响, 本研究中CPUE为0的比例较高, 还需要进一步收集数据开展研究。另外, 本研究结果适用于大西洋热带海域长鳍金枪鱼渔场的预报, 对于大西洋温带水域的长鳍金枪鱼渔场的预报还需要进一步收集数据开展相关研究。

致谢本研究得到了中水集团远洋股份有限公司宗文峰、叶少华和邓荣成先生的大力支持, 谨致谢意。

王超学, 潘正茂, 马春森, 等, 2012. 改进型加权KNN算法的不平衡数据集分类[J]. 计算机工程, 38(20): 160-163, 168.

毛江美, 陈新军, 余景, 2016. 基于神经网络的南太平洋长鳍金枪鱼渔场预报[J]. 海洋学报, 38(10): 34-43.

方匡南, 吴见彬, 朱建平, 等, 2011. 随机森林方法研究综述[J]. 统计与信息论坛, 26(3): 32-38.

田欣, 2017. 决策树算法的研究综述[J]. 现代营销(1): 36.

吕红燕, 冯倩, 2019. 随机森林算法研究综述[J]. 河北省科学院学报, 36(3): 37-41.

任中华, 陈新军, 方学燕, 2014. 基于栖息地指数的东太平洋长鳍金枪鱼渔场分析[J]. 海洋渔业, 36(5): 385-395.

闫敏, 张衡, 樊伟, 等, 2015. 南太平洋长鳍金枪鱼渔场CPUE时空分布及其与关键海洋环境因子的关系[J]. 生态学杂志, 34(11): 3191-3197.

杨胜龙, 张禹, 樊伟, 等, 2012. 热带印度洋大眼金枪鱼渔场时空分布与温跃层关系[J]. 中国水产科学, 19(4): 679-689.

杨嘉樑, 黄洪亮, 宋利明, 等, 2014. 基于分位数回归的库克群岛海域长鳍金枪鱼栖息环境综合指数[J]. 中国水产科学, 21(4): 832-851.

吴昊, 秦立春, 罗柳容, 2019. 基于提升度的KNN分类子的分类原则改良模型[J]. 广西师范大学学报(自然科学版), 37(2): 75-81.

沈智宾, 陈新军, 汪金涛, 2015. 基于海表温度和海面高度的东太平洋大眼金枪鱼渔场预测[J]. 海洋科学, 39(10): 45-51.

宋利明, 周建坤, 沈智宾, 等, 2017a. 基于支持向量机的库克群岛海域长鳍金枪鱼栖息环境综合指数[J]. 海洋通报, 36(2): 195-208.

宋利明, 谢凯, 赵海龙, 等, 2017b. 库克群岛海域海洋环境因子对长鳍金枪鱼渔获率的影响[J]. 海洋通报, 36(1): 96-106.

张玲, 2010. 多重共线性的检验及对预测目标影响程度的定量分析[J]. 通化师范学院学报, 31(4): 19-20, 38.

张莹, 2015. 基于自然最近邻居的分类算法研究[D]. 重庆: 重庆大学.

张天蛟, 2016. 产漂流性卵小型鱼类的生态位建模及分析[D]. 北京: 中国农业大学.

张春霞, 张讲社, 2011. 选择性集成学习算法综述[J]. 计算机学报, 34(8): 1399-1410.

张嘉容, 杨晓明, 戴小杰, 等, 2020. 南太平洋长鳍金枪鱼延绳钓渔获率与环境因子的关系研究[J]. 南方水产科学, 16(1): 69-77.

陈雪忠, 樊伟, 崔雪森, 等, 2013. 基于随机森林的印度洋长鳍金枪鱼渔场预报[J]. 海洋学报, 35(1): 158-164.

邵元海, 刘黎明, 黄凌伟, 等, 2020. 支持向量机的关键问题和展望[J]. 中国科学: 数学, 50(9): 1233-1248.

范江涛, 2011. 南太平洋长鳍金枪鱼延绳钓渔业渔情预报研究[D]. 上海: 上海海洋大学: 21-22.

林显鹏, 郭爱, 张洪亮, 等, 2011. 所罗门群岛海域长鳍金枪鱼的垂直分布与环境因子的关系[J]. 浙江海洋学院学报(自然科学版), 30(4): 303-306.

罗智青, 莫汉培, 王汝辉, 等, 2019. 基于Stacking模型融合的失压故障识别算法[J]. 能源与环保, 41(2): 41-45.

侯娟, 周为峰, 樊伟, 等, 2020. 基于集成学习的南太平洋长鳍金枪鱼渔场预报模型研究[J]. 南方水产科学, 16(5): 42-50.

袁红春, 陈冠奇, 张天蛟, 等, 2020. 基于全卷积网络的南太平洋长鳍金枪鱼渔场预报模型[J]. 江苏农业学报, 36(2): 423-429.

袁红春, 陈骢昊, 2019a. 基于融合深度学习模型的长鳍金枪鱼渔情预测研究[J]. 渔业现代化, 46(5): 74-81.

袁红春, 胡光亮, 陈冠奇, 等, 2019b. 基于粒子群可拓的南太平洋长鳍金枪鱼产量预测方法研究[J]. 渔业现代化, 46(6): 96-103.

袁培森, 杨承林, 宋玉红, 等, 2019. 基于Stacking集成学习的水稻表型组学实体分类研究[J]. 农业机械学报, 50(11): 144-152.

郭刚刚, 张胜茂, 樊伟, 等, 2016. 南太平洋长鳍金枪鱼垂直活动水层空间分析[J]. 南方水产科学, 12(5): 123-130.

惠守博, 王文杰, 2006. 支持向量机分类算法中多元变量共线性问题的改进[J]. 计算机工程与设计, 27(8): 1385-1388.

储宇航, 戴小杰, 田思泉, 等, 2016. 南太平洋延绳钓长鳍金枪鱼生物学组成及其与栖息环境关系[J]. 海洋渔业, 38(2): 130-139.

谢金梅, 王艳妮, 2008. 决策树算法综述[J]. 软件导刊, 7(11): 83-85.

AKINWANDE M O, DIKKO H G, SAMSON A, 2015. Variance inflation factor: as a condition for the inclusion of suppressor variable(s) in regression analysis [J]. Open Journal of Statistics, 5(7): 754-767.

ASSEGIE T A, SUSHMA S J, BHAVYA B G,, 2021. Correlation analysis for determining effective data in machine learning: detection of heart failure [J]. SN Computer Science, 2(3): 213.

BRIAND K, MOLONY B, LEHODEY P, 2011. A study on the variability of albacore () longline catch rates in the southwest Pacific Ocean [J]. Fisheries Oceanography, 20(6): 517-529.

CHEN I C, LEE P F, TZEND W N, 2005. Distribution of albacore () in the Indian Ocean and its relation to environmental factors [J]. Fisheries Oceanography, 14(1): 71-80.

DAHLEM A M, HASSAN A S, SWANSON S P,, 1989. A model system for studying the bioavailability of intestinally administered microcystin‐LR, a hepatotoxic peptide from the cyanobacterium[J]. Pharmacology & Toxicology, 64(2): 177-181.

DOMOKOS R, SEKI M P, POLOVINA J J,, 2007. Oceanographic investigation of the American Samoa albacore () habitat and longline fishing grounds [J]. Fisheries Oceanography, 16(6): 555-572.

DORMANN C F, ELITH J, BACHER S,, 2013. Collinearity: a review of methods to deal with it and a simulation study evaluating their performance [J]. Ecography, 36(1): 27-46.

DŽEROSKI S, ŽENKO B, 2004. Is combining classifiers with stacking better than selecting the best one? [J]. Machine Learning, 54(3): 255-273.

FRIEDMAN J H, 2003. Stochastic gradient boosting [J]. Computational Statistics & Data Analysis, 38(4): 367-378.

GOÑI N, DIDOUAN C, ARRIZABALAGA H,, 2015. Effect of oceanographic parameters on daily albacore catches in the Northeast Atlantic [J]. Deep Sea Research Part II: Topical Studies in Oceanography, 113: 73-80.

HWANG W J, WEN K W, 1998. Fast KNN classification algorithm based on partial distance search [J]. Electronics Letters, 34(21): 2062-2063.

JOU Y J, HUANG C C L, CHO H J, 2014. A VIF-based optimization model to alleviate collinearity problems in multiple linear regression [J]. Computational Statistics, 29(6): 1515-1541.

JUFAILI S A, PIONTKOVSKI S A, 2019. Seasonal and interannual variations of Yellowfin tuna catches along the Omani Shelf [J]. International Journal of Oceans and Oceanography, 13(2): 427-454.

KRISTENSEN P, JUDGE M E, THIM L,, 1998. Hypothalamic CART is a new anorectic peptide regulated by leptin [J]. Nature, 393(6680): 72-76.

LEHODEY P, SENINA I, NICOL S,, 2015. Modelling the impact of climate change on South Pacific albacore tuna [J]. Deep Sea Research Part II: Topical Studies in Oceanography, 113: 246-259.

OU J J, JIN X D, MA I,, 2002. CMOS RF modeling for GHz communication IC's [C] // Proceedings of 1998 Symposium on VLSI Technology Digest of Technical Papers. Honolulu, HI, USA: IEEE: 94-95.

PICKETT M H, SCHWING F B, 2006. Evaluating upwelling estimates off the west coasts of North and South America [J]. Fisheries Oceanography, 15(3): 256-269.

RAYKOV T, PENEV S, 2010. Testing multivariate mean collinearity via latent variable modelling [J]. British Journal of Mathematical and Statistical Psychology, 63(3): 481-490.

SUYKENS J A K, LUKAS L, VANDEWALLE J, 2000. Sparse approximation using least squares support vector machines [C] // Proceedings of 2000 IEEE International Symposium on Circuits and Systems. Geneva, Switzerland: IEEE: 757-760.

TUSSADIAH A, PRANOWO W S, SYAMSUDDIN M L,, 2018. Characteristic of eddies kinetic energy associated with yellowfin tuna in Southern Java Indian Ocean [J]. IOP Conference Series: Earth and Environmental Science, 176(1): 012004.

WILLIAMS A J, ALLAIN V, NICOL S J,, 2015. Vertical behavior and diet of albacore tuna () vary with latitude in the South Pacific Ocean [J]. Deep Sea Research Part II: Topical Studies in Oceanography, 113: 154-169.

ZAINUDDIN M, SAITOH K, SAITOH S I, 2008. Albacore () fishing ground in relation to oceanographic conditions in the western North Pacific Ocean using remotely sensed satellite data [J]. Fisheries Oceanography, 17(2): 61-73.

ZHANG S C, LI X L, ZONG M,, 2018. Efficient KNN classification with different numbers of nearest neighbors [J]. IEEE Transactions on Neural Networks and Learning Systems, 29(5): 1774-1785.

COMPARISON ON FISHING GROUND FORECAST MODELS OFIN THE TROPICAL WATERS OF ATLANTIC OCEAN

SONG Li-Ming1, 2, REN Shi-Yu1, HONG Yi-Ran1, ZHANG Tian-Jiao1, SUI Heng-Shou3, LI Bin3, ZHANG Min1, 2

(1. College of Marine Sciences, Shanghai Ocean University, Shanghai 201306, China; 2. National Engineering Research Center for Oceanic Fisheries, Shanghai 201306, China; 3. CNFC Overseas Fisheries Co, Ltd, Beijing 100032, China)

To improve the accuracy of the forecast model for albacore tuna ()fishing ground in the tropical waters of Atlantic Ocean, seven fishery forecast models,k-nearest neighbor (KNN), logistic regression (LR), classfication and regression tree (CART), support vector machine (SVM), random forest (RF), gradient boosting decision tree (GBDT), and stacking ensemble learning (STK) model were used and compared based on the data of 13 tuna longliners of Chinese fishing enterprises from 2016 to 2019 in the high seas of the Atlantic Ocean (19°16′S～16°21′N; 46°27′W～2°09′E). Using environmental factors (temperature, salinity and dissolved oxygen) at different water layers from 0 to 500 m, as well as chlorophyll-concentration, sea surface wind speed, eddy kinetic energy, and mixed layer depth, the relationship between albacore tuna CPUE and the environmental factors were analyzed. Seventy-five percent of the data were taken as training data and 25% as test data. The performance of each model was evaluated by prediction accuracy (ACC) and area under receiver operating characteristic curve (AUC). Relationships between CPUE (catch per unit of effort) and marine environmental factors were established. Results show that: (1) the prediction performance of STK model wasobviously better compared with other models and its ACC and AUC is 75.92% and 0.742, respectively; (2) the areas of central fishing ground predicted by STK model for albacore tuna is consistent with the actual fishing ground generally; (3) the marine environmental factors that affect the distribution of albacore tuna fishing grounds in the Atlantic Ocean included mainly temperature and salinity of 100 m layer, and dissolved oxygen at 100, 150, and 500 m layer. The accuracy and the prediction performance of the STK model is high for albacore tuna fishing ground forecast in the tropical waters of Atlantic Ocean.

; fishing ground forecast model; comparative study of model performance; tropical waters of Atlantic Ocean

*国家重点研发项目, 2020YFD0901205号; 中水集团远洋股份有限公司技术研发项目, D-8006-20-0180号。宋利明, 博士生导师, 教授, E-mail: lmsong@shou.edu.cn

2021-10-23,

2021-12-20

S934

10.11693/hyhz20211000253