基于机器学习的中西太平洋黄鳍金枪鱼渔场预报模型

2022-11-13 08:03周为峰唐峰华石永闯
农业工程学报 2022年15期
关键词:渔场金枪鱼太平洋

张 聪,周为峰,唐峰华,石永闯,樊 伟

基于机器学习的中西太平洋黄鳍金枪鱼渔场预报模型

张 聪1,2,周为峰1※,唐峰华1,石永闯1,樊 伟1

(1. 中国水产科学研究院东海水产研究所,上海 200090;2. 中国农业科学院研究生院,北京 100081)

为提供准确的中西太平洋黄鳍金枪鱼渔场预报信息,该研究利用2008-2019年中国水产集团43艘远洋延绳钓渔船在中西太平洋海域(0°~30°S;110°E~170°W)作业的渔业数据,通过方差膨胀因子筛选、归一化处理,选取时空因子、海洋环境因子及大尺度气候数据等共35种特征因子,构建了一种随机森林和极端梯度提升决策树相结合的XGBRF模型,并利用五折交叉验证法确定最佳参数,选择逻辑回归、分类与回归树、最近邻、自适应增强、梯度提升决策树、极端梯度提升决策树和随机森林等模型作为对照,建立8种黄鳍金枪鱼渔场预测模型并进行模型间的比较分析。结果表明,XGBRF模型对中西太平洋黄鳍金枪鱼渔场的预测性能比其他模型更好,其准确率、渔场召回率、渔场F1得分、非渔场查准率和曲线下面积值AUC均最高,分别为75.39%、87.36%、82.64%、66.32%和79.48%,且模型的受试者工作特征曲线ROC更靠近左上角;海表温度是影响中西太平洋黄鳍金枪鱼渔场分布最重要的环境因子,其他因子依次是300 m水层温度、50 m水层盐度、叶绿素a浓度、南方涛动指数以及表层盐度因子,时空因子和其余大尺度气候因子的影响程度较低;基于XGBRF预报模型得到的渔场预测结果与实际作业范围总体一致。XGBRF集成模型对中西太平洋海域黄鳍金枪鱼的渔场预报具有较好的效果,可为渔场预报提供参考。

机器学习;模型;中西太平洋;黄鳍金枪鱼;渔场预报

0 引 言

黄鳍金枪鱼()属鲈形目、金枪鱼属,广泛分布于热带和亚热带水域,中西太平洋是金枪鱼渔业重要的作业区域[1]。延绳钓被认为是最合理的金枪鱼捕捞方法之一。近年来,由于过度捕捞、渔业管理不当等问题,渔场时空分布的稳定性降低,加之金枪鱼高度洄游的特性,金枪鱼中心渔场范围分散且分布广泛[2]。精确的渔场预报模型能够提高对潜在渔区和非渔区的识别能力,从而有效缩短寻渔时间,减少寻渔成本,提高渔获产量,对金枪鱼渔业的发展具有重要意义。

鱼类的生长发育与周围的海洋环境密切相关,利用不同的海洋环境因子建立渔场预报模型是当前渔场预报的常用手段[3]。贝叶斯(Bayesian)是一种常见的渔场预报模型建模方法,周为峰等[4]基于贝叶斯分类器,利用环境因子及不同分类策略构建8种南海外海黄鳍金枪鱼预报模型,最高准确率达75%。回归模型也很常见,如广义相加模型(Generalized Additive Model,GAM)[5-6],Perez等[7]依据GAM模型,利用单位捕捞努力量指数预测菲律宾周围海域的黄鳍金枪鱼分布。Zagaglia等[8]基于GAM统计模型分析了巴西东北部黄鳍金枪鱼延绳钓数据与海表温度等环境变量之间的关系,证明了渔获量与环境数据之间的非线性关系。随着计算机技术的发展,人工神经网络(Artificial neural network, ANN)逐渐应用到黄鳍金枪鱼渔场预报模型中,郑志辉[9]基于人工神经网络模型有效预测了中西太平洋马绍尔海域黄鳍金枪鱼的渔场分布。栖息地指数模型(Habitat Suitability Index,HSI)近年来受到较多关注,赵海龙等[10]以产量来表征资源量,结合海表温度、海面高度按季度建立东太平洋黄鳍金枪鱼栖息地适应性指数,预报的准确率达到66%以上。尽管上述渔场预报模型的结构简单便利,但这些模型大多是单一的预报模型且只使用海洋表面环境数据。由于海洋渔业信息具有模糊性、复杂性、不精确性的特点,单一模型容易过拟合而泛化性能差,无法满足渔场预报应用对于精度的要求。且上述模型大多采用具体的海洋环境因子,对于与海洋因素密切相关的各种大尺度气候数据的研究较少。

针对数据复杂和模型单一的问题,为提供准确的中西太平洋黄鳍金枪鱼渔场预报信息,本文提出随机森林[11](Random Forest,RF)和极端梯度提升决策树[12](eXtreme Gradient Boosting,XGBoost)相结合的XGBRF(XGBoost with RF)混合集成模型,根据2008-2019年中西太平洋黄鳍金枪鱼的渔业数据,结合31种特征因子和4种大尺度气候因子,通过方差膨胀因子(Variance Inflation Factor,VIF)筛选、归一化处理,建立了8种黄鳍金枪鱼渔场预测模型。通过模型检验和对比,筛选预报精度较高、预测性能较好的模型,分析环境因子影响渔场分布的重要程度,以提高大数据和人工智能方法在黄鳍金枪渔业中的应用,为今后渔场预报的模型构建提供参考。

1 材料与方法

1.1 数据来源

以中西太平洋黄鳍金枪鱼延绳钓渔船的作业范围(110°E~170°W、0°~30°S)为研究海域,使用的渔业生产数据来自2008-2019年中国水产集团43艘远洋延绳钓渔船渔捞日志,包括船名、作业日期(年/月/日)、作业位置(经度、纬度)、渔获信息(鱼种、产量、尾数和下钩数等)。

叶绿素a浓度数据来源于美国国家海洋和大气管理局数据库(https://oceancolor.gsfc.nasa.gov/)。海面高度异常(Sea Level Abnormal,SLA)数据来源于AVISO(Archiving, Validation and Interpretation of Satellite Oceanographic data)数据库(https://www.aviso.oceanobs.com)。涡动能(Eddy Kinetic Energy,EKE)、0~500 m水层的垂直温度和盐度数据来源于哥白尼海洋环境监测服务中心网站(http://marine.copernicus.eu)。环境数据的时间分辨率为月,SLA、EKE和0~500 m水层垂直温度和盐度数据的空间分辨率为0.25°×0.25°,Chla的空间分辨率为4 km。使用python将环境数据的空间分辨率统一为0.5°×0.5°的空间格网并与渔获量数据进行匹配。

大尺度气候数据均为月度数据,南方涛动指数(Southern Oscillation Index,SOI)和北极涛动指数(Arctic Oscillation Index,AOI)来源于美国海洋与大气局气候预测中心;太平洋年代际振荡指数(Pacific Decadal Oscillation Index,PDOI)来源于华盛顿大学(http://research.jisao.washington.edu /pdo),北太平洋环流振荡指数(North Pacific Gyre Oscillation Index,NPGOI)来源于http://www.o3d.org /npgo /。

1.2 数据处理

1.2.1 CPUE计算

将渔区网格以0.5°×0.5°进行划分,按月对其作业位置、尾数和放钩数进行统计,计算各渔区网格内的黄鳍金枪鱼单位捕捞努力量渔获量[13](Catch Per Unit Effort,CPUE),公式为

1.2.2 衍生环境因子计算

本文选取的衍生环境因子包括海表温度距平(SSTdt)、海表温度梯度(SSTG)、叶绿素距平(Chladt)和叶绿素梯度(ChlaG)。SSTdt,j、Chladt,j、SSTG,j和ChlaG,j计算公式如下:

1.2.3 CPUE与各环境因子的相关性分析

采用Python的seaborn包计算Pearson相关系数并进行显著性检验,结果如表1所示。假设显著性水平为0.05(即超过95%的概率有相关关系),本文中CPUE与各指标均呈现显著相关关系(<0.05)。

1.2.4 数据标准化与共线性分析

由于渔业数据和海洋环境数据具有不同的量纲和数量级,直接用原始指标值进行分析,会突出数值较高的指标在综合分析中的作用,为了保证结果的可靠性,需要对原始数据进行标准化处理。本文采用数据归一化方法将各个特征映射到[0,1]的范围,计算公式为

式中、、max、min分别为归一化后的值、实际值、最大值、最小值。

对于环境因子之间可能存在共线性的问题,本文采用方差膨胀因子VIF进行筛选,VIF的计算公式如下:

式中是第个变量在所有其他变量上回归时的复相关系数。各环境变量之间的Person相关系数矩阵图如图1所示。

表1 CPUE与变量间的相关系数和P值

注:Lat表示纬度;Lon表示经度;Chla表示叶绿素a浓度;Chladt表示叶绿素距平;SSTdt表示海表温度距平;SSTG表示海表温度梯度;ChlaG表示叶绿素梯度;SLA表示海面高度异常;EKE表示涡动能;S、T(=0,50,100,…,500)分别表示对应深度处的盐度和温度;PDOI为太平洋年代际振荡指数;SOI为南方涛动指数;AOI为北极涛动指数;NPGOI为北太平洋环流振荡指数。

Note: Lat indicates latitude; Lon indicates longitude; Chla denotes chlorophyll a concentration; Chladt indicates chlorophyll anomaly; SSTdt indicates sea surface temperature anomaly; SSTG indicates sea surface temperature gradient; ChlaG indicates chlorophyll gradient; SLA indicates abnormal sea level; EKE denotes eddy kinetic energy; Sand T(= 0,50, 100, ..., 500) respectively represent the salinity and temperature at the corresponding depth; PDOI is the Pacific interdecadal oscillation index; SOI is the Southern Oscillation Index; AOI is the Arctic oscillation index; NPGOI is the North Pacific circulation oscillation index.

图1 各变量间Pearson相关系数

1.3 XGBRF渔场预报模型的建立

随机森林算法结合自助采样和随机子空间思想对决策树进行集成,可降低使用单一决策树时可能出现的较大误差和过拟合现象,从而得到更加稳定和准确的预测效果。XGBoost算法作为一种可扩展的树提升系统,通过正则化项、二阶泰勒展开等策略控制模型的复杂度并提高运行效率,能有效应对高维度的复杂数据。

由于渔业数据数量庞大、特征维度高,考虑到随机森林并行集成、不易过拟合的优势及XGBoost算法在分类问题中的优秀性能,本文提出XGBRF混合集成模型,将boosting与bagging思想相结合,选择XGBoost算法作为预报模型的基本框架来训练随机森林。本文中XGBRF模型的算法流程如图2所示,参数设置如表2所示。

注:L为损失函数,P′为迭代次数,T为树的数量,θ为一个随机向量,b(x)为基学习器。训练集D由M个样本组成,D=(xi, yi),i=1,2,3,…,M。G为一阶导数和,H为二阶导数和。

表2 XGBRF集成模型中的参数设置

2008-2019年中西太平洋黄鳍金枪鱼的延绳钓数据共18 013条。本研究采用五折交叉方法随机划分为训练数据(80%数据)和测试数据(20%数据)。对数据集进行预处理,将单位捕捞努力量按照三分位数划分为0和1,分别对应非渔场和渔场。为了验证模型的有效性,以逻辑回归(Logistic Regression,LR)、分类与回归(Classification and regression tree,CART)、近邻(K Nearest Neighbors,KNN)、自适应增强(Adaptive boosting,Adaboost)、梯度提升树(Gradient Boosting Decision Tree,GBDT)、XGBoost和RF共7种模型作为对照,对照模型均在相同的实验环境下使用同一数据集。为了消除由于数据划分造成模型训练的性能误差,本文中所使用的模型均采用网格搜索和两次五折交叉验证训练法以得到最优参数。各模型的参数设置如表3所示。

表3 模型参数设置

1.4 模型精度评价

模型精度是判别预报结果与真实渔场信息符合程度的标准。本文使用准确率(Accuracy)、查准率(Precision)、召回率(Recall)、F1得分(F1-score)、受试者工作特征曲线(Receiver Operating Characteristic,ROC)及曲线下的面积(Area under Curve,AUC)值综合评价模型的性能。

将模型中少数类样本记为负例(非渔场),多数类样本记为正例(渔场),则各个评价指标的计算公式为

式中TP、TN、FP、FN分别代表预测值和真实值均为渔场、预测值和真实值均为非渔场、预测值为渔场而真实值为非渔场以及预测值为非渔场而真实值为渔场。ROC曲线由真正率和假正率分别作为纵坐标和横坐标绘制得到,AUC值是ROC曲线与横坐标围成的面积,值域在 0~1之间。

2 结果与分析

2.1 基于VIF的特征选择

基于方差膨胀因子VIF的特征选择过程中,剔除环境因子中VIF较高的值后重新计算剩余变量的VIF值,重复操作直至剩余变量的VIF值均小于10。VIF选择后的变量如表4所示。方差膨胀因子筛选后的变量共19种,除了SLA、S0和T150,其余环境因子的VIF值均小于5,可作为模型输入变量。

表4 特征选择后的环境变量VIF值

2.2 预测结果及模型对比分析

将20%的测试数据分别代入LR、CART、KNN、Adaboost、GBDT、XGBoost、RF和XGBRF模型,分别计算各个模型的Accuracy、Precision、Recall、F1-score、AUC值,结果如表5所示。

表5 各模型预测结果对比

由表5可知,XGBRF模型在准确率和AUC的值均最高,分别为75.39%和79.48%,证明模型的预测效果较好。对于渔场和非渔场的预测结果,8种模型的渔场召回率、查准率和F1-score相对于非渔场均较高,可以看出所有模型对于渔场的识别均要好于非渔场。RF模型对于非渔场的识别效果较好,其非渔场F1-score(60.27%)最高,XGBRF模型表现次之,其非渔场查准率(66.32%)最高。对于远洋渔业而言,渔船的作业围绕中心渔场进行以提高渔获产量和捕捞效率,因此中心渔场的预报精度具有重要意义,XGBRF模型的渔场查准率略低于RF模型,但其召回率(87.36%)和F1-score(82.64%)均最高,证明模型对于真实渔场的识别精度高,XGBRF模型的性能总体上优于其他模型。

各个模型的ROC曲线如图3所示,由图3可知,XGBRF模型较其他模型的ROC曲线更靠近左上角,能够较好地包含其他模型,证明模型的分类和预测效果较好。

图3 不同模型的ROC曲线

2.3 模型因子的重要性分析

借助sklearn中的feature_importances_方法,得到入模因子对中西太平洋黄鳍金枪鱼渔场预报的重要程度图(图4)。由图4可知,研究结果显示海表温度是影响黄鳍金枪鱼渔场布的最主要因素,为7.573%,300 m水层温度、50 m水层盐度、叶绿素a浓度(Chla)、南方涛动指数(SOI)和表层盐度(S0)对黄鳍金枪鱼的影响也较大,分别为7.369%、6.765%、6.533%、6.284%和6.212%。除SOI以外,其余大尺度气候因子的影响相对较低。时空因子的相对重要性较环境因子低。

图4 模型输入因子的相对重要性排序

2.4 模型验证

模型利用2008-2019年的真实数据进行训练和预测。将20%测试集的实际数据与模型预测的数据叠加,结果如图5所示。

由图5b可知,测试的渔场主要分布在10°~20°S,155°~175°E海域,这一海域模型的识别程度较高,但也存在一定的误判。在27°S海域附近也有少量渔场分布,但该海域的识别程度较低。非渔场的实际与预测结果如图5a所示,非渔场的分布与渔场的分布范围相似,在15°S以下的海域具有较好的识别度,但非渔场的总体识别率低于渔场的识别率。总体而言,预测的渔场位置与实际渔场位置存在少量的偏差,相较于其他模型,预测结果的精确度与可信度高。

注:审图号GS(2016)1665。

3 讨 论

3.1 环境因子选择的合理性

海洋环境因子是影响黄鳍金枪鱼活动和空间分布的重要外在因素,现有的研究表明,黄鳍金枪鱼渔场的形成极易受到海洋环境因子的影响[5,15-16]。叶绿素a浓度通过海洋食物链原理影响渔场分布;温度是影响鱼类活动最基本的海洋环境要素之一[17];海平面高度异常作为与平均海平面的差值[18],反映了包括海流、冷暖水团、盐度、海洋锋面等海洋动力特征,常被应用于海洋渔场分析;涡动能是通过影响环流、海水温度以及叶绿素a的分布,从而影响黄鳍金枪鱼的渔场分布;研究表明,黄鳍金枪鱼的垂直移动现象明显[19-20],其主要的垂直移动范围从几十米至几百米,且不同水层的温度会影响黄鳍金枪鱼渔场的分布;南方涛动伴随季节上升流的延迟可能与某些海域浮游植物的繁盛有关[21];太平洋年代际振荡被证明与SST具有一定的关联[22];北太平洋环流振荡、北极涛动等其他大尺度气候也有助于全面的了解海洋环境的变化[23]。因此,本研究选取的环境因子包括叶绿素a浓度、海面高度异常、涡动能、0~500 m水层的垂直温度和盐度数据,为了增大样本间差异,提高模型对中心渔场的识别能力,计算了SST和Chla的衍生变量(SSTdt、SSTG、Chladt和ChlaG)。

影响渔业的海洋环境因子关系错综复杂,多个特征变量之间存在较强的相关性(图1),研究表明相关系数大于0.85[24],方差膨胀因子大于10[25],变量之间可能存在共线性,造成重要变量的预测结果不显著[26]。本研究综合考虑各个海洋环境因子及共线性因素对模型精度和效率的影响,最终确定的入模变量具有一定的科学性和合理性。

3.2 模型因子的相对重要性

海表温度通过影响黄鳍金枪鱼的生长、觅食、洄游迁徙等直接影响渔场的分布和变动,研究表明绝大多数黄鳍金枪鱼可至10 m以内的浅层活动[20],结果表明海表温度是最重要的环境因子。300 m水层温度对黄鳍金枪鱼的影响同样重要,这可能与黄鳍金枪鱼的垂直活动且主要集中在300 m深度水层有关[27],除此之外S50、S0、S150、T150等对黄鳍金枪鱼的影响也间接证明了其垂直游动的特性。叶绿素a浓度作为海洋初级生产力的指标,其对黄鳍金枪鱼渔场分布的影响已被多人研究证实,且Chla的梯度分布(ChlaG)与锋面的形成有关,也与中心渔场的分布存在联系[28]。大尺度气候数据中,南方涛动指数SOI对黄鳍金枪鱼的影响相对较大,这与Torres-Faurrieta[29]的研究结果一致,NPGOI、PDOI、AOI的影响相对较小,这可能与大尺度气候影响的滞后效应有关[30]。

3.3 渔场与非渔场的划分

三分位数是统计学研究中最常用的方法之一。在进行渔场分类的研究中,对于“中心渔场”的界定并没有一个统一的标准,已有的研究大多采用三分位数对渔场进行划分[11,31-32],部分学者利用三分位数将渔区划分为高、中、低3个渔区,基于预报模型进行分别预测。但是需要考虑到的是CPUE作为连续变量,处于三分位数边界区域的值往往大小相近,会给模型的预测造成一定的困难,且各种复杂环境要素如气候异常、海洋大尺度事件、渔类洄游等的影响进一步导致中产渔区的预测准确率较低[11,32-33],造成分类损失。本研究结合真实渔业数据,将大于整年单位捕捞努力量第一三分位数T1的区域定义为渔场,其余部分作为非渔场,减小由于临界区域造成的模型性能损失,实现简单且具有一定的实际意义。

3.4 模型性能对比

本文中XGBRF模型得到的预报准确率为75.39%,渔场召回率和AUC值分别为87.36%和79.48%,预报效果优于栖息地指数模型[10](准确率66%)、GAM模型[6](解释率37.2%)、stacking算法[34](准确率68.72%)、贝叶斯分类器[4](准确率75%),且实验结果显示XGBRF模型相比于RF和XGBoost模型在各个指标上的表现均有一定程度的提升,这是因为XGBRF模型结合了boosting与bagging思想的优点,XGBoost作为基本框架能够针对错误样本进行学习,显著提高学习效率,同时随机采样和随机特征选择的加入增大了模型的灵活性,使其具有更好的泛化性能。LR和CART属于简单模型,简单直观、解释性强,但LR容易欠拟合,CART容易过拟合,两种模型的预测精度均不高。KNN通过计算不同数据之间的欧式距离来进行分类,准确度高,对异常点不敏感,在本研究中的表现较好。Boosting方法能够针对样本进行学习进而提高学习效率,Adaboost利用错误分类的样本来识别问题;GBDT通过计算负梯度来拟合残差,该类模型能充分学习每个弱分类器,具有很高的精度,结果显示两者在本研究中的表现互有优劣。XGBoost算法在GBDT的基础上进行了优化,模型的效率更高、泛化性能更强、应用范围更广,研究结果也证明其效果好于Adaboost和GBDT。RF作为bagging的升级,不仅具有Bagging并行集成的优势,同时其基学习器的决策边界往往更加灵活,有效解决了单一决策树的性能瓶颈,具有较高的泛化能力。实验中RF模型的渔场和非渔场召回率均较高,间接证明了模型的泛化能力。

3.5 模型精度评价

模型的评价指标是直接判断一个模型好坏的关键,渔场预报发展至今,各种预报模型层出不穷,需要对模型进行合理合适的评估。准确率是现有渔场预报模型采用较多的评估依据[31-32,34],准确率表示模型预测正确的正例、负例占总样本的比例,易于计算且复杂度低。但准确率是一种偏向全局化的衡量标准,信息量少且当模型对于非渔场(少数类)的识别率较高而对于渔场的识别率较低时也可能带来准确率的偏高,这种模型往往不是我们想要的。查准率表示正例的分类准确率,表明被预测为正例的样本中真实的正例的比例,查准率越高,表明漏掉的渔场就越少。召回率表示被预测正确的正例占所有真实的正例比例,召回率越高,代表渔场的识别率就越高。在渔业生产中,如果想尽可能覆盖某片海域内的所有渔场可以选择查准率较高的模型;如果想尽量避免无获而返的情况可以选择召回率较高的模型。实际情况下,需要在二者中寻找平衡,F1得分作为查准率和查全率的综合考虑解决了这一问题。F1得分被认为在某些方面表现优于准确率[35],F1得分越高,表明渔场的识别率高且误报的渔场较少。受试者工作特征曲线ROC曲线被认为衡量模型性能的有用指标[36],ROC曲线越靠近左上角表明模型的预测能力越强,AUC值大于0.75的模型被认为是“有用”的[37]。本文综合考虑各个模型的特点,选择准确率、查准率、召回率、F1-score、ROC曲线和AUC值作为模型的综合评判指标,确保了模型结果的可靠性。

4 结 论

本研究利用中西太平洋黄鳍金枪鱼的渔业生产数据,结合渔场时空因子、海洋环境因子及大尺度气候数据作为训练集构建了逻辑回归(LR)、分类与回归分类与回归(CART)、近邻(KNN)、自适应增强(Adaboost)、梯度提升树(GBDT)、极端梯度提升决策树(XGBoost)、随机森林(RF)和XGBRF共8种黄鳍金枪鱼渔场预报模型,并利用真实的渔业数据进行了模型验证,研究结果如下:

1)通过多个指标结果的综合分析显示,XGBRF混合集成模型能在一定程度上提高XGBoost和RF模型的性能,其准确率和AUC的值均最高,分别为75.39%和79.48%,且XGBRF模型的ROC曲线能较好包含其他模型,证明模型的性能表现最好,优于传统的预报模型。

2)模型因子的重要性分析结果表明,海表温度是影响黄鳍金枪鱼渔场分布最重要的因素,为7.573%。接下来的是300 m水层的温度,其重要性达7.369%。除此之外,50 m水层盐度、南方涛动指数、叶绿素a浓度和表层盐度对黄鳍金枪鱼的影响也较大。除SOI以外,其余大尺度气候因子的影响相对较低。

3)20%测试集实际渔场和非渔场的叠加图显示,XGBRF模型预报得到的渔场位置与实际的渔场位置仅存在少量的偏差,预测结果的精确度和可信度较高,是一种有效的黄鳍金枪鱼渔场预报方法。

本研究构建了一种随机森林和极端梯度提升决策树结合的XGBRF模型作为中西太平洋黄鳍金枪鱼的渔场预报方法,通过与多种模型对比和实际渔业数据的检验,证明了该模型的可行性。在今后的研究中,可以进一步探究其他环境因子、模型参数优化、渔区划分标准、海洋模式数据等因素对黄鳍金枪鱼渔场的影响,进一步提高模型的精度和实用性。

[1] 张春玲,蒋逸,王冰洋,等. 中西太平洋黄鳍金枪鱼随附鱼群区域温度垂直结构的构建与初步分析[J]. 上海海洋大学学报,2022,31(1):233-241.

ZhangChunling,JiangYi,Wang Bingyang, et al. Construction and analysis of vertical temperature structure for FAD yellowfin tuna in the central and western Pacific Ocean[J]. Journal of Shanghai Ocean University, 2022, 31(1): 233-241. (in Chinese with English abstract)

[2] Ms A, Gmp B, Cr A, et al. Trade-offs for the southern longline fishery in achieving a candidate South Pacific albacore target reference point-ScienceDirect[J]. Marine Policy, 2019, 100(C): 66-75.

[3] 朱浩朋,伍玉梅,唐峰华,等. 采用卷积神经网络构建西北太平洋柔鱼渔场预报模型[J]. 农业工程学报,2020,36(24):153-160.

Zhu Haopeng, Wu Yumei, Tang Fenghua, et al. Construction of fishing ground forecast model of Ommastrephes bartramii using convolutional neural network in the Northwest Pacific[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 153-160. (in Chinese with English abstract)

[4] 周为峰,黎安舟,纪世建,等. 基于贝叶斯分类器的南海黄鳍金枪鱼渔场预报模型[J]. 海洋湖沼通报,2018(1):116-122.

Zhou Weifeng, Li Anzhou, Ji Shijian, et al. Forecasting model for yellowfin tuna () fishing ground in the south China sea based on bayes classifier[J]. Transactions of Oceanology and Limnology, 2018(1): 116-122. (in Chinese with English abstract)

[5] 宋利明,沈智宾,周建坤,等. 库克群岛海域海洋环境因子对黄鳍金枪鱼渔获率的影响[J]. 上海海洋大学学报,2016,25(3):454-464.

Song Liming, Shen Zhibin, Zhou Jiankun, et al. Effects of environmental variables on catch rates of yellowfin tuna () in waters near Cook Islands[J]. Journal of Shanghai Ocean University, 2016, 25(3): 454-464. (in Chinese with English abstract)

[6] 徐国强,朱文斌,张洪亮,等. 基于GAM模型分析印度洋大眼金枪鱼和黄鳍金枪鱼渔场分布与不同环境因子关系[J]. 海洋学报,2018,40(12):68-80.

Xu Guoqiang, Zhu Wenbing, Zhang Hongliang, et al. Relationship between fishing grounds ofandwith environmental factors in the Indian Ocean based on generalized additive model[J]. Haiyang Xuebao, 2018, 40(12): 68-80. (in Chinese with English abstract)

[7] Perez G J P, Leonardo E M. Predicting the Distribution of Yellowfin Tuna in Philippine Waters[C]. Washington DC: American Geophysical Union, 2015.

[8] Zagaglia C R, Lorenzzetti J A, Stech José L. Remote sensing data and longline catches of yellowfin tuna () in the equatorial Atlantic[J]. Remote Sensing of Environment, 2004, 93(1/2): 267-281.

[9] 郑志辉. 基于贝叶斯方法、分位数回归和人工神经网络模型的黄鳍金枪鱼渔情预报模型比较[D]. 上海:上海海洋大学,2017.

Zheng Zhihui. A Comparison of Yellowfin Tuna Fishing Condition Forecast Models Based on Bayesian Method, Quantile Regression and Artificial Neural Network Model[D]. Shanghai: Shanghai Ocean University, 2017. (in Chinese with English abstract)

[10] 赵海龙,陈新军,方学燕. 基于栖息地指数的东太平洋黄鳍金枪鱼渔场预报[J]. 生态学报,2016,36(3):778-785.

Zhao Hailong, Chen Xinjun, Fang Xueyan. Forecasting fishing ground of yellowfin tuna in the eastern Pacific Ocean based on the habitat suitability index[J]. Acta Ecologica Sinica, 2016, 36(3): 778-785. (in Chinese with English abstract)

[11] 陈雪忠,樊伟,崔雪森,等. 基于随机森林的印度洋长鳍金枪鱼渔场预报[J]. 海洋学报, 2013,35(1):158-164.

Chen Xuezhong, Fan Wei, Cui Xuesen, et al. Fishing ground forecasting of Thunnus alalung in Indian Ocean based on random forest[J]. Haiyang Xuebao, 2013, 35(1): 158-164. (in Chinese with English abstract)

[12] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.

[13] Feng Y, Chen X, Gao F, et al. Impacts of changing scale on Getis-Ord Gi* hotspots of CPUE: A case study of the neon flying squid () in the northwest Pacific Ocean[J]. Acta Oceanologica Sinica, 2018, 37(5): 67-76.

[14] Ismail A I, Morrison E C, Burt B A, et al. Natural history of periodontal disease in adults: findings from the Tecumseh Periodontal Disease study, 1959-87[J]. Journal of Dental Research, 1990, 69(2): 430-435.

[15] 王少琴,许柳雄,朱国平,等. 中西太平洋金枪鱼围网的黄鳍金枪鱼CPUE时空分布及其与环境因子的关系[J]. 大连海洋大学学报,2014,29(3):303-308.

Wang Shaoqin, Xu Liuxiong, Zhu Guoping, et al. Spatial-temporal profiles of CPUE and relations to environmental factors for yellowfin tuna () from purse-seine fishery in Western and Central Pacific Ocean[J]. Journal of Dalian Ocean University, 2014, 29(3): 303-308. (in Chinese with English abstract)

[16] 刘勇,陈新军. 中西太平洋金枪鱼围网黄鳍金枪鱼产量的时空分布及与表温的关系[J]. 海洋渔业,2007(4):296-301.

Liu Yong, Chen Xinjun. Spatio-temporal distribution ofand its relationship with sea surface temperature in the tuna purse seine fishery of the Central and Western Pacific[J]. Marine Fisheries, 2007(4): 296-301. (in Chinese with English abstract)

[17] 崔雪森,樊伟,张晶. 太平洋黄鳍金枪鱼延绳钓渔获分布及渔场水温浅析[J]. 海洋通报,,2005(5):54-59.

Cui Xuesen, Fan Wei, Zhang Jing. Primary study on the distribution of yellowfin tuna () longline fishery catch and the fishing-ground environment of the Pacific Ocean[J]. Marine Science Bulletin, 2005(5): 54-59. (in Chinese with English abstract)

[18] 宋婷婷,樊伟,伍玉梅. 卫星遥感海面高度数据在渔场分析中的应用综述[J]. 海洋通报,,2013,32(4):474-480.

Song Tingting, Fan Wei, Wu Yumei. Review on the fishery analysis with satellite remote sensing sea surface height data[J]. Marine Science Bulletin, 2013, 32(4): 474-480. (in Chinese with English abstract)

[19] Cayre P. Behaviour of Yellowfin Tuna () and Skipjack Tuna () around fish aggregating devices (FADs) in the Comoros Islands as determined by ultrasonic tagging[J]. Aquatic Living Resources, 1991, 4(1): 1-12.

[20] 张衡,戴阳,杨胜龙,等. 基于分离式卫星标志信息的金枪鱼垂直移动特性[J]. 农业工程学报,2014,30(20):196-203.

Zhang Heng, Dai Yang, Yang Shenglong, et al. Vertical movement characteristics of tuna () in Pacific Ocean determined using pop-up satellite archival tags[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2014, 30(20): 196-203. (in Chinese with English abstract)

[21] 王靓. 西北太平洋主要小型中上层鱼类资源量对大尺度气候-海洋环境变化的响应研究[D]. 上海:上海海洋大学,2021.

Wang Jing. Study on the Response of Major Small Pelagic Fish Resource in the Northwest Pacific to Large Scale Climate-Marine Environmental Changes[D]. Shanghai: Shanghai Ocean University, 2021. (in Chinese with English abstract)

[22] Tian Y J, Akamine T, Suda M. Variations in the abundance of Pacific saury () from the northwestern Pacific in relation to oceanic-climate changes[J]. Fisheries Research, 2003, 60(2/3): 439-454.

[23] Vimont D J. The Contribution of the interannual ENSO cycle to the spatial pattern of decadal ENSO-like variability[J]. Journal of Climate, 2010, 18(12): 2080-2092.

[24] Elith J, Graham C H, Anderson R P. et al. Novel methods improve prediction of species' distributions from occurrence data[J]. Ecography (Copenhagen), 2006, 29(2): 129-151.

[25] Dormann C F, Elith J, Bacher S, et al. Collinearity: A review of methods to deal with it and a simulation study evaluating their performance[J]. Ecography, 2013, 36(1): 27-46.

[26] Ohlemuller R, Anderson B J, Araujo M B, et al. The coincidence of climatic and species rarity: High risk to small-range species from climate change[J]. Biology letters, 2008, 4(5): 568-572.

[27] 杨胜龙,张忭忭,张衡,等. 黄鳍金枪鱼垂直移动及水层分布研究进展[J]. 水产科学,2019,38(1):119-126.

Yang Shenglong, Zhang Bianbian, Zhang Heng, et al. A review:vertical swimming and distribution of yellowfin tuna (thunnus albacares)[J]. Fisheries Science, 2019, 38(1): 119-126. (in Chinese with English abstract)

[28] 毛志华,朱乾坤,龚芳. 卫星遥感北太平洋渔场叶绿素a浓度[J]. 水产学报,2005(2):270-274.

Mao Zhihua, Zhu Qiankun, Gong Fang. Satellite remote sensing of chlorophyll a concentration in the north Pacific Fishery[J]. Journal of Fisheries of China, 2005(2): 270-274. (in Chinese with English abstract)

[29] Torres-Faurrieta L K, Dreyfus-León M J, Rivas D. Recruitment forecasting of yellowfin tuna in the eastern Pacific Ocean with artificial neuronal networks[J]. Ecological Informatics, 2016, 36: 106-113.

[30] Báez J C, Czerwinski I A, Ramos M L. Climatic oscillations effect on the yellowfin tuna () Spanish captures in the Indian Ocean[J]. Fisheries Oceanography, 2020, 29(6): 572-583.

[31] 侯娟,周为峰,樊伟,等. 基于集成学习的南太平洋长鳍金枪鱼渔场预报模型研究[J]. 南方水产科学,2020,16(5):42-50.

Hou Juan, Zhou Weifeng, Fan Wei, et al. Research on fishing grounds forecasting models of albacore tuna based on ensemble learning in South Pacific[J]. South China Fisheries Science, 2020, 16(5): 42-50. (in Chinese with English abstract)

[32] 宫鹏,王德兴,袁红春,等. 基于 LightGBM 的南太平洋长鳍金枪鱼渔场预报模型研究[J]. 水产科学, 2021,40(5):762-767.

Gong Peng, Wang Dexing, Yuan Hongchun, et al. Fishing ground forecast model of albacore tuna based on LightGBM in the South Pacific Ocean[J]. Fisheries Science, 2021, 40(5): 762-767. (in Chinese with English abstract)

[33] 袁红春,陈冠奇,张天蛟,等. 基于全卷积网络的南太平洋长鳍金枪鱼渔场预报模型[J]. 江苏农业学报,2020,36(2):423-429.

Yuan Hongchun, Chen Guanqi, Zhang Tianjiao, et al. Fishing ground forecast model of albacore tuna based on fully convolutional networks in the South Pacific[J]. Jiangsu Journal of Agricultural Sciences, 2020, 36(2): 423-429. (in Chinese with English abstract)

[34] 宋利明,任士雨,张敏,等. 基于集成学习的大西洋热带海域黄鳍金枪鱼渔情预报[J]. 中国水产科学,2021,28(8):1069-1078.

Song Liming, Ren Shiyu, Zhang Min, et al. Fishing ground forecasting models for yellowfin tuna () in the tropical waters of the Atlantic Ocean based on ensemble learning[J]. Journal of Fishery Sciences of China, 2021, 28(8): 1069-1078. (in Chinese with English abstract)

[35] Hossin M, Sulaiman M N. A review on evaluation metrics for data classification evaluations[J]. International Journal of Data Mining & Knowledge Management Process, 2015, 5(2): 1-11.

[36] Guo H, Li Y, Shang J, et al. Learning from class-imbalanced data: Review of methods and applications[J]. Expert Systems with Applications, 2017, 73: 220-239.

[37] Swets J A. Measuring the accuracy of diagnostic systems[J]. Science, 1988, 240(4857):1285-1293.

Forecasting models for yellowfin tuna fishing ground in the central and western Pacific based on machine learning

Zhang Cong1,2, Zhou Weifeng1※, Tang Fenghua1, Shi Yongchuang1, Fan Wei1

(1.200090; 2.100081)

An accurate forecast can be greatly contributed to the yellowfin tuna fishing ground in the western and Central Pacific. However, a large amount of fishery data, and high feature dimension have posed a great over-fitting on the various classification in recent years. The random forest parallel integration can be expected to achieve the excellent performance of the extreme gradient boosting decision tree algorithm. In this study, a hybrid integration model was proposed to combine the Xgboost with Random Forest (XGBRF) with the random forest and extreme gradient lifting decision tree. The fishery production data was also collected from the operation data of 43 distant-water longline fishing vessels of China Aquatic Group in the western and Central Pacific (0°-30°S; 110°E-170°W) from 2008 to 2019, including catch information, such as amount, job date, as well as the job latitude and longitude. A comparison was performed on the fishery data, including the concentration of chlorophyll, eddy kinetic energy, sea surface height anomalies, temperature and salinity of the 0-500 m mixed water layer. A total of 36 variable combinations were used as the original data set, including the Southern Oscillation Index (SOI), the Arctic Oscillation Index (AOI), the Pacific Decadal Oscillation Index (PDOI), and North Pacific Gyre Oscillation Index (NPGOI). The original data set was divided into the training set and test set after the screening and normalization of the variance expansion factor, accounting for 80% and 20%, respectively. The training set was used to train eight models, including classification and regression, logistic regression, k-nearest neighbor, adaptive boosting, gradient boosting decision tree, xgboost, random forest, and XGBRF. The five-fold cross-validation was used for each model to determine the optimal parameters. Finally, the model was verified to superimpose the actual fishing ground of the test set. The experimental results showed that: 1) There was a significant correlation between the catch per unit fishing effort and various variable factors. There was also a great decrease in the degree of collinearity between the variables that were filtered by variance inflation factor. 2) The XGBRF hybrid ensemble model also significantly improved the performance of XGBoost and RF models. Specifically, the highest accuracy rate and Area Under Curve (AUC) were 75.39%, and 79.48%, respectively. The Receiver Operator Characteristic (ROC) curve of the XGBRF model was closer to the upper left, indicating the best performance of the forecasting model than before. 3) The sea surface temperature was the most important factor to dominate the distribution of yellowfin tuna fishing ground, accounting for 7.573%. The temperature of the 300 m water layer was equally important for the yellowfin tuna, which was 7.369%. In addition, the greater impact was also found in the salinity of the 50-meter water layer, the SOI, the concentration of chlorophyll, and the surface salinity. There was a relatively low influence of other large-scale climatic factors, except for the SOI. 4) There was only a small deviation between the fishing ground predicted by the XGBRF model and the actual fishing ground, indicating the high accuracy and reliability of the prediction. Overall, the XGBRF ensemble model performed the best on the fishing ground forecast of yellowfin tuna in the western and Central Pacific. The finding can also provide a strong reference for the fishing ground forecast.

machine learning; models; western and central Pacific;yellowfin tuna; fishing ground forecast

10.11975/j.issn.1002-6819.2022.15.036

S931.3

A

1002-6819(2022)-15-0330-09

张聪,周为峰,唐峰华,等. 基于机器学习的中西太平洋黄鳍金枪鱼渔场预报模型[J]. 农业工程学报,2022,38(15):330-338. doi:10.11975/j.issn.1002-6819.2022.15.036 http://www.tcsae.org

Zhang Cong, Zhou Weifeng, Tang Fenghua, et al. Forecasting models for yellowfin tuna fishing ground in the central and western Pacific based on machine learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 330-338. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.15.036 http://www.tcsae.org

2022-04-29

2022-07-19

国家重点研发计划项目(2019YFD0901405);农业农村部南海渔业资源开发利用重点实验室开放基金项目(LOF 2022-05);中央级公益性科研院所基本科研业务费项目(2019T09);核电厂冷源安全保障相关技术开发项目(21FW018)

张聪,研究方向为机器学习与海洋渔场预报。Emai:zhangcong20190404@163.com

周为峰,博士,副研究员,研究方向为渔业遥感与渔场海洋学。Email:zhwfzhwf@163.com

猜你喜欢
渔场金枪鱼太平洋
金枪鱼淹死事件
可以加速的金枪鱼机器人
《关于加强远洋鱿钓渔船作业管理的通知》公布
金枪鱼与海豚
爱管闲事的“太平洋警察”
埃及超大规模养鱼场
决胜太平洋
连续三年保持50%增长,入驻通威、新希望养殖基地,这家渔机企业将打造未来无人渔场
国内新型远洋金枪鱼围网渔船首航
跨越太平洋的爱恋