金 武,何 奇,杜兴伟,朱新艳,闻海波,马学艳,何义进,邴旭文
(1中国水产科学研究院淡水渔业研究中心,江苏无锡 214081;2常熟市水产技术推广站,江苏常熟 215500)
中国河蟹养殖主要集中在长江中下游、黄河口、辽河口等地区,目前中国河蟹养殖总面积在4.67×104hm2左右,其中江苏的养殖面积约2.47×104hm2[1]。由于养殖技术[2-4]和养殖模式[5-7]的不断突破创新,在河蟹总产量稳中有升的形势下,河蟹的品质不断提高。近年来,全国河蟹总体产量平均在7×108kg左右,但由于受到气候等因素的影响,各地河蟹产量常常有起伏波动[1]。
作为河蟹养殖主要方式之一的池塘生态系统是一个多因素耦合的复杂生态系统,生态要素间的关系错综复杂表现出极大的随机性、不确定性和非线性,这与湖泊生态系统的特点类似[8-9]。在这些生态要素中,气象因子在其中起到了重要作用,特别是气温、光照、降水等与河蟹产量之间存在显著的相关性[10-13]。BP神经网络(Back Propagation Neural Networks)是基于误差反传算法的多层前馈神经网络,与传统的线性回归模型相比,具有自学习和自适应、非线性、鲁棒性和容错性等特点[14],对于提高河蟹产区多个气象因子与产量之间非线性数学模型的精确性有显著优势。本研究利用2013—2017 年江苏省河蟹主产区的气象数据和产量数据建立数学模型并开展河蟹产量预测,以期为河蟹生产流通、制定江苏省河蟹发展方向及极端气象条件下的应急处理提供参考。
气象数据来自中国气象数据网在河蟹主产区附近设立的7个观测台站,气象数据包括极大风速、最低气压、最低气温、最高气压、最高气温、8:00—20:00 时降水量、平均气压、平均2 min风速、平均气温、平均水气压、平均相对湿度、平均最低气温、平均最高气温、日降水量≥0.1 mm 日数、月日照百分率、日照时数、最大风速、最大日降水量18个气象因子。江苏省河蟹主产区产量数据(2013—2017 年)来自原江苏省海洋与渔业局计划财务处。
1.2.1 数据标准化 对原始数据做的标准化处理以消除各项指标数据量纲和数量级对算法的影响,见公式(1)。
式中,Y表示得到的标准化矩阵,yij为标准化后的数值,xij为各项指标的数值,各项指标的均值与标准差分别表示为和sj。
1.2.2 PCA 主成分分析 通过主成分分析对数据进行降维处理,将原始数据中线性相关的变量转化为少数几个线性不相关的主成份,使得处理之后的数据既能包含原始数据的绝大部分信息,又能降低维度,简化算法。按照主成份的选定规则,通常情况下最终选定的主成份,其特征值大于1,并且累计贡献率达在85%以上。
1.2.3 BP 神经网络分析 神经网络处理的都是非线性问题,为了达到BP神经网络处理非线性问题的效果,隐含层与输出层还需要用到激活函数。为使神经网络在处理非线性数据时更能把握隐藏在数据中的抽象逻辑关系,激活函数一般选取非线性函数,比较常用的有Sigmoid 函数、tan 函数等。本研究中采用Sigmoid 函数进行神经网络分析,计算见公式(2)。
2013—2015 年的气象数据和产量数据用于训练数据,2016 年数据用于测试模型,2017 年数据用于检验预测结果。该神经网络有1 个隐含层,神经元个数为12个,输出层为1个。对神经网络进行参数设置并代入样本进行训练,并将训练好的神经模型进行数据计算与预测。
通过对标准化之后的极大风速、最低气压等18个指标数据和产量数据做主成分分析,取累计贡献率达到85%的主成份。共选取5 个主成份,累计贡献率为87.128%,分析结果显著减少了原始数据之间的相关性,又充分概括了原始数据的主要特性。
2.2.1 BP神经网络训练结果BP神经网络的性能图如图1,随着神经网络迭代次数的增加,均方误差在逐渐减小,最终均方误差稳定在0.0248左右,得到了一个稳定的BP神经网络。
图1 BP神经网络的性能图
从图2可以看出,第7~21个数据之间的曲线贴合得比较紧密,说明神经网络对这部分数据之间的关系,拟合得比较准确,而其他数据之间的曲线贴合得不是很紧密,说明神经网络对其余数据之间的关系拟合还有一定误差。
图2 训练数据的神经网络预测效果对比
2.2.2 BP 神经网络 从图3 可以看出,第5~8 组之间的曲线,贴合的较为紧密,有一致地增减关系,而两边的数据,曲线贴合得不够紧密,有一定的误差,这一特点和训练数据曲线相一致,均是中间数据拟合预测较为准确,两侧数据具有相对大些的误差。
图3 测试数据的神经网络预测效果对比
从图4 以看出,在训练数据中,数据落在y=x这条线两侧。结果说明大部分数据距离这条回归线较近,个别数据距离回归线较远,相关系数为0.82267,说明BP神经网络学到了大部分数据的特点,能在一定误差上模拟气象因子数据与产量之间的关系。
图4 神经网络输出数据与实际值回归图
气象因子与河蟹产量的关系主要表现在对河蟹生长、成活率[15]的影响,起主要作用的因子包括:降水、温度、日照、蒸发、风速、气压、生长期高温天数、自然生长期间积温、生长关键期降水[10-11,13,15-17]。高温(>35℃)天数、自然生长期间积温和关键期降水的年际变化分别与河蟹个体品质、成熟期、河蟹产量的波动密切相关[13]。水温升至15℃时,摄食开始增加。20~26℃时摄食最旺盛[18]。气温达到35℃时,河蟹基本进入休眠状态,摄食停止,持续高温3~4 天,河蟹出现死亡。自然生长期积温和气温显著相关,气温高的年份一般对应成熟期较早的年份,生长期积温低的年份一般对应成熟期较晚的年份。过于集中的降水容易造成湖水上涨,河蟹逃逸,且持续降水期间的阴雨寡照易引发河蟹病害,甚至死亡,从而直接影响收获量[13,19]。
河蟹养殖过程中,水草可为中华绒螯蟹提供天然饵料、净化水质、增加溶氧,并营造良好的生态环境,同时也可起到夏季降温遮光的作用,是提高中华绒螯蟹品质和产量的重要因子[20]。在水草的培育和生长过程中,日照起决定性作用[18]。
BP 神经网络在水产中的应用目前多集中在工厂化养殖系统水质指标方面,包括溶氧[21]、温度[22]、pH[23]、氨氮[24]等,在宏观尺度利用气象数据预测池塘河蟹产量的报道仍较少。采用逐步回归法也可以进行河蟹产量的预测,但仅能包括2~3个气象因,因此模型的预测准确性仍较低[15]。养成后期平均气温(影响池塘水温)及同期雨量这2 个因子也可用于河蟹气象产量预报[15,25-26]。以生长期高温天数、自然生长期间积温、生长关键期降水3个因子对江西军山湖区河蟹产量进行拟合也取得了不错的效果[13]。但与中华绒螯蟹生长相关的气象因素远远不止温度[27]、日照和降水,气压、风4项[10],气压的高低和风的大小都会改变水体中的溶解氧含量等[28],而溶解氧含量又是影响水产动物生长的一个重要因素[29]。各气象因素之间是相互依存的,存在复杂的非线性关系,因此单纯用2~3 个因子来预测河蟹产量很难达到对生产过程中的所有气象信息准确描述并提高模型预测准确性的目的。本研究中对气象观测站采集的绝大多数因子和光照因子与河蟹主产区产量进行了建模,尽最大可能反应河蟹养殖环境系统的复杂性。今后仍可以继续积累气象、产量、水环境等方面的数据,改进BP神经网络算法等角度进一步提高模型的精度。
本研究中BP 神经网络在训练数据和测试数据分析中表现出相似的规律,BP神经网络对两侧的部分数据的拟合存在一定的误差。BP 神经网络能够学到了大部分数据的特点,神经网络输出值和真实值之间的相关系数R=0.82267。对河蟹主产区的气象因子、光照数据利用该神经网络能够较准确地预测江苏省河蟹主产区的产量。