基于PCA建立蜡梅花初花期预测模型①

2022-10-29 03:36吉莉刘晓冉武强李强
关键词:蜡梅实测值花期

吉莉, 刘晓冉, 武强, 李强

1.重庆市北碚区气象局, 重庆 400700; 2.重庆市气象科学研究所, 重庆 401147

蜡梅为蜡梅科蜡梅属植物, 是珍贵的天然香料植物[1]. 重庆市北碚区蜡梅种植面积占全市蜡梅总面积的85%, 有500多年种植历史, 与河南鄢陵、 湖北保康并称为“中国三大蜡梅基地”, 每年吸引了大量的游客来此地观赏蜡梅. 科学、 准确地开展蜡梅花期预报可指导人们合理安排时间观赏蜡梅, 促进当地生态旅游发展.

关于植物花期与气候变化规律, 以及花期预测技术国内外均有大量的研究[2-6]. Gonsamo等[7]模拟加拿大19种植物的始花期变化; 刘流等[8]对桂林桃花开花期与气象要素的关系进行研究, 发现桃花开花期与当年1月下旬到2月下旬气温和上年冬季降水量有显著的相关性; 张志薇等[9]基于1986-2016年油菜花物候观测资料, 分析了盛花期的物候特征及与温度因子的关系; 孙明等[10]基于1990-2020年悬铃木花的物候资料, 明确了关键气象因子对始花期的定量影响, 并建立预测模型; 岳高峰等[11]以牡丹花花期为预报主体, 选取气温、 积温、 日照和空气湿度气象因子进行主成分分析和逐步回归分析, 建立多元回归预测模型, 为牡丹文化节组委会提供决策依据. 相对而言, 由于蜡梅种植面积少, 种植范围不广, 对蜡梅花期研究较少, 目前国内外关于蜡梅的研究报道主要集中在栽培技术[12-17]、 化学成分、 品种等方面.

近年来, 机器学习作为人工智能领域的重要分支, 国内外越来越多的学者将机器学习技术应用于各个领域, 其中在作物预测方面的研究取得了较好的成绩[18-20]. 这些分析方法能够从多水平、 多因素着手, 综合分析各指标的整体效应, 使筛选出的结果更具科学性. 本研究以重庆市北碚区静观素心蜡梅早熟品种的初花期为研究对象, 统计分析2007-2021年初花期变化特征, 基于PCA主成分分析法, 通过BP神经网络算法及逐步回归算法, 对蜡梅初花期预测进行预测试验, 以期为科学有效开展蜡梅初花期气象服务提供理论依据和技术支持.

1 资料与方法

1.1 资料

1.1.1 资料来源

素心蜡梅初花期是指蜡梅树枝开花率为20%左右的时间, 素心蜡梅早熟品种初花期2007-2013年资料为课题组对北碚区静观镇、 柳荫镇等地实地走访调查所得, 2014-2021年数据来源于静观蜡梅气象服务站观测数据. 气象资料是北碚区国家气象观测站2007-2021年逐日资料, 包括平均气温、 最低气温、 最高气温、 降水量、 日照时数等, 气温、 降水量、 日照时数的日气象资料统计为旬资料, 雨日数为日降水量L≥0.1 mm的日数.

蜡梅初花期转换为年日序值, 即1月1日为1, 1月2日为2, 以此类推.

1.1.2 气象因子

影响蜡梅花开花的过程主要是受气温、 降水、 日照的影响. 光、 温、 水条件的匹配程度影响初花期的早晚时间, 因此为筛选出对蜡梅花初花期有影响的气象因子, 本研究将气温、 降水、 日照作为预测初花期的初选因子. 蜡梅一般在10月进入长枝期, 11月进入定型期, 花芽逐渐生出, 早熟初花期一般在12月11日左右, 因此本研究主要选取11月的18类气象因子(表1).

表1 影响蜡梅初花期的气象因子

1.2 研究方法

1.2.1 PCA

主成分分析(PCA)[21-22]是通过对协方差矩阵进行特征分析, 在减少数据维数的同时, 保持数据集对方差贡献最大的目的. 利用数据降维的思想, 在损失较少数据信息的前提下, 把多个指标转化成几个为数较少的综合指标的多元分析方法, 各个主成分是原始变量的线性组合, 彼此之间互不相关. 主成分分析以方差作为信息量的测度, 取累计贡献率大的几个成分作为主成分.

1.2.2 BP神经网络预报方法

BP神经网络算法是目前应用最广泛的预测方法, 其基本思想是工作信号正向传递和误差信号反向传递两个子过程, 学习规则和目标是使用最速下降法, 通过反向传播不断调整网络的权值和阈值使全局误差系数最小, 学习本质是对连接权值的动态调整. 基本结构由输入层、隐层和输出层构成[23].

1.2.3 逐步回归预报方法

采用回归方法是根据自变量的取值来预测因变量的取值[24-25], 以变量对目标的影响程度大小, 从大到小逐个引入回归方程, 再对回归方程所含的变量进行检验, 显著则引入方程, 不显著则剔除, 直到没有显著因素可以引入, 或不显著变量需剔除为止. 本文主要选取主成分作为初花期预测因子, 采用SPSS软件, 利用“步进法”建立蜡梅花初花期预测模型.

1.2.4 数据评估方法

偏度系数是统计数据分布偏斜方向和程度的度量, 用于衡量数据的对称性的特征数; 峰度系数是表征概率密度分布曲线在平均值处峰值高低的特征数. 本研究主要采用SPSS软件对蜡梅花序日进行正态分布性检验[23].

1.2.5 数据预处理

通常使用的机器学习算法将数据样本分为训练集与测试集, 通过训练集数据建立模型, 测试数据则用于检验模型的泛化能力, 因此在确定建立模型前, 为消除指标之间的量纲影响, 需对数据进行归一化处理. 通过对数据进行分段建模的方式拟合, 本研究以2007-2017年有效初花期数据作为训练集数据, 再选取高影响气象因子, 以初花期日序为输入目标, 利用SPPS Modeler软件构建BP神经网络预测模型和逐步回归预测模型, 然后利用boosting 集成学习思想, 为每一个训练样本赋一个权重, 在每一轮提升过程结束时自动调整权重, 提高预测模型的泛化能力, 防止模型过度拟合. 最后为进一步验证该模型的准确性, 对2018-2021的数据进行预测效果检验.

2 结果分析

2.1 蜡梅初花期及气象要素分析

由图1蜡梅花初花期可知, 2007-2021年, 蜡梅初花期主要集中在12月, 平均初花期在12月11日左右, 接近入冬初日. 其中年份较晚的初花期出现在12月18日(2010年), 最早的初花期出现在12月5日(2009年), 最早和最晚的日期相差13 d. 采用偏度和峰度检验法, 对蜡梅花序日进行正态分布性检验[23], 计算出花序日时间序列的偏度、 偏度标准差、 峰度、 峰度标准差, 其值分别为-0.134,0.580,-0.055,1.121, 发现偏度和峰度均在±1.96之间, 说明静观蜡梅初花期资料符合正态分布的特征, 可以通过建立回归模型进行预报.

根据气象学定义, 入冬日为当年滑动平均气温序列连续5天小于10 ℃, 则以其对应的常年气温序列中第一个小于10 ℃的日期作为入冬初日, 由图1可见入冬日在2007年后略有提前, 2007-2021年蜡梅初花期多数晚于入冬初期, 相差不超过5 d, 其中入冬初日最早出现日期为2019年11月30日, 蜡梅初花期则为12月14日, 入冬初日最晚出现日期为2007年12月28日, 但是当年蜡梅初花期并未延后, 接近平均初花期.

图1 2007-2021年蜡梅花初花期及入冬日变化图

对2007-2021年蜡梅花开花前期气温趋势图(图2)分析发现, 近16 a的时间段内, 11月平均气温为13.9 ℃, 11月中旬平均气温为14.0 ℃, 11月下旬平均气温为12.0 ℃, 其中下旬气温除2009年为9.8 ℃, 2011年为16.6 ℃外, 气温主要集中在10 ℃~14 ℃之间, 其中花日序与11月下旬平均气温相关系数最高(0.444), 这与前人研究结论基本一致[24], 即蜡梅开花时的适宜温度在10 ℃左右, 温度越低, 花蕾比例越高, 且随着温度的升高, 花蕾开花数量随之增加. 由图2可知,t≥10 ℃活动积温趋势与11月中旬平均气温趋势基本一致,t≥10 ℃活动积温主要集中在221 ℃~432 ℃之间, 其中2015年积温最大, 为431.2 ℃, 其次是2011年, 为379.1 ℃, 最小值出现在2009年. 花日序与t≥10 ℃活动积温呈正相关性, 相关系数为0.486, 说明花期与t≥10 ℃活动积温的关系较为密切.

图2 蜡梅初花期前期气温趋势图

2.2 蜡梅花初花期气象因子筛选

本研究利用SPSS软件将表1中的18个气象因子作为原始输入变量, 以降维方式提取主成分, 提取出的主成分是原始变量的综合考量, 简化数据的复杂度. 采用PCA算法分别对18项影响因素进行特征值和特征向量计算, 从表2中可知, 前6个主成分均大于1, 累积贡献率为85.239%, 对比旋转载荷平方和的结果, 发现两者累计贡献率一致, 基本上可以反映气象因子的大部分信息.

表2 2007-2021年气象资料主成分特征值和方差贡献率

表3是2007-2021年气象因子主成分特征向量值, 由表3可知, 在第1主成分的特征向量中, 特征值大于0.8的因子是t≥10℃活动积温、 11月中旬极端最低气温、 11月中旬平均气温, 说明第1主成分中初花期与11月中旬的气温有着紧密的相关性; 在第2主成分的特征向量中, 特征值绝对值大于0.8的因子是11月上旬日照、 11月上旬极端最高气温、 11月雨日, 其中正值最大的是11月上旬日照(0.862), 负值最小的是11月雨日(-0.862), 说明第2主成分中初花期与光照和雨水关系较大; 第3主成分的特征向量中, 最大的正值是11月中旬日照, 而最小的负值是11月下旬日照, 说明在第3主成分中初花期主要受日照的影响; 同理, 第4主成分中初花期受11月上旬气温的影响较大, 第5主成分中初花期受11月上旬降水和11月下旬最高气温的影响较大, 第6主成分中初花期受11月中旬降水的影响较大. 根据主成分的特征向量, 获得6个主成分与气象因子间的线性方程, 即第1主成分(F1)为各气象因子与主成分系数的积相加的总和:

(1)

表3 2007-2021年气象资料主成分特征向量

2.3 预测模型结果分析

2.3.1 模型构建

以主成分分析法得到的影响蜡梅花初花期的6个主成分作为预测模型的影响因子, 以蜡梅花初花期年日序为目标, 构建BP网络神经预测模型, 在建立BP神经网络预测模型过程中, 基于Boosting 集成学习思想, 模型的拟合高达99%, 其中预测值与实际值的相关性为0.99, 通过了α=0.01的检验, 标准差为0.171, 均方根误差为0.17.

以6个主成分作为自变量, 蜡梅花初花期日序为因变量, 利用SPSS软件, 运用逐步回归算法建模, 得到预报模型:

Y=278.196+0.019F2

(2)

从模型中可看出, 主成分2是影响蜡梅花初花期的关键气象因子, 结合表3可知, 11月上旬的光照、 气温及雨水日数是影响初花期主要气象因子. 利用逐步回归预报模型对2007-2017年的初花期日序进行拟合, 模型预测值与实际值的相关性为0.77, 通过了α=0.01的检验, 标准差为2.212, 均方根误差为2.10.

绘制模型预测值与实际值对比发现(图3), BP模型预测值与实际值的趋势, 除2008年外, 其余年份的趋势基本重合, 其中误差最大年份是2008年, 误差为1 d; 基于逐步回归算法的预测值与实测值的误差较BP神经网络的模型较大, 平均误差有1.7 d, 最小误差出现在2011年, 与实测值基本一致; 最大误差出现在2010年(5 d), 其余年份与实测值基本相差1 d左右.

图3 模型预测值与实际值对比图

2.3.2 预测模型回代检验

将2018-2021的数据代入该模型进行进一步预测效果检验, 绘制检验结果对比图(图4), 从图中可知, 基于逐步回归算法的预测模型较基于BP神经网络算法的预测模型的误差较小. 基于BP神经网络算法的预测模型回代检验平均误差为3.3 d, 其中2019年预测值与实测值误差最大(提前了5 d), 误差值最小值出现2021年, 与实测值基本一致, 2018年和2020年均延后了4 d; 基于逐步回归算法的预测模型的平均误差为2.1 d, 误差值最大的年份同样出现在2019年, 延后了3 d, 误差值最小的年份出现在2021年, 与实测值基本一致. 造成误差的原因是由于构建预报模型时出于预报时效性考虑, 选择11月的气象要素作为主要因子, 若蜡梅受前期气象要素的影响, 导致生长期的变化, 花期也易相应得到改变; 同时若临近预测期的天气情况有较大的关系, 若常年初花期前出现持续晴好天气或者阴雨天气, 易提前或推迟花期. 因此在实际应用过程中, 需根据蜡梅生育期情况, 结合实际气候趋势, 进行订正.

图4 模型检验对比

2.4 评价

对比2种建模方法发现(表4), 在2007-2017年训练集中, 2种预测模型的效果都较好, 其中基于BP神经网络算法的预测模型效果最好, 其预测值的独立样本更接近实测值, 标准差低于基于逐步回归算法的预测, 线性相关性也较强.

表4 各模型预测模型的预测值与实测值统计分析

选取2018-2021年的有效数据作为检验样本, 由表4中可知, 2种预测模型的预测效果较训练时有所下降, 从检验样本来看, 基于逐步回归算法的预测模型独立样本值, 即最大值、 最小值都较基于BP神经网络算法的预测值更接近实测值; 从标准差和平均绝对误差来看, 同样基于逐步回归算法的预测模型表现要优于另外一种预测模型. 同时从线性相关性来看, 基于逐步回归算法的预测模型在建模和回代检验的过程中, 线性相关性都较稳定, 均在0.78左右. 总体来说, 从预报检验结果来看, 基于逐步回归算法的预测模型在检验过程中更优于基于BP神经网络算法的预测模型.

绘制2007-2017年模型预报初花期日序箱线图(图5a), 从箱线上下边缘可见, 基于BP神经网络算法的预测模型较基于逐步回归算法的模型更接近实测值; 从箱体来看基于逐步回归算法的模型的预测值较为集中, 箱体主要在343.3~345.6之间, 中位数344; 基于BP神经网络算法的模型的箱体则在343.2~346.1之间, 中位数343; 实测值的箱体则在343.25~346之间, 中位数344. 综上所述, 基于BP神经网络算法的模型较接近实测值.

绘制2018-2021年模型预报初花期日序箱线图(图5b), 从图中可知, 2018-2021年实测值整体较为集中, 上边缘349, 下边缘345, 上四分位348, 下四分位346, 中位数347; 基于BP神经网络算法的预测值的上边缘和上四分位基本接近, 分别是349.34和349.19, 下边缘342.54, 下四分位343.19, 中位数346.28; 基于逐步回归算法的模型的上边缘348, 下边缘341.85, 上四分位347.59, 下四分位343.52, 中位数345.6; 两个模型对比可见, 基于逐步回归算法的预报模型较基于BP神经网络算法的模型的最大值与实测值基本一致, 最小值基于BP神经网络算法更接近实测值, 但从整个箱体来看, 基于逐步回归算法的模型较BP神经网络算法更稳定.

图5 2007-2021年模型预报初花期日序箱线图

3 结论与讨论

为探索蜡梅花早熟品种的初花期的预测, 本研究基于PCA通过BP神经网络算法及逐步回归算法, 构建了2007-2021年初花期预测模型, 并对2种预测模型的预报效果进行对比检验, 筛选最优预测模型. 结果表明, 基于BP神经网络算法的预测模型在训练中的预报拟合率高达99%, 与实测值的相关性超过了0.9, 拟合度较高, 在回代检验中拟合率低于训练时; 基于逐步回归算法的预测模型在训练中与实测值误差大于基于BP神经网络算法, 平均误差为1.7 d, 在回代检验中效果明显优于基于BP神经网络算法, 且线性相关性也较稳定; 同时在回代模型中基于逐步回归算法的预测模型的独立样本值、 标准差和平均绝对误差也同样优于基于BP神经网络算法的预测模型. 总体来说, 基于逐步回归算法的预测模型更优于基于BP神经网络算法的预测模型.

花期预测模型的基础就是预报因子的筛选, 主成分分析法(PCA)是机器学习方法中对多指标综合分析方法, 这种分析方法能够从多水平、 多因素着手, 综合分析各指标的整体效应, 使筛选出的结果更具有科学性. 但是蜡梅花开花的生育期, 不仅仅受气象要素的影响, 还与田间管理、 肥料、 品种等多方面有着密切的关联, 因此通过机器学习建立预测模型, 还存在一定的偏差. 同时, 本研究蜡梅花的生育期观测资料还较少, 预测模型还有较大的不确定性, 因此在后续研究中, 需进行持续观测, 收集更多的蜡梅花花期样本资料, 不断地调试模型, 提高预测精度.

猜你喜欢
蜡梅实测值花期
我爱蜡梅
优质蜜源植物不同播种期对花期的影响
大豆:花期结荚期巧管理
变电站集合式电容器故障分析和处理
蜡梅飘香
《蜡梅报春》
基于Ansys屋盖不同单元类型下的模态分析
一种基于实测值理论计算的导航台电磁干扰分析方法
浅析比重瓶法实测土粒比重
容颜盛放,花期未至香谢凉