决策树算法在油茶种子含油率模拟及关键气象因子分析上的应用

2019-06-12 07:27廖玉芳蒋元华彭嘉栋
江西农业学报 2019年5期
关键词:含油率高峰期时间段

黄 超,廖玉芳,蒋元华,彭嘉栋

(湖南省气候中心,湖南 长沙 410008)

0 引言

油茶是我国特有的木本食用油料树种,具有重要的经济效益[1]。湖南是全国第一油茶大省,其经济效益对湖南农业经济发展具有重要现实意义。油茶同所有露天生产的农作物相似,气象因素与其生长密切相关[2-4]。开展基于气象因子与油茶含油率的相关研究对进一步提高油茶品质有很大的实用价值。

随着油茶种植技术发展,油茶种植的关注点已经开始从高产过渡到高品质。油茶品质主要由含油率、油茶籽脂肪酸组成以及加工技术等方面决定[5-8]。目前关于油茶含油率的研究多集中在品种选优以及培育技术方面,气象因子对油茶含油率影响的研究相对较少,而油茶生长期的气象条件与其含油率密切相关。余优森等[9]认为油茶含油率与果实膨大期和油脂转化积累期的气温、降水和日照时数相关。黎章矩等[10]研究表明,8~9月积温与茶籽出油率呈显著负相关。此外,油茶籽存储时的温湿条件以及采后处理也对其脂肪含量有一定的影响[11-12]。尽管前人的研究取得了一定的进展,但气象因子对油茶含油率的影响还不十分明确,需要进一步探索。

一般而言,在挑选重要影响因子时相关分析和逐步回归分析是常用统计方法,但在使用过程中会存在一定缺点,例如逐步回归分析在挑选因子过程中很难选取到最优的因子组合[13]。随着数据挖掘技术的发展,新技术在一定程度上能够避免这些缺陷[14];决策树算法便是其中一种,该方法属于非线性统计方法,它能从大量数据中识别有用的规律,能够自动挑选关键因子,客观反映自变量与因变量间的相关关系;相比于其他数据挖掘算法,决策树最大的优势在于其属于白箱模型,计算过程可见,结果易解释[15-17]。

本研究以湖南省为例,采用决策树算法中的分类与回归树算法(CART)对影响油茶种子含油率的关键气象因子进行分析,研究气象因子与油茶品质间的相关关系,为高品质油茶培育作参考。

1 资料与方法

1.1 资料来源

气象数据来自湖南省97个地面气象观测站2009~2017年的观测资料。

油茶种子含油率资料来自湖南省林业研究科学院2009~2017年湖南省23个县市的41块油茶样地,共计121个样本数据。油茶品种多为普通油茶、湘林1号、湘林110号、湘林210号等。样本数据主要包含鲜果出鲜籽率、鲜籽个数、鲜果出干籽率、干籽含油率等要素。油茶种子含油率计算公式为:种子含油率(%)=鲜果出干籽率×干籽含油率×100%。

1.2 气象因子集和时间段划分

气象因子集主要包含气温、降水、日照等类别共42个气象因子(表1)。

表1 气象因子集

根据油茶生长特点以及之前的研究成果,将可能影响油茶种子含油率的时间段划分为果实第一次膨大期、果实膨大高峰期、油脂转化和积累高峰期、果实成熟期、采后处理期、当年6个。在建模时,首先将所有数据合并为一个数据集,然后对关键期不做区分,将果实第一次膨大期、果实膨大高峰期、油脂转化和积累高峰期、果实成熟期及其关键期分别合并为一个数据集,最后将采后处理期、当年单独作为两个数据集,一共构成7个数据集(表2)。

2 结果与分析

2.1 湖南省油茶样地种子含油率基本时空特征

以县级区域为单位,基于样地数据求各地区含油率的平均值,得到图1。从图1中可以看出,湘东地区的油茶含油率普遍高于湘西地带,且高含油率的油茶主要分布在湘东北和湘东南区域。

图2是2009~2017年油茶样地种子含油率的箱式图以及平均值折线图。从图2中可以看出,湖南油茶种子含油率平均值在6%左右,含油率较高的年份为2014、2015年,这两年湖南省气温和降水均接近历年平均值,影响油茶的气象灾害较少,适宜油茶生长;而2011年和2013年湖南油茶含油率整体偏低,可能是由当年油茶油脂转化和积累高峰期(7至9月份)大范围严重干旱造成的。

2.2 油茶种子含油率模型及关键气象因子筛选

将气象因子作为自变量,种子含油率作为因变量,采用CART算法进行建模。为防止模型过拟合,以总样本量的5%作为决策树叶节点分裂终止条件,同时采用后剪枝策略并限定决策树最大深度为5,当决策树停止分裂时,将所有叶节点作为入选的气象因子,最终得到决策树(图3)。

表2 湖南油茶物候期时间段及名称

“+”表示该地区连续数据的平均值,“圈”表示该地区仅1年的数据。

图2 湖南省2009~2017年油茶样地种子含油率箱式图和平均值折线

决策树模型形式直观,符合人们逻辑判断的思维方式。从图3可以发现,根节点为油脂转化和积累高峰期20 ℃以上活动积温,也就是说,该属性对于油茶种子含油率的影响最为关键。在模型中,每从根节点(油脂转化和积累高峰期20 ℃以上活动积温) 到一个叶节点都可以抽象为一条If…then 形式的决策规则,众多规则形成决策规则集(表3)。

决策树模型的整体平均相对误差为18.2%,平均绝对偏差为0.905%,逐步回归模型的平均相对误差为22.1%,平均绝对偏差为1.127%,决策树的模拟性能更好。图4是模型的含油率拟合曲线,由于模型以分类样本平均值作为结果输出,因此模型对种子含油率趋势模拟效果较好,但对偏离平均值距离较大的样本模拟效果一般。

图3 基于所有气象指标建模的油茶种子含油率拟合模型

从气象因子与种子含油率的相关分析可以看出(表4),决策树模型挑选的因子均与种子含油率有较高相关性。油脂转化和积累高峰期20 ℃以上活动积温在决策树模型中是最重要因子,其与含油率呈显著正相关,这是因为活动积温与脂肪酶活性相关,能促进油脂合成。果实膨大高峰期果实生长需要大量的水分,在决策树模型中1 mm以上降水日数和降水量是重要的决策因子,与含油率具有显著正相关。油茶整个生长期需要雨量充沛均匀,气温适宜,在模型中对应因子为当年平均最低气温和当年25 mm以上降水日数。

表3 CART算法对影响湖南油菜种子含油率的气象因子诊断规则集

图4 基于所有气象指标的模型对油菜种子含油率的拟合曲线

表4 入选模型的气象因子与种子含油率间相关系数

注:*表示通过置信度0.05水平的显著性检验。下同。

将果实第一次膨大期、果实膨大高峰期、油脂转化和积累高峰期、果实成熟期的关键时间段和其对应时间段的数据分别合并成一个数据集进行建模,得到各个物候期时间段的拟合模型。从各个时间段模型的平均相对误差和平均绝对误差(图5)来看,各时间段的模型对种子含油率模拟的平均绝对偏差在0.905%~1.241%,均小于种子含油率数据的标准差(1.8);平均相对误差在22.9%~25.4%,比逐步回归模型的平均绝对偏差(1.127%~1.337%)和平均相对误差(25.3%~35.1%)效果更好。其中基于当年数据建立的模型误差最小,其次为果实膨大高峰期、果实第一次膨大期、油脂转化和累积高峰期、果实成熟期、采后处理期。由此也可以看出,油茶结果当年时段的气象因子对油茶种子含油率均有影响,从油茶物候期来看,果实膨大高峰期的气象条件对油茶种子含油率的拟合效果最好。

图5 各时间段模型的平均相对误差和平均绝对偏差

决策树挑选因子所在位置决定了该因子的重要程度,从各个时间段模型挑选的气象因子(表5)可以看出,果实第一次膨大期最重要的气象因子是15 ℃以上活动积温,果实膨大高峰期、油脂转化和积累高峰期、果实成熟期、采后处理期最重要的气象因子分别为极端最高气温、20 ℃以上活动积温、最长连续无降水日数和降水日数,而油茶结果年全年时间段最重要的气象因子是极端最高气温。

表5 各时间段模型挑选的气象因子

3 结论

本研究使用CART决策树方法对油茶种子含油率与各个时间段的气象因子进行诊断分析,得出以下结果:

(1)基于所有时间段的气象因子建立的决策树模型拟合平均相对误差为18.2%,模型将油脂转化和积累高峰期20 ℃以上活动积温作为最重要的决策因子。

(2)对不同时间段气象因子分别建模,平均相对误差在22.9%~25.4%。基于当年数据建立的模型误差最小,其次为果实膨大高峰期、果实第一次膨大期、油脂转化和累积高峰期、果实成熟期、采后处理期。因此,油茶结果当年的气象因子对油茶种子含油率均有影响,果实膨大高峰期的气象条件能更好地反映油茶的种子含油率。

(3)对各个时间段分别建模得出,果实第一次膨大期最重要的气象因子是15 ℃以上活动积温,果实膨大高峰期、油脂转化和积累高峰期、果实成熟期、采后处理期最重要的气象因子分别为极端最高气温、20 ℃以上活动积温、最长连续无降水日数和降水日数,而油茶结果年全年时间段最重要的气象因子是极端最高气温。

猜你喜欢
含油率高峰期时间段
蛋鸡产蛋高峰期短的原因
甘蓝型油菜的产油量分析
页岩气开发水基钻屑中含油率的测定方法研究
夏天晒太阳防病要注意时间段
梨树进入生长高峰期 管理技术看这里
氧化处理含油污泥的氧化剂选择研究
发朋友圈没人看是一种怎样的体验
“三天后”是啥时候?
防患于未“燃”,温暖过冬So Easy
播期与氮肥对高芥低硫油菜产量与品质的影响