基于多元非线性回归和BP神经网络的长春花形态指标生长模型的比较

2020-01-02 06:49盈,赵
上海农业学报 2019年6期
关键词:冠幅株高花苞

刘 盈,赵 方

(北京林业大学信息学院,北京100083)

园林苗圃是繁育和培育苗木的基地,苗木作为城市绿地系统的支撑,对于调节气候、保持水土起到了不可替代的作用,也有利于人们的身心健康[1]。长春花绿化和观赏效果极佳,医学上具有抗肿瘤、降血压、降血糖、利尿等作用,常作为城市绿化和家庭观赏的花卉[2-3],构建长春花生长模型,对长春花的科学培育和精细化管理具有重要意义。

国内近年来主要利用Logistic曲线方程对林木苗期和果实生长量动态进行模拟[4]。于志民等[5]通过对圆齿野鸦椿一年生苗的生长状况进行持续观测,利用Logistic模型对幼苗苗高、地径年生长规律进行拟合与分析。朱鑫[6]利用Logistic模型对小白菜株高、叶片数、叶长、叶宽等进行了模拟。在利用神经网络预测植物长势的领域,张瑜等[7]提出根据环境因子预测线椒株高的方法,相关系数可达0.996。王轶夫等[8]探索BP神经网络模型在立木生物量估测上的适用性,发现该模型能够一次性地引入多个解释变量,同时估测多个量,从而简化了生物量建模和估测工作,对实际生产具有一定的意义。

本研究引入自制的小型植物生长箱,配置传感器等物联网设备,对长春花的生长环境进行实时的监测、记录,旨在颠覆传统试验中大棚栽培的方式,为实现智慧苗圃的信息化管理提供技术支撑。此外,本研究在传统Logistic模型的基础上加入环境因子的影响,创造性地引入BP神经网络,旨在明确长春花的外观品质指标(株高、单株叶片数、冠幅、单株花苞数)与发育时间和环境因子(温度、土壤含水量、光照)的关系,合理构建生长模型,预测长春花的长势,以期为智慧苗圃中其他植物的培育奠定坚实的基础。

1 材料与方法

1.1 试验方法

试验在北京林业大学苗圃(北纬116.344°,东经40.014°)的温室内进行,同期进行两组相同的试验,所得数据分别作为训练集和测试集。供试品种为盆栽白长春花,土壤栽培。苗圃内摆放两个自制的植物生长箱,生长箱整体由透明无色玻璃制成,长3 m,宽2 m,高1.5 m,为长春花的生长发育提供一个相对密闭的空间;箱内配置传感器等物联网设备,对箱内环境因子进行实时监控并记录。箱内的环境受苗圃温室内光照、温度及人工浇水的影响,目前尚不可控,在后续的研究中,将引入植物灯、小风扇、加热棒、喷水装置等设备实现箱内环境的自动控制。

试验1于2017年9月底在苗圃开始播种,2017年11月1日,选取长势一致、发育健康的60盆幼苗,移至植物生长箱内培育。行距为15 cm,株距为10 cm,适时浇水、打顶。每5 d测量一次,每次测量箱内60株长春花的株高、单株叶片数两个指标;在2017年12月中旬,植株开始变丰满时,增加冠幅指标;在2017年12月底,花苞开始冒出时,增加单株花苞数指标,直至2018年3月底,试验结束。试验2做相同的处理。

为了增强模型拟合效果,剔除植物生长箱内长势过差的10株,以剩余50株长春花五个月以来的测量数据来拟合生长模型。试验1所得数据作为训练集,利用多元非线性回归分析和BP神经网络分别拟合生长模型;试验2所得数据作为测试集,用于检测模型的预测效果。分析比较两种模型的性能。

1.2 试验数据采集

1.2.1 环境因子的采集

植物生长箱内的传感器将采集到的数据发送到汇聚节点,汇聚节点通过串口线传至电脑数据库完成存储,设定为每小时采集并存储一次。

光照强度:通过测量光敏电阻阻值来获取,由公式(1)计算得出光照强度,设测量到的光敏电阻阻值为HM,则:

温度:通过单片机上DHT11温湿度传感器芯片得到温度值。

土壤含水量:采用LM393比较器芯片,通过获得该芯片的模拟量,转换成数字量后获得数值。设获取的土壤含水量值是Humidity,则:

1.2.2 长春花外观品质指标的采集

株高、冠幅的测量值精确到0.01 cm,单株叶片数、单株花苞数采用人工计数的方法。具体测量方法为:

株高:用高度游标卡尺测量植株地上部分的根部到主茎顶部的距离。

冠幅:用游标卡尺测量植株最大幅度之间的直径。

单株叶片数:对叶面积大于1 cm2的叶片进行人工计数。

单株花苞数:对花苞进行人工计数。

1.3 试验数据处理

环境因子数据做如下处理:

平均温度:从发育开始的时刻到该条记录产生的时刻,计算这段时间内的温度平均值。

平均土壤含水量、平均光照强度:处理方式同平均温度。

长春花数据集展示如下:

数据记录50株样本从发育35 d至发育180 d的环境因子和外观指标的情况(表1)。

表1 长春花数据集Table 1 Data set of Catharanthus roseus

2 长春花生长模型的建立

2.1 多元非线性回归模型

多元非线性回归可以研究一个随机变量或因变量Y与一个或多个自变量(X1—Xn)之间的非线性关系,并利用统计分析方法和函数对这种关系进行分析解读和形式化描述。最常用的参数估计方法是非线性的最小二乘法,该方法使用线性函数来逼近非线性函数,并且通过不断迭代这个过程来得到参数的最优解[9]。

多元非线性回归分析模型的形式化描述为:

其中,β是常数项,表示所有自变量为0时Y的总体平均值的估计值,β1—βn表示回归系数。

其残差平方和函数为:

用f(Xi,β)的一阶Taylor展开近似代替f(Xi,β),得到:

由于对于给定的初值β1(β1)是确定可计算的,于是S(β)所表达的残差平方正是线性回归Yi的残差平方和。由最小二乘估计得到递推关系:

不断迭代,可得序列β1,β2,β3,…,βn,…。

2.1.1 株高生长模型的拟合

图1散点图呈现的是每个时间点对应的50株长春花的不同指标的值,根据散点图和前期的调研,发现株高生长规律符合“慢-快-慢”的“S”型生长曲线[10-11],符合Logistic模型的形式。本试验根据株高与环境因子的相关分析,适当地加入了环境因子的影响。将株高作为回归分析的目标变量,记为H。将发育时间、平均温度、平均土壤含水量、平均光照强度作为自变量,分别记为Ti、Te、Hu、Li,所采用的曲线方程为:

式(7)中,k、a、b、e、f、g为待定系数。

2.1.2 单株叶片数生长模型的拟合

随时间的增长呈指数型增加。经过相关性分析发现,叶片数与发育时间的相关性最强,相关系数为0.85,与其他环境因子的相关性较弱,相关系数均小于0.5,所以在模型中剔除环境因子,所采用的曲线方程为:

式(8)中,a、b、c、d为待定系数。

2.1.3 冠幅生长模型的拟合

冠幅的增长表现为开始缓慢,随后迅速加快,近似线性增长,到达一定的限度后,生长速度放缓。根据相关分析,在模型优化过程中加入环境因子的影响,所采用的logistic曲线形式为:

式(9)中,k、a、b、c、d、e为待定参数。

2.1.4 单株花苞数生长模型的拟合

随时间的呈指数型增长,根据相关分析,花苞数与发育时间的相关性最强,相关系数为0.87,与其他环境因子的相关系数均小于0.5,所以在模型中剔除环境因子。采用的模型形式为:

式(10)中,a、b、c、d为待定参数。

图1 长春花株高、单株叶片数、冠幅、单株花苞数与发育时间的关系Fig.1 Relationship between p lant height,leaf number,crown w idth,bud number and the grow th time of Catharanthus roseus

2.2 BP神经网络模型

BP神经网络是在人工神经网络结构的基础上,通过按误差反向传播从而不断更新神经网络中各层的权值的多层前馈网络[12]。其核心算法思想是:利用梯度下降法,不断更新网络中的各个权值,直至将输出值与期望值之间的差距减至最小。BP神经网络算法分为前向传播和反向传播两个阶段[13]。

2.2.1 前向传播

将前一层的神经元序号记为i,当前层神经元的序号记为j,每一层神经元的输出如式(11):其中,ylj为第l层的第j个神经元的输出值,f为激活函数,wij表示前一层(第l-1层)的第i个神经元节点与当前层(第l层)的第j个神经元节点之间连接线的权值。bj表示偏置。

2.2.2 反向传播

输出值与期望值之间距离为:

反向传播过程中权值的更新过程和偏置的更新过程如下:

其中,η表示学习率,代表权值更新的速率。

此外,训练集数据中的噪声可能会造成大量增加模型训练次数、无法收敛等问题[14]。采用min-max标准化方法对数据进行归一化处理,将输入输出数据映射到[0,1]区间内:

其实,xmax为输入数据的最大值,xmin为输入数据的最小值。

预处理之后,建立BP神经网络模型,确定输入层为4个神经元,即发育时间、平均温度、平均土壤含水量、平均光照强度,隐含层为8层,输出层节点个数为1,即外观品质指标其中之一[15];激励函数选用Sigmoid函数;最后,将训练集数据输入BP神经网络进行仿真训练。学习速率选为lr=0.035,网络阈值和b和初始权值w利用random()选为随机数。学习最大次数定为20 000。

本试验利用环境因子作为神经网络的输入样本,通过训练来模拟长春花生长,同时,训练得到的神经网络也可用于长春花生长的预测。

3 长春花生长模型拟合与分析

通过决定系数(R2)、回归估计标准误差(RMSE)和相对误差(RE)对长春花苗期的株高生长模型进行拟合效果检验[16]。

式(16)、(17)、(18)、(19)中,^yi为预测的长春花的外观品质指标,y-为该每个指标的平均值,yi为每个指标的实测值,n为样本容量。

决定系数R2越大,表明观察点在回归直线附近越密集,自变量对因变量的解释程度就越高。回归估计标准误差RMSE越小,表明预测值与实测值之间的偏差越小,模型的拟合效果越好。相对误差RE表示绝对误差在真值中所占的百分比,RE越小,模型可信度越高[17]。

3.1 基于多元非线性回归的长春花生长模型分析

用试验2所得数据集(即测试集)对模型进行检验。模型的拟合结果及检验结果如表2所示。其中,株高、冠幅生长模型标准误差RMSE分别为1.040 cm、0.456 cm,相对误差分别为6.552%、3.813%,预测精度可以达到90%以上;单株叶片数、单株花苞数模型标准误差RMSE分别为3.477、1.860,相对误差分别为19.916%、24.084%,预测精度达75%以上,模型比较真实地反映了发育时间和环境因子对长春花植株外观品质的影响,说明利用多元非线性回归的方法来拟合株高是可行的。

表2 长春花外观品质的拟合结果及误差分析Table 2 The fitting result and error analysis of Catharanthus roseus’s appearance quality

比较试验2的实测值和预测值,画出散点图。图2的结果表明,株高、单株叶片数、冠幅、单株花苞数的(实测值,预测值)数据点集中分布在1∶1线附近,说明实测值和预测值较接近,模型达到了较好的预测结果。

图2 长春花株高、单株叶片数、冠幅、单株花苞数预测值与实测值的比较Fig.2 Comparison between the predicted and observed plant height,leaf number,crown width,bud number of Catharanthus roseus

3.2 基于BP神经网络的长春花生长模型分析

使用Python在Win10下PyCharm平台上分别针对株高、单株叶片数、冠幅、单株花苞数,对训练集进行BP神经网络训练。网络训练目标为总均方差SSE小于0.025,株高历史误差曲线示例如图3所示。

对每一株长春花的株高、单株叶片数、冠幅、单株花苞数建立BP神经网络,同时,程序输出误差评价指标R2、MS、RMSE、RE(表3)。

图3 株高BP神经网络历史误差曲线示例Fig.3 Exam p le diagram of the history error curve of the BP neural network of p lant height

表3 BP神经网络方法的误差分析表Table3 The error analysis table of BP neural network method

对于外观品质的BP神经网络仿真R2均大于0.9,表明BP神经网络对株高和冠幅的拟合优度很大;MSE为0.0011—1.7868,RMSE为0.0331—1.4857,RE为0.8544%—18.4848%,表明BP神经网络的拟合偏差程度很小,模型可靠度很高。综上所述,利用BP神经网络对长春花生长模型的仿真取得了良好和可靠的成果。

4 两种方法的对比分析

长春花的外观品质受到与自身遗传基因和环境因子的综合影响[18-19]。此外,试验采用的环境因子也是智慧苗圃中容易调控的量,因此,以本试验具有重大的实际意义[20]。

本试验分别采用多元非线性回归和BP神经网络的方法,建立了长春花外观品质生长模型。模型通过输入发育时间和环境因子,可以较好地预测长春花外观品质的各项指标,有利于对长春花的生长实现有效的控制。模型效果对比:(1)多元非线性回归方法的决定系数R2为0.824—0.875,已经达到显著相关;BP神经网络的R2为0.9321—0.9987,自变量和因变量的相关性更显著,拟合优度更高;(2)多元非线性回归的RMSE为0.456—12.090,BP神经网络的RMSE为0.0331—1.4857,后者RMSE更小,表明预测值与实测值的偏差更小;(3)多元非线性回归的RE为3.813%—24.084%,BP神经网络的RE为0.8544%—18.4848%,后者RE更小,表明绝对误差在真值中所占百分比更小,模型可信度更高。综上所述,两种方法都有较好的拟合效果和预测能力,但BP神经网络的拟合效果更为显著,相对误差更小,拟合精度更高,能够更好展示长春花生长周期内的生长规律。

本研究所得长春花生长模型是在较适宜的环境中建立的,更适应于植物生长箱内的实际培育。参数较少而且容易获取、预测精度较高,能为预测长春花的长势提供可靠依据,同时,在植物生长箱中,可以根据生长模型进行人工设置,利用物联网设备自动调控环境因子的值,这也为长春花形态指标的提升提供了决策支持,为日后智慧苗圃及智慧大棚植物的生长培育奠定了坚实的基础。

猜你喜欢
冠幅株高花苞
不同施肥种类对屏边县秃杉种子园林木生长的影响
豫南地区青钱柳生长节律研究
峨眉含笑
施肥对三江平原丘陵区长白落叶松人工林中龄林单木树冠圆满度影响
介绍四个优良小麦品种
花苞
不同栽培密度对柴胡生长的影响
玉米骨干亲本及其衍生系中基因的序列变异及与株高等性状的关联分析
玉米骨干亲本及其衍生系中基因的序列变异及与株高等性状的关联分析
叹春