基于KNN-SVM算法的温室番茄生长预测模型

2024-06-08 06:12唐友张威
安徽农业科学 2024年10期
关键词:环境监测

唐友 张威

摘要 為解决现有温室番茄生长模型预测准确率低的问题,依据番茄生理学的基本特点,以温室内的环境参数为模型变量,建立了温室番茄生长发育的非线性模型。该模型描述了温室内温度、湿度、土壤温度、土壤湿度等环境因子对番茄发育速度的影响,模型具有良好的解释能力和较高的精度。首先,将利用各类传感器对吉林省吉林市温室番茄生长的各类环境数据进行收集;然后,对番茄温室的实际数据进行处理,再利用KNN算法对缺失和异常数据进行补充,并进行相关性分析;最后,在处理完成的番茄作物生长数据的基础上,考虑番茄作物对温室环境的实时反馈,结合相关性利用SVM优化算法对2020—2021年的吉林市经开区温室番茄数据进行模拟,得到SVM、LDA、LR的准确率分别为0.904、0.885、0.865。结果表明,SVM可以更好地预测番茄的生长变化。温室番茄作物—环境互作模型的建立,为温室环境控制打下了良好基础。

关键词 温室环境;环境监测;KNN-SVM;生长预测模型

中图分类号 S126  文献标识码 A  文章编号 0517-6611(2024)10-0219-06

doi:10.3969/j.issn.0517-6611.2024.10.048

A Growth Prediction Model for Greenhouse Tomatoes Based on KNN-SVM Algorithm

TANG You1,2, ZHANG Wei1

(1.College of Information and Control Engineering, Jilin University of Chemical Technology, Jilin, Jilin 132022;2.College of Electrical and Information Engineering, Jilin University of Agricultural Science and Technology, Jilin, Jilin 132101)

Abstract In order to solve the problem of low prediction accuracy of the existing greenhouse tomato growth model, a non-linear model of greenhouse tomato growth and development was established based on the basic characteristics of tomato physiology, and the environmental parameters in the greenhouse were used as model variables. This model described the influence of environmental factors, such as temperature, humidity, soil temperature and soil moisture in the greenhouse on the growth rate of tomato. The model had good explanatory ability and high precision. First of all, various sensors were used to collect various environmental data of tomato growth in the greenhouse of Jilin City, Jilin Province. Then, the actual data of the tomato greenhouse was preliminarily processed, and then the KNN algorithm was used to supplement missing and abnormal data, and correlation analysis was carried out. Finally, based on the processed tomato crop growth data, we considered the real-time feedback of tomato crops to the greenhouse environment. Combining with the correlation, we used the SVM optimization algorithm to analyze the greenhouse tomato data of Jilin Economic Development Zone from 2020 to 2021. After simulation, the accuracy rates of SVM, LDA and LR were 0.904, 0.885 and 0.865, respectively. The results showed that SVM could better predict the growth changes of tomato. The establishment of the greenhouse tomato crop-environment interaction model laid a good foundation for the greenhouse environment prediction control.

Key words Greenhouse environment;Environmental monitoring;KNN-SVM;Growth prediction model

基金项目 吉林省科技发展计划项目“基于数据挖掘技术的全基因组选择方法研发及云计算平台体系构建”(YDZJ202201ZYTS-692)。

作者简介 唐友(1979—),男,黑龙江龙江人,教授,博士,从事生物信息学及农业信息化研究。

收稿日期 2023-04-28

我国温室蔬菜大棚发展迅速,番茄是大棚蔬菜中典型作物之一[1]。番茄是重要的蔬菜经济作物,我国的番茄种植产量和规模都位居世界第一,在农民增收中正发挥越来越重要的作用。目前的大棚番茄种植管理数据可视化程度低,生长所需环境参数难以精确调控,严重影响大棚作物产业的进一步发展[2]。为实现番茄生长模型的预测,笔者通过吉林农业科技学院试验田采集大棚番茄苗期、花期、果期的环境信息,通过信息化设备结合人工方式采集大棚番茄全周期生长信息,研究大棚番茄各时期生长模型,为大棚番茄规范种植提供参考。

番茄的生长观察对于温室大棚中番茄优化管理和产量提升有至关重要的作用[3]。其中,果实横向直径与果实纵向直径是作物生长的关键因素。生长模型是以系统分析和数学模拟来定量描述生物的生长和发育以及形态建成过程,反映生物内外环境对生长发育的影响,是植物果实发育研究的重要内容和手段。

最初生长模型的研究是由荷兰“DE WIT学派”提出的光合作用生长模型。近年来,基于有效积温论建立了多种农作物生长模型。例如,研究人员建立了利用累积辐热积与温室黄瓜叶面积为尺度的生长模型[4]。王渊龙[5]利用有效积温法建立了基于Logistic方程构建的小白菜生长模型,可为温室中培养小白菜的生长管控及产量预测提供了理论和决策支持。程陈等[6-7]利用作物株高、葉面积指数及干物质积累作为生长指标,利用Logistic模型参数再进一步分析该地区降水量与积温的相关关系。寻找到作物生产中相关属性的线性分类方法会相对准确。从环境传感器设备中获得的数据与作物数据中找出相关的属性,建立相关的生长模型如SVM分析分类方法是作物生长预测中较好的方案[8]。SVM模型可以较好地估计番茄果实数据与环境数据的关系。该研究主要领域有2部分:①对传感器数据与作物生长数据进行处理,由于非线性数据和杂乱环境的随机性是不可避免的,对传感器数据进行分段数据检索,理论上降低误差[9]。②建立环境数据与作物生长数据的模型。模型依赖于数据特征的训练与测试,解决了过程的复杂性。通过机器学习,直接将环境数据作为输入,并学习构建生长特征表示。有足够的数据集作为支撑,机器学习可以实现比传统方法更高的精度[10]。该研究可用于确定哪些环境因素对作物生长最重要[11]。研究的主要重点是利用线性与非线性分类方法和机器学习来评估模型的性能,其中番茄果实生长的相关性是通过果实横向直径、环境因素来确定的[12-13]。利用SVM模型的特征,确定温室番茄生长与环境特征之间的关系。鉴于此,笔者利用带有传感器的机器学习对预期数据进行分析,旨在监测番茄的生长情况[14]。

1 智慧大棚

智慧大棚为温室番茄种植模型的构建提供了原始数据,也为验证模型有效性提供了试验平台。智慧大棚内部主要包含土壤温湿度传感器、空气温湿度传感器、二氧化碳传感器、光照传感器。智慧大棚具有网络通信并可以实时监测大棚内环境数据等功能,可以实现对大棚内部温度、湿度等环境参数的控制。在大棚内种植番茄,定时记录番茄的生长状况。

2 获取番茄生长数据及处理

2.1 番茄生长数据获取

该研究中,使用的是2020—2021年的温室数据。番茄数据是基于果实横向直径、纵向直径、含水量、鲜重等数据。图1显示了温室中环境数据采集。因变量是大棚内温湿度,自变量果实生长数据。该课题利用大棚内土壤温湿度与番茄果实之间的相关性来校准大棚番茄生长的质量,可得到一个更高效的生长模型。

2.2 数据预处理

首先从收集的实际环境数据如图2所示,使用KNN算法对异常值进行处理,排除错误数据,并对所有缺失值进行填充如图3所示,果实数据为实际测量数据,如图4所示。

去除这些异常数据异常值会提高预测的准确性。在所有大棚番茄生长过程中环境数据与生长数据,与平均值相比超过3个标准差的数据都将被省略。

3 番茄生长模型构建

3.1 番茄生长模型相关性分析

皮尔逊相关系数是用来解释2个随机变量之间的线性相关程度,其值介于-1到1。设有2个变量X、Y,则X、Y之间的皮尔逊相关系数的关系如下:

ρxy=cov(X,Y)σXσY=E[(X-μX)(Y-μY)]σXσY(1)

上述公式中cov(X,Y)是X与Y的协方差,σX是X的标准差,σY是Y的标准差。利用观测的数据来判断数据总体是否遵从正态分布的检测称作正态性检验,常见的正态性检验法为夏皮罗-威尔克(Shapiro-Wilk)检验法。该检验法有2个基本假设:H0为样本所来自的总体分布服从正态分布;H1为样本所来自的总体分布不服从正态分布。表1为用Shapiro-Wilk检验法对番茄生长数据检验的结果。由表1可知,全部变量的w值趋近于1,并且P值大于0.05,服从于H0,则样本来自的整体都服从于正态分布,即各变量满足使用皮尔逊相关系数的前置条件。

表2为番茄生长数据各变量间的相关系数。由表2可知,大棚番茄果实直径与各环境因子之间的相关系数分别为0.957、0.951、0.942、0.933、0.923,说明大棚番茄生长过程中与各个环境因子之间存在较强的相关关系。

输入参数包括果实横向直径、纵向直径、湿度、温度。生长环境与作物生长之间的关系相关系数如图5所示。

图5中nightT为夜间土壤温度,nightS为夜间土壤湿度,dayT为白天土壤温度,dayS为白天土壤湿度,furitW为果实重量,furitL为果实直径,furitDW为果实干重,Outcome为输出健康生长。由图5可知,番茄标签Outcome(健康成长)和白天土壤湿度dayS正相关系数比较大,证明在一定范围内,番茄生长与湿度呈正相关。同理,土壤湿度dayS和果实直径furitL间的相关性也比较强。

3.2 线性判别分析的意义

线性判别分析(LDA)是一种有监督的线性降维算法[15-16]。LDA是为了使降维后的数据点尽可能被区分。其原理为对于给定的训练集,设法将样本投影到一条直线上,使得同类的投影点尽可能接近,异类样本的投影点尽可能远离[17];在对新样本进行分类时,将其投影到这条直线上,再根据投影点的位置来确定新样本的类别。应用LDA技术对大棚番茄的样本数据进行分析,数据集包括250个数据集,分为5类,每类50个数据,每个数据包括5个属性。可通过果实横向直径、果实纵向直径、果实鲜重、果实干重、果实含水量5个属性预测番茄生长情况。分析的目标就是通过LDA算法将输入矩阵映射到低维空间中进行分类。

3.3 支持向量机的意义

支持向量机(support vector machine,SVM)是一种常用的机器学习算法,其基本思想是在高维空间中构造一个最优超平面,从而实现对数据的分类。更具体地,SVM算法还有线性SVM算法原理和非线性SVM算法原理2种实现方式[18-23]。其中,线性SVM算法原理是通过最大化数据点到超平面的间隔来求解最优超平面,而非线性SVM算法原理则是通过引入核函数的方式将数据映射到高维空间中,在高维空间中寻找最优超平面。

由图7可知,首先进行数据预处理,计算每个类别的样本均值向量和总体样本均值向量,再计算类内散度矩阵和类间散度矩阵,最后训练模型再对其进行评估。图7b介绍的是LR算法结构,首先进行数据预处理,如特征缩放、处理缺失等,再对模型进行训练,利用最大似然估计或者梯度下降来估计模型参数,最后对模型进行评估,使用测试集数据评估模型的性能。图7c介绍了SVM改进算法的结构图,通过多种超调优参数组合对 SVM 模型进行评估,采用交叉验证进行验证。该研究对 SVM 模型的2个超调参数进行了细致的调整,直到达到最佳的准确率。该研究在SVM模型中,首先实现了核函数缓存,对开销最大的核函数计算进行缓存,提升了20倍效率。其次,进行优化误差值求解,定义一个

g(x)=Ni=1ai×yi×K(x,xi)(2)

给g(x)求一个关于a的偏导,若ai,aj变化了步长delta,即所有样本对应的g(x)加上一个delta乘以针对ai,aj的偏导数即可[8]。每次成功更新一对ai,aj以后,更新所有样本对应的g(x)缓存,这样通过每次迭代更新g(x)避免了大量的重复计算。

4 结果与分析

该研究探讨了温室环境在作物成长中的作用,利用SVM算法对温室番茄生长模型进行预测。分析了机器学习方法,可以帮助温室大棚改善番茄生长中的温度或湿度的环境控制。在白天时,随着温度的升高,土壤中相对湿度降低;在夜晚时,温度降低,土壤中相对湿度升高。该研究建立了基于实时权重的可靠温室番茄生长模拟模型。SVM模型生成的值可以准确模拟的番茄植株的总重量。该模型参数少,拟合效果好,可预测性强,不仅可以为预测番茄的实时重量提供有效的手段,而且可以帮助研究者了解番茄的日生长速度,直接确定番茄的生长速度。在不破坏番茄植株正常生长的前提下,及时了解番茄果实的生长状况,预测果实重量,模拟干物质的积累,为合理管理提供依据。模型可以用来直观地描述番茄的生长,要预测其他不同作物的生长,应使用不同的参数。

机器学习模型提供了计算预测器对模型总体影响的方法。在排列每个预测值后,重复该过程,然后对所有模型的准确度差异进行平均,并通过标准误差进行归一化。搜索超调优参数用于为每个分类器选择一个近似最优的配置。在实证研究的基础上,针对SVM模型的调优参数产生了最佳的精度模型,如图8所示。具有大维超参数搜索空间的模型会使SVM模型得到训练[29-34]。

由表3可知,SVM分類器表现优于其他机器学习分类器。SVM的准确率最高,为0.90。LR和LDA的准确率分别为0.86和0.88。在该测试中,SVM是一种基于核函数的机器学习模型,可以作为大棚番茄生长预测的有效方法。在不同环境参数的相关性中,如空气温湿度、土壤温湿度、光照强度与误差模型相比,SVM模型训练准确率为0.90,在测试数据中,准确率为0.88,均表现出最佳的估计准确率。SVM、LR、LDA模型的测试番茄生长精度值也不相同。SVM模型(测试精准度0.88)优于LR模型(测试精准度0.78),略优于LDA模型(测试精准度0.80)。由于SVM模型在模拟大棚番茄生长与环境变量动态非线性交互作用方面的优势,更适合于规律的番茄生长估计。

5 结论

该研究旨在建立吉林省吉林市经开区温室大棚环境因素对番茄生长控制的超调参数预测机器学习模型。利用大棚番茄历史生长土壤温湿度、空气温湿度等环境数据作为模型输入,经过KNN算法处理后并传递到构建SVM网络中。将网络学习到的特征进行融合,并用于预测番茄生长的模型。采用的模型基于机器学习模型,通过应用番茄果实生长与环境因素之间的相关性来固定和减少特征选择障碍。采用的模型使用温室大棚数据集进行实验和统计分析。利用 LR、LDA、KNN、CART和SVM模型对辣椒生长进行预测,分析温室番茄生产过程中与环境因素的相关性。SVM模型相比另外4种模型具有计算速度快、预测效率高的优点。在使用该模型的试验中,该模型揭示了大多数环境因素在番茄果实生产中温湿度与其相关性。结果表明,该研究提出的预测模型在准确率方面优于其他预测模型,预测精度为0.90,KNN-SVM模型是获得准确预测关键,这表明可以通过设计模型体系结构来提高模型的性能。

参考文献

[1] 陈一鸣.农业供给侧结构性改革路径浅析[J].农村经济与科技,2020,31(24):263-264.

[2] 燕佳惠,张虎,许晓燕.番茄大棚物联网数据采集系统的设计[J].现代农业装备,2022,43(3):52-56.

[3] 楊敏慎,刘晓雨,郭辉.气候变暖和CO2浓度升高对农作物的影响[J].江苏农业学报,2021,37(1):246-258.

[4] 马成龙.日光温室冬春茬番茄高产栽培技术[J].种子科技,2022,40(22):77-79.

[5] 王渊龙.设施番茄生长模型构建及数字化种植系统研发[D].泰安:山东农业大学,2022.

[6] 程陈,冯利平,薛庆禹,等.日光温室黄瓜生长发育模拟模型[J].应用生态学报,2019,30(10):3491-3500.

[7] 陈永快,黄语燕,王涛,等.基于有效积温的NFT栽培小白菜生长模型[J].江苏农业科学,2020,48(17):229-233.

[8] 王全九,刘云鹤,苏李君.基于单参数Logistic的典型作物相对叶面积指数模型研究[J].农业机械学报,2020,51(7):210-219.

[9] 金梁,魏丹,殷大伟,等.温室微气候模拟与温室作物生长模型研究进展[J].山西农业大学学报(自然科学版),2023,43(1):55-64.

[10] 何秉青,韩立红,祝宁,等.不同灌溉策略对樱桃番茄生长和果实性状的影响[J].蔬菜,2022(7):22-25.

[11] 李家亮.设施番茄绿色高效栽培技术[J].种子科技,2022,40(18):67-69.

[12] 李伟明,胡卫丛,李肖明,等.基于主成分分析和聚类分析对不同品种樱桃番茄生长及品质的综合评价[J].长江蔬菜,2022(10):53-57.

[13] 徐立鸿,肖康俊,蔚瑞华.基于温室环境和作物生长的番茄基质栽培灌溉模型[J].农业工程学报,2020,36(10):189-196.

[14] CHEN T S,AOIKE T,YAMASAKI M,et al.Predicting rice heading date using an integrated approach combining a machine learning method and a crop growth model[J].Front Genet,2020,11:1-13.

[15] CHEN X Y,JIANG Z H,TAI Q L,et al.Construction of a photosynthetic rate prediction model for greenhouse strawberries with distributed regulation of light environment[J].Math Biosci Eng,2022,19(12):12774-12791.

[16] ZHANG Z,JIN Y F,CHEN B,et al.California almond yield prediction at the orchard level with a machine learning approach[J].Front Plant Sci,2019,10:1-18.

[17] COULIBALI Z,CAMBOURIS A N,PARENT S .Site-specific machine learning predictive fertilization models for potato crops in Eastern Canada[J].PLoS One,2020,15(8):1-32.

[18] GILL M,ANDERSON R,HU H,et al.Machine learning models outperform deep learning models,provide interpretation and facilitate feature selection for soybean trait prediction[J].BMC Plant Biol,2022,22(1):1-8.

[19] PAY M L,KIM D W,SOMERS D E,et al.Modelling of plant circadian clock for characterizing hypocotyl growth under different light quality conditions[J].In Silico Plants,2022,4(1):1-15.

[20] HAN G D,CHOI J M,CHOI I,et al.From crop specific to variety specific in crop modeling for the smart farm:A case study with blueberry[J].PLoS One,2022,17(8):1-6.

[21] YASIN M,AHMAD A,KHALIQ T,et al.Climate change impact uncertainty assessment and adaptations for sustainable maize production using multi-crop and climate models[J].Environ Sci Pollut Res Int,2022,29(13):18967-18988.

[22] SAMUOLIEN G,MILIAUSKIEN J,KAZLAUSKAS A,et al.Growth stage specific lighting spectra affect photosynthetic performance,growth and mineral element contents in tomato[J].Agronomy,2021,11(5):1-10.

[23] HELLMANN E,CAMPOS M L.Its a model and its looking good:A multi-organ metabolic model predicts developmental responses in tomato[J].Plant Physiol,2022,188(3):1417-1418.

[24] HUANG Y,JIANG H,WANG W X.Research on tea tree growth monitoring model using soil information[J].Plants(Basel),2022,11(3):1-19.

[25] JO W J,SHIN J H.Development of a transpiration model for precise tomato(Solanum lycopersicum L.)irrigation control under various environmental conditions in greenhouse[J].Plant Physiol Biochem,2021,162:388-394.

[26] KOZLOV K,SINGH A,BERGER J,et al.Non-linear regression models for time to flowering in wild chickpea combine genetic and climatic factors[J].BMC Plant Biol,2019,19(S2):1-14.

[27] LI Y B,CAO G Q,LIU D,et al.Determination of wheat heading stage using convolutional neural networks on multispectral UAV imaging data[J].Comput Intell Neurosci,2022,2022:1-12.

[28] MA C Y,LIU M X,DING F,et al.Wheat growth monitoring and yield estimation based on remote sensing data assimilation into the SAFY crop growth model[J].Sci Rep,2022,12:1-16.

[29] SUN S K,WANG X T,XU J T,et al.Study of tomato growth weight-distribution model based on real-time plant weight in a solar greenhouse[J].J Taibah Univ Sci,2021,15(1):1027-1037.

[30] SARI B G,LU'CIO A D C,SANTANA C S,et al.Describing tomato plant production using growth models[J].Sci Hortic,2019,246:146-154.

[31] VENKATESAN S,LIM J,CHO Y.A crop growth prediction model using energy data based on machine learning in smart farms[J].Comput Intell Neurosci,2022,2022:1-19.

[32] SHAHHOSSEINI M,HU G P,HUBER I,et al.Coupling machine learning and crop modeling improves crop yield prediction in the US Corn Belt[J].Sci Rep,2021,11:1-15.

[33] STUERZ S,ASCH F.Responses of rice growth to day and night temperature and relative air humidity-leaf elongation and assimilation[J].Plants(Basel),2021,10(1):1-14.

[34] OHASHI Y,ISHIGAMI Y,GOTO E.Monitoring the growth and yield of fruit vegetables in a greenhouse using a three-dimensional scanner[J].Sensors(Basel),2020,20(18):1-18.

猜你喜欢
环境监测
环境监测系统的数据分析与处理
大气污染问题的环境监测
对环境监测数据造假必须零容忍
便携式GC-MS在环境监测中的应用
环境监测过程控制
谈如何做好环境监测业务管理