基于偏最小二乘回归的日光温室墙体放热量预测

2022-06-24 14:30张玉琛张义程瑞锋王超
江苏农业科学 2022年11期
关键词:相关分析回归分析日光温室

张玉琛 张义 程瑞锋 王超

摘要:基于物联网以及传感测试技术,在获取日光温室内外光温环境数据的基础上,采用皮尔逊系数法确定各环境因子间的关联性,进而建立基于室外光温环境因子变量的墙体放热回归模型。结果表明,采用聚类填充法处理缺失数据,可以保持较优的原数据样本特征;与主成分回归方法相比,采用偏最小二乘回归方法拟合墙体放热量模型,预测值与真实值的均方根误差RMSE为0.09 MJ/m,平均绝对百分误差MAPE为9.48%,确定系数R为0.953,精度较好。该回归模型综合了室外光温环境特征信息规律,通过气象预报,可以用于模拟预测墙体放热量,为温室额外加热量的供给提供参考。

关键词:日光温室;墙体蓄放热;环境数据;相关分析;回归分析

中图分类号:S625.1 文献标志码:A

文章编号:1002-1302(2022)11-0208-06

收稿日期:2022-02-25

基金项目:国家自然科学基金(编号:31901421);中国农业科学院基本科研业务费(编号:Y2021PT04)。

作者简介:张玉琛(1997—),男,河北保定人,硕士研究生,主要从事设施农业信息技术研究。E-mail:82101195261@caas.cn。

通信作者:张 义,博士,副研究员,主要从事设施园艺环境工程研究。E-mail:zhangyi03@caas.cn。

日光温室土质墙体造价成本低、取材方便,具有良好的保温蓄热性能。在室外,环境要素主要是气温和太阳辐射,其内环境变化是以天为单位的周期性能量传递过程,室内外系统热量发生转移趋于能量平衡。温度是影响植物生长的重要环境要素之一,日光温室墙体自身蓄放热功能是维持夜间温度的重要因素,科学合理地预测与评价墙体蓄放热量是温室夜间温控策略制定的重要参考依据。

日光温室后墙的热量主要来自太阳辐射和室内空气与墙体间的对流换热[5-6。日光温室墙体储热量大且放热效率较高,白天墙体蓄积的热量约有40%用于改善夜间温室内环境。李小芳等利用热反应系数法,根据日光温室热量平衡建立了墙体传热量模型;史宇亮等研究了日光温室土墙体分层温度变化规律及墙体蓄放热量特征;彭东玲等采用有效差分法建立墙体一维非稳态导热模型,分析了墙体热量传递动态规律。众多学者在传热平衡和温室环境机理模型方面做了大量试验和理论分析,表明墙体蓄放热量与墙体材料特性、室外环境条件等高度相关,但以室外气象指标作为输入参数,进行墙体蓄放热量预测的研究尚未见报道。在温室结构、墙体材料已确定的情况下,墙体蓄放热量变化主要受温室外环境的影响。本研究在分析温室内外光温环境相关特性的基础上,通过比较主成分回归与偏最小二乘回归2种方法的回归准确度,最终建立温室墙体放热量回归模型,并用于日光温室墙体蓄放热量预测。

1 材料与方法

1.1 试验温室

选取山东省寿光地区土后墙温室作为研究对象。试验日光温室(图1)位于山东省寿光市洛城四里村(36°86′N,118°87′E),温室东西走向,长度 84 m,跨度13 m,脊高6.5 m。其温室结构类型为下挖式机打土墙,后墙底宽6.5 m,顶宽2 m,温室内种植黄瓜,土壤栽培。

1.2 环境数据获取与预处理

采用邯郸市若腾电子科技有限公司计算机自动采集数据系统获取环境参数,分别为室内外气温(±0.3℃)、室内太阳总辐射(±40 W/m)、墙体热通量(±5 W/m)及室外太阳总辐射(±40 W/m)。室内外传感器距地面垂直高度为 2 m,数据采集间隔为30 min/次。数据采集时间跨度为2019年12月1日至2020年2月29日、2020年12月1日至2021年2月28日。针对数据采集过程中出现的跳变、漏采等现象,选用均值法、多重插补法、聚类填充法3种方法处理缺失值。其中设置聚类方法欧式距离步数k为10,通过寻找与缺失样本相似的10个近似数据加权平均来填补缺失值。采用均方根誤差评估各方法填充效果,在R语言4.0.3版本中使用函数DMwR包、VIM包、mice包,执行3种插补方法。

1.3 温室环境变量相关及回归分析

简单相关分析是计算2个变量之间的相关系数,衡量2个变量之间的强弱关系。本研究中的环境数据是时间连续变量,因此采用皮尔逊相关系数法进行处理。由于室外光温环境参数和墙体蓄放热量都是多维变量,变量之间具有显著相关性,为避免各变量内部要素交互影响,本研究进一步采用主成分方法进行典型相关分析,得到2组变量之间整体的相关系数。主成分方法可将各变量之间互相关联的复杂关系进行简化,把高维空间问题映射到低维空间识辨拟合特征。典型相关分析借助主成分思想,把室外光温环境参数与墙体蓄放热量之间的关系转化为2个综合变量间的关系,利用这2个综合变量之间的相关关系来反映2组指标之间的整体相关性。针对变量间存在共线性情况,本研究采用主成分回归和偏最小二乘回归方法。

1.4 数据标准化和回归模型评价指标

温度和太阳辐射环境要素具有不同的量纲,为去除单位影响,使各变量处于同一数量级,采用线性归一化方法对原数据进行变换,映射到[0,1]区间。

x=x-xx-x。(1)

式中:x为环境参数采集值;x为环境参数采集最小值;x为环境参数采集最大值。

采用均方根误差RMSE、平均绝对百分误差MAPE、确定系数R对回归模型进行效果评价。

RMSE=1n∑ni=1(y^-y);(2)

MAPE=1n∑ni=1y^-yy;(3)

R=SSRSST=∑ni=1(y^-y)∑ni=1(y-y)。(4)

式中:y^为模拟值;y为实测值;y为实测平均值;n为样本数。

2 结果与分析

2.1 缺失数据处理结果

数据采集平台根据记录时间间隔以及“1.2”节中所列参数,记录总样本数应为8 592个,实际采集存储数据为8 160个,计算可得丢失数据约占总数据的5%。根据此缺失率,随机筛选出5 d无异常完整数据集作为基础,设置随机种子,人为假设含有5%缺失率的缺失数据集。采用“1.2”节中所列的3种缺失值处理方法进行填补,将完整数据集与填补后的数据集进行对比,评判各方法的填充效果。计算结果表明,均值法RMSE为3.58℃,多重插补法RMSE为2.64℃,聚类填充法RMSE为1.82℃。相比较其他2种方法,聚类填充法更能保持数据样本特征,填补效果达到了较高准确度。因此,采用聚类填充法对平台采集数据进行缺失值处理,共处理数据432个。

2.2 室内外环境变量相关分析

选取室外日最高气温、最低气温、平均气温和太阳总辐射日积累量,温室内日最高气温、最低气温、平均气温和太阳总辐射日积累量以及墙体集放热日总量,采用皮尔逊公式计算各环境因子之间的相关系数。从表1可以看出,温室环境是个综合系统,各环境变量之间关系密切且存在不同程度相关性。室内平均气温与多数变量存在显著相关性,可以作为一个综合指标来评价温室热环境性能。室外太阳总辐射日积累量和墙体集热日总量、放热日总量的相关系数分别为0.65、0.38,存在显著的相关关系。室外日最高气温和室外平均气温的相关系数为0.93,和室外最低气温的相关系数为0.61;墙体集热日总量和放热日总量间相关系数为0.43。结果表明,室外光温环境变量和墙体集放热量各指标两两之间大部分存在显著的相关关系,室外光温环境状况对墙体蓄放热量有影响。但由于4项室外光温环境变量和2项墙体集放热量之间存在显著的相关关系,说明各指标内部间存在相互影响,因此采用降维的典型相关分析方法进一步分析其中的相关性。

2.3 温室外光温环境参数与墙体集放热量典型相关分析

为减少温室内外环境指标内部相互影响程度,将室外环境参数(室外日最高气温、室外日最低气温、室外日平均温度、室外太阳总辐射日积累量)作为M组变量,墙体集放热量(墙体集热日总量、墙体放热日总量)作为N组变量。借助主成分分析方法寻找出2组变量的线性组合,综合分析2组变量间的整体关系。通过检验典型相关系数的显著性,确定保留典型变量的对数(表2)。

根据P值大小,只有第1对典型相关系数在0.01水平下是显著的。第1对典型变量间的相关系数为0.92,表明室外光温环境参数和墙体集放热量具有显著相关性。计算得出来自于M组的第1对典型变量U为:

U=0.752T-0.254T-0.524T+0.734Q。(5)

来自于N组的第1对典型变量V为:

V=0.672Q+0.435Q。(6)

在光温环境参数的第1对典型变量组合U中起主要作用的是室外日最高气温和室外太阳总辐射日积累量。墙体集放热量的第1对典型变量组合V中墙体集热日总量的系数为0.672,墙体放热日总量的系数为0.435,表明室外日最高气温和太阳总辐射对墙体集放热量有显著影响,均呈显著的正相关关系。

2.4 温室外光温环境参数与墙体放热量回归分析

利用主成分回归方法基于2019年冬季数据建立关于室外天气情况和日光温室墙体放热量的回归方程,表1显示,室外环境指标各变量之间存在显著相关性,如果变量间存在较强的相关性,直接做回归得到的结果是不科学的。通过共线性诊断计算,室外日最高气温方差膨胀因子为20.36,室外日平均温度方差膨胀因子为44.09,均大于10,與其他变量间存在较强的多重共线性。首先对自变量进行主成分分析,然后再进行逐步回归对变量进行筛选。由表3可以看出,前2个主成分特征值均大于1且累计方差贡献率达到96.526%,包含了室外光温环境参数大部分信息。

根据主成分因子载荷矩阵和特征值的计算,得出对应的单位特征向量,可以计算出室外光温环境参数主成分表达式。第1对主成分表达式为:

F=0.574T+0.526T+0.614T+0.117Q。(7)

第2对主成分表达式为:

F=0.197T-0.384T-0.029T+0.912Q。(8)

主成分回归方程:

Q=-0.032F+0.121F。(9)

标准化回归方程:

Q=0.008T-0.063T-0.023T+0.106Q。(10)

还原标准形式:

Q=0.331T-4.205T-1.336T+5.441Q+1 269.681。(11)

主成分回归结果均方根误差为0.14 MJ/m,平均绝对百分误差为12.03%,确定系数为0.915。

利用同一数据,采用偏最小二乘回归建立墙体放热量模型。室外日最高气温、室外日最低气温和室外日平均气温综合描述了1 d内温度的变化情况,加入太阳总辐射参数体现了室外环境综合变化情况。计算得标准化回归方程:

Q=0.231T-0.322T+0.041T+0.047Q。(12)

还原标准形式:

Q=9.576T-21.504T+2.312T+2.398Q+1 181.332。(13)

偏最小二乘回归结果均方根误差为0.09 MJ/m,平均绝对百分误差为9.48%,确定系数为0.953。与主成分回归方法相比,偏最小二乘方法拟合出了较优的多元方程关系,回归模型描述试验数据具有较高的准确度。利用建立的偏最小二乘回归模型对2021年1月数据进行验证,结果如图2所示,RMSE=0.12 MJ/m,MAPE=10.83%,R=0.921,除了少数特殊异常天气情况,方程达到了较高的拟合度。

3 讨论与结论

3.1 讨论

为了进一步研究该模型的预测效果及其在温室加温中的应用,选取2021年冬季12月第1周的日光温室内外环境数据(图3),实测墙体平均日累计放热量为1.42 MJ/m,采用偏最小二乘方法计算墙体平均日累计放热量为 1.45 MJ/m,每天热量变化如图4所示。

日光温室夜间能量来源主要为墙体放热,但在寒冷冬季,该热量往往满足不了加温需求,因此需要结合温室采暖热负荷确定额外加温量。在本研究中,采用文献[24]中的温室采暖热负荷计算方法。计算过程中的参数设置为:(1)日光温室内最低温度,根据越冬茬黄瓜夜间适宜温度需求,设置为15℃;(2)试验日光温室前屋面保温被为黑色无纺布、珍珠棉和再生棉针刺毡组合材料,传热系数取为1.21 W/(m·℃);(3)根据温室使用年限及维护情况,冷风渗透量换气次数为0.8次/h;(4)地面传热量采用分区传热系数确定;(5)墙体按照实测墙体放热加温室内空气处理,无散热损失;(6)由“1.2”节中的数据采集设备所测试的夜间温室内温度为参考,如低于15℃则判断为需要加温,测试的室外气温为输入条件。

这7 d内,每天室外气温变化及采暖热负荷如图3所示,平均地面采暖热负荷为54.58 W/m,其中日光温室前屋面散热量平均占比为59.11%、冷风渗透损失热量平均占比34.66%、地中传热损失热量平均占比6.23%。为方便与墙体放热量进行比较,将地面的加热量进行折算,夜间平均日额外加热量为2.97 MJ/m,额外加热量为墙体放热量的2倍(图4)。

采用偏最小二乘回归法结合天气预报,可以准确预测和评估墙体放热量情况。若夜间墙体释放的热量达不到溫室内作物生长发育的温度条件,可以采取临时加温措施进行室内加温,加温总量可利用本模型计算得出。此外通过加强温室日常维护工作,清除膜上的灰尘,增加膜的透光率,进而增加温室内部自身蓄热量,也可以有效减少温室夜间加温能耗。

3.2 结论

针对光温环境数据的质量情况,提出人为假设含有5%缺失率的数据集虚拟构建方法,通过评估均值法、多重插补法、聚类填充法3种方法的处理,聚类填充法的均方根误差为1.82℃,为3种方法中最优。采用聚类填充法处理缺失值和异常值432个,该方法以数据整体分布分簇插值,适用于温室环境类时间序列数据的清洗处理。

通过相关分析探明了温室内外光温环境参数之间的权重系数,环境特征变化规律联系紧密。典型相关分析计算得出室外光温参数和墙体放热量指标相关系数,为0.92,达到极显著相关性,为定量室外光温参数和墙体放热量研究提供了回归分析基础。

通过比较主成分回归与偏最小二乘回归2种方法的回归准确度,确定了采用偏最小二乘回归方法,获得了墙体放热量与室外光温参数的多元方程表达式,模拟值与实际观测值确定系数达到0.953,具有较优的拟合度。该回归模型综合了室外光热环境特征的信息规律,通过气象预报,可以用于模拟预测墙体放热量情况,确定日光温室额外加热量。

本试验只研究了室外光温环境参数和墙体放热性能的关联性,但在实际生产过程中受农事操作等因素影响,日光温室内热量传递过程更为复杂。因此,建议在温室数据信息挖掘方面开展进一步的研究,分析环境数据、生产管理数据(通风口、保温被等控制设备)之间的隐性互作规律,墙体放热量预测将更加准确。

参考文献:

[1]束 胜,康云艳,王 玉,等. 世界设施园艺发展概况、特点及趋势分析[J]. 中国蔬菜,2018(7):1-13.

[2]李光聚,刘天英,李秀欣,等. 寿光日光温室的发展历程及创新点[J]. 中国蔬菜,2019(10):14-18.

[3]王少杰,张广鹏,刘 鑫,等. 日光温室装配式土质夹心墙体热湿迁移及蓄放热性能[J]. 农业工程学报,2019,35(23):209-217.

[4]佟国红,Christopher D M. 日光温室墙体蓄放热层温度变化规律研究[J]. 农业工程学报,2019,35(7):170-177.

[5]白 青,张亚红,刘佳梅. 日光温室土质墙体内温度与室内气温的测定分析[J]. 西北农业学报,2009,18(6):332-337.

[6]李建设,白 青,张亚红. 日光温室墙体与地面吸放热量测定分析[J]. 农业工程学报,2010,26(4):231-236.

[7]李小芳,陈青云. 墙体材料及其组合对日光温室墙体保温性能的影响[J]. 中国生态农业学报,2006,14(4):185-189.

[8]史宇亮,王秀峰,魏 珉,等. 日光温室土墙体温度变化及蓄热放热特点[J]. 农业工程学报,2016,32(22):214-221.

[9]彭东玲,张 义,方 慧,等. 日光温室墙体一维导热的MATLAB模拟与热流分析[J]. 中国农业大学学报,2014,19(5):174-179.

[10]张松兰,王 鹏,徐子伟. 基于统计相关的缺失值数据处理研究[J]. 统计与决策,2016(12):13-16.

[11]任远航. 面向大数据的K-means算法综述[J]. 计算机应用研究,2020,37(12):3528-3533.

[12]杨俊闯,赵 超. K-Means聚类算法研究综述[J]. 计算机工程与应用,2019,55(23):7-14,63.

[13]魏玉龙,张秋良. 興安落叶松林缘天然更新与立地环境因子的相关分析[J]. 南京林业大学学报(自然科学版),2020,44(2):165-172.

[14]刘鸿斌,宋 留. 废水处理过程的典型相关分析建模方法研究[J]. 山东大学学报(工学版),2020,50(1):101-108.

[15]李 博,陈 威,付 强,等. 黑龙江省环境空气污染物和气象要素的典型相关分析[J]. 中国环境监测,2021,37(3):103-108.

[16]姜懿芮,段玉聪,王 勇,等. 大数据在日光温室蔬菜生产中的应用[J]. 中国瓜菜,2019,32(1):42-44.

[17]袁红春,刘 慧,张 硕,等. 基于深度学习和典型相关分析的渔情预测方法[J]. 大连海洋大学学报,2021,36(4):670-678.

[18]He F,Ma C W. Modeling greenhouse air humidity by meansOf artificial neural network and principal component analysis[J]. Computers and Electronics in Agriculture,2010,71:S19-S23.

[19]李 宁,申双和,黎贞发,等. 基于主成分回归的日光温室内低温预测模型[J]. 中国农业气象,2013,34(3):306-311.

[20]刘亭亭,于晓辉,吕大刚. 基于偏最小二乘回归的地震动复合强度参数构造与统计性分析[J]. 建筑结构学报,2020,41(S1):406-416.

[21]罗博炜,洪智勇,王劲屹. 多元线性回归统计模型在房价预测中的应用[J]. 计算机时代,2020(6):51-54.

[22]白青华,王惟晨. 张掖日光温室最低温度预报模型的主成分回归法构建[J]. 中国农学通报,2015,31(32):223-228.

[23]杨晓军,韩林君,张君霞,等. 基于偏最小二乘回归方法的西北区寒潮延伸期预报[J]. 大气科学学报,2021,44(3):371-380.

[24]薛东岩,黄光洁,陈启永,等. 温室大棚采暖热负荷计算[J]. 吉林农业,2016(23):58.

猜你喜欢
相关分析回归分析日光温室
日光温室番茄高产高效栽培技术
模块化蓄热墙体日光温室研究进展
北方冬季日光温室番瓜高产栽培技术
日光温室盆栽迷你玫瑰栽培技术
城乡居民医疗费用的相关性与回归分析
基于变形监测的金安桥水电站坝体稳定性分析
宝鸡市区空气质量变化分析
森林碳汇影响因素的计量模型研究
河北省城镇居民人均可支配收入与消费统计分析