◎ 韩建军,南少伟,郭呈周,李建平
(河南工业大学土木建筑学院,河南 郑州 450001)
粮仓的气密性是确保安全储粮的关键,但受仓型类别、墙体结构类型、墙体结构层厚度和机械通风口个数等因素的影响,其气密性不能满足安全、绿色储粮的要求。因此,对粮仓气密性影响因素的研究具有重要的现实意义。
针对粮仓的气密性问题,学者们进行了大量的研究。丁江涛[1]提出采用排除法查找仓房漏气的原因,通过空仓气密性测试、墙壁挂膜气密性测试及地面用塑料薄膜密封后气密性测试来对比500 Pa的压力半衰期,找出了所研究仓房漏气部位及比例,并对漏气部位进行改造,以提高仓房气密性,达到绿色储粮的要求。刘佳等[2]通过分析粮食平房仓气密性对粮温、粮食含水量及熏蒸效果的影响,阐述了粮食平房仓气密性对实现安全储粮至关重要,且指出了影响粮食平房仓气密性的主要因素是门窗、屋面、墙体及工艺孔洞等。崔栋义等[3]研究了高大平房仓气密性改造对环流熏蒸效果的影响,在保证外部条件相同的情况下,定时检测仓房气体浓度,并对检测数据比较分析,表明经过气密性改造的仓房能有效的保持熏蒸浓度。张来林等[4]针对当前我国新建粮仓气密性差的原因,从合理选用仓房结构、严把施工安装质量关等方面,提出了从根本上改变仓房密闭方式,达到新仓建设提质、增效、降耗的目的。闵炎芳等[5]对不同储粮、储粮年限、风道型式的高大平房拱板仓进行了粮堆单面封负压法气密性测定,通过分析测定结果得出了粮堆气密性好坏与仓房配置风道型式关系紧密,而与储存年限、粮堆高度的关系不是太显著的结论,并且探明了影响仓房粮堆负压气密性因素。以上研究主要分为两类:①通过粮仓气密性检测,分析找出气密性差的原因,并提出改善粮仓气密性的措施。②通过分析粮仓气密性对绿色储粮的影响,阐明了粮仓气密性的重要性。但他们的研究对影响粮仓气密性的因素与气密性之间的定量评价不曾涉及。因此,建立粮仓气密性评价模型对有效地提高粮仓气密性能具有重要意义。
基于此,采用随机森林算法建立粮仓气密性评价模型,并结合相关调研数据来验证模型的准确性和适用性,以期为粮仓的气密性评价提供新思路。
随机森林(RFR)是由Leo Breiman于2001年提出的将决策树中CART算法和Bagging算法相结合的一种新算法[6],它利用bootsrap重采样方法从原始样本中抽取多个样本,对每个bootsrap样本进行决策树建模,再通过多棵决策树的组合,最终以投票的方式得出预测结果[7]。大量的研究证明,随机森林算法具有很高的预测能力,且较传统的预测算法,不容易出现过拟合现象。同时,对于小样本非线性、高维模式的识别等问题有着其特有的优势。随机森林主要应用于分类问题和回归问题,对于分类问题,以最终的投票数决定最后的预测结果;而对于回归问题,将所有回归决策树输出值的平均值作为最终的预测值[8]。
(1)对N组样本数据采用bootstrap抽样法进行有放回的随机抽样,抽取出M个样本,以取出的M个样本形成M颗能够进行模型训练的决策树,剩余的N-M个样本作为袋外数据(out of bag,OOB)用来测试模型的准确性。
(2)假设原始数据样本有P个变量,则在每颗决策树的每个节点随机抽取K个变量作为备选分枝变量,依据分枝优度准则选择最佳分枝。
(3)每颗决策树开始自顶向下进行递归分枝,叶节点的最小尺寸设定为5,以此作为决策树生长的终止条件且确保模型建立的准确性。
(4)将生成的M颗决策树组成随机森林回归模型,模型的回归效果采用袋外数据(OOB)预测的残差均方进行评价。
本文样本数据来源于广东省、湖南省等地粮仓的实地调研,通过整理共得45组有效数据。粮仓的气密性评价由输入变量和输出变量组成。其中,输入变量为粮仓仓型、门窗密封措施、单仓自然通风口个数、单仓轴流风机口个数和单仓环流熏蒸孔个数等16个影响因素;输出变量为500 Pa压力半衰期。从50组数据中随机抽取45组作为训练样本,剩余5组作为测试样本。为了避免不同变量之间量级差异的影响,对样本的输入和输出量运用以下公式归一化处理到[0,1]区间:
式(1)中,xmax、xmin分别为xi的最大值和最小值;为标准化后的输入量;xi为第i个输入量。
本文模型的建立采用了科罗拉多大学博尔德分校Abhishek Jaiantilal开发的randomforest-matlab开源工具箱[11],依托MATLAB R2009b软件作为操作平台,通过编程调用工具箱函数,建立粮仓气密性评价模型。
由于本文数据样本的影响因素较多,为了防止相关性低的因素影响模型准确度,首先对16个自变量运用SPSS进行筛选,其筛选方法为:将归一化后的45组样本数据载入SPSS软件,采用逐步回归的方法筛选出与因变量显著性高的自变量。其结果见表1。
表1 影响因素筛选结果表
由表1可知,单仓容积、墙体结构层类型、墙体结构层厚度等6个因素是影响粮仓气密性的主要因素,且6个因素对因变量均有显著的预测作用(Sig≤0.05),常量为逐步回归的截距项,B为自变量对应的偏回归系数,对其进行标准化,可比较不同自变量对因变量的作用大小,其结果为:单仓进(卸)粮口个数>单仓容积>墙体结构层厚度>墙体结构层类型>单仓机械通风口个数>单仓环流熏蒸孔个数,正负号表示自变量与因变量的正相关和负相关,其符号与实际相符;t表示偏回归系数检验的统计量,其对应的P值Sig≤0.05,表明所选择的6个自变量均满足条件。所以本文建模采用以上6个影响因素作为最终模型的输入变量。随机森林中决策树颗数ntree及分裂特征集中的特征个数mtry对随机森林回归模型预测精度及泛化能力影响较大[12]。所以,在建模过程中,通过对两个参数反复调试,最终设定决策树颗数ntree为1 500,分裂特征集中的特征个数mtry为3,将其带入模型建立粮仓气密性评价模型,该模型的预测效果以均方误差根(RMSE)和相关系数R2来评价,其测试样本回归拟合曲线如图1所示。
图1 测试样本回归拟合曲线图
由图1可知,模型对测试样本的预测精度较好,真实值与预测值曲线吻合也较好,其均方误差根(RMSE)为5.244 5(最小为0),相关系数(R2)为0.984 66(最大为1),说明该模型泛化性能较好且具备了一定的预测能力,将其对应的真实值与预测值按下式计算相对误差(RE):
式(2)中,Yi为真实值,为预测值,i为样本序号。通过(2)式计算的对比结果见表2。
表2 真实值与预测值对比结果表
在表2中,真实值和预测值为500 Pa压力半衰期,其单位为秒;通过分析上表可得,随机森林预测模型对粮仓气密性的预测值相对误差最大值为8.71%,最小值为0.94%,平均相对误差值为3.52%,表明该模型具有一定的可靠性。
(1)随机森林算法对小样本的非线性数据具有良好的适应性,且可调参数较少,对数据的分析更具客观性,本文基于随机森林算法建立的粮仓气密性评价模型,通过真实值与预测值的对比,表明了该模型预测精度较高,鲁棒性较好,可以应用于粮仓气密性的评价。
(2)通过智能化的算法建立模型来评价粮仓气密性问题,可以为已建仓型的改良提供一定的参考,对新仓型的建设具有指导意义,这也为粮仓的气密性评价问题提供了新思路。