基于集成学习算法的供暖室内温度预测研究

2020-12-29 04:06王珣玥冯文亮

煤气与热力 2020年12期

王珣玥, 冯文亮、2

(1.北京市公用事业科学研究所，北京100011；2.北京市建设工程质量第四检测所，北京100011)

1 概述

目前，对于供暖室内温度预测的研究引起了学者们的广泛关注。2017年，庞明月等人[1]采用粒子群优化算法对支持向量机方法进行优化，利用优化后的模型对288组数据进行实验，结果表明此模型对于建筑室内温度的预测有着较高的精度。2018年，孙焘等人[2]基于供热系统的传热物理规律建立优化模型，提出了最小二乘意义上的时延求解剪枝算法，完成了室内温度预测，适用于工程计算。2019年，潘世英等人[3]构建了基于MLP神经网络的室内温度预测模型，预测结果显示预测室内温度与实测室内温度的平均相对误差为-2.27%。

为了得到更为精确的预测效果，本文在多元线性回归和多层感知器(Multi-layer Perceptron，MLP)神经网络的基础上，采用集成学习算法对供暖室内温度进行预测研究。本文以北京市某小区作为研究对象，选取30 d供暖数据，数据每隔0.5 h采集一次，采集参数包括一级管网供回水温度、二级管网供回水温度、用户室内温度等。室外温度数据从北京市气象局获取，数据为每隔1 h发布，将前后两个时刻的室外温度数据的平均值，作为室外温度数据缺失的部分。

2 模型原理介绍

① 多元线性回归的基本原理

在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。当自变量大于一个时，这种情况被称为多元线性回归。

设因变量为y,自变量为x1,x2,…,xn-1,xn，多元线性回归数学模型为[4]：

y=β0+β1x1+β2x2+…+βn-1xn-1+βnxn+ε

(1)

式中y——因变量

β0，β1，…,βn-1，βn——回归系数

n——自变量数量

x1，…，xn-1，xn——自变量

ε——随机因素

② MLP神经网络的基本原理

MLP是对感知机模型的推广，感知机模型是有若干输入，一个输出，输出和输入之间学习到一个线性关系，对于线性不可分数据，感知机模型不能识别。MLP是一个人工神经网络结构，它是前馈式并且具有监督的，基本运算单元为人工神经元[5]。MLP神经网络包括输入层、隐藏层和输出层，不同层之间是全连接的，上一层的任何一个神经元与下一层的所有神经元都有连接。

基于反向传播误差算法的MLP神经网络模型的学习过程包括前向传播和反向传播，前向传播是输入数据到输出的映射过程，反向传播是将输出结果与真实结果的误差向前传播的过程，通过传播每一层的误差来更新网络的权重，反向传播算法是用来优化网络参数最重要的手段。

③ 集成学习算法的基本原理

集成学习因其能显著提高一个学习系统的泛化能力而得到了广泛关注[6]。集成学习通过训练数据，构建起多个有差异的模型，最终通过结合得到一个最优预测模型。结合方法包括平均法、投票法和学习法等。集成方法是将几种机器学习技术组合成一个预测模型的元算法，以达到减小方差、偏差或改进预测的效果。

集成方法可分为序列集成方法和并行集成方法，前者参与训练的基础学习器按照顺序生成，后者为并行生成。序列集成方法的原理为利用各基础学习器的依赖关系，对之前训练中错误标记的样本赋较高权重，用来提升预测效果，代表算法为Boosting。并行集成方法原理为利用各基础学习器的独立性，用平均来降低错误，代表算法为Bagging和随机森林。

3 实验过程及结果

3.1 数据选取与处理

选取北京市某小区连续30 d供暖数据和室外温度数据，数据按每隔0.5 h作为一个时刻的数据，包括一级管网供水温度、一级管网回水温度、二级管网供水温度、二级管网回水温度、室外温度和室内温度。考虑到供热系统的滞后性和建筑系统的热惰性，将预测时刻之前6个时刻的室外温度、一级管网供水温度、一级管网回水温度、二级管网供水温度、二级管网回水温度，共30个特征值作为模型的输入，将下一时刻的室内温度作为模型的输出。

由于所选各个特征值的大小有着较大差别，为了防止建模过程中某些特征值的作用被放大而使预测结果不准确，因此需要对特征值进行归一化处理。本文采用特征归一化方法为min-max，通过对数据做线性变换，将原始数据值映射到[0,1]区间，基本公式为：

(2)

式中Xnorm——归一化后的数据

X——原始数据

Xmin——数据最小值

Xmax——数据最大值

对数据进行归一化处理后，使用归一化的训练数据更加容易正确收敛到最优解，并且模型寻优过程更加平缓，从而提升模型精度。

3.2 实验过程

本次实验中，采用平均相对误差(mean relative error，MRE)和均方误差(mean square error，MSE)作为衡量模型性能的指标。平均相对误差和均方误差的计算式分别为：

(3)

(4)

式中IMRE——平均相对误差

m——测试集样本数量

yi——第i个实际值

IMSE——均方误差

将当前时刻的室内温度和之前6个时刻的室外温度、一级管网供水温度、一级管网回水温度、二级管网供水温度、二级管网回水温度，共同作为一组数据。将前28 d共1 344组数据用于模型的建立，将后2 d共96组数据作为测试数据来测试所建立模型的性能并得到预测结果。

在前28 d共1 344组数据中，随机选取6 d数据共288组数据作为模型的不变的评估数据。将剩余的22 d数据共1 056组数据作为模型的基础训练数据，采用Bagging的方式进行有放回采样，得到采样后训练数据，共1 056组；用采样后训练数据构建多元线性回归模型，得到1个基模型。共重复进行30次，得到30个基模型。MLP神经网络模型建立基模型的方法与多元线性回归模型相同。在供暖室内温度预测阶段，分别选取多元线性回归模型和MLP神经网络模型中平均相对误差指标最优的基模型，采用将选取的这两个最优基模型的预测结果进行加权平均的方式来产生最终的集成学习模型预测结果。

对于MLP神经网络模型的参数及最终进行集成的权重参数，采用网格搜索的方式来获得最优模型的参数。对于集成的权重参数，选择步长为0.1，MLP权重初始值为0.3，多元线性回归模型权重初始值为0.7，进行遍历运算，最终得到的最优结果为多元线性回归模型的权重为0.6，MLP神经网络模型的权重为0.4。对于MLP神经网络模型，采用RELU激活函数，隐藏层设置为两层。在实验过程中，当学习率为0.001并且两个隐藏层的神经元均为32时，效果最优。

3.3 实验结果

① 集成学习模型

经过集成学习算法实验，集成学习模型预测结果见图1，为集成学习模型的室内温度预测值和实测值的对比曲线。集成学习模型预测结果的绝对误差曲线见图2，可以看出，绝对误差绝对值的大部分都在0.3 ℃以内。图3为集成学习模型预测结果的相对误差曲线，可以看出，相对误差的大部分在1.3%以下。集成学习模型的整体预测效果较好。

图1 集成学习模型预测结果

② 多元线性回归模型

在实验过程中，效果最优的多元线性回归模型预测结果见图4，为多元线性回归模型的室内温度预测值和实测值的对比曲线。多元线性回归模型预测结果的绝对误差曲线见图5，将图5和图2对比可看出，图5的绝对误差较大。图6为多元线性回归模型预测结果的相对误差曲线，和图3进行对比可看出，图6的相对误差较大。

图2 集成学习模型绝对误差曲线

图3 集成学习模型相对误差曲线

图4 多元线性回归模型预测结果

图5 多元线性回归模型绝对误差曲线

③ MLP神经网络模型

在实验过程中，效果最优的MLP神经网络模型预测结果见图7，为MLP神经网络模型的室内温度预测值和实测值的对比曲线。图8为MLP神经网络模型预测结果的绝对误差曲线，将图8和图2对比可看出，图8的绝对误差较大。图9为MLP神经网络模型预测结果的相对误差曲线，和图3进行对比可看出，图9的相对误差较大。

图6 多元线性回归模型相对误差曲线

图7 MLP神经网络模型预测结果

图8 MLP神经网络模型绝对误差曲线

图9 MLP神经网络模型相对误差曲线

将集成学习模型、多元线性回归模型和MLP神经网络模型平均相对误差和均方误差进行对比，见表1。可以看出，采用集成学习模型的平均相对误差和均方误差均小于单个模型的多元线性回归模型和MLP神经网络模型。这是因为不同模型在同一份训练数据中的表现会有差异，综合不同模型的表现，能够在一定程度上提高模型的泛化能力和预测性能。

表1 集成学习模型、多元线性回归模型和MLP神经网络模型平均相对误差和均方误差对比

4 结论

提出利用基于多元线性回归模型和MLP神经网络模型的集成学习算法对供暖室内温度预测进行研究。以北京市某小区作为研究对象，选取30 d供暖数据和室外温度数据，将预测时刻之前6个时刻的室外温度、一级管网供水温度、一级管网回水温度、二级管网供水温度、二级管网回水温度，共30个特征值作为模型的输入，将下一时刻的室内温度作为模型的输出。研究结果表明，采用集成学习模型的平均相对误差和均方误差均小于单个模型的多元线性回归模型和MLP神经网络模型，预测效果较好，平均相对误差为0.802 2%，均方误差为0.057 665 ℃2。