几种热力站二次供水温度预测模型的比较分析

2023-07-13 13:30齐承英贾萌曹姗姗孙春华夏国强
河北工业大学学报 2023年3期
关键词:样本容量供热供水

齐承英 贾萌 曹姗姗 孙春华 夏国强

摘要 供热系统通常通过调节热力站二次供水温度来满足热用户的需求。为了准确的获得二次供水温度的预测值,通过相关性分析和偏自相关分析确定预测模型的特征集;采用在线序列极限学习机(OS-ELM)、多元线性回归(MLR)、BP神经网络(BP)、支持向量回归(SVR)和极限学习机(ELM)模型进行短期二次供水温度的预测。对天津市某热力站的应用结果表明:预测特征集为室外温度和前28 h的历史二次供水温度数据;在训练样本容量较少和跨供暖季应用两种情况下,OS-ELM预测精度均最高,MAPE值分别为1.55%和0.47%。

关 键 词 热力站;二次供水温度预测;OS-ELM;特征集;样本容量

中图分类号 TU833     文献标志码 A

文章编号:1007-2373(2023)03-0076-07

DOI:10.14081/j.cnki.hgdxb.2023.03.008

Comparison study of several prediction models of secondary supply water temperature in district heating thermal stations

QI Chengying, JIA Meng, CAO Shanshan, SUN Chunhua, XIA Guoqiang

(School of Energy and Environmental Engineering, Hebei University of Technology, Tianjin 300401, China)

Abstract In order to meet heat usersvarying demand, adjusting the secondary supply water temperature (SSWT) in thermal station is commonly used in district heating system. In order to obtain accurate prediction of SSWT, this study conducts correlation analysis and partial autocorrelation analysis to decide the feature set of prediction model. Online sequential extreme learning machine (OS-ELM), multiple linear regression (MLR), BP neural network (BP), support vector regression (SVR) and extreme learning machine (ELM) are used to predict short-term SSWT. The proposed method is applied in a thermal station in Tianjin. The results show that the feature set of SSWT prediction are outdoor temperature and historical SSWT in the previous 28 h. When the training sample size is small or cross heating seasons application, the OS-ELM model has the highest prediction accuracy, with MAPE values of 1.55% and 0.47%, respectively.

Key words thermal station; secondary supply temperature prediction; OS-ELM; feature set; sample size

0 引言

目前,我國集中供热系统的调控技术还不够完善,经常出现气温高时用户端过热,低温天气热量不足的情况[1]。为实现供需平衡,集中供热系统需要精细化调控。调节二次供水温度是供热系统精细化调控的重要部分,科学合理的二次供水温度预测十分必要。

现有研究通过挖掘供热系统的大量运行数据来实现二次供水温度的预测。其中刘庆堂等[2]建立了供热参数与室外温度的线性回归和BP神经网络预测模型,用200组数据进行了训练,平均绝对误差均小于3%。卜云婷等[3]采用GA-RBF神经网络对供热中期热力站二次供水温度进行短期预测,预测精度基本保持在1%左右。胡江涛等[4]将500组供水温度、室内温度、室外温度、太阳辐照度等数据作为训练集,利用BP和Elman神经网络预测的供水温度最大相对误差分别为5.66%、4.32%。袁建娟等[5]在二次供水温度预测模型中加入了BC值,并对3个热力站在2018年—2019年供暖季内53 d的供热历史数据进行了训练,二次供水温度预测精度均低于1%。

目前的研究成果中,大部分二次供水温度的预测模型都是基于大量的训练样本,没有考虑在供暖初期训练样本容量较小时模型的预测精度。针对训练样本容量较小的预测,文献[6]提出了在线序列极限学习机(OS-ELM),可以将训练数据逐个或多个地加入到训练模型中,并实时更新输出权重。OS-ELM算法已应用于建筑热负荷预测[7]、电力系统参数预测[8-11]、电信技术应用[12-14]、故障诊断[15]等方面。此外,针对不同预测模型跨供暖季应用分析的研究较少。本文以天津市某小区热力站为研究对象,分别采用OS-ELM、多元线性回归(MLR)、BP神经网络、支持向量回归(SVR)和极限学习机(ELM)预测模型对不同训练样本容量下的二次供水温度进行了预测,并对预测模型跨供暖季应用进行了分析。

1 预测特征集建立

机器学习离不开数据的支撑,构成预测模型输入参数的集合称为数据集[16]。在一个数据集中,对于预测输出变量有关的特征称为“相关特征”,反之则称为“无关特征”。通过特征选择方法所选出的特征集合即为预测模型的特征集。

1.1 二次供水温度的影响因素分析

供热公司储存的历史数据包括室外温度、空气湿度、太阳辐射强度、风速等室外气象参数;供回水温度、流量、压力、供热量等运行参数。本文采用Pearson相关系数r来确定二次供水温度预测模型的特征集。r按式(1)计算。

[r=i=1n(Zi-Z)(Si-S)i=1n(Zi-Z)2i=1n(Si-S)2], (1)

式中:[Zi]为影响二次供水温度因素的实际值;[Z]为[Zi]的平均值;[Si]为二次供水温度的实际值;[S]为[Si]的平均值。

r在[-1,1]之间,相关系数的正值表示正相关,而负值表示负相关。相关系数的绝对值越大,相关性越强。当|r| ≥ 0.8时,可视为高度相关;当0.5 ≤ |r|< 0.8时,可视为中度相关;当|r|< 0.5时,可视为低度相关,说明该参数与二次供水温度之间的相关程度极弱,应当给予剔除[17]。

1.2 历史供温周期确定

过多的输入参数会使模型复杂度增加,泛化能力变差,训练时间增加[18]。为了精简模型的输入参数,本文采用偏自相关分析确定历史供温的具体周期。偏自相关分析用于分析排除了其他变量的影响之后两个变量之间的相关性。对于一个二次供水温度时间序列[Xt],其k阶自回归模型可以写为

[Xt=φk1Xt-1+φk2Xt-2+…+φkkXt-k+akt], (2)

式中:[φki]為[Xt-i]的回归系数;[akt]为自回归模型的误差项。最后一项回归系数[φkk]即时间序列的k阶偏自相关系数。式(2)可以写为

[Xt-φk1Xt-1-φk2Xt-2-…-φk,k-1Xt-k-1=φkkXt-k+akt] 。 (3)

由式(3)可知,[φkkXt-k]可以描述去除[Xt-1,Xt-2,…,Xt-k-1]的影响后,[Xt]与[Xt-k]之间的相关关系[19]。时间序列的各阶偏自相关系数构成偏自相关函数(PACF),通过分析PACF的变化可以得到不同滞后周期的二次供水温度的相关性。时间序列的PACF可按式(4)计算:

[φ11=γ1,k=1φkk=γk-i=1k-1φk-1,i?γk-i1-i=1k-1φk-1,i?γk-i,k=2,3,…φki=φk-1,i-φkkφk-1,k-i,i=1,2,…,k-1] , (4)

式中,[γk]为滞后k期的自相关系数。

一般的,[φkk<0.05]时认为相关性不显著[20]。因此,本文分析二次供水温度的PACF并选择[φkk≥0.05]之前的二次供水温度周期作为最佳的历史供温周期。

综上,通过相关性分析和偏自相关分析这两种特征选择方法即可确定预测二次供水温度所需要的特征集。

2 二次供水温度预测方法

2.1 预测方法介绍

本文分别采用MLR、BP神经网络、SVR、ELM和OS-ELM这5种预测方法建立二次供水温度预测模型。由于MLR、BP神经网络和SVR预测方法在热负荷预测领域中应用较为广泛,对于这3种预测方法的详细介绍分别见文献[21-24]。对于ELM和OS-ELM预测方法,本文将进行详细介绍。

ELM算法是由单隐层前馈神经网络(SLFNs)算法发展而来,ELM主要包括输入层、隐含层和输出层[25]。假设有N组任意的训练样本[(Xi,Yi)],其中训练样本输入为[Xi=x1,x2…,xnT],训练样本输出为[Yi=y1,y2…,ymT],隐含层的输出函数定义如下:

[oj=i=1Lβig(ωi?xj+bi)], (5)

式中:j = 1,…,N;[βi]为输出权重;[g(x)]为激活函数;[ωi=[ωi,1,ωi,2,…,ωi,n]T]为输入权重;[bi]是第i个隐含层单元的阈值。

ELM算法的目标为模型的输出值与实际理论的输出值的差值最小,即

[i=1Noi-yi=0]。 (6)

存在[βi]、[ωi]和[bi],使得

[i=1Lβig(ωi?xj+bi)=yj,j=1,2,…,N]。 (7)

式(7)矩阵形式为

[Hβ=T], (8)

式中:H是隐含层节点的输出;[β]是输出权重;T是期望输出。

[β]可以通过求解方程组(9)的最小二乘解来获得。

[Hβ-T=HH+T-T=minβHβ-T]。 (9)

最小二乘解为

[β=H+T], (10)

式中,H+为隐含层输出矩阵H的Moore-Penrose广义逆。

OS-ELM是在ELM方法基础上的改进算法,通过后续输入数据实时更新模型的结构和参数,其实现过程主要分为两个阶段[8]。

1)初始化阶段。初始化阶段的原理同ELM算法,通过给定训练样本、隐含层神经元个数、激励函数,随机生成输入权重和阈值,从而确定初始模型的β0和H0。

2)在线顺序学习阶段。当新的一批数据加入模型时,隐含层输出矩阵和输出权重向量可根据式(11)更新。

[Ht+1=g(ωT1?X(t+1)1+b1) … g(ωTL?X(t+1)1+bL)           …  …      …g(ωT1?X(t+1)Nt+1+b1) …g(ωTL?X(t+1)Nt+1+bL)N×L] , (11)

[βt+1=βt+Kt+1Ht+1(RTt+1-HTt+1βt)], (12)

[Kt+1=Kt-KtHt+1HTt+1Kt1+HTt+1KtHt+1,] (13)

[K0=(HT0H0)-1,] (14)

式中:[Nt+1]表示第t+1批次样本个数;[X(t+1)Nt+1=[x(t+1)1,x(t+1)2,…,x(t+1)Nt+1]]表示第t+1批次的室外温度和历史二次供水温度向量。

通过上述公式以及新加入的训练数据不断更新H和[β],直到所有数据输入完毕,最终完成OS-ELM模型的训练。

2.2 模型评价指标

选取平均绝对误差(MAE)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)来作为预测模型的评价指标,计算公式为:

[MAE=i=1nSi-Sin], (15)

[RMSE=1ni=1nSi-Si2], (16)

[MAPE=1ni=1nSi-SiSi×]100%, (17)

式中:[Si]为二次供水温度预测值;n为预测样本数。

MAE、RMSE和MAPE数值越小,表示二次供水温度预测值与实际值误差越小,模型预测精度越高。

3 案例分析

本文以天津市某小区热力站为研究对象,选取该小区热力站2018年11月16日—2019年3月15日、2019年11月15日—2020年11月21日的供热数据为样本,共计18 288组数据。采集数据主要包括:室外温度、室内温度、二次供水温度、瞬时流量和供回压差,采样时间为10 min。后续研究将所有数据采集的时间步长统一处理为2 h。

3.1 特征集确定

本文考虑影响二次供水温度的因素有室外温度[tw]、室内温度[tn]、瞬时流量G、供回压差P和历史二次供水温度[tgi-n]。各影响因素与二次供水温度之间的相关系数r见表1。由表1可知,室外温度、历史二次供水温度与二次供水温度相关性较强,|r|>0.5。而室温、瞬时流量和供回压差与二次供水温度的相关性较弱,|r|<0.5,应将这3个因素给予剔除。

图1显示了每2 h二次供水温度时间序列的PACF图。用于计算PACF的最大滞后步长设置为84。当周期超过14(28 h)后,[φkk<0.05],即滞后时间超过28 h的历史二次供水温度与当前二次供水温度的相关性很小。因此,选择预测时刻前28 h内的二次供水温度作为输入变量。通过上述分析,最终确定预测模型输入变量为室外温度和预测时刻前28 h内的历史二次供水温度。

为比较训练样本容量对5种预测模型预测精度的影响,建立训练样本容量较小的特征集L和训练样本容量较大的特征集M进行二次供水温度预测。此外,设置特征集W来检验5种预测模型跨供暖季应用的效果。3个特征集的参数特征如表2所示。

3.2 训练样本容量对预测精度的影响

3.2.1 数据容量较小时模型的预测结果

5种模型在特征集L上二次供水温度的预测曲线与实际曲线对比如图2所示。在11月28日—12月3日,BP神经网络预测曲线与实际曲线相差较大,其他4种模型预测曲线与实际曲线较为接近。在12月3日22点—12月4日10点,二次供水温度由57.48 ℃快速升高至66.30 ℃,OS-ELM模型可以准确的预测二次供水温度快速上升的趋势,MLR、SVR和ELM模型预测的二次供水温度上升幅度较低,而BP神经网络预测的二次供水温度波动较为平缓。

5种预测模型的相对误差对比如图3所示。由图3可知,在11月28日—12月3日的预测结果中,5种模型的相对误差大多保持在±5%以内,满足误差要求。在二次供水温度波动幅度较大的12月4日,MLR、BP神经网络、SVR和ELM模型的预测值相比实际值误差较大,最大相对误差绝对值分别为17.89%、19.04%、13.34%和13.53%;而OS-ELM模型预测精度较高,相对误差大多保持在±5%以内,最大相对误差绝对值为11.15%。

3.2.2 数据容量较大时模型的预测结果

5种模型在特征集M上二次供水温度的预测曲线与实际曲线对比如图4所示。在2月26日、3月1日—4日,二次供水温度波动幅度较小,5种模型的预测曲线和实际曲线较为接近。二次供水温度于2月27日—28日发生较大波动,其中27、28日二次供水温度最高值分别为55.97 ℃、55.69 ℃,最低值为46.58 ℃、38.44 ℃,波动幅度为9.39 ℃、17.25 ℃。2月27日,ELM、SVR和OS-ELM模型预测的二次供水温度曲线与实际曲线较为接近,BP和MLR效果较差;2月28日,OS-ELM模型预测曲线最接近实际曲线,其余4种模型预测发生较大偏差。

5种预测模型的相对误差对比如图5所示。由图5可知,在2月26日、3月1日—4日,5种模型预测相对误差保持在±5%以内,满足误差要求。在2月27日,MLR、BP神经网络、SVR和ELM模型的最大相对误差绝对值分别为10.69%、12.26%、5.58%和5.52%,而OS-ELM模型相对误差均保持在±5%以内。2月28日,MLR、BP神经网络、SVR、ELM预测值相比实际值波动较大,最大相对误差分别为13.86%、21.23%、12.46%、14.63%,而OS-ELM模型最大相对误差为6.20%。OS-ELM模型在二次供水温度波动较大时,预测精度比其他4种模型更高。

为比较训练样本容量对模型预测精度的影响,将不同训练样本容量下5种模型的预测评价结果列于表3。在特征集M上,MLR、BP神经网络、SVR、ELM和OS-ELM模型的MAE值分别为0.94 ℃、1.45 ℃、0.95 ℃、0.91 ℃和0.75 ℃,较特征集L上的MAE值分别降低了0.59 ℃、0.80 ℃、0.24 ℃、0.42 ℃和0.07 ℃;RMSE值分别为1.40 ℃、2.12 ℃、1.44 ℃、1.35 ℃和1.00 ℃,较特征集L上的RMSE值分別降低了0.95 ℃、1.75 ℃、0.35 ℃、0.55 ℃和0.23 ℃;MAPE值分别为1.91%、3.04%、1.96%、1.91%和1.50%,较特征集L上的MAPE值分别降低了0.77%、0.82%、0.07%、0.45%和0.05%。在训练样本容量较大时,5种模型的预测精度较训练样本较小时得到一定提升。OS-ELM预测模型在特征集L和M上的预测精度都是最优的,说明OS-ELM预测模型具有良好的泛化能力。

3.3 预测模型跨供暖季应用效果

针对供热系统在预测供暖季初期运行数据较少、在二次供水温度发生较大波动时预测精度较低的问题,通过特征集W来测试预测模型跨供暖季应用的效果。为比较2018年与2019年供暖季初期(11月15日—11月22日)室外温度的差异,将2018年与2019年供暖季初期的室外温度曲线示于图6。如图6所示,2018年与2019年供暖季初期室外温度差异较小,室外平均温度分别为4.0 ℃和4.6 ℃,室外温度標准差分别为4.1 ℃和4.8 ℃;并且室外温度呈中度相关,0.5≤|r|<0.8。

将5种预测模型在2019年供暖初期的预测值与实际值的对比情况示于图7。如图7所示,5种模型预测的二次供水温度曲线与实际二次供水温度曲线较为吻合,跨供暖季预测二次供水温度效果较好。

将5种模型的预测评价结果列于表4。如表4所示,5种预测模型在2019年—2020年供暖季初期预测的MAE值低于0.3 ℃,RMSE低于0.4 ℃,MAPE值低于1%,较2018年—2019年供暖季初期(特征集L)的预测精度得到提高。由于2018年—2019年供暖季初期训练数据样本容量较少,5种预测模型训练时提取到的室外温度和二次供水温度的特征信息较少,容易产生欠拟合的现象,从而导致模型预测精度较低;当取2018年—2019年供暖季所有室外温度、二次供水温度数据用于训练时,训练数据样本容量增加,训练模型更加完善,预测准确率也随之提高。在预测模型跨供暖季应用中,虽然MLR、BP神经网络、SVR和ELM模型的预测精度满足应用要求,但是OS-ELM模型的预测精度最高,MAPE值为0.47%。

4 结论

本文根据天津市某小区热力站的供热数据,通过相关性分析和偏自相关分析选择出二次供水温度的预测特征集,并建立了MLR、BP神经网络、SVR、ELM和OS-ELM预测模型对热力站未来2 h的二次供水温度进行了预测。根据预测结果,得出以下结论:

1)在训练样本容量较大时(训练集占比大于90%),5种模型的预测精度较训练样本较小时(训练集占比小于65%)得到一定提升。在训练样本容量较少时,OS-ELM模型精度最高,MAPE值为1.55%,相对误差大多保持在±5%,满足误差要求。

2)针对供热系统在预测供暖季初期运行数据较少、在二次供水温度发生较大波动时预测精度较低的问题,可采取上一供暖季的室外温度和历史二次供水温度进行训练。预测结果表明,当上一供暖季初期与本供暖季初期的室外温度差异较小时,5种预测模型的MAPE值均低于1%,其中OS-ELM模型的预测精度最高。

本文研究表明OS-ELM模型对于不同训练样本容量和跨供暖季的二次供水温度预测效果都优于其他4种模型,可以为相关工程应用提供参考。此外,由于供热系统、室外气象参数的差异性及数据的随机性,在实际应用中需要经过分析选择合理的预测方法。

参考文献:

[1]    李琦,赵峰. 基于气温与日期类型的改进BP网络热负荷预测[J]. 系统仿真学报,2018,30(4): 1464-1472.

[2]    刘庆堂,郭京强,单宝艳,等. 基于BP神经网络和回归预测的供热调节可靠性[J]. 山东大学学报(工学版),2011,41(2): 163-166.

[3]    卜云婷,谢慕君,姜长泓,等. 二级管网供水温度的改进型RBF神经网络预测[J]. 煤气与热力,2015,35(10): 14-17.

[4]    胡江涛,王新轲,刘罡. 人工神经网络预测供热系统供水温度[J]. 煤气与热力,2019,39(3): 6-11,42.

[5]    YUAN J J,WANG C D,ZHOU Z H. Study on refined control and prediction model of district heating station based on support vector machine[J]. Energy,2019,189: 116193.

[6]    LIANG N Y,HUANG G B,SARATCHANDRAN P,et al. A fast and accurate online sequential learning algorithm for feedforward networks[J]. IEEE Transactions on Neural Networks,2006,17(6): 1411-1423.

[7]    KUMAR S,PAL S K, PAL S R. A novel method based on extreme learning machine to predict heating and cooling load through design and structural attributes[J]. Energy and Buildings,2018,176: 275-286.

[8]    钱子伟,孙毅超,王琦,等. 基于OS-ELM的光伏发电中长期功率预测[J]. 南京师范大学学报(工程技术版),2020,20(1): 8-14.

[9]    杨本臣,张军,于坤鹏. 开放售电环境下用户短期负荷预测方法[J]. 电工电能新技术,2020,39(1): 5-11.

[10]  杨本臣,于坤鹏,张军. 基于ELM优化模型的用户短期负荷研究[J]. 计算机应用与软件,2019,36(11): 91-95,187.

[11]  王焱,汪震,黄民翔,等. 基于OS-ELM和Bootstrap方法的超短期风电功率预测[J]. 电力系统自动化,2014,38(6): 14-19,122.

[12]  周明,张其,王国梁. 基于OS-ELM的位置指纹室内定位方案研究[J]. 微型电脑应用,2018,34(12): 66-68.

[13]  刘明峰,侯路,郭顺森,等. 基于OS-ELM和SDAE的Wi-Fi入侵检测方法[J]. 北京交通大学学报,2019,43(5): 87-93,101.

[14]  谢文旺,孙云莲. 基于OS-ELM的宽带电力线通信解映射优化算法[J]. 电测与仪表,2019,56(13): 1-6,50.

[15]  段杰,李辉,陈自立,等. 基于RBF与OS-ELM神经网络的AUV传感器在线故障诊断[J]. 水下无人系统学报,2018,26(2): 157-165,184.

[16]  周志华. 机器学习[M]. 北京: 清华大学出版社,2016.

[17]  付波. 住宅区热力站负荷预测研究[D]. 北京: 北京建筑大学,2019.

[18]  刘鑫. 基于机器学习的短期电力负荷预测方法研究[D]. 北京: 北京邮电大学,2019.

[19]  曾康华. 计量经济学[M]. 北京: 清华大学出版社,2016.

[20]  沃尔特?恩德斯.应用计量经济学:时间序列分析[M]. 杜江,袁景安译.北京:机械工业出版社,2012.

[21]  FERBAR TRATAR L,STRMCNIK E.The comparison of Holt-Winters method and Multiple regression method: a case study[J].Energy,2016,109: 266-276.

[22]  REN T,LIU S,YAN G C,et al.Temperature prediction of the molten salt collector tube using BP neural network[J].IET Renewable Power Generation,2016,10(2): 212-220.

[23]  于晓娟,齐先硕,顾吉浩,等.基于混合算法优化支持向量机的供热负荷预测模型[J].河北工业大学学报,2019,48(5): 39-46.

[24]  AL-SHAMMARI E T,KEIVANI A,SHAMSHIRBAND S,et al.Prediction of heat load in district heating systems by Support Vector Machine with Firefly searching algorithm[J].Energy,2016,95: 266-273.

[25]  HUANG G B,ZHU Q Y, SIEW C K.Extreme learning machine: theory and applications[J].Neurocomputing,2006,70(1/2/3): 489-501.

收稿日期:2020-09-09

第一作者:齊承英(1965—),男,教授。通信作者:曹姗姗(1986—),女,讲师,css_2005@126.com。

猜你喜欢
样本容量供热供水
近期实施的供热国家标准
采用无核密度仪检测压实度的样本容量确定方法
毗河供水一期工程
分区分压供水在雕鹗水厂供水中的应用
PPP模式应用于城市供热项目分析
供水产销差的组成与管控建议
甘肃引洮供水二期工程年内开建
风电供热之路该如何走
汽轮机供热系统的技改创新
广义高斯分布参数估值与样本容量关系