降维式自主迁移强化学习建筑能耗预测

2019-11-12 12:01黄泽天杨正霞

电脑知识与技术 2019年25期

黄泽天　杨正霞

摘要：针对建筑能耗数据成因复杂，及能耗数据样本不足，导致现有建筑能耗预测模型不精确等问题，结合迁移学习和强化学习中的Sarsa学习方法，提出一种基于降维式自主迁移强化学习的建筑能耗预测方法——STRL。该方法通过提取影响建筑物能耗的重要维度进行降维，采用欧式度量对满足迁移条件的原始建筑MDP状态进行迁移，结合Sarsa算法构建能耗奖赏函数，实现能耗预测。将所提出的STRL与VFT-HSA1以及FTRL2方法用于模拟建筑物能耗问题进行对比实验，实验结果表明，STRL具有较快的收敛速度以及较好的收敛精度。

关键词：迁移学习;强化学习;降维;建筑能耗预测

中图分类号： TP181 文献标识码：A

文章编号：1009-3044（2019）25-0205-04

Abstract： the building energy has many influencing factors， and the energy data samples are insufficient， which leads to the inaccuracy of the existing building energy n prediction model. Combined with Transfer Learning and the Sarsa in reinforcement learning， a building energy prediction method with dimensional reduction and self-transfer reinforcement learning is proposed. which extract the important dimensions that affect the energy of buildings， reducing the dimensions， using European metrics to transfer the source building MDP states that meet the transfer conditions and combining the Sarsa algorithm to build the building energy and reward function model. Which realize energy prediction. Compared with the VFT-HSA and FTRL， the proposed STRL has a better convergence performance in speed and accuracy.

Key words： transfer learning; reinforcement learning; dimension reduction; building energy prediction

1 引言

目前，我国城市飞速发展，建筑物不断扩建，能耗不断攀升，截至2015年，中国建筑所消费能源总量约为8.57亿吨标准煤，建筑能耗占比约为能源总消耗的20% [1]。根据建设部最新报告指出，到2020至2030年左右我国建筑能耗将高达1089亿吨煤，占总能耗的30%-40%[2]，在未来一段时间能耗将仍持续增长，其中建筑能耗将赶超工业能耗，成为能耗占比最高的领域。随着能耗的日益增加，建筑能耗的预测显得更加紧迫、重要。因此，准确、有效、合理地进行建筑物能耗预测是建筑节能与控制的关键基础，也是制定相关建筑节能法规、政策，及开展建筑节能相关工作的重要前提。

目前在建筑能耗预测方面有很多方法，通过分析影响能耗的相关因素，构建模型或简化相关模型，实现建筑能耗的预测。但在诸多研究过程中，其建筑能耗的历史数据总被遗忘搁置，历史真实能耗数据中存在对未来能耗预测的影响因素，如果加以有效利用有助于能耗预测。本文运用迁移学习方法对能耗历史数据加以运用，结合强化学习Sarsa算法，对建筑能耗预测方法进行研究，为后期建筑节能打下基础，达到降低能耗的目的。目前迁移学习与强化学习在理论研究方面已相当成熟，在能耗应用方面也有突出进展，因此迁移学习与强化学习在建筑能耗预测方面研究意义重大，并且存在巨大的探索潜力。

传统的建筑能耗预测方法，有收敛速度慢和稳定性差的缺点，于是提出一种基于降维式自主迁移强化学习的方法STRL（dimensional reduction and self-transfer reinforcement learning）。STRL运用稀疏编码统一不同建筑物的状态维度，提取影响建筑物能耗的重要维度进行降维，采用欧式度量对满足迁移条件的原始建筑MDP状态进行迁移，结合Sarsa算法构建能耗奖赏函数，实现能耗预测。进行几组对比实验结果表明，STRL方法与VFT-HSA以及FTRL方法相比较，有更快的收敛速度，收敛之后更加稳定。

2 相关理论

2.1 迁移学习

迁移学习的本质是知识的迁移再利用，其核心是，找到源领域和目标领域之间的相似性，并加以合理利用。在迁移学习中，首先需要找到源领域和目标领域之间的相似性，再通过度量准则，如欧氏距离，余弦相似度等方法，定量地给出相似程度，增大两个领域之间的相似性，从而完成迁移学习。

假设源域与目标域模型之间共享一些参数或某些模型先验分布。通过将源域中的參数或先验分布迁移至目标域帮助其学习。这一类迁移学习方法被称为基于模型的迁移方法，这类迁移学习方法的目标就是获取可迁移的共享信息。

2.2 强化学习

强化学习是环境状态到动作映射的学习，以使选取的动作获取最大的奖赏信号。在学习的过程中，学习器不被告知动作应如何采取，强化学习问题通过与环境不断交互试错获得最优策略，使得奖赏最大化[3]。

马尔可夫决策过程（Markov decision process， MDP）可以用来对强化学习问题进行建模，一个MDP通常可以表示为一个四元组，[M=]，S表示所有状态的集合，其中[st∈S]是在t时间步下的状态;A表示所有动作的集合，其中[at∈A]是在t时间步下的动作;R表示奖赏函数，其中[R（st，at）]是指在状态[st]下采取动作[at]所获得的立即奖赏;P是状态转移函数，[p（s，a，s'）]表示在状态[s∈S]下采用动作[a∈A]转移到下一状态[s'∈S]的概率。

在评估MDP策略[π]时，引入值函数的概念，具体分为状态值函数[Vπ（s）]和状态动作值函数[Qπ（s，a）]。[Vπ（s）]是在s状态下采取策略[π]获得的回报的期望值，[Qπ（s，a）]是在状态动作对下采取策略[π]获得的回报的期望值。[Vπ（s）]和[Qπ（s，a）]可表示为相应Bellman公式的不动点解。可描述为公式（1）和公式（2）：

3 基于降维式自主迁移强化学习的建筑能耗预测

3.1 稀疏编码降维迁移

稀疏编码首次由Olshausen等人模仿生物的视觉神经提出[4]，稀疏编码可多维的表示数据，是一种特征表示方法，并且数据稀疏后仅有少量的有用数据被激活，同时稀疏编码被运用于多个领域中，其中包括特征降维问题、迁移学习问题、图像处理问题等[5]。

为了对稀疏编码进行更好的表示，本文采用[ξ=ξ1，ξ2...，ξMT∈RM×K]代表输入的向量集合，其中[ξi∈R1×K，i=1，2，...，M]为第i个向量，K为向量维数，同时用[B=b1，b2，...，bNT∈RN×K]表示基向量的集合，N为向量的个数，[bj，j=1，2，...，N]代表第j个向量，采用[aj，j=1，2，...，N]代表对应[bj]的系数，因而，一般N>K，对于所有的输入向量都满足[ξi≈j=1Nbjaj]。具体的数学模型如公式（3）所示：

稀疏编码可解决维度问题，通过运用稀疏编码统一迁移学习中源域与目标域之间MDP的不同的维度，其次通过稀疏编码降维，找出源域与目标域之间影响因素关键特征，通过提取源域中最有影响因素的特征进行迁移，提高目标域的学习效果。

3.2 能耗建模

在能耗预测过程中，实际的能耗受多维度因素的影响，对于图书馆能耗预测，本文采集维度有温度（t）、湿度（h）、太阳辐射（r）、风速（w）、光照强度（i）、PM2.5（p）、Co2浓度（c）、So2浓度（s）、Co浓度（co），使用这些参数对该数据构建多维模型，构成状态[S′]=[t，h，r，w，i，p，c，s，co]。状态中附加的一个参数是实时能耗e。

利用稀疏编码对[S′]进行降维处理，根据各个参数对能耗的影响，选取影响较大的参数作为影响能耗的重要因素，同时作为强化学习Sarsa算法的输入，即为状态集合S=[t，h，w，i]。在算法中，降维后动作为C=[[Δt，Δh，Δw，Δi]]，动作C与状态S的维度是一致的，通过对动作和当前状态的分析，从而获得预测的下一个能耗值。

在建模过程中，下一时刻的预测能耗为[E']，实际能耗值为[e]，真实值与预测能耗的误差为[E*=E'-e]，因为不同的维度对能耗均会有影响，因此先对多维度的预测能耗的值与实际值进行归一化的相关处理，归一化后获得的权值之和为最终强化学习Sarsa算法的奖赏函数[r]。

本文奖赏模型设为能耗误差的负值，[r=-λE*]，通过给予Agent惩罚加快其探索进程，当预测值与实际值相差较大时，奖赏的值越小，惩罚越大，当预测值与实际值相差较小时，奖赏的越大，惩罚越小。多维因素影响中奖赏函数为[R=-λ1E*1-λ2E*2-...-λnE*n]。其中[λ]為不同维度上的权值参数，参数越大，R值越小，惩罚越大，反之R值越大，奖赏函数惩罚越小，说明预测能耗与实际能耗更接近。

3.3 降维式自主迁移强化学习算法

本文提出的降维式自主迁移强化学习方法（dimensional reduction and self-transfer reinforcement learning，STRL），通过降低能耗影响维度，并运用强化学习方法进行能耗建模，结合迁移学习方法进行源域与目标域之间的学习，从而提高能耗预测性能。在迁移学习过程中不同任务间实现迁移，需要进行任务间映射，存在映射关系[χ]，使得源域[（ss，as，ss'）]与目标域[（st，at，st'）]相互对应，本文采用欧式距离度量的方法实现源域与目标域之间的适配，满足[{sis，ais，sis'}=χ{sit，ait，sit'}]，通过迁移不同任务间影响能耗的相同特征提高能耗预测速度。

具体算法流程如算法3.2所示：

4 实验及分析结果

4.1 实验设置

本文采用的建筑能耗数据通过当地电力公司数据30分钟采集一次，能耗数据如图4-1，其他数据类型包括：温度、湿度、太阳辐射、风速、光照强度、PM2.5、Co2浓度、So2浓度、Co浓度，实验中源域为A地建筑物能耗，目标域B地建筑物能耗。温度、湿度、太阳辐射等为气象局公开数据，预测中温度等数据为该天的最高数值。

强化学习中学习因子[α=0.75]，折扣因子[γ=0.9]。在实验验证过程中建筑能耗预测的衡量指标采用均方根误差（Root mean square error，RMSE）：

图2为B地某建筑能耗实际值与Sarsa、VFT-HSA、FTRL、STRL算法能耗预测值对比结果图，图中横坐标表示时间，纵坐标表示建筑能耗。在实验过程中，算法都被独立执行20次，求出平均值。由图（d）可知STRL算法的预测值与能耗的实际值最接近，由图（a）可知Sarsa算法的预测值与能耗实际值相差最大，由图（b）可知VFT-HSA算法预测性能优于Sarsa算法，主要因为VFT-HSA算法运用值函数迁移与启发式探索方法提高能耗预测性能，由图（c）可知FTRL算法能耗预测性能优于VFT-HSA算法，因FTRL算法通过堆叠去噪自动编码器挖掘数据之间的共同特征，并共享隐藏层的结构迁移源域与目标域之间有用信息从而提高建筑能耗的预测性能，由图（d）可知，STRL算法相较于其他算法其能耗预测性能最优，这是因为影响建筑物能耗的因素较多，STRL算法通过降维迁移提取影响建筑能耗的关键因素，通过强化学习构建能耗奖赏函数，从而进行能耗的预测，同时利用源域能耗提高目标域建筑能耗的预测性能，更加准确、高效地完成能耗预测，综上可知，STRL算法相对而言是最为有效的建筑能耗预测方法。

表1主要展示了不同[α]值下不同Sarsa、VFT-HSA、FTRL、STRL算法的建筑能耗衡量指标RMSE的值，其值为每个算法都独立执行20次求出的平均值。由表可知，当[α]=0.7时，Sarsa、VFT-HSA、FTRL、STRL算法的RMSE值分别为0.483、0.394、0.324、0.209，每一个值都为不同算法RMSE的最小值，在该[α]值下不同算法的能耗预测性能相对较好。当[α]=0.03时，Sarsa、VFT-HSA、FTRL、STRL算法的RMSE值分别为0.745、0.609、0.597、0.479，对于不同算法而言预测性能较差，分析可知，当[α]值越大时，RMSE值越小，能耗预测性能越好，但超过一定值时预测性能变差，是因为[α]值过大，使得状态值会振荡，从而影响预测效果。同时，由横向可知，RMSE值越来越小，说明能耗预测性能越来越好。综上所述，不同[α]值会影响预测性能，因此[α]值的选取极其重要，选择较优[α]值可提高算法预测性能，并且各算法能耗预测方法依次Sarsa、VFT-HSA、FTRL、STRL算法越来越准确。

图3为不同算法收敛情况下不同Sarsa、VFT-HSA、FTRL、STRL算法的R值的大小，該值为每个算法都独立执行20次求出的平均值。由表可知，算法收敛时Sarsa、VFT-HSA、FTRL、STRL算法的R值分别为0.57、0.32、0.29、-0.21，因R值为能耗实际值与预测值之间的差值和，由表可知，不同Sarsa、VFT-HSA、FTRL、STRL算法的R值越来越接近零值，可知预测值与实际值之间的差值越来越小，建筑能耗预测的准确性越来越高，因为建筑能耗预测过程中STRL算法更多地考虑影响能耗的因素，从而使得预测准确性提高。综上可知，各算法能耗预测方法依次Sarsa、VFT-HSA、FTRL、STRL算法越来越接近实际值，能耗预测效果越好。

5 结束语

针对建筑能耗预测过程中影响能耗的因素较多，能耗数据不足，对于能耗预测带来较多不便，提出一种降维式自主迁移强化学习的建筑能耗预测方法，运用稀疏编码统一迁移学习中源域与目标域之间MDP的不同的维度，其次通过稀疏编码降维找出源域与目标域之间影响因素更高级别的特征，通过提取源域中最有影响因素的特征进行迁移，提高目标域的学习效果，同时结合强化学习Sarsa算法进行能耗建模，通过构造能耗相关的奖赏函数从而建立能耗预测模型，提高建筑能耗预测性能。利用该算法对某建筑物进行能耗数据预测，结果表明采用STRL算法进行能耗预测是有效的，同时将VFT-HSA、FTRL算法应用于实验，实验结果表明，两种算法的能耗预测性能都优于Sarsa算法，但不及STRL算法，因而该算法在多维影响因素下使得能耗预测性能进一步提高，具有较好的准确性。

注释：

1. 基于值函数迁移的启发式Sarsa算法（Heuristic Sarsa Algorithm Based on Value Function Transfer， VFT-HSA）

2. 基于特征迁移的强化学习Sarsa算法（Reinforcement learning Sarsa Algorithm Based on Feature transfer， FTRL）

参考文献：

[1] 胡达明，陈定艺，单平平，等. 夏热冬暖地区居住建筑朝向对能耗的影响分析[J]. 建筑节能， 2017（5）：57-60.

[2] 陈础. 绿色节能理念建筑结构设计探讨[J]. 低碳世界，2019，9（1）：168-169.

[3] 侯恩哲. 《中国建筑节能年度发展研究报告2018》发布[J]. 建筑节能， 2018（4）：133-133.

[4] 何熹. 量面保温：建筑节能的“顶”层工作[J]. 保温材料与节能技术，2018（1）：4-11.

[5] SUTTON R S， BARTO G A. Reinforcement learning： an introduction[M]. Cambridge： MIT Press， 1998.

[6] Olshausen B A， Field DJ.Emergence of simple-cell receptive field properties by learning a sparse code for nature images[J]. Nature， 1996， 381（6583）：607—609.

[7] Sch?lkopf B， Platt J， Hofmann T. Efficient sparse coding algorithms[C]// The 13th International Conference on Neural Information Processing Systems. Hong Kong， China. 2006：1672-1680.

[8] 胡龄爻，傅启明，陈建平，等. 一种面向建筑节能的强化学习自适应控制方法[J]. 计算机工程与应用， 2017， 53（21）：239-246.

[9] 沈丹丹. LEED与《绿色建筑评价标准》认证体系的比较[J]. 建设科技， 2018（6）： 40-43.

[10] Qureshi A S， Khan A， Zameer A， et al. Wind power prediction using deep neural network based meta regression and transfer learning[J]. Applied Soft Computing， 2017， 58（1）：742-755.

【通联编辑：梁书】