基于分布式技术的公共机构能耗评价系统中几个关键问题研究

2021-12-07 02:38磊曹文继张维化
内蒙古财经大学学报 2021年6期
关键词:定额能耗数据库

师 磊曹文继,张维化

(1.内蒙古财经大学 大数据应用服务中心,内蒙古 呼和浩特 010070;2.内蒙古财经大学职业学院,内蒙古 呼和浩特 010070;3.内蒙古财经大学 内蒙古自治区经济数据分析与挖掘重点实验室,内蒙古 呼和浩特 010070)

节约能源资源是我国经济社会发展的重要战略,公共机构节能是全社会节能的重要领域[1]。用科学合理的技术建立有效的能耗定额体系,是进一步推进我国公共机构节能工作的基础。目前,我国对公共机构能耗定额的研究方向大致有:一是公共机构能耗定额的分类方法,机构类型划分时通常采用办公、医疗、教育、商业等方式;二是公共机构能耗定额的制定方法,通常采用单一的数据统计方法或是数据统计与软件模拟相结合的方法;三是能耗数据来源,一般通过调查统计或实际测量,也可以通过模拟分析的方法得到。而国内以能耗定额为标准,基于大数据方法为公共机构能耗定制评价体系的研究还是空白。现在,大数据的浪潮已席卷社会的各行各业,大数据的方法和相关技术使得人们对数据的处理能力显著提升,那么运用大数据相关方法和技术,设计公共机构能耗分析与评价系统对能耗数据进行分析和挖掘,从而对公共机构用能规律和能耗模式进行更全面的认识和评价,可有效促进公共机构节能减排,加速人、建筑和城市的和谐发展。

一、公共机构能耗数据特征

公共机构的能耗数据来源主要有三类。第一类是分布在公共机构建筑中的各种能耗采集设备采集的数据,如电表、水表、热量表等各类智能表具。该类型的数据通常采样周期短,在时间上有着连续性和渐变性,也就是说可能在短时间内变化缓慢,甚至是没有变化。同时由于设备数量多,会出现同一时间有大量数据提出存储请求,所以能耗采集设备采集的数据有着数据量大及高并发的特点。第二类是公共机构基础信息和统计类数据,其中,公共机构基础信息包含机构类型、地理位置、用能人数、建筑面积、汽油消费量等,统计类数据包括全区公职人员相关数据、医院住院相关数据等。该类型数据一般都是机构用能情况的描述或是无法依靠智能设备实时采集的数据,通常该类型数据需要由公共机构管理部门、人社厅、医保局等相关单位提供。该类型数据来源广、数据类型多种多样,所以有着数据复杂且维度多的特点。第三类是环境数据,机构的用能结构与机构类型息息相关,而相同类型机构的总能耗与机构地理位置的环境也是密不可分的[2]。以内蒙古为例,内蒙古地形呈横长型,位于北纬37°24′-53°23′,东经97°12′-126°04′之间,横跨多个经度区域,各公共机构单位星罗分布,地区温度对当地单位能耗造成的影响已不可忽略,且根据国家机关事务管理局关于印发《公共机构能耗定额标准编制和应用指南(试行)》〔2019〕5号通知的指导意见[3],对公共机构能耗定额指标进行编制时要划分气候区域。因此,为科学合理的评估用能机构,制定统一、公平、准确的能耗定额标准,则不得不考虑环境的影响。第三类数据通常为公开数据,可按照一定的规则,使用程序或脚本从互联网爬取。

通过分析国内现有的研究成果,同时与分析内蒙古公共机构能耗评价结果相结合,可以归纳出公共机构能耗数据有以下几个特点。

(一)数据缺失

数据缺失与异常零值是数据处理过程中常见的异常数据,公共机构能耗数据中有缺失值的主要原因就是用能机构漏报数据,而异常零值是由于用能机构无法获取相关用能信息导致。能耗计量设备采集的数据出现缺失及异常零值,通常因为设备损坏或是数据传输出现问题导致。数据缺失在程序处理时一般表现为null,在处理过程中比较容易辨认,而异常零值数据表现为0,该零值是否为异常零值不易辨认,需要结合用能机构其他相关信息综合判定。

(二)数据异常

数据异常通常也称为数据突变,公共机构能耗数据中有数据异常主要由于用能机构数据填报人员的误填造成,具体表现为公共机构用能人数、建筑面积与使用能耗差异过大,例如机构用能人数少、面积小,而其能耗远远超出平均水平。公共机构实际的建筑面积和用能人数有多有少,无法通过设定阈值来检测数据异常,针对这种情况本设计采用“机构行业划分+正态化”的方法计算能耗合理值范围来识别数据异常。能耗计量设备的数据异常比较容易识别,该类数据具有连续性和渐变性,也就是说当数据在短时间内出现突变则说明该数据出现异常。

(三)数据类型和维度多

传统的能耗定额由于数据量不大、维度不多,可以比较容易采用数据统计方法进行评价分析,而为了更加公平、准确制定统一的能耗定额标准,需要引入更多与用能机构相关的信息,这使得在数据量不断增多的同时,数据维度也不断加大,传统的统计方法已不能胜任多维数据的决策分析。例如传统能耗分析仅需要用能机构的用能人数、建筑面积、电消费量等基本能耗数据,而在大数据背景下制定能耗定额标准还需要地理环境、用能人员信息、医疗数据、教育数据等多方面数据的辅助。因此,基于公共机构能耗的多维数据分布规律和模式,也是公共机构能耗数据的一项重要特征。

二、数据预处理

数据预处理的目的是保证数据的完整性、一致性与准确性。通常数据预处理分为四个步骤,即数据清洗、数据集成、数据降维及数据转换。这些步骤在其他领域的数据预处理过程中得到了广泛应用,但是,公共机构能耗数据的特点决定了不能照搬通用数据预处理的理论,而是要采用针对性的流程与方法。本设计在预处理阶段借助东方国信数据治理平台,依托其中的元数据管理系统,构建、管理、维护和使用数据库中的数据,通过该平台可以清晰地知道有什么数据、数据在什么地方、如何利用数据及更好的理解数据、发现和描述数据的来源和去向。基于数据治理平台,本设计构建了能耗数据分层的处理方式,将数据划分为SRC层(源数据层)、ODS层(数据运营层)、DWM层(数据中间层)以及APP层(数据应用层),并建立公共机构能耗数据预处理流程与方法。

首先将原始数据存储于SRC层,对其中的能耗数据进行数据转换,标准GB/T 2589-90中规定了计算公共机构综合能耗,需要将二次能源(如电能、汽油、柴油等)及其他能源折算为一次能源(如原煤、原油、天然气等)的当量定额煤,或通过标准中规定的折算系数直接计算出能源的定额煤。同时,在计算公共机构综合能耗时,需要将职工宿舍和对外开放盈利区域的能耗剔除。在计算严寒地区和寒冷地区的公共机构能耗定额指标时,还要额外计算采暖建筑面积的供暖能耗。将转换后的数据存储于ODS层,该层为面向主题的数据运营层,主题按照业务的分类方式而划分,SRC层中的数据经过抽取、清洗等基本操作后装入本层。然后对SRC层进行数据清洗,公共机构能耗数据受获取渠道、填报人员水平、机构信息完整度等多种因素影响,特别是合署办公机构没有分项计量,数据会产生缺失、零值、机构类型不明等各种异常数据。初次清洗仅对原始数据的明显异常做出处理,公共机构能耗数据的异常还表现在单位面积能耗、人均能耗、供暖能耗等计算后数值上,通常的异常值为低于或高于合理值范围,再经过计算后仍需要再次进行数据清洗。将初次计算或对数据做轻度聚合操作后的数据装入DWM层,目的是提升公共指标的复用性,减少重复加工。最后是数据集成,为便于后续研究,需要将公共机构能源消费数据及预处理后的结果进行整理,融合到新的数据库中,每个公共机构数据为一条数据完整的记录,包含单位名称、区域名称、机构类型、机构分类标签、用能时间、建筑面积及所有该机构能耗相关数据。将集成后数据装入APP层,提供给数据分析及展示使用,最终建立完成公共机构的能耗数据库,为后续的分析计算做好数据基础准备。

三、数据存储设计

(一)数据库选型与设计

机构能耗数据特点为多样化,各个机构能源消费的类型有很大差别,若使用关系型数据库,随着数据量的增大,数据存取的实时性将逐渐下降,会产生大量无用能耗数据,影响数据库性能。且,随着社会的发展,公共机构的能源消费种类也会逐渐增加,关系型数据库扩展性较差,不能完全满足存储需求。因此本文设计优先考虑NoSQL数据库,通过对比三种主流NoSQL数据库(列存储HBase、键值存储Redis、文档存储MongoDB)及关系型数据库MySQL,选出最适合公共机构能耗数据存储的数据库。

通过对数据库性能的比对(见表1)。MongoDB在数据查询、可操作性方面明显优于其他两个NoSQL数据库,在读写性能及水平扩展能力方面也是优于一般关系型数据库。同时,MongoDB支持分布式编程模型MapReduce、支持海量数据并行处理。MongoDB文档型数据的好处还体现在数据结构设计阶段,可以弱化初始的数据结构设计;在存储的时候,如果需要添加新的字段,可以在存储数据时直接添加,无需事先设计集合的字段格式,集合扩展极为方便。因此,最终选取MongoDB数据库作为能耗数据存储系统。

表1 NoSQL数据库与典型关系型数据库MySQL的比较

本文设计使用3台服务器组成数据存储的分布式集群,采用MongoDB的分布式部署,即分片集群(Sharded Cluster)的部署方式,分片集群将数据分布到多台服务器上,可以用这种部署方式来存储大量数据并提高系统的读写性能。分片集群中包含一个配置服务器(Config Server),负责存储集群的信息,主要存储分片和块数据信息;一个路由(MongoS),负责路由和集群的协调工作,使得集群成为一个整体;三个分片(Shard),负责存储数据,每个分片都是复制集,用于存储实际的数据块。整个数据库集合分成多个块存储在不同的 Shard Server中。

(二)数据库集合及数据格式设计

在数据库部署完成后,首先需要在数据库中建立数据表,在MongoDB中数据表被称为集合,MongoDB在创建集合时很简单,不需要向关系数据库事先设计表的字段格式,而且直接创建空集合,向里面存入数据就可以了,或者不创建集合,直接存入数据,系统将自动创建相应的集合。MongoDB的优势就是弱化初始的数据结构设计,因此在实际数据存储中,一个机构的文档只包含与本机构相关的能源数据,其他未使用的能源信息或其他不相关的数据不需要保存到该机构文档中。

根据前文表述,本设计将预先创建三类集合,分别为实时采集数据集合、统计数据集合及环境数据集合。实时采集数据集合与环境数据集合根据项目具体情况确定集合数量,以内蒙古公共机构能耗分析为例,实时采集数据包含电力数据集合、供暖数据集合,环境数据集合存储内蒙古自治区各盟市旗县的气象数据,用于计算温度系数;统计类数据集合包括公职人员信息集合、住院信息集合及公共机构能耗信息集合。依据内蒙古公共机构能耗分析采集数据的类型,已在MongoDB集群中创建6个原始数据集合,为之后的数据计算提供数据支撑。

公共机构能耗数据经计算后需创建结果集合,该集合数据包含机构基础信息、原始用能数据、标准化后用能数据、机构分类信息、能耗计算数据等信息,本设计考虑到后期可视化展示的便捷性需求,因此将属于同一机构的信息封装到一条数据中,使用文档的嵌套格式区分不同种类信息,具体数据在嵌套文档中,以下为单条数据的几个主要文档内容。文档中“_id”为该条数据的唯一id;“RawEnergy”为能源消费原始数据;“StdEnergy”是经标准化之后的能源消费数据,单位是千克标准煤;“OrgInfo”字段存放机构基础信息;“OrgCount”字段存放该机构能耗计算结果,如综合能耗、单位面积能耗、人均能耗、单位面积供暖能耗及各项计算指标是否有效的标志;“OrgArea”是机构所属的地理位置信息;“OrgClass”是该机构的区域及行业分类;若该机构为合署办公机构,将合署办公总能耗存储在“OfcCount”字段中。在计算中如遇到新增分类,可直接以新的嵌套格式加入到该文档中。

四、数据计算平台设计

(一)平台架构设计

本设计实现了基于Hadoop的能耗大数据分析平台架构,在逻辑上分为4层[4],最底层是数据存储层,所有的原始数据及经过处理后的数据都为数据存储层的输入,同时数据存储层中的数据为Hadoop平台及其他的能源管理系统提供支持。基于Hadoop数据存储层,构建并行计算与数据处理层,由于计算能耗定额在使用数据挖掘算法时,需要反复访问同一数据集,并对其中多个子集进行操作,因此Hadoop中基础组件MapReduce将不能满足计算需求,而Spark的RDD(弹性分布式数据集)可以提供高效的数据共享能力,同时还具有高效的容错能力及可扩展的机器学习算法库,可以满足计算需求。除此之外,该层包含统计学习组件和流计算框架等,根据分析任务的不同,选择合适组件进行数据处理。Hadoop平台的顶层是应用层,应用层直接为用户提供服务,该层拥有统一的系统图形化界面,提供数据可视化、数据挖掘与数据分析、用户权限与统一认证、集群运行监控和开放能力等服务和功能,各项服务以组件的形式提供,可以根据需求变化动态增减。整个Hadoop平台在系统纵向为每一层都提供统一的配置管理,使系统内各组件之间做到“低耦合”“高内聚”。

(二)数据计算

以内蒙古公共机构能耗评价为例,基于本文设计的系统,第一步对内蒙古各个盟市旗县近十年的日平均气温使用kmeans算法进行聚类[5],随机设定3个聚类中心,按照最邻近原则把待分类样本点分到各个聚类,然后按平均法重新计算各个聚类的中心,从而确定新的聚类中心。一直迭代,同时依据各盟市的年平均气温,最终得到内蒙古自治区的三个分区及温度系数,分别为极寒区、寒冷区A、寒冷区B。第二步对公共机构类型进行分类。采用“初步匹配和精细聚类”两步策略,首先对所有公共机构的机构名称进行相似性匹配,然后在匹配结果的基础上,以机构的建筑面积、用能人数及用能种类为数据特征进行聚类分析,最终得出四个一级分类及十个二级分类。

依据前两步计算结果,目前已经为所有机构制作了三级标签,分别为温度区、一级行业分类和二级行业分类。综合考虑公共机构所处气候区、行业特点、规模大小等对用能规律的影响,基于本文设计公共机构能耗评价系统,使用已制定出不同分类的公共机构能耗定额算法,依据算法要求计算机构能耗得出最终的定额标准结果。表2为内蒙古自治区教育机构(一级行业分类)能耗定额标准计算结果。

表2 内蒙古自治区教育机构单位面积能耗指标

本文依据公共机构能源数据的特点,设计了具有针对性的数据预处理流程与方法,以及一种读写性能高、横向扩展便捷的分布式NoSQL 存储方式;本文设计了基于Hadoop的能耗大数据分析平台架构,在满足能耗算法的并行高效计算要求的基础上,为后期的数据可视化展示、机构的能耗监测管理等功能提供了可靠的运行基础;最后基于本文设计的系统,根据内蒙古自治区地理及公共机构用能类型特征,提出了使用温度聚类及两步策略的行业分类方法,通过实例验证了本文设计的公共机构能耗分析与评价系统的可行性。

猜你喜欢
定额能耗数据库
120t转炉降低工序能耗生产实践
探讨如何设计零能耗住宅
河南:修订工农业和城乡生活用水定额
水下飞起滑翔机
日本先进的“零能耗住宅”
浅谈采用铁路及地方两种定额编制概预算的差异
75定额和451定额在无线通信设备安装工程概预算中的变化对比分析
数据库
数据库
数据库