吴闻婧, 张轩涛
(天津市建筑设计院,天津 300074)
智能建筑是集现代科学技术之大成的产物,是一个国家综合国力和科技水平的具体表现之一。它包含了网络技术、信息技术、智能化技术、无线局域网技术等。智能建筑真正实现“智能”的关键在于其建筑内所有信息的交互,信息来源于数据,只有对数据进行加工、整理、去伪存精,才能提炼为信息。
数据挖掘(Data Mining,简称“DM”)是一项备受瞩目的新兴科技,被誉为大数据处理的骨干技术,集人工智能、机器学习、数据可视化和统计数学于一体的多学科产物。近年来,DM受到各行各业的关注,如银行和金融服务、零售、医疗保健、电信和反恐等。在建筑领域中使用数据挖掘技术在节能和改善室内环境方面也产生了一系列的成果,但相较于其他行业,在建筑领域数据挖掘的应用较少,目前主要应用在处理预测、故障诊断和建筑领域的最佳控制等方面。Amin-Naseri和Soroush提出了一种混合神经网络模型,结合聚类分析算法来预测每日电气峰值负荷,结果表明,与统计方法(如线性回归)相比,基于DM的方法在预测准确性方面具有显着优势。Ahmed等人使用分类技术研究了建筑特性和气候条件对室内热舒适度和室内照度水平的影响,开发了三种方法,即朴素贝叶斯、决策树、支持向量机。
虽然DM技术已经在建筑领域中使用,但是之前的研究很少充分利用DM技术来发现海量数据集,且很少对建筑智能化系统的运行数据进行挖掘分析。在建筑智能化系统中的数据中应用DM存在两大问题,一是大多数DM技术都非常复杂,很少有楼宇自动化专业人员能够掌握它们。二是DM本身无法分辨所发现知识的价值或重要性,因此仍需要建筑领域的专业知识来解释建筑各机电系统中的知识。但使用DM技术挖掘建筑运行数据库缺乏通用方法,因此本文提出一种适用于使用典型DM技术挖掘建筑运行能耗数据的运行模式。
某大型文化综合体一期项目选址于滨海新区核心区天碱地区,主要为市民服务的公共活动中心,项目的建设将进一步完善核心区功能,充分整合并形成滨海新区更大的文化优势,成为文化艺术发展和传播的优质平台,为居民提供丰富的公共文化服务。
项目一期规划总用地面积约为12ha,总建筑面积31.2万m2,绿色二星建筑群。一期项目建设内容共有“五馆一廓”六个单体,包含“一个长廊”(即文化长廊)及“五个场馆”(即演艺中心、图书馆、科技馆、美术馆、市民活动中心)。其中,文化长廊作为整个项目的核心空间,统筹衔接五个文化场馆,实现功能的有效互补,形成多元复合的空间布局,成为一个文化综合体,一期效果图如图1所示。
本项目各个单体均为绿色建筑,各个单体内智能化系统较多,主要有安全防范、出入口、建筑设备监控、客流量分析、智能照明、能耗监测、ATSE监测管理、停车、光伏等系统,如图2所示。
图2 单体中各子系统显示图
某文化综合体的数据来源于五馆一廊及管控中心的智慧集成平台,包括运维管理平台和能源管理平台。运维管理平台数据主要为众多智能化子系统设备运行情况数据等。其中运维管理平台的数据来源主要各单体的的智能照明、建筑设备、客流量分析、视频监控等智能化系统,能源管理平台数据来源主要包括各单体中的电表、水表及冷热量表数据。
数据的分析是建立在数据正确的基础之上。然而,建筑物中各个系统数据采集系统中的测量、记录、转换、传输过程的任一环节的故障都会导致数据的缺失或异常;另一方面,当数据采集系统正常,由于特殊事件(如线路检修、消防演习等)引起各个系统的异常变化,也会导致数据异常。如果这些异常数据得不到有效的判断和校正,它们将以伪信息、伪变化的规律提供给绿色建筑的数据分析系统作为参考,进而导致错误的决策。其中能耗数据有功电能为主,考虑到研究对象为绿色建筑,多有能耗监测平台或智能系统集成平台,数据中异常值较少,且多为维修停电导致数据为空值或0值。针对能耗系统表计数据非减的特点,经对比分析各种算法的优缺点,采用单调序列逻辑检测算法进行异常值的检测,并采用均值插补法进行异常数据处理。
有些变量呈现一种非递减或者非递增的趋势。如电表的表底值就呈现一种非递减的趋势。以呈现非递减趋势的时间序列变量为例,设xt为非递减的时间序列变量,新监测数据xt+1满足xt+1-xt=λ≥0时,为非异常数据。然而,由于随机误差的影响,λ可能会出现在一定范围内小于0的情况,即σ<λ<0也是正常的,当λ<σ时可直接将xt+1判为异常数据。根据概率论的知识,长时间连续出现小于0的情况也是异常的,设置连续次数上限k,若出现连续k次小于0的情况,则数据异常。图3为单调序列逻辑检测法的流程图。
图3 单调序列逻辑检测流程图
采用均值插补法对异常数据进行处理。均值插补,顾名思义就是用调查项中有回答单元的均值替代无回答的缺失值。均值插补法就是分别计算各目标变量中回答单元的均值,然后把各组均值分别作为各变量所有缺失项的插补值,插补值的计算如下:
(1)
式中,αi为示性变量,αi=1是有回答,αi=0是无回答;n1为回答单元数。此时总体的均值估计为:
(2)
插补后的样本方差为:
(3)
聚类分析(Cluster Analysis)是根据事物本身的特性研究个体分类的方法。根据分类对象不同分为样品聚类和变量聚类。变量聚类在统计学中又称为R型聚类,常用相似系数来测量变量之间的亲疏程度。在实际中有着广泛的应用,一方面,通过变量聚类可以发现某些变量之间的一些共性,以有利于分析问题和解决问题;另一方面,变量聚类也可以作为某些数据分析的中间过程。变量聚类的算法一般从相似系数矩阵出发,关于变量的谱系聚类过程与从距离矩阵出发,关于样品的谱系聚类过程类似,只是由于相似系数越大,表明变量之间越相似,因此,每次应选取相似矩阵或更新的相似矩阵中主对角线以外的最大元素所对应的两个变量或两个类合并。具体求解方法步骤如下文所示。
假设对p个变量X1,X2,…,Xp各观测了n次,观测向量为x(j)=(x1j,x2j,…,xnj)T(j=1,2,…,p)。
变量的观测向量x(i)与x(j)间的相似性可以用相似系数度量。
设x(i)=(x1i,x2i,…,xni)T,x(j)=(x1j,x2j,…,xnj)T,则x(i)与x(j)的相似系数为:
(4)
显然,|rij|≤1,rij=rji且rii=1。若将x(i)和x(j)看做n维空间中的两个向量,则rij是它们的余弦夹角。变量观测向量x(1),x(2),…,x(p)两两间的相似系数构成相似系数矩阵为:
(5)
显然,对于标准化数据,R即原观测数据的相关系数矩阵,这时,|rij|的大小反应了两个变量Xi与Xj线性关系的强弱。
若R为相关系数矩阵,以变量的线性关系强弱作为相似性度量,这时可令dij=1-|rij|(i,j=1,2,…,p)。
通过求得变量之间的线性关系强弱即可实现变量之间类别之间的区分。
数据的分析是建立在数据正确的基础之上的。然而,数据的异常会直接导致数据分析无法了解系统真实的运行状态,甚至造成对系统运行的错误评估。限于篇幅问题,本文举例对文化综合体中图书馆的照明插座用电量进行分析,利用上文介绍的单调序列逻辑检测算法进行照明插座用电量的异常数据的检测。本文实现对从2018年1月1日至2019年3月10日之间的照明插座的用电量的数据进行分析,电能数据存储周期为一个小时,一天24个数据点,本次检测时间段内的数据点位共包括 10 224 个数据点,本研究利用Python编写算法对数据清洗。为便于数据图形的查看,本文截取时间为2018年1月至2018年10月之间的数据进行图形展示,由图4可知,在2018年1月20日的13点和14点存在两个异常数据点,对此两个数据点完成了数据检测及补值。
图4 图书馆照明插座用电量数据清洗图
本文对图书馆建筑的照明插座耗电量按日进行分组。由于数据采集间隔为1h,每天有24个功耗数据,故本文共对426个完整日的能耗数据(即10 224点观测数据)进行进了一步分析。
本研究采用变量聚类的方法,对建筑照明插座的日常耗电量的角度识别典型的建筑运行模式。为实现对图书馆照明插座用电量的运行模式进行挖掘分析,首先对426个完整日的数据分成426组,一组数据包括24条数据,且为实现对每组数据(即日数据)的整体特征进行识别,首先对数据进行平移处理(使用每组数据中的24条数据分别减去其均值得到新的数据组)。故最终形成一个426×24的矩阵,对此矩阵使用变量聚类的算法进行分析。本文利用SAS软件进行算法的运行处理,按照最大类别进行分类,最终聚类结果分为5类,在这里选择每类中1-R2最小的数据,代表此类的特征曲线。故可分别找到可代表时间为2018年11月5日,其值为0.0528;2018年2月15日其值为0.2187;2018年11月21日其值为0.0285;2018年7月23日,其值为0.0977;2018年9月15日,其值为0。其特征运行模式如图5所示。
图5 照明插座运行能耗模式
由上文对图书馆照明插座对典型日用能模式进行分析,分析结果表明根据不同的时间用能情况的不同,及人的行为用能习惯,可能导致典型日用能模式的类内差异性较大。而对于采用聚类分析得到各种不同的日用能模式,需要对其特征结合专业的知识及现场的运行情况进行专业解释,才能实现对挖掘的内容进行更加合理的利用。
(1)从各类内在差异性看,各类在能耗的峰值、均值、跨度等方面,其不同时刻能耗值及能耗跨度的差别较大;其内部形状也有微小差异不同的用能行为,可能导致的建筑能耗差异性较大。
(2)从上述各自聚类图可知,其中第五类只有一天,这类模式也正代表着典型的异常用能模式,在01:00~21:00一直处于高用能情况(经与现场物业人员沟通,了解到当天处于活动日,故照明用电一直处于打开状态)。
对于运行模式2,可发现能耗在20:00以前均已经下降,此部分运行情况结合现场运行情况,此时间是由于图书馆存在提前闭馆进行馆内事情处理。
对于运行模式4,可发现由于存在周一上午闭馆,进行图书馆整理、打扫。
对于运行模式1,则是由于在下午阶段,由于光照问题,照明用电在逐步提升。
对于运行模式3,经了解则是处于完全定时状态控制各灯具的打开和关闭,故中午用电依旧存在问题。
而其中运行模式内部在不同时刻用能不同的原因,则可能是受人为影响,比如插座的用电,用于手机、笔记本充电等。