办公建筑能耗数据异常检测

2020-11-27 14:19:24戴宁芳谭洪卫
建筑热能通风空调 2020年10期
关键词:公共建筑线图正确率

戴宁芳 谭洪卫,3

1 同济大学绿色建筑及新能源研究中心

2 同济大学机械与能源工程学院

3 联合国环境规划署-同济大学环境与可持续发展学院

中国是世界第一大能源消费国[1],建筑能耗占社会总能耗的比重超过了20%[2-3],其中,公共建筑以不到居住建筑50%的面积占了建筑总能耗的38%[4]。因此,公共建筑节能潜力巨大。自2007 年来,中国政府制定和颁布了一系列政策法规和相应技术导则,开展国家机关办公建筑和大型公共建筑能耗监测平台,至今积累了许多分项,分类乃至设备层级的能耗数据。

虽然投入了大量人力和财力,但由于数据在传输环节容易受到设备失效、通信中断等因素的影响,再加上用能规律也可能发生异常状况,导致目前平台积累的数据质量普遍不高。为了获取高质量的数据,通常需要对能耗数据进行异常识别。现有的异常数据检测方法主要分为三种:基于统计的方法、基于距离的方法、基于密度的方法。

1)基于统计

如果目标数据集服从一定的分布(例如Gaussian分布),利用目标数据集可以估计出分布模型的参数,通过确定可信区间就实现了异常数据检测。Chen and Wu[5]利用GMM(Gaussian Mixture Model)分离出地球化学元素调查数据中的异常值。Brown 等[6]定义异常活动为消费量偏差绝对值大于3 倍标准差(3σ 法则)。

箱线图法是另一种基于统计的方法,它不要求数据集服从特定分布,根据目标的上下四分位值就可以确定阈值。Liu 等[7]利用四分位间距来去除变制冷剂流量系统中产生的异常数据。

2)基于距离

基于距离的异常检测是一种较为常见的方法,如果目标数据点与其他数据点的距离过大,则被判定为异常点,这种方法由Knorr[8]率先提出。Li 和Li[9]使用K-means 聚类识别了风电系统中的异常数据。Fouzi Harrou[10]将交通拥堵残差数据定义为异常数据,利用kNN 方法对残差数据的异常值进行检测。

3)基于密度

基于密度的方法是从基于距离的方法发展而来的。DBSCAN 是一种典型的基于密度的聚类算法。Czerniawski 等[11]将其用于建筑点云的划分。Yuanqiao Wen 等[12]通过DBSCAN 对船舶AIS 轨迹数据中的转折点进行聚类,用以获得转折面积。

另一种典型的基于密度的方法是Breunig 等[13]提出的基于局部离群因子的异常检测算法LOF(Local Outlier Factor)。相比起基于全局搜索的DBSCAN,LOF 方法还能适用于存在不同密度的数据集群。Dinga 等[14]将LOF 算法用于光伏系统中电流数据的异常检测,并通过扩展数据集解决了LOF 算法不适应小数据集的问题。

综上所述,各种异常识别方法在许多领域有了成功的应用,但在公共建筑能耗领域依旧存在算法的适用性和实用性问题。因此,本文提出了一种公共建筑能耗异常识别框架。

1 研究概要

异常能耗可以被分为传输异常和运行异常。本文异常检测框架见图1。

图1 异常能耗识别框架

2 能耗异常检测

2.1 数据传输异常检测

2.1.1 值缺失

缺失值通常发生在数据传输部署完毕之前,由于系统未配置完全导致的个别电表缺少某段时间的数据,在数据传输部署完毕之后也存在少量缺失的情况。缺失值的识别只需将数据按照时间戳匹配,识别流程见图2。

图2 值缺失识别流程

2.1.2 电表小数点跳动

对于个别电表,用电量数据可能存在小数点位移的现象。在图3 中,17:00 时发生电表小数点左移,导致积累用电量减小,该小时用电量为负值,在22:00 时积累用电量恢复正常,该小时用电量为偏大值,两个异常值为同一数量级,期间的能耗值为正常值。

图3 小数点位移异常能耗

提出识别此类异常流程(图4)。先以负值确定是否发生此类异常,再通过搜索邻近值内同一数量级的对象来获取另外一个异常点。

图4 电表小数点位移识别流程

2.1.3 能耗积累

由于通信等原因导致电表累积用电量数据传输中断,数据采集系统通常会利用前一时刻的数据进行填补,在这种情况下计算出的能耗数据具备特有规律,本文称之为能耗积累。根据数据传输中断时间不同,分为长期能耗积累和短期能耗积累。长期能耗积累是指能耗积累时间跨度超过2 h 的情况。在图5(a)中,13:00 时-16:00 时发生了长期能耗积累,其异常时间跨度为4 h。13:00 时为积累头部,能耗值会低于正常值;14:00 时-15:00 时为积累中部,能耗值为0;16:00时为积累尾部,能耗值会大于正常值。短期能耗积累是指积累时间跨度为2 h 的情况。在图5(b)中,16:00时-17:00 时发生了短期能耗积累。16:00 时为积累头部,能耗低于正常值。17:00 时为积累尾部,能耗值大于正常值。

图5 能耗积累

1)长期积累异常

对于长期积累异常,首先根据其积累中部为零的特点定位可疑数据段,再利用K-means 聚类算法判断积累尾部是否为异常值,最后根据其是否在网关层体现出连带效应来判断结果是否可信(图6)。

图6 长期积累异常识别流程

2)短期积累异常

对于短期积累异常,首先利用K-means 聚类判断目标数据是否具备积累尾部特性,再使用相同方法判断其前1 h 的数据是否具备积累头部特性,最后根据其是否在网关层体现出连带效应来判断结果是否可信(图7)。

图7 短期积累异常识别流程

2.2 运行异常识别

除了数据传输异常,能耗异常里的其他部分都可归因于建筑运行规律的异常。本节初步确定了运行异常识别流程。

2.2.1 长期零值异常

造成长期零值异常的原因包括设备的断电维修、切换备用等。对于一个数值大于零的能耗数据,如果连续超过一周能耗为零,该段能耗将被标记为可疑能耗,相关人员应去现场寻找原因(图8)。

图8 长期零值异常识别流程

2.2.2 其他运行异常

由于异常发生时,能耗的变化规律会与往常不符,根据这个特点可以判断能耗数据是否异常,本文提出了一种基于运行规律变化特点的异常识别方法。

通过min_max 归一化消除数值上的差异并采用箱线图做异常检测(图9)。对于工作日,归一化后的上下限较为紧密,对异常值的敏感性好;对于休息日,归一化后的上下限较大,对异常值不敏感。

图9 日能耗运行规律(归一化后)

图10 为运行异常识别流程,数据集将根据小时和日类型划分为24*2 种,其算法核心目前为min_max箱线图。

图10 其他运行异常识别流程

3 算法拓展

本节将对比不同方法,对运行异常识别部分的算法核心进行拓展。同时,针对不同类型的能耗数据,给出了推荐算法。

3.1 算法优化

本文选择了单独的3σ,LOF 以及普通箱线图方法与本文提出的异常识别框架在不同情景下进行异常识别效果对比。

3.1.1 数据类型一

该类数据为全年波动较大的能耗,代表办公建筑的空调能耗、特殊的照明插座能耗(混入某些与室外气象相关的能耗,例如电风扇、加热器)。案例数据中最大月与最小月能耗差别34%,存在日类型、小时差异(图11)。

图11 建筑能耗画像

图12 为几种方法的识别结果。对于工作日能耗,基于本框架的异常识别方法具备明显优势,在异常率为低于5%时,识别的正确率可以保持在90%以上,错误率为2%~3%,对于10%以上异常情况正确率大幅下降。3σ 效果最差,这说明建筑能耗分布不服从高斯分布。对于休息日能耗,由于其规律稳定性差,在1%异常率的情况下,本方法的识别率仅为60%。LOF 算法现出了优势的一面,单独的算法在1%异常率的情况下正确率为80%,错误率小于1%。原因是由于不稳定工作日能耗数据集存在多个数据聚集中心,其他方法都是全局搜索型算法,对多聚集中心数据集里的异常值不敏感。而LOF 算法利用局部离群因子,将判断异常的范围限定在目标值附近,识别效果会显著加强。

图12 识别结果

综上,对于该类型数据,异常识别框架内的算法核心在工作日时选择min_max 箱线图,在休息日时选择LOF 算法,可得到最好的效果。

3.1.2 数据类型二

该类数据为全年波动较小的能耗,代表办公建筑种的照明插座能耗,全年逐月平均工作日能耗逐渐上升说明其用电设备逐渐增多,具备动态增长特点。案例数据中最大月与最小月能耗差别17%,存在日类型、小时差异(图13)。

图14 为几种方法的识别结果。在工作日,普通箱线图的效果最好,即便异常率达到了20%,其正确率依旧在90%,同时只有少量的识别错误数量。在休息日,普通箱线图和LOF 方法均有较好的效果,在异常比例小于5%时,正确率都达到了80%以上。

图13 建筑能耗画像

图14 识别结果

综上,对于该类型数据,异常识别框架内的算法核心在工作日时选择普通箱线图,在休息日时选择LOF 算法,可得到最好的效果。

3.2 不同情景算法拓展

根据上面的结果,考虑不同的能耗特点,总共存在四种选择方案,汇总如下(图15)。

图15 核心算法选择逻辑

结合以上的算法选择逻辑和建筑能耗特点,给出不同类型建筑的异常检测算法推荐,见表1。

表1 公共建筑异常识别核心算法推荐

4 结语

本文提出了一套公共建筑能耗异常检测框架。该方法有两个主要贡献:一个是将异常能耗分为数据传输异常和运行异常,根据数据传输异常的独有特点可以实现高识别率和低错误率,这为运行异常识别提供良好的数据环境。另一个是采用多种算法的组合,对不同公共建筑能耗的运行异常检测提供了不同的算法组合。结果表明,在异常占比达到5%时,异常检测结果的正确率在85%以上,错误率在4%以下。

本文的研究结果可以很容易地部署在目前的能耗监管平台上,无需其他额外数据的介入。对于运行异常识别所提供的算法目前只针对空调能耗和照明插座能耗的层面,缺少对于其子分项的适应性研究。未来的研究工作将把目标放在这些能耗上,实现更加灵活的异常检测算法。

猜你喜欢
公共建筑线图正确率
个体化预测结肠癌术后发生并发症风险列线图模型的建立
大型公共建筑智能化系统造价控制
公共建筑室内绿色环保装饰的探讨
门诊分诊服务态度与正确率对护患关系的影响
基于箱线图的出厂水和管网水水质分析
供水技术(2020年6期)2020-03-17 08:18:36
节能材料在公共建筑中的应用探讨
浅谈大型公共建筑电气节能及采取的节能措施
生意
东山头遗址采集石器线图
品管圈活动在提高介入手术安全核查正确率中的应用
天津护理(2016年3期)2016-12-01 05:40:01