王鹏飞,何丽娟 ,宋鸿雁
(国网银川供电公司,宁夏 银川 750000)
对大数据及其相关技术的研究最早可追溯至Apache软件基金会的一个开源项目,该项目中大数据技术被用于处理一个互联网搜索引擎中产生的巨大数据集。大数据技术有三个“大”特性:大数据量,大数据种类和大传输速率[1-2]。自21世纪以来,大数据逐渐被应用于电力系统,智能电网也应运而生,在近十几年的发展中,逐渐凸显出了以下趋势:分布式发电的普及、可再生能源的高度普及、终端用户的积极参与和双向通信技术[3]。在大数据的参与下,现代智能电网正在演变成一个复杂的物理网络系统,电力公司部署的大量计量/传感设备也提供了足够多的数据来支撑大数据算法的运行。
常用于电气系统的数据采集系统有SCADA、WAMS、Smart meter、Power quality recorder等。这些数据采集系统各有优劣,种类繁多,包括温度、湿度、电压、载荷、风速、日照等多种数据,几乎涵盖了电力系统的方方面面。除了表现出多数据种类外,这些系统也体现了大数据多数据量的特点,以一区域型电网为例,SCADA系统1年内最高可记录7亿个包括总线电压、输入输出功率、频率、断路状态等在内的数据[4]。
目前大数据技术在电力系统中的应用仍处于早期的阶段,现有的一些工作大多聚焦于大数据分析系统的结构设计以及大数据驱动的应用,采集的数据量虽然很大,但使用的整体方法与结构较为宏观,特别针对电力大数据在预测规划方面的研究并不多见。基于此,本文先对电力大数据技术的意义与关键技术展开了论述,特别是其在电力系统中的组织结构。此外针对预测规划这一目标,结合现有的一些研究方法与理论,提出了可行的方式并分析了效果[5-6]。
目前对大数据系统的定义较为宽泛,本文中以Pei Zhang等人的定义为基础进行下一步分析与论证,即认为电力大数据是海量的、相互关联的业务数据,包括通过各种信息化手段采集的结构化数据、半结构化数据以及非结构化数据,这些信息化手段包括智能设施、传感器、音频和视频监控设备、移动终端等[7]。
虽然电力大数据技术从大数据中继承了3个“大”特性,但其仍有一些自身独特的特点。①电力系统是一个动态的高度非线性时变系统,本质上是一系列连续动态过程与独立事件的相互作用,不同的数据在不同时间、不同地点被采集,时间间隔小到毫秒,大到小时,地点跨度甚至能达到上千公里。②电力系统中的数据类型还会根据测量目标的种类发生一定变化。③电力系统的状态既是暂时的,又在空间上与外部独立变量相结合。④电力系统存在的本质目标是保持时刻变化的发电与载荷的平衡,这意味着发电一侧要对负载的变化做出实时响应。但是在实际生产中,负载是一个高度随机的变化量,用电负载受天气、用户活动等多方面的影响。⑤现代电力系统中存在许多可再生能源发电器,这类输入的发电量同样具有随机性和间歇性的特点,给大规模可再生能源为电力系统的控制带来了更多麻烦,甚至导致电涌等现象的发生,增加了无用损耗。⑥现代电力系统已经演变成深度信息物理融合系统,在这样的应用背景下,数据的完整性、安全性、准确性深刻影响着系统的应用,而这3个特性本质上取决于底层通信网络的效率和拓扑结构。由传感器测量误差带来的影响也不可忽略,包括传输错误、噪声、通信延迟等。此外,安全性也会带来许多人为问题,2015年,乌克兰首次发生因人为攻击而导致的停电,因此可以预见到,虚假数据注入也是一种不可忽视的破坏电力系统方式[8]。
基于上述这些电力大数据系统的特点,G.Zhao等人提出一较为完备的电力大数据系统结构,如图1所示。整个系统中最关键的部分之一是基于数据存储框架的HDFS分布式文件系统,其二是基于数据处理框架的Map-Reduce计算技术。不论是分布式文件系统还是Map-Reducing计算技术都可以处理PB、ZB量级的数据,整个框架中还包含一些其他的模块,例如智能商业应用、传统数据库、大数据连接框架、大数据描述框架、网络层、操作系统、服务器、备份、恢复以及数据管理器等[9]。
图1 电力大数据系统结构
大数据存储框架和大数据处理框架是基于传统的计算机服务器、操作系统以及虚拟主机运行的,这意味着整套系统的造价更低,扩展空间更大。大数据连接框架与大数据处理、存储框架通过网络层相连。其由许多的子模块组成,包括平行计算机编程语言Pig,数据库管理工具Hive,开源数据传输工具Sqoop。基于上述工具,操作者可以方便地通过大数据连接器访问任何一个分布式文件存储系统和传统数据库[10]。
电力大数据处理的流程与传统大数据系统并非完全不同,最大的一个区别是传统大数据处理中会考虑大量的非结构化数据,这种情况下采用并行处理技术,例如Map-Reduce是至关重要的。因此需要对电力大数据系统中包含的关键技术进行进一步分析。
云计算是基础技术,是大数据的重要补充,云计算技术可以集成计算处理资源和存储资源,改善数据处理和信息交互能力,是技术中最强大的组成部分,为处理大数据“多数据量”的主要问题提供了有效的技术手段,云计算与大数据技术之间的关系可以用图2简洁的描述[11]。
图2 大数据与云计算之间的关系
数据存储涉及的方面较多,其主要研究工作在于如何协调大量存储设备协同工作,以此为外部的用户以及商业存储提供一个方便统一的调用、存储接口。在电力大数据系统中,根据数据的结构(同时考虑结构化与非结构化数据)和时间尺度(非实时数据、半实时数据、实时数据)对数据进行分类,因此协调数据库的不同功能需求来满足海量电网数据的协同处理需求,数据存储部分的数据来源既可以是电力公司所有的网络设备,也可以是第三方数据存储商提供的服务设备。
数据存储之上需要考虑的是数据的集成相关技术。数据集成模块扮演了一个中继角色,其目的在于收集、校核、清理以及统一不同来源的数据便于后续处理。这一类数据管理系统被称为中央管理、外部访问的统一管理系统。数据集成与管理技术包括数据融合与集成、数据提取、数据清洗、数据滤波等,对应于电力大数据技术中的数据提取、转换、加载以及电力系统的统一建模等技术。但电力大数据系统可能仍存在许多问题,如数据质量差、准确度低、实时性不足等,这就需要高性能的数据管理系统相配合。
近年来,电力数据使用场景大量增加,电力公司越来越趋向于使用新的数据处理技术,来更有效利用软件和硬件资源,以减少投资,维护成本,降低能耗,同时提供更稳定和更强的数据处理能力。在提出的电力大数据架构中,数据计算层通过数据集成层访问数据,进行各种分析和处理工作。各种数据分析技术可以位于这一层,例如并行分布式计算、内存计算和流处理。此外,还可以在此层中应用虚拟化技术,为上层应用程序和用户提供硬件和软件的可视化。从这个意义上讲,数据分析层提供的服务也称为电力云服务。
数据应用是在数据存储、数据集成、数据计算基础上建立起来的上层应用,它根据底层提供的数据和服务类型建立面向不同电力场景的应用程序。数据应用的背景下,可以用到许多人工智能、大数据相关的上层技术,如数据挖掘、深度学习、机器学习、图像识别等。典型的电力数据应用有电网安全在线分析、间歇发电预测、动态线路评估、设备健康监测与诊断、负荷管理等。要保证电力系统可靠、稳定、高效率地运行,电力行业对数据精准度的要求会更高。每种技术都有其各自适合的应用场景,也有各自的局限性,使用时应注意识别,选择合适的技术处理合适的问题。
电力大数据在基础的数据方面已经得到了大量的技术积累,给输电预测规划、能源管理方面的发展带来了前所未有的机遇。预测是电力系统运行和规划的一项基本而重要的任务。经典的预测问题包括负载预测和电价预测[12-13]。
随着可再生能源的日益普及,可再生发电(如风能、太阳能光伏)预测成为电力大数据的又一重要应用。与负荷需求等其他变量相比,可再生能源发电涉及环境、天气、气候、可再生能源发电机自身发电曲线等多种因素,因而具有更大的随机性和预测难度。因此,与传统的点预测不同,对区间预测技术的进一步研究成为越来越热的研究趋势,以更好地反映可再生发电的不确定性。图3给出了点和区间预测的效果图示,区间预测不仅提供了不确定变量的平均值,而且提供了该变量可以随机变化的范围。预测区间可作为鲁棒优化技术的输入,为高水平可再生能源电力系统的更加稳健运行和规划提供技术支持。此外,除了预测风电、太阳能光伏发电机组的发电量外,风电、太阳能光伏发电机组的升压功率预测也是至关重要的,因为这类间歇可再生能源的升压速率对系统的电力调度、电量储备、频率控制等都有重要影响。最近的一些研究开发了可再生的斜坡预测方法。与此同时,由于智能电能表的广泛应用,人们对预测家庭层面的负载需求数据也越来越感兴趣。预测结果可用于支持更好的负荷管理和需求响应计划。但与总负荷需求相比,家庭负荷具有更大的随机性和波动性。为了获取其负荷模式,必须考虑居民的行为[14-15]。此外,考虑到这些住宅计量数据,可对用户的用电模式进行分析。
图3 点与区间预测图例
电力大数据技术对电网的升级建设以及未来发展都有至关重要的意义,本文介绍了应用于电力大数据技术的基本框架,提取了其中的5个关键技术一一进行了介绍。在此基础上介绍了电力大数据技术在输电预测规划方面的典型应用案例。可以看到电力大数据技术进一步应用的难点不在于技术,而是在于针对不同的技术找到其合适的应用场景与应用条件,本文的分析对电力大数据技术的进一步应用提供参考。