刘 巍 黄 曌 李 鹏 李 锰 丁 岩
(1.国网河南省电力公司经济技术研究院 郑州 450052 2.湖南大学电气与信息工程学院 长沙 410082)
伴随着智能配电网的全面建设,以物联网和云计算为代表的新一代IT 技术得到广泛应用,电力数据资源开始急剧增长并形成了一定的规模,“电力大数据”应运而生,与中国经济发展紧密联系。2011年5 月,麦肯锡公司发布了关于大数据的调研报告《大数据:下一个前沿,竞争力、创新力和生产力》,报告指出:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合[1]。因而面对海量电网业务实时数据,需要发展相应的大数据处理技术,以适应智能配电网的需求。
智能配电网的大数据来源于电力系统的各个环节,包括[2]:
(1)各种装置实时采集的现场数据。例如目前美国的100个PMU 装置一天收集62 亿个数据,数据量约为60GB。此外,大量的分布式能源需要进行实时监测和控制,电动汽车电池的充放电状态也需进行监测以避免无序充放电对电网造成负面影响。
(2)由调度中心收集的中央数据。例如国内常规的调度自动化系统含有数十万个采集点,积累了大量电网运行、生产管理和市场营销的宝贵数据,成为数据需求的密集地,配用电数据中心达到百万甚至千万级。
(3)生产管理系统(PMS)、地理信息系统(GIS)等业务系统在使用过程中产生的海量数据。例如来自SG186 系统的区域用户负荷数据、来自PMS 系统的变电站及线路地理分布信息、来自SCADA 系统的现状设备负荷水平等,与地理信息系统结合,形成了基于GIS 的空间海量数据。
智能电网的大数据具备“4V”特征[2-4],类型多(variety)、变化快(velocity)、规模大(volume)和价值密度低(value)。如图1 所示:
图1 智能电网大数据的特点Fig.1 Features of big data of smart grid
(1)数据类型繁多。电网数据广域分布、种类众多,包括实时数据、历史数据、文本数据、多媒体数据、时间序列数据等各类结构化、半结构化数据以及非结构化数据,各类数据查询与处理的频度和性能要求也不尽相同。针对海量异构数据,依据IEC61970 构建统一的电力公共数据模型进行规范表达,可有效实现各类业务系统之间的信息交互和数据共享。
(2)数据变化速度快。这对系统的实时数据处理能力提出了更高的要求,有研究表明,正常运行的SCADA 系统如接收到监测数据延时超过50ms,即将导致错误的控制策略,因而必须在短时内对大量数据进行分析,以支持决策制定。
(3)数据量巨大。由传统电网的TB 级别,跃升到PB 级别。常规SCADA 系统10 000个遥测点,按采样间隔 3~4s 计算,每年产生 1.03TB 数据(1.03TB=12 字 节/帧×0.3 帧/s×10 000 遥 测 点×86 400s/天×365 天);广域相量测量系统10 000个遥测点,采样率可以达到100次/s,每年产生495TB的数据。
(4)价值密度低。以非结构化视频数据为例,连续不间断监控过程中,可能有用的数据仅有1~2s。在设备状态监测中存在同样问题,所采集的绝大部分数据都是正常数据,只有极少量的异常数据,而异常数据是状态检修的最重要依据。此外还会采集到包含着噪声、数据缺失等不确定因素质量较差的数据,所以需要通过聚类、关联、分类等挖掘工具,从海量数据中提取出有用信息。
智能配电网的数据来源于各类系统,存在不同的平台和数据格式,大多相互独立,异构性严重,需要构建公共模型进行规范表达,实现数据融合,为上层应用提供通用的信息交互平台;同时通过对电力大数据进行实时处理分析,充分利用累积的数据资源,依据业务需求挖掘出数据潜在价值,对于分析电网在线安全分析及故障诊断、间歇性分布式电源出力预测、孤岛检测、设备运行状态分析、故障抢修决策等具有重要意义;此外,还可借助可视化的数据展示手段,通过交互可视界面展现电力数据的价值,为高层管理人员提供辅助决策分析功能,并为配电网系统的运行监视、调度控制、规划分析等提供有力保障。综上考虑,设计智能配电网的大数据统一支撑平台体系如图2 所示。
智能配电网的大数据管理包括数据采集、电力公共信息模型建立、数据存储等过程,配电自动化系统和计量系统依照IEC61850/60870 的通信规约,向前置机服务器发送数据报文,前置机完成解析,再传输至信息交互总线;PMS、GIS 等业务数据则通过接口适配器汇聚至信息交互总线处。以上数据来自不同数据源,需通过IEC61970 公共信息模型标准统一化格式,进行规范后的数据再存放入存储系统。
图2 面向智能配电网的大数据统一支撑平台体系Fig.2 United platform of big data for smart grid
4.1.1 数据采集
智能配电网的各种终端装置,如RTU、DTU、TTU、FTU,以及计量终端,通过特定的通信协议向数据平台提供实时的数据文件和数据报文,数据采集主要过程为[5]:
(1)数据采集系统作为Socket 服务启动侦听服务,并且终端设备作为Socket 客户端连接到数据采集服务端;
(2)终端设备通过通信规约传送信息,向通信模块告知自身逻辑地址;
(4)数据采集系统与终端设备稳定连接,通过前置集群,完成报文解析。
数据采集系统还包括通信链路管理、通道管理、数据质量管理等功能。通信链路和通道管理主要包括维护各类终端的通信链路、通道状态,以及根据通信链路切换主备通道等功能;数据质量管理针对采集到的各类数据,分析判断其数据质量并进行标记[6]。
4.1.2 公共信息模型
经前置机解析后得到的基础数据需要按照统一规范和标准进行存储,而不是简单的堆砌,以实现异构业务系统之间的数据共享。依据IEC61970 中的公共信息模型(CIM)进行一体化设计,将数据统一转换为CIM/E 格式,以E 语言作为载体屏蔽各个异构数据源的多样性和差异性,实现无差别数据传输,集成为全局业务系统查询使用,从而具备更优良的数据一致性,实现电网模型自动同步[7]。
CIM/E是在IEC 61970 电力系统公用数据模型的基础上,为解决CIM/XML 方式进行描述的效率问题而开发的一种新型高效的电力系统模型数据描述规范,具有简洁、高效的特点,适用于描述大型电网模型。CIM/E 模型的交换机制如图3 所示,电力系统模型能被转换导出为一个CIM/E 文档,该文档可被解析,其中的信息可被导入到一个外部系统中[8]。
图3 CIM/E 模型交换机制Fig.3 Interchange mechanism of CIM/E
其中,CIM/E 模式定义了文档中需要的所有类和属性,类名用来标识数据块,属性名称是文档中的属性行或属性列,用“@”引导。CIM/E 模式可以是CIM 的子集,也可以扩展。CIM/E 数据是纯文本数据,主要通过对文本中每行第一个字符或前两个字符的使用,达到规范格式的目的。
4.1.3 数据存储
关系数据库(如Oracle 等)主要存储结构化数据,具有便捷的数据查询分析能力、按照严格规则快速处理事务的能力以及多用户并发访问能力,可以保证数据的安全性。通过SQL 查询语言及强大的数据分析能力以及较高的程序与数据独立性等优点得到广泛应用。但是随着智能配电网建设的加速,地理信息系统以及图片、音视频等各种非结构化数据已超过关系型数据库的管理范畴,同时关系型数据库对PB 级别的海量数据存储能力和快速访问能力受限,需要发展起新的实时数据存储系统,以满足智能电网大数据快速访问、大规模数据分析的需求[2]。云实时存储平台架构主要存储海量采集数据及计算数据,通过构建分片集群实现灵活可扩展的分布式存储,当数据存储服务器无法满足大规模智能用电信息存储时,可直接添加新的数据存储节点,缓解存储服务器压力,为后续的挖掘分析提供良好的数据支撑[9]。
云实时存储系统将数据分散在多台独立的存储服务器上,将节点分为三类角色:主服务器(master server)、数据块服务器(chunk server)与客户端(client)。客户端首先访问主服务器,获得将要进行交互的数据块服务器信息,然后直接访问相应的数据块服务器完成数据的选取。客户端与主服务器之间只有控制信息流,与数据块服务器之间只有数据信息流,可以极大降低主服务器的负载,使系统的I/O 高度并行工作,从而满足智能配电网数据平台的需要。
“小说正是作者四十岁以后所走的内在之路处处碰壁后写的一份披露内心的惊心动魄的记录”③,《荒原狼》作为黑塞自己向内探寻四处碰壁的产物,也是一种心灵探索的实验,探索关于如何走出孤独的阴影与自我救赎的问题。
针对智能配电网的大数据,借助虚拟机实现资源的虚拟化,再结合Hadoop 开源云计算技术,采用基于MapReduce 的电量数据并行处理系统,一方面保证智能配电网海量状态数据的可靠性和高效处理,同时为后续数据挖掘应用,提供高性能的并行算法开发环境。流程架构如图4 所示。
图4 大数据处理流程Fig.4 Flow-process diagram of big data
4.2.1 资源虚拟化
在基础设施层采用廉价的服务器集群,廉价服务器集群的机器故障率大,而分布式的冗余存储系统恰好可有效弥补硬件上的缺陷,保障数据的可靠性。借助虚拟机监视器或虚拟化平台对服务器、存储设备与网络设备等硬件资源进行虚拟化,以消除硬件资源带来的差异性,以虚拟机为单位进行统一的自动化管理,一方面可以提高资源的利用率,另一方面可使管理维护人员专注于虚拟机与业务系统的维护,简化数据中心的管理与维护工作[9]。以服务器虚拟化过程为例,在一台物理服务器之上构建虚拟化抽象层,采用虚拟机监视器或虚拟化平台,负责服务器的抽象、资源的调度与管理,将不同系统分别运行在独立的虚拟机之上,从而将一个服务器虚拟成若干个虚拟机,提高服务器的资源利用率。但是同时应确保虚拟机之间的完全隔离,某一个虚拟机崩溃不会影响到其他虚拟机,并能及时从故障中恢复,从而确保运行的可靠性[10]。
4.2.2 云计算平台层
为了实现电网的安全稳定运行,需要在智能配电网大数据平台提供的海量数据的基础上,根据系统的需求进行大规模电力系统计算、分析、优化、设计和决策,包括潮流计算、暂态稳定计算、状态估计、故障分析、数据挖掘与智能决策等。云计算可以为电力系统计算提供高性能的并行处理能力,此外还可提供并行编程模式使并行算法的开发变得简单方便。
在云计算平台层,以虚拟机为单位构建Web 服务器集群、应用服务器集群与数据库服务器集群作为数据中心的运行环境。采用云计算的分布式文件系统HDFS、分布式数据库管理系统HBase,完成基于MapReduce 的大数据并行处理[11],进而生成多维度的分析性数据存储在数据仓库中,为电力系统大规模计算分析、数据挖掘与辅助决策等应用提供稳定可靠的数据支撑。
处理后的数据进行ETL,首先把数据抽取成文件,再对数据文件进行转换和清洗,删除冗余信息,处理缺失的数据信息,消除数据噪声等,最后生成多维度、多粒度的分析型数据加载存储到数据仓库中,数据仓库是数据挖掘的物质基础,为智能配电网的高级应用提供高性能的数据环境。依据系统不同需求,通过特定接口访问数据仓库中相应的信息,计算得到的数据结果存放在关系型数据库中。此外,存储于云系统中的电网实时数据,经过设置的周期天数后也将自动转存入关系型数据库中,这些数据都作为配电网系统运行的历史记录信息,为配电网在线运行安全评估、间歇性分布式电源的功率预测、电气设备的故障识别等分析应用,以及高层人员的决策提供非常重要的参考价值。
面对电网运行过程中迅速膨胀的数据信息量,需要通过数据挖掘分析工具,了解系统本身在各种条件和工况下的属性,把数据与信息进行快速有效的加工、提炼,以发现更深层次的规律,为高级应用打下坚实的数据基础,同时保证电力系统的安全性、经济性和可靠性,提供更快更有效的决策支持。数据挖掘是人工智能与数据库相结合的产物,包括机器学习、模式识别、以及聚类、决策树等人工智能领域的常规方法[12]。
以电力设备运行监测为例,关键在于对电力设备状态准确评估,需收集设备的相关信息,包括设备的基础信息、历史运行数据及设备缺陷信息等。通过对设备历史运行数据和缺陷信息进行挖掘,通过分析数据仓库中不同数据属性之间存在的潜在关系,找出满足支持度和置信度的关系规则,得出设备缺陷情况下的特征值和设备关联参数值,方便用户对设备的历史情况进行查询和使用;设备当前在线监测值从实时数据库或试验中获得,包括温度、油中气压、气体质量等作为被分析对象;设备健康状况分析就是以数据挖掘的结果为依据,对设备当前监测值进行对比分析,判断当前设备运行状态是否正常。设备运行分析流程如图5 所示[13]。
图5 设备运行状态分析流程Fig.5 Flow chart of equipment running states
面对海量的智能电网数据,如何在有限的屏幕空间下,以一种直观、容易理解的方式展现给用户,是一项非常有挑战性的工作。可视化方法已被证明为一种解决大规模数据分析的有效方法,并在实践中得到广泛应用。可视化通过一系列复杂的算法将电网数据通过表格、棒饼图、曲线、报表等多样化的表现形式展示给调度员。在电力系统中,数据大都与空间位置或对象有一定联系,因而在时间序列数据可视化中,不可避免要涉及到时间、空间2个维度相互融合的研究内容,可以采取在3D GIS 的基础上进行开发,在原有空间维度可视化的基础上合理融合时间维度的可视化[14],例如图6 所示三维潮流图,采用虚拟现实技术,将地理背景三维化,并将电网中各种设备建立三维模型并进行显示,这种潮流图能与调度自动化系统的实时数据有效结合,并且具有更逼真的展示效果[15]。
此外可视化技术还可为调度工作人员提供交互工具,有效利用人的视觉系统,并允许实时改变数据处理和算法的参数,可对数据进行观察以及定性、定量分析。
图6 三维潮流图Fig.6 Three dimensional distributions of power flow
随着中国经济的快速发展,智能电网建设不断深入和改进,电网运行和设备监测产生的数据量呈指数级增长,数据类型逐渐多样化,数据时效性在不断提高,逐渐构成了当今电力系统行业和信息学界所关注的大数据。本文在探索大数据环境下业务系统的潜在需求基础上,建立了面向智能配电网的大数据统一支撑平台体系与构架,主要工作包括:
(1)数据管理:基于IEC61970 标准实现异构数据源之间的信息融合,并基于云存储完成海量数据的存放;
(2)数据处理:将资源虚拟化和云处理技术应用于大数据体系中,实现海量信息的高效快速处理;
(3)数据挖掘:有效的挖掘分析手段为智能配电网的高级应用提供了技术支撑;
(4)数据展示:时空维度结合的展示方法可将电网信息准确、直观提供给用户或工作人员。
[1]赵云山,刘焕焕.大数据技术在电力行业的应用研究[J].电信科学,2014,1:57-62.Zhao Yushan,Liu Huanhuan.Research on application of big data technique in electricity power industry[J].Telecommunications Science,2014,1:57-62.
[2]宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927-935.Song Yaqi,Zhou Guoliang,Zhu Yongli.Present status and challenges of big data processing in smart grid[J].Power System Technology,2013,37(4):927-935.
[3]刘道新,胡航海,张健,等.大数据全生命周期中关键问题研究及应用[J].中国电机工程学报,2014,34(0):1-6.Liu Daoxin,Hu Hanghai,Zhang Jian,et al.Research on key issues of big data lifecycle and its applications[J].Proceedings of the CSEE,2014,34(0):1-6.
[4]张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50:216-233.Zhang Yin,Chen Min,Liao Xiaofei.Big data applications:a survey[J].Journal of Computer Research and Development,2013,50:216-233.
[5]杨凤欣.电能信息采集与管理系统的设计与实现[D].电子科技大学,2013.
[6]苏大威,李云鹏,等.配用电统一数据采集与信息支撑平台架构设计[J].电力自动化设备,2014,34(9):166-172.Su Dawei,Li Yunpeng,et al.Architecture design of unified data collection and information support platform for power distribution and utilization[J].Electric Power Automation Equipment,2014,34(9):166-172.
[7]Nigel Hargreaves,Smart grid interoperability use cases for extending electricity storage modeling within the IEC common information model[J].Universities Power Engineering Conference(UPEC),2012:1-6.
[8]辛耀中,米为民,蒋国栋,等.基于 CIM/E 的电网调度中心应用模型信息共享方案[J].电力系统自动化,2013,37(8):1-5.Xin Yaozhong,Mi Weimin,Jiang Guodong,et al.Scheme of application model information sharing between control centers based on CIM/E[J].Automation of Electric Power Systems,2013,37(8):1-5.
[9]宋振伟.用电信息采集系统数据库的云存储设计[D].山东大学,2014.
[10]王德文.基于云计算的电力数据中心基础架构及其关键技术[J].电力系统自动化,2012,36(11):67-71.Wang Dewen.Basic framework and key technology for a new generation of data center in electric power corporation based on cloud computation[J].Automation of Electric Power Systems,2012,36(11):67-71.
[11]王德文,刘杨.一种电力云数据中心的任务调度策略[J].电力系统自动化,2014,38(8):61-66.Wang Dewen,Liu Yang.A task scheduling strategy of cloud data center in electric power corporation[J].Automation of Electric Power Systems,2014,38(8):61-66.
[12]林峰,胡牧,蒋元晨,等.电力调度综合数据平台体系结构及相关技术[J].电力系统自动化,2007,31(1):61-64.Lin Feng,Hu Mu,Jiang Yuanchen,et al.Architecture and related techniques of a power dispatching data platform[J].Automation of Electric Power Systems,2007,31(1):61-64.
[13]杨国庆,张宇.数据挖掘技术在电力设备状态检修中的应用[J].上海电力学院学报,2012,28(2):176-180.Yang Guoqing,Zhang Yu.Application of data mining technology in power equipment condition-based overhaul[J].Journal of Shanghai University of Electric Power,2012,28(2):176-180.
[14]朱全胜,孙怡,李卫东.智能电网中EMS 人机交互的关键技术[J].电力自动化设备,2011,31(8):117-121.Zhu Quansheng,Sun Yi,Li Weidong.Key technologies of human computer interaction in EMS of smart grid[J].Electric Power Automation Equipment,2011,31(8):117-121.
[15]赵林,王丽丽,刘艳,等.电网实时监控可视化技术研究与分析[J].电网技术,2014,38(2):539-542.Zhao Lin,Wang Lili,Liu Yan,et al.Research and analysis on visualization technology for power grid real-time monitoring[J].Power System Technology,2014,38(2):539-542.