左剑,向萌,张可人,胡迪军,邓小亮,蔡如昕,张瑞(.国网湖南省电力公司电力科学研究院,湖南长沙40007;.国网湖南省电力公司,湖南长沙40004;.中国科学院深圳先进技术研究院,广东深圳58055)
基于云计算平台Hadoop的线路参数并行辨识算法研究
左剑1,向萌1,张可人1,胡迪军2,邓小亮2,蔡如昕3,张瑞3
(1.国网湖南省电力公司电力科学研究院,湖南长沙410007;2.国网湖南省电力公司,湖南长沙410004;3.中国科学院深圳先进技术研究院,广东深圳518055)
随着作为电网动态监测技术平台的广域量测系统(WAMS)在电网的应用普及,电网运行人员对于电网动态变化有了实时监测与分析的手段,但WAMS所产生的海量数据以及对于分析平台的高效率要求是WAMS应用的一大挑战。本文深入研究了基于Hadoop云计算平台的线路参数并行辨识算法,并提出算法的设计思路以及实现方法,为高效利用WAMS数据辨识线路参数给出了解决方法。对比实验证明基于云计算平台Hadoop的线路参数并行辨识算法大大提高线路参数辨识算法的计算效能,适合处理该应用中的WAMS海量数据。
Hadoop平台;云计算;广域量测系统;线路参数辨识
随着电网规模越来越大,结构越来越复杂,电网运行人员对于电网的运行状态以及特性的把握也越来越依赖于电网的实时监测和分析〔1-2〕。作为电网动态监测技术平台,广域测量系统(Wide-Area Measurement System,WAMS)可对全网各个站点主要数据进行实时、同步以及高速率采集,从而实现对电力系统状态以及参数的实时监测,为电网运行人员掌握电网动态运行状态变化提供技术手段〔3-5〕。以电力系统线路参数为例,传统上线路参数以线路投运后实测参数作为运行以及电网仿真参数,而实际运行中随着运行场景的变化线路参数是会发生动态变化,尤其是在线路发生故障或在恶劣运行环境以及气候条件下。传统电网运行所依赖的能量管理系统是无法掌握上述电网参数变化等动态信息的,而通过WAMS中的同步相量测量装置(Phasor Measurement Unit,PMU)可以同步实时测量线路两端电流、电压相量,实现对线路参数的动态辨识〔6〕。
虽然WAMS相对于能量管理系统(Energy Management System,EMS)具有能监测系统动态运行状态的优点,但是WAMS的应用也存在以下问题〔7〕:
1)数据量大,冗余多。由于WAMS数据采集速率可以达到25帧/s或50帧/s,是EMS数据采集速率的100~200倍,相应的存储的数据量也是EMS的上百倍,在系统稳态过程中,大量的WAMS数据是冗余数据。数据量大,冗余多给存储和分析带来困难。
2)现有WAMS数据处理分析平台仍然采用常规的数据存储与管理方法,大量采用价格昂贵的大型服务器以及磁盘阵列,系统扩展性差、成本高。
3)大量基于WAMS的高级应用算法仍然基于常规的数据,依赖于高性能服务器的串行计算能力,计算效率低。
因此,针对WAMS的海量数据,急需引入新的计算技术以解决数据冗余、数据挖掘算法效率低等问题。
云计算〔8〕作为一种针对大规模数据处理的新兴产物,适合于对电网WAMS海量数据的存储与应用。其基本原理是将存储和计算的服务分布在大量分布式计算机上,用大量廉价的分布式计算机代替现有的高性能服务器,用分布式并行算法代替现有的串行算法以提高效率。在现有的云计算平台中,Hadoop作为一个比较成熟且应用广泛的系统,具有扩容能力强、成本低、效率高以及可靠性好的优点,其主要由两部分组成:分布式文件系统(HDFS)〔9〕和MapReduce计算模型〔10〕。
HDFS采用Master/slave架构。一个HDFS集群由一个管理节点(Namesnode)和一定数量的数据节点(Datanode)组成,每个节点均可以是1台普通PC。管理节点负责文件系统的管理以及客户端对于文件的访问,数据节点负责数据块(block)的管理以及处理。在使用上,HDFS与单机的文件系统非常类似,同样可以创建目录,创建、复制、删除文件,查看文件内容等。但其底层实现上是把文件切割成块,然后把这些数据块存储于不同数据节点上,每个数据块还可以复制若干份,存储于不同的数据节点上,以达到容错的目的。
MapReduce是一种高效分布式并行编程模型〔10〕。其主要的工作流程:
1)输入(Input):对输入数据集分块,返回若干个数据块。提供数据集读取接口(RecordReader),规定如何处理每一个数据块的每一行数据,经过上述处理获得输入键值对<key,value>。
2)映射(Map):调用用户定义的Map函数,对输入的每一组键值对<key,value>进行处理,同时生成并输出一批新的中间键值对<key′,value′>,输入输出键值对的类型可能不同。
3)数据整理(Shuffle):Map和Reduce操作可在不同的数据节点上,在将Map输出的键值对传输给Reduce操作中需要消耗一定的网络以及磁盘资源,是影响效率的关键。因此,为了减少不必要的网络传输以及磁盘输入输出操作,需要对Map输出的键值对在内存中进行数据整理,包括根据key的排序(Sort)与合并(Combine)等,上述数据整理操作称之为shuffle。
4)归约(Reduce):遍历经过shuffle整理后的中间数据,对每一个唯一的key,执行用户自定义的Reduce函数。输入参数是<key,{list of values}>,输出的是新的<key,value>键值对。
5)输出(Output):将Reduce输出的结果输出到制定位置。上述就是一个典型的MapReduce计算过程。
输电线路模型有分布式参数模型和集中参数π形等效模型,以最常用的集中参数π形等效电路为例,图1为输电线路拓扑结构。
图1 输电线路结构等效模型
如图1所示,PMU安装在线路的两端,可以直接同步测量线路两端的电压和电流相量,分别为U1,U2,I1,I2,待求的参数为线路阻抗Z=R+j X以及线路对地导纳Y。建立线路两端电流电压关系:
因此,
通过(3)和(4)可由线路两端的PMU测量的电流电压相量直接求得线路各相的阻抗和对地导纳。分析上述计算线路参数串行算法,可以将计算阻抗和对地导纳的运算步骤进行分解,分成(U1+U2),(U1-U2),(I1-I2)等“原子”运算,并将上述“原子”运算通过MapReduce进行并行化处理。下面分别描述对应的Map,Combine以及Reduce函数设计。
2.1 M ap函数设计
Map函数输入为默认的<key,Value>键值对格式,其中key包括以下子键:Timestamp(时间戳)、LineName(线路名称)、Phase(A,B,C中某一相序)。而Value包括以下子项:OptType(运算类型)、Operand1(运算数一)、Operand2(运算数二)。
所对应的Map函数的伪代码为:
Map(<key,value>,<key′,value′>
{
从value中解析出运算的类型以及运算数,分别记为optType、operand1以及operand2;
Case optType
{
Opt1:attr=A1,res=operand1+operand2;
//(U1+U2)运算
Opt2:attr=A2,res=operand1-operand2;
//(U1-U2)运算
Opt3:attr=B1,res=operand1∗operand2;
//(U1∗I2)运算
Opt4:attr=B2,res=operand1∗operand2;
//(U2∗I2)运算
Opt5:attr=C1,res=operand1+operand2;
//(I1+I2)运算
}
key′=key;
value′={attr,res};
输出<key′,value′>;
}
为减少数据传输量和通讯代价,在Map操作后,对输出的键值对进行合并操作,首先通过key中的Timestamp排序并将具有相同键(key)的输出项映射到同一个合并操作中。在Combine函数中对具有相同键的输出项进行合并。
2.2 Combine函数设计
Combine函数对输入的键值对<key,value>根据键进行合并。函数伪代码为:
Combine(<key,value>,<key′,value′>)
{
初始化一个数组s,用于已经合并后的键值对
pos=-1;//数组中最后一个键值对所存储的位置
For i=0 to k-1 do{
if<key,value>[i].key存于在数组s中{
s[j].value={s[j].value,<key,value>[i].value};
//将<key,value>[i].value与s中key相同的键值对进行合并
}
else{
pos=pos+1;//在数组中存入一个新的键值对
s[pos]=<key,value>[i];
}
}//For
输出数组s作为<key′,value′>;
}
2.3 Reduce函数设计
Reduce函数输入的<key,value>是Combine函数输出的中间结果,对同一个键(key)的数值(value)进行归约,并输出键值对<key′,value′>作为结果。函数伪代码:
Reduce<key,value>,<key′,value′>)
{
初始化一个数组s,用于已经合并后的键值对
For i=0 to k-1 do{
将<key,value>[i].value根据attr解析为A1,A2,B1,B2以及C1;
z=(A1∗A2)/(B1+B2);
y_half=C1/A1;
s[i].key=<key,value>[i];
s[i].value={z,y_half};
}
输出数组s作为<key′,value′>;
}
根据Reduce的输出结果,得到线路不同时间点A,B以及C相的阻抗以及对地导纳值。
3.1 实验平台以及数据
本文中对在单台计算机上线路参数辨识串行算法与多台计算组成Hadoop平台上并行算法进行计算效率比较。上述计算机均为四核2.33 GHz的CPU,内存均为2 GB。Hadoop平台由4台计算机组成,其中1台为管理节点,其余3台为计算节点,Hadoop版本为2.6.4。
实验数据采用15条线路两端PMU数据,每条线路PMU数据时间长度均为0.5 h,速率为25帧/s。分别在上述单台计算机以及Hadoop并行计算平台上对比计算线路三相动态阻抗以及对地导纳参数。
3.2 实验结果
单台计算机上计算用时184 s,Hadoop平台上用时约59 s。在4台计算机组成的Hadoop平台上采用并行算法的计算效率约为单台计算机上串行算法的3倍,并且两者计算结果一致。实验结果表明采用云计算平台Hadoop的线路参数并行辨识算法大大提高对WAMS海量数据的分析效能,增加Hadoop计算平台规模将进一步提升算法计算效率。
3.3 应用展示
图2为通过上述线路参数辨识并行算法计算得到某条220 kV输电线路不同时间段对地电纳参数动态辨识值,对比可以看到图2(a)中线路三相对地电纳参数有明显的“尖刺”。由于输电线路对地电纳参数值对于线路电晕放电十分敏感,雨、雾或大湿度条件下易于在导线表明形成水滴,引起导线表面电场畸变,降低导线起晕电压从而发生电晕放电,而晴好天气下输电线路一般不会发生电晕放电〔12〕。因此,怀疑图2(a)中数据对应于线路处于雷雨等恶劣天气下。能量管理系统中线路雷击跳闸记录证实上述猜测,线路参数动态变化记录了线路在雷击跳闸前的电晕放电。因此,上述例子证明通过实时辨识并监测线路参数,可以准确的反映当前线路的运行状态,在线路遭遇雷雨、山火等恶劣运行条件时可以作为提供给运行人员的早期预警参考。
图2 某条220 kV线路三相对地电纳参数辨识值
本文对基于云计算平台Hadoop的线路参数并行辨识算法进行了深入研究。首先简要介绍了WAMS应用中存在的问题以及采用云计算平台的必要性,并介绍了Hadoop平台的基本组成,包括HDFS构成以及MapReduce的主要功能模块,然后给出了基于Hadoop云计算平台线路参数辨识并行算法的主要设计思路以及各主要模块的构成与实现。最后,通过对比实验证实了基于Hadoop云计算平台的线路参数并行算法在计算效能上大大优于单机上线路辨识串行算法,并结合实际的应用实例展示了在成熟的云计算平台上WAMS应用的前景。
〔1〕汤涌.基于响应的电力系统广域安全稳定控制〔J〕.中国电机工程学报,2014,34(29):5041-5050.
〔2〕金基圣,牛夏牧.电网动态稳定实时监测系统〔J〕.电力系统自动化,1999,23(10):17-19.
〔3〕宋方方,毕天姝,杨奇逊.基于WAMS的电力系统受扰轨迹预测〔J〕.电力系统自动化,2006,30(23):27-32.
〔4〕肖永,金小明,付超,等.基于广域量测系统的暂态失稳判别方法适应性研究〔J〕.南方电网技术,2015,9(3)81-86.
〔5〕刘兆燕,江全元,曹一家.基于广域测量系统的快速暂态稳定预测方法〔J〕.电力系统自动化,2007,31(21):1-4.
〔6〕赵菲,焦彦军,王铁强.基于WAMS的输电线路参数在线辨识的研究〔J〕.电力科学与工程,2011,27(8):15-19.
〔7〕曲朝阳,朱莉,张士林.基于Hadoop的广域测量系统数据处理〔J〕.电力系统自动化,2013,37(4):92-97.
〔8〕陈康,郑纬.云计算:系统实例与研究现状〔J〕.软件学报,2009,20(5):1337-1348.
〔9〕Ghemawat S,Gobioff H,Leung S.The google file system〔J〕. SACM SIGOPSOperating System Review,2003,37(5):29-43.
〔10〕Dean J,Ghemawat S.Mapreduce:simplified data processing on large clusters〔C〕.Proceedings of Operation System Design and Implementation.San Francisco,CA,2004:137-150.
〔11〕李刚,焦谱,文福拴,等.基于偏序约简的智能电网大数据预处理方法〔J〕.电力系统自动化,2016,40(7):98-106.
〔12〕黄宏新,刘士源.交流电晕放电特性的影响因素研究〔J〕.河北电力技术,2010,29(3):42-45.
Study of Parallel Line Parameter Identification Algorithm Based on Hadoop Platform
ZUO Jian1,XIANGMeng1,ZHANG Keren1,HU Dijun2,DENG Xiaoliang2,CAIRuxin3,ZHANG Rui3
(1.State Grid Hunan Electric Power Corporation Research Institute,Changsha 410007,China;2.State Grid Hunan Electric Power Corporation,Changsha 410004,China;3.Shenzhen Institute of Advanced Technology,Chinese Academy of Sciences,Shenzhen 518055,China)
As the power grid dynamic monitoring platform,the widely use ofWide-area Measurement System(WAMS)will help the grid operatormonitor and analyze the dynamic changes in power grid operation.However,the huge dataset generated by WAMS and requirement of high efficient analysis platform are the challenges of WAMS applications.This paper has conducted thorough study of the parallel line parameter identification algorithm based on Hadoop platform,and provided the parallel algorithm design and implementation methods.It provides a efficient solution for line parameter identification using WAMS data.The comparison test demonstrates that the Hadoop platform based parallel line parameter identification algorithm will boost the efficiency greatly,and it is suitable for processing huge datasets.
Hadoop platform;cloud computing;WAMS;line parameter identification
TM715
B
1008-0198(2017)03-0007-04
左剑(1980),男,博士,高级工程师,主要从事电力系统分析以及广域测量应用研究。
向萌(1988),女,硕士,工程师,主要从事电力系统仿真分析工作。
张可人(1982),男,本科,工程师,主要从事电力系统分析和规划研究。
胡迪军(1976),男,硕士,高级工程师,主要从事电力系统自动化研究。
邓小亮(1983),男,硕士,工程师,主要从事电网调度运行以及新能源并网研究。
10.3969/j.issn.1008-0198.2017.03.002
2016-11-14 改回日期:2016-12-08