基于选择性加载策略的电能质量数据处理

2016-05-14 11:07赵霞林天华马素霞齐林海
计算机应用 2016年5期
关键词:电能质量

赵霞 林天华 马素霞 齐林海

摘要:根据电能质量系统中监测数据海量化的趋势,提出了一种基于部分存储和选择性加载的数据处理算法,彻底解决了现有数据处理算法中重复排序和多余处理的问题。在计算日指标时,根据存储率存储部分日排序数据;在计算周(月、季、年)指标时,利用多路归并算法将存储的部分日排序数据合并,计算出临时95概率大值(CP95);根据临时CP95确定需要重载的日数据,对部分存储的日数据和重载数据重新排序以计算稳态指标。部分存储的日排序数据可以重复利用,有效解决了传统处理方案中的重复排序问题;排序过程中只需读取部分日排序数据和少量重载数据,有效解决了传统处理方案中冗余处理问题。与传统的数据处理方法做测试对比,结果表明:日采样数据较小时,性能提升3倍以上;日采样数据超过2880时,性能提升15倍以上。数据量越大,性能提升越明显。所提方案已在山西、河北等监测系统中成功应用,实践证明所提方案正确、有效。

关键词:电能质量; 海量数据; 多路归并; 存储率; 重载率

中图分类号:TP319 文献标志码:A

Abstract:The monitoring data in the power quality monitoring system increased quickly. A new method based on partial storage and selective reloading was proposed, which can solve the problem of repetitive sorting and redundant processing in the tradition methods. In the calculation of the daily index, daily data was sorted and stored partly based on saving rate. In the calculation of week (month, season or year) index, the partly saved daily data in a week (month, season or year) were merged by the multiple merge algorithm to calculate a temporary 95 percentile (CP95), which could be used to determine which daily data should be reloaded. Besides the reloaded data, all other needed data were reordered to calculate the steady index. The sorting process only needed part of the stored daily data and a small amount of reloaded data, so the redundant processing problem in traditional processing method was solved effectively. Compared with the traditional data processing method, the experimental results show the efficiency can be increased more than 3 times using the proposed method when daily sampling data is relatively small. When the number of daily sampling data is more than 2880, the efficiency can be increased more than 15 times. The larger the amount of sampling data is, the more obviously the performance improves.The method has been applied in the monitoring system of Shanxi, Hebei and other provinces successfully. It is proved in practice that the method is correct and effective.

Key words:power quality; mass data; multiple merge; store rate; reload rate

0 引言

电能质量监测分析系统是发现和分析各种电能质量问题的主要手段,为电能质量的改善和电力系统故障的诊断提供决策依据[1-3]。目前,大部分省供电公司已建立了覆盖全省的电能质量在线监测系统[4-6],电能质量在线监测系统中数据呈指数级增长,原因如下:首先电能质量稳态指标数量众多,包括电压、电流、频率、电压谐波、电流谐波、电压间谐波、电流间谐波等,超过230个指标(谐波统计2~50次);其次,随着监测工作的推进,个别省监测系统包含的监测点数已超过千个;最后,随着监测要求的提高,稳态采样间隔越来越小,通常在3s到300s之间,对应每日采样点数为288到28800。根据电能质量国标和电气与电子工程师协会(Institute of Electrical and Electronic Engineers,IEEE)标准要求,在分析稳态指标时一般要统计各通道在某时间段(日、周、月、季、年、自定义时间段)内的最大值、最小值、平均值、99概率大值(99 Percentile,CP99)、95概率大值(95 Percentile,CP95)[7-8]。由于数据量大,电能质量稳态指标计算非常耗时,稳态数据处理已成为系统的性能瓶颈。如何高效地利用电能质量数据、提高数据处理效率成为电能质量监测与分析系统的重要问题。

目前,国内外文献中对海量数据的研究很多[9-11],但是,针对电能质量监测系统中海量数据的性能研究较少。文献[12]提出了海量电能质量数据交换格式文件快速解析方案,对历史采样数据的解析进行了优化;文献[13]针对海量电能质量监测数据,提出了基于分布式文件系统的管理方案,对历史采样数据的存储和读取进行了优化,未涉及历史采样数据的计算过程;文献[14]针对海量电能质量数据的传输和存储问题,提出了数据压缩方案;文献[15]采用数据库分区技术、缓存机制和索引机制实现了数据中心的建设;文献[16]提出了基于Hadoop的海量电能质量监测数据分析平台,利用分布式计算,提高系统数据处理能力;文献[17]对topk算法进行优化,提高了95概率大值的计算方法,但topk算法仍要求所有数据参与排序,且要求每个数据点作为一条记录进行存储,容易造成数据访问缓慢;文献[18-22]对归并算法等排序方法进行了研究,但这些文献研究的是通用方法,未利用电能质量数据的统计特点,虽可应用于电能质量数据处理,但对系统效率提升不大。

本文利用电能质量稳态指标的统计特点,存储部分日排序数据,利用部分数据代替所有数据,计算出CP99值和CP95值,实现了周、月、季、年等稳态指标的高效计算,提出了电能质量稳态数据处理方案。测算结果表明,本文方案与传统方案相比,日采样数据较小时,性能提升3倍以上;日采样数据超过2880时,性能提升15倍以上。数据量越大,性能提升越明显。解决了电能质量监测分析系统的性能瓶颈问题。本方案与具体的系统结构、存储方案无关,能应用于所有电能质量分析系统。

1 传统处理方案的不足

1.1 传统数据处理方法原理

最大、最小和平均值的统计,对系统性能影响较小。CP95(CP99)值是指把指标的所有数据点从大到小排序,取排名为5%(1%)之后的第一个数据。可见,稳态指标的计算时间主要取决于排序速度。传统计算方案采用某种排序算法,对所有数据进行排序,然后取出CP95值和CP99值。

速度较快的排序算法主要有快速排序、堆排序和k路归并排序,其时间复杂度分别为O(n lb n)、O(n lb n)和O(n lb k),空间复杂度分别为O(lb n)、O(1)和O(n),n为数据点个数。选取采样间隔300s、30s和3s,时间段为周、月、季、年的数据进行测试,可以发现快速排序耗时最少,k路归并排序比快速排序略慢。3s采样间隔下,三种排序算法计算一个指标(包含A、B、C三相)的耗时对比如图1所示。

1.2 传统数据处理方案存在的问题

对传统数据计算方案进行研究,可以发现其存在三个方面的问题:

1)对大量数据排序,将造成系统性能急剧下降。当采样间隔为3s时,快速排序算法计算一个监测点的月稳态指标约需6.1min,计算年稳态标约需1.67h。

2)传统数据计算方案中每组采样数据在计算日、周、月、季、年指标时均要参加排序,每组数据至少参加五次排序。重复的排序,加重了系统负荷。

3)传统数据计算方案读取全部数据进行排序,但根据CP99和CP95的定义可以发现,计算CP99值和CP95值时并不需要把所有数据排序,只需排出前N*5%+1即可。对全部数据排序,不仅浪费排序时间,还增加数据读取时间。

2 改进的数据处理方案

2.1 数据预处理

电能质量分析系统中通常需要计算日、周、月、季、年等指标,数据需要多次参加排序。k路归并排序算法的思想是把总数据分成k组分别排序,然后再把k个有序小数组合并成一个总有序数组。如果存储每日的排序数据,计算其他时间段指标时以天数为k,使得有序小数组恰好为日排序数据,则每日的排序数据可以在计算周、月、季、年指标时重复利用,只需将k日内有序数组合并成总有序数组即可。此外,还可以存储每日数据的采样点数、最大、最小和平均值,计算周、月、季、年的最大、最小和平均值时,可以直接从中计算得出。

通过数据预处理,在计算周、月、季、年指标时只需对有序数组进行合并,可以节省大量排序时间,且一次排序多次使用,解决了数据重复排序的问题; 缺点是增加了100%的存储空间。

2.2 部分存储

2.2.1 算法描述

根据CP95(CP99)的定义可以发现,计算CP95(CP99)值时并不需要把所有数据排序,只需排出前N*5%+1(N*1%+1)即可。因此可以对数据预处理算法进一步改进,不存储全部日排序数据,只存日排序数据的前X(存储率,X≥0.05且X≤1),对CP95(CP99)的计算算法进行调整如下:

1)假定每日采样个数为Ni(i=1,2,…,k,k为统计的天数),存储排序后日数据的前NSi个值(NSi=Ni*X+1),存储数据定义为Si,未保存的数据定义为Li,Si+Li为每日所有采用数据,如图2所示。

2)计算周、月、季、年等指标时,取出k日内的Si进行合并排序,结果为TS,并取TS的第Index95个值(Index95=(∑ki=1Ni)*5%+1)为暂时的CP95值,命名为CP95′。

3)取出时间范围内每日存储数据Si的最小值minSi,比较minSi和CP95′。

3.1)若minSi≤CP95′,则说明该日数据中未保存的数据Li不比CP95′大,所以CP95不会在Li中。而Si已经参加了合并排序,所以该日数据不需要重新计算。

3.2)若minSi>CP95′,则说明该日数据中未保存的数据Li中存在比CP95′大的数,把i对应的日期加入到ReLoad集合中,为重新读取采样数据作准备。

2.2.3 算法分析

算法的核心思想是利用部分数据(预先存储的部分排序数据)和选择性加载策略计算出CP95值和CP99值。因为读取的数据较少,因此在相同数据存取方式下,算法的存取效率比传统方法高;参与排序的数据较少且为有序数组,因此算法排序效率要远高于传统方法。

[8] IEEE Standards Coordinating Committee 22 on Power Quality. IEEE Std1159.32003 IEEE recommended practice for the transfer of power quality data[S]. New York: IEEE, 2004:1-200.

[9] 马友忠, 慈祥, 孟小峰. 海量高维向量的并行Topk连接查询[J]. 计算机学报, 2015, 38(1):86-98.(MA Y Z, CI X, MENG X F. Parallel Topk join on massive highdimensional vectors[J]. Chinese Journal of Computers, 2015,38(1):86-98.)

[10] 王有为, 王伟平, 孟丹. 基于统计方法的Hive数据仓库查询优化实现[J]. 计算机研究与发展, 2015, 52(6):1452-1462. (WANG Y W,WANG W P, MENG D.Query optimization by statistical approach for Hive data warehouse[J]. Journal of Computer Research and Development, 2015,52(6):1452-1462.)

[11] 刘亚秋, 李海涛, 景维鹏. 基于Hadoop的海量嘈杂数据决策树算法的实现[J]. 计算机应用, 2015, 35(4):1143-1147. (LIU Y Q,LI H T,JING W P.Implementation of decision tree algorithm dealing with massive noisy data based on Hadoop[J].Journal of Computer Applications,2015,35(4):1143-1147.)

[12] 张逸,杨洪耕.海量电能质量数据交换格式文件快速解析方案[J].电力自动化设备,2013,33(12):116-121. (ZHANG Y,YANG H G.Fast parsing of massive PQDIF files[J].Electric Power Automation Equipment,2013,33(12):116-121.)

[13] 张逸,杨洪耕,叶茂清.基于分布式文件系统的海量电能质量监测数据管理方案[J].电力系统自动化,2014,38(2):102-108. (ZHANG Y,YANG H G,YE M Q. A data management scheme of massive power quality monitoring data based on distributed file system[J].Automation of Electric Power Systems, 2014,38(2):102-108.)

[14] 魏雪琴.电能质量数据压缩研究[D].合肥: 安徽大学,2013:5-25. (WEI X Q. The research on power quality data compression[D].Hefei: Anhui University,2013:5-25.)

[15] 赵东旭. 电能质量数据中心建设关键问题研究[D]. 北京:华北电力大学,2012:10-20.(ZHAO D X. Research on key issues in power quality data center construction[D]. Beijing: North China Electric Power University,2012:10-20.)

[16] 王淑祥,马素霞. 基于Hadoop的海量电能质量监测数据分析平台研究[J].中国科技信息,2013, 25(13): 79-80.(WANG S X,MA S X. Study on massive power quality monitoring data analysis platform based on Hadoop[J]. China Science and Technology Information, 2013, 25(13): 79-80.)

[17] 李斌, 郭雅娟, 陈锦铭, 等. 电能质量监测系统 95 概率大值的 topk 优化研究[J]. 电力信息化, 2013, 11(1): 20-24. (LI B,GUO Y J,CHEN J M,et al.Research on the topk optimization method of 95% probability values for the power quality monitoring system[J].Electric Power Information Technology,2013,11(1):20-24.)

[18] 白宇,郭显娥. 深度优先稳定原地归并排序的高效算法[J].计算机应用,2013,33(4):1039-1042.(BAI Y,GUO X E. Efficient algorithm of depthfirst stable inplace merge sort[J].Journal of Computer Applications, 2013,33(4): 1039-1042.)

[19] 孙琳琳, 侯秀萍, 朱波, 等. 基于多线程归并排序算法设计[J]. 吉林大学学报(信息科学版), 2015, 33(1): 105-110.(SUN L L,HOU X P,ZHU B,et al.Merge sort algorithm design based on multi thread[J].Journal of Jilin University (Information Science Edition),2015,33(1):105-110.)

[20] 姜忠华,徐文丽,刘家文,等.智能归并排序[J].电子设计工程, 2011,19(21): 53-55.(JIANG Z H, XU W L,LIU J W,et al. Intelligently merge sort[J].Electronic Design Engineering, 2011,19(21):53-55.)

[21] HOSSAIN N, ALMA M G R, AMIRUZZAMAN M, et al. An efficient merge sort technique that reduces both times and comparisons[C]// 2004 ICTTA: Proceedings of the 2004 International Conference on Information and Communication Technologies: from Theory to Applications. Piscataway, NJ: IEEE,2004: 857-858.

[22] KAZMI S Z H, KAZMI S S, KAZMI S S H,et al. Chunk sort[J]. International Journal of Computer Science and Information Security, 2010, 8(4):162.

[23] 赵霞, 林天华.分布式电能质量信息系统[J].科技导报, 2013, 31(19):58-61.(ZHAO X,LIN T H. Design and implementation of distributed electric power quality information system[J].Science & Technology Review,2013,31(19):58-61.)

猜你喜欢
电能质量
分布式电源电能质量综合评估方法
电能质量对发电厂安全运行的影响分析及解决方法
分布式电源接入对配电网电能质量影响的研究
基于电子电力变压器的配电系统电能质量控制
基于支持向量回归机的电能质量评估
牵引变电所无功补偿研究
台区低电压的防治对策
新能源电网电能质量管理系统设计
浅谈直流配电系统技术分析及设计构想