黄绪勇,刘文波,王裴劼,陈达
(1.云南电网有限责任公司电力科学研究院,昆明650217;2.昆明能讯科技有限责任公司,昆明650217)
在线监测系统数据特性分析
黄绪勇1,刘文波2,王裴劼2,陈达2
(1.云南电网有限责任公司电力科学研究院,昆明650217;2.昆明能讯科技有限责任公司,昆明650217)
以云南地区变电站数据为例,从数据的角度充分分析和总结了设备监测数据的现状及存在的问题,并分别对数据缺失、均值特性、数据变化趋势加以分析,从中发现隐含的趋势和规律,提出适当的有效应对措施和解决方案。
在线监测数据;采集现状;数据缺失值;均值特性;分布趋势分析
设备在线监测数据,主要用于实时监测、观察和记录各设备运行指标的变化,多集中于电网系统中的一次主设备、二次设备一类大型设备的监测。开发设备数据特点分析的系统功能应用研究,具有非常重要的实践意义,为推动数据分析领域在电网系统工程应用方面的进展提供经验[1]。
近年来研究智能电网大数据分析应用领域取得了较为丰硕研究成果,涉及电网故障诊断[2-3]、电网调度控制[4]、数据整合[5]、设备状态监测[6]等应用。事实上,针对智能电网大数据分析、数理统计分析的理论研究和应用是一个长期而复杂的工作。相关技术仍在快速发展中且未进入稳定期[7]。
文中基于统计分析原理和实际工程经验,提出基于云南电网现有技术监督数据分析中心变电设备的在线监测数据,统计和分析设备监测数据(以变压器为例)的数据采集现状、缺失值分析、均值特点和数据分布趋势,探索监测数据特点的规律应用,为提高数据质量和决策水平提供有益的经验。
本文数据特点分析的数据来源于云南电网技术监督平台变电在线监测系统的原始数据库,用于分析的是8个云南省地级市县供电局的17个110 kV及以上等级变压器的全部油色谱数据。
本文通过对部分设备65 500多条非空现场数据的观察分析,总结得出现场技术监督中心实际采集到的监测数据现状,描述如下:
1)从局部视角看,数据缺失、冗余比例大,采集到的现场数据集基本是片段式,数据的完整比例较小,有效分析数据量少。以分析数据集为例,各监测设备变量在以 “天”为采集频率上传至数据中心的实际非空数据占理想数据的比例都≤68.9%,删除非空数据集中冗余数据后真正剩下的有效数据比例都缩小至≤29.1%,即最多一组数据的变量记录为63条,数据跨度仅包含1月至3月。由此,超过一半比例的缺失数据是现有电网系统推动数据分析应用的难题。
2)从整体视角看,电网系统整体运行稳定且时间持久,除规划拆除的监测设备外,各监测点持续积累的数据量庞大,监测对象较为固定,以年为单位的数据总集已能足够反映设备运行的发展趋势,且若能在已有的有效数据集上适当的应用数据分析技术 (包括缺失补全),那么从数据角度来实现客观评估和考察系统运行、设备状态等应用将有望得到突破。
3)从数据本身视角看,按设备各变量分组的监测数据集,在同类单个设备之间监测变量的数据集间距较为明显,但组内数值的波动却较为集中,满足聚类分布情况。聚类中心差距较明显。但仍存在少部分数据集有交叠,聚类中心相距较近的情况,则需按实际数据情况而论。
4)从数据视角看组内数据集,在运行状态稳定的情况下,单位监测时间点的监测变量数据分布较为规律,近似服从正态分布。数据的正态分布图如下:
图1 氧化碳、乙烯数据的正态分布图
文中分析的数据采集范围只是一段时间内的,但表现出的数据现状同样适用于整体数据的现状分析。
2.1 缺失值分析
2.1.1 数据缺失现状
现场各监测点采集上传到数据中心的原始数据存在着一定比例的缺失情况[9~12],从具体分析实例来看,只有不到一半比例的监测时间点是非空数据,其他时刻都为变量的空缺数据。造成监测时间数据空缺的原因是多方面的,主要有以下几种情况:
1)可能由于通信网络不稳定、数据上传路径出现短时中断、故障、长期掉线等网络信号问题;
2)可能因外界环境刺激或硬件本身所引起的监测设备、通信设备、传输信道故障或掉电;
3)数据处理系统的数据管理技术或人为操作不当等原因。
针对上述现状,文中提出通过缺失分析理论,对不同场景下的缺失数据采用不同的处理策略,最大限度地补全和修正三种缺失数据。原始数据经过缺失值分析处理后,更新得到的数据集虽然仍存在数据空缺,但较好地解决了有效数据段内的缺失问题,填补并修正了有效数据段内的空缺及零值,有效提高了数据的完整性和准确性,更大程度地保留了现场监测数据的真实性。
2.1.2 缺失处理
文中为较好的还原真实的现场监测数据,结合工作中实际经验,提出不同场景下的不同缺失数据的处理方法。根据统计学已有文献 [10],可知三种缺失数据中,冗余数据是最好处理的一种数据形式,可采用指定检查每条记录重新信息的简单方式,直接删除每条数据记录的冗余项,并重新覆盖数据集;而对空数据和零值数据,则可先对数据出现的情况进行分类讨论,再根据不同情况采取不同的缺失处理方法,从而更好的补全数据的缺失。本文以数据现状研究的样本为例,将数据缺失情况分为如下几类:
1)对出现数据 “空”或 “零值”缺失的且持续时间周期超过一个月的缺失情况,系统将不予缺失补全处理,直接输出变量数据的缺失分析结论:“为网络持续中断、监测终端损坏或掉电出现的不可恢复缺失”。
2)按就近有效数据值进行分段分组,对出现数据 “空”或 “零值”缺失比例小于一半的各段数据对象,分别采用邻近点均值、线性插值、曲线拟合的方法进行缺失数据的补全或修改,通过检验比较缺失处理前后三种方法对原始数据统计量的变化大小,最终选用变化最小的方法处理该段数据的缺失,将补全和修改后的数据集更新替代原始数据集。
在上述缺失处理策略中,我们考虑对空缺量太多的数据段采取放弃补全的方式,是由于数据处理中心已存储了多年积累的庞大数据量,尽管数据采集情况不稳定,但利用统计的原理探索和还原监测数据本身的特征规律还是非常可行的。
2.2 均值分析
在数理统计学原理中,若变量数据服从正态分布,可通过求取数据集合的均值来表征该数据变量在集合中的集中趋势,求取标准值来度量该数据集合的离散程度,即表征变量数据的稳定程度。由上节设备监测数据的现状分析可知,以电网主设备为监测对象的监测变量数据都近似服从正态分布,那么可考虑适当的应用正态分布中的统计学定理,为设备数据和设备状态分析提供参考。
文中结合电网数据本身特性,结合工程实际中的应用需求,提出如下均值分析功能包括:
1)分类统计分析时间段内不同种类单个设备各监测变量数据集合的均值、标准值。
2)利用切比雪夫定理,判断分析当前时刻设备数据的异常状态,以此给电网人员提供设备状态的观察提示。
3)对比分析多个同类设备同一时间段或多个时段同一台设备的数据稳定程度,作为观察设备运行状态的辅助参考。
2.3 数据分布分析与趋势分析
通过数据统计图不仅可以直接、客观地观察各监测变量数据的变化走势,还能伴随输出变量数据的回归分析结论,其分析结果可帮助电网人员掌握数据分布、分析趋势走向,并提供一定的数据预测功能,为监测数据的进一步利用做好铺垫。常利用散点图和时间序列图这两种统计分析工具,利用散点图可统计不同类型单个设备各监测变量数据在不同运行状态下 (正常、缺陷)的数值取值范围,利用时间序列图可比较同一设备不同时段或不同设备同一时段监测变量的曲线变化,还可求取对应曲线的回归方程。为降低计算复杂度,求得较好拟合效果的曲线回归方程,系统采用基于最小二乘法的自动分段曲线拟合方法[8],选取直线形式、指数形式、三次曲线这三种典型回归方程类型,分段拟合数据集。拟合分析过程如下:
1)利用三种拟合函数拟合选取时段的所有数据,计算数据点拟合值与实测值的误差均值。
2)比较各时间点误差与,若两者差的数据个数在3个以上则进行分段,否则不分段。
3)从分段点处到最后一个数据,重复上述步骤。最终,依次求得各分段数据的回归方程组。
对比同一等级的不同设备各监测变量均值、标准差,可知同一设备变量值的集中程度与另一设备相比具有相同的大小趋势。对照相同时间内这两台设备登记缺陷发生总次数,发现缺陷发生频率多的设备相应的变量标准差都较大,由此基本可推断,利用设备变量数据集的标准差来衡量比较不同设备运行的稳定程度,为设备状态监控提供参考。同理,根据切比定理判断变量状态的理论同样能满足实践应用需求。
4)数据分布分析与趋势分析:以均值分析的数据为例,电网人员可通过数据分布分析与趋势分析把握设备变量的数据分布情况与变化趋势,预测当前设备在未来一段时间内可能的变量值。本文通过利用基于最小二乘法的自动分段多项式曲线拟合方法[8]对各监测项数据进行趋势拟合,计算得到分析时段内监测项数据的拟合方程组,帮助用户更准确的把握监测数据过去和未来的变化走势,同时也能在一定程度上通过观察趋势评估设备的运行状况。另外,单个监测项所有数据的概率分布情况也能为设备监测、变量监测提供重要评判依据。
在智能电网大数据应用的大背景下,本文提出对监测类设备数据的现状与特征进行分析,不仅有助于帮助电网人员真实的掌握现有电网数据的情况,还为电网数据化应用的工程实现提供参考依据。针对现有系统中的数据特征现状,采用的几种分析应用手段能在一定程度上提高设备的安全风险防控、辅助状态决策提供帮助,为进一步探索智能电网大数据应用提供研究基础。
[1] 张东霞,苗新,刘丽平,等.智能电网大数据技术发展研究 [J].中国电机工程学报,2015,35(1):2-11.
[2] 康建东,李伟,张隽,等.基于数据挖掘的电网故障诊断研究 [J].电子测试,2014,(23):112-112.
[3] 聂倩雯,高玮.基于关联规则数据挖掘技术的电网故障诊断 [J].电力系统保护与控制,2009,19(23):78-82.
[4] 雯闫湖,狄方春,袁荣昌,等.电网智能调度中的大数据及应用场景研究 [J].电力信息与通信技术,2014,44 (10):78-81.
[5] 李芳,陈勇,张松树,等.大电网统一数据库建设相关技术研究[J].电网技术,2013,27(2):66-70.
[6] 罗毅,李昱龙.基于在线监测系统的输电线路覆冰数据统计与分析 [J].电网技术,2012,38(11):3000-3007.
[7] 曹飞.断路器在线监测数据分析的研究与应用 [D].浙江:浙江大学.2008.
[8] 刘霞,王运峰.基于最小二乘法的自动分段多项式曲线拟合方法研究 [J].科学技术与工程,2014,14(3):55 -58.
[9] 刘晓华,曾庆辉.佛山电网电能质量在线监测系统的数据分析与应用 [J].数字通信世界,2012(1):60-63.
[10] 冯丽红.调查数据缺失值常用插补方法比较的实证分析[D].河北经贸大学,2014.
[11] 武松,潘发明.SPSS统计分析大全 [M].北京:清华大学出版社.2013:185-234.[收稿日期:2015-10-12.
Research on Analysis of Equipments Data Characteristics Based on On-line Monitoring System
HUANG Xuyong1,LIU Wenbo2,WANG Peijie2,CHEN Da2
(1.Yunnan Electric Power Research Institute,Yunnan Power Grid Co.,Ltd.,Kunming 650217,China;2.Kunming Enersun Technology Co.Ltd.,Kunming,650217,China)
By using Yunnan region substation data,and analysis the collection status,missing values,data average characteristics and data distribution trend of all equipment monitoring data individually.Then the hidden tendency and rules are discovered which may explore appropriate responses and solutions and lay the foundation of equipment operation research by field data.
online monitoring data;collection status;missing values;mean characteristics;distribution trend analysis;
TM76
B
1006-7345(2015)06-0009-04
黄绪勇 (1974),男,博士,高级工程师,云南电网有限责任公司电力科学研究院,从事电力系统及其自动化分析方面研究工作,(email)15504024@qq.com。
刘文波 (1988),女,硕士,工程师,昆明能讯科技有限责任公司,从事智能电网系统设计、设备运行分析研究工作 (email)liuwenbo@enersun.com.cn。
王裴劼 (1984),男,博士,高级工程师,昆明能讯科技有限责任公司,从事智能电网技术、无线通信技术及通信系统性能分析方面 (e-mail)wangpeijie@enersun.com.cn。