基于正态分布规则的时间差数据清洗算法

2021-03-07 07:58林奕夫郑书生
电子技术与软件工程 2021年24期
关键词:偏度时间差峰度

林奕夫 郑书生

(1.国网福建省电力有限公司经济技术研究院 福建省福州市 350000)(2.新能源电力系统国家重点实验室(华北电力大学) 北京市 102206)

1 引言

局部放电(Partial-Discharge, PD)在高压电力设备经常出现,会降低设备的绝缘性能,长期发展可能带来严重的事故[1-3]。变电站的设备多、运行的电场复杂,出现局放的概率相对更大,对局放源进行定位,从而采取检修措施对设备的安全运行具有重要意义。特高频法(Ultra-High- Frequency, UHF)作为局放检测的有效手段,在变压器、气体绝缘变电站等设备的局放检测中广泛应用[4-6]。近几年有学者提出利用UHF 法进行局放定位,成功应用在变电站内的局放查找[7]。

基于UHF 定位的常用方法主要有:基于到达时间差(time difference of arrival, TDOA) 和基于信号接收幅值强度(received signal strength indicator, RSSI)。TDOA 法是通过布置特高频传感器阵列,根据信号到达传感器阵列的时间差,通过一定的方法解出局放源的坐标。TDOA 法定位精度高,相较于RSSI 法抗干扰能力更强,目前已出现可移动式定位装置应用在变电站,但其需要高速同步采样设备的支持,获取纳秒级别的到达时间差[8-10]。国内有学者在变压器内布置特高频传感器阵列,根据到达时间差得到定位方程组,通过复数域牛顿迭代算法求解,定位绕组上的单源局放,精度达到0.34 m[11]。Philip J.Moore 于2003年总结了变电站各种常见类型局放的空间电磁波频谱特性,提出了用天线阵列进行开放空间局放定位。利用极坐标系进行故障定位已成为变电站常用的放电故障定位主要方法[12-14]。

局部放电具有随机性,信号波形复杂多样,时间差计算方法的普适性不强,时间差数据的分散性很大。此外,检测环境中存在偶发的干扰信号,产生与放电源不同的时间差。由于这两方面原因,特高频定位的时间差数据分散性大,无法确定有效区间的区间,时间差算术均值与理论时间差偏差较大,从而降低了定位精度。可见,如何筛除无效数据,提高时间差均值计算精度,是局部放电特高频时间差定位中的关键环节。为此,本文提出一种基于时间差正态分布特征分析的数据清洗方法。

2 基于正态分布的时间差数据筛选原理

2.1 正态分布原理

特高频法测局部放电的输出结果为时间差、方位角或空间位置。各次试验中,由于外界参数(如示波器采样频率等)不变,时间差取值可以视作一个独立同分布的随机变量。中心极限定理表明,独立随机变量个数增加时,它们的值趋近于正态分布。如果这些样本是独立同分布的,即他们的数学期望与方差是相同的,可以视作这些样本是从总体中抽取的,抽取数量足够大时,这些样本的均值将服从的正态分布。简单来说,就是样本的均值与总体相等,无论总体呈何种分布趋势,从总体中任意抽取样本的均值总在总体均值周围呈正态分布。

时间差这一随机变量与许多因素有关,这些因素都存在随机性且互相独立,彼此之间的影响微小,可以说,时间差受他们的综合影响,根据概率论知识知,时间差这一随机变量的分布应该近似于正态分布。正态性可以用偏度、峰度进行检验,对第二章中的原始试验数据进行偏度、峰度检验,大多均满足正态性。因此,可以从正态分布入手,对数据进行有效区间的提取。

2.2 正态分布中的3σ原则

正态分布的概率密度函数如式(1)所示。

其中μ 代表样本均值,也是正态分布概率密度函数的对称轴;σ 代表样本标准差,其图像如图1所示。

图1:正态分布概率密度曲线图

式(1)为一个超越函数,无法积分,但由图1的正态分布图可知:区间(μ,μ+σ)面积为0.341,区间(μ+σ,μ+2σ)面积为0.136,区间(μ+2σ,μ+3σ)面积为0.021。由此给出正态分布的3σ 原则,即:对于满足正态分布的随机变量,其数值分布在(μ-σ,μ+σ)中的概率为0.682;分布在(μ-2σ,μ+2σ)中的概率为0.954;分布在(μ-3σ,μ+3σ)中的概率为0.996。可以用3σ 原则来筛选数据。假设采集的时间差仅有随机误差,计算其标准差与均值,按照概率取一个区间,认为该区间外数据属于粗大误差,将其舍去。

2.3 时间差有效区间计算方法

正态分布中,数值分布在(μ-σ,μ+σ)区间的概率为0.682,这个区间,既包含了中位数附近的采集数据,又筛去了较多的两端离群数据,可以说,是提出了正态曲线的“峰”所在的部分。根据工程经验,有效时间差集中在正态曲线的峰附近,因此选择(μ-σ,μ+σ)中的数据作为有效数据。

由于正态分布概率密度曲线关于直线x=μ 对称,对称轴的横坐标可以描述为位于总体数据的50%处。Labview 中存在均值趋势函数,该函数在工作在模式3 下可以输入一个百分数x 表示数据在总体所占的位置,以求取自动排除区间(0,x)和(1-x,1)后关于对称轴对称的数据的均值,取该对称区间的好处在于可以在原始平均值两侧各排除一个占总数据个数x%的区间,平均了原始均值两侧离群数据的干扰,因此需要求取μ-σ 所代表的的百分比,并将其连接到均值趋势函数中,以求取有效时间差区间的均值。设该百分比为x,可由式(2)、(3)计算。

在上述地线的三个端子处,由于结构变化,传输阻抗将发生突变。脉冲电流到达端子处将会发生折返射。在一定频率下,入射波与反射波叠加,脉冲电流幅值增大,形成驻波。在此驻波频率下,地线向周围空间辐射出较强烈的电磁波信号。将天线传感器放置在设备外部地线附近时,就可以探测到射频信号。

3 正态分布的偏度、峰度检验

通常,检验总体分布一般采用x2拟合检验的方法,但是在检验正态性时,这种方法有较大概率会犯第II 类错误(原假设不正确但接受了原假设的错误),因此,对于正态分布的检验,需要采用专用的方法——偏度、峰度检验。

若X 满足正态分布,则v1=0 且v2=3,假设样本x1,x2,…,x3来自总体X,则v1与v2的矩估计量分别为G1与G2,代表样本偏度与样本峰度,(其中Bk为样本的k 阶中心矩,k=2~4),具体见式(6)。

如果总体X 是正态变量,且n 充分大时,有式(7)、(8)。

现有假设H0:X 为正态总体,记

当n 充分大时,若H0为真,近似有U1~N(0,1),U2~N(0,1),易知,G1与G2应该依概率收敛于v1与v2,因此|U1|的观察值|u1|或|U2|的观察值|u2|大于某一设定值时,就拒绝H0,即H0的拒绝域为:(其中α 为显著性水平)。

如果假设的可靠性为95%,即考虑置信水平为95%时,有95%=1-α,可知显著性水平α=0.05,因此可以求得1-(α/2)=0.975,将z 取值为1.96,当观察值大于1.96 时就拒绝假设,反之,则证明样本属于正态分布,这就是偏度、峰度检验正态分布的原理。

从上面原理可知,偏度、峰度主要用于检验样本是否服从正态分布。使用该原理可以校验筛选后的有效时间差,即原始数据中的(μ-σ,μ+σ)部分,是否满足正态分布。将该条件作为循环判断条件,如果筛选后不服从正态分布,则不跳出筛选程序,继续用3σ 原则循环筛选新的有效区间中的(μ-σ,μ+σ)部分,直至新的有效区间服从正态分布跳出筛选循环为止。当筛选后的数据服从正态分布,即视为有效区间提取完毕,利用均值趋势函数计算该有效区间均值作为最终的有效时间差均值即可。

4 时间差数据清洗程序

时间差数据清洗的流程如图2所示。

图2:时间差数据清洗流程图

第一步,利用读取电子表格函数从定位程序的输出文件中读取原始时间差、方位角数据,输出提取后的时间差数组;

第二步,利用3σ原则筛选其中分布在(μ-σ,μ+σ)的时间差数据,并计算其均值;

第三步,利用偏度、峰度检验,判断筛选后数据是否满足正态分布,满足则跳出循环,否则重复第2-3 步继续筛选,直至循环次数达到4 次停止(防止死循环);

第四步,输出跳出循环后的正态分布检验布尔值,若筛选后满足正态分布,再筛选一次(μ-σ,μ+σ)的时间差数据,并计算其均值,输出该值作为提取出的有效均值。

通过每一次筛选,剔除一部分离群数据,不断循环剔除,使剩余时间差区间逐步逼近真正有效的区间,当剔除数据后满足正态分布,即认为此时数据已经为有效数据,再剔除一次此种情况下的离群数据,将此时筛选剩下的数据均值输出,即为时间差的有效均值,完成了清洗过程。

5 时间差数据清洗方法应用测试

如图3所示,在实验室开展了特高频法局部放电定位试验,以测量原始时间差。本次试验在三个位置分别布置局部放电源,利用两个天线测量时间差。本文试验将三个放电源设定在同一高度,忽略了Z 轴(高度)定位误差的影响,尽力保证数据的准确性。本文选取的三个放电源分别在天线支架正前方,左前方与右前方,并用红外测距仪测出各点具体位置。在试验中,对每个位置的放电源连续采集数据100 次,形成100 个时间差数据。

图3:时间差定位测量图

对每组试验测得的时间差数据,分别直接计算时间差均值、并利用正态分布数据清洗方法处理后计算时间差均值,结果表1所示。

表1:时间差数据清洗前后误差分析

经上表对比分析可知,筛选后时间差均值相较于直接对所有实测数据进行算术平均的结果,误差大多均有明显减小,更接近理论值,且最大误差由原来的超过0.4ns 减小为约0.1ns,因此,可以视为单源有效时间差均值提取成功,且在缩小误差方面有一定效果。

6 结论

本文针对局部放电时间差定位测量中存在的异常离散数据引起的误差,提出了基于数据正态分布的数据清洗方法。阐明了提出异常数据的方法,同时给出了检验数据清理合理性的偏度与峰度检验方法。基于LabVIEW 开发了时间差数据清洗软件。通过实测检验了清洗方法与软件的可行性。测试结果表明,清洗后均值明显更接近理论值,有效地将最大误差从超过0.4ns 减小到了约为0.1ns。

猜你喜欢
偏度时间差峰度
扩散峰度成像技术检测急性期癫痫大鼠模型的成像改变
对称分布的矩刻画
量子定位系统中符合计数与到达时间差的获取
磁共振扩散峰度成像在肝脏病变中的研究进展
基于自动反相校正和峰度值比较的探地雷达回波信号去噪方法
基于BP网络的GIS局部放电声电联合检测故障定位方法
基于偏度的滚动轴承声信号故障分析方法
考虑偏度特征的动态多响应稳健参数设计与优化
磁共振扩散峰度成像MK值、FA值在鉴别高级别胶质瘤与转移瘤的价值分析
基于偏度、峰度特征的BPSK信号盲处理结果可信性评估