基于离群点检测算法的电力大数据异常值检测

2023-12-18 05:53朱帕尔努尔兰马为真
电子设计工程 2023年24期
关键词:离群高斯聚类

杨 霞,苟 亮,马 倩,朱帕尔·努尔兰,马为真

(国网新疆电力有限公司信息通信公司,新疆乌鲁木齐 830017)

现阶段我国的电网中已经融入多种类的数据采集检测设备,这些数据采集检测设备利用不同算法可以实时检测电网各个环节的运行状态,帮助电网公司更好地管理电网设备,从而提升电网公司的运营效率。但是目前国内电网的电力大数据异常值检测技术应用还处于初级发展阶段,数据检测量和分析量较少,传统的检测算法只有在电网电力大数据中进行深度且长时间学习才可以识别检测电网中存在的隐患,且难以拓展电力大数据的更深层作用,所以设计开发一套实用的电力大数据异常值检测技术对于电网公司的运营至关重要。

文献[1]针对传统的电力大数据检测方法不精准的问题提出了一种基于粒子群优化的改进方法,利用粒子群优化算法的精准性特点来寻找电网中的数据目标,同时还结合了C 均值算法对粒子群优化算法获取的结果进行验证,通过实验证明了该方法在电力数据精准度方面的有效性。但是这种电力大数据检测方法实现成本较高、难度较大,且在电力数据较为密集的电网中并不能体现出精准性的特点。文献[2]提出一种以用户负荷特性为基础的电力大数据检测方法,该方法基于SOM 和K-means 融合的一种综合性聚类方法,应用了大量的电力数据证明该方法的实用性,同时还利用多种类型的数据验证该方法的泛化性,具有较强的适应能力,但是该方法存在精准度较差的缺陷。

结合以上内容,该文采用精准度较高、容易实现且广泛性强的利群检测算法作为该文电力大数据异常值检测方法的基础,并通过实验验证了方法的有效性。

1 电力大数据异常特征提取

通过离散点变换的方式来寻找电力大数据中的异常特征,在离群点变换的过程中对电力大数据中的信号进行筛选并确定能够应用在电力大数据中的离群点函数,然后基于函数进行异常特征的深度分解[3-4]。离群点检测算法的实现原理如下所示:

其中,ai(k)代表近似分量;di(k)代表细节分量;i∈z,j∈z;X是离群点集合,φij(t)是由离散点中的母点经过φ(t)平移后得到的。离群点检测算法可以将电力大数据中的初始数据按照时间尺度进行分解,获取初始数据中的异常数据特征[5-6]。将离群点检测算法与高斯混合模型相结合,利用离群点检测算法的精准性和高斯混合模型来同步提取电力大数据中的异常特征。

最大似然估计法与离群点检测算法对数据组中的特征数据进行迭代求解,迭代的过程分为两步,如图1 所示。

图1 特征数据迭代过程

观察图1 可知,第一步是将高斯混合模型中的参数进行函数运算,计算电力数据的特征期望值,第二步是将期望值代入到离群点检测算法中获取新的特征参数,两步交替运行,一直到迭代步骤收敛为止[7-8]。

2 电力大数据异常值检测

由于电力大数据中的数据来源不确定,数据种类复杂,难以通过格式筛选的方式来实现电力大数据异常值检测,所以该文利用电力大数据中的异常数据局部特征首先进行基于距离的异常值检测,将距离离群点较近位置的异常值检测出来。基于距离的异常值检测会在离群点检测算法有效范围内发布一个异常值的特征定义,符合特征和距离的数据会自主进入算法中进行验证,验证过程的距离度量方法可以分为欧氏距离和曼哈顿距离[9]。

在电力大数据的数据储存库中建立高斯混合模型,计算出高斯混合模型的拟合参数,通过参数的吸引提取异常数据特征。在高斯混合模型中的离群点检测算法可以扩展离群点的空间分布范围,离群点算法在高斯混合模型中可以表示为:

其中,x代表离群点样本变量;πi代表混合模型权重;ui代表第i个高斯分量均值。高斯混合模型的最大似然估计法可以帮助离群点检测算法寻找成组的异常数据目标,其函数表达式为:

该函数与离群点检测算法同步计算电力数据,寻找具有共同点的一组特征数据,数据组可以用表示。

如果能够通过距离异常值检测方法,则证明离群点有效范围内的异常值已经被检测,然后再对离群点进行发散处理,使用基于密度的异常值检测法。该方法可以识别出异常值在离群点周围的密度,确定异常值位置后离群点释放局部异常因子,给某个异常值设定一个定点x,设定dk(x)为离群点到该异常值的距离,即可进一步确认出离群点到全部异常值的距离:

其中,dist(x,y) 代表异常值与异常值之间的距离;dk(y) 代表离群点到其他异常值的距离,当dist(x,y)之间的距离最小时,即可通过离群点寻找到一定密度内的全部异常值[10-11]。在电力大数据储存库中释放离群点聚类簇来屏蔽异常值噪声,运用异常值的噪声特性提高检测水平,检测异常值噪声,实现电力大数据异常值检测,检测流程如图2 所示。

图2 电力大数据异常值检测流程

1)从离群点中选取部分点进入聚类中心;

2)设定离群点与聚类中心和离群点与异常值之间的标准距离单位;

3)将距离聚类中心最为接近的基数作为检测评分的基础值;

4)对每个聚类中心内部离群点成员设定噪声阈值,然后进行检测[12]。

经过以上步骤的异常值检测后,电力大数据中的空间方面异常值和时间方面异常值均被检测到[13-14]。

为了能够更全面地检测电力大数据异常值,还需要发挥聚类异常值检测法的原理多样性,离群点在聚类时主要以分层聚类、划分聚类和网格聚类三种模式存在,所以基于聚类的异常值检测可以通过转变模型来检测其他异常值[15-16]。三种模式预备检测时需要在电力大数据储存库的基础上进行总体分析,并在电力大数据储存库中设置异常值审核阈值,利用阈值寻找与异常值相似的数据簇。

3 实验研究

为了验证该文提出的基于离群点检测算法的电力大数据异常值检测方法的实际应用效果,设定实验,选用的实验对象为10 kV的配电变压器,共统计了120天负荷数据,在进行检测实验之前,通过归一化处理,提高训练速度。归一化处理过程如公式(6)所示:

其中,i表示被采集的样本;mi表示采集到的电力大数据日负荷数值;表示标准化处理结果。选用该文的离散点检测方法对电力系统内部的单台变压器负荷数据进行检测,得到的检测结果如图3 所示。

图3 基于离散点的单台变压器检测结果

根据图3 可知,电力系统的额定电压为10 V,单电变压器电力系统中的大部分样本负荷数据电压都集中在10 V 之内,有少数的样本符合数据电压超过10 V,则证明这部分负荷数据为异常值。

对离散信息进行采样,根据离散数据分布结果,进行响应,得到不同数据点的振幅情况如图4 所示。

图4 振幅波动状况响应结果

根据图4 可知,当采样数据的电压值超过10 V时,振幅不稳定,证明异常值分布在这一区域内,与图的分布结果相符,由此证明,该文提出的基于离群点检测算法在检测单台变压器异常状况时十分有效。

在对单台变压器负荷数据进行检测后,对电力系统内部的350 台变压器进行负荷数据异常检测,得到的离散点分布结果如图5 所示。

图5 基于离散点的多台变压器检测结果

根据图5 可知,在运行时间0~2 min 内,变压器运行状态存在异常点。对分布的数据进行拟合,拟合曲线如图6 所示。

图6 分布数据拟合曲线

根据拟合结果可知,在拟合时间在0~1 min 时,由于检测到的电力数据点异常点分布过于离散,因此难以拟合;在1~2 min 时,拟合状况得到优化;当拟合时间超过2 min 后,能够得到很好的拟合,由此可见,350 台变压器在同时运行时,单台变压器所出现的异常数值可以被拟合点,但若多台变压器同时出现异常值,则难以被拟合[17-19]。

通过对比实验深入探究该文提出的异常值检测方法的性能,选用基于改进PSO-PFCM 聚类算法的电力大数据异常检测方法和基于云计算的电力运行大数据异常值快速检测算法作为对比方法,同时检测电力大数据电压和电流,实验结果如表1 所示。

表1 异常时间检测结果

根据表1 可知,该文提出的检测方法检测到的异常电流和异常电压所在检测时间一致,证明异常数值存在时间在0.3~0.4 s 内,由此可见该文方法具有极高的可行性,传统检测方法检测到的异常电流和异常电压所在检测时间不同,在实际应用准确性不高,可借鉴能力不强。

4 结束语

该文基于离群点检测算法提出了一种新的电力大数据异常值检测方法,离群点检测算法可以从时间序列角度获取一定量的特征参数,通过离群点检测算法检测电力大数据中的异常,通过高斯混合模型进行了电力数据特征值的维度降低,寻找更全面的数据特征,利用高斯混合模型进行特征的取值。实验结果表明,该文算法在大范围覆盖的基础上落实了精准性和准确性的异常值检测,从而解决了传统检测方法中的问题。

猜你喜欢
离群高斯聚类
数学王子高斯
天才数学家——高斯
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
离群数据挖掘在发现房产销售潜在客户中的应用
离群的小鸡
有限域上高斯正规基的一个注记
一种层次初始的聚类个数自适应的聚类方法研究
应用相似度测量的图离群点检测方法
一种基于核空间局部离群因子的离群点挖掘方法