基于数据挖掘的电能表云端数据自适应聚类方法*

2023-05-10 08:29文萍芳

九江学院学报(自然科学版) 2023年1期

文萍芳

(池州职业技术学院实验实训中心安徽池州 247000)

通常情况下，大部分电力公司均采用电能表采集电力用户的电力数据[1]。在智能电网环境下，电能表处于持续创新阶段，导致电能表数据呈爆炸式趋势增长。为提升电力数据的存储容量，电力公司会通过云端存储电能表采集的电力数据[2]。为快速、精准的在云端内，提取有价值的电能表云端数据，为电力分析与窃电检测等应用提供有利的数据支持，需研究智能的电能表云端数据自适应聚类方法。例如，刘惠在K-means算法内，引入核函数，通过改进K-means算法，自适应聚类电能表云端数据。该方法可有效聚类电能表云端数据，提升数据聚类的稳定性[5]。李丽亚等人通过Frobeius范数，对加权自适应多视图聚类算法进行改进，降低数据聚类的自由度，将其与K-means聚类算法结合到一起，用于自适应聚类电能表云端数据。该方法明显降低了电能表云端数据聚类时间，具备较优的聚类效果[3]。对于不平衡数据集，这两种方法的聚类可靠性较低。数据挖掘可在海量数据内挖掘有价值信息[4]。模糊C-均值(Fuzzy C-Means，FCM)聚类算法是常用的数据挖掘算法之一。为此设计基于数据挖掘的电能表云端数据自适应聚类方法，通过FCM算法与过采样技术(synthetic minority oversampling technique，SMOTE)，解决不平衡数据的问题，提升电能表云端数据聚类精度，为电力公司提供更好地服务。

1 电能表云端数据自适应聚类

1.1 基于改进SMOTE的电能表云端不平衡数据处理

实际生活中，电能表云端内存储的数据，通常会出现不平衡数据集，在自适应聚类电能表云端数据时，会将电能表云端数据划分至多数类，降低电能表云端数据聚类的可靠性[5]。为此，利用改进SMOTE算法，处理电能表云端内的不平衡数据集，得到平衡的电能表云端数据。利用改进SMOTE算法处理不平衡电能表云端数据的具体步骤如下：

(1)

式中，第j个多数类电能表云端数据样本是yj。

(2)求解全部Oi的累加和O，公式如下：

(2)

(3)求解少数类与多数类电能表云端数据样本间的欧式距离均值Oave，公式如下：

(3)

(4)按照顺序选择各xi的中心圈定区域，其半径是Oave。再统计该区域内yj的数量，将其当成xi的支持度ξ。

(5)按照ξ选取xi，合成新样本，公式如下：

zi=xi+λ×(xl-xi)

(4)

式(4)中，影响因素是λ；xi的邻近少数类电能表云端数据样本是xl；新样本是zi，即平衡的电能表云端数据。λ的计算公式如下：

(5)

式(5)中，随机数是r∈(0，1)；xi和yj间的欧式距离均值是δ′；少数类电能表云端数据样本间的欧式距离均值是δ；合成电能表云端数据时[6]，xi和xi的K个同类近邻的欧式距离均值是δ1；xi和xi的K个多数类邻近的欧式距离均值是δ2。

1.2 基于自适应权FCM的电能表云端数据自适应聚类

不平衡处理后，获取的平衡电能表云端数据集是Z={z1，z2，…，zn}；电能表云端数据样本数量是n；电能表云端数据已知类别数是c。利用FCM算法聚类电能表云端数据的目标函数为：

(6)

uij′与sj′的更新公式如下：

(7)

(8)

式(7)中，zi与第k个聚类中心sk间的欧式距离是dik=‖zi-sk‖。

扩展式(6)的目标函数获取：

(9)

根据式(9)可知，各电能表云端数据样本zi与其类中心间的模糊距离系数是1，代表FCM算法内，各zi对J的贡献一样重要，这也包括样本点是噪声点，此时便会降低电能表云端数据聚类效果[7]。为此，在FCM算法内，添加自适应权重W=(w1，w2，…，wn)，W的作用是描绘各zi的重要程度。利用自适应权FCM算法，自适应聚类电能表云端数据的目标函数为：

(10)

式(10)中，zi的自适应权重是wi。

wi与vj′的更新公式如下：

(11)

(12)

其中，自适应指数是p。

将式(7)、式(11)、式(12)代入式(10)，输出电能表云端数据聚类结果。

1.3 基于中心自适应权FCM的云端数据自适应聚类

利用自适应权FCM算法，自适应聚类电能表云端数据时，虽然能够降低噪声样本对自适应聚类结果的影响，但却比较依赖初始聚类中心的选择。为解决这一问题，将引入的自适应权重，变更成中心自适应权重ω。在FCM算法内，添加ω，会提升算法的鲁棒性，此时，电能表云端数据自适应聚类的目标函数为：

(13)

式(13)中，vj′的中心自适应权重是ωj′；ωj′的自适应指数是q。

通过拉格朗日插值法，计算ω、U、S的拉格朗日函数L(ω，U，S)，公式如下：

(14)

式(14)中，ωj′与uij′对应的拉格朗日乘子是αj′、αi。

在L(ω，U，S)内，计算ω、U、S的偏导，并设置其值是0，获取：

(15)

(16)

(17)

(18)

将式(16)至式(18)的更新结果代入式(13)内，获取电能表云端数据的自适应聚类结果。

1.4 改进中心自适应权FCM的数据自适应聚类

在中心自适应权FCM算法内，m与q属于影响电能表云端数据自适应聚类的主要参数。因此，通过自适应蚁群算法，优化m和q，提升电能表云端数据自适应聚类效果。具体步骤如下：

(1)蚁群算法初始化。

(19)

式(19)中，加权因子是θ。

(3)求解更新路径中的信息素浓度σij′，公式如下：

(20)

式(20)中，迭代次数是t；σij′的衰减与调节因子是ρ、β；待定参数是Q。

(4)求解zi隶属于sj′的概率gij′(t)，如果gij′(t)>ε，则将zi归入sj′，并利用式(18)更新sj′；反之，跳转至步骤3。其中，概率阈值是ε。gij′(t)的计算公式如下：

(21)

式(21)中，引导函数是ζij′；σij′与ζij′的影响因子是κ1、κ2。

σij′(t+1)=ρσij′(t)+Δσij′

(22)

式(22)中，σij′的增加量是Δσij′。

(6)初始化U与ω，利用式(8)计算S。

(7)利用式(16)～(18)更新uij′、ωj′、sj′。

(8)通过式(13)计算电能表云端数据自适应聚类的目标函数，在整个算法收敛情况下，输出电能表云端数据自适应聚类结果。

2 实验结果分析

以某电力公司2021年的电能表云端数据为实验对象，利用文章方法对该电力公司的电能表云端数据进行自适应聚类，提升后续电能表云端数据的应用效果，该电力公司内电能表云端数据内共包含5中类型的电力数据，具体信息如表1所示。利用文章方法处理该电力公司的电能表云端数据集，得到平衡的电能表云端数据，经过处理后的电能表云端数据不平衡率如表2所示。对比表1与表2可知，经过文章方法处理后，可有效降低各类型电能表云端数据的不平衡率，最高不平衡率仅有1.5%。实验证明：文章方法可有效处理不平衡电能表云端数据，降低数据不平衡率。

表1 电能表云端数据的基本信息

表2 处理后电能表云端数据的不平衡率

利用文章方法对电能表云端数据集内的部分二维数据进行自适应聚类，并在选择的部分二维电能表云端数据内，加入高斯噪声，文章方法的自适应聚类结果如图1所示。根据图1(a)可知，加噪后的原始数据分布较混乱，同时原始数据中夹杂着大量噪声数据；根据图1(b)可知，经过文章方法自适应聚类后，可有效将不同类型的电能表云端数据自适应聚类到一起，且无混淆情况，聚类类别共有4类，与实际情况相符，说明文章方法的自适应聚类精度较高。实验证明：文章方法可精准自适应聚类二维电能表云端数据，且抗噪性能较优。

(a)加噪后的原始数据分布情况

利用文章方法对电能表云端数据集内的部分三维数据进行自适应聚类，并在选择的部分三维电能表云端数据内，加入高斯噪声，文章方法的自适应聚类结果如图2所示。根据图2可知，文章方法可有效自适应聚类三维电能表云端数据，且自适应聚类的类别数与实际情况一致，说明文章方法自适应聚类的精度较高，且自适应聚类后各类型数据分布较为集中。实验证明：文章方法可精准自适应聚类三维电能表云端数据。

利用归一化互信息指标(NMI)与芮氏指标(RI)，衡量文章方法的自适应聚类效果，NMI与RI越高，说明自适应聚类效果越佳，在不同类型的二维电能表云端数据内添加不同程度的干扰信息，分析不同程度干扰信息时，文章方法自适应聚类的NMI与RI，分析结果如图3、图4所示。

图3 自适应聚类的NMI分析结果

图4 自适应聚类的RI分析结果

根据图3可知，随着干扰信息的增加，文章方法自适应聚类电能表云端数据的NMI值不断下降，最低NMI值分别在0.87、0.83、0.86左右，均未低于NMI阈值。实验证明：在不同程度干扰信息时，文章方法自适应聚类电能表云端数据的NMI值较高，即自适应聚类精度较高。

根据图4可知，随着干扰信息的增加，文章方法自适应聚类电能表云端数据的RI值不断下降，最低RI值分别在0.74、0.77、0.79左右，均未低于RI阈值。实验证明：在不同程度干扰信息时，文章方法自适应聚类电能表云端数据的RI值较高，即自适应聚类效果较优。

3 结论

为加快电能表云端数据的应用效率，提升应用效果，研究基于数据挖掘的电能表云端数据自适应聚类方法，在FCM聚类算法内，添加中心权重与自适应指数，可有效降低FCM聚类算法对噪声的敏感性，帮助该算法跳出局部极值，精准聚类电能表云端数据，为电力数据分析与制定供电计划等应用，提供更为精准的数据支持，降低后续电能表云端数据应用的计算复杂度。