改进FCM算法及其在电力负荷坏数据处理的应用

2011-10-30 07:18蒋雯倩李欣然

电力系统及其自动化学报 2011年5期

关键词：插值聚类建模

蒋雯倩，李欣然，钱军

(湖南大学电气与信息工程学院，长沙 410082)

改进FCM算法及其在电力负荷坏数据处理的应用

蒋雯倩，李欣然，钱军

(湖南大学电气与信息工程学院，长沙 410082)

变电站日负荷曲线含有丰富的综合负荷构成特性信息，可以用于负荷特性的分类与综合，但必须对原始生数据进行坏数据的辨识与调整。在深入分析已有方法以及负荷建模对日负荷曲线分类与综合要求的基础上，提出一种基于拉格朗日(Lagrange)插值方法和模糊聚类原理的改进的模糊C均值聚类FCM(fuzzy C-means)算法应用于变电站日负荷曲线的坏数据辨识与调整。首先运用内维尔(Neville)算法对缺失数据补全；然后采用改进FCM算法对日负荷曲线进行聚类，产生各类的特征曲线，利用负荷曲线的横向相似性辨识负荷坏数据；最后利用特征曲线进行坏数据调整。实例分析取得了良好效果。

负荷特性；坏数据辨识；内维尔算法；改进的模糊C均值算法；日负荷曲线

目前，数据采集与监视控制SCADA(supervisory control and data acquisition)系统在电力系统中得到了广泛的运用。这些数据不仅广泛运用于短期电力负荷预测，还是电力系统负荷建模的一个重要数据源。在电力系统实际运行时，一方面SCADA系统由于通道错误、远程终端单元RTU(remote terminal unit)故障等原因会致观测数据的反常态势，以致与大多数观测值不一致；另一方面，由于特殊事件(如切负荷停电，线路检修停电，大用户、大事件冲击等)引起负荷的异常变化，也会导致观测数据的违背常规。所有这些非正常的数据都可称为异常数据。这些异常数据在一定程度上干扰了负荷的正常变化规律，能导致对负荷预测结果的误判，影响负荷模型的精确性。在运用之前，有必要对其进行处理。

实际数据系统中，异常数据的产生往往是随机的，以多种类型存在于数据库中。这些数据可分为两类。一类是坏数据，表现形式为缺失值、极大极小值、负荷毛刺。另一类为畸变数据，表现为含冲击负荷数据等。对于坏数据的辨识及处理已提出多种方法，文献[1]利用根据数据偏差辨识坏数据，精确度比较低；文献[2]将坏数据定义为曲线的奇异点，利用小波理论对坏数据进行辨识和处理，运算效率相对比较低；文献[3]利用BP网络(Back propagation，多层前馈网络)进行处理，学习效率比较低，容易陷入局部极小。

本文利用负荷数据的横向相似性对SCADA系统日负荷曲线数据进行坏数据辨识。先用Neville算法对SCADA系统日负荷曲线缺失点进行补全，再用一种改进的FCM算法对日负荷曲线进行聚类，得到每一个类别的特征曲线，利用特征曲线辨识出坏数据，并对坏数据进行调整。

1 Neville算法

Neville算法是一种采用Lagrange插值多项式，逐次线性插值的算法。在处理不同时间段的缺失数据，根据精度要求采用不同的多项式进行插值。与直接运用多项式插值相比较，Neville算法具有计算量少，能控制计算精度的特点。

令X={x1，x2，…，xn}为插值样本集，n为插值节点的维数，x为插值点，Neville算法步骤如下。

步骤1设置精度eps，计数器i=1，j=1，其中i∈[1，n]，j∈[1，i]；

步骤2计算Lagrange插值多项式为

Li，j=((x-xi-j)Li,j-1-(x-xi)Li-1,j-1)/

(xi-xi-j)

(1)

步骤3循环判别条件

|Li,j-Li-1,j-1|<ε

(2)

如果成立，则转到步骤4；如果不成立，则转到步骤2。

步骤4输出差值结果Li,i。

对于相同次数的插值多项式，内插比外插效果好，在进行补全缺失值的时候，尽量将插值点放在各个插值节点之间。

2 改进的FCM算法

2.1 减法聚类算法

减法聚类是把所有的数据点作为聚类中心的候选点，它是一种快速而独立的近似聚类方法。减法聚类的计算量与数据点的数目成简单的线性关系，而且与所考虑问题的维数无关。

给定数据集X={x1，x2，…，xn}⊂Rs为模式空间中n个模式的一组有限观测样本集，聚类数目为k，减法聚类的基本步骤如下。

步骤1初始化k=0，则计算各个样本点xi的密度指标公式为

(3)

式中，ra为预先给定的一个正参数。选择具有最高密度指标的数据点xc1作为第一个聚类中心，其对应的密度指标为Dc1，令k=1。

步骤2修正每个样本点的密度指标，其公式为

(4)

式中：xck为第k次选出的聚类中心；Dck为对应的指标密度；rb为预先给定的一个正参数。选取具有最高密度指标的数据点xck+1作为新的聚类中心，其对应的密度指标为Dck+1，令k=k+1。

步骤3判断

(5)

是否成立，若不成立，则转到步骤2；若成立则算法结束。算法结束后，得到的k为聚类中心数目，xck为聚类中心。

参数ε<1决定了最终产生的初始化聚类中心数目。ε越小，则产生的聚类数越多；ε越大，则产生的聚类数越少。

减法聚类中的参数ra、rb定义为领域半径，半径以外的数据点对该点的密度指标影响甚微，领域半径取值方法有两种，即

i=1，…，n}j=1，…，n}

(6)

(7)

2.2 改进的FCM算法

FCM算法是目前聚类分析中应用最为广泛的算法之一。它把聚类问题归结为一个非线性规划问题，然后利用交替优化AO(alternating optimization)策略求解无监督分类问题。但是现有的FCM算法在分析前要求确定聚类类别数目和聚类原型参数的先验知识，否则算法会产生误导，破坏算法的无监督性和自动化，也给应用带来不变。FCM算法其本质是一种局部搜索的爬山法，通过聚类原型和划分矩阵之间的交替来寻找局部最优解，算法初始化的优劣将影响结果的精确度，陷入局部最优解。与FCM算法相比，减法聚类算法是一种简单、最基本的算法，该算法在聚类前不需要给定初始分类，且减法聚类的计算量与数据点的数目成简单的线性关系，而且与所考虑问题的维数无关，在计算空间维数比较高的样本数据时，计算时间短。但是该算法聚类结果的精确不高，得到的聚类中心描述性不强。这两种算法单独用于日负荷曲线分类，都不能满足分类要求。本文所用的改进的FCM算法是一种基于减法聚类算法的FCM算法。利用减法聚类得到聚类数目和聚类中心，作为FCM算法的起点来初始化FCM算法，不仅不需要预先设定分类数目，而且提高了算法效率。其计算步骤如下。

步骤1通过减法聚类算法得到聚类数目k和对应的聚类初始中心xck。

步骤2设置迭代计数器b=0，计算或更新隶属度为

(8)

步骤3计算目标函数

(9)

判断目标函数J(μ，p)是否达到最小值，如果达到最小值则算法停止并输出聚类类别数x和聚类中心矩阵P，否则令b=b+1，用式(10)更新聚类中心矩阵P，并转到步骤2。

(10)

算法结束后将输出聚类数目和聚类中心矩阵。

3 坏数据辨识和调整

电力负荷曲线具有两个重要特征：相似性和平滑性。相似性指不同日曲线的几个峰谷时刻基本相同，大致形状也是极为相似的。平滑性指一条曲线的相邻点一般不会有大的变化(极特殊情况，如发生重大事故例外)，坏数据的存在将明显破坏曲线的两个特征。利用曲线的平滑性，可以采用插值多项式对缺失数据进行补全。但实际所得到的日负荷曲线数据样本中，缺失数据的时间点具有不确定性，处于曲线中间段和首尾段的缺失点应该采用不同次数的多项式进行处理。本文采用的Neville算法能很好解决这些问题。利用曲线的相近似，现将待处理数据进行聚类，得到各类的特征日负荷曲线，并求得相应各点的方差，利用实际负荷和特征的差值来判断该点负荷是否为坏数据，最后对坏数据进行调整。具体步骤如下：

给定数据集X={x1，x2，…，xn}⊂Rs为模式空间中n个模式的一组有限观测样本集，其中i=1，2，…，s。s为日负荷曲线采样点个数。

步骤1用Neville算法对缺失的数据进行补全。

步骤2用改进的FCM算法将样本集进行聚类，得到聚类数目k，每个类别中所包括的曲线和条数M={m1，m2，…，mk}和各类的特征曲线XP={xp(i，1)，xp(i，2)，…，xp(i，k)}。

步骤3令迭代系数t=1，计算第t类对应于各时刻负荷的方差

(11)

步骤4判断第t类包含曲线中坏数据。如果满足式(12)，则该点负荷为坏数据。

|x(i，c)-xp(i，t)|/3σi>1.25

(12)

步骤5设检出某曲线x(i，d)的p点到q点为坏数据，修正后的曲线为xr(i，d)，对坏数据进行修正，其公式为

xr(i，d)=xp(i，t)·

(13)

i=p，p+1，…，q

初彭龄为官之前，族内无人出任省级以上官员。雍正年间，祖父初元方，历任河南泌阳、灵宝、登封、夏邑，四川珙县、内江、遂宁、富顺、宜宾县知县［1］927，初元方兄初元美，字在中，号蕴亭，相继任福建连城、邵武、长汀、南平县知县［1］924。其他同族无人做官。

判断t≤k，如果成立，令t=t+1，转到步骤3，否则处理完成。

4 算例分析和比较

本文采用的日负荷曲线为湖南省调度中心SCADA系统获得的负荷数据，每一条日负荷曲线有96个采样点，选取某一变电站2008年10月、11月数据，从中随机取出15 d数据，人为制造坏数据。所有算法均用VC++语言实现。

4.1 缺失值的补全

用Neville算法对样本数据集中有缺失点的曲线进行补全处理，算法的参数为n=5，ε=0.01。在语言实现的时候，尽量采用内插的方式进行补全。表1为某一条有缺失点曲线补全结果。

表1 缺失数据补全结果

图1 缺失数据补全后的日负荷曲线

从表1可以看出，Neville算法对曲线峰值段和谷值段的补全效果比曲线首段和尾端的补全效果要好，但所有缺失点补全后误差都不超过2%，图1表现出日负荷曲线补全后仍能保持曲线的连续性，算法效果比较好。

4.2 辨识坏数据

经过对缺失值补全处理后，样本集的曲线都具有连续性。将样本集经过改进的FCM算法进行分类，利用特征曲线判断坏数据。改进的FCM算法参数设定值为：ε=0.5；加权指数m=2。

表2 坏数据辨识结果

表2为坏数据辨识结果。其中漏检数表示把坏数据检测为正常数据，误检数表示把正常数据检测为坏数据。从表2可见，检测错误率只有0.854%，结果令人满意。

4.3 调整坏数据

图2为调整后的日负荷曲线。从图中可以看出，校正后的负荷数据的误差明显降低，消除了曲线中的毛刺现象，保证负荷曲线的平滑性，有效地保证了负荷数据准确度。

图2 日负荷曲线对比

5 结论

(1)通过SCADA系统得到的日负荷曲线数据，会存在缺失数据的情况，对于缺失数据的处理，目前采用的方法都比较简单，但误差比较大。日负荷曲线缺失数据具有时间点不确定性的特点。为了保持电力负荷曲线的连续性，处于曲线中间段和首尾段的缺失点应该采用不同次数的插值多项式进行处理。本文提出将Neville算法用于数据补全当中，这种算法的优点在于在处理不同时间段的缺失数据，可以根据精度要求采用不同的多项式进行插值。与直接运用多项式插值相比较，Neville算法具有计算量少，能控制计算精度的特点。最后用样本进行处理，得到令人满意的结果。

(2)坏数据辨识应根据具体问题分析数据的本质特征和内在规律，从而找到有针对性的方法。电力日负荷曲线具有相似性和平滑性两个重要特征，本文提出先用Neville算法对SCADA系统日负荷曲线缺失点进行补全，再用一种改进的FCM算法对日负荷曲线进行聚类，得到每一个类别的特征曲线，利用特征曲线判断出坏数据，并对坏数据进行修正。实例分析取得了良好的效果。用该方法进行坏数据辨识，具有普适性和推广应用价值。

[1] 叶锋，何桦，顾全，等(Ye Feng, He Hua, Gu Quan,etal).EMS中负荷预测不良数据的辨识与修正(Bad data identification and correction for load forecasting in energy management system)[J].电力系统自化(Automation of Electric Power Systems)，2006，30(15):85-88.

[2] 龙立波，姚建刚，李连结，等(Long Libo, Yao Jiangang, Li Lianjie,etal).短期电力负荷预测中的数据处理技术(The data processing technology in short-term load forecasting )[J].电力需求侧管理(Power Demand Side Management)，2006，9(1):11-14.

[3] 张国江，邱家驹，李继红(Zhang Guojiang,Qiu Jiaju, Li Jihong).基于人工神经网络的电力负荷坏数据辨识与调整(Outlier identification and justification based on neural network)[J].中国电机工程学报(Proceedings of the CSEE)，2001，21(8):104-113.

[4] 钱卫华，姚建刚，龙立波，等(Qian Weihua,Yao Jiangang, Long Libo,etal).基于短期相关性和负荷增长的中长期负荷预测(Short-term correlation and annual growth based mid-long term load forecasting )[J].电力系统自动化(Automation of Electric Power Systems)，2007，31(11):59-64.

[5] 李培强，李欣然，林舜江(Li Peiqiang, Li Xinran, Lin Shunjiang).电力负荷建模研究述评(Critical review on synthesis load modeling)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA)，2008，20(5):56-64,123.

[6] 黄梅，贺仁睦，杨少兵(Huang Mei, He Renmu, Yang Shaobing).模糊聚类在负荷实测建模中的应用(Application of fuzzy clustering in measurement-based load modeling )[J].电力系统自动化(Automation of Electric Power Systems)，2006，30(14):49-52.

[7] 鞠平，陈谦，戴琦，等(Ju Ping, Chen Qian, Dai Qi,etal).基于日负荷曲线的负荷分类和综合建模(Load clustering and synthetic modeling based on daily load curves )[J].电力系统自动化(Automation of Electric Power Systems)，2006，30(16):6-9.

[8] 章健．电力系统负荷模型与辨识 [M].北京：中国电力出版社，2007.

[9] 黄文英，方朝雄，李可文，等(Huang Wenying, Fang Zhaoxiong, Li Kewen,etal).福建电网负荷在线综合建模系统(Online synthetic load modeling system for Fujian power grid )[J].电网技术(Power System Technology)，2009，33(1):37-41.

[10]陈柔伊,张尧,武志刚,等(Chen Rouyi, Zhang Yao, Wu Zhigang,etal).改进的模糊聚类算法在负荷预测中的应用(Application of improving fuzzy clustering algorithm to power load forecasting )[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA)，2005，17(3):73-77.

[11]罗滇生，李伟伟，何洪英(Luo Diansheng, Li Weiwei, He Hongying).基于局部形相似的超短期负荷预测方法(Very short-term load forecasting method based on local shape similarity)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA)，2008，20(1):75-79.

[12]李培强，李欣然，陈辉华，等(Li Peiqiang, Li Xinran, Chen Huihua,etal).基于减法聚类的模糊神经网络负荷建模(Fuzzy neural network load modeling based on subtractive clustering)[J].电工技术学报(Transactions of China Electrotechnical Society)，2006，21(9):2-6,12.

[13]李培强，李欣然，陈辉华，等(Li Peiqiang, Li Xinran, Chen Huihua,etal).基于模糊聚类的电力负荷特性的分类与综合(The characteristics classification and synthesis of power load based on fuzzy clustering)[J].中国电机工程学报(Proceedings of the CSEE)，2005，25(24):73-78.

[14]高新波．模糊聚类分析及其应用[M].西安:西安电子科技大学出版社，2004.

[15]鞠萍，金艳，吴峰，等(Ju Ping, Jin Yan, Wu Feng，etal).综合负荷特性的分类综合方法及其应用(Studies on classification and synthesis of composite dynamic loads)[J].电力系统自动化(Automation of Electric Power Systems)，2004，28(1):64-68.

ApplicationofImprovedFCMAlgorithminOutlierProcessingofPowerLoad

JIANG Wen-qian， LI Xin-ran， QIAN Jun

(Institute of Electrical and Information Engineering, Hunan University, Changsha 410082, China)

Substation daily load curve has the rich information on the integrated load structure features, which can be used to the classification and synthesis of load characteristics. However, the identification and justification of outlier should be done for the original data. In this paper, based on the analysis of existing methods and requirements of load modeling to the classification and synthesis of daily load curve, an algorithm based on Lagrange interpolation method and improved fuzzy C-means(FCM) algorithm of fuzzy clustering principle is proposed to the identification and justification of outlier in the substation daily load curve. Firstly, the Neville algorithm is used to complete the missing data. Then the improved FCM algorithm is applied to cluster the daily load curve to produce various characteristic curves. So the outlier can be identified by using the horizontal similarity of load curves. Finally, the outlier can be adjusted by using the characteristic curves. The case analysis has proved the good results.

load characteristics； outlier identification； neville algorithm； improved fuzzy C-means algorithm； daily load curve

2010-01-05；

2010-05-07

国家自然科学基金资助项目(50977023)

TM772

1003-8930(2011)05-0001-05

蒋雯倩(1985-)，女，硕士研究生，研究方向为电力系统分析与控制及其仿真建模。Email:jwqqsky@126.com 李欣然(1957-)，男，教授，博士生导师，研究方向为电力系统分析与控制及其仿真建模。Email:lixr1013@yahoo.com.cn 钱军(1982-)，男，博士研究生，研究方向为电力系统分析与控制及其仿真建模。Email:qianjun2000@126.com