基于聚类组合和支持向量机的环境经济负荷调度模型

2010-10-21 06:25:34罗喜英

统计与决策 2010年12期

罗喜英

（湖南科技大学商学院，湖南湘潭 410012）

0 引言

经济负荷调度(ELD)问题是针对一个包括多个发电单元的发电系统最优分配每个发电单元的发电量,使得在满足系统约束条件下达到发电成本最小的目标。然而,在满足系统发电约束条件下将发电成本和污染控制成本统一考虑进行优化,即环境经济负荷调度（EELD）问题已经引起关注。

在电力系统运行中短期电力负荷预测是环境经济负荷调度的重要环节，是保证电力系统安全经济运行和实现电网科学管理的重要依据。随着电力系统的市场化，提高电力系统负荷预测的精度变得越来越重要。目前，短期负荷预测方法主要包括回归分析法、时间序列法、人工神经网络方法、模糊预测法和小波分析法等。

由Vapnik等人提出的支持向量机(Support Vector Ma⁃chine,SVM)方法能较好地解决小样本、非线性、高维数和局部极小点等实际问题，在时间序列预测问题上得到了成功的应用。但其预测精度在很大程度上依赖于训练集的选择，恰当、合理的样本可使预测方法快速、有效地逼进目标矢量，达到误差要求。本文考虑到电力负荷变化的周期性和相似性特点，根据自组织映射(Self-Organizing Map,SOM)网自组织和C-均值算法高效率的特点，通过将两者组合进行聚类，引入DB指数作为聚类质量评价标准，获取与预测日特征相似的相似日样本集，以克服传统SVM方法训练样本集过大的缺点，利用SVM模型对预测日96点负荷进行预测，取得了令人满意的预测精度。

1 基本原理与方法

1.1 SOM算法

SOM神经网络是由芬兰赫尔辛基大学的T.Kohonen于1981年首次提出的。SOM 网络包含输入层和输出层两层神经元。输入层对应一个高维的输入向量，输出层是由一系列组织在二维网格上的有序节点构成，输入节点与输出节点通过权重向量连接。在每个输入样本学习过程中，SOM 找出与之距离最小的输出层单元，即获胜单元，然后更新获胜单元及其邻近区域的权值，使得输出节点保持输入向量的拓扑特征。

SOM聚类的过程为：

(1)权值初始化。对输出层每个节点的权重wj赋随机数为初值。

(2)从训练样本选取一个输入向量并进行归一化处理，得到xi，求wj中与xi距离最小的连接权重向量wj：

式中，‖为距离函数，对于连续数值属性的数据集，通常采用欧氏距离。

(3)定义g为获胜单元，Ng(t)为获胜单元的邻近区域，对于邻近区域内的单元，按照如下公式调整权重使其向靠拢：

η(t)是学习速率，随着时间的增加而逐渐下降，可取为：

(4)缩小邻域半径，重复(2)～(4)，当训练的权值误差小于允许值或者达到预设的迭代次数时，训练结束，输出聚类结果。

1.2 C-均值算法

C-均值聚类算法以C为参数，把n个对象分为C个簇，以使簇内具有较高的相似度，而簇间的相似度较低。相似度的计算根据簇中对象的平均值来进行。其算法描述如下：

(1)初始化。设定聚类类别数C及每个类别的初始聚类中心 Z={Z1，Z2，…，Zc}，X={x(1),x(2),…，x(n)}表示输入的样本向量，Si表示所有属于第i个聚类中心的样本集合，设定迭代停止阈值ε。

(2)样本划分。对于所有的输入样本向量，x(p)∈Si，如果

(3)计算新的聚类中心。

经过C-均值算法划分后，同一个簇的样本具有最大的相似性，而不同簇的样本之间的相似性尽可能的小。

Ni是属于集合Si中样本的数量。

1.3 支持向量机回归算法

SVM最初用来解决模式识别问题，其分类算法能实现较好的泛化功能，随着Vapnik不敏感损失函数的引入，SVM已经扩展到用于解决非线性回归估计问题。

设给定的训练数据集：

L为样本总数，构造回归估计函数：f(x)=wφ(x)+b，式中：w为权向量，b为偏差。系数w和b可以通过最小化回归风险来估计：

式中，K(xi,x)=φ(xi)φ(x)称为核函数，核函数是满足 Mercer条件的函数。

2 预测模型设计

2.1 样本数据处理

考虑到预测日的天气状况以及日期类型、季节类型对日负荷产生较大的影响，本文建立的样本特征值包括以下几类：

A={a1,a2,…，ak}，预测日前k日的预测时刻负荷数据；

B={b1,b2,…，bl}，预测日前一日预测时刻前后l个时段的负荷数据；

C={c1,c2,…，cm}，预测日及其前一日的气象数据，包括最高温度、最低温度、平均温度和湿度等；

D={d1,d2}，预测日的周属性，包括工作日和双休日；

E={e1,e2,…，e4}，预测日的季节类型，包括春、夏、秋、冬等。

样本数据都需要进行规格化，对需要规格化的属性A,maxA,minA分别为属性A的最大值和最小值，属性A的一个原始数据v进行规格化处理后为v：

2.2 基于聚类组合和SVM的预测模型

本文提出的预测模型首先根据聚类组合算法选出与预测日具有相似特征的相似日，然后通过构造相似日训练样本作为SVM的输入进行学习训练，克服单纯SVM方法数据量大的缺点，以获得高精度的预测结果。该混合预测模型如图1所示。

其中的聚类组合算法的具体执行步骤为：

(1)权值初始化。对竞争层每个节点的权重赋随机数为初值，设置学习速率η(t)、领域的初始值Ng(t)以及总的训练次数N；

(2)从训练样本选取一个输入向量xi，输入到网络输入层；

(3)根据式(1)计算wj中与xi距离最小的连接权重向量；

(4)根据式(2)更新获胜单元及其邻近区域Ng(t)内单元的权值，使其向xi靠拢；

(5)选取一个新的输入向量给网络输入层，转到步骤(3)，直到输入向量全部输入到网络；

(6)更新学习速率η(t)，缩小邻域半径Ng(t)，返回步骤(2)，迭代次数加1，当训练的权值误差小于允许值或者达到预设的迭代次数时，训练结束，输出聚类结果；

(7)保存SOM网络中c个输出节点的权值，并用这c个权值作为C-均值算法的初始聚类中心Z={Z1,Z2,…，Zc}，根据式(13)计算该聚类的DB指数。

式中，Dk是所有子类的值到该类中心点距离的均值，Dk(Qi,Qj)是子类中心点之间的距离。当DB指数最小时，可求得最佳聚类数；

(8)合并初始聚类中心最近的两个聚类，聚类数c=c-1，重新进行聚类，获得新的DB指数DB*，如果DB*≤DB，记录c为当前最佳聚类数，如果c＞1，则重新执行(8)；

(9)获得DB最小时的聚类数c为最佳聚类数，并将当前聚类中心作为C-均值算法的初始聚类中心Z={Z1,Z2,…，Zc}，X={x(1),x(2),…，x(n)}表示输入的样本向量，si表示所有属于第i个聚类中心的样本集合，设定迭代停止阈值ε；

(10)根据式(4)进行样本划分；

(11)根据式(5)计算新的聚类中心；

其中步骤(1)～(6)是用SOM网络对数据进行初步聚类，获得一个大致的聚类结果，保存SOM网络的权值，步骤(7)～(12)是利用SOM网络保存的c个权值作为初始聚类中心，并利用DB指数获得最佳聚类数c，使用C-均值算法对原始数据进行聚类。经过C-均值算法划分后，同一个簇的样本具有最大的相似性，而不同簇的样本之间的相似性尽可能的小。

3 预测实例及结果

3.1 相似日的选择

本文结合湖南某地区历史负荷数据、气象数据和日期类型，对该地区2004年7月30日全天96点负荷进行预测。首先需要从历史日中选择与预测日具有相似气象与负荷特征的相似日。将预测日前三个月，前一年预测日前后各一个月的历史数据规格化处理，形成聚类样本，每个样本包括17个特征数据：日最高温度、日最低温度、日平均温度、日平均相对湿度、星期类型、天气类型、季节类型、前一日尖峰平谷段负荷均值、前6日每日平均负荷。使用MATLAB的SOM工具箱对历史日进行初步聚类，聚类结果如图2所示。

根据SOM网络初步聚类的结果，利用C-均值算法进一步训练，并获得不同分类数的DB值，当分类数为17时，此时DB指数最小，故将17作为最佳聚类数。表1是分类数为17时C-均值算法的聚类结果，与序号为0的预测日属于同一类别的日期序号就是所要找的相似日，即第8类的日期序号，根据这些相似日形成预测样本进行SVM预测。

3.2 预测结果

图2 SOM聚类结果图

表1 最终聚类结果

表2 2004年8月2日至8月8日MAPE比较

根据3.1获得的相似日构造相似日训练样本集，并建立预测日样本集，每个样本包括16个特征数据：日最高温度、日最低温度、日平均温度、日平均相对湿度、相似日或预测日前6日的预测时刻负荷数据、相似日或预测日前一日预测时刻前后2个时段的负荷数据、周属性、季节类型。然后使用LIBSVM软件包进行预测，其中核函数选择RBF核函数，参数选择 C=78，σ2=10，ε=0.1。

为了进行比较，本文还根据文献的方法建立了常规SVM模型(含气象数据和不含气象数据)，通过对该地区2004年7月30日全天96点负荷进行预测，与本文提出的基于聚类组合和SVM预测模型进行比较，各个模型预测负荷与实际负荷如图3所示。

图4为各个预测模型的误差比较曲线图。

每日的预测误差采用平均绝对百分误差(MAPE)衡量：

用本文提出的方法和单纯的SVM算法 (含气象数据和不含气象数据)分别预测从2004年8月2日至8月8日连续一周的96点负荷，表2为2004年8月2日至2004年8月8日连续一周误差统计结果。从表2可以看出，使用本文方法，最大MAPE为2.83%，最小MAPE为1.28%，平均MAPE为2.02%，与使用常规SVM算法相比，本文方法整体预测效果较为理想。

4 结语

本文提出了一种基于聚类组合和支持向量机短期负荷预测方法，通过SOM和C-均值聚类组合算法，选取合适的相似日，构造相似日样本，通过SVM模型逐点训练得到最终的预测结果。该方法能有效地处理负荷序列的噪声及非平稳性，实验表明它是一种有效的短期负荷预测方法，是环境经济负荷调度核心。

[1]Vapnik V N,Golowich S E,Smola A J.Support Vector Method forFunction Approximation,Regression Estimation and Signal Processing[J].Adv Neural Information Processing Systems,1996，（3）.

[2]Amjady N.Short-term Hourly Load Forecasting Using Time-se⁃ries Modeling with Peak Load Estimation Capability[J].IEEE Trans.Power Systems,2001,16(3).

[3]Tiws H,Leung C T.Neural Network Based Short-term Load Fore⁃casting Using Weather Compensation[J].IEEE Trans.PWRS,1998,13(1).

[4]Daneshdoost M,Lotfalian M,Bumroonggit G.Neural Network with Fuzzy Set Based Classification for Short-term Load Fore⁃casting[J].IEEE Trans.Power System,1998,13(4).

[5]Du Tao,Wang Xiuli,Wang Xifan.A Combined Model of Wavelet and Neural Network for Short Term Load Forecasting[J].IEEE Trans.Power Systems,2002,16(4).

[6]Vladimir N.Vapnik.Statistical Learning Theory[M].New York:John Wiley&Sons Press,1998.

[7]朱家元,段宝君,张恒喜.新型SVM对时间序列预测研究[J].计算机科学,2003,30(08).

[8]Davies D L,Bouldin D W.A Cluster Separation Measure[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1979,1(2).

[9]Kohonen T.The Self-Organizing Map[J].Proc IEEE,1990,78.

[10]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].范明,孟小峰等译.北京:机械工业出版社,2001.

[11]Nello Cristianini,John Shawe Taylor.支持向量机导论[M].李国正,王猛,曾华军等译.北京:电子工业出版社,2004.

[12]Chih-Chung Chang,Chih-Jen Lin.Libsvm:A Library for Support Vector Machines[EB/OL].Software available at http://www.csie.ntu.edu.tw/～cjlin/libsvm,2001.

[13]潘峰,程浩忠,杨镜非,等.基于支持向量机的电力系统短期负荷预测[J].电网技术,2004,28(21).