卢锦玲,於慧敏
(华北电力大学电气与电子工程学院,保定 071003)
极限学习机和遗传算法在暂态稳定评估特征选择中的应用
卢锦玲,於慧敏
(华北电力大学电气与电子工程学院,保定 071003)
特征选择和空间降维是电力系统暂态稳定评估中的关键步骤。针对国内外现有文献所提方法中存在的效率低、分解子集操作结果不理想等问题,提出了基于极限学习机和遗传算法的输入特征选择方法。首先运用遗传算法实现特征选择,再输入优选后的子集,利用极限学习机构造分类器加以稳定性评判。其中,适应度函数考虑了两个要素:一是所选特征子集应对分类结果起到较为重要的作用;二是用作输入的特征项尽可能精简。在英格兰10机39节点系统中进行仿真计算,结果表明,进行特征选择后分类效果优于未进行特征选择情况,与其他文献所选的特征子集相比,该方法所选特征子集的分类准确率更高,证明了其有效性和优越性。
电力系统;暂态稳定评估;特征选择;遗传算法;极限学习机
特征选择[1-2]作为电力系统暂态稳定[3]评估工作的重要环节,可以从冗杂、无效的海量数据中提取出有效信息,是保证暂态评估结果的基础。国内外已有许多学者从不同角度、使用不同的人工智能算法[4-6]试图解决此问题,例如模拟退火算法、支持向量机SVM(support vector machine)、蚁群优化ACO(ant colony optimization)、粒子群优化PSO(particle swarm optimization)、交叠概率理论、Tabu搜索技术等[7-10]。这些方法虽然通过不同特征选择处理手段使暂态稳定评估的准确率得以提高,但均存在不同的缺陷。
文献[11]筛选出具有代表性的特征集,包含34个待选特征,用Tabu搜索技术进行搜索,但是因为对原始数据进行了离散化,特征包含的信息量被削减,很大程度上影响了最终的分类结果。文献[12]中提出利用SVM进行特征选择,先用主成分分析法和遗传算法GA(genetic algorithm)降低原始数据的维度,再运用因子负荷实现特征选择。这种方法针对的是数据量大、各特征之间有较高相关度的选择问题,对小规模的问题,传统特征选择方法反而更为有效。文献[13]为解决人工神经网络ANN(artificial neural network)在暂态稳定评估时遇到的瓶颈问题,基于决策表化简方法,尝试一种降低ANN输入维度新思路,但该方法的规则会随着特征量属性值维度的增加而变得复杂化,而且对于连续属性的处理较为困难。文献[14]探讨基于PSO的特征选择方案,以提高评估精度作为目标函数,PSO算法对优化值域连续问题的求解比较擅长,在涉及组合优化时,也可以用PSO算法,但相比之下效率较低。文献[15]将ACO算法应用于特征选择,其编码方式为二进制型,该方法以特征子集维度尽可能少和误分类率低为目标,以最小二乘SVM为分类器,但是此算法存在的问题是计算效率低,耗时多,在更为复杂的系统上应用结果不够理想。文献[16]利用遗传算法和主成分分析结合实现输入空间降维,其缺点是主成分变换的特征成分含义不清楚,采用类内类间距离作为评估指标,未充分考虑分类器性能对特征量的相关约束。这些缺陷的存在制约了电力系统暂态稳定评估效果,因此,亟需探索出一种更加完善、稳定的特征选择算法,以简化分类器的设计,提高稳定评估精度。
极限学习机ELM(extreme learning machine)作为一类新兴神经网络模型,相比早期反向传播BP(back propagation)、径向基核函数RBF(radial basis function)模型,其具有训练高速度、高泛化特性等突出特点。遗传算法发展已久,算法较为成熟,可用于全局寻优。本文将遗传算法和ELM相结合,进行电力系统暂态稳定评估。首先,遗传算法用来进行特征子集选取和评估,ELM用来进行学习和预测,计算在所选特征集合下的分类准确程度。其次,对具体的操作流程予以详细叙述,在此基础上设计仿真算例加以讨论。最后,对该方法特征选择的结果与未进行特征选择,以及其他文献中采用不同方法所取得的结果进行对比,验证了该方法的优越性。
1.1 基于ELM和遗传算法特征选择的基本原理
1.1.1 ELM
ELM为了继承前馈型神经网络FNN(feed forward neural network)的结构优势,以及弥补其他网络类型存在的迭代次数多、效率低、对相关参数设置较为敏感等缺陷而提出。其输入层的权重和隐藏层阈度是随机设定的,学习时的任务目标是求解输入加权系数的最小范数。此特性使得极限学习机具有FNN结构优势,同时算法简单易行、训练时间短、泛化性极高。
假设有N组训练数据,隐藏层单元个数为N˜,输入向量xj=[xj1,xj2,…,xjn]′,输出向量tj=[tj1,tj2,…,tjm]′,j=1,2,…,N,是隐藏层输出矩阵,激活函数用g(x)表示,wj为权重向量,bj代表中间层节点的限值,则hij=g(wjxi+bj)。单隐藏层网络结构可通过变换隐藏层节点数量完全精确逼近输入数据,即
若用矩阵表示式(1),则可写成Hβ=T,其中βi=[βi1,βi2,…,βim]′为连接隐藏层第i个单元与输出单元的权向量,T=[t1,t2,…tN]′为最终的输出矩阵。
假设先随机定义单隐藏层神经网络输入权值wj和隐藏层阈值bj,然后用最小二乘法求解式(1)从而得到输出层的权值,其解为
式中H*是矩阵H的Moore-Penrose广义逆。
1.1.2 遗传算法
遗传算法解决优化问题时,需要先对原始形态的数据进行编码,编码后的形态为染色体,不同的染色体代表着所求问题存在的可能解,全部染色体构成一个种群。为了分辨每个个体性能的优劣,针对不同问题构造不同的适应度函数指标进行评判,适应度估计结束便可施以相应遗传算子运算。重复以上步骤,不断优化种群,最终寻找到所求问题在可行域内的最佳求解方案。遗传算法在操作上是并行的,优胜虐汰,逐步优化种群性能,最终解决问题,具体流程步骤如图1所示。
图1 遗传算法流程Fig.1 Flow chart of genetic algorithm
1.2 特征选择的实现
特征选择实质上属于组合寻优研究范畴,其解空间是全部可能解的并集。本文的解空间包括所有待选特征中选择出维度为d(d<D)的全体可能特征组合。由于能够代表初始特征子集的最少特征量个数无法预先确定,所以可从维度高的子集开始,逐步优化,减少特征量个数,直到满足结束条件为止。
将所选子集的评价工作总结为3步。
步骤1 从大量特征项中划分出初始特征量,组成最初的群体。该特征量的不同取值集合构成不同个体,一定数量的个体即为种群。个体代表相应的可能解,全部个体则构成解空间。
步骤2 按照所选特征子集,从原始的训练样本集中提取与之对应特征的数据,未在特征子集中的特征不进行数据提取,这些训练样本均是已知分类的,如此即得到简化后的训练集。
步骤3 对于筛选后的简化训练样本,利用分类器进行分类,与事先已知的正确分类结果进行比较,观察分类正确的样本占总体样本的比例。如果所有训练集都没有获得正确的分类,显然所选的特征项灵敏度极差,对分类的贡献度很低,故将适应度值定为0;否则再进行适应度定义。图2为基于ELM和遗传算法的特征选择方案流程。
图2 基于ELM和遗传算法的特征选择方案流程Fig.2 Flow chart of feature selection based on ELM and genetic algorithm
基于ELM和遗传算法的步骤可概括为
(1)对样本加以编码,随机构造原始解;
(2)对于编码后的样本,用ELM进行模式识别,得到识别判断准确度;
(3)根据识别的准确度和特征子集的大小计算出每个样本的适应度函数值;
(4)对种群进行选择,再对所选个体应用交叉、变异算子进行相应遗传步骤,产生后代种群,经过多次实验,本文设置种群规模N=100,进化代数M=30,交叉概率Pc=0.85,变异概率Pm=0.1;
(5)反复进化,到满足结束条件为止。
经过上述特征提取和选择,暂态稳定评估输入特征维度被降低,由原来的23个变至d个(d<23),这样电力系统暂态稳定评估问题就变成低维空间的分类识别问题。
1.3 算法实现相关设定
1)编码形式
编码选用二进制形式,将特征选择向量用一个0/1位串代表。编码基因位置上的数字为“1”表示该特征将入围当前子集,“0”则代表未入围。
2)适应度函数
适应度值是反映所选子集优劣程度的指标,由构造的适应度函数计算得到。对某个相对优秀的特征子集而言,应该满足两个关键因素:一是所选特征子集应对分类具有较大的贡献,也就是说根据所选特征子集进行的分类识别应当有较高的成功率;二是随着特征向量维度的增加,整个程序任务量将大为提高,所以优秀子集中的特征量个数不能太多,应越少越好。
根据以上两个要素,针对特征选择问题提出下述适应度求取方案:
式中:E表示模式识别错误率;n表示特征子集所含元素数;N为总特征数目;W1和W2分别为保证较高的识别成功率和尽量减少特征项个数两种要素的权值,可以根据具体问题进行适当的选择,本文将其比例设为1:1。
3)遗传操作算子
对于遗传操作算子的选择,分别采用轮盘赌选择算子、单点交叉算子、基本位变异算子。
4)结束条件
当整体种群的适应度趋于稳定,变动范围小于规定值,那么认为种群已经完成了进化,算法结束。
2.1 初始特征量的选取
电力系统暂态是否处于稳定状态与其所受扰动的模式密切相关,明确所受扰动模式是暂态评估工作的基础。针对目前电力系统情况和现有的研究策略,暂态受扰模式的建立需两个步骤,包括初始输入特征求取和特征选择。在系统受扰模式构造阶段,本文将以下3项基本原则作为参照:主流性原则、0+原则和系统性原则。
目前,输入特征的类别一般有两种:一是单机特征,包括可以表征单个发电机运行状况的特征,单机特征用作初始特征存在的不足是数据量受系统规模的影响很大,当遇到大规模系统时,容易发生维度灾难;二是系统特征,经随机选择、集成可表征整个系统状态的变量而构成,系统特征的优点是初始特征总量与系统规模无关,对大电力系统的相关分析效果更好。本文在综合考虑现有文献中所采纳的初始特征量基础上,通过进行大量仿真计算,选取23个系统特征构造初始特征集,其具体含义描述如表1所示。
表1 初始输入特征Tab.1 Features of initial input
2.2 单个特征分类能力
为了确定每个特征对分类结果的贡献,评估其分类能力,本文通过PSASP仿真建立了含1 200个样本的样本集。使用灰色关联度对待选的23个特征量分别与最终类属性进行相关性分析。类属性表示某一故障状态下系统是否稳定,1表示稳定,0表示不稳定。类属性为特征选择提供了参考依据,所选特征子集经过训练后得出的类属性值与仿真结果一致性越高,表明所选子集效果越好,越具有代表能力,能够作为系统稳定评判依据的基础。
按照关联系数的数值从高到低排序,各特征数据如表2所示。
表2 输入特征灰色关联系数排序Tab.2 Ordering of the input features by their grey correlation factors
3.1 系统仿真设定
本文选择新英格兰10机39节点系统作为测试系统,利用PSASP进行故障仿真模拟,仿真模型如图3所示。故障及相关分布、参数设置如下:采用经典发电机模型,模拟三相短路故障,0.2 s时恢复正常工作,相应系统结构在故障前后保持一致。系统中故障分别分布在60个相异位置,考虑80%、90%、100%、110%、120%共5种比例的基准负荷,对每种基准负荷都设定4种发电机出力,总共采集到1 200组样本数据。调用其中900组数据加以训练,其余300组供后续检验步骤使用。
图3 新英格兰10机39节点系统Fig.3 10-Machine 39-Bus New England power system
3.2 特征选择结果
在使用分类器进行稳定性评估之前,对数据进行离散化处理,分别采用等频、等距两种离散化方式,分析在不同离散数时误分类率情况,结果如图4所示。依据图4中离散化处理结果,本文最终选用等频离散化,离散数为10。
经过选择,最终选取{x1,x3,x4,x8,x9,x10,x13,x21}作为最优特征子集。这几个特征量分别反映了受扰动影响最大发电机的稳定情况、受扰动影响最大的发电机运行状态、转子速度最快的发电机在扰动停止后的性能恢复能力、发电机转子加速运动的分散程度、整个系统的动能变化情况、运行领先发电机与运行滞后发电机的角度差、系统整体受到的扰动影响、在稳定运行阶段系统的整体发电量。
图4 不同离散数对评估结果的影响Fig.4 Influence of different discrete numbers on evaluation results
3.3 结果分析
所选的最优特征子集包含8个特征量,与未优化时相比特征空间压缩为原来的34.78%。将所选取的8个特征量和未进行特征选择时的23个初始特征量分别用ELM进行稳定性分类,结果如表3所示。从表3中可以发现,经过特征选择之后的正确归类比率比未优化之前明显提高,但特征数减少为原来的1/3。
表3 优化操作前后分类正确率Tab.3 Classification accuracies before and after optimization
由最终所选的用作输入的特征集可见,入选的8个特征量并非相关系数最大的前8个特征量。因此,分类性能的优劣是由特征子集构成输入空间的可分性决定的,类属性单个相关性从大到小排序前8位的特征量并不一定组成最优特征子集。
将本文和文献[17-18]所选的相同维度的特征子集分别作为ELM输入,评判系统的暂态稳定性,不同子集对应的误分类率如表4所示。从表4中发现在相同特征子集维度下,本文所选的特征子集误分类率明显低于其他两子集的误分类率,验证了所提出的将ELM和遗传算法结合进行特征选择方法的可行性,且相比其他方法更具有优越性,所选子集可以表征系统稳定水平。
表4 误分类结果Tab.4 Result of misclassification
本文对暂态稳定评估中的特征选择问题进行了探讨。针对国内外现有特征选择方法的缺陷,创新采用将ELM和遗传算法相结合的方法。遗传算法用来进行最优特征子集选择,在对数据进行稳定分类时,以ELM作为分类器。挑选23个特征量构造待选特征集,用PSASP进行仿真,获得这些特征量相关故障数据。相对传统BP神经网络和其他算法而言,该方法不存在陷入局部最小点的缺陷,降维效果好,速度快,时间优势明显。最终,本文选出了含8个特征量的优化特征集,这8个特征量能很好地表征系统稳定情况。通过依次与优化之前的特征子集以及其他文献所选最优子集比较发现,本文所选特征子集分类准确度明显提高,说明了该方法的科学性、优越性,为大系统暂态稳定评估的特征选取提供新的思路。
[1]潘学萍,刘良,杜春雷,等(Pan Xueping,Liu Liang,Du Chunlei,et al).选择合适的观测量提取电力系统的振荡特征(Measurement selection for estimating oscillation characteristics in power systems)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA),2015,27(2):51-56.
[2]Kezunovic Mladen,Xie Le,Grijalva Santiago.The role of big data in improving power system operation and protection[C]//IREP Symposium,Rethymno,Greece,2013.
[3]罗远翔,杨仁刚,蔡国伟,等(Luo Yuanxiang,Yang Rengang,Cai Guowei,et al).大容量风电接入系统对网络暂态能量的影响(Impact on network transient energy of power system integrated with large scale wind farm)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA),2014,26(1):76-80.
[4]张翌晖,王贺,胡志坚,等(Zhang Yihui,Wang He,Hu Zhijian,et al).基于集合经验模态分解和改进极限学习机的短期风速组合预测研究(A hybrid short-term wind speed forecasting model based on ensemble empirical mode decomposition and improved extreme learning machine)[J].电力系统保护与控制(Power System Protection and Control),2014,42(10):29-34.
[5]何川,舒勤,贺含峰(He Chuan,Shu Qin,He Hanfeng).ICA特征提取与BP神经网络在负荷预测中的应用(Application of BP neural network and ICA feature extraction in power load forecasting)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA),2014,26(8):40-46.
[6]齐郑,张惠汐,饶志,等(Qi Zheng,Zhang Huixi,Rao Zhi,et al).基于极限学习机的多信息融合区段定位方法(Multi-information fusion fault location based on extreme learning machine)[J].电力系统保护与控制(Power System Protection and Control),2014,42(19):74-80.
[7]Tso S K,Gu X P.Feature selection by separability assessment of input spaces for transient stability classification based on neural networks[J].International Journal of Electrical Power&Energy Systems,2004,26(3):153-162.
[8]Sawhney Harinder,Jeyasurya B.A feed-forward artificial neural network with enhanced feature selection for power system transient stability assessment[J].Electric Power Systems Research,2006,76(12):1047-1054.
[9]马骞,杨以涵,刘文颖,等(Ma Qian,Yang Yihan,Liu Wenying,et al).多输入特征融合的组合支持向量机电力系统暂态稳定评估(Power system transient stability assessment with combined SVM method mixing multiple input features)[J].中国电机工程学报(Proceedings of the CSEE),2005,25(6):17-23.
[10]叶圣永,王晓茹,刘志刚,等(Ye Shengyong,Wang Xiaoru,Liu Zhigang,et al).基于随机森林算法的电力系统暂态稳定性评估(Transient stability assessment based on random forest algorithm)[J].西南交通大学学报(Journal of Southwest Jiaotong University),2008,43(5):573-577.
[11]顾雪平,张文朝(Gu Xueping,Zhang Wenchao).基于Tabu搜索技术的暂态稳定分类神经网络的输入特征选择(Feature selection by Tabu search for neural-network based transient stability classification)[J].中国电机工程学报(Proceedings of the CSEE),2002,22(7):66-70.
[12]向丽萍,王晓红,王建,等(Xiang Liping,Wang Xiaohong,Wang Jian,et al).基于支持向量机的暂态稳定分类中的特征选择(Feature selection for SVM based transient stability classification)[J].继电器(Relay),2007,35(9):17-21.
[13]陈磊,刘天琪,文俊(Chen Lei,Liu Tianqi,Wen Jun).基于二进制粒子群优化算法的暂态稳定评估特征选择(Feature selection based on binary particle swarm optimization for transient stability assessment)[J].继电器(Relay),2007,35(1):31-36,50.
[14]张琦,韩祯祥,曹绍杰,等(Zhang Qi,Han Zhenxiang,Tso S K,et al).用于暂态稳定评估的人工神经网络输入空间压缩方法(Input dimension reduction in neural network training for transient stability assessment)[J].电力系统自动化(Automation of Electric Power Systems),2001,25(2):32-35,39.
[15]王海燕,刘天琪,李兴源,等(Wang Haiyan,Liu Tianqi,Li Xingyuan,et al).基于蚁群优化算法的电力系统暂态稳定评估特征选择(Feature selection based on ant colony optimization for power system transient stability assessment)[J].电力系统保护与控制(Power System Protection and Control),2008,36(21):1-6.
[16]于之虹,郭志忠(Yu Zhihong,Guo Zhizhong).遗传算法在暂态稳定评估输入特征选择中的应用(Feature selection based on genetic algorithm for transient stability assessment)[J].继电器(Relay),2004,32(1):16-20.
[17]刘艳,顾雪平,李军(Liu Yan,Gu Xueping,Li Jun).用于暂态稳定评估的人工神经网络输入特征离散化方法(Discretization in artificial neural networks used for transient stability assessment)[J].中国电机工程学报(Proceedings of the CSEE),2005,25(15):56-61.
[18]卢锦玲,李洪伟,刘海军(Lu Jinling,Li Hongwei,Liu Haijun).基于集成贝叶斯分类器的暂态稳定评估方法研究(Research on transient stability assessment based on integrated Bayesian classifier)[J].华北电力大学学报(自然科学版)(Journal of North China Electric Power University(Natural Science Edition)),2010,37(3):14-20.
Application of Extreme Learning Machine and Genetic Algorithm to Feature Selection of Transient Stability Assessment
LU Jinling,YU Huimin
(School of Electrical and Electronic Engineering,North China Electric Power University,Baoding 071003,China)
Feature selection and input dimension reduction are important for the transient stability assessment of power system.To solve the problems in the existing feature selection methods,such as low efficiency and unsatisfactory decomposing subset result,a method is proposed based on extreme learning machine(ELM)and genetic algorithm.First,genetic algorithm is used to realize feature selection.Then the selected feature is input into ELM classifier for transient stability assessment.There are two factors in constructing the fitness function:one is that the selected feature subset should have a greater contribution to the classification;the other is that the adopted input features should be as less as possible.The application to a 10-Machine 39-Bus New England power system indicates that the effect is obviously better after feature selection.Compared with other methods in the literature,the classification accuracy of the proposed approach is higher,which demonstrates its validity and advantage.
power system;transient stability assessment;feature selection;genetic algorithm;extreme learning machine(ELM)
TM712
A
1003-8930(2016)12-0103-06
10.3969/j.issn.1003-8930.2016.12.017
卢锦玲(1971—),女,博士,副教授,研究方向为电力系统运行、分析与控制。Email:lujinling@126.com
2015-05-27;
2016-05-10
於慧敏(1992—),女,硕士研究生,研究方向为电力系统运行、分析与控制。Email:yuhuimin_huadian@163.com