基于Jerk流形正则化深度极限学习机的电能质量复合扰动识别

2021-08-30 08:20:56李开成林寿英曾子莹林炜鑫

华南师范大学学报(自然科学版) 2021年4期

赵晨，李开成，林寿英，曾子莹，林炜鑫

(1. 福建农林大学机电工程学院，福州 350100； 2. 华中科技大学电气与电子工程学院，武汉 430074)

电能是当今人类使用最为广泛的能源，其质量的好坏关系到电气设备的安全经济运行及节能降耗和产品质量等. 随着新能源发电和各种非线性负载的广泛使用，电力系统中的电能质量复合扰动事件日益增多，为了改善电能质量，电力部门需要快速判断出电能质量事件所包含的扰动类别，并采取相应措施迅速消除扰动影响[1].

电能质量扰动检测识别常采用特征提取和分类识别相结合的方法. 扰动信号的特征提取常用短时傅里叶变换[2]、S变换[3]、小波变换[4]和变分模态分解(VMD)[5]等现代信号处理方法. 多个单一扰动的共存使得传统特征提取方法越发困难，随着近几年深度学习在图像识别领域自动提取特征的广泛应用[6]，深度卷积神经网络(DCNN)和长短期记忆网络(LSTM)等多层网络结构也开始被用于电能质量扰动的自动提取和分类识别[7-9]. 现有大部分研究将电能质量复合扰动分类看成多分类学习问题，采用诸如决策树[10]、随机森林[3]、极限学习机(Extreme Learning Machine，ELM)[11]等机器学习模型进行分类识别. 而复合扰动分类本质上是一个多标签学习问题，部分学者提出了多标签排位小波支持向量机[12]、k近邻贝叶斯多标签分类法[13]等多标签学习模型进行识别的方案.

扰动识别研究往往采用监督学习的方法，识别结果严重依赖于训练样本扰动类别标注的准确性. 随着电力系统监测器的广泛分布，大量多样化的未标注复合扰动信号样本较容易获取. 然而要使这部分样本数据参与监督学习模型的训练则需要具有电气知识的专业人士进行费时繁琐的人工标注. 由少量仿真产生的已标注样本训练的监督学习模型泛化性较差. 目前尚未有学者从半监督学习的角度对复合扰动识别进行研究.

针对电能质量复合扰动识别过程中现有的监督学习方法未利用大量未标记数据蕴含扰动信息的问题，本文提出一种基于DJRELM的电能质量复合扰动识别的半监督学习方法. 算法首先利用Jerk流形正则化挖掘未标注扰动数据的内部结构，并通过堆叠JRELM-AE自动提取复合扰动特征，最终构建半监督多标签深度极限学习机模型实现复合扰动的分类识别.

1 Jerk正则化极限学习机自编码器

1.1 极限学习机自编码器

ELM是一种简单高效的单隐层前向神经网络[14]，因其仅需随机初始化输入权重和隐层偏置，无需反向传播迭代调整，唯一需要求解的输出权重具有解析解，所以比传统神经网络训练的速度更快. 极限学习机自编码器(Extreme Learning Machine based Autoencoder，ELM-AE)是由Kasun提出的一种能够像自编码器一样重构输入的无监督网络结构[15]. 给定一个包含了n个训练样本的数据集{X,Y}，其中已标注的样本集为{Xl,Yl}={xi,yi}(i=1,…,l)，未标注的样本集表示为Xu={xu}(u=l+1,…,n-l),包含d个输入节点、d个输出节点以及L个隐层节点的ELM-AE结构(图1). 该模型的隐层输出h(xn)=g(axn+b)，a和b分别为正交随机权重向量和正交随机偏置，g为激活函数. 输出权重β可以通过最小化目标函数获得，公式如下：

图1 极限学习机自编码器的模型结构

(1)

其中，C是正则化系数，通过对目标函数LELM-AE求关于β的偏导并将其设为0，可获得β在压缩、扩展和等维情况下的解：

(2)

1.2 Jerk流形正则化

流形正则化是半监督学习中一种方法，它使数据在新的投影空间中能够保持数据在原特征空间中的局部几何结构，其中图拉普拉斯与海森正则化的使用最为广泛. 然而当数据流形上存在拐点或者快速变化时，基于二阶导数的图拉普拉斯和海森正则化难以准确估计边缘分布参数. Jerk正则化使用分类函数的三阶导数来克服快速变化的流形结构中的问题，即内在几何信息在低阶正则化方法中取值消失的问题. 基于Jerk的能量作为嘈杂高振荡的子流形中数据分布的约束条件，从而更准确地描述数据的内在局部几何特征[16].

(3)

其中，∇a∇b∇cf是f的三阶协变导数，dV(x)是体积元素.

在流形M的独立坐标系统为正交坐标系，该坐标系可以由k点邻域Nk(xi)进行主成分分析求得，所求m个最大特征值对应特征向量的特征空间近似. 点x三阶协变导数的范数收敛于f的Frobenius范数：

(4)

(5)

(6)

其中，xp(xj)、xq(xj)和xr(xj)表示定义在xi独立坐标系统的xj坐标系；Ap、Bpq和Cpqr分别表示函数f在xi点的一阶、二阶和三阶导数：

(7)

通过标准最小二乘法修正该多项式得：

(8)

(9)

(10)

1.3 Jerk正则化极限学习机的自编码器

为了在最小化重构误差的同时保持数据局部几何特性，将基于Jerk正则化的极限学习机自编码器(JRELM-AE)引入Jerk流形正则化到ELM-AE的目标函数中，重写后的目标函数表示如下：

s.t.fi=h(xi)β(i=1,2,…,l+u)，

(11)

(12)

其中,IL和In是维度分别为L和n的单位矩阵.

2 Jerk流形正则化深度极限学习机

Xk=g((βk)TXk-1).

(13)

与监督学习的深度极限学习机在分类层采用传统ELM作为分类器不同，DJRELM将经过多层JRELM-AE提取后的抽象特征送入一个引入Jerk正则化约束的半监督ELM中. 该半监督ELM的目标函数定义为：

(14)

其中，W是一个对角矩阵，其中前l个对角元素为Wii=1/Nti(Nti为类别ti包含的训练样本个数)，其余等于0.Lh为分类层半监督ELM隐层节点数. 输出权重矩阵β可以通过如下公式获得：

(15)

电能质量复合扰动分类属于典型的多标签学习问题，现有方法将多分类模型扩展到多标签学习应用多采用固定阈值进行标签和非标签的二分区. 本文提出的DJRELM在分类输出层增加了基于RBF核极限学习机的阈值学习模块，使阈值不再固定，而是随着样本的不同而产生变化.

(16)

样本xi的阈值A定义：

(17)

阈值预测模块通过(x1,A(x1)),…,(xl,A(xl))构建径向基核极限学习机的训练集，最终阈值学习函数A′表达式为：

(18)

其中，ζ为正则化系数，KX=K(X,X1)…K(X,Xl)和K(u,v)=exp(-γ‖u-v‖2)是径向基核函数，ΩKELM=K(Xi,Xj)(i,j=1,…,l).

DJRELM模型结构如图2所示，DJRELM算法的具体流程如下：

图2 DJRELM模型结构图

输入：已标注的样本集{Xl,Yl}={xi,yi}(i=1,…,l)，未标注样本集Xu={xj}(j=l+1,…,n-l)；隐层层数K、每层节点个数、平衡参数和核参数等.

输出：DJRELM的映射函数f，d→q.

阶段一：提取原始数据集的特征；

步骤一：通过{Xl,Xu}计算Jerk算子J；

步骤二：根据式(12)计算每层输出权重矩阵βi(i=1,…,K)；

步骤三：根据式(13)计算输入数据的特征Xk；

阶段二：半监督输出；

步骤一：根据式(15)计算输出权重矩阵β；

阶段三：阈值学习，多标签分类；

步骤二：计算RBF核矩阵；

步骤三：给定一个未知样本x, 预测标签集f(x)={yj∣fj(x)≥A(x) (j=1,…,m)}，其中A(x)根据式(18)计算.

3 结果与讨论

3.1 数据集及实验

本文数据集由软件仿真数据和硬件采集的标准功率源数据共同构成. 一方面，软件仿真数据由Matlab依据IEEE1159-2019以及文献[12]生成，共生成47种复合扰动；另一方面，以STM32为核心的硬件模块对标准功率源Fluke 6105A进行采样，受功率源自身限制只能采样到47种仿真复合扰动类型中的15种，具体采样平台如图3所示.

图3 Fluke 6105A硬件采集平台

实验扰动数据集共包含9 400个样本，其中每个类型复合扰动各200个. 实验数据集划分参照文献[18]将所有样本进行四等分，轮流将其中的1份用于测试，其余3份用于训练. 训练集进一步划分为：已标注集，验证集和未标注集，3个集合各有2 350个扰动样本. 为防过拟合，进行四折交叉校验.

本文首次从半监督多标签学习的角度对复合扰动分类进行研究，为了验证算法的有效性，在不同噪声(20～50 dB)环境中，采用3种监督学习算法(多层极限学习机(ML-ELM)[15]、随机映射多标签极限学习机(RDPEML)[17]、深度卷积神经网络(DCNN))和2种半监督学习算法(半监督极限学习机(SS-ELM)[18]和半监督深度极限学习机(SDELM)[19])与DJRELM进行对比. 5种算法中ML-ELM、SS-ELM、SDELM和DCNN属于多分类学习模型，为了公平比较，基于ELM的多分类模型均采用和DJRELM相同的阈值学习模块将模型扩展到多标签学习，DCNN则采用二分类交叉熵作为损失函数实现多标签学习，其中，浅层网络算法SS-ELM与RDPEML的输入为VMD算法提取的复合扰动特征.

所有基于ELM的模型隐层节点数寻优范围为100至1 000，每次递增10个节点. 经过交叉校验后RDPEML和SSELM隐层节点分别取900和1 000. DJRELM、ML-ELM和SDELM均采用3层隐层结构，隐层节点数分别为{700,780,1 000}、{740,560,970}和{940,730,1 000}. 所有模型正则化系数C和平衡参数λ取值范围均为{10-10,10-9,…,109,1010}，经过寻优后3种方法正则化系数分别为{10-1,101,10-1，104}、{103,102,105，102}和{10-1,101,10-1，104}. DJREML、SDELM和SS-ELM中的平衡参数分别为{10-2,10-2,10-7，10-1}、{10-2}和{10-4}. 阈值预测模块正则化系数和核参数取值范围均为{10-5,10-4,…,104,105}，DJRELM、ML-ELM、SDELM、RDPEML和SS-ELM寻优后2个参数分别为{10-3,100}、{101,101}、{100,101}、{10-1,100}和{101,102}. 计算流形正则化时运行的KNN算法的K取值范围为{10,20,…,90,100}，寻优后DJRELM和SDELM的K均取60，SS-ELM中K取80. DCNN由3个1维卷积层、3最大池化层、3个批量归一化层、1个全连接层和1个分类层组成. 每个卷积层后面依序连接一个池化层和归一化层. 3个卷积层的卷积核大小分别为1×8、1×8和1×16；每层卷积层的卷积核数目分别为512、480和256；3个池化层的核大小均为2×2. 全连接层包含38 400个神经元，最后的分类层输出节点数则与标签数目(7个)一致.

复合扰动属于多标签分类问题，因此采用多标签学习领域常用的5个指标：汉明损失、排位损失、一类错误、覆盖率、平均精度进行评价. 给定输入空间X=d、有限集合L={1,2,…,q}以及多标签测试数据集Z={(zi,Zi)∣1≤i≤n}，对于多标签分类器f(·)存在一个实值函数h:X×L→，当l1Yil2∉Yi时，存在h(xi,l1)>h(xi,l2).

(1)汉明损失(Hamming loss,LH)

(19)

其中,Δ表示2个集合的对称差.

(2)排位损失(Ranking loss,LR)

(20)

(3)一类错误(One error,LO)

(21)

其中,对于任意表达式{·}，当括号内的待判别内容{·}为真时，{·}值为1，否则值为0.

(4)覆盖率(Coverage,LC)

(22)

其中Nh(zi,l)输出所有标签函数h(zi,l)中标签l对应函数的排序.

(5)平均精度(Average precision,PA)

(23)

3.2 算法对比结果与分析

3.2.1 与相关算法的性能对比表1给出不同噪声条件下，几种算法在复合扰动数据集上的多标签性能结果，本文提出的DJRELM在各项指标上均优于其他几种方法. 对比前期研究工作(RDPEML)[17]以及另外2个深层网络方法(ML-ELM和DCNN)，本文算法的精度更高. 这一结果表明：流形正则化用于挖掘未标注数据信息从而提升分类性能. 引入图拉普拉斯正则化的SDELM和DJRELM较人工选取特征(结合半监督学习的SS-ELM识别方案)的性能明显提升，这一结果得益于流形正则化和深度网络结构. 与SDELM只是将图拉普拉斯正则化引入在分类层不同，DJRELM在每个ELM-AE中加入Jerk正则化的结构使其表现出更好的性能. 算法的运行时间上，因为每个隐层输出权重都需要带入Jerk算子，本文的方法训练时间较浅层ELM和普通多层ELM的更长，但相比DCNN的训练时间大大缩短. 这得益于多层ELM中每层参数无需进行反向传播调整.

表1 不同噪声条件下算法的评价结果Table 1 The results of evaluating algorithms under different SNR values

3.2.2 不同流形正则化深度ELM的性能对比为了进一步验证本文提出的Jerk流形正则化在多层ELM半监督学习中的有效性，实验采用基于另外两种常用的流形正则化(图拉普拉斯Laplacian、海森Hessian)的深度极限学习机在复合扰动数据集上进行性能比较. 表2给出了不同噪声环境下不同流形正则化深度ELM的评价结果，基于Jerk流形正则化的深度结构分类效果均优于另外2种方法. 结果表明：Jerk流形正则化比Laplacian和Hessian流形在多层无监督学习中能更好地表征数据流形的内在局部几何信息，使半监督深度极限学习机具有更好的泛化性能.

表2 不同流形正则化深度ELM评价结果

3.2.3 初始已标注样本和未标注样本比例对识别的影响图4给出初始条件为不同数量已标注样本情况下，DJRELM、ML-ELM和多层拉普拉斯正则化ELM-AE构成的ML-GELM[20]在复合扰动数据集上的性能对比. 初始已标注样本数目为470，每次递增940个，该过程保持校验集数目与已标注集一致，最终添加至3 525个已标注样本. 由图4可见，3种方法的性能均随着已标注样本所占比例的增加而逐步提升，其中DJRELM在5项指标中优于ML-ELM和ML-GELM，而当样本比例增长到一定值后，3种方法性能提升都有所放缓.

图4 不同数量初始已标注样本下的评价结果

在固定已标注样本数目的情况下，以未标注样本总数10%的数量向训练集添加未标注样本时，3种算法在复合扰动数据集上的性能变化曲线如图5所示，随着未标注样本数量的增加，DJRELM的5个性能指标越来越优，即使在初始阶段训练集在没有任何标注样本的情况下，DJRELM也是3种方法中性能最佳的. 主要原因是流形正则化在纯监督学习的情况下也有效.

图5 不同数量未标注样本下的评价结果

4 结论

针对电网实测复合扰动样本多数未标注类别而无法加入监督学习模型训练的情况，提出一种新型的基于Jerk流形正则化的DJRELM-ML半监督扰动识别模型. 算法在仿真和硬件采集数据实验结果表明，Jerk正则化有效利用未标注样本的内含信息，提升了复合扰动半监督学习精度，较图拉普拉斯和海森正则化具有更好的局部几何结构保持能力和外推能力. DJRELM较单层ELM和传统半监督深层ELM的识别精度更高，能更有效地分类识别复合扰动. 尽管如此本文提出的DJRELM模型还有一些不足之处，如模型超参数寻优较耗时，下一步研究将努力减少需要调整的超参数数目. 另外，Jerk算子计算时间较长使得训练难以实时，在线训练的研究也是未来的一个工作方向.