贺 兴,潘美琪,艾 芊
(1.电力传输与功率变换控制教育部重点实验室(上海交通大学),上海市 200240;2.上海交通大学国家电投智慧能源创新学院,上海市 200240)
数据驱动(data-driven)是新型电力系统数字化转型的核心范式(paradigm),涉及高维统计、深度学习、数字孪生等多项重要的新兴理论与技术。数据驱动主要依托数据自身而非机理模型来构建模型(可视为引擎),进而驱动数据资源(可视为燃料)实现一种免模型(model-free)的数据赋能服务。数据驱动范式为电力系统运管调控各项业务注入了活力。然而,实际工程中往往面临着样本不足即“小样本”问题,严重影响了数据驱动范式的最终效果。
小样本问题可由以下原因造成:
1)样本失衡:电力设备故障、电力系统暂态失稳、极端气候灾害等异常事件往往是小概率事件,在历史数据库中占比较低;基于不平衡样本训练的模型倾向于高概率事件,难以给予异常事件足够的关注。
2)“数力”(数据资产的数量和质量)不足:新型电力系统正处于发展高峰期,新设备、场站的持续投运可能显著地改变原系统的运营特性,降低有效数据样本的数量与质量,从而诱发过拟合等问题;隐私保护、传感器异常等因素将进一步加剧数力不足的问题。
3)模型失真:相比于显性的数力不足,模型失真状况相对不易觉察;新型电力系统中,大量新元素的涌入往往伴随着新节点出现或电网拓扑结构变化,致使基于历史数据训练的模型无法适用于实时场景。
综上所述,小样本问题已成为制约新型电力系统数字化转型最终工程效果的重要因素之一。
上述背景下,本文以电力系统中的小样本问题为出发点,对小样本学习(few-shot learning,FSL)技术展开探索。FSL 在机器学习领域具有重大意义,是其发展的重要方向之一;是否拥有从少量样本中学习和概括的能力,是(现行弱)人工智能和(强人工智能)人类智能的分界点。首先,本文从数据、特征、模型3 个层面对现行FSL 技术展开综述分析;然后,综述了FSL 技术在场景生成、故障诊断、功率预测、暂态稳定评估等业务场景的研究现状,并从数据、特征、模型3 个层面分析了其技术难点;最后,对全文工作进行了总结与展望。
本章从数据、特征、模型3 个层面分别综述了FSL 相关技术。首先,引入迁移学习(transfer learning,TL)技术,TL 技术是FSL 技术的重要工具,旨在通过迁移源域知识来提高在目标域上学习的最终表现。TL 技术在FSL 体系中的数据、特征、模型3 个层面均有体现,如图1 所示。
图1 FSL 相关技术及其分类Fig.1 Relative technologies of FSL and their classification
1)在数据层面综述了样本迁移与样本生成技术:基于样本迁移从其他辅助样本中获取数据,或基于生成模型生成与原数据分布相似的新数据;该技术通过实现数据增强,解决了数据不足与不平衡的问题,提升了数力[1]。
2)在特征层面综述了特征迁移技术:该技术通过形成公共可迁移特征空间,降低了特征偏移。
3)在模型层面综述了模型在线更新技术:该技术通过模型参数微调,实现了系统状态在线更新与实时跟随,从而增强了模型辅助实时决策的能力。
1.1.1 样本迁移
在数据稀缺时,样本迁移方法通过使用相似的辅助样本来扩充样本集。在FSL 技术中,辅助样本是源域,小样本是目标域。样本迁移的目标是选择与目标域分布接近的源域实例扩充训练集,以充分训练目标域模型。TrAdaBoost 是一个典型的基于样本迁移的模型,它降低了错误分类的源域样本的权重,减弱了对分类器的影响。样本迁移需要源域和目标域的高度相似性和充足的源域样本,但电力系统工程中的偶发故障可能不满足这些条件。因此,需要利用目标域样本生成新样本。
1.1.2 样本生成
样本生成是解决小样本问题的重要手段,与电力领域仿真推演、元宇宙[2]等新兴方向的技术强相关。样本生成的典型模型分为变分自动编码器(variational autoencoder,VAE)和 生 成 对 抗 网 络(generative adversarial network,GAN)。
1)VAE。VAE 由一个编码网络和一个解码网络组成,文献[3-4]详细介绍了模型原理,其结构如图2 所示。
图2 VAE 结构示意图Fig.2 Schematic diagram of VAE structure
为提高生成样本的质量,VAE 还有多个衍生版本。条件变分自编码器(CVAE)模型[5]通过添加类别信息辅助特定类别样本生成;重要加权变分自编码器(IWAE)模型[6]通过增加隐藏变量采样数量增强模型对不同数据分布的泛化能力;变分损失自编码器(VLAE)[7]通过结合自回归模型增强局部特征提取能力。VAE 的改进模型从不同角度提升生成样本的质量,但这些改进模型在电力系统的应用相对较少或还未引入,很大原因在于其原理在本质上并未改变,都是将似然函数假设为某一分布(通常是正态分布),具有一定的局限性。Goodfellow 等人不再进行假设,而是通过添加判别网络拟合似然函数,基于这一思想的GAN 模型往往可以获得更高质量的生成样本[3]。
2)GAN。GAN 由一个生成网络和一个判别网络组成,文献[3]详细介绍了模型原理,其基本结构如图3 所示。
图3 GAN 结构示意图Fig.3 Schematic diagram of GAN structure
由于GAN 不再假设样本分布,生成过程通过随机采样生成样本,这导致GAN 的训练需要更多的时间且收敛性难以保证。条件生成对抗网络(CGAN)[8]引入条件信息作为约束条件,使生成网络可以根据类别标签(如天气、季节等)学习数据特征并定向生成样本,但GAN 的训练过程仍不稳定,存在梯度消失和模式崩坏问题。Wasserstein 生成对抗网络(WGAN-GP)[9]引入梯度惩罚更新权重,并使用Wasserstein 距离代替JS 距离量度真假样本分布之间的差异,可以稳定训练过程且生成更高质量的样本[1],但相应的代价是训练时间更长且样本多样性不足[10]。为获得多元表征的效果,深层卷积生成对抗网络(DCGAN)[11]基于卷积神经网络建立生成网络与判别网络,提高神经网络的特征提取能力,可以更好地处理具有时空特性的高维数据,但生成效果一般且训练过程不稳定。
综上所述,GAN 的生成效果良好,但由于缺少后验分布而存在难以收敛和模式坍塌的问题[12],收敛性不如VAE,且对电力时空数据间多相关性的捕捉能力较弱[13]。GAN 的衍生模型从不同角度对传统GAN 做出改进,但其优势往往并不互用。还有一些优秀的GAN 改进模型尚未被引入电力领域。例如,StackGAN 可以基于文本描述生成数据,适合基于电力知识定向生成故障样本;BigGAN 优秀的稳定性和超高生成能力使其几乎成为目前表现最好的生成模型[10],适用于基于图像的电力线路异常检测。
3)生成数据评价指标。评价生成数据与真实数据相似度可以从定性评价和定量评价两个角度进行。定性评价通过将高维数据投影在低维空间,提供可视化效果,主要方法有主成分分析(principal component analysis,PCA)法和t 分布随机临近嵌入(t-distributed stochastic neighbor embedding,t-SNE)法;定量评价主要有相关性分析、距离函数和基于下游任务表现效果等方法。其中,基于下游任务表现效果的定量评价是指:在故障分类、负荷预测等研究领域中,数据生成是优化分类/预测效果的基础支撑,部分文献并未评估生成数据质量,但下游任务(故障分类/负荷预测)效果间接反映了生成效果。因此,本文将其作为数据质量评估指标。
特征的选择决定了模型的泛化性能。基于特征的FSL 实质上是基于量度的迁移学习,基本特点是使用距离函数衡量特征之间的差异,通过最小化源域与目标域数据特征差异得到两域的公共可迁移特征空间[14],在公共特征空间内训练的模型可以跨域测试。基于特征的FSL 方法主要有迁移成分分析(transfer component analysis,TCA)、基于量度的网络模型、对抗迁移学习模型等。
1.2.1 TCA
TCA 是使用核函数将源域样本和目标域样本映射至高维再生核希尔伯特空间中。高维再生核希尔伯特空间中,源域和目标域样本间的最大均值差异(maximum mean discrepancy,MMD)为:
式中:xsrci为第i个源域样本;xtari为第i个目标域样本;n1和n2分别为源域样本和目标域样本的数量;H表示高维再生核希尔伯特空间;ϕ(⋅)为映射函数(核函数);x̂src和x̂tar分别为高维再生核希尔伯特空间中的源域和目标域样本。
TCA 通过最小化MMD 修正源域与目标域样本边缘概率分布差异,使x̂src和x̂tar的分布相似,从而可以进行训练分类任务[15]。
1.2.2 基于量度的网络模型
基于量度的网络模型与TCA 的基本思想一致,不同之处在于其映射方式采用神经网络。目前,基于量度的迁移学习网络有孪生网络、匹配网络、原型网络、关系网络等模型,其量度方式、特点及缺陷如表1 所示。
表1 基于量度的迁移学习网络Table 1 Measurement based transfer learning network
1.2.3 对抗迁移学习模型
对抗迁移学习模型中,特征提取器向标签分类器和域判别器输出数据特征。其中,标签分类器根据特征划分样本类别,域判别器根据特征判别样本来自源域还是目标域,两者通过梯度翻转层与特征提取器连接。梯度翻转层会在域判别误差反向传播过程中引入平衡系数,使特征提取器不断缩小源域与目标域特征的边缘分布距离[22],最终,域判别器难以辨别数据来自哪个域。域判别器与标签分类器联合训练可以实现特征空间既具有公共性又具有判别性。公共性指不能根据特征区分源域与目标域,判别性指根据这些特征可以进行标签预测,完成分类任务。对抗迁移学习模型结构如图4 所示。
图4 对抗迁移模型结构Fig.4 Structure of adversarial transfer model
1.2.4 基于随机矩阵的统计指标
以上TCA、基于量度的网络模型、对抗迁移学习模型都需要构造公共特征空间,这就要求辅助样本和小样本之间具有一定的相似性,当不满足这一条件时,这3 种方法难以实施。随机矩阵模型(random matrix model,RMM)基于高维统计提取高维多源拼接数据的深层特征,在缺乏可靠辅助样本时仍然可以基于高维指标判断电力系统状态。
RMM 以高维矩阵(电力时空数据)为分析对象,通过特征值、线性特征根统计量、平均谱半径等特征指标实现对矩阵信息的凝炼。随机矩阵理论认为在某一事件扰动下,系统的运行机制和内部状态将会被影响,其统计随机特性随之改变,具体体现在特征指标的异常[23]。RMM 通常结合滑动窗口法感知数据实时动态变化,对数据异常、缺失、异步有较好的包容性。
模型直接关联数据驱动范式及其各类算法的最终工程效果。模型微调法是基于模型层面的FSL技术。基于源域训练模型,将训练好的模型参数划分为冻结部分和非冻结部分。当模型应用于目标域时,对比预测结果与真实结果的差异,通过反向误差传播机制更新非冻结部分网络参数,即可使用少量目标域数据得到基于目标域的模型。基于模型微调的迁移学习通常利用神经网络提取电力数据特征,通过优化网络层数、神经元个数、冻结层个数提升模型特征提取能力与迁移能力[24-25]。
为提升训练效率,可以仅对与输出结果密切相关的分类层进行微调[26],或先用较大的学习率对非冻结部分进行训练,再采用较小的学习率对整个网络进行训练,通过多阶段参数调整提高算法精度并节约训练时间[27]。为提高模型挖掘源域与目标域共同特征的能力,可以调整感受野的大小生成多种参数和层冻结策略,以分别应用于不同的小样本数据[28],或直接采用多尺度卷积核串行叠加和并行拼接的方式有效提取不同层级特征,还可以在源域数据训练时通过分层迁移保存每层最优权重[29]。冻结层的模型参数是基于源域的先验知识,体现了源域与目标域的共同特征。因此,模型微调法对源域数据与目标域数据分布相似度的要求较高,源域与目标域数据越相似,需要调整的参数越少,且微调后的模型表现越好。
FSL 技术已在多个新型电力系统领域开展了示范应用,但由于FSL 技术本身的特点和局限性,使其工程效果难以保障甚至无法有效应用。考虑FSL 应用于电力领域,从数据层面看,生成数据的目的是提供能反映原始样本分布的仿真样本,但完全相同的数据不符合工程场景动态变化的实际情况;从特征层面看,需要提供具有相似特征的历史样本等辅助信息;从模型层面看,参数调整的范围、路径都对最终效果有难以量化的影响。
面对上述挑战,本章综述FSL 技术在场景生成、故障诊断、功率预测、暂态稳定评估等业务应用场景的研究现状,并从数据、特征、模型3 个层面依次分析其技术难点。
以深度学习为代表的数据驱动方法凭借其强大的特征提取和高维分析能力,成为新型电力系统感知与预测领域研究的主流选择。但在新型电力系统中,新加入的大量新能源设备往往不具备良好的数据条件支撑数据建模。通过生成数据增强训练集,可以直接在数据层面解决样本不足的问题。近5 年内的通过生成数据解决小样本问题的部分代表性文献如表2 所示。
表2 数据生成方法在新型电力系统中的应用Table 2 Application of data generation methods in new power system
由表2 可以看出,当前研究将相似性作为评判生成数据质量的依据,即认为生成数据与历史数据越相似则质量越好,但高度相似的数据不符合工程场景动态变化的实际情况。因此,部分研究基于不同场景生成数据以满足场景多样化需求。文献[40-41]为考虑气象条件对新能源功率的影响,分别基于聚类算法、季节和天气划分历史样本类型,将功率和温度、辐照强度等气象数据作为输入量,通过WGAN-GP 模型构造面向多种气象场景的高质量光伏功率生成样本;文献[42]通过建立噪声分布与日前场景集之间的映射关系,可以使模型具有多样性表征能力,生成场景可体现新能源的随机性。极端(气候)场景作为影响新能源发电的风险因素,将影响新型电力系统的安全与稳定。场景的极端性需要考虑合适的指标量度,功率平均值、峰谷差值、爬坡率、功率差值等设备状态量可以有效反映场景极端程度,将这些极端场景指标作为生成模型的附加条件,可以实现在一定范围内进行极端场景生成。文献[37]选取合适的转移因子和历史数据中较为极端的场景,先对数量较少的极端样本进行增强处理,再基于WGAN-GP 生成相似场景并入数据集,对原始数据集进行重新分布处理。
以上研究虽然生成了多场景数据,实现了电力应用场景的多样化,但对考虑生成数据分布波动性的研究较少。波动性与相似性相反,是指生成数据与历史数据分布的偏差,相似性的不断提高易导致生成模型泛化能力下降。文献[43]引入拉格朗日乘子平衡VAE 隐空间维度与生成精度的关系,生成与原始样本集概率分布相似、时序分布不同的电动汽车充电行为场景集。适当增加生成数据的波动性可以实现与历史数据的差异化,扩大适用范围。然而,如何确定合适的波动程度,实现生成数据相似性与波动性的平衡是FSL 技术尚未解决的问题。
除了生成数据扩充训练样本,FSL 技术还可以通过特征迁移建立源域与目标域的公共特征空间,实现基于小样本的感知与预测,这一方法依赖于与目标域具有一定相似性的辅助样本。例如,在轴承故障诊断领域:电力设备滚动轴承的型号多样,某些型号的故障数据较少,而且轴承运行工况随时间动态变化,不同时间区间内的监测数据是对应不同工况的小样本,但不同型号或不同工况的轴承工作原理相似,其振动信号样本具有共性特征。文献[44]通过局部最大均值距离来完成不同工况下同类故障特征的适配,削弱了因电机轴承工况变化造成的数据分布差异,实现变工况场景下轴承故障的有效诊断。
但在实际工程中,可能无法同时提供满足上述要求的样本。例如,设备的A 故障和B 故障发生机理相似且影响恶劣,但历史数据只有A 故障样本,仅基于A 故障样本对B 故障进行诊断,这一问题是极端的FSL 问题,也称为零样本故障诊断。零样本问题无法通过生成数据解决。目前,有研究利用专业知识揭示A 故障与B 故障的关联特征,通过知识嵌入定义潜在语义空间,在特征层面实现零样本迁移学习,但在电力系统故障诊断领域研究较少。
相比于轴承故障诊断,电力系统暂态稳定评估对时效性的要求更高,评估模型需要滚动式监测以适应系统运行方式和拓扑的变化,一般利用少量实时样本更新模型局部参数[45]。为快速响应系统状态变化,部分研究基于系统当前状态仿真生成样本,通过样本迁移扩充训练集。当系统状态变化不大时,历史数据与实时数据分布相似,可以基于模型分类效果筛选历史样本作为训练集[46];当系统状态变化较大时,则需要通过仿真生成样本,并选择距离相近的可迁移历史样本与仿真样本共同组成训练集[47]。文献[48]将模型在线更新分为两个子阶段:第1 阶段通过领域自适应挖掘无标注数据信息,初步更新模型快速响应异常;第2 阶段通过样本迁移更新模型参数,直至评估模型性能恢复到较高水平。文献[49]通过主动学习筛选信息价值较大的少量仿真数据用于更新模型参数,显著缩短了模型训练时间。另外,拓扑变化可能会导致模型输入特征维数改变。当特征维数改变时,模型不仅要更新参数还要调整网络结构[50],采用图神经网络作为特征提取器可以拓展节点,很好地适应特征维度的变化[47]。
由于调整对象往往是黑箱模型,对提取不同层级抽象特征的网络进行更新,其效果可解释性较差。因此,模型参数调整缺乏科学理论的指导体系和系统性的寻优策略,需要人工筛选方案。模型参数调整过程的可解释性重点包括:1)关键特征的可解释性,提供影响模型决策的关键特征及其对模型决策的贡献度;2)决策机制的可解释性,实现认识模型参数更新动机、更新机制,在此基础上形成科学的改进方法。
数据驱动及其相关的机器学习和深度学习算法,已经成为新型电力系统建设和数字化转型的重要支持。在电力领域,针对数据不足的现状,FSL技术具有广泛的应用前景。本文从FSL 技术的不同层面(基于数据、特征和模型)介绍了其关键技术和特点,并探讨了FSL 技术在新型电力系统中场景生成、故障诊断、非侵入式负荷监测、暂态稳定评估等业务的应用现状。同时,也明确了FSL 技术在电力领域的不足和挑战,为FSL 技术在电力系统中的应用和发展提供了有益的指导和参考。
电力领域仍然存在许多待研究的FSL 问题。例如,FSL 可以有效地构建电力知识图谱,这是一个结构化的语义知识库,需要从文本中提取关键信息,形成清晰的知识结构,以管理电力系统中的大量实体、属性和关联关系。处理多源异构的文本信息是构建电力知识图谱的关键步骤,而传统的基于人工或关键字索引的方法效率较低,难以满足信息多样性和复杂性的要求。FSL 技术可以通过少量标注样本来完成文本分类和句间关系等任务,从而创建结构明确、关系清晰的电力知识图谱[51]。此外,电力系统中的隐私保护问题也需要考虑。由于不同利益主体之间存在数据隔离,联邦学习等方法被用于加密处理数据[52]。引入FSL 技术可以帮助开发更高效的联邦学习方案,减轻通信和计算负担。
在推进电力系统信息化、数字化和智能化的过程中,从示范区到全域推广是必经之路。然而,示范区的历史数据和经验相对有限,被视为“小样本”。如何从示范工程中提取通用性知识,确保其准确性和可推广性,将试点经验扩展到整个电力系统,是一个长期面临的FSL 问题。同时,这也是人工智能领域的共性前沿问题,需要综合运用复杂系统理论、高维分析、数字孪生等多门新兴数据科学技术,进行系统性讨论和定量分析。综上所述,电力系统中的“小样本”问题将在相当长的一段时间持续构成挑战。为系统性地解决该问题,需要将专业知识、专家经验与数据科学有机结合,从而提升FSL 技术的最终工程效果。