基于变分自编码高斯混合模型的发电企业串谋智能预警

2022-02-28 06:30华回春张立峰
电力系统自动化 2022年4期
关键词:竞价报价发电

华回春,邓 彬,刘 哲,张立峰

(1. 新能源电力系统国家重点实验室(华北电力大学),河北省保定市 071003;2. 国网上海市电力公司,上海市 200437)

0 引言

在电力市场中,串谋是滥用市场力违规的主要表现形式之一[1]。通常,集中竞价中串谋企业通过平行报价和反向报价来获取更多的利润[2]。传统评估发电企业使用市场力进行串谋的方法主要有场前指标分析法[3-5]和事后检查法[6-8]。目前,中国电力市场力高度集中,赫芬达尔-赫希曼指数(Herfindahl-Hirschman index,HHI)明显高于1 800 阈值,串谋更为常见[9]。因此,需要加强电力市场信用监管的顶层设计,实时监测发电企业的串谋行为,对信用风险提前做出预警。

目前,发电企业串谋的研究大致可以分为2 类:一类是根据市场交易规则研究串谋发生的机理[10-12];另一类是根据市场交易数据构建串谋指标进行预警[13-14]。前者使用博弈模型和回归模型等对电力市场交易进行建模,并通过企业的竞价策略来判断串谋风险。文献[15-16]还将强化学习应用于串谋风险的评估中。但是,由于电力市场的信息披露机制还不完善,该类方法建模所需的保密数据,如发电企业的边际成本,难以获得。后者则通过串谋指标特征直接反映串谋成员的异常报价行为并由专家进一步决策,更加适合监管机构进行串谋预警。随着电力市场逐步开放,市场交易规模不断增大,传统的专家决策已无法满足工作需要。因此,需要提出能够实时甄别发电企业串谋指标特征的智能预警模型,为相关监管机构提供有串谋嫌疑的企业名单。

文献[17]构建了发电企业的指标特征库,并采用模式识别来检测违规行为,但该类方法不能自我更新,无法实时适应市场的变化。文献[18]将串谋视为二分类问题,采用有监督学习算法训练分类器,从而区分串谋指标特征。但在实际操作中,带有标注的数据非常少,因而难以训练出有良好泛化能力的有监督学习模型,为此采用无监督学习模型是一种更好的选择。由于串谋实际上是电力市场中的异常行为,可以结合无监督学习的异常检测思想筛查出串谋的指标特征。

传统的异常检测方法有三大类,分别是基于误差重构的方法[19-22]、基于聚类分析的方法[23-24]以及基于分类的方法[25-27]。但是,传统异常检测方法难以处理电力市场交易的复杂高维数据,而无监督的深度联合学习网络在处理复杂数据的时候有优势。该网络一般由2 个部分组成:表达网络和估计网络。在每一次迭代中,前者学习得到高维复杂数据的潜变量和特征,后者对其进行密度估计,将位于低密度区域的样本视为异常样本[28-29]。考虑到电力市场数据具有正负样本不均衡(正常样本远多于异常样本)的特点,因此提出了新的深度联合网络。该网络在表达网络中采用变分自编码器(variational autoencoder,VAE)降维,可以学习得到具有一定噪声的隐变量,保留更多的串谋样本信息,而且在每一次迭代中,包含的正类样本信息占比更多,对串谋样本的识别帮助更大[30-31]。本文在构建串谋指标特征的基础上,采用无监督学习模型,即变分自编码高斯混合模型(variational autoencoding Gaussian mixture model,VAEGMM),实现了发电企业串谋的智能预警。

1 集中竞价中发电企业串谋预警指标体系

1.1 串谋预警指标

在集中竞价中,只有2 家或者2 家以上的发电企业才有可能产生串谋行为,所以串谋预警指标需要充分反映任意2 家企业在竞价过程中的报价特点。根据市场内常见的串谋形式,参考了现有的串谋指标,构建了较为完善的指标体系。它们的名称、含义和具体计算公式如下[13-14]。

式中:Si和Sj分别为市场中第i家和第j家发电企业在本次竞价中的申报电量;n为在本次竞价中参与的发电企业总数。

该指标衡量了2 家发电企业在本次竞价的市场力大小,指标数值越大的2 家发电企业越有能力影响整个市场的价格,说明串谋的可能性越大。

式中:ρia和ρja分别为第i家和第j家发电企业在本次竞价中的第a段报价;为在本次竞价中所有发电企业第a段报价的均值。

该指标衡量了2 家发电企业在同一时间段、同比例地改变申报电价的可能性大小。数值越小,表明存在串谋的嫌疑越大。

式中:Sia和Sja分别为第i家和第j家发电企业在本次竞价中的第a段申报电量;为在本次竞价中所有发电企业第a段申报电量的均值。

该指标衡量了2 家发电企业在同一时间段、同比例地改变申报电量的可能性大小。数值越小,说明存在串谋的嫌疑越大。

式中:fi和fj分别为第i家和第j家发电企业在本次竞价中的报价曲线函数;S′为2 家发电企业申报电量的较小值;s为积分变量。

该指标衡量了2 家发电企业在同一时间段、同比例地改变申报电量和电价的可能性大小。数值越小,说明存在串谋的嫌疑越大。

该指标衡量了当前报价与历史报价的偏差,偏差越大,说明它们的报价越有可能脱离自身的发电能力,存在与其他企业串通、抬高市场出清价格的嫌疑。

该指标衡量了当前报价与市场整体报价水平的偏差。偏差越大,说明发电企业试图报高价以抬高市场价格的可能性越大。

上述指标体系主要反映了串谋企业的市场力大小、平行报价和异常报价的行为特征。在供大于求的情况下,报价一致性、报量一致性和报价曲线差异面积比率指标能够反映发电企业通过平行报价来抢占市场份额的行为。在供求关系相对平衡的情况下,报价安全度均值和报价相对比均值这2 个指标能够反映发电企业通过物理缩减和经济缩减等异常报价行为制造市场供不应求的情况,从而使其他成员获得提价的空间。尽管参与市场的不同类型发电企业成本有较大差异,但是上述指标体系依然有效。

1.2 串谋指标集测算方法

同时对多场集中竞价进行串谋预警时,需要对不同场次的竞价数据进行标注再糅合,直接糅合可能会使无监督学习模型无法正确判断串谋行为。例如,场次A 和B 都发生了不同类型的串谋,那么场次A 和B 中正常企业的竞价数据会因为各自的串谋类型而呈现出不同的数据特点,直接糅合多场次数据会让VAEGMM 认为这些正常企业也存在串谋的嫌疑。因此,本文提出了新的标注指标,具体定义如下。

集中竞价场次x(7)ij,代表2 家发电企业集中竞价的场次,如式(7)所示。

式中:l为第i家和第j家发电企业参与集中竞价的场次。

该指标的选取可按照时间周期选取,如周、月、年等,或者按照变量选取,如同水平电价、进入市场的发电企业等。

假设某地同一时期的电力市场一共有L场集中竞价,参与某一场次竞价的发电企业有m家,那么串谋预警的指标集计算过程如下。

首先根据原始的报价数据,计算某一场次竞价中2 家发电企业之间第k个指标的数据矩阵R(k)如式(8)所示。

将矩阵元素按照除对角线外的上三角形依次平铺,得到列向量x(k),即为指标集的一列指标特征。

然后,按照式(1)至式(7)分别计算出7 个指标特征,按列组合即可得到某一场次l集中竞价的指标集Xl。

最后,将L场次的指标集Xl按行组合得到用于网络训练的指标集X。

值得注意的是,在训练模型前,需要对标注指标(集中竞价场次)进行独热编码来消除量纲[32],因此,指标集X的维度会随场次增加呈线性增长。另外,指标集X的每个样本都是由任意2 家发电企业的竞价数据计算得到的指标结果,且串谋行为是一种少数违法行为。因此,指标集X具有维数高且正负样本不均衡的数据特点(正常样本远多于串谋样本)。由于串谋样本的指标特征与大部分样本的指标特征相差较大,在样本空间中,串谋样本点表现为离群点,即异常样本点。针对此特点,本文提出了一种新的深度联合学习网络来实时甄别指标集X中的异常样本。

2 串谋预警模型建立

2.1 网络结构

如图1 所示,VAEGMM 的网络结构由2 个部分网络构成:表达网络和估计网络。其中,表达网络通过VAE 对网络的输入进行降维,同时得到潜变量Zl和重构概率Zr。然后,将这2 个特征整合起来作为估计网络的输入,使用高斯混合模型(Gaussian mixture model,GMM)计算得到每个样本在低维空间的密度估计。图2 中:X′为重构样本;Z=[Zl,Zr]为整合变量;μ(X)与σ(X)分别为均值和方差函数;为整个网络的输出。

图1 VAEGMM 网络结构Fig.1 Network structure of VAEGMM

2.2 表达网络

VAEGMM 的表达网络使用VAE 对指标集X的指标特征进行降维重组,形成一个更可辨的低维样本空间。VAE 包含编码器和解码器2 个部分。

如图2 所示,编码器的目标是学习潜变量的近 似 后 验 分 布q(Zl|X)~N′(μ′(X),σ′(X)),其 中,N′(μ′(X),σ′(X))为分布函数,μ′(X)与σ′(X)分别为重构均值和方差函数。首先,μ′(X)与σ′(X)需要通过网络学习得到;然后,从后验分布q(Zl|X)中采样得到原始样本的潜变量Zl。由于σ′(X)不为0,Zl带有一定的噪声,体现了潜在变量空间的可变性。也就是说在每一次迭代中,相较于其他降维,VAEGMM 所学习得到的潜变量都具有更加丰富的正类信息,从而有助于估计网络将负类样本从低密度区域中识别出来。

图2 VAE 编码器Fig.2 Encoder of VAE

如图3 所示,解码器通过近似后验分布p(X′|Z)采样,对潜变量Zl进行重建得到重构样本X′。其中,X′|Zl~N(μ(X),σ(X) ),N(μ(X),σ(X) ) 为 分布函数,函数μ(X)与σ(X)也需要通过网络学习得到。通过函数g(X,X′)的计算可以得到重构样本和输入样本的重构概率Zr。该特征不同于普通降维网络的重构误差,它不仅将重构样本与原始输入之间的差异考虑在内,而且还考虑了由近似后验分布p(X′|Zl)的方差σ(X)来重建X′的可变性。该特征反映了不同样本的方差灵敏度,灵敏度高的样本能通过高方差重构被视为正常样本,从而降低重构概率。

图3 VAE 解码器Fig.3 Decoder of VAE

2.3 估计网络

通过表达网络的计算,VAEGMM 将原始变量的潜变量Zl和与重构样本的重建概率Zr整合起来馈入估计网络中。由于大量随机变量的累计分布收敛于高斯混合分布,VAEGMM 选取GMM 作为估计网络。

一般,通过GMM 的估计,将拥有高能量的样本视为异常样本。网络输出π^ 是每个样本服从于整个数据集近似样本分布的可能性。它也是两两发电企业的竞价数据与市场总体水平的偏离程度,可认为是串谋嫌疑度。

2.4 联合损失函数

式 中:GELBO为 变 分 下 界(evidence lower bound,ELBO);GKL(q(Zl|X)||p(Zl|X) 为 KL(Kullback-Leibler)散度。

式(18)中,等式等号右边由GELBO和潜变量Zl的真实条件分布p(Zl|X)与近似后验分布q(Zl|X)的KL 散度2 个部分组成。由于后一项为正,那么网络的优化目标简化成最大化变分下界GELBO。式(19)中,GELBO的前一项为重构样本的能量函数,反映了与原始样本的差异,在损失函数中使用两者的距离代替;后一项为潜变量Zl的真实分布p(Zl)与近似后验分布q(Zl|X)的KL 散度。假设潜变量Zl,w的真实分布p(Zl,w)服从标准正态分布,则

综上,VAEGMM 网络的联合损失函数J的定义为:

式中:λ1为估计网络的样本能量E(Z)在联合损失函数J中的权重;L(Xw,X′w)为重构损失函数。

3 串谋预警步骤

集中竞价发电企业串谋预警的具体步骤如下:

步骤1:采用提出的串谋指标体系和指标集计算方法对原始数据进行测算,得到指标集X。

步骤2:对X进行归一化处理,同时对指标特征集中竞价场次进行独热编码处理,将数据集维度扩增L维,消除量纲。

步骤3:将X划分成训练集、验证集和测试集。

步骤4:采用VAEGMM 模型进行训练,得到每个样本在低维空间中的密度估计值π^,可认为是串谋嫌疑度。

步骤5:将π^ 逆映射回式(8)的矩阵当中,通过横纵坐标获得两两企业的串谋嫌疑度。倘若企业1 分别与企业2 和企业3 有串谋嫌疑,即可认为企业1、2、3 为一个串谋联盟。

步骤6:将串谋嫌疑大的企业名单提交给相关监管机构进一步调查,包括检查交易申报的计算机MAC 地址与网络IP 地址、问询笔录和核查账簿等。

4 实例计算与分析

为了验证VAEGMM 用于串谋预警的有效性,采用某省电力市场集中竞价中4 场3 阶段式报价数据作为原始数据。经过串谋指标集测算,数据集X包含3 797 个样本,其中负类样本(串谋样本)有363 个,占总体的9.56%,具有正负样本不均衡的特点。X的特征为1.1 节中的7 个指标,其中第7 个竞价场次指标经过了独热编码处理。

表1 展示了指标集X的10 个样本,其中标签为1 表示串谋样本,标签为0 表示正常样本。可以看到,前3 个串谋样本的第2 个指标数值远小于正常样本,表示这些串谋企业的报价一致性很高。显然,这3 个样本在样本空间中远离正常样本,被视为离群点,也就是异常样本。

表1X部分数据集Table 1 Part data set ofX

4.1 网络结构和参数设置

本次训练中,VAEGMM 的网络结构设置如表2 所示。表2 中,FC 表示该神经网络层为全连接层;L2(0.001)表示权重为0.001 的L2 正则化;Sampling表示采样层,从高斯分布N(Zmean,e0.5Zvarε)中采样得到潜变量Zl,其中ε为服从N(0,1)的伪随机数,Zmean和Zvar分别为Z的均值和方差。

表2 表达网络设置Table 2 Settings of express network

另外,为了考虑每个样本降维前后的重构概率,本算例采用表达网络输入和输出之间的相对欧氏距离dE和相对余弦dC相似度,计算公式分别如式(22)和式(23)所示。

表3 中,为了防止估计网络发生过拟合现象,在第2 层中添加Dropout 层,即在每次迭代时,该层神经元节点以0.5 的概率关闭[33]。估计网络通过softmax 激活函数输出每个样本在低维空间的密度估计π^,并由式(22)分离出异常样本。最后,本次训练设置批量为512,优化器为Adam,λ1=0.01,学习率为0.000 1,迭代次数为5 000。

表3 估计网络设置Table 3 Settings of estimation network

4.2 串谋预警效果分析

根据3.1 节中的网络结构和相关参数设置,该模型的训练集和验证集误差如图4 所示。在经过2 500 次迭代后,训练误差和验证误差已经下降到一个非常低的水平,并且在后续迭代中也保持稳定,没有出现过拟合现象。这表明VAEGMM 具有收敛快、精度高的优点。

图4 VAEGMM 的训练误差和验证误差Fig.4 Training and validation error of VAEGMM

为了体现VAEGMM 的串谋预警效率,与其他无监督智能方法进行了对比,包括基于树模型的孤立森林、单类支持向量机(one class support vector machine,OC-SVM)方法、基于先降维再聚类思想的主成分分析(principal component analysis,PCA)和K 均值聚类(PCA+KMeans)方法、基于先聚类再进行密度估计的主成分分析和GMM(PCA+GMM)方法、基于密度的噪声应用空间聚类(density-based spatial clustering of applications with noise,DBSCAN)方法、基于距离的局部异常因子(local outlier factor,LOF)方法、基于深度自编码器(deep autoencoder,DA)和高斯混合模型的深度联合(DAGMM)方法。为了计算准确率,本文设置了阈值λ=0.8π^max,w来 判 断 串 谋,即π^w>0.8 为 串 谋 样本,否 则 为 正 常。其 中π^w和π^max,w分 别 为 第w个 样本的网络输出及其最大值,采取的评价体系为:准确率、召回率与F1指数,定义如下。

式中:αs和γus分别为正常样本被正确或错误预测的数目;αus和γs分别为异常样本被正确或错误预测的数目;Acc、ηSR、ηUR、Omean分别为准确率、召回率、精确度、F1指数。

表4 的结果表明,VAEGMM 在电力市场集中竞价的串谋预警准确率高于孤立森林、OC-SVM 和PCA+Kmeans 方法,分别高出了22.16%、9%、3.36%。对于DBSCAN 方法,VAEGMM 的召回率更高,对正常样本的识别更加敏感。虽然LOF 在本算例的表现很接近VAEGMM,但是LOF 对于复杂的高维数据处理比较困难。虽然PCA+GMM 方法的3 个指标都优于VAEGMM,但它并没有识别出异常样本(αus=0)。因为在正负样本不均衡的情况下,简单的线性降维模型PCA 会把异常样本的信息当作噪声删除,导致GMM 对异常样本不敏感,无法分离出串谋样本,反而只留下正类样本的信息,能够帮助GMM 识别出更多的正类样本,具有高准确率。因此,PCA+GMM 方法在实际应用中没有实用价值。 对比同样是深度联合网络的DAGMM,VAEGMM 在3 个指标的表现上都更优异,分别高出1.27%、1.4%、0.78%,表明VAEGMM 的表达网络比DAGMM 更加能够学习得到有助于密度估计的低维表示。

表4 不同方法的串谋预警效率Table 4 Early-warning efficiency of collusion with different methods

综上,深度联合学习网络VAEGMM 能够高效地将串谋样本识别出来,与其他无监督学习方法相比,更加契合电力市场的串谋数据特点,具有更高的准确率。

4.3 与其他方法比较分析

为了说明本文方法的优越性,将从不同维度对各类发电企业的串谋预警方法进行评价。

如 表5 所 示,与 现 有 的 其 他 方 法[10-14,17-18]相 比,本文方法不需要很强的先验知识,能够根据市场的交易数据不断自我更新,从而可以对串谋行为实时监测。在信息披露机制不完善的情况下,本文方法只需要发电企业交易后的竞价数据,不需要保密的机组数据,也不需要标注数据,更加适合于第三方监管机构使用。

表5 不同方法比较结果Table 5 Comparison results of different methods

如表6 所示,经同一实例数据计算,基于有监督学习方法[13]的串谋预警准确率达到91.04%,比本文方法高出了7.04%。但是在实际操作中,人工标注的串谋样本非常少,训练一个有监督学习模型是不现实的。另外,若测试集中发电企业通过新的方式进行串谋,有监督学习模型则无法将该类样本识别出来。因此,本文基于无监督学习的串谋智能预警方法更加符合实际。

表6 不同方法预警效果比较Table 6 Comparison of early-warning effects with different methods

5 结语

为了完善中国电力市场集中竞价的监管体系,结合串谋指标体系和智能算法,提出了一套电力市场发电企业之间的串谋智能预警方法,用于辅助专家决策。得到的主要结论如下:

1)构建了较为完善的发电企业串谋指标体系,提出了集中竞价场次标注指标,提升了方法的预警性能。

2)由于电力市场串谋行为样本数据的标签难以获取,因此选择了无监督学习模型。考虑到指标集具有高维度和正负样本不均衡特点,提出了深度联合学习网络VAEGMM,实现了电力市场发电企业串谋行为的智能预警。

3)与其他方法相比较,VAEGMM 每次迭代都进行1 次降维,最大化保留了原始数据信息,对数据空间的调整也更加灵活,在实际应用中具有更高的准确率。

理论上,本文所提出的VAEGMM 是基于电力市场中的数据特点开发出来的。它既可以预警发电侧的串谋行为,也可以适用于其他电力市场主体,这取决于串谋指标体系如何构建。因此,未来的研究可以着眼于VAEGMM 对其他电力市场主体的串谋预警研究。

在本文审稿过程中,审稿专家与作者的讨论见附录A。

附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx),扫英文摘要后二维码可以阅读网络全文。

猜你喜欢
竞价报价发电
“发电”
柠檬亦能发电?
含风光发电的互联电力系统自动发电控制论述
云环境保护竞价隐私的最佳路径算法
解密主力开盘竞价做假意图
报价