王磊,朱皓,黄力,张宏俊
(贵州电网有限责任公司六盘水供电局,贵州 六盘水,550001)
随着电力行业不断地向信息化发展,电力信息系统已经成为我们工作中重要的组成部分[1]。电力信息系统可以实现信息共享,但在给人们带来便利的同时,也面临着电力运行数据泄露的风险。在电力信息系统数据库中存储着大量的数据,对企业和个人来说,这些数据可能是绝密的,如果不能保证电力运行数据的安全,不仅影响人们的生活,甚至会造成财产的重大损失[2]。电力运行数据泄露的风险来源主要有两个方面,一是来自电力信息系统外网,来自外网的泄露风险更引起相关领域的关注;二是来自电力信息系统网络内部的泄露风险,也得到了相关领域的重视。因此,对电力运行数据泄露风险预警方法的研究,成为电力信息系统领域关注的焦点[3]。
刘科研等人[4]提出了一种基于数据挖掘的电力运行数据泄露风险预警方法,首先采集电力运行数据泄露信息,对采集的信息进行去冗,再利用改进的有限元方程算法对电力运行泄露数据进行分析计算,得到泄露信息的特征集,利用数据挖掘系统对特征集进行风险预警。实验结果表明,基于数据挖掘的电力运行数据泄露风险预警方法,可有效地提高电力信息系统的风险预警准确性。李敏等人[5]为了保证电力运行数据的安全,提出了一种基于信息聚类融合处理的电力运行数据泄露风险预警方法。构建电力运行数据泄露风险评估仿真模型,采集电力信息系统运行状态下的数据信息,利用模糊自适应C聚类算法对运行状态下的电力数据进行状态评估,选取电力信息系统运行状态下风险特征量子,利用信息追踪反馈技术对风险特征量子进行预警。仿真试验结果证明,基于信息聚类融合处理的电力运行数据泄露风险预警方法,可对运行的电力数据风险信息进行实时预警,有效地保证了电力运行数据的安全。
针对上述分析可知,虽然现有方法可以有效地进行实施预警,但是存在很多电力运行数据泄露都无法追踪到具体的路径,使相关领域对于电力运行数据泄露风险预警方法研究举步维艰。因此,本文基于SOM聚类,对电力运行数据泄露风险预警方法进行研究,以期为实现电力运行数据泄露风险预警的实施提供帮助。
在电力信息系统运行过程中,当运行数据发生变化时,其变化值超过目标值时,表明发生了数据泄露,需要对电力运行数据泄露节点进行检测。利用电力运行数据的信息特征量结合动态目标值[6-7],对泄露节点进行预警。这种检测电力运行数据泄露节点的方法,可以根据电力运行数据的历史目标值变化,调整相应的目标阈值,再通过对泄露节点的信息值与调整后的目标阈值进行对比分析[8],通过分析结果判断电力运行数据是否存在泄露节点。具体操作如下:
Step1:在时间t内对电力信息系统的电力运行数据进行信息采集,并对采集到的数据进行分析;
Step2:计算时间t内,计算出每一个电力运行数据的特征量值E,根据特征量值使运行数据信息进行矩阵排列:
(1)
上述公式中,N为在时间T内,电力信息系统不同节点出现的电力运行数据信息的数量值,Q为第i个节点电力运行数据占总电力运行数据的百分比。
Step3:计算电力信息系统正常运行情况下,电力运行数据泄露节点的时刻检测阈值ω[9-10],以及与平均目标阈值的差值。如果两个电力运行数据信息节点的阈值差小于k*D,表明电力信息系统运行正常[11]。如果两个电力运行数据信息节点的阈值差大于k*D,则表明存在泄露节点。A为检测电力运行数据泄露节点的时刻检测阈值ω的平均值,D为平均阈值A与ω之间存在的偏导系数;k为电力运行数据泄露节点的最大偏导系数,该指数直接影响检测电力运行数据泄露节点的准确性。计算公式如下:
(2)
(3)
如果电力信息系统没有电力运行数据泄露节点,可以在上述的矩阵中通过计算得到目标阈值,并根据公式(3)对各个电力运行数据节点进行目标阈值更新,以方便下一轮的电力运行数据泄露节点检测。
如果电力信息系统存在电力运行数据泄露节点,则更新各个电力运行数据节点的目标阈值[12]。直接对电力运行数据泄露节点检测,保证检测数据的实时性与准确性。
为了有效地对电力运行数据泄露风险进行提前预警,采用自适应SOM聚类的方法[13-14],根据电力信息系统正常运行情况下泄露节点的特征量,确定基于自适应SOM聚类的电力运行数据样本数,操作过程如下:
首先,设电力信息系统正常运行下电力运行数据的泄露节点集合为X=x1,x2,……,xN,各个泄露节点的电力运行数据和为目标集合A(L),B(L)为电力运行数据泄露节点的种类,L为电力信息系统运行情况下电力运行数据样本的自适应分类。
其次,以第一个电力运行数据泄露节点作为起点,确定自适应聚类中心为泄露节点的样本点,规定数据信息的密度集为xi,并将密度集作为自适应聚类中心的核心节点[15],当A(1)=xi,B(1)=1时,电力运行数据样本的密度指数如下:
(4)
上述公式中,d1为电力型数据的样本点,xi为聚类中心的半径。
然后,计算出每一个电力运行数据泄露节点的样本点xj与聚类中心的距离r,设自适应聚类阈值为d2。当r小于或等于d2时,将电力运行数据泄露节点的样本点归入自适应聚类中心中,当r大于d2时,样本点暂不做归类处理。把上述已归类的样本点重新做自适应分析处理,得到样本集合X′,重复上述操作,设定一个阈值为M,最终使r≤d2。综上所述,得到电力运行数据样本自适应分类L。
利用下述公式计算,求得每一个电力运行数据泄露节点样本的类别A(i),ci为隐藏样本的原始数据。
(5)
上述公式中,i=1,2,3,……,L。
通过上述公式得到隐藏样本的聚类中心,再利用下面公式求得聚类函数的扩展度[16-17]。
(6)
上述公式中,cmax为原始数据中心点与聚类中心的距离。利用聚类函数[18],实现电力运行数据样本的自适应分类,则得出:
(7)
综上所述,通过对电力信息系统电力运行数据泄露节点的样本进行自适应聚类,增加其聚类函数的扩展度,最终实现电力运行数据样本的自适应分类。
本文基于SOM聚类分析,对电力运行数据泄露节点进行采集筛查,并通过自适应分类[19],最终构建电力运行数据泄露风险预警模型。
设H为电力运行数据W的信息合集,Y为电力运行数据的特征量,O为每个节点电力运行数据的抽样的样本,得到电力信息系统的电力运行数据泄露时刻特征量为:
W=(H,Y,O)
(8)
设O为电力信息系统运行过程某个隐蔽的电力运行数据泄露节点[20-21],那么O就是n个泄露节点内的一个泄露风险信息,那么用下述方程表示电力运行数据泄露信息O:
∑ωa1a2……amxa1xa2……+b0……0
(9)
上述方程中,无法确定的电力运输数据泄露风险信息为ωa1a2……am,电力运行数据信息泄露点合集为a=1,2,3,……,r,当隐藏泄露点信息量为x=xa1,xa2,……,aam,结合公式(9)可得到相应的电力运行数据泄露风险信息为:
(10)
用以下公式表示,当电力运行数据泄露风险信息进入监控区域时,对泄露风险信息进行聚类分析[22-23],然后通过聚类样本的动态阈值确定准确的泄露风险节点。
(11)
假如,G为电力运行数据泄露风险信息的横向函数差,则电力运行数据泄露风险函数为:
(12)
假如,电力运行数据信息的输入样本l的泄露风险信息为xl,k为电力运行数据泄露风险信息的样本因子,ck代表聚类样本信息重点,ωkj为各个电力运输数据节点的连接值,m和yj为电力运行数据泄露风险信息的函数数目与种类,那么得到电力运行数据泄露风险预警函数公式为:
(13)
根据电力运行数据方程,计算了电力运行数据的具体数值,利用电力运行数据的转入函数,构建了电力运行数据泄露风险预警模型,实现了电力运行数据泄露风险的预警。
为了证明基于SOM聚类的电力运行数据泄露风险预警方法在实际应用中可以达到一种可观的效果,将此次预警方法应用于某电网实时运行风险管控系统中进行验证。
该电网实时运行风险管控系统的数据传输与发送主要表现在电网能量管理模块,该模块包括主站、生产管理系统以及调度操作执行下发系统三部分,其中主站每5分钟向总系统发布最新的电网运行数据信息,提供其必需的电网运行负荷等基本参数。生产管理系统则作为存储和管理预设数据的来源,向其提供预设数据信息。调度操作执行下发系统由调度员定期发送调度操作指令,供风险管控系统分析决策。基于此分析,设置了如表1所示的仿真环境参数。
表1 仿真环境参数Tab.1 Simulation environment parameters
在表1仿真环境参数设置完成后,确定此次仿真分析的评级指标。考虑到电力运行数据泄露风险预警需要具备实时性、高精度等特点,因此设定预警精度、查全率以及查全率和风险预警精度的调和均值为此次仿真分析的三个评价指标。评价指标参数的结果解释如表2所示。
表2 评价指标参数的结果解释Tab.2 Result interpretation of evaluation index parameters
假设precision表示电力运行数据泄露风险预警精度,recall为查全率,F-measure表示查全率和风险预警精度的调和均值,计算公式为:
(14)
(15)
(16)
分别引入传统电力运行数据泄露风险预警方法、文献[4]的数据挖掘方法和文献[5]的信息聚类融合处理方法,与基于SOM聚类的电力运行数据泄露风险预警方法形成对比进行仿真分析,在2000组~9000组不同规模测试组内进行仿真分析,结果如下。
四种风险预警方法的准确率对比结果如图1所示。
图1 预警准确率对比结果Fig.1 Comparison results of early warning accuracy
从图1的结果可以看出,与其他三种电力运行数据泄露风险预警方法相比,基于SOM聚类的电力运行数据泄露风险预警方法获取到的预警准确率在70%以上,并且始终没有出现比较大的波形。原因是本文设计的风险预警方法采用SOM聚类的方法首先检测了电力运行数据泄露节点,减少了电力运行数据泄露风险在预警的最后阶段产生的干扰信息,大大提高了电力运行数据泄露风险的预警准确率。
为了验证基于SOM聚类的电力运行数据泄露风险预警方法在应用时的性能,测试了四种电力运行数据泄露风险预警方法的F-measure值,结果如图2所示。
图2 F-measure值对比结果Fig.2 F-measure value comparison results
从图2的结果可以看出,随着迭代次数的增加,基于SOM聚类的电力运行数据泄露风险预警方法在预警电力运行数据泄露风险时的性能是最好的,F-measure值最高时为迭代20次时的0.8。原因是本文设计的电力运行数据泄露风险预警方法可以通过对电力运行数据样本进行自适应分类,计算出可能出现泄露风险的节点,大大降低了电力运行数据泄露风险预警的计算量,还可以有效提高查全率,最终获得的预警结果具有更高的可信度。
基于SOM聚类的电力运行数据泄露风险预警方法在实际应用过程中幅度波动率测试结果如图3所示。
图3 幅度波动率测试结果Fig.3 Range volatility test results
电力运行数据泄露风险预警幅度波动率可以反映出风险预警模型的预警结果是否稳定,判断出外界环境因素是否会影响预警效果。从图3的结果可以看出,基于SOM聚类的电力运行数据泄露风险预警方法在应用过程中预警的幅度波动率保持在[50,-50]之间,说明本文设计的风险预警模型在外界环境干扰的条件下,也可以获得更加准确的风险预警效果,适合在多种环境中应用。
为了有效缓解电力系统中电力运行数据的泄露问题,采用SOM聚类方法对电力运行数据泄露风险预警方法进行改善,结果显示,本文设计的电力运行数据泄露风险预警方法在实际应用中具有更好的预警效果,预警准确率在70%以上,查全率和风险预警精度的调和均值最高时为迭代20次时的0.8,预警的幅度波动率保持在[50,-50]。由于本文参考的文献资料有限,虽然可以检测出电力运行数据的泄露节点,但是无法确定泄露路径,仍然无法从根本上解决电力运行数据的泄露问题,在今后的研究中要考虑到这一因素。