智能电网监控运行大数据应用模型构建方法

2018-10-24 07:08:50冷喜武陈国平张家琪
电力系统自动化 2018年20期
关键词:格兰杰主变因果关系

冷喜武, 陈国平, 蒋 宇, 张家琪, 肖 飞

(1. 国家电网有限公司, 北京市 100031; 2. 国网江苏省电力有限公司, 江苏省南京市 210024;3. 国网物资有限公司, 北京市 100120; 4. 国网上海市电力公司, 上海市 200122)

0 引言

近年来,经过国家电网有限公司内部职责的重新调整,传统调度机构更名为调度控制中心(简称调控中心),其调管职责也新增了对管辖全部设备的集中监视和遥控操作职能,传统的有人值守变电站模式变为了无人值守模式。这一电网调度职责的变化造成了传统技术支撑体系(例如:Open3000,智能调度控制系统(D5000)、调度管理系统(OMS))的不适应:①传统技术支撑体系是从变电站就地监视和单一设备控制演化而来的,对大规模变电站远程集中监视和批量顺控业务的支撑不足;②随着设备集中监视、控制新业务的拓展和“事前—事中—事后”全维度分析业务的开展,需要根据新业务上线新的系统、开发大量的支撑功能[1-2]。为此,2016年,国家电力调度控制中心组织五家省级调控中心(江苏、浙江、天津、四川、辽宁)研究并上线运行了智能电网监控运行大数据分析系统。

在业务应用功能的开发上,传统方法是依靠人工经验的先验知识建立模型,经过数据验证其模型的有效性,最后开发应用模型完成对某设备、功能的辅助分析或决策。文献[3-6]根据人工经验,通过采集母线电压、充电机电流、电池组内阻、支路差流等信息建立直流系统故障检测模型。文献[7]根据经验模型驱动方式,进行了主变油温异常升高的故障诊断与处理的研究。基于人工经验的电网设备异常监视、故障诊断模型及应用的优点有:①通过了长期实践验证,可行性高、见效快;②应用建模、功能开发目标明确,研发成本低。

然而,通过国家电网有限公司在五个省级调控中心,开展的监控大数据系统试点运行(2016年7月至2018年4月)可以得出结论:一方面是传统监控分析应用模型,不仅数量少、分析方法也相对简单,远不足以支撑国家级、区域级、省级电网开展大数据分析业务的需求,制约了电力监控应用的开发;电力系统不仅需要建设庞大的计算机硬件架构、构建严密的计算机软件系统体系,更需要方便、高效地开发支撑各类调控、监控业务的工业大数据应用模型、功能[8-9];另一方面,仅试点调控中心纳入集中监视的数据源就有几亿个,如果将信息进行两两组合分析,需要指数级的计算量,如果进行更高维度的多元信息挖掘,则耗时更长。

文献[10-11]指出电网运行数据蕴含着大量的因果关系特征。而省级远方、大集中模式下的电网设备故障异常的趋势监视和主动干预,其实质就是在故障异常(“果”要素)出现之前,对强关联“因”要素进行自动侦测和监控员的提前处置,以提升大电网运行本质安全特性。因此,本文提出一种新颖的基于因果概率图模型的监控大数据智能挖掘算法框架和一种两阶段的电网监控运行大数据应用工程构建方法。根据降低计算复杂度和有效挖掘数据因果关系的思路[10-11],因果关系智能挖掘算法框架采用了分层计算的理念。首先,为了减小计算量,采用相对简单的相关分析模型[12-13]进行初筛;然后,再用计算复杂的因果检验模型[14-15]进行精筛,提高分析的精度,并计算出中间步骤的因果关系集合;最后,基于上述计算结果和因果关系,统计出的各关联要素因果概率权重,再通过构建概率图模型(贝叶斯网络)[16]形成面向具体业务应用的因果关系模型,指导应用功能的开发。

1 监控大数据因果关系智能挖掘算法框架

电网大数据因果关系分析,往往既需要选定数据序列相互关系的挖掘方法,又需要设计合理可行的大数据因果分析模型。

皮尔逊积矩相关系数法是相关性检验中用来判断要素是否存在关联性的经典方法,具有计算简单、速度快的特点,但是该算法的分析结果容易受噪声数据的干扰,反映的是相关性的粗粒度特征,并且无法识别因果关系[12-13,17]。格兰杰因果关系检验可以判断相关要素间的因果关系,但是,其计算较为复杂。当全要素集合比较庞大的时候,利用格兰杰因果关系检验完成全部要素的因果关系运算时间复杂度较大[18]。所以将皮尔逊积矩相关系数法预处理数据后再实施格兰杰因果关系检验是一个可行的优化策略。

概率图模型是用来描述相关要素间因果推理或关系结构演变的经典机器学习方法。在电网监控大数据分析中,由于电网监控全要素集合数量庞大,直接进行概率图建模计算十分复杂。如何降低电力大数据分析概率图建模难度是一项重要的研究议题。

基于上述研究,本文提出一种基于因果概率图算法模型的监控大数据智能挖掘方法。其主要思想是采用皮尔逊积矩相关系数法及格兰杰因果关系检验法相结合的方法对全要素集合查找强因果关系,并且上述步骤获得的要素间因果关系可以直接应用于构建电力大数据分析概率图模型,最终实现指定要素节点的智能决策[16,19]。

该算法框架整合了相关性系数法、格兰杰因果检验方法和概率图模型方法,能够在电力大数据工程环境下,实现对于海量数据的有效筛选和高效因果关系建模。

算法框架流程见图1。首先,将全要素集合中的要素构造为全对偶组合作为输入,并且对所有的对偶要素组合进行相关性检验及T检验[17],当检测要素相关性及T检验都小于预定阈值时,则过滤弱相关要素组合,否则保留强相关要素组合。然后,通过格兰杰因果检测及F检验[18]确定强相关要素间的因果位置关系,作为概率图模型的节点与有向边,进而构造强相关要素的有向关联拓扑结构。最后,基于上述概率图的因果拓扑关系和各要素节点间的因果条件概率系数,完成电力监控决策推导模型。

图1 监控运行大数据因果关系智能挖掘算法框架Fig.1 Intelligent mining algorithm framework of causal relationship for monitoring big data

本章将对本算法框架涉及的相关性分析方法、格兰杰检验方法和概率图模型方法基本原理,进行如下简要介绍。

1.1相关性分析方法

通常,大数据环境的多维时序数据可记为D={D1,D2,,DM},其中,M为监控数据源总数,Di∈D为数据源的任一数据序列。

相关性分析(correlation analysis)是研究现象D内部元素之间是否存在某种依存关系,并对有依存关系的现象探讨其相关性强度。相关性分析作为研究随机变量之间相关关系的一种统计方法,在产业界有着广泛的应用。皮尔逊积矩相关系数法[17]是最经典的关系分析方法之一,其相关性采用R系数表示,公式定义如下:

(1)

R的绝对值越大,说明样本相关性越强。而根据上述皮尔逊积矩相关系数法获得的Xi和Yi之间的相关性还可以采用经典的T检验[17]对相关性检验结果进行验证。

变电站装设的数以亿计的数据采集装置,实时向调控主站系统上传带有时标的监视信息。这就构成了相关性分析的时间序列基础即式(1)中的Xi和Yi。

相关性分析方法计算简单且应用成熟,但分析结果较粗糙,只能反映数据源之间具有同步特性的弱联系,并不能进一步表征数据源间是否存在因果关系的强联系。由于电力系统是一个因果性显著的系统,因此需要进一步挖掘数据源之间的因果关系。

1.2 格兰杰检验方法

格兰杰因果关系检验方法,是一种分析变量之间因果关系的算法,是一种推断时间序列数据之间因果关系的统计检验方法,在很多行业都被广泛采用。例如,文献[1]在发电量预测中使用了格兰杰因果关系检验方法。其主要思想是利用格兰杰方法检验式(2)和式(3),判断两个时间序列变量之间是否具有逻辑因果关系。即,若包含了时序变量X和Y的历史信息的条件下,对未来时刻Y的预测效果要优于单独由Y的历史信息对Y的预测的效果,则认为X是引致变量Y的原因。

(2)

(3)

式中:XT为相关变量X在T时刻的数据取值;Xi为变量X在i时刻的数据取值;YT为相关变量Y在N时刻的数据取值;Yi为变量Y在i时刻的数据取值;μ1和μ2为随机白噪音;αi,βj,λi和δj均为参数。

若通过经典的F假设检验方法[18]验证式(2)成立,则认为数据源X是引起Y变化的原因,即存在由X→Y的单向因果关系,否则该单向因果关系不成立;同理利用式(3)可以验证数据源Y是否是引起X变化的原因。

根据格兰杰检验的结果,可以进一步筛选强相关要素中,要素“因”和要素“果”的因果位置关系,去除无因果关系的要素关联,构造有向关联图。有向关联图反映了概率图模型中各节点依赖关系特性,明确了各要素间的推理规则。

1.3 概率图建模方法

概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量联合概率分布。本文采用的概率图,也称为贝叶斯网络[19],其网络结构使用有向无环图。贝叶斯网络是一种概率网络,它是基于概率推理的图形化网络,又称为信念网、概率网络、因果网络等,其中节点表示随机变量(离散或连续),有向边表示节点之间的相互因果或依赖关系。每个节点都有一个蕴含着概率信息的条件概率表达式,记为P(Xi|π(Xi)),其中,π(Xi)为所有Xi∈D的父节点,即以Xi为节点集合。

具体而言,贝叶斯网络可以用一个二元组〈S,P〉来表示。S为具有拓扑关系的各个节点序列集合,其对应于数据源集合D的某个子集。在电力大数据分析应用模型中,概率图中的“节点”及其“边”拓扑关系,可以采用式(1)的相关性检测和式(2)格兰杰因果检验获得。P为S中任一节点与其父节点之间权重集合,例如:节点Xi与其父节点集π(Xi)之间的因果权重记为P(Xi|π(Xi)),其计算公式如下:

P(Xi|π(Xi))=P(Xi|X1,X2,,Xi-1)

(4)

式中:π(Xi)为Xi的祖先节点,即{X1,X2,,Xi-1},集合π(Xi)按照各个节点两两间的父子偏序关系进行排序。

显然,基于概率图的某指定节点Xi相对于其所有祖先节点π(Xi)之间的因果依赖关系的权重P(Xi|π(Xi))(即因果决策推理权重)可以由Xi与其各个祖先节点因果权重累计获得。

2 两阶段监控大数据应用模型构建方法

在远程集中监视的情况下,监控多源数据集从全省各个系统汇集到调控中心的大数据系统。例如:智能调度控制系统、调度管理系统、智能变电站的一体化监控系统、大检修体系范畴的在线监测系统、山火系统、覆冰系统,以及外部气象系统等。这些系统包含了丰富的电网运行、设备运行等实时数据和台账、检修、缺陷记录等非实时数据。传统人工经验驱动的监控分析方法已无法适应新的业务需求。因此,本文提出监控大数据应用模型的构建技术,通过监控大数据因果关系智能挖掘算法框架,主动对电网监控大数据集,开展相关性分析和因果关系的挖掘研究,进而构建电网监控运行业务应用功能。以大数据模型构建技术替代传统人工经验驱动的方法,是支撑电网智能化水平提升的必然发展趋势。

本章基于“数据到模型,模型到应用”的技术路线,根据电网监控大数据分析相关技术研究、以及电网监控大数据应用的实际需求,提出一套从调控中心多源多维数据集中挖掘故障因果关系的监控大数据应用构建方法。第1阶段,应用大数据分析技术从海量多源多维数据中挖掘出存在强关联关系的变量集合;第2阶段,将人工经验与推荐模型相结合,筛选出功能应用集合,生成监控业务模型。该方法从多源多维数据集中,经过相关性检验和格兰杰因果关系检测分析,生成基于数据驱动因果概率图的业务模型,从而支撑电网监控实际生产。

该建模过程如图2所示,主要分为2个阶段及6个步骤。即第1阶段通过相关性分析,明确因果关系要素集,并构造电力大数据概率图模型;第2阶段人工经验与推荐模型相结合筛选出功能应用集合,生成监控业务模型。

图2 监控运行大数据应用模型构建框架Fig.2 Construction framework of big data application model for monitoring

2.1 第1阶段:数据到模型阶段

多源全要素集合,汇聚了调控中心集中采集到的天气数据(例如:温度、降雨量、湿度)、主动变压器(以下简称主变)负载、主变油温、主变线温、冷却器是否投入、主变电压、主变电流、地区实时负载、主变油位、主变投入使用年限、是否存在渗漏油故障、导线搭头温度、声音、主变色谱、主变绝缘等数据。这些多源全要素被认为与监控业务关注的设备故障、异常时间序列之间是隐藏着互为因果的关系。因此,本文提出应用大数据分析方法从海量多源多维数据中挖掘出存在强因果关系的变量集合,建立变量的数学模型。

步骤1:计算获得强相关数据集。采用1.1节中介绍的皮尔逊积矩相关系数法,实施全要素间的相关性检测,对检测出大于指定相关性检测阈值的强相关关系的要素进行标注,并且删除不具备强相关关系的要素,从而获得强相关要素集。

步骤2:计算获得因果关系数据集。对强相关要素集,使用1.2节中介绍的格兰杰因果关系假设方法,检测强相关要素集中存在的因果关系。对检测大于指定阈值的的强相关要素对,进行因果关系标注,获得因果关系要素集。

步骤3:电力大数据概率图建模。基于步骤2获得的因果关系数据集进行有向概率图建模,其节点为因果关系要素集中的元素,其节点间的有向边为节点间的因果关系。

2.2 第2阶段:模型到应用阶段

采用人工经验与算法推荐的因果模型相结合,依据专家经验确定决策模型参数α,筛选出符合实践经验的功能应用集合,指导监控业务功能开发。

步骤5:应用人工经验与因果依赖关系推荐模型相结合建立故障或异常的决策判断模型。该决策判断模型计算公式为:

(5)

步骤6:基于步骤5获得的决策判断模型,建立的敏感故障或缺陷趋势预警分类器。其输入为“果”要素的各祖先节点πj(Xi)(“因”要素)的概率值P(πj(Xi))(根据历史值和预测值的抽样获得),当输出的趋势预警系数H大于指定阈值时,判断为故障或异常Xi告警,否则不告警。

3 案例分析

本文提出的电网监控大数据应用模型构建方法,能够有效替代传统人工经验形成的决策知识,具有长远的发展潜力。不但能够提升电网工作人员对多源多维大数据的认知和分析能力,而且为人工智能在电网的大规模应用打下基础,本章就两种具体实施案例进行简介。

3.1 主变油温故障趋势侦测应用开发案例

由于2017年全国多地出现了高温极端天气,用电量屡创新高(其中,江苏电网最高负荷率先突破1万亿kW),同时,全国电网运行中主变故障异常高发,迫使主变停役次数增多,加剧了区域电网用电紧张程度。因此需要增加主变故障异常趋势侦测功能,改变被动监视的现状,提高主变故障异常趋势的主动发现能力。

根据监控大数据应用模型构建框架,具体实施步骤简述如下。

步骤1:收集全网历史数据和实时数据,构造大数据全数据源X1,X2,,Xm。其中既包含五省五年来主变故障时序数据,作为因果推理模型中的“决策要素”即“果”(对应于图3第Ⅰ部分红色实线圆圈标识);还包括了其他的各类主变故障相关的潜在要素,作为因果推理模型中的“条件要素”即“因”(对应于图3第Ⅰ部分黑色实线圆圈标识)。

步骤2:因果关系挖掘过程,如图3第Ⅱ部分所示,采用了“数据到模型”的技术路线。首先,基于电力大数据中全要素集合,针对主变油温故障“决策”要素,通过相关性检测方法,计算全要素集中与“决策”要素相关系数较高的其他“条件”要素,并筛选出来作为相关要素。相关性检测的部分计算结果如表1所示。

本文基于皮尔逊相关性要素检测阈值设为0.7,其T检验显著性水平阀值设为0.05,根据表1的计算结果,从而筛选出与主变油温具有显著强相关的要素集为{环境温度,降雨,湿度,主变温升,冷却器投入是否故障,直流母线电压}。

表1 部分要素相关性检测结果Table 1 Results of correlative test for partial factors

然后,使用格兰杰因果假设检验方法对已筛选出的强相关要素进行因果关系建模,构建强相关要素间因果关联的有向无环图结构。格兰杰因果检验的显著水平阈值为0.05,计算结果如表2所示。对于通过格兰杰因果检验的,则认为该要素特征是“因”要素特征,会导致“果”要素特征的发生,否则就认为两者无因果逻辑关系。

表2 格兰杰因果检测计算结果Table 2 Calculation results of Granger causal test

步骤3:基于格兰杰因果关系检验得到的有向无环图结构,并根据历史电力大数据统计出来的因果要素间条件概率,构造概率图模型,获得如图3第Ⅲ部分所示的因果概率图模型,因果连线的参数为其因果决策关系系数。

概率图模型描述了降雨、湿度高、主变温升高及环境温度及冷却器故障这五个要素是影响主变故障(“果”要素)发生趋势的关联“祖先”要素。其中,所有故障发生的背景如下。

1)由降雨(取降雨量大于1 mm/h)时导致油温故障因果依赖关系系数为70.27%。

2)由湿度高(湿度大于75%)时导致油温故障因果依赖关系系数为58.97%。

3)环境温度高(温度大于35 ℃)导致油温故障因果依赖关系系数为58.11%。

4)主变温升大于65 ℃导致油温故障因果依赖关系系数为55.56%。

5)冷却器故障导致油温故障因果依赖关系系数为89.74%。

步骤4:由专家组对建立故障或异常的决策判断模型进行参数调整,完成趋势预警模型的因果关系权重设置。其中降雨、湿度高、主变温升高及环境温度及冷却器故障这五个“祖先”要素的评估取值分别为0.15,0.2,0.25,0.15和0.25。趋势预警系数H(Xi)的阈值根据主变油温故障记录的统计和分析设置初始值为0.80,最终完成“主变故障异常侦测”大数据应用功能的开发,其应用界面详见附录A图A1。一旦系统侦测到趋势预警系数H越限,会自动发出油温故障预警,方便监控员对相关要素进行处置、干预,缓解主变故障等异常情况发生、发展的条件和趋势。

3.2 变电站直流系统故障侦测应用开发案例

变电站直流系统的稳定可靠是保障变电站安全运行的决定性条件之一,对电网及设备的安全运行起着十分重要的作用。传统监控模式下,调控中心通过变电站上送的各类告警信号来判断现场直流系统的相关故障。该方法是一种被动的故障告警模式,无法主动甄别直流系统故障异常的发生趋势,做到提前处置。因此需要增加变电站直流系统故障侦测功能,改变传统被动响应的监视模式,提高直流系统故障趋势的主动研判和提前快速处置能力。

通过相关性检测方法,计算并挖掘出与直流系统故障异常相关性的要素集为{降雨,湿度,环境温度,直流母线电压,绝缘水平,蓄电池电压,正极对地电压,负极对地电压}。经格兰杰因果假设检验方法验证了{降雨,湿度高,环境温度高,直流母线电压高,直流母线电压低}这五个“因”要素发生是影响直流故障发生趋势的主要关联要素。根据上述主要关联要素,建立如图2所示的流程,计算步骤与主变油温故障趋势侦测应用相同,可以获得如图4所示的因果概率图模型,图中因果依赖关系系数分别为0.809 1,0.633 9,0.418 2,0.814 8和0.752 8。直流故障“果”要素的五个祖先“因”要素的评估取值分别为0.15,0.3,0.2,0.15和0.2,趋势预警系数的阈值设定为0.721。当概率图模型要素特征根据式(5)计算结果超过阈值时,系统将发出直流故障预警。

图4 变电站直流系统故障趋势概率Fig.4 Fault trend probabilistic of DC system in substation

4 结语

依托监控大数据分析平台,基于智能电网监控运行大数据应用模型构建方法研发的监控运行大数据分析系统,对提高大数据技术在电网深度应用具有重要的工程意义。本文基于数据驱动理论,提出了从多源多维数据中通过相关性分析、因果关系检测,生成电网监控业务大数据概率图模型的构造方法。最后通过人工经验(行业专家)完成因果决策模型的参数筛选,并交付具体监控业务应用进行开发。在工程实施中,基于本文提出的模型,构建了智能电网监控运行大数据分析系统[20-21],已经实际应用于江苏、浙江、天津、四川、辽宁电网的实时监控运行系统。从2017年12月至2018年4月共发布1 130项大数据预警,经核查其中由设备异常引起的960项,已全部完成设备消缺,其余通过加强管理措施完成整改,夯实了电网运行的安全基础。本文提出的方法在实践工作中已经得到了充分验证,推动了监控专业的两个转变:一是监控决策业务由传统的经验驱动模式往大数据模式转变,二是实现了传统数理统计分析模型向更加精准的因果型业务模型转化,可以有效指导电网实时集中监视、控制功能的开发,从而提升电网安全运行的技术支撑水平。

本文提出的方法需要进行多次的概率检验,计算过程较复杂不利于编程实现,后续将研究如何进一步提升计算效率和简化计算流程。

附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx)。

猜你喜欢
格兰杰主变因果关系
玩忽职守型渎职罪中严重不负责任与重大损害后果的因果关系
南大法学(2021年6期)2021-04-19 12:28:02
做完形填空题,需考虑的逻辑关系
帮助犯因果关系刍议
格兰杰因果关系在神经科学领域的发展及缺陷
电子科技(2015年8期)2015-12-18 13:17:56
介入因素对因果关系认定的影响
溪洛渡右岸电站主变冷却控制系统应用分析
榜单
一起涌流引起的主变跳闸事故仿真分析及其改进措施
河南科技(2014年11期)2014-02-27 14:17:14
格兰杰因果关系在复杂网络中的应用*
一起风电场主变低压开关异常的保护动作分析