刘可真,林 铮,骆 钊,黄剑湘,杨 涛,雷金辉
(1. 昆明理工大学电力工程学院,云南省昆明市 650500;2. 中国南方电网有限责任公司超高压输电公司昆明局,云南省昆明市 650000;3. 昆明理工大学信息工程与自动化学院,云南省昆明市 650500)
随着世界首个特高压多端直流示范工程——乌东德电站送电广东广西特高压多端直流示范工程全面投运,直流换流站智能化水平大幅提升,同时智能化运维能力面临严峻的挑战。当前,直流换流站的运维数据主要依靠顺序事件记录(sequential events recording,SER)系统记录当前换流站设备运行状态,SER 事件特征类型主要包含:事件发生的时间、产生事件的控制保护主机及其编号、事件等级以及对该事件的内容描述。因此,SER 是运维人员监视和评估换流站设备运行状态最重要的手段之一。
换流站作为特高压交直流电网的重要枢纽之一[1],拥有复杂、智能的高集成度自动化设备[2-3],其众多一、二次设备会产生海量异构、多态的SER 事件[4],尤其在直流输电系统发生状态转换或出现故障时,短时间内会生成近万条事件,特别是直流工程调试、定检期间,单日最大SER 事件条数超过50 万。而SER 事件日志高度依赖人工监盘,运维人员难以在短时间内通过盘查及时分析出海量SER 事件中的关联性SER 事件缺失,进而可能导致电力安全事件发生。国内外换流站已多次出现装置失灵/失电、二次回路接触不良、控制保护程序逻辑异常等问题发生时,运维人员未及时分析出关联性SER 事件的丢失现象,影响换流站稳定运行,如国内某换流站500 kV 3 号主变压器中压侧开关跳闸事件中,运维人员因未细看长达19 页的SER 事件而未察觉开关偷跳事件,导致换流站事故范围扩大。
在电网运维方面,大数据分析技术已有应用[5-8],利用数据挖掘技术分析电力系统运行数据已成为主流的方法[9-11]。文献[12]利用改进频繁模式算法挖掘电力系统故障信息特征并诊断电网故障。文献[13]考虑电压暂降评估问题,采用互信息与改进灰靶理论建立严重度评估框架并评估电压暂降严重度。文献[14]采用模糊Apriori 算法挖掘配电变压器运行状态与故障之间的关联关系,挖掘变压器故障的关键状态量。文献[15]利用基于主元分析的关联规则挖掘火电厂厂级监控信息系统,并针对某具体机组运行状况准确、快速地寻找具有较高相似关联规则的参数。文献[16]采用Apriori 算法挖掘电气设备缺陷特征。但上述文献针均针对设备缺陷或线路故障的单一事件进行关联规则挖掘,无法针对直流换流站海量SER 事件进行建模和典型事件关联数据挖掘。
目前,国内外主流直流控制保护技术厂家仅通过单条SER 事件独立表征换流站一、二次设备的运行状态,识别单条SER 事件下直流系统状态变化情况以及设备异常情况,但不具备对生成海量SER 事件的合理性、关联性进行分析的功能。例如:当换流器发生故障时,保护动作发出紧急停运指令,SER产生“紧急停运”事件,若未伴随产生换流器交流进线断路器“断路器跳闸”“断路器分位”等关联事件,则表明此次保护动作中结果不正确,断路器或所在主机存在问题。SER 数据集中每个SER 事件维度较高,很难通过建立详细的数学模型进行特征提取与数据挖掘,亟须根据SER 事件间关联关系,分析换流站故障下事件组SER 事件的缺失情况。而且,在换流站发生状态转换与故障时,SER 系统会保存所有生成的SER 事件集,无法聚焦特征SER 事件。
针对已有问题,本文提出了一种基于改进关联规则的直流换流站典型运维事件集辅助分析方法。首先,分析原始SER 事件数据特征类型,筛选出SER 事件的主要挖掘特征并降低特征类型维度,以此建立SER 事件模型;然后,利用改进关联规则算法挖掘换流站紧急SER 事件关联伴生事件和换流站相似故障与状态转换的SER 强关联事件组与SER 关联事件,辅助分析SER 事件的合理性,不合理SER 事件也可通过主机定位对应的换流站设备。结合昆柳龙直流工程换流站试运行数据,验证了所提方法的有效性。
SER 系统通过主机采集所有一次、二次设备的数据,记录当前换流站所有设备的运行和动作情况,SER 交互结构可简化为附录A 图A1 所示。
换流站SER 平均每日会产生上十万条事件,如昆柳龙直流工程换流站调试期间单日最大SER 事件条数超过50 万。原始SER 事件数据包含多个特征类型,其中,时间特征类型记录该条事件发生的时间;主机特征类型记录发生该条事件的设备所在的服务器;系统特征类型表示SER 系统使用的冗余系统;等级特征类型判断该条事件发生时的运行状态,分为“正常”“轻微”“报警”和“紧急”4 个等级;报警组特征类型定位产生该条事件的控制设备组或控制软件;事件特征类型为报警组特征类型在当前运行状态下的动作。原始SER 事件数据特征类型如表1所示,SER 等级特征类型划分原则如附录A 表A1所示。
表1 原始SER 事件数据特征Table 1 Characteristics of primary SER event data
关联规则(association rule,AR),也被称为“购物篮分析”,可以发现2 个或多个事物之间的隐藏关系,提供关联机制,甚至预测事物的发生。关联规则作为数据挖掘的重要技术之一,用于挖掘大型数据库中有价值的数据项之间的相互依存性和关联性[17-18]。
评价关联规则的2 个关键指标为支持度和置信度。支持度为一条规则的可能性,置信度表示一条规则的可信程度。定义用于关联规则挖掘的项目集是样本集的子集,所有样本构成样本数据库D,样本数据库、样本集和项目集的关系如图1 所示。
图1 样本数据库、样本集和项目集的关系Fig.1 Relationship among sample database,sample set and item set
假设项目集A与项目集B是样本集的2 个子集,项目集A与项目集B 的关联规则表示为:
项目集A的支持度表示项目集A占数据库D中样本集总数的百分比,计算项目集A的支持度的表达式为:
式中:Asup为项目集A的支持度;Acount为样本集中包含A的样本数;N为数据库D 中样本集的总数。
项目集A与项目集B的关联规则支持度公式如下所示:
式中:(A⇒B)sup为项目集A与项目集B的关联规则支持度;(A∪B)count为样本集中包含A与B的样本数。
项目集A与项目集B的关联规则的置信度公式如下所示:
式中:(A⇒B)con为项目集A与项目集B的关联规则的置信度。
Apriori 算法和FP-Growth 算法是常见的关联规则算法。Apriori 算法挖掘需要扫描数据库多次且操作过程中产生大量的候选集,导致时间复杂度、空间复杂度过高[19];FP-Growth 算法仅需对数据集扫描2 次,且不生产候选集,有效地解决了Apriori 算法的问题,即需要在每个周期中重复扫描数据库,需要较长的时间处理大量数据。
FP-Growth 算法是文献[20]于2000 年提出的关联分析算法。FP-Growth 算法为数据结构压缩数据存储构建频繁模式树(frequent pattern-tree,FPTree),树形结构保留了有关候选项集的关系信息,通过递归比较FP-Tree 格式化树结构和条件模式来挖掘频繁项集。
FP-Growth 算法挖掘频繁项集包括2 个步骤:建立频繁模式树和挖掘频繁项集。采用FP-Growth算法挖掘频繁项集的具体流程如图2 所示。
图2 采用FP-Growth 算法挖掘频繁项集流程图Fig.2 Flow chart of mining frequent item sets using FP-Growth algorithm
采用事务性数据库压缩(DC)技术改进关联规则算法,可以动态地删减事件集中与挖掘无关事件。由先验原理(priori principle,PP)可知,如果一个项集是频繁的,则其所有子集一定也是频繁的;再依据反单调性,如果一个项集是非频繁的,则其所有超集也一定是非频繁的。因此,在生成候选项目集时,采用DC 技术动态剔除数据库中不满足支持度的项目。
考虑到昆柳龙直流工程换流站正式投入运行,SER 运行时间不断增加,SER 数据集必将成倍数增长,采用DC 技术的规则关联算法可以在数据挖掘中动态删减无关的数据,减小数据挖掘时间,利于后续海量SER 事件的挖掘。
鉴于数据原始SER 事件数据特征类型维数较高,不利于关联规则挖掘,需要降低模型维度,本文首先考虑换流站发生保护动作时等级较高的SER事件,故仅选取等级为“轻微”“报警”和“紧急”的等级特征类型;其次,在时间的处理上,直流输电系统发生状态转换操作或故障保护动作后120 s,相关一、二次设备动作基本完成,故设置关联事件最大时间差为120 s;最后,由于SER 冗余系统分为A/B 两套,当换流站发生故障与状态转换时,A/B 两套冗余系统会同时产生相同的SER 事件集,挖掘事件仅选用一套冗余系统结果即可,故挖掘SER 事件与冗余系统无关,所以模型不考虑挖掘系统特征类型。
本文以减维后的事件、主机和数据特征挖掘,建立换流站SER 事件三维模型M:
式中:T、H和P分别为换流站SER 事件的时间索引维度、空间索引维度和挖掘特征维度;P1和P2分别为换流站SER 事件的报警组特征类型和事件特征类型。
当换流站发生状态转换或故障时,需重点关注等级为“紧急”的事件。本文考虑事件集诊断依据之一,即挖掘SER 事件集中出现某个等级为“紧急”事件时,其他SER 紧急事件同时出现的可能性,依据频繁项集的支持度分析该“紧急”事件的换流站紧急SER 事件关联伴生事件,挖掘换流站紧急SER 事件伴生事件的流程如图3 所示。图中,DC-FP-Growth为采用DC 技术改进的FP-Growth 算法。
图3 换流站紧急SER 事件关联伴生事件挖掘流程图Fig.3 Flow chart of mining associated events of emergency SER events in converter station
通过改进关联规则挖掘结果,系统发现目标紧急事件,依靠该目标紧急事件的关联伴生事件判断目标紧急SER 事件前后事件是否满足,从而辅助运维诊断紧急SER 事件集的合理性。
当换流站发生相同或相似故障或状态转换时,换流站一、二次设备也应该执行相同或相似的动作组,生成的SER 事件组需包含相应的特征SER 事件。本文考虑事件集诊断的另一依据,即利用原始事件集及被识别分类的状态转换与故障,挖掘换流站发生相同或相似故障时的SER 事件集数据。
定义支持度最大的事件集为SER 强关联事件组,其他关联规则置信度大于0.5 的事件作为SER关联事件。通过分析原始数据集关联规则,挖掘SER 强关联事件组与SER 关联事件。挖掘换流站SER 强关联事件组与SER 关联事件流程如附录A图A2 所示。
当控制设备执行直流输电系统状态转换指令或保护设备检测到直流输电系统故障时,诊断系统将立即把发生故障后120 s 内的所有SER 事件形成判断事件集。
1)通过筛选判断事件集中所有等级为“紧急”事件,并诊断每个“紧急”事件对应的SER 事件关联伴生事件是否存在,如果某个“紧急”事件对应的SER事件关联伴生事件不存在,则及时通知运维人员不存在此紧急事件的关联伴生事件及其支持度。
2)利用换流站类似故障SER 强关联事件组与SER 关联事件,判断该故障或状态转换下换流站是否存在不合理SER 事件出现以及高支持度SER 事件缺失的情况。
通过2.2 节与2.3 节挖掘生成的诊断依据,如果发现紧急SER 事件关联伴生事件缺失,或者该故障或状态转换下换流站存在不合理SER 事件出现以及高支持度SER 事件缺失,则须及时通过主机定位故障发生位置,通过报警组信息排查异常设备;新事件集满足故障支持项,但不满足所有故障支撑事件,则发送不满足情况至控制中心,人工判断无误则将此项集更新至原始数据库,反之则排查非合理因素;新事件集满足故障支持项且满足所有故障支撑事件,则直接将此新事件集更新至历史SER 事件集,具体过程如图4 所示。
图4 SER 事件集诊断合理性判断方法Fig.4 Rationality judgment method of SER event set diagnosis
本文采用配置Windows 10 操作系统、8 GB RAM、Intel Core i3-9100F CPU@3.60 GHz CPU 和NVIDIA GeForce GTX 1650 GPU 的实验环境,使用Python3.8 语言开发编写FP-Growth、DC-FPGrowth、Apriori 以 及 基 于DC 技 术 改 进 的Apriori(DC-Apriori)算法。
算例数据来源于昆柳龙直流工程换流站数据采集与监控(SCADA)系统保存与处理的2020 年10 月7 日 至11 月10 日测试期间SER 事件集,其中试验日志记录了170 次换流站试验故障及状态转换,对SER 事件集中所有SER 事件按挖掘特征维度进行编号,建立的SER 事件模型如图5 所示。
图5 SER 事件模型Fig.5 Model of SER events
图5 中,空间索引维度的坐标表示采集事件的主机,时间索引维度的坐标表示各数据事件时间与SER 初始时间戳的时间差,本文时间索引维度的初始时间戳为2020-10-07T10:30:00:511,挖掘特征维度为该SER 事件所对应的事件编号。
本文依靠昆柳龙直流工程换流站调试期间所有SER 事件为数据集,筛选出其中所有等级为“轻微”“报警”和“紧急”的SER 事件,建立换流站SER 事件三维模型,且选取报警组特征类型和事件特征类型作为挖掘维度进行编号,选取170 次换流站试验故障及状态转换后120 s 内的SER 事件生成170 个事件集,其每个试验故障及状态转换分类结果如附录A 图A3 所 示。
1)紧急SER 事件关联伴生事件
挖掘每个事件集中出现某个等级为“紧急”事件时,其他SER 事件同时出现的可能性,依据频繁项集的支持度分析该“紧急”事件的换流站紧急SER事件关联伴生事件。通过DC-FP-Growth 算法挖掘事件集,并设置最小支持度阈值为0.5,最小置信度阈值为0.7,部分紧急事件挖掘结果如附录A 表A2所示。
2)相似故障或状态转换的SER 强关联事件组与SER 关联事件
由分类结果可得,170 次事件集中,有16 个换流站发生逆变侧阀区出口短路故障相似故障,选取对应的16 个事件集,在预处理后采用DC-FP-Growth算法,设置最小支持度为0.5,设置最小置信度为0.5,挖掘逆变侧阀区出口短路换流站SER 强关联事件组与SER 关联事件如附录A 表A3 所示。
其他部分分类的相似故障或状态转换的SER强关联事件组与SER 关联事件见附录A 表A4。
以某次整流侧线路极1 出线金属性接地为例,其保护发现故障后120 s 内的SER 事件集,同时去除非正常事件,具体如附录A 表A5 所示。发现事件4 为紧急事件,故调用该事件的相关关联伴生事件,发现事件2、3、5、9 均满足事件序号4 的关联伴生事件,满足诊断依据①。
同时,由于该故障分类至整流侧直流线路出线(金属性、高阻)接地故障,调出其SER 强关联事件组与SER 关联事件,如附录A 表A6 所示。
首先,对比换流站相似故障与状态转换的SER强关联事件组,可见事件1、2、3、4、6 满足整流侧线路出线接地的SER 强关联事件组;其次,对比换流站相似故障与状态转换的SER 关联事件,发现事件7、9、11 满足整流侧线路出线接地的SER 关联事件。说明本次发生整流侧线路极1 出线金属性接地故障,SER 事件集未见不合理SER 事件,满足诊断依据②。由于同时满足诊断依据①与诊断依据②,可以将此次事件集加入历史SER 事件集。
如果本次事件集出现关联伴生事件缺失的情况或出现紧急事件无匹配的情况,需及时通知运维人员,并通过空间索引维度寻找相关缺失事件所对应的设备,检查相关事件缺失原因。如果部分事件不满足换流站相似故障与状态转换的SER 强关联事件组,也需执行上述操作,但运维人员可以根据置信度的大小判断故障支撑事件是否有误。
为了进一步验证DC-FP-Growth 算法相对于其他关联规则算法的优势,在不同样本数下,对改进算法与Apriori、DC-Apriori、FP-Growth 等算法的挖掘时间进行对比分析,结果如图6 所示。
图6 改进算法与常规算法计算耗时Fig.6 Calculation time of improved algorithm and conventional algorithms
由图6 可见,当数据样本数在1 000 以下时,改进算法与其他算法计算耗时相差不大;当数据样本数达到2 832 条时,DC-FP-Growth 算法耗时比Apriori 快5.65 s,比FP-Growth 快0.41 s;当 数 据样本达到11 335 条时,DC-FP-Growth 算法耗时比Apriori 算 法 快37.52 s,比FP-Growth 快0.98 s。可见,随着数据库不断增大,基于DC 技术改进FPGrowth 算法耗时用时最短,表现出最佳的挖掘能力,而随着昆柳龙换流站正式投入运行,SER 数据集必将呈多倍增长,利用DC-FP-Growth 算法可以快速挖掘隐藏在SER 事件集中的关联规则,便于运维人员及时发现并诊断SER 事件集。
同时,针对文中提及的换流站故障对比了在数据处理时序下SER 事件的条数,如附录A 图A4 所示。由于在SER 建模中,不考虑冗余系统的差异且仅考虑等级为非“正常”的SER 事件,故在建模后显著减少了SER 事件条数,在进行数据挖掘后,聚焦该故障以及相似故障的共性SER 事件,再次减少SER 事件条数,达到了特征SER 事件选取的作用。
同时,虽选取挖掘最小支持度为0.5,但由于选取最大支持度频繁项集为SER 强关联事件组,绝大部分挖掘结果选取的频繁项集支持度都在100%,即相似故障下该SER 强关联事件组必然会发生。考虑到昆柳龙直流工程换流站调试期间,相似故障及状态转换试验发生次数较少、分类较宽泛,故设置最小置信度为0.5,即在必然出现SER 强关联事件组,SER 关联事件出现的概率为50%,也就是在SER 强关联事件组约束下SER 关联事件有50%的概率出现。
随着后续事件集的积累与故障分类的精确化,可以不断提高最小支持度与最小置信度的设置值,提高换流站紧急SER 事件关联伴生事件、换流站相似故障与状态转换的SER 强关联事件组与SER 关联事件的准确性,辅助运维人员诊断SER 事件集合理情况。
针对目前尚无辅助诊断SER 事件集的高效方法,本文提出一种基于改进关联规则的直流换流站典型运维事件集诊断方法,得到以下结论:
1)采用换流站SER 事件的时间、空间、挖掘特征维度模型可以有效地降低SER 事件维度,便于从海量SER 数据库中提取关键SER 事件,发现缺失的SER 事件并定位对应的设备;
2)DC-FP-Growth 算法能够有效挖掘换流站紧急SER 事件关联伴生事件、SER 强关联事件组与SER 关联事件,并具有较快的挖掘计算速度,有效精简SER 事件条数;
3)定性辅助诊断SER 事件集合理性,判别直流保护动作结果正确性,为运维人员及时发现保护动作过程中存在缺失SER 事件提供参考。
本文仅考虑昆柳龙直流工程试运行期间的SER 数据集和被换流站保护设备所识别的故障与状态转换。随着昆柳龙直流工程换流站正式投入运行,必将积累更多的SER 数据,识别的故障与状态转换更加具体,分类更加精确。今后将继续深入研究SER,进一步完善直流工程换流站SER 事件的自动诊断功能,完成换流站数字孪生与SER 的深度耦合。
本文在写作过程中得到中国南方电网有限责任公司超高压输电公司昆明局和云南电网有限责任公司科技项目(YNKJXM20180736)的帮助,特此感谢!
附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx),扫英文摘要后二维码可以阅读网络全文。