基于人工智能技术的告警信息规范化研究与应用

2020-06-22 11:26覃禹铭包义钊

通信电源技术 2020年7期

覃禹铭，包义钊

（贵州电网有限责任公司遵义供电局，贵州遵义 563000）

0 引言

“调控一体化”建设是将网区所辖的变电站通过调度自动化系统实现厂站全面的、规范的中心监视和远程控制，对电网进行全面、科学管理，最大限度地达到减员增效的效果。

“一体化”的高水平建设离不开高质量的基础数据作为支撑。电网运行系统的基础数据取决于厂站远传数据，这些数据的全面与否、规范与否至关重要。由于种种原因，变电站远动上送的站内监测信息不能满足“一体化”的规范要求，存在不全面、不规范等问题。对于这些厂站，调度自动化系统的建设及运维人员需要核查问题，梳理整改。对于一个地市级电网的厂站规模而言，核查的工作量大，同时需要调度、运行、保护、自动化等多方面专业知识的支持。鉴于遥信、遥测信息在电力系统中的重要地位，信号的命名、取舍均由具有专业知识及丰富经验的人把关。对于经验不足的人员而言，这是一个难点及痛点。显然，此项工作具有繁琐性、复杂性和专业性等。目前，在变电站信息梳理工作方面，未见相关论文进行研究。本文针对性地设计了基于Python的告警信息梳理平台，利用人工智能相关技术创新性地解决了上述问题。

1 需求分析

1.1 人工梳理概况

告警信息梳理是以规范性文件为依据，详细约束了不同电压等级的厂站下属主变高中低、线路、容抗器等间隔遥测、遥信的命名规范和信息完整性要求，同时对智能站的特殊设备提出了全面性、规范性的要求。

信息梳理的对象是辖区内纳入“调控一体化”的所有变电站。依照规范化文件制作各厂站规范化告警信息表，然后按照规范的要求核查各间隔的遥信遥测是否符合信号全面性、命名规范性的要求并进行相应的标注，最后汇总全站遥信遥测存在的问题形成报告，提交相关专业安排整改。

调度自动化主站工作人员梳理并汇总形成报告的难点及重复性工作主要包含以下内容。

（1）按照规范化文件核实变电站的所有间隔，并按文件形成全站应该具有的信息表，完整、规范地涵盖该站按照文件要求需要上送的所有遥信遥测；

（2）根据信息表罗列的间隔，将主站点表的遥测、遥信信息按间隔列表分类；

（3）根据信息表，逐间隔从主站点表中查找该间隔要求的信息，并标注处理已知的问题，以规范要求的遥信、遥测的描述中包含的关键词来检索所属间隔的主站点表；

（4）按照格式汇总报告该站存在的问题。

除了上述的重复性行为，该项工作更大的挑战是对梳理人员的电力系统知识水平的要求。

1.2 初步设计

结合调度自动化主站系统的特点，设计了如下流程。

（1）根据导出的电网间隔模型文件，自动生成规范要求的全站标准信息表；

（2）导入规范点表和主站导出的变电站点表，逐间隔查找核实主站点表情况；

（3）全站核查结果汇总并生成报告。

2 软件设计

2.1 整体架构

Python语言作为目前广泛应用的计算机语言，在自然语言处理、人工智能等领域的运用尤其亮眼。

根据抽象出来的流程，解决信息梳理工作繁复性主要在步骤上，信息的整理标注工作上尤其耗时，这些工作通过计算机处理是简单的，棘手的问题在于梳理工作中对专业知识的依赖。

自然语言识别技术最初适用于互联网搜索引擎搜索结果排序，利用匹配程度进行搜索结果排序，使用户优先浏览匹配较高的搜索结果。在告警信息核查过程中，以规范化告警词条进行全站信息检索也是一种搜索动作，但因未能进行匹配程度的排序，导致需要在大量告警描述中寻找最优结果。因此，使用自然语言识别技术不仅能更容易匹配检索信息，还可以通过计算机判断自动选取匹配工作。

规范化告警信息中存在某些告警信息某词义相似的情况，如“重合闸动作”“重合闸保护动作”，或相近的情况如“装置闭锁”“装置故障”。该信息在处理过程中需要大量的调度运行、保护自动化等专业知识支持，对于此类信息的判断是一个难点。针对这一问题，本文在软件设计中提出了机器学习的概念。程序在协助工作人员梳理过程中，记录经验丰富的梳理人员的梳理结果。当经验不足的梳理人员在处理相同或者相似问题时，系统通过调取经验匹配的方式自动给出建议。若有其他选项，在经过经验丰富的梳理人员的许可下，可以将其填写到匹配结果。这一流程本质上是一个半监督的机器学习。

告警信息梳理工作一般多人同时参与。为了能够实时共享主站点表、经验库、标准信息表、汇总报告等文件及配置，设计了一套分布式梳理、集中式数据共享的告警信息梳理软件，以满足日常厂站告警信息信息规范化核查工作。通过使用机器学习和自然语言识别等技术，减轻工作人员工作压力和技术需求，逐步形成半监督自动化处理流程，从而为告警信息识别提供相应的算法、经验及识别功能框架。整体结构如图1所示。

图1 软件整体建构图

2.2 处理流程

该软件采用Python编译，数据库部分采用PostgreSQL数据库。主程序部分包含规范文件预处理模块、数据导入模块和数据导出模块，其中数据处理按告警词条类型调用处理子程序。依照现有电网模型结构和告警信息特点，将整体厂站遥信信息部分划分为主变、线路、母线及其他4种类型。处理流程如图2所示。软件采用PyQT5设计交互界面（如图3所示），使用Listwidget、Tablewidget等控件满足信息选取时的匹配操作。

图2 软件流程图

3 算法及告警研究

3.1 基于自然语言处理的告警信息描述处理

首先比对告警信息规范化描述与实际告警描述，宜采用TF-IDF（Term Frequency-Inverse Document Frequency）计算进行词条的相似度计算。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，互联网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜索结果中出现的顺序。

词频（Term Frequency，TF）指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数（Term Count）的归一化，以防止它偏向长的文件（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否）。对于在某一特定文件里的词语ti来说，它的重要性可表示为：

图3 软件交互主界面

其中，ni,j是该词在文件dj中出现的次数，分母是在文件dj中所有字词的出现次数之和。

逆向文件频率（Inverse Document Frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到，即：

TF-IDF实际上是在词频TF的基础上加入逆文本IDF的信息，即：

通过上述计算方法，将两个待比较的词条逐字分解成数组，计算出TF-IDF矩阵，然后计算二者的交集大小和并集大小，作商得出告警规范化描述与实际描述的匹配度。

例如，计算“#2主变高压侧过负荷告警”规范化告警描述过程中与实际厂站告警描述的匹配结果，如表1所示。

表1 匹配值示意表

3.2 使用机器学习技术

机器学习是人工智能的一个分支，该领域的主要研究方向为如何在经验学习中改善具体算法的性能。通过记录数据或以往的经验，优化计算机程序或计算机算法的性能。为避免在处理过程中出现重复匹配过程，提高匹配精度，软件在半监督处理过程中记录人工告警信息匹配的选取过程，将该处理经验存入经验学习库，在下次描述词条处理过程中调取相关经验处理信息，并使用经验与词条进行TF-IDF匹配计算。由于在实际运算过程中可能会存在无经验情况，此时采用关键字匹配计算进行人工匹配工作，确保人工确认数量达到可控制范围。机器学习处理流程，如图4所示。

图4 机器学习处理流程图

3.3 多线程运用技术

单规范化词条与1 000个厂站实际描述匹配值计算时间为5.3 s（常规工作站配置）。为解决处理时长过长的问题，软件将所有待匹配的实际描述组按处理进程数随机均分，实现进程之间的负载均衡。实际采用8进程进行同时处理时，单规范词条处理时长降至1.4 s。

3.4 匹配阈值研究

解决告警描述匹配阈值的选取问题，需设定训练集进行匹配阈值的匹配验证，控制整体算法在匹配过程中的精确程度，减少不必要的计算量。设定1 000个规范化描述与实际描述匹配的训练集，阈值区间取值为0.7～1，以0.1为步长，最低选取匹配阈值如图5所示。

统计结果中，阈值等于1的情况不存在参考价值，故剔除后按照95%的准确率进行重统计计算。满足准确率95%时，阈值选取范围为0.82。配合经验处理后，可适当提高0.02～0.05，提高识别精度。

4 结论

图5 阈值选取分布曲线

本文将人工智能领域中自然语言识别技术、机器学习技术应用于变电站信息核查工作，结合工作的特点，创新性地建立了遥信信号命名经验库，并将其应用于核查算法，解决了梳理工作依赖于人员经验的问题。在业务流程上，本文构建了分布式处理平台，应用经验数据库共享、多线程技术，简化了梳理的繁琐流程，将人从繁复的操作中解放出来，使其专注于信号梳理，显著提高了梳理工作的效率和准确性，同时为今后告警信息智能化识别、处理、优化提供了重要依据。