改进BERT的故障案例智能匹配方法

2022-03-11 03:13崔其会秦佳峰郑文杰
山东电力技术 2022年2期
关键词:标签检修神经网络

杨 祎,崔其会,秦佳峰,郑文杰,乔 木

(1.国网山东省电力公司电力科学研究院,山东 济南 250003;2.国网山东省电力公司,山东 济南 250001)

0 引言

随着信息化的快速发展,电网企业在电网输变电设备故障检修与维护环节积累了大量的电网设备缺陷、故障及检修记录等文本数据[1]。其中包含了设备故障及检修的详细内容,具有很高的专业价值,是故障诊断的宝贵经验[2]。检修人员可从相似案例中获取检修流程、技术、手段、效果的相关知识,对检修工作具有很大参考价值[3-4]。然而,由于其体量大、内容丰富,人工查阅学习周期长,无法直接利用大量的故障案例文本的信息价值。

当前,电网领域的文本匹配技术应用研究成果较少,大多数文本匹配的方法都是通过构建卷积神经网络、长短期记忆网络来构建孪生网络,预测两个故障案例的相似度。但是,卷积神经网络与长短期记忆网络均忽略了海量无标签文本数据中潜在的深层语义信息,无法准确把握每条案例的深层信息,造成对预测上准确率不高并且存在较大的误伤。

本文从大量的电网输变电故障案例数据出发,分析故障案例特点,提取案例过程、案例分析、经验体会、案例名称等关键信息;相似案例推送需要用户先给出一个案例作为输入,模型从众多候选案例中选出与输入案例匹配度高的案例进行推送。传统的文本分类解决的问题是输入一个案例,给出案例属于哪一类,不能直接推送匹配度高的相似案例。本文为实现相似案例推送,将该问题转换为文本中的特征句子对的二分类问题,以改进的预训练语言模型(Bidirectional Encoder Representations from Transformers,BERT)为基础,构建了故障案例文本匹配模型。文本匹配模型能充分提取两个句子的特征并计算出匹配程度,根据匹配程度计算案例之间的相似程度,选择相似度高的进行推送。通过实验和分析,基于改进版的BERT 的故障案例匹配模型所达到的分类准确率能够满足案例推送需求,是具有可行性的解决方法之一。

1 文本匹配概述

文本匹配研究两段文本之间的关系,即可以看作分类问题也可以看作回归问题。自然语言推理、文本相似度计算、问答系统、信息检索等,都可以看作针对不同数据和场景的文本匹配应用。文本匹配[5]一直以来是自然语言处理领域里一个重要又困难的技术,尤其是将其与各专业领域结合应用。近两年自然语言处理技术在互联网、金融、电商等领域发展迅速,且取得了不错的成果,而在电网领域仍处于起步阶段[6]。在国外,谷歌公司将文本匹配应用到搜索引擎[7]中,从亿万数据中检索出用户输入的相关联内容。在国内,一些电商公司将文本匹配应用到智能客服[8-9]中,先对用户输入的问题做相似问题匹配,并对该问题做出回答,大幅度提升工作效率,减少人工客服的投入。随着深度学习的快速发展与计算机算力的不断拓展,文本匹配技术取得了很大的进展。根据神经网络的架构方式可以分为两类,基于表示的模型和基于交互的模型[10-11]。

基于表示的模型一般是采用神经网络分别学习句子对的分布式表示,再拼接两个向量输入到分类器中进行二分类任务。文献[12]描述一种类似潜在语义空间模型,利用两个深度前馈神经网络将句子对投影到潜在空间中的相同长度的低维表示向量中,并利用多层感知机预测相似度。文献[13]和文献[14]使用卷积神经网络和循环神经网络来学习文本的低维语义向量,相比于使用普通的前馈神经网络,能学习句子对的上下文信息。

基于交互的模型关注两个句子之间的语义交互特征,生成语义交互矩阵并提取匹配特征,利用神经网络中的全连接层预测分类结果。文献[15]将句子对的低层文本匹配矩阵作为原始图像,并采用卷积神经网络,逐层抽象,捕获丰富的匹配特征。

在基于交互模型的基础上,并结合语言模型预训练的文本匹配模型近来受到广泛关注。2018年,谷歌公司人工智能团队在国际会议上发表了一篇关于自然语言处理技术的高水平论文,提出了一种新型的语言模型预训练方法BERT[16],该方法在大量文本语料(维基百科)上训练了一个通用的“语言理解”模型。BERT 相比之前的文本表示方法表现得更为出色,因为它是第一个在预训练语言模型上的使用无监督、深度双向编码方法[17]。无监督意味着只需要用纯文本语料来训练,不需要进行额外的人工数据标注;深度双向编码意味着其能提取到更丰富的语义特征及句法特征。BERT中的关键的特征提取方法是Attention机制[18],其拥有许多优点,包括:通过query、key、value的向量点积计算方法捕获词与词之间的语义与句法特征,把模型注意力聚集到关键的词语上;可以灵活的捕捉全局和局部的联系,对长期依赖关系捕捉能力强;可以进行并行计算减少模型训练时间,每一步计算不依赖于上一步的计算结果。

2 电网输变电设备相似故障案例推送模型

2.1 相似故障案例检索

在进行相似故障案例检索过程中,案例库数据量较大,对每一个案例与目标案例进行相似度计算将造成巨大算力浪费,时间浪费。因此,采用以下方法来避免这个问题,其流程如图1 所示。首先根据输入的案例,利用模糊查找技术确定其设备类别,如变压器;然后,从数据样本中找出所有的同类别案例样本,即变压器案例;接着,将输入的故障案例文本与筛选出的样本数据构成句子对,输入到文本匹配模型中计算文本相似度;最后,对文本相似度的结果进行排序,按照从高到低的顺序输出。

图1 相似故障案例检索流程

其中,利用文本匹配模型计算相似度是核心部分,该部分计算出了文本对之间的匹配得分,可以根据得分的高低决定最后的推送结果,以下两节将介绍电网输变电设备相似故障案例推送过程中的文本匹配模型及其训练方法。

2.2 基于改进版BERT的文本匹配模型

BERT是在大量通用文本上训练的语言模型,能将其应用到自然语言处理的各个专业领域,如文本分类、文本匹配、情感分析、阅读理解、命名实体识别、实体关系抽取等。改进版BERT 的文本匹配模型框架如图2 所示,从下至上依次是输入层、嵌入层、编码层、池化层、特征拼接层、预测层。

图2 文本匹配框架

1)输入层。BERT 维护一个字典,该字典涵盖了常见中文字,字典中每个字映射至一个独特的序号(从0至N-1,N为字典的长度)。输入层是根据字典将原始文本,映射到序号列表。原始文本包括两个句子,模型给输入的两个句子添加了分类标识符(Classification,CLS)及句子对分隔标识符(Separator,SEP)。

2)嵌入层。在神经网络中,提取特征往往需要嵌入层。嵌入层实现了字的分布式表示,将每一个字映射为一个多维向量。

3)编码层。编码层是文本匹配模型的关键部分,实现了文本的特征抽取。编码层通过多层双向注意力机制网络,捕获文本的语义、语法信息及文本之间的交互信息,完成了特征提取功能。

4)池化层。池化层是提取两个句子的语义信息,每个句子的每一个字都对应一个向量表示其特征,通过连接一层CNN 网络,再接入Pooling 层,得到两个句子的各自语义信息。

5)特征拼接层。改进版BERT捕获到的特征来自三部分,包括CLS 标识符对应的特征及两个句子通过池化层产生的语义特征。通过将这三个特征向量拼接起来,得到最后的文本匹配模型特征向量。

6)预测层。预测层实现了模型捕获的特征转化为分类结果的功能。输出层主要是一个线性层,输入维度为3 倍的BERT 编码维度,输出维度为分类种类数量。归一化后得输出向量的每一维分别表示输出为该类标签的概率值,取概率值最大的一个标签作为分类结果。

2.3 训练与预测

基于文本匹配模型的相似案例检索排序分为训练阶段与预测阶段两个阶段。训练阶段通过不断调整训练参数减少误差,提高模型准确率;测试阶段使用训练好的模型对候选匹配文本数据进行语义相似度计算。

在训练过程中,本文中的文本匹配模型为一对文本的二分类模型,标签为0 表示两个文本为不相似文本对,标签为1 表示为两个文本为相似文本。模型使用交叉熵函数作为损失函数,计算公式为

式中:yi为样本的标签,可以取值0 或者1;为预测为1的概率,取值为[0,1] ;n为样本数量;L为在该批样本下的损失函数。在预测过程中,需要对候选文本与目标文本进行相似度计算,根据计算结果按照从高到低的顺序对候选文本进行排序。简单的标签为0或者标签为1 只能表示两者是否匹配,而不能捕获两个文本的相似匹配程度。修改基于BERT的文本匹配模型的输出层,取标签为1 的概率值作为输出结果表示两个文本的匹配程度,替代之前的取概率值最大的一个标签作为分类结果。

3 电网输变电故障案例数据

3.1 电网输变电故障案例数据内容

在对电网输变电设备的实际运行、维护及检修工作中,不断地产生和积累故障设备的分析报告文档,报告内容通常包括案例名称、设备类别、单位名称、技术类别、案例经过、案例分析、经验体会等内容。案例经过描述了设备故障的一些基本情况和周边环境信息,案例分析则从理论角度分析故障的发生原因,最后经验体会总结了检修工作中的详细体会和后续设备维护的建议。报告中涵盖了丰富的电网输变电设备故障检修专业指导信息,对检修工作有很大的参考价值,因此电网输变电故障案例匹配工作有着重要的意义。在本文中,选择使用报告文档中的案例名称来作为故障案例匹配的文本数据,原因为:

1)案例名称中覆盖了案例数据的主要关键信息:故障发生地点、检修技术方法、故障类型及故障类别,如“安徽—红外热像检测发现220 kV变压器套管接头发热。”

2)报告其他的内容(如案例经过、案例分析等)虽然也描述了案例的基本关键的信息,但是文本长度过长,均为篇章级内容,长度为1 500~2 000 字之间,不适于用作文本匹配的数据,而案例名称长度在20~40字之间,相比之下更适于文本匹配。

3.2 电网输变电故障案例数据分析原则和数据特点

中文文本数据可以分为通用数据及专业领域数据。目前,国内的研究学者大部分是使用通用数据展开各项任务的研究工作,这主要是因为:中文通用数据较之专业领域数据更加容易获取,各行各业领域较多,无法一开始就将研究开展到所有的领域业务;对通用数据的研究工作应用更加广泛,可以对通用数据的研究工作进行优化从而应用至业务领域,但是数据之间存在偏移、分布不一致的情况,导致效果具有不确定性。

电网输变电故障案例数据研究价值体现在,利用其进行数据分析能给电网领域带来技术提升、减少人力运维,比如输变电设备故障自动判定、相似故障案例推送等,基于电网领域数据并结合人工智能技术能解决许多难点、痛点问题,这些针对性是基于通用数据无法获得较好效果的。文中对基于文本数据的预训练语言模型实现了从通用数据的文本匹配到电网领域的文本匹配的转化,项目通用数据的训练效果有所提升。电网输变电故障案例数据具有以下特点:

1)故障案例数据包含大量的电网输变电设备及其故障类型的名词,具有强烈的领域特性。对文本分词并抽取其中的关键词,最后根据词频分布绘制云图如图3 所示,图中词的字体越大表示该词在数据集中出现的频率越高,能有效展示数据所描述的关键内容,同时也侧面证实了数据具有强烈的领域特性,这使得对领域文本进行分析具有很大的必要性。

图3 词频云图

2)故障案例数据格式分布统一,都是由故障发生地点、检修技术方法、故障类型及故障类别组合而成,易于进行数据分析,构建文本匹配模型。

3)故障案例数据按照设备类型可以分为8类:输电线路、变压器、开关设备、互感器、避雷器、电缆、开关柜和其他设备,每种类型的数据数量如表1所示。

表1 数据类型及数量

4 试验结果与分析

4.1 试验环境

试验环境的硬件和软件配置对试验起着必要的支撑作用,本文试验环境如表2所示。

表2 试验环境配置

4.2 试验数据

为研究本文构建的文本匹配模型在电网输变电故障设备案例匹配中的效果,选取某公司2009—2016年专业电网领域人工编写的电网输变电故障检修报告共1 025 篇。基于故障设备、故障类型及检修手段的种类,人工对检修报告进行评估分类,将类似的检修报告放至一个类中,最后共计有35 类数据,平均每类30条数据。

生成数据集时,采取自动标注的方法:对每个类的数据分别生成一个句子对,其标签为1;对每个类的任意一条数据,在其他类中随机取一条数据生成一个句子对,其标签为0。在本论文中,样本数据有2 000 条,其中标签为1 的样本数据有1 000 条,标签为0的样本数据有1 000条。

4.3 对比试验

为了充分验证改进版BERT 的文本匹配模型的有效性、增强对比性,选择多个广泛研究及应用的深度学习算法,设置了对比试验组:

1)基于CNN 的文本匹配模型。卷积神经网络(CNN)在计算机视觉领域有着广泛的应用,同时研究人员发现将其应用到自然语言处理技术领域也有着很好的效果[19]。

2)基于LSTM的文本匹配模型。长短期记忆网络(LSTM)的产生很好地解决了循环神经网络(Recurrent Neural Network,RNN)中的梯度消失及梯度爆炸问题,同时LSTM在捕获长距离依赖问题上表现也很好[20]。

3)基于双向长短期记忆网络(Bidirectional Long-Short Term Memory,BiLSTM)的文本匹配模型。语言学具有双向性的特点,BiLSTM[21]分别利用LSTM 网络从正向和反向提取语义特征。

4)基于门循环单元网络(Gate Recurrent Unit,GRU)的文本匹配模型。GRU[22]是循环神经网络的一种,是LSTM的精简版,有着更少的参数及门结构,经常在性能上取得与LSTM差不多的效果。

5)基于BERT 的文本匹配模型。使用原生的BERT 作为文本匹配模型,直接使用CLS 标签生成的向量接入分类网络。

6)本文提出的改进版BERT模型。

4.4 参数设置

模型的参数设置对模型的性能产生直接的影响,主要的模型参数包括:学习率、隐藏层大小、隐藏层层数等。各个对比模型的参数大小设置如表3所示。

表3 试验参数设置

4.5 评价指标

本文要解决的是一个句子对的二分类问题,其主要的评价指标包括精确率(Precision)、召回率(Recall)、F1值,其中Precision 及Recall 可以通过混淆矩阵来计算,混淆矩阵如表4 所示。其中,TP表示算法预测值为正类,真实值也是正类的个数;TN表示算法预测值为负类,真实值也是负类的个数;FN表示算法预测值为负类,真实值是正类的个数;FP表示算法预测值为正类,真实值是负类的个数。

表4 混淆矩阵

精确率、召回率及F1值的计算公式如式(2)—式(4)所示。精确率Ppr表示预测值为Positive 且预测正确的比例,召回率Pre表示真实值为Positive预测正确的数据比例。F1值是精确率和召回率的调和平均数。只有当精确率和召回率二者都非常高的时候,它们的调和平均才会高,如果其中之一很低,调和平均就会被拉低接近其中较低的数。

4.6 试验结果分析

CNN、LSTM、BiLSTM、GRU、BERT、改进版BERT模型在电网输变电案例数据集上的评测结果如表5所示,使用的评价指标是F1值,综合考虑精确率和召回率的影响。

表5 电网报告数据集评测结果对比

从试验结果中可以看出,BERT 模型的F1值比CNN 模型、LSTM 模型、BiLSTM 模型及GRU 模型的F1高。BERT 模型的性能优于CNN 模型,这是因为BERT是具有双向的结构,能捕获文本中各个词之间的时序关系,而CNN 模型不具有这种特点,CNN 模型对局部特征提取能力较强,这种机制使得BERT模型能考虑到文本的上下文信息。BERT模型的性能优于LSTM 模型,这是因为相对于LSTM 模型、BiLSTM模型及GRU 模型,BERT 使用的是自注意力机制的编码方式,而LSTM 使用的循环神经网络的编码方式。自注意力机制的编码方式比循环神经网络的编码方式在提取文本中特征的能力强,捕获文本词与词之间的依赖性也更好,模型效果更佳。

同时,改进版BERT 模型相比原生BERT 模型有了2.2%的提升,这证明了本文提出的改进版模型的有效性。改进版BERT模型针对文本匹配任务提出的优化方法,提取BERT输出的两个句子的向量表示作为补充特征,有效提高了文本匹配模型的F1值。

5 结语

研究电网输变电故障设备的相似案例推送,基于推送案例挖掘出电网输变电故障设备的故障原因、检修方法等信息,对后续的检修工作具有重要的辅助决策支持意义。其中,重点研究电网输变电故障设备的相似案例的文本匹配工作,并通过试验结果验证本文模型的可行性和性能优点。

试验结果表明:BERT模型的性能显然比神经网络中常见的CNN 模型及LSTM 模型要好;相比CNN模型使用卷积核提取特征及LSTM 模型使用长短期依赖提取特征,BERT模型使用的注意力机制提取语义特征的可解释行更强;利用基于改进版BERT的文本匹配对下游的分类模型有较大的效果提升。

猜你喜欢
标签检修神经网络
基于递归模糊神经网络的风电平滑控制策略
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
检修
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
基于Q-Learning算法和神经网络的飞艇控制
变电站一次设备检修的意义及具体检修内容分析
电力系统继电保护二次回路的维护与检修
桥梁检修专家——MOOG桥梁检修车掠影