基于正则表达式和Jaccard系数的智能变电站录波通道同源匹配

2024-01-25 06:11:02王冠南郭丽娟彭曙蓉陈慧霞黄浩宇
浙江电力 2024年1期
关键词:录波分词同源

王冠南,郭丽娟,彭曙蓉,陈慧霞,黄浩宇

(1. 国网江西省电力有限公司电力科学研究院,南昌 330096;2. 长沙理工大学 电气与信息工程学院,长沙 410114)

0 引言

智能变电站是智能电网中的重要节点,具有高可靠性、自诊断和自治功能,为电网的安全稳定运行提供了数据支持[1-3]。故障录波装置可以自动记录因系统大扰动引起的系统电压、电流等电气量的变化情况[4-6],是智能变电站内的重要设备。220 kV 及以上电压等级的智能变电站中采用双套录波装置进行录波。电力系统保护专业人员通过对比、分析双套录波文件中记录的波形情况,可以实现电力系统异常情况的预警,有利于电力系统的安全稳定运行,前提是双套录波文件中的各录波通道已经按照各自所监测的电力系统一次设备完成了同源匹配工作。大型智能变电站内设备数量多,相应的录波通道数量也很多。以220 kV智能变电站为例,站内双套录波通道数目平均为60对左右,一些220 kV智能变电站内甚至有多达120对双套录波通道,这还不包括站内的备用录波通道以及开关量通道等。全国现有智能变电站的数量也很多,以江西省为例,现有220 kV 及以上电压等级智能变电站约90 座,而这仅仅只是经济发达省份一个市拥有的220 kV 智能变电站数量。录波通道数量众多,人工进行通道匹配时很容易发生同源通道匹配错误。因此,有必要提出一种基于智能算法的智能变电站录波通道同源匹配方法。

目前,针对智能变电站录波通道同源匹配问题尚缺乏深入研究,工程上主要采用人工匹配进行这项工作。因为录波通道数量多、通道命名不规范且通道排列的顺序不统一,人工匹配难度大、容易出错。文献[7]采用配置模板的方式识别通道,进而实现通道的归一化;该方法需要对不同设备厂家的命名方式进行归纳汇总,同时需要归纳不同命名格式的信号,操作较为复杂。分析录波通道名称文本发现,通道名称为短文本类型,固定包含了“电压等级和间隔名称”等关键信息,通过分析、对比各通道的关键信息就可以很好地区分出不同间隔。因此,可以将录波通道同源匹配问题转化为短文本匹配问题。

本文提出一种基于正则表达式和Jaccard 相似系数的智能变电站录波通道同源匹配方法。正则表达式可以规范录波通道的命名形式,Jaccard 相似系数可以准确计算出录波通道名称文本间的相似度。首先,对原始通道名称文本数据进行预处理,使用正则表达式删除录波通道名称文本中的冗余信息,同时统一同类间隔的表达形式;然后,对文本进行分词和去停用词操作,为后续的相似度计算工作做铺垫;最后,使用Jaccard 相似系数计算录波通道名称间的相似度,根据相似度计算结果进行录波通道同源匹配。使用实际电网中的录波文件数据进行仿真验证,该方法能够简单、有效地解决智能变电站录波通道同源匹配问题,同时多个智能变电站中均能达到比较好的匹配效果,为智能变电站录波通道同源匹配提供了新的思路。

1 文本匹配

文本匹配问题是自然语言理解的核心问题,涉及信息检索、自动问答、机器翻译、对话系统、复述问题等多个领域[8]。常见的文本匹配算法可以分为传统文本匹配算法和基于深度学习的文本匹配算法。

1.1 传统文本匹配算法

传统文本匹配算法重点考察文本的字与字、词与词之间的一一对应关系,能够较好地发现文本间的表层关联关系。常见的传统文本匹配方法包括Jaccard 相似系数[9-10]、Levenshtein 编辑距离[11]、Simhash相似度[12]、BM25(Okapi BM25)模型[13]、VSM(向量空间模型)算法[14]、BERT(基于Transformer的双向编码器表征)模型等。

Jaccard 相似系数由Paul Jaccard[15]提出,用于分析样本集之间的相似性,定义为样本的交集与样本的并集之比。给定样本集合A和样本集合B,则它们的Jaccard相似系数可由式(1)计算得到。规定两个空集样本之间的Jaccard相似系数为1。Jaccard 系数值越大,则样本集合间的相似度越高。使用Jaccard 相似系数进行文本匹配,只需要考虑文本间词语的共现情况。两个文本共有词数量与所有词语数量的比值即为两个文本的Jaccard 相似度。文本a 与文本b 之间的Jaccard 相似度计算如式(2)所示。Jaccard相似系数算法复杂度低,不需要考虑相似度计算模型的训练问题。

式中:Same(a,b)为文本a与文本b的共有词数量;Total(a,b)为文本a与文本b的词语总数。

Simhash 相似度是一种局部敏感的散列函数。对于两个局部不同的相似文本,经SHA-1(安全散列算法1)处理后得到两个完全不同的散列值,而Simhash 算法可以得到两个相似的散列值[16],体现了Simhash 算法的局部敏感特征。Simhash 计算文本相似度应用的是降维技术,将一个高维向量映射为一个低维向量,然后通过计算两个低维向量的汉明距离来判断两个文本是否相似。汉明距离越大,表示文本间的相似度越低。

Levenshtein 距离计算的是两个字符串之间的编辑距离,即由一个字符串得到另一个字符串所需要的最少编辑次数。编辑操作包括替换、插入和删除字符。编辑距离越小,表示两个字符串间的相似度越大。

综合上述三种传统文本匹配算法的特征可以发现,传统文本匹配算法在挖掘文本表层特征时表现良好,匹配速度快,无需对模型进行预训练,但是在挖掘文本的深层语义特征方面表现不佳。

1.2 基于深度学习的文本匹配算法

基于深度学习的文本匹配算法可以自动从原始文本数据中抽取特征,当使用的训练数据不同时,实现的任务也不一样。与传统文本匹配算法相比,基于深度学习的文本匹配算法更加灵活,泛化能力也更强,能够较好地挖掘文本的深层语义。同时,基于深度学习的文本匹配模型结合词向量化[17]技术,很好地解决了词语匹配的多元性问题。文献[18]利用Word2vec(词向量化)模型实现字符词向量的分布式表达,然后采用TextCNN(文本卷积神经网络)模型进行文本语义挖掘和分类,最终实现录波器的自配置。文献[19]从深度语义、词语共现和最大匹配度三个层面提取文本特征,结合孪生网络,运用双向长短期记忆网络、卷积神经网络和密集连接网络构建文本匹配模型,改善了农业提问数据相似性判断性能。

基于深度学习的文本匹配算法适用于涉及文本语义分析的匹配问题,在挖掘文本深层含义时表现良好。使用基于深度学习的文本匹配算法首先需要建立数据的训练集,并根据训练集学习出对应文本数据的匹配模型。基于深度学习的文本匹配算法能够灵活地根据待匹配数据的特征训练模型,可用于各种文本数据的匹配工作。

2 基于正则表达式和Jaccard系数的录波通道匹配模型

考虑各种文本匹配算法的特征以及智能变电站录波通道数据本身的特点,寻找适合智能变电站录波通道数据特征的匹配算法。

2.1 录波通道数据特征分析

录波通道数据由配置文件(.CFG 扩展名)给出,各智能变电站均配有双套录波装置,给出双套录波文件。一般来说,对于一座智能变电站内的某个一次设备,在双套录波文件中均存在对应该设备的录波通道,双套录波文件中的各录波通道原则上是一一对应的。

按照相关规范,录波通道名称中均包含有电压等级、间隔名称等关键信息,且这些关键信息不需要深度挖掘其语义特征,能够仅从词语的表层含义上将其区分开来。表1列举了部分典型的同源录波通道名称。

表1 录波通道名称示例Table 1 Examples of recording channel names

由表1中的示例可知,可以从文本表层含义的差异上进行A、B双套录波文件中的录波通道同源匹配工作,不需要考虑文本的深层语义特征。同时,对于不同的智能变电站,录波通道名称中都存在其独有的关键词,例如当地的地名。若使用深度学习的文本匹配算法,为了得到更为准确的匹配结果,则需要在每座智能变电站内选择一些录波通道数据组成训练集,且需要先对这些数据进行人工同源匹配。这将增加录波通道同源匹配工作的前期工作量和复杂度,而且训练得到的模型很容易发生过拟合,无法正确匹配录波通道。因此,考虑选择匹配速度更快、复杂度更低、前期准备工作相对更少的Jaccard 相似系数算法进行录波通道同源匹配。

智能变电站录波通道的命名仅要求包含电压等级和间隔名称,而没有具体的标准形式,因此工作人员往往会根据自己的习惯对录波通道进行命名,导致录波通道名称在表达形式上不一致。例如:部分录波通道名称中加入了设备的编号信息,或是存在无实际含义的编号信息;由于输入法不同,部分录波通道在表示母线间隔时出现了罗马数字和英文字母混用的情况;部分录波通道对主变间隔的描述存在多种形式。具体的同源录波通道特殊情况示例见表2。

表2 同源录波通道名称中的特殊情况示例Table 2 Examples of special cases in homologous recording channel names

Jaccard 相似系数在计算文本相似度时,考虑的是两个文本间共现词在总词汇中的占比,而不尽相同的编号信息以及同类间隔的不同表达形式,都会影响共现词在总词汇中的占比。因此,需要统一录波通道名称的表达形式。针对录波通道名称中出现的特殊情况,引入正则表达式进行处理。

2.2 正则表达式

正则表达式又称规则表达式,由一串具有特定意义的字符组成,表示某种特定的匹配规则。正则表达式的字符分为普通字符和特殊字符,特殊字符又称元字符,常见的元字符如表3[20]所示。

表3 常见的正则表达式元字符Table 3 Common regular expression metacharacters

正则表达式能够实现数据的匹配、替换和提取功能[21]。将设定的正则表达式与待匹配的文本进行比较,查找出文本中与设定的正则表达式内容一致的信息,即匹配功能。根据匹配的结果,可以提取出相应的文本信息或者是将其替换成另外的文本信息。在使用正则表达式时,只需要将希望匹配的内容正确写入到正则表达式中即可。

归纳录波通道名称文本中的特殊情况,以正则表达式的形式体现出来。使用写出的正则表达式对录波通道名称文本进行匹配、替换,即可统一录波通道名称的表达形式,降低编号信息和同类间隔的不同表达形式对录波通道名称文本相似度计算的不利影响。

2.3 录波通道匹配模型

根据2.1 节分析的录波通道名称文本的特征,提出智能变电站双套录波通道同源匹配算法。首先,使用正则表达式处理双套录波通道名称原始数据,降低录波通道名称中不规范的表达形式对后续文本相似度计算的不利影响。然后使用jieba分词算法对录波通道名称进行分词,分词过程中使用自定义的分词词典,以更好地划分录波通道名称中的电气领域专有名词以及一些特殊地名。在jieba 分词结果的基础上,使用自定义的停用词表删去其中的冗余信息,提高相似度计算的准确度。正则表达式处理过程、jieba 分词过程和去停用词过程统称为录波通道名称数据的预处理过程。

将经过预处理的录波通道名称文本数据作为输入,使用Jaccard 相似系数计算双套录波通道名称文本间的相似度,输出相似度最大的匹配结果。综上,基于正则表达式和Jaccard 相似系数的智能变电站录波通道同源匹配算法的流程如图1所示。

图1 智能变电站录波通道同源匹配算法流程Fig.1 Flow chart of homologous matching algorithm for recording channels in the substation

3 算例分析

本文采用的实验数据是来自中国某省70 座智能变电站的双套录波文件,共计4 416对同源录波通道。每座智能变电站均包含A、B 两套录波文件,每套录波文件中的录波通道分为模拟量通道和开关量通道,原则上这些录波通道都存在一一对应关系,但是不排除一些特殊情况,例如:某一套录波文件中遗漏了部分录波通道,或者是双套录波各自留存的备用通道数目不一致。本文暂不考虑这些特殊情况,仅讨论具有实际意义的模拟量通道,采用智能算法挖掘通道名称文本中包含的语义特征,完成录波通道同源匹配工作。

3.1 数据预处理

采用正则表达式处理录波通道名称文本中命名不规范的情况。针对如表2所示的命名不规范的问题:归纳设备编号信息以及其他无实际含义编号信息的命名规律,按规定格式形成相应的正则表达式,经过匹配、删除操作后,去除录波通道名称中的编号信息;归纳同类间隔的各种表达形式,借助正则表达式的匹配、替换功能,将各种表达形式统一为同一种表达。

经过正则表达式处理后的一些录波通道名称示例见表4。从表4可以看出,正则表达式能够做到:

表4 正则表达式处理示例Table 4 Examples of regular expression processing

1)去除冗余的编号信息,如“4016#02_”“UDM-502”“UDM-502-MIB-A-G”。

2)通过将字母统一为罗马数字表达形式,解决由于输入法不同而出现的英文字母、罗马数字混用的问题。

3)解决由于工作人员命名习惯不一致而出现的间隔表达形式不同的问题,例如主变编号采用“#1”“1#”或者“1 号”等多种形式,均将其统一为“#1”表达形式。

经过正则表达式处理的录波通道名称中还包含一些特殊符号,例如“_”及空格字符。这些特殊字符在文本匹配工作中并不能提供有利信息,相反可能还会降低同源通道之间的相似度。因此,需要对录波通道数据进行进一步处理,考虑采用分词和去停用词算法。

现有中文分词工具很多,例如jieba 分词和Pkuseg 分词。为了选择合适的分词工具,分别使用jieba分词和Pkuseg分词结合Jaccard相似系数算法进行仿真。仿真结果表明jieba 分词算法对录波通道数据的分词效果更好,使用jieba 分词进行同源匹配的匹配准确率比Pkuseg 分词的匹配准确率高6.2%,而且仿真过程中jieba分词耗时更少。因此,本文采用jieba 分词算法对正则表达式处理后的录波通道名称文本进行分词。由于仿真数据来自变电站,数据中含有大量电气领域专有名词,而且智能变电站在命名进出线时通常会使用当地的地名,这些专有名词、地名等特殊词汇,可能会导致分词过程中出现每次分词结果不一致或者是不符合预期分词结果的情况。因此,分词过程中导入自定义的分词词典,以适应录波通道名称文本中的这些特殊词汇。然后,导入自定义的停用词表,剔除录波通道名称中的特殊符号、停用词等冗余信息。为了能更直观地看到分词结果,对其进行词频统计,如图2所示。

图2 智能变电站录波通道名称词频统计Fig.2 Word frequency statistics of recording channel names in the intelligent substation

由图2可以发现,文本的关键信息包括电压等级、间隔名称等,这些信息在后续文本匹配过程中占据重要地位。经过预处理之后的智能变电站录波通道名称,不再包含设备编号以及其他无实际意义的编号信息,同类间隔表达形式一致,不包含空格等无用字符以及一些停用词信息。

3.2 录波通道同源匹配仿真

采用Jaccard相似系数计算经过预处理的70座智能变电站录波通道名称文本数据间的相似度,依据各自相似度值的大小判断同源录波通道。采用Python 进行算法仿真,电脑配置为i7-7500U、2.7 GHz、12 GB。

对于每座智能变电站的A、B双套录波通道文件,依次遍历A 套录波文件中的每条通道名称数据,使用Jaccard 相似系数计算其与B 套录波文件中每条通道名称的相似度,比较相似度的大小,选择相似度最大的组合作为结果输出。例如,对于A 套录波文件中的第一条录波通道,分别计算其与B 套录波文件中每条录波通道的相似度值,比较大小,记录与A 套第一条录波通道名称相似度最大的B 套录波通道名称及其相似度值,然后依次类推,直至求出与A 套录波文件中最后一条录波通道名称相似度最大的B 套录波通道。此过程推广应用至所有70座智能变电站的双套录波文件。

为了验证Jaccard 相似系数匹配的效果,引入VSM 相似度、BM25 相似度、Simhash 相似度、Levenshtein 距离和余弦相似度这几种匹配算法,比较各自的匹配结果。同时,为了验证引入正则表达式可以提高录波通道同源匹配的准确度,对正则表达式处理前后的通道名称文本均进行同源匹配,比较匹配结果。

为了量化模型的匹配效果,引入评价指标。设定同源录波通道被正确匹配为同源通道的对数为TP,非同源录波通道被错误匹配为同源通道的对数为FP,则模型的匹配精确率Rprec[22-24]定义为:

匹配算法的评价指标比较结果如表5所示。由表5可知,针对录波通道同源匹配问题,这几种算法中,Jaccard 相似系数的匹配效果最好。在通道名称数据经过正则表达式处理的情况下,Jaccard相似系数匹配精确率达到96.9%,较VSM、BM25、Simhash、Levenshtein、余弦相似度算法的精确率分别提高了64.9 个百分点、32.8 个百分点、13.2 个百分点、6.3 个百分点、1.1 个百分点。在录波通道名称数据未经过正则表达式处理的情况下,Jaccard 相似系数匹配精确率为94.2%,较VSM、BM25、Simhash、Levenshtein 算法的匹配精确率分别提高了63 个百分点、30.4 个百分点、11.5个百分点、4.3个百分点;此时余弦相似度算法的匹配精确率较Jaccard 相似系数的匹配精确率高了0.8个百分点,但是引入正则表达式预处理之后,Jaccard 相似系数的精度优于余弦相似度。同时,表5中的数据也表明,正则表达式对原始数据的处理有利于提高录波通道同源匹配的精确率。经过正则表达式处理后,每种算法的匹配精确率都有所提高。

表5 算法评价指标比较Table 5 Comparison of evaluation indices of algorithms

选择匹配精确率最高的三种算法对比分析每座智能变电站的匹配情况,如图3所示。图3展示了70座智能变电站分别使用Jaccard相似系数、余弦相似度和Levenshtein 距离三种匹配算法进行录波通道同源匹配后的结果。可以发现,Jaccard 相似系数算法是三种算法中表现最好的,曲线较余弦相似度和Levenshtein 距离的曲线更高,且有更多的点落在100%。这表明,Jaccard算法的泛化能力是最强的,能够适应更多智能变电站内录波通道的排布情况。

图3 各智能变电站同源录波通道匹配情况Fig.3 Homologous matching of recording channels in intelligent substations

综合上述仿真结果可知,结合正则表达式的Jaccard 相似系数录波通道同源匹配算法不仅精确率更高,而且泛化能力更强,能够适应各种智能变电站的通道排布情况,易于推广。

4 结语

针对智能变电站双套录波通道同源匹配问题,本文分析了录波通道名称数据的特点,即通道名称中包含明显关键词,且可以从字面上作出区分,但是通道名称中出现了无用编号信息以及同类间隔表达形式不统一的情况。依据录波通道名称数据的特点,提出了基于正则表达式和Jaccard 相似系数的智能变电站录波通道同源匹配方法。该方法使用正则表达式、jieba 分词算法和去停用词操作,统一录波通道名称文本的表达形式;使用Jaccard相似系数算法对双套录波通道进行同源匹配。将Jaccard 相似系数匹配的结果与其他文本匹配算法的匹配结果进行对比发现,Jaccard 相似系数具有更高的匹配精确率,且在不同变电站中均能取得更好的匹配效果。

猜你喜欢
录波分词同源
药食同源
——紫 苏
河南农业(2024年1期)2024-01-19 01:56:54
两岸年味连根同源
华人时刊(2023年1期)2023-03-14 06:43:36
故障录波装置自动测试系统设计与实现
电气技术(2022年8期)2022-08-20 02:33:22
以同源词看《诗经》的训释三则
结巴分词在词云中的应用
智富时代(2019年6期)2019-07-24 10:33:16
值得重视的分词的特殊用法
虔诚书画乃同源
基于Hadoop技术的批量录波数据高性能处理方法
基于暂态录波数据的负荷建模方法研究
电测与仪表(2015年2期)2015-04-09 11:29:26
基于IEC61850标准的水电厂录波数据接入实现方案