李红志,王彪,陈卉,孔祥鹏,陈中
(1.国网青海省电力公司电力调控中心,青海 西宁 810001;2.东南大学 电气工程学院,江苏 南京 210096;3.国网青海省电力公司电力科学研究院,青海 西宁 810008)
继电保护定值的正确性对保证电网的安全运行和充分发挥继电保护装置性能至关重要[1-2]。随着电网运行方式的改变,装置的保护定值也要随之更改[3-7]。系统自动修改保护定值短期内难以实现,手工修改定值对人员的责任心要求很高,需要进行核对和把关;在长期运行中,继电保护设备本身也会出现定值漂移的问题。及时有效地发现这些问题,不仅能解除电网的安全隐患,还能防止保护误动[8]。定值核对工作主要依靠专业人员手动开展,工作量大,任务繁重[9]。保护信息管理系统对保护装置运行定值的召唤功能为继电保护定值校核系统的研究和应用提供了技术支撑[10-11]。
文献[12]基于方式变化影响域和故障量计算结果的排序来优化提高定值在线分析的速度,实现继电保护定值的快速在线预警。为了使继电保护定值在线校核更加高效合理,文献[13-14]以保护综合重要度的量化指标,研究继电保护定值的校核顺序。文献[15]在即插即用理论研究基础上,结合电力系统智能化技术,提出新的信息自动校核技术。继电保护定值在线比对系统实现的关键是变电站端运行定值和主站端整定定值对应定值项名称的匹配,即字符串的模糊匹配和相似度连接问题。编辑距离在字符串相似度连接中得到了广泛的应用,文献[16-20]都对编辑距离算法进行了改进,优化了字符串相似算法。中文分词是中文信息处理中重要的预处理,分词的速度和精度直接影响信息处理的结果。文献[21]改进了逆正向最大匹配算法,在整个句子范围内实现“长词优先”的原则,提高了分词的准确度。文献[22]引入条件随机处理未登录词。文献[23-24]采用双重过滤-验证机制减小候选集,降低了相似连接时间。
目前已有上线的继电保护定值比对系统,但由于众多设备厂家及调度主站对定值项名称的命名规范和习惯不同,存在两大类定值项匹配出错的问题:第1类是同义异形词之间的匹配问题,分为中文同义异形词(如“启动”和“起动”),英文同义异形词(如“TV”和“PT”)以及序号类同义异形词(如“零序电流1段”和“零序电流Ⅰ段”);第2类是词序不同语义相同的短语匹配问题,由汉语中多修饰词的偏正短语表达多样性引起,当有多个修饰词修饰、描述后面的中心词时,多个修饰词的相对顺序往往比较灵活(如“零序Ⅱ段电流定值”和“Ⅱ段零序电流定值”)。
针对上述问题,本文对整词二分词典进行改进,拓展词典的数据结构,添加同义词标志项,从而更好地处理同义异形词的匹配问题。此外,将中文、英文以及一些序号类字符均纳入词典中,便于对包含各种语言元素的短语同时处理;基于改进的混合词典,通过最大正向匹配算法对短语进行分词操作,在分词过程中,将同义词直接替换为标志同义词以提高匹配准确度;通过基于定值单结构的类型过滤和首项过滤的双重过滤算法进行预处理操作,缩小精确匹配的目标空间,减少时间开销;然后采用集合相似性度量对筛选出的目标空间进行精确匹配;最后对符合字符串名称匹配要求的定值项进行定值比对,若定值不一致,调整匹配策略进行再次匹配筛选。
定值比对的总体架构如图1所示,整个定值单按照定值类型逐项进行比对。首先采用改进的最大正向匹配(forward maximum matching,FMM)算法对整定定值单Z和运行定值单Y的定值项名称分别进行分词,然后对原始搜索空间进行双重过滤,缩小目标空间词条数,最后对过滤后的目标空间进行定值名称的匹配和定值取值比对。
图1 定值比对方法总架构Fig.1 Check of setting value architecture
继电保护定值名称由继电保护各类术语组成,在中文信息处理中,大部分是利用分词技术进行中文词的提取[20]。本节通过构建包含中西文的混合专业字典,利用改进FMM算法进行分词处理,可有效地提高分词准确度。
为了便于进行分词处理,基于对继电保护定值名称的分析,本文将继电保护定值名称分为两类:一类是单一型词结构,如电压、电流;另一类是复合型词结构,由序号类词和中心词复合才能表达完整语义,如Ⅱ段、支路1。复合型词的中心词可与不同的序号类词搭配,从而表达不同的含义。为更好地解决引言提到的问题以及多种语言混合表达的问题,有必要对原有词典结构进行改进和拓展[17]。改进的混合词典为3层结构,如图2所示。
第1层为首字Hash表,包括首字、最大词长和第一项指针;第2层为词索引表,包括所有词长和词典正文指针;第3层为词典正文,包括词条、复合型词标志和同义词标志。词条为继电保护相关的专业词汇,包括中文词汇、英文词汇、各种序号类字符;复合型词标志的数据类型为布尔型,“0”表示该词条非复合型词汇,“1”表示该词条为复合型词汇;同义词标志的数据类型为无符号整形,“0”表示该词条在词典中不存在同义词或者该词条为所有同义词的标志性表达,非零整数表示该词条在词典中存在同义词表达,且该整数即为对应同义词在词典中的序号。如图2所示,“启失灵”、“启动失灵”“起失灵”和“起动失灵”均为同义表达,其中“启失灵”为该组同义词的标准表达,称之为标志词,其下标为0,其余同义词的同义词标志项均为18,也即“启失灵”在词典中的序号。通过同义词标志可快速实现同义词替换。
基于改进混合词典,按照最大词长原则对字符串进行分词[17]。为了配合过滤机制,使之有更高的效率,改变分词顺序,首先对复合型词进行分词,再对单一型词进行分词[17]。若定值名称中含有复合型词,则复合型词总在分词后的词序列首位置。改进FMM算法如图3所示。首先遍历整个定值名称字符串,查找是否存在复合型词标志词或序号类词;若存在,则接着判断该词后一个词是否为序号类词或复合型词标志词;若是,则将这2个词组合成复合型词。将整个字符串中的复合型词都处理完再对单一型词进行分词。
如果对整个文本进行精确匹配,将会产生巨大的时间资源消耗,应该采用适当的过滤方法过滤掉文本中明显不相似的定值项,降低代价。文献[20]采用长度和后缀的双重过滤机制进行过滤操作。继电保护定值名称长度多为4~12个字符,长度范围较为集中,且大部分名称长度相差不大,同时存在大量具有相同后缀的定值名称;因此长度加后缀的双重过滤机制过滤效率不高。结合继电保护定值名称特点,本文采用定值类型-首项的双重过滤机制,以提高过滤力度。
一个保护装置的保护类定值数量可达两三百项,这些定值可按一定的原则进行分类,如设备参数定值、控制字等,将定值单的格式按照定值类型、定值名称、定值的形式进行组织。设源字符串为s,原始目标字符串空间T={t1,t2,…,tl}。首先获取源字符串s的定值类型cs,然后按照定值类型对原始目标空间进行筛选,得到符合定值类型要求的定值项集合T1,以缩小搜索空间。装置的定值类型集合记为C={c1,c2,…,cn}。类型过滤的流程如图4所示。
图2 改进词典机制Fig.2 Improved dictionary mechanism
图3 改进FMM算法流程Fig.3 Improved FMM algorithm flowchart
图4 类型过滤流程Fig.4 Process of type filtering
定值类型过滤后的目标搜索空间T1包含同类型定值的所有定值项,一般每种定值类型下有几十项定值,过滤力度有限;因此采用首项过滤的方法进行二次过滤,剔除必定不匹配的定值项,进一步减少目标搜索空间的词条数。
在同一定值类型下的定值名称,定值前缀多不相同,而相同前缀的定值多为阶段式保护定值,这类定值名称中包含复合型词。为了方便表述,将包含复合型词的定值名称称为数值型定值,反之称为非数值型定值。首项过滤是基于分词结果进行的,在第2.2节中已经将定值名称按照先复合型词后单一型词的顺序进行切分,分词后的定值名称词序列的首项为复合型词组(数值型定值)或原定值名称的首个词(非数值型定值)。预匹配的2个定值名称的词序列首项词类型不同,则二者的定值类型不同,定值名称显然不匹配;预匹配的2个定值名称的词序列首项词类型均为复合型词,则2个定值都是数值型定值,若其中的序号类字符不同,则必定不是同一个定值项,此时的复合型词具有“一票否决”的特性,而无需进行剩余词的匹配。对于预匹配的2个定值都是非数值型定值,取源字符串序列s的首项,与目标字符串序列中的词逐一进行匹配。若匹配成功,则将该词添加到搜索空间T2,否则进行下一个词筛选。首项过滤的算法流程如图5所示,其中“*”表示经过改进FMM分词处理形成的字符串序列。
原始搜索空间经过双重过滤后已大大缩小,对T2空间的定值名称进行全字段匹配验证,计算其匹配度。定值名称按匹配度从大到小排列,选择匹配度最大的进行定值比对。
常用的编辑距离相似性度量方法与字符的排列顺序有关,会导致第2类问题度量结果的偏差。一种可行的方法是采用不计字符顺序的Jaccard相似性度量方式[25]。Jaccard相似性度量的基本思想为:对分词后的2个字符串形成集合D*={d1,…,di,…,dm}和E*={e1,…,ej,…,en},如果2个集合的相似度大于给定阈值θ,那么这2个集合中的共同元素个数肯定大于某个值,其中di和ei为字符串分词后形成的词条。相似度表达式为
(1)
图5 首项过滤流程Fig.5 Process of first filtering
由于集合度量为无序度量,度量计算采用暴风(brute force,BF)算法,流程如图6所示,其中m为D*字符串序列中字符串个数。
依次计算源字符串和候选空间T2中目标串的Jaccard距离,得到满足给定相似度阈值的定值项序列,并对定值项按照相似度从大到小排列,对相似度最大的定值项进行定值的核对。若定值项取值一致,则认为定值名称匹配正确,且该项定值正确。若定值取值不一致,则有2种可能:①该定值项名称匹配正确,定值项取值不一致,运行定值确实存在错误;②该定值项名称匹配错误,从而导致定值项取值不一致的伪错误,即满足相似度阈值的2个定值项由于命名习惯等差异而导致匹配出错,2个定值名称描述的并非同一个定值。1个保护装置不同定值项之间的保护原理、保护范围和保护类
图6 Jaccard距离计算流程Fig.6 Jaccard distance calculation process
型均不同,因此定值项取值的数值和单位也不同,出现不同定值的定值项取值完全相同的概率极低。为了解决因单纯定值项名称匹配错误而导致伪错误,引入防误比对机制。该机制的基本思想是:对于满足相似度阈值且按Jaccard相似度从大到小排列的定值序列,先取相似度最大的定值项进行相应定值项取值比对,若定值项取值一致,则判定该定值项为源字符串对应项且该项定值正确,否则进行下一项定值项取值一致性比对;若下一项比对结果一致,则判定该定值项为源字符串对应项且该项定值正确,否则继续下一项定值的定值项取值一致性比对;若整个定值序列比对结束,仍无取值一致的定值项,则判定相似度最大的定值项为源字符串对应项且该项定值错误。通过这种防误机制,可有效提高比对正确度。
为了验证上述方法的有效性,本文选取北方某省调度控制中心及其下辖某330 kV变电站的若干保护装置定值数据。该站有多家继电保护厂商的设备,调控中心与站端定值名称描述存在差异。
以某330 kV变电站南瑞继保变压器保护PCS-978T1定值s=“复压过流Ⅲ段经复压闭锁”为例进行分词过程说明。传统FMM分词过程见表1,改进FMM的分词过程见表2。
表1 传统FMM分词过程Tab.1 Process of words segmentation using traditional FMM algorithm
表2 改进FMM分词过程Tab.2 Process of words segmentation using improved FMM algorithm
传统中文词典的FMM算法按照“最大词长”的原则对目标字符串进行顺序正向切分,分词结果按照目标字符串原来的顺序进行排布。改进的FMM算法在分词过程中,首先对整个字符串s进行逐一遍历,寻找是否存在序号型字符。找到序号型字符“Ⅲ”,由词典正文的同义词项得到其同义标志词“3”,并进行替换。然后在前后1个字段的范围内找到与“3”匹配的数字型字符“段”,将“3”和“段”合并为1个词组。将该词组从目标字串中剔除,此时目标字符串全为汉字字符,便于继续进行后续分词工作。
过滤机制能大幅缩小搜索空间,减少精确匹配次数,提高匹配效率。以某330 kV变电站南瑞继保变压器保护PCS-978T1定值单为例,保护类定值共12类、250项,按类进行继电保护定值核对。例如先核对设备参数定值,对类型名称进行字符串匹配,查找到设备参数定值类。设备参数定值类共31项定值。取源字符串字符s=“低压侧额定容量”,进行首项过滤。过滤前后的目标空间对比结果见表3。原始搜索空间T,类型过滤后搜索空间T1,首项过滤后搜索空间T2。
表3 过滤前后搜索空间大小对比Tab.3 Size of search space comparison
由表3可见,精确匹配空间为原始搜索空间的2/125,证明该过滤机制可将效率提高62.5倍。表4展示了4种保护测试例下,长度-后缀过滤机制和类型-首项过滤机制的过滤力度对比表。P1为南瑞继保母线保护PCS-915AL-DA,P2为南瑞继保主变压器保护PCS-978T1-DA,P3为南瑞继保超高压线路成套保护PCS-931-G,P4为南瑞继保PCS-9616D-D。
进一步对2种过滤方法的过滤力度进行对比,表4中装置P1的源字符串为设备参数定值类中的“支路01CT一次值”,装置P2的源字符串为高压侧后备保护定值类中的“低电压闭锁定值”,装置P3的源字符串为控制字类中的“通道一差动保护”,装置P4的源字符串为功能软压板类中的“短充过流Ⅰ段软压板”。由表4可见,在不同装置的不同类型定值对比中,后者的过滤力度都极大的优于前者,大大提高了算法的效率。
表4 长度-后缀和类型-首项过滤力度对比Tab.4 Filtering capability comparison between length-suffix and type-first
取源字符串s=“零序电流Ⅱ段定值”和目标字符串t=“Ⅱ段零序电流定值”,采用改进的编辑距离(improved lenvenshtein distance,ILD)进行匹配时,伪编辑距离为2,相似度为0.75,匹配结果见表5。
表5 ILD匹配结果Tab.5 ILD matching matrix
注:第1行和第1列数值为编辑距离算法的初始化值。
采用BF算法的Jaccard度量,匹配结果见表6,按式(1)计算匹配度,匹配度为1。
表6 BF匹配结果Tab.6 BF matching results
注:经过算法分词后,字符串s和字符串t的词序列是相同的。
由ILD算法和BF算法的匹配度比较可知,基于混合词典分词的BF算法具有更高的匹配准确度。此外,采用ILD算法的匹配次数为16次,采用BF算法的匹配次数为4次,匹配次数为ILD的25 %,大大提高了效率。
取源字符串s=“零序电流Ⅱ段定值”,目标字符串空间为T3={t1,t2},其中t1=“零序过流Ⅱ段定值”,t2=“零序电流Ⅱ段时间”。源字符串和目标字符串的分词结果和整定值如表7所示。由式(1)得s与t1和t2的匹配度都为0.75,此时进行定值项取值的比对。由表7可知s的整定值与t1的整定值一致,与t2的整定值不同,此时判定与s相对应的目标串为t1,整定值项比对结果为合格。可见,由定值项取值的反校可以提高匹配结果的准确度。
表7 源字符串与目标字符串的定值名称和整定值Tab.7 Setting name and setting value for source and target strings
针对定值在线比对存在的一些匹配问题,基于已有定值匹配策略提出解决方案,同时对匹配过程中的一些步骤提出有效的改进措施:
a)改进中文词典机制,将定值名称中出现的英文表达和序号类词加入词典,形成包含中英文和序号类字符的混合词典,同时在词典正文添加同义词标志和复合型词标志数据项,更好地处理异形同义表达问题;
b)改进FMM算法,基于混合词典对字符串进行分词,分词过程中对同义词进行同义词标志词替换,同时按照复合型词和单一型词对分词后的词序列进行排序;
c)结合定值名称特点,采用定值类型-首项的双重过滤机制对原始空间进行更高效的过滤;
d)在精确匹配中引入防误机制提高匹配准确性。