基于二进制位缺失标识与改进D-S 证据理论的数据融合技术研究*

2021-11-19 09:23方燕琼唐升卫顾博川代仕勇叶向前
电气工程学报 2021年3期
关键词:数据源证据规则

方燕琼 唐升卫 顾博川 代仕勇 叶向前

(1. 广东电科院能源技术有限责任公司 广州 510080;2. 广东电网有限责任公司电力科学研究院 广州 510080)

1 引言①

“十二五”以来,电网公司大力推进生产域信息化和智能化建设,目前已经建设并推广了一批信息化系统,涵盖了生产运营的多业务域。但数据分散在各个系统中,没有得到有效的融合,无法进行多层次多维度的分析、预警和可视化的展现。随着业务系统增加,系统规模增大,产生的数据呈现指数增长,数据结构和类型也多样化和复杂化。数据量由每个城市每天的MB级增加到GB/TB甚至PB级,种类也由原来的单纯结构数据变化到结构化、非结构化数据,由简单的一个维度或者少数维度到集视频、拓扑结构、数值、地图等多维多源,主要特征包括:① 数据采集点多,每个采集点采集相对固定类别的数据,且分布在各个电压等级内;② 不同采集点的采样尺度不同,数据断面不同;③ 数据不健全,数据采集存在误差和漏传;④ 不同业务数据分布在不同的应用系统中。为充分挖掘数据价值,支撑电网的规划、建设、运营、改造、用户接入等,提高供电可靠性,开展电力系统多业务系统的数据融合技术研究至关重要。

数据融合技术能够综合多个数据源提供的互补和冗余数据,获得观测对象更全面、更准确的数据,从而得到准确、快捷的决策和判断[1]。同时,数据融合技术扩展了具体模型确定范围,对目标或事件的确认增加了可信度,减少了信息的模糊性,改善了系统的可靠性[2]。国内外大数据多源信息融合技术逐渐发展和成熟,且所含技术领域宽广,如智能电网[3-5]、国防、设备监测、环境保护、交通等都有涉及和应用。多源数据融合方法主要有卡尔曼滤波法[6-8]、贝叶斯(Bayes)推理法[9-12]、D-S 证据推理法[13]、聚类分析法[14-15]、神经网络法[16]等。而基于大数据技术的数据融合技术也在电网中得到了应用,如文献[17-18]提出基于大数据技术的数据融合技术在新能源接入、安全状态评估和故障预警等领域的应用;文献[19-21]利用多源数据融合技术实现电力系统故障诊断,提高预测准确率;文献[22]在数据环境恶劣的情况下基于D-S 证据融合理论实现电力系统状态估计;文献[23-25]提出基于时间序列分析和灰色神经网络学习等大数据技术,实现电网设备的异常数据的实时监测及预测。

上述数据融合技术研究仅针对数据融合中单一环节、单一情况的数据融合,而在实际电力系统建设中,往往是要考虑整个数据融合的过程,包括从数据抽取、数据校验和多源融合。基于此,本研究将从数据融合全过程着手,系统研究数据结构不统一的数据抽取与多源融合两个子过程,提出基于二进制位缺失标识和改进D-S 证据理论的数据融合技术。

2 数据融合模型

2.1 数据多源融合架构

在电力系统中,数据融合的主要工作就是对从传感器设备、其他电力系统获取的数据进行处理,存储在数据中心供应用层可视化展示给用户,主要包括数据抽取,数据抽取后的数据校验,以及对校验过后的数据进行多源融合。系统架构见图1。

图1 系统架构图

2.2 基于二进制位缺失标识的数据抽取模型

在电力系统数据集成融合时,需要从多源系统或多传感器中抽取数据,在数据抽取过程中容易出现数据遗漏、数据不完整的问题。本研究提出了基于二进制位的数据缺失标识方法(简称01 标识法)对缺失数据进行标识,在数据补全或补抄后用于数据融合过程中的数据校验和多源融合。

数据缺失标识方法利用数值类型32/64 位特点,以每一位代表一个时间点,以二进制结果表示是否缺失实现对数据缺失的标识,数据缺失标识分为2 个环节。

(1) 设置存储空间。在数据库系统或文件系统中开辟一个固定存储空间,用于标识数据的存储。

(2) 设置缺失标识。不同采集频率使用选择不同的类型(long、int、short、byte)作为缺失标识字段类型。以1~2 min/次(不包含1、2,下同)的频率,选用date(yyyy-mm-dd)+byte(1-24)+long;以2~12 min /次的频率,选用date(yyyy-mm-dd)+byte(1-24)+ int;以12~60 min/次的频率,选用date(yyyy- mm-dd)+long,以1~24 min/次的频率,选用date(yyyy-mm-dd)+int,以日为单位采集则使用short(表示年)+int。其标识字段中以每一位二进制位代表一个时间点,以二进制01 值表示该位代表的时间点是否存在遗漏数据,最高位0 表示没有遗漏数据,最高位为1 表示存在遗漏,使用中判断数据是否小于0 即可。

以每日一次采集频率为例,使用int 类型(32 位二进制)作为标识,而日期中每个月最多31 天,最多占用其中的31 位,最高位用来判断该月是否存在数据缺失。当最高位为1,整个int 的属性值小于0(int最高位为符号位,为1 时表示负数,为0 时表示非负数),否则大于等于0。另外,第1 位到第31 位(由最低位开始,下同),分别表示1 日到31 日,第1位为0 表示1 日数据未采集,第2 位为0 表示2 日数据未采集,以此类推,如图2 所示。

图2 二进制位缺失标识(以每日一次采集频率为例)

根据数据缺失标识方法,数据抽取过程及缺失数据标识处理过程可划分为以下3 个环节。

(1) 数据抽取时,首先取出t时刻所在年份标识记录中月份mt对应的字段值ft(mt标识t时刻所在的月份)。

(2) 判断当月数据缺失,出现缺失,进行缺失数据抽取请求获取数据。假设抽取t时刻对象A 的数据,应进行步骤1)、2)。

1) 判断ft是否小于0,假若ft<0,表示存在数据缺失,则利用p1=ft&(1 ≪0),p2=ft&(1 ≪1),…,p31=ft&(1 ≪30)进行判断,pi(i=1,…,31)中等于0的表示该日期对应数据缺失,不小于0 表示日期对应数据已经录入,对其中小于0 的数据进行补抄,判断时间忽略不计(位运算百万次使用的时间小于10 ms)。数据补抄成功后,将dt日对应位的值置为1,运算公式为ft’=ft|(1 ≪(dt-1))。

2) 若mt月数据全部补全完成,则将mt的最高位的值置为0,运算式为ftnew’=ft’|(1 ≪31)。

(3) 同步实时数据,如数据正常获取,将dt日对应位置的值置为1,公式为ft’=ft|(1 ≪dt-1),如图3 所示,如出现某对象数据缺失,则将ft的第dt位的值置为0,并将最高位的值置为1,ft’=ft&(~(1 ≪(dt-1)))|(1 ≪31),如图4 所示。

图3 正常数据标识示意图

图4 缺失数据标识示意图

2.3 基于改进D-S 证据理论的数据融合模型

系统中的数据从数据源抽取并进行补全/补抄处理后,还需要多数据进一步融合才能进行有效的关联展示。而在数据融合中,因数据通常来自不同的系统,往往没有办法直接关联,此时需要通过某个特定特征进行处理融合。本研究考虑对象属性数据类型和特征频度,提出基于改进D-S 证据理论的数据融合技术,用以实现针对不同的数据类型进行高效准确的融合处理。

2.3.1 字符类型

字符类型的数据,数据融合中经常会遇到同一对象不同的名称(如A 系统馈线资料数据中馈线的以F25 风度线表示,B 系统故障数据中馈线名称以“F25 10 kV 风度线”甚至“董塘站F25 10 kV 风度线”等表示),此时需要对字符进行处理,提取专用词进行对比。首先利用全数据生成正则表达式,再利用正则表达式提取专用词,然后对比专用词,相同即关联,否则再根据置信度进行关联。具体操作步骤如下(举例中以“馈线”为例)。

(1) 首先建立专用名词词典、常用名词词典、人名词典等(如所有馈线的简称,“F25 风度线”保存“风度”即可)。

(2) 对无法直接关联的数据,根据相同属性去重,生成全数据文件(如 “F25 风度线”、“F25 10 kV风度线”、“董塘站F25 10 kV 风度线”等)。

(3) 使用基于用户词典的双向最大匹配法对数据文件进行分词,去掉重复分词结果,生成分词后的文件。

(4) 提取分词后的文件,去掉专用名词词典中的词,根据每个类型生成一个特定正则式(馈线关联的匹配正则式)如下所示

“(F)|( )|(\d+)|(KV|kV)|(\d+#)|(#+\d)|(\d+号)|(线)”+|(A|B|C|D|E|K|k)|(I|V|X)|(Ⅰ|Ⅱ|Ⅲ|Ⅳ)|((Ⅰ|Ⅱ|Ⅲ|Ⅳ)+回)|” + “(甲|乙|丙|丁|戊)|((\(.*\)))|(\S+站)”)。

(5) 对需要关联的数据相同属性利用特定正则式提取专用词(提取后都为“风度”),进行匹配,若提取后内容一致,则为同一对象的不同数据(风度线的资料数据、故障数据),完成融合,如果不匹配,则进入步骤(6)。

(6) 不匹配的数据,则对提取后的字符进行全名词匹配,若提取后的词都存在,则表示不为同一对象,完成处理,若其中至少一个不存在,则利用置信度进行判断,置信度达到设定的阈值即为同一对象(例如“坪石电厂”和“坪B 电厂”,提取后分别为“坪石”、“坪B”,因“坪B”是一个旧称,故全名词匹配时不成功,则进行置信度计算,因“坪石”和“坪B”有“坪”相同,置信度为0.5,若阈值≤0.5 则是同一对象)。

(7) 在词典中的名词,若频率高于阈值,则自动增加到词典中。

上述步骤中,步骤(1)~(4)只需要在数据集成时做一次处理,每次数据同步时利用步骤(5)~(7)即可,流程图如图5 所示。

图5 字符数据处理流程

2.3.2 数值类型

针对数据实际类型为数值,但保存并非数值类型的数据,先去掉数据中非数值字符,然后提取规则,对规则计算概率(置信度),对于单一来源,选择置信度最高的即可,针对多来源,选择使用D-S证据推理法求得。

(1) 去掉数据中非数值字符(如“@”、“#”、“”等),替换数据的数字,用“#”替代,形成字符规则,统计每个规则出现数量和频度。

(2) 判断数据来源,如果是单一来源,直接根据频度,选择频度最高的规则作为实际规则,若是多来源,则使用最大概率加权D-S 证据推理法求得最佳规则,形成规则替换正则式,将所有其他规则数据替换为推导出来的规则数据。最大概率加权D-S 证据推理法推导过程如下。

1) 定义U为多源数据中所有数据规则的完备集合,m(A)为规则A的基本概率赋值,如果m1,m2,…,mk是2U上n个独立焦元A1,A2,…,An的基本概率赋值。

2) 根据每个数据源中数据出现的总数确定权值wj=Tj/(T1+T2+…+Tk),其中Tj表示第j个数据源中数据的总数量,k为数据源的数量。

替换后的统一规则,若规则为单纯数值,则完成;若是四则运算表达式,则根据规则再生成专用四则运算正则式进行替换运算,运算出来为空的则直接使用默认值-1。

3 试验结果与分析

3.1 基于二进制位缺失标识的数据抽取

本研究选取某馈线下某台区某个用户表计计量数据作为测试数据,时间为2017 年9 月到2019 年9 月,采集频率为1 日/次。应用实例使用程序抽取数据模拟数据同步过程,数据缺失标识记录设计为“测量点ID+年+标识”,当标识小于0 表示存在数据缺失。2017 年9 月到2019 年9 月完整数据记录为760 条,实际数据记录为681 条,缺失79 条记录。识别结果见表1。

表1 识别结果表

对比直接使用测量点ID+缺失时间标识的方法、测量点ID+加缺失时间标识+是否缺失标识的方法。选择25 个月数据进行对比试验,表2 为三种缺失标识方法数据总大小、平均每次大小和识别时间,使用Java 程序进行对比试验,运算结果为所有25个月的平均值(运算1 000 次的平均值)。由表2 运算对比可见,本研究提出的基于二进制位缺失标识的数据抽取技术在相同精确度的前提下,识别时间上虽比加缺失时间标识的方法稍长,但在内存占用上可减少50%以上,特别是在大数据量中优势会更加明显。

表2 识别对比结果表

3.2 基于改进D-S 证据理论的数据融合技术3.2.1 字符类型

以某地市GIS 数据源中的变电站信息与营销系统中的变电站信息为例,其中GIS 中变电站共128个,营销系统中变电站共143 个,以营销系统中变电站为目标进行匹配,结果见表3。以GIS 中变电站为目标进行匹配,结果见表4。

表3 以营销系统中变电站为目标匹配结果表

表4 GIS 中变电站为目标匹配结果表

由表3、4 可见,基于正则规则的匹配更加稳定,匹配度更高(达85%),效率在可接受的1 s 内。尤其实时计算中大多都是50条甚至10 条以内数据匹配,效率差距在40 ms 以内甚至更少,可忽略不计。而在大数据量运算中,使用离线运算,解决正则规则匹配的效率相对较低的问题。

3.2.2 数值类型

利用改进的D-S 证据推理法可以降低因部分数据源小数据量数据源数据高概率事件的偏向问题,算法效果见表5、表6(试验中的实际数据保存为分子/分母,因各数据源系统中存储时没有有效的验证,导致出现多种存储方式)。

表5 数据源权重系数

表6 数据源基本概率

辨识框架:Θ={#/#,#月#日,#-#,May-#,Jan-#}

基本概率:m(A)=CA/S,其中CA表示A 在样本X 中出现的次数,S表示样本总数量。

归一化常数为

K=0.622×0.368×0.074×0.227×0.727+0.109×0.342×0.106×0.228×0.121+0.246×0.206×0.647×0.289×0.035+0.017×0.004×0.036×0.182×0.117+0.006×0.080×0.137×0.074×0.035=0.003 236 191 183 891 999。

mass 函 数 设 计:m(A)=m1⊕m2⊕m3⊕m4(A)=1/K×m1(A)×m2(A)×m3(A)×m4(A)×Wmax,其 中mn(A)为A在样本n的基本概率,Wmax为A在n样本中概率最大的样本对应的权重。得到各规则的识别度为

(1) “#/#”的mass 函数(识别度):m(#/#)=0.622×0.368×0.074×0.227×0.727/K=0.863 7。

(2) “#月#日”的mass 函数(识别度):m(#月#日)= 0.109×0.342×0.106×0.228×0.121/K=0.033 7。

(3) “#-#”的mass 函数(识别度):m(#-#)= 0.246×0.206×0.647×0.289×0.035/K=0.102 5。

(4) “May-#” mass 函数(的识别度):m(May-#)=0.017×0.004×0.036×0.182×0.117/K=0。

(5) “Jan-#” mass 函数(的识别度):m(Jan-#)=0.006×0.080×0.137×0.074×0.035/K=0.000 1。

由表7 可判断数据规则为“#/#”,再利用正则替换,将所有“#月#日”、“#-#”、“May-#”、“Jan-#”规则的数据替换为“#/#”规则。

表7 推理结果对比表

根据基于改进D-S 证据推理理论的数据融合技术灵活利用了基于词典的分词技术在关键词提取、正则式数据匹配高效性、D-S 证据推理法多源数据融合的优势,又避免了单纯分词低效、单纯正则式生成繁琐、单纯D-S 证据推理法的不稳定性和对基本概率分配函数的敏感性以及小数据量数据源数据高概率事件的偏向问题。

4 结论

针对电力信息化建设过程的数据融合问题,本研究提出基于二进制位缺失标识与改进D-S 证据理论的数据融合技术,尤其在配用电系统中优势更为显著,这对现阶段电力系统数据处理有实质性的提升,主要体现在数据缺失标识减少50%的内存以上、字符型的数据融合匹配准确性达85%以上等方面。

(1) 本研究所构建的基于二进制位缺失标识与改进D-S 证据理论的数据融合技术,在数据抽取过程中的缺失标识,其数据采集频率越大,特别是采集频率在15 min/次及以上,占用的内存越小,运算越快。

(2) 基于改进D-S 证据理论的数据融合技术在字符类型数据融合时,数据文件非重复数据越多、词典覆盖面越广、相同类型的重名名词越小,得到的匹配式越精确,匹配效果越好。

(3) 基于改进D-S 证据理论的数据融合技术在数值类型数据融合时,样本越多,各样本中接近真实值的数据量越大,其结果约准确。因使用的是样本数据量大小作为权重,存在大数据量数据源数据高概率事件的偏向问题。

基于二进制位缺失标识与改进D-S 证据理论的数据融合技术当前在县域智能配电网建设过程中已得到了初步应用。注意到由于智能配电网数据的多样化和复杂性,基于二进制位缺失标识与改进D-S证据理论的数据融合技术在数据融合的通用性上有所欠缺,下一步将继续深化本研究方法的泛化适用性研究。

猜你喜欢
数据源证据规则
撑竿跳规则的制定
数独的规则和演变
Web 大数据系统数据源选择*
让规则不规则
基于不同网络数据源的期刊评价研究
TPP反腐败规则对我国的启示
对于家庭暴力应当如何搜集证据
手上的证据
手上的证据
基于真值发现的冲突数据源质量评价算法