基于XML的电力营销数据智能抽取方法研究

2023-02-03 02:56余向前
自动化仪表 2023年1期
关键词:测试方法信息

余向前

(国网甘肃省电力公司,甘肃 兰州 730030)

0 引言

电力信息化发展推动了电力事业的蓬勃发展。在电力信息系统中包含大量的子系统。作为其主体部分的营销业务子系统[1-2],拥有大量的电力用户信息以及电力交易信息。营销业务系统的信息种类较为复杂。因此,为保证其信息存储的有效性与安全性,常采用电力营销数据仓库的形式提升信息存储的可靠性。

电力营销数据仓库是集数据采集、信息发布、统计分析、预警和决策支持于一体的现代信息管理决策体系[3]。在电力营销数据仓库的使用过程中,电力营销数据的抽取作为数据仓库的入口,控制着数据仓库的安全。在抽取的过程中,需要读取与分解源数据,而后再复制所需的部分数据,以方便进一步处理。

在目前的电力营销数据的提取过程中,常采用基于兴趣点(point of interest,POI)优化的数据抽取方法[4]或基于可变时间窗口的数据抽取方法[5]。但应用这两种方法时会出现抽取数据召回率偏高的问题。

可扩展标记语言(extensible markup language,XML)是1种用于标记电子文件以使其具有结构性的标记语言,具有较强的数据转换能力。因此,本研究采用XML技术,设计了1种新的电力营销数据智能抽取方法,以弥补传统数据抽取方法的不足,提升电力营销数据抽取的精度与可靠性。

1 方法设计

XML是1种网络信息语言,具有相应的信息结构性。为将其更好地应用于电力营销数据智能抽取过程,需对数据抽取流程展开优化。基于XML的电力营销数据抽取流程如图1所示。

图1 基于XML的电力营销数据抽取流程图

将图1所示流程作为电力营销数据抽取方法的设计基础,针对传统数据抽取方法在使用中出现的问题,采用设定数据转化算法的形式对其展开优化。

1.1 获取电力营销数据源

在抽取电力营销系统数据的过程中,获取电力营销数据源是数据抽取的第一个环节[6]。只有获取可用、稳定、可靠的数据源,才能使数据抽取工作变得简单。

一般来说,电力营销数据的稳定性较差,时常出现结构变化的问题。因此,在数据源获取的过程中,采用电力营销系统数据库作为数据来源。

此次设计在广域数据获取的基础上,设定1种适用于小范围电力营销数据的获取方法,并将其应用于数据提取。为保证电力营销信息可展开小范围获取工作,将原有的数据获取链接方式更改为小范围数据链接。小范围数据链接如图2所示。

图2 小范围数据链接示意图

图2中:圆形为信息数据;箭头表示信息之间的链接。将数据链接设定为小范围数据链接的形式后,通常会使用超文本敏感标题搜索(hyperlink-induced topic search,HITS)算法完成数据链接。但该算法难以适用于小范围数据链接,因而需对HITS算法展开优化[7]。将电力营销系统中的网页视作有向图G(A,B)。其中:A为电力营销系统中的数据存储有效页面,A={ai|1≤i≤n};B为A中不同信息元素的有序对集合,将其视为存储页面之间的连接,则B={bj|1≤j≤n}。在使用小范围数据链接后,对原有的有向图展开加权,形成新的有向图G′(A′,B′)。在A不变的条件下,B′采用原有的设定,包含信息存储网页的间接链接[8]。在此基础上,采用HITS算法中的加权数据矩阵P对网页中的信息展开处理。在初始化过程中设定B′的权值为0,则信息对应模式为(m,n),在信息中存在的链接为P(m,n)=sup(i,j);反之,P(m,n)=0。将信息数据权威向量设定为D、中心向量设定为O,更新后的权威向量可以表示为D=PG′O。将上述设定部分进行整合,则可获得电力营销数据源,为:

(1)

式中:r为特征干扰项。

上述过程对电力营销系统中的数据进行处理,通过向量控制数据抽取的有效性。

1.2 数据转换

对上述获取到的电力营销数据源进行数据转换。在此次设计中,设计基于XML的转换工具,完成数据转换过程。现将此模型设定为3层,分别为源数据层、数据库层以及目标数据库层。数据转换工具模型如图3所示。

图3 数据转换工具模型

电力营销数据转换的过程分为2个部分,分别为迁移式数据转换与合并式数据转换。采用上述方法设计的数据转换工具将源数据库内数据转移至目标数据库内,并根据源数据库设定目标数据库。

在数据转换过程中,启动数据转换工具中的数据调用部分,再采用息屏显示(always on display,AOD)技术[9]连接源数据并获取数据来源信息,根据事先设定好的数据转换需求完成数据转换。在此部分中,采用C语言编程的形式,控制XML数据转换工具对数据的转换过程。部分编程如下所示。

if(this.dgvconfig.Rows.Count>1)

//采用一对多或多对一复杂条件转换

if(this.dgvconfig.Rows[0].Cells[0].Value.ToString()

//采用一对一数据转换

for(inti=1;i

采用上述编程控制数据转换过程,并将转换数据设定为数据库形式进行存储,以便后续数据处理。

1.3 数据区域定位

在数据区域定位中,需要解决的核心问题是将XML定位描述符导入处理后的数据中,并通过此定位描述符确定需要抽取数据的位置。

在电力营销数据转换结果中,其数据多为文档对象模型(document object model,DOM)树结构。这是1种数据嵌套式结构。对此结构进行分析,可获取数据转换结果的分布特征。根据数据分布特征,将设定的XML定位描述符分为2个部分。具体内容如下。

①信息数据布局标签[10]用于划分电力营销数据存储的区域,是1种容器标签。

②数据内容特征标签用于描述数据信息特征。通过此标签,可以完成数据抽取。

由于数据库内的数据区域是所有电力营销信息记录中的最小区域,因而采用自上而下的方式对数据标签展开检测。范围计算过程为:

(2)

式中:L为布局标签的最大直径;y为子节点与中心点的距离;v为子节点扩展速度;t为完成信息数据布局所需的时间。

设定信息数据布局标签为z,其子节点中最大面积为zi,则zi满足式(3)。

(3)

式中:area(z)为节点中的数据规模;α为阈值。

当出现满足上述条件的数据标签时,采用特殊标志对此数据进行定位。

1.4 数据抽取

通过上述设计,完成电力营销数据智能抽取方法的基础设计部分,并在此基础上实现对数据抽取过程的设计。为保证数据抽取过程的可控性,对抽取过程中出现的字段进行设定。数据抽取过程设定情况统计如表1所示。

表1 数据抽取过程设定情况统计表

通过表1的设定,对数据抽取过程进行控制,并设计相应的数据抽取规则。采用抽取规则产生器设定数据抽取规则。数据抽取规则生成流程如图4所示。

图4 数据抽取规则生成流程

将抽取规则与数据抽取过程设定相结合,引用至原有的数据抽取方法设定中,并在原有的数据抽取方法中增加相应的数据映射[11-12]部分,以实现数据抽取。至此,基于XML的电力营销数据智能抽取方法设计完成。

2 试验测试与结果分析

为验证基于XML的电力营销数据智能抽取方法的有效性,设计以下仿真试验加以检验。

2.1 测试环境与内容

为保证测试过程的有效性,设定测试中使用的设备与软件的运行环境如下所示。

开发环境为Visual Basic.NET。

运行环境为Win 10.0系统。

近年来,电力营销系统受到信息入侵的情况比比皆是。为了提升电力营销系统的数据抽取安全性,在测试过程中,将测试环境分为平稳运行环境与存在入侵数据环境这2种状态,以观察在安全程度不同的环境下的电力营销数据抽取有效性。

为进一步对比基于XML的电力营销数据智能抽取方法的使用性能,将其与传统的基于POI优化的数据抽取方法、基于可变时间窗口的数据抽取方法作对比。

在测试的过程中,采用某地级市电力营销系统中的数据作为测试数据来源。设定此次测试数据训练集中共包含数据20 000条,采用上述3种方法对其中的电力交易数据进行抽取,并对比3种方法的抽取效果。

2.2 测试指标设定

在此次测试中,将数据抽取结果的召回率以及数据抽取过程的耗时作为测试指标。其中,召回率是反映数据抽取效果的重要指标,可以反映数据抽取方法的抽取精度。召回率越低,说明抽取精度越高。根据数据抽取过程的耗时,可以判断不同方法的运行效率。耗时越短,则表明数据抽取方法的效率越高。

2.3 平稳运行状态下的测试结果

平稳运行状态下召回率测试结果如图5所示。

图5 平稳运行状态下召回率测试结果

分析图5可知,在平稳运行状态下,随着待抽取数据总量的不断增加,不同方法抽取结果的召回率也在不断变化。基于XML的数据抽取方法的召回率在4%上下。基于POI优化的数据抽取方法的召回率介于9%~13%之间。基于可变时间窗口的数据抽取方法的召回率介于8%~11%之间。相比之下,本文设计的基于XML的数据抽取方法的召回率更低,说明该方法对电力营销数据抽取的精度更高。

2.4 数据入侵状态下召回率测试结果

数据入侵状态下召回率测试结果如图6所示。

图6 数据入侵状态下召回率测试结果

由图6可知,在数据入侵状态下,随着待抽取数据总量的不断增加,不同方法抽取结果的召回率也在不断变化。相比于平稳运行状态,此时基于XML的数据抽取方法的召回率有所增加,但也始终保持在7%之下。基于POI优化的数据抽取方法的召回率基本在12%~15%之间。基于可变时间窗口的数据抽取方法的召回率在8%~11%之间。相比之下,本文设计的基于XML的数据抽取方法的召回率依旧较低,说明该方法对电力营销数据抽取的精度也更高。

2.5 数据抽取过程耗时测试结果

在上述检验不同方法抽取结果召回率的基础上,将数据抽取过程耗时作为检验指标进行测试。数据抽取过程耗时测试结果如图7所示。

图7 数据抽取过程耗时测试结果

由图7可知,随着待抽取数据总量的不断增加,不同方法的抽取过程耗时也在不断变化。基于XML的数据抽取方法的抽取过程耗时始终保持在800 ms以下。基于POI优化的数据抽取方法的抽取过程耗时先增加后下降,最大耗时达到1 200 ms。基于可变时间窗口的数据抽取方法的抽取过程耗时呈不断增加态势,最大超过1 400 ms。相比之下,本文设计的基于XML的数据抽取方法的抽取过程耗时更少,说明该方法对电力营销数据的抽取效率更高。

3 结论

针对传统的数据抽取方法在使用中存在的抽取结果召回率偏高的问题,本文引用XML技术优化电力营销数据抽取过程。在此次研究中,主要完成了以下工作:首先,对电力营销源数据采用小规模链接的形式,并获取数据源信息,从根本上提升数据抽取的精度;然后,通过XML技术,控制数据的区域定位;最后,通过测试确定了基于XML的电力营销数据智能抽取方法的可靠性。

猜你喜欢
测试方法信息
幽默大测试
“摄问”测试
“摄问”测试
“摄问”测试
订阅信息
用对方法才能瘦
四大方法 教你不再“坐以待病”!
赚钱方法
捕鱼
展会信息