基于粗糙集的电网业务营销时序数据关联规则挖掘模型

2023-10-12 10:40陈非杨永娇周辰南
微型电脑应用 2023年9期
关键词:置信度时序关联

陈非, 杨永娇, 周辰南

(广东电力信科科技有限公司,广东,广州 510030)

0 引言

电网是电力系统的基础设施,保障着居民及社会用电安全。受我国国情影响,电力企业一直以卖家的身份,垄断着电力市场[1],但随着我国经济发展,21世纪的电力企业受到政府政策、经济发展形势、互联网技术发展等多重因素的影响,打破了电力行业的垄断模式,增强了电力市场的竞争力[2]。电力企业需要改变企业电网营销模式,制定适合企业可持续发展的营销策略,是以,相关学者研究出电网业务营销系统,帮助电力企业营销区域内电力调控、调度计划、运行方式等电网业务[3]。随着信息技术的发展,已经研究出财务、生产管理、计划、电力调度等众多电网业务营销相关系统,且在电力领域广泛应用[4]。但是,这些电力系统之间的数据都被单独存储在数据存储模块,导致电网业务营销出现业务沟通困难问题,影响电网业务营销效果[5]。因此,需要设计电网业务营销数据关联规则挖掘技术,寻找不同系统数据之间存在的关联规则,为电网业务营销数据整合提供依据。

目前已经研究出基于数字曲线、时间区间合并、日历、神经元网络、SFVS、模糊集、Aprior算法、滑动窗口聚类、模糊发现、FFT、交易数据顺序、规则和决策树、交易数据生命周期等数据关联规则挖掘技术[6]。在已有的研究成果基础上,相关学者提出如下观点,文献[7]针对挖掘方法存在的规则冗余问题,引入主属性判断技术约简关联规则,实现数据关联规则挖掘;文献[8]针对关联规则挖掘方法挖掘的关联规则存在冗余、相似规则问题,引入改进k-means算法挖掘数据关联规则。上述的数据关联规则挖掘方法,在挖掘电网业务营销时序数据关联规则时,存在挖掘关联规则数目少、所需执行时间长、置信度低的问题,为此提出基于粗糙集的电网业务营销时序数据关联规则挖掘模型,将决策表的决策属性定义为单一决策、等价关系,可以被替代,即生成的时序数据的频繁项集树可以随时转置,遍历过程是同步的,表示约简过程和电网业务营销时序数据关联规则挖掘过程是同步的,减少执行时间,增加置信度。

1 基于粗糙集的电网业务营销时序数据关联规则挖掘模型

此次研究将在时序数据的时间间隔、数据属性、时序关联规则的基础上,通过预处理、粗糙集、压缩矩阵和频繁项集树等技术,按照电网业务营销时序数据预处理、粗糙集约简时序数据属性、生成电网业务营销时序数据规则这一流程,建立电网业务营销时序数据关联规则挖掘模型。

1.1 预处理电网业务营销时序数据

由于此次研究选择的电网业务营销时序数据,多来自电力企业不同系统数据库,具有多时间序列、数据格式不一致等特征,极易出现缺失、冗余等问题数据[9]。所以,通过清洗、集成、转换、消减四步预处理电网业务营销时序数据。

假设电网业务营销数据为一个论域U、属性集合A、信息函数F、值域V组成的四元组ζ:

(1)

(2)

基于式(2),判断U中的数据对象及其属性值是否满足下式所示的条件:

(3)

式(3)中,ui、uj分别表示第i个对象和第j个对象,且i≠j。当数据对象及其属性值满足式(2)所示的条件时,电网业务营销数据存在冗余、缺失等问题,需要采用删除、填充等方式清洗、集成、消减数据。

数据转换则需要将清洗、集成、消减后的数据进行标准化和规约处理,将数据转换为同一单位、格式的电网业务营销数据,同时,保留数据中原有信息,则有:

(4)

按照式(1)~式(4)所示的计算过程,完成电网业务营销时序数据预处理。基于数据预处理结果,采用粗糙集约简时序数据属性,在不影响时序数据关联规则挖掘效果的条件下,条规则挖掘计算效率。

1.2 基于粗糙集约简时序数据属性

时序数据属性约简是在保持数据集原本含义的基础上,去除数据集条件属性中不必要的属性,以此来减少时序数据关联规则生成的时间复杂度、计算量和冗余规则的产生。基于此,依据粗糙集设定的时序数据属性约简定义如下。

定义一:决策表中的决策属性分为单一决策和多决策两种,由于电网业务营销时序数据多是电力的运行、调控、调度等类别的数据,所得到的运行、调控、调度等结果均是单一的[12]。因此,将决策表的决策属性定义为单一决策。

(5)

式(5)中,R表示依赖关系,ρ表示换算符号,c表示元素集合的基数,w表示重要程度,r∈R表示R中的某一等价关系。

若式(5)所示的计算公式成立,则条件属性集中的第r个等价关系是可以被替代的,即r相对于决策属性可以省略,则有:

R′=R-[r]⊆R

R′=γ(R)

c(R)=∩γ(R)

(6)

式(6)中,R′表示R的约简,γ表示约简的交集。

按照定义一和定义二,通过式(5)和式(6)约简时序数据属性,针对约简属性后的时序数据,进行时序数据关联规则挖掘。

1.3 挖掘电网业务营销时序数据关联规则

根据上述内容设定的定义,采用压缩矩阵生成时序数据的频繁项集树,来挖掘电网业务营销时序数据关联规则。为此,假设电网业务营销数据原始时间序列为T{q×τ},其中,q表示时序数据属性个数,τ表示时序数据采集时刻数量。此时,针对T{q×τ}进行符号化处理,则有:

(7)

(8)

基于上述计算过程,采用频繁项集树生成数据频繁项集,遍历数据库T{q×τ},则有:

(9)

式(9)中,HT-h表示数据频繁项集矩阵,h表示HT-h中的一个元素,g表示遍历数据库T{q×τ}次数,hg_(ιj)j表示第g次遍历的数据项h(ιj)i。依据式(9)所示的频繁项集矩阵,判断hg_(ιj)i是否存在于式(8)的行中,则有:

(10)

(11)

综合上述电网业务营销时序数据预处理→粗糙集约简时序数据属性→生成电网业务营销时序数据规则三个步骤,完成电网业务营销时序数据关联规则挖掘模型建立,实现电网业务营销时序数据关联规则挖掘。

2 实验模拟

选择基于主属性的挖掘模型和基于k-means算法的挖掘模型作为此次实验的对比模型,将电网业务营销时序数据作为此次实验研究对象,在四核8线程的锐龙R7-3700U型CPU、16 GB内存、应用Win XP操作系统的计算机上,运行MATLAB 7.0仿真软件,验证此次研究的基于粗糙集的电网业务营销时序数据关联规则挖掘模型。

2.1 实验数据

此次实验选择的电网业务营销时序数据如图1所示。

图1 电网业务营销时序数据

从图1中可以看出,此次实验选择的数据,是根据国家电网公布的电网业务营销电价,选取的电网业务营销时序数据。针对图1所示的电网业务营销时序数据,包括用电用户基本信息、执行合同信息、执行结算合约信息以及用电数据、结算结果等,并自动与计量信息、购电结算凭证、用户用电结算凭证等信息进行关联。经过清洗、集成、转换、消减四步预处理后,去除用户的电费计算信息,包括电费计算结果、偏差考核费用、违约金,以及套餐信息、售电合约等与用户本身有关的营销信息,剩余仅涉及业务侧的电网业务营销数据,并突出时序属性。

2.2 实验步骤

基于此次实验选择的实验数据,设计的实验步骤如下。

(1) 预处理图1所示的实验数据;

(2) 采用此次实验选择的三组实验模型,分别挖掘预处理后的实验数据关联规则;

(3) 在MATLAB 7.0仿真软件上,设置三组挖掘模型挖掘数据关联规则参数;

(4) 统计三组模型挖掘数据关联规则数目随支持度变化值、执行时间随支持度变化值和置信度随时间变化值,并在Visio软件上绘制成图;

(5) 分析三组挖掘模型挖掘时序关联规则效果。

2.3 支持度和置信度

支持程度和置信度都是关联规则挖掘中最关键的衡量指标。支持度的大小可以决定规则的有效性,因此,其值越高,规则的效用越高;置信度则用于反映规则的可靠性程度,其值越大,所挖掘的数据关联规则可靠性度就越高。其计算公式如下:

(12)

式(12)中,Z表示支持度,Z′表示置信度,{a,b}表示时序数据项集,a→b表示由条件a推出规则b,m表示{a,b}里(a∪b)出现次数,M表示时序数据数量。

依据式(12)将最小支持度阈值和最小置信度阈值作为此次实验选择的3组挖掘模型挖掘时序数据关联规则时的强规则。

2.4 实验结果与分析

2.4.1 关联规则数目随支持度变化

关联规则数目随支持度变化曲线如图2所示。

图2 关联规则数目随支持度变化曲线

从图2中可以看出,随着支持度值的增加,3组挖掘模型挖掘到的关联数目随之减少。但是,本文模型相较基于主属性的挖掘模型和基于k-means算法的挖掘模型挖掘出的时序数据关联规则平均数目分别高4条和10条。可见,此次研究模型可以挖掘出支持度更高的关联规则。

2.4.2 执行时间随支持度变化

执行时间随支持度变化曲线如图3所示。

图3 执行时间随支持度变化曲线

从图3中可以看出,三组挖掘模型挖掘关联规则执行时间变化趋势相似。但是,本文模型相较基于主属性的挖掘模型和基于k-means算法的挖掘模型挖掘数据关联规则的平均执行时间分别减少4 s和25 s。可见,此次研究模型挖掘时序数据关联规则时的效率更高。

2.4.3 置信度随时间变化

置信度随时间变化曲线如图4所示。

图4 置信度随时间变化曲线

从图4中可以看出,本文模型挖掘不同时间段数据的平均置信度为0.60,基于主属性的挖掘模型的平均置信度为0.40,基于k-means算法的挖掘模型的平均置信度为0.38。可见,本文模型相较此次实验选择的对比模型平均置信度分别高0.2和0.22,挖掘出的关联规则可靠性高。

3 总结

本文研究电网业务营销时序数据关联规则挖掘模型,充分利用粗糙集技术约简时序数据属性,降低时序数据关联规则挖掘难度,以此来提高时序数据关联规则挖掘数目的支持度和置信度,以及关联规则挖掘效率。但是此次研究未曾考虑电网业务营销时序数据中存在的潜在关联规则。在今后的研究中,还需深入研究挖掘时序数据关联规则的强规则,进一步提高时序数据关联规则挖掘深度。

猜你喜欢
置信度时序关联
硼铝复合材料硼含量置信度临界安全分析研究
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
基于Sentinel-2时序NDVI的麦冬识别研究
“一带一路”递进,关联民生更紧
正负关联规则两级置信度阈值设置方法
奇趣搭配
基于FPGA 的时序信号光纤传输系统
智趣
一种毫米波放大器时序直流电源的设计
置信度条件下轴承寿命的可靠度分析