吴昊天
(国电南瑞科技股份有限公司)
在电力行业中, 电力营销数据采集系统已成为供电企业营销管理不可或缺的重要工具。电力营销数据是指用户通过用电设备向电力公司或其授权代理机构提交的各种形式的电力业务交易行为以及与电力业务相关的各类信息资料。电力营销数据采集系统提供了全面覆盖用电客户信息的途径, 简化了数据采集方式, 深入分析获取的数据, 为企业的营销决策提供了重要依据, 并且在提升用电企业的管理水平、 优化和完善管理流程等方面, 其发挥的作用举足轻重。
供电企业在电力营销工作中需要及时了解电力营销数据信息变化情况, 并将这些信息反馈给客户, 以便更好地开展服务工作。电力营销数据的变动情况可以被供电企业利用构建标准计量体系, 通过合理的市场调整和预测, 以适应外部环境为目的, 对公司内部进行必要的调整和优化。供电企业通过建立电力需求侧管理组织机构及相关制度、 完善用电信息采集系统、 加强线损精细化管理工作等措施来提高客户满意度, 进而提升企业经济效益。电力供应企业亦可借助电力营销数据分析用户行为特征, 从而制定针对性的营销策略。地方性电力系统可为供电企业提供信息系统, 以完善电力营销数据、 提高电力使用效率、 节约用电设备资源, 从而满足其实际需求[1]。电力销售信息系统的架构如图1所示。
在电力销售信息系统的架构首层, 即用户群和电力设备的电能表, 其主要职责在于汇总用户最近的电量数据。
系统第二层设置采集器, 采集器的主要作用是把第三层与用户群体联系起来, 通过统计集中器内有关品质来记录电表数据并存入集中器。同时为了更好地服务于用户, 需要对信息采集和处理方式加以优化,从而满足不同类型用户对于用电方面的要求
系统第三层设置有集中器, 集中器的主要功能是对采集器进行有效控制, 并把采集的电力数据传输给系统接收器, 以对电力数据进行储存与管理, 进而对第四层进行所需数据支持。在电力营销信息系统的结构层中, 第四层控制中心被赋予了最高的权限, 其主要职责是对整个电力营销信息采集过程进行控制和管理。
电力营销信息系统中将售电, 配电, 输电等环节的实际用电营销信息被转换成机器能够处理与分析的基础数据, 由此建立了由三基素模型构成的电力营销信息云模型如式 (1) 所示:
式中,L表示一种映射方式, 它能够将实际空间中存在的挖掘特征映射到数据空间中,D为结构化信息。通过对电力营销信息进行结构化处理, 机器生成了特征群D= {d1,d2,…,dn}, 从而构建了一个包含n个电力营销数据特征的云模型, 该模型能够有效地描述电力营销信息。O表示电网运营过程中的相关操作, 涉及多个不同的操作{o1,o2,…,on}。而映射L则可以通过式( 2) 加以阐述:
式中,l为映射参数。
电力销售数据的云模型如图2所示。
图2 电力营销信息云模型
在假定基本时空关联特征 (x、y) 是地理空间信息的情况下, 可以建立一个高度关联的数据模型来关联电网营销中所生成的操作信息, 从而求解以下相关函数:
式中,oi为执行相关操作的数量,k为三基素因子,j和m为关联因子。
通过将电力营销信息归一化, 根据时空关联特征、 地理特征和实际操作之间映射距离对应均方根误差来确定关联参数因素θ, 并将因素应用于电力营销时加权参数值的确定:
运用以上公式可以构建出营销时空特征的数据云模型:
对电力营销数据来说, 这一步是聚类操作, 并生成了相应的模板, 通过分析客户行为信息, 提取用户的时空属性特征和用电习惯等信息。对电力营销数据进行预处理, 利用云模型挖掘营销时空特征数据, 对同一模板所生成的数据进行聚类, 并将其存储于同一簇中, 最终获得该类数据的封装装置, 其具体操作流程如下:
(1) 从DOM 树结构Tdi解析电力营销数据集的全部数据来代替原始数据si存储到集合s;
(2) 在s集合中, 可以自由选择一个DOM树结构Td1, 并创建相应的包装器Tw1, 以便将其存储在新的簇Cj中。
(3) 在DOM树的包装器中, vψ(TW,Td)表示的是网页DOM 树Td之间的距离, 其具体的计算公式如式(6) 所示:
式中,Cw(Tw,Td)所代表的是节点在Td与Tw的匹配过程中所付出的代价, 这是导致匹配失败的原因;其中, 每个节点代表一个元素。W(Tw) 所代表的是包装器Tw的根节点所对应的权重; 在DOM 树中,Cw(Tw,Td)所代表的是节点在Td与Tw匹配的过程中所付出的代价, 这是匹配成功的必要条件; 其中, 每一个元素都有唯一标识符, 即该元素所包含的所有属性均相同或相似。W(Td) 所代表的是DOM 树中Td根节点所对应的权值。在集合s为空的情况下, 执行步骤(6) 以获取任意一个结构Td对应的ψ(Tw,Td)值, 若该值为零, 则将集合s中的结构Td转移到簇Cj中;
(4) 在集合s中存在结构Td2, 且ψ(Tw1,Td2)小于e的情况下, 使用包装器Tw2代替Td2, 合并Tw1和Tw2, 将集合s中的Td2转移到簇Cj中, 并转移到步骤( 3) 中。若非如此, 则需执行第( 5) 步;
(5) 将Tw1注入Cj簇中, 并将其作为模板, 转移至第 (2) 步。
(6) 停止迭代后, 将s集合内所有电力营销数据分配至对应簇内, 形成相应模板, 以得到各簇内电力营销数据量及模板内数据区域。
经过电力营销数据聚类处理发现, 各簇内电力营销数据表现出高度相似结构, 而通过模板得到的无效数据区域内数据相似度表现出高水平。因此在模板选择时需要考虑不同簇之间相似度及无效数据区域与模板之间的相似性。根据上述特征, 可对模板中的有效数据区域进行鉴别。将不同类型的信息与电力营销数据特征相结合, 得到一个新的特征向量[2]。所有簇内的电力营销数据均采用同一模板进行获取。将模板分为不同种类和数目, 根据每类模板所包含的电力营销数据来确定是否有新的样本需要加入该模板中去。对每个簇Cj进行分析, 利用数据区域Bij对应内容相似度进行计算, 获得数据区域内电力营销数据类别数Nij。设置阈值并与电力营销数据中类别数Nij大小相比较,阈值低于Nij, 说明本地区存在电力营销数据是有效的。
假设x(x1,x2,…,xn)和y(y1,y2,…,yn)代表了不同集群内有效数据区域的存在性, 那么, 我们就可以利用下面的公式计算出电力营销数据在两个有效区域内的相似性cd(x,y):
式中,same(x1,yi)为x1,yi对应的相似度函数。将相似性与设定阈值进行对比之后, 阈值低于两个有效数据区域相似度, 如果检测到两个区域内有电力营销数据重复, 则立即删除该重复数据并进行去重管理。
通过三种方法进行对比分析: 包括基于信息系统的电力营销数据去重管理方法 (方法1) 、 滑动标准差计算法 (方法2) 以及时间序列关联数据去重管理方法 (方法3) 。
此 次 测 试 环 境CPU 为Ⅰntel Ⅰ5 2.3GHz, 8GB 内存, 500 GB 硬盘, Ubuntul2.04 64 位操作系统, 软件环境为JDK1.7。去重率是一种度量方法1、 方法2 和方法3 的去重率的指标, 通过对比重复数据和全部数据占用空间之比和使用去重处理的存储空间大小对数据质量进行评价[3]。
表1为不同方法的重复数据检测准确率。
表1 重复数据检测准确率测试结果
对表1 数据进行分析, 三种方法重复数据检测准确率随文件数增加而降低, 但是方法1 重复数据检测准确率一直保持在80%以上, 说明方法1 能够有效检测重复数据。
表2 给出了不同方法去重率试验结果。经过去重处理的存储空间越大, 说明该方法去重率也就越大。
表2 去重率测试结果
通过对表2 数据的分析发现存储空间随文件数的增多而减小, 但是同样文件数情况下, 方法1 去重电力营销数据存储空间远大于方法2 存储空间和方法3存储空间, 说明方法1去重率更高。
各种方法去重性能见表3。
表3 去重性能测试结果
根据表3所示数据, 经过多次迭代, 方法1的去重性能显著优于方法2和方法3。
综上所述, 要实现电网营销的高质量, 必须先进行数据挖掘, 这是不可或缺的前提条件。目前我国电力营销工作还处于初级阶段, 在很多方面仍然存在问题和不足, 导致营销数据不能得到有效利用, 无法满足电力企业发展需求。电力营销方案的制定受到了不利影响, 因为挖掘的数据中存在大量重复信息。如果将这些重复的电力营销数据直接应用于实际工作当中, 将会降低企业工作效率和经济效益。为了提升电力营销数据的应用效率, 减少数据分析的冗余, 我们需要对大量的电力营销数据进行去重处理。去重能有效地将电力营销数据集中到一个统一的框架下, 并通过一定的技术措施来保证其安全性和可靠性。目前,电力营销数据去重管理方法在检测重复数据方面存在着精度不尽如人意、 去重率不尽如人意以及去重效能欠佳等诸多难题。此外, 传统的去重算法无法解决大数据量情况下电力营销数据压缩存储与传输的需求。为了提升电力营销数据的品质, 减少重复数据所带来的不良影响, 必须对电力营销数据进行去重和优化处理。