大数据背景下电网营销方向审计研究

2020-10-09 11:07梁卫宁周钰书唐文彬刘森黎晚晴
数字技术与应用 2020年8期
关键词:数据挖掘大数据

梁卫宁 周钰书 唐文彬 刘森 黎晚晴

摘要:在大数据时代的背景下,我国电力行业也步入了高速发展的时期。如何利用大数据技术提升营销业务的信息化水平,也成为了电力审计业务的一个重要研究方向。智能电网的普及产生了海量的监测数据,这些数据为异常检测、电网运行状态、用户行为等大数据分析研究提供了坚实的数据基础。本文针对电网营销数据提出了运用大数据技术于审计分析,在此基础上对大数据数据在审计数据分析中的应用进行了研究,构建了应用大数据实现电网营销审计的模型。

关键词:大数据;电网营销审计;数据挖掘

中图分类号:F426.61 文献标识码:A 文章编号:1007-9416(2020)08-0206-07

0 引言

随着信息技术和智能电网的发展,电力企业对于信息资源共享与数据价值发现等技术的需求不断激增。智能变电站、智能电表、计量自动化系统等一大批服务应用系统的广泛建成,使得企业产生和积累了海量结构多样、来源复杂、规模巨大、系统独立的数据资源,造成企业跨系统数据集成与共享难度加大,直接影响数据内在知识价值发现,降低电网运营审计效率;另外,当前电网企业虽然已经建成面向不同应用需求的业务数据中心和运监数据中心,但是基于传统架构的数据共享框架在数据可扩展性、容错机制和数据安全方面还略有不足,造成数据层面并未真正实现跨系统数据资源集中管控、综合治理和高度共享[2]。

本文以建立大数据审计模型为思路,研究数据驱动下的新型营销审计模式,为营销审计提供科学决策和参考。

1 营销大数据审计的意义及问题

大数据对各行各业影响十分巨大,审计行业由最初的抽样审计分析逐步向大数据审计发展。通过海量数据协同流程的研究应用,可以避免海量数据由于抽样数据分析时单一数据因不准确而对审计结果造成的影响;其次,可以从大量的信息数据中发掘事物的相关性,相关性分析更加有利于发现问题和解决问题,由此提取出的数据更具有分析价值,为不同方向的审计提供了有力的数据支持[1]。

海量数据协同流程如图1所示。

虽然大数据为审计提供了新的模式,但就现阶段的审计发展来看,还是存在诸多问题。

(1)电网营销管理系统数据庞大。作为电网营销领域数据存储和使用频率最多的应用系统,它存储着所有营销业务数据。随着大数据的飞速发展,数据数量级也成了几何式增长,同时也增加了信息系统的风险。面对如此多的信息,原有的审计系统已经无法满足当下需求,急需建设更加完善的审计分析系统,如何从海量数据中提取出价值高且准确真实的数据,建立审计数据仓库和数据管理平台是电网企业需要解决的首要问题。

(2)急需研发大数据分析审计软件。目前营销审计线索的多样化,原有的审计方式已不适合,需要结合大数据分析理论以及机器学习方法,利用关联分析、聚合分析、分类分析等数据挖掘算法建立针对不同业务方向上的可扩展、可重复使用的营销审计模型,以适应庞大的审计数据分析任务。

(3)审计人员自身素质亟待提升。在大数据背景下,电网营销模式和规模的不断发展,营销知识也是日新月异,对营销审计工作人员的专业知识和综合素养都提出了更高的要求。大数据信息获取,找到针对性强、最有效的数据,以及数据分析建模、结果是否具有广泛适用性,這些都对审计人员提出了新的挑战。

2 数据构成

近年来大数据广泛的应用于各行各业,按照南方电网公司企业级信息系统建设思路,依托公司企业信息集成平台,在公司总部和公司系统,建设了财务(资金)管理、营销管理、资产管理、协同办公管理、人力资源管理、综合管理六大业务应用。其中营销管理应用正是结合信息技术对原有传统营销数据的集成和管理。营销域业务数据,即营销管理系统自身处理的业务数据,包括抄核收管理、业扩管理、计量管理、客户服务、线损管理、市场交易管理、用电检查、营销稽查管理等业务数据。另一类为跨系统协同数据,即营销管理系统与其他业务系统集成的数据,包括营销系统和财务系统、物资系统、计量自动化系统的集成数据。

3 关键技术

3.1 Kafka消息系统

Kafka使用Scala语言编写,是一个高性能跨语言分布式发布/订阅消息队列系统,具有以下特性:快速持久化,可以在I/O的系统开销下进行消息持久化;高吞吐,在一台普通的服务器上既可以达到10W/s的吞吐速率;完全的分布式系统,Broker、Producer、Consumer都原生自动支持分布式,自动实现负载均衡;支持Hadoop数据并行加载,对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。

Kafka通过Hadoop的并行加载机制统一了在线和离线的消息处理。Apache Kafka相对于ActiveMQ是一个非常轻量级的消息系统,除了性能非常好之外,还是一个工作良好的分布式系统。

典型的Kafka架构图如图2所示。

3.2 ETL结构化数据处理[3]

数据管理层的数据集市中存储的是经过底层业务数据源整合清洗后的结构化数据,底层基础数据源包含大量的结构化数据和非结构化数据,存在着许多脏数据以及未整合处理的数据,在进行数据分析前需要我们先进行数据的标准化处理——即ETL转换处理,最终目的是为了提高数据分析的准确率。

ETL应用包含设计、实施、维护三个阶段。设计阶段是分析数据源和目标数据集的数据结构,制定恰当合理的数据转换逻辑;实施阶段是进行数据抽取、转换清洗以及数据装载的过程;维护阶段是对于需要定期维护的数据项目,ETL在重复执行的同时也需要根据实际情况进行维护和完善。

数据转换的主要工作是将不一致的数据进行转换,微粒数据进行聚合处理或依据业务规则进行计算处理。在数据抽取完成后就要制定数据转换规则,依据不同的业务要求进行转换处理,将结果集存储在数据仓库、数据集中为数据分析使用。

3.3 非结构化信息抽取

非结构化信息抽取是指从一段文本中抽取需要的信息,将其形成结构化的表示形式进行存储,以供查询和后续分析使用。根据技术的不同,通常分成3类算法:基于词典的信息抽取算法、基于规则的信息抽取算法和基于机器学习的信息抽取算法。

基于规则的信息抽取的结果准确性比较高,抽取结果比较可控,但是劣势也很明细,就是使用比较受限,每次新的需求都需要重新制定规则。

基于机器学习的信息抽取算法主要有隐马尔可夫模型HMM、最大熵隐马尔科夫模型、条件随机模型CRF等,这里我们主要采取条件随机模型CRF。条件随机场模型是拉弗蒂在2001年根据熵模型和隐马尔可夫模型提出,用来标记和分割有序数据的一个判别概率无向图的学习模型[4]。

设G=(V,E)是一个无向图,Y={Yv|v∈V}是以G中节点为索引v的随机变量Yv构成的集合。在给定X的条件下,每个随机变量Yv服从马尔可夫属性,即

3.4 数据挖掘审计算法

营销大数据审计中应用的数据挖掘算法繁多,常用的算法有关联分析、K-sigma异常检测、决策树等。本文主要介绍关联分析在营销大数据审计研究中的算法逻辑[2]。

关联分析技术应用于各种领域,通过对数据的关联性进行分析和挖掘,为决策制定提供参考价值。

Apriori算法是一种用于挖掘频繁项集的基本算法,也是关联规则所常用的经典挖掘算法之一,它使用一种称作逐层搜索的迭代方法。

该算法需要对数据集执行多个步骤。第一步,仅计算包含一个元素的所有项目集的出现频率,并找出不小于最小支持度的项目集,即最大一维项目集。从第二步开始循环处理,直到不再生成最大项目集。循环过程是:在步骤k中,根据步骤k-1中生成的(k-1)维最大项集生成k维候选项集,然后搜索数据库,得到该项的项集支持。候选项目集,并将其与最小支持度进行比较,以找到k维最大项目集。

由于计算候选集的成本相对较大,而引进了修剪技术提高生成所有频繁项集的性能。修剪策略基于定理“所有频繁项集的非空子集都是频繁的”。如果某个候选项集有一个子集不属于最小支持度项目集,则该项目集可以被去除,这样可以显著提高计算所有的候选集的效率。

事务数据库:设I={i1,i2,……im}是一个全局项的集合,事物数据库D={t1,t2,……tn}是一个事务的集合,每个事务ti(1≤i≤n)都对应I上的一个子集,例如t1=(i1,i3,i7)。

关联规则:关联规则表示项之间的关系,是形如X→Y的蕴含表达式,其中X和Y是不相交的项集,X称为规则的前件,Y称为规则的后件。

例如{cereal,milk}→{fruit}关联规则表示购买谷类食品和牛奶的人也会购买水果。通常关联规则的强度可以用支持度和置信度来度量。

支持度:支持度指生成规则的条件项和结果项同时发生的概率,表示该条规则的覆盖率,即该条规则的重要性。

support(X→Y)=P(X∪Y)=

置信度:置信度表示Y数据出现后,X数据出现的可能性,也可以说是数据的条件概率。

confidence(XY)=P(X│Y)=

提升度:提升度体现X和Y之间的关联关系,提升度大于1表示X和Y之间具有强关联关系,提升度小于等于1表示X和Y之间无有效的強关联关系。

强关联规则:满足最小支持度和最小置信度的关联规则。

关联规则的挖掘目标是找出所有的频繁项集和根据频繁项集产生强关联规则。对于Apriori算法,目标是找到所有频繁项集。因此,对于数据集中的频繁数据集,我们需要自定义评估标准以查找频繁项集,支持度就是重要的评估标准之一。

4 大数据背景下的审计流程

4.1 建立信息处理应用平台

建立审计平台,主要分四个交互逻辑层,分别为:业务数据源、公司数据中心、数据管理层、应用层。建设审计数据集市主要来源于公司数据中心的数据管理层,该数据由公司数据中心通过数据调度工具从各省级数据中心和业务系统数据库抽取各业务域的数据,存储在GP数据库里;GP库按各省数据集市的需求定时推送业务数据,各省数据集市形成的成果数据推送到网级数据集市。应用层通过数据管理层的数据集市调取不同业务数据建立审计模型进行数据分析,大数据的管理和应用可以在相关的审计项目中反复使用,并在实际应用中不断改进。后台支持的审计模式可以有效解决公司内部审计人员不足的问题,提高审计效率,确保审计质量。

4.2 基础数据处理

大数据信息化背景下数据信息化是首要步骤,电力营销数据包含了结构化和非结构化数据。结构化数据即各个系统中存储的数据,这些数据往往直接保存在不同类型的数据库中,而非结构化数据则是在业务处理过程中的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等不方便用数据库二维逻辑表来表现的数据。这类数据就需要我们运用非结构化数据抽取技术来进行对关键审计数据的抽取,转化为易于进行大数据分析的结构化数据[2]。

以业务数据源为基础,利用ELT数据清洗转换技术,对元数据进行标准化按照业务审计规则转换处理建立审计数据库,将公司内部数据和外部数据进行归集,形成审计数据仓库,推送至网级审计数据集市。

4.3 大数据分析应用

在数据管理层,网级审计数据集结合省级审计数据集构成了我们审计数据的基础数据集合,定期从下级各公司数据中心抽取数据更新。应用层为审计平台,提供了大数据审计分析功能,构建各个审计模型模块为审计人员调用。

(1)关联分析。是一种常见的数据挖掘算法,它可以利用关联规则来发掘数据之间隐藏的相关联系。通过量化的数字化数据来反应数据项A的出现对数据项B(或多个数据项)的出现有多大的影响。在实际的电网营销审计中,线损异常分析就可以用到关联分析算法。以同期线损数据为基础,融合计量自动化数据、用电信息数据等,针对同期线损异常台区,对终端的有无功、功率因素、电压、电流,客户的开表盖次数、火/零线电流等各数据项之间的隐含关系,可以分析查找线损原因,提高线损达标率。

(2)均值和标准差是统计学应用最广泛的统计量,运用K-sigma异常检测统计分析技术进行营销数据的审计。如在用户抄表审计过程中的抄表管理,针对抄表区在审计时间段内的抄表次数,抄表间隔时间等数据的统计,计算出抄表均值及标准差。抄表均值反映了该抄表区域的整体抄表情况,而标准差则体现了抄表的差异度;那些超出抄表均值标准差较大的数据既是审计意义上的异常情况,也就是最有可能出现问题的地方。

(3)趋势分析,在大数据分析中被广泛的应用在各个行业,描述了分析数据在时间维度上的趋势变化,可视化方面主要以柱形图、折线图来体现。在实际营销审计中,可以应用于用户电量波动分析、基本电费缴费波动分析等,通过异常走势数据,进一步排查锁定问题点。

(4)决策树算法。通过历史数据自动推导出对事物发展规律基于给定数据的推广性描述,构造一个分类函数或分类模型(分类器),该模型能把满足一定特征的数据归为特定的类别。可以用于预测事物在未来的发展状况,判定其在未来某时刻将呈现的状态。例如我们利用营销数据对用户的是否窃电进行稽核审计,通过审计数据仓库,在海量营销数据中使用决策树模型方法建立用户是否窃电的模型,根据模型实现窃电用户的自动分类识别,发现异常用电客户,挽回电费损失。

(5)回归分析。和分类预测类似,回归分析也是从历史数据中自动推导出对事物发展规律基于给定数据的推广性描述;不同的是回归分析的目标是数值型指标,构造的模型是一个回归函数;用于判定给定特征的数据的目标应该达到的数值,而非状态。利用海量的电力营销历史数据即可构建多种回归预测模型。如某电价类别下用户的用电量预测,对该审计用户的历史用电数据建立训练模型,可以得出用电量合乎规律的连续性预测数据,通过折线图来展示;模型建立后根据模型预测数据来检测用户整体用电量数据,通过真实用电量曲线与预测用电量曲线的对比,有差异的区间数据可以用来判定检查被审计用户是否存在违反实际电价类别的售电价格违规行为。分析不同电价类别下用户实际月发行电量超过一定的阈值的进行异常预警。例如用户名执行的电压代码为居民生活1-10KV,而发行的电量很高,存在明显的高价低用的特征,很有可能是商业用电而执行居民照明电价。

4.4 建立審计模型案例库

在经过数据抽取、清洗转换、分析后,我们根据审计业务规则建立了不同的审计模型,审计人员验证后最终形成审计案例,固化在审计平台中,实现审计结果的可持续性,例如:线损审计模型、电价类别审计模型、窃电用户模型等。这些模型可以实时地、持续地监控业务数据,发现业务环节中可能潜在的违规和风险,防范类似问题的发生。

5 营销大数据审计分析案例

涉及计量自动化数据的营销审计分析是营销大数据审计的典型代表,由于计量自动化数据非常庞大,如果对全省数据进行研究应用,整个模型的算力和性能都会大大降低,经过分析论证后,本文计划采用一个供电所的数据进行模型研究及验证,后续应用将充分发挥网公司数据中心的技术支撑,应用大数据平台的Kudu技术实现大数据算力支撑,解决算力及性能的约束,实现全省应用的营销大数据支撑。

5.1 案例一:计量自动化最大需量值异常

异常条件:大工业用户,计量自动化系统月冻结最大需量与计量系统需量日冻结值最大值不一致。

所需数据表:营销域:用电客户、计量点、计量点运行电能表关系、运行电能表、抄表信息。计量自动化系统:运行电能表日冻结电能量、运行电能表月最大需量。输出结果见表10。

5.2 案例二:营销与计量抄表示数不一致

异常条件:营销系统电量的抄见示数和计量自动化的示数不一致。

所需数据表:营销域:用电客户、计量点、计量点运行电能表关系、运行电能表、抄表信息。计量自动化系统:运行电能表日冻结电能量、运行电能表月最大需量。输出结果见表11。

5.3 案例三:最大需量值异常

异常条件:按需量计收基本电费,营销系统与计量自动化最大需量值不一致。所需数据表:营销域:用电客户、计量点、计量点运行电能表关系、运行电能表、抄表信息。计量自动化系统:运行电能表日冻结电能量、运行电能表月最大需量。输出结果见表12。

5.4 案例四:大工业暂停期间仍产生电量

异常条件:单变压器用户,业扩流程中申请办理暂停业务,计量自动化系统在变压器暂停期间有表码示数。所需数据表:营销域:用电客户、计量点、计量点运行电能表关系、运行电能表、业扩工作单基本信息、核算运行变压器信息。计量自动化系统:运行电能表日冻结电能量、运行电能表月最大需量。输出结果见表13。

6 结语

大数据背景下电网营销审计模式的建立,可以大大提高审计效率,避免了常规审计的局限性,实现了海量数据协同分析的可持续审计。结合大数据技术不但打通了从上至下的数据链路,为营销审计提供了一种创新且有效的审计手段,对审计工作产生了积极的改善效果,加强了营销审计力度。也提高了审计数据质量,提升了数据分析能力和审计洞察力,真正实现了“让数据说话”,审计研判更加实际客观。

参考文献

[1] 胡新玲.基于“互联网+”审计云的企业电力营销数字化审计[J].企业改革与管理,2018(17):140-141.

[2] 刘悦.大数据背景下供电企业营销审计研究[D].济南:山东财经大学,2018.

[3] 张莉.浅议在ERP系统中工程物资管理的几点问题[J].中国电力教育,2011(06):87-88.

[4] 唐钊.条件随机场模型在中文人名识别中的研究与实现[J].现代计算机(专业版),2012(21):3-7.

猜你喜欢
数据挖掘大数据
基于并行计算的大数据挖掘在电网中的应用
大数据环境下基于移动客户端的传统媒体转型思路
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究