施永益 凌卫家 夏洪涛 成敬 周赵悦
摘 要:隨着电力大数据的发展,在运营监测工作中引入量化分析技术,实现数据化的工作方式,也成为运营监测工作的趋势。而由于电力公司业务复杂性和公司数据化状况的局限性,电力大数据的实际应用在一定时期内还将存在多种多样的障碍题,因此需要一个具有一定普遍意义的方法论,为这类应用研究提供依据。本文以运营监测数据分析为中心,基于电力公司的业务和数据,从业务应用场景分析、分析方案设计、数据通道设计、数据分析、业务分析等几个方面描述一个切合电力公司数据化生产经营发展状况的数据应用方法论。
关键词:数据分析 数据应用 方法论 电力大数据 运营监测
随着国网公司资产和业务规模扩大,电力运营监测(控)部门仅仅依靠基于指标数据统计辅助业务分析,通过经验阈值实现异动监测的传统工作方式已经难以应对运监工作要求。近年来,电力业务数据不仅体量剧增,实时性提高,并且来源多样,结构化程度不一,且数据间关系错综复杂,形成了电力大数据。基于大数据分析的运监工作,关键在于汇集各业务的关键数据,结合实际应用需求建立数据分析模型,为当前业务指标提供支撑和指导。这个过程也就是数据化运监工作的典型方式。本文基于运监工作特点和电力大数据实践探索提出在运监工作中开展电力大数据应用的方法论,该方法论旨在为电力公司开展运监大数据分析应用工作提供技术路线和实施依据,着重对电力公司大数据现状中存在的难点进行分析。
一、电力公司数据应用工作基本导向
借鉴于企业信息化工作过程中面对的困难,数据化的进程同样首先面临着长远目标和当前急需解决问题的矛盾。本文认为,基于当前电力公司中迫切的应用需求与薄弱的数据基础之间的普遍矛盾现状,业务应用是电力公司开展数据应用研究的基本导向。电力数据应用研究以数据挖掘的三个基本支撑为总体原则,即具有实际应用意义的业务、完备的数据、正确的数据分析方法。
二、基本流程
本方法论所遵循的流程,以CRISP-DM提出的数据挖掘分析标准流程为基础,并结合了电力公司组织运营特点。这是一个数据为核心的往复的过程。在上述业务、数据、方法三个方面的支撑下,首先以解决业务中的实际问题为目的,据此提出数据需求,打通一定范围的数据通道,实现局部的数据融合、贯通,开展数据挖掘分析,再将分析结果返回业务,解决实际问题,实现业务闭环。
三、人员角色
一个电力大数据运营监测应用研究,主要研究环节有确定分析场景目标、制定数据分析方案、数据通道获取、数据挖掘分析、业务分析等;参与的人数可以视研究规模、人员能力构成而定,但至少需要以下角色:业务专家、数据管理技术人员、数据挖掘分析人员、运营监测(控)人员。在研究工作的不同环节,分别由不同的角色担任主导。
四、确定场景分析目标
这一过程的阶段性目标是制定具有业务价值并切实可行的分析目标。主要内容有:基于业务现状和规划进行业务需求讨论,从对目前和未来工作的意义、持续分析价值、分析机制清晰程度等方面对分析方向进行评估;基于数据来源进行数据条件分析,从数据可获取性、数据时间跨度和数据量及质量、可持续获取行等方面进行评估。通过对业务和数据的反复讨论分析,逐步细化和明确,落实业务需求并确定相关数据条件,从而确定切实可行并具有当前和未来价值的分析目标。
五、制定数据分析方案
制定数据方案的依据是针对需求目标的业务逻辑、从业务逻辑中产生数据逻辑,主要解决的问题有:提取业务逻辑并细化至可执行的步骤、基于业务逻辑建立数据逻辑。
六、确定数据通道、获取数据
数据通道的贯通确保数据分析人员能够真正获得所需的数据。鉴于目前公司尚未形成公司级的数据支撑通道,这是整个项目中难度最大的环节,其关键在于以下四个层面:管理层面,解决共享权限、存储空间和权限等问题;业务层面,在提取使用数据前充分了解其业务内容及业务相关的数据特点和数据关系;技术层面,从业务系统实施、维护人员的技术支持、网络数据抓取技术等技术层面解决各种来源和种类数据流动过程中的实际问题;执行层面,进行数据的获取和存储,其中涉及到不同单位的协作。
七、数据分析
经过前述步骤制定了切实可行的分析目标,提取业务逻辑,映射到数据逻辑,并获取到数据,以供分析人员取用。至此,可以进入数据分析阶段。从广义上来说,数据的准备(清洗、探索、预处理)、模型构建等均为数据分析中的不同环节。对电力大数据应用研究而言,这些环节也是必不可少的。
1.工具选择。工具的选择与组合使用,与具体任务、工具运行环境有关,也与承担人员组成相关。因此,在选择数据处理与分析工具时要作综合考虑这几个方面,以期合理高效搭配。
2.数据准备。这一阶段通过更为系统科学的方法,进一步检查数据质量,并对数据进行清洗整理,使其能够满足分析工作的要求。主要包括对各项数据分别进行抽取、清洗,根据数据业务内容检查数据的唯一性、完整性、数据范围、区间、有效性、数据维度等,并进行数据的整合、一致性校验等;随后为后续分析准备有效数据集,如:数据离散化、数据聚集、属性再构、标准化、数据量化等数据转换处理;数据规约消减;数据变量计算等。
3.模型构建。模型的构建基于对业务目标和数据的理解、实际的数据质量、数据清洗和处理效果,采用选定的数据分析方法构建和评估模型,并可能需要根据模型表现和结果,返回数据预处理甚至数据清洗过程,进行调整、反复;若有必要,还可能需要返回数据抽取过程,对数据的抽取进行补充、修正。直至确定模型。
3.1模型构建技术的选择。技术方法选择的总体原则是:依据具体的业务目标、支撑该目标的业务逻辑、实际的数据条件,其基本路线如下图所示。
技术选择与数据准备是交互的过程。一项分析任务往往被拆解为多个问题,根据每个问题的性质,结合各种技术方法的适用条件为其进行选择;同时,由于不同的技术方法往往对数据的结构和条件具有自己的要求,因此常常需要在这一阶段有针对性地再作更多数据准备处理工作。
3.2.电力数据常用的数据挖掘分析方法。电力数据有自己的特点。首先,电力数据常常具有相当明显的时间规律性,例如用电负荷数据;更主要地,电力服务业务线长,数据门类繁多,内容浩瀚纷繁,数据关系更是错综复杂,因此更多的是研究多变量之间的关系。常用的分析方法包括:统计描述、对应分析、相关性分析、因子分析降维、主成分分析降维、聚类分析、判别分析、时间序列分析、方差分析和各类回归,以及决策树、神经网络等等。数据挖掘分析人员将在研究的不同阶段根据掌握的分析目标、数据情况进行选择和调整,直至最终确定模型。
八、业务分析
将模型结果返回业务环境,即在具体应用场景中对模型计算结果进行业务解释。据此提出对业务的指导、对决策的建议,从而实现项目从业务回归业务的闭环路径。
九、结语
本文所提出的电力大数据运营监测应用方法论,从电力公司现状出发,响应电力业务和电力大数据蓬勃发展形势对运监工作提出的需求和挑战,以科学的数据挖掘分析方法为依据,并结合电力公司目前以及未来一段时间内将仍然存在的实际状况,充分地考虑到其中在管理、业务、技术等不同层面造成的难点,因此具有一定的可推广性和可沿用价值。但由于各具体供电单位的实际情况不同、各项研究的目标和数据条件不同、人员技术组成不同,在运用时需要加以适当的调整,以便取得最为切合实际的研究效果。
参考文献:
[1]隋春明, 宋磊. 电网运营监测(控)信息支撑系统的应用[J]. 吉林电力, 2015, 43(3):38-40.
[2]范玉顺. i时代信息化战略管理方法[M]. 北京: 清华大学出版社, 2015.
[3]CRISP-DM Consortium, “CRISP-DM 1.0. Step-by-Step Data Mining Guide,” 1.0 Edition, SPSS, 2000.