邱爽
摘 要:科技的发展使数据的积累速度大幅提高,如何有效利用这些海量数据已成为影响企业核心竞争力的主要因素。本文通过大数据分析电力系统营销数据,以提升供电企业的服务质量,指引供电企業的发展方向。随着大数据处理技术的发展、供电数据的积累及政策的导向,供电企业可以提出具有前瞻性的供电解决方案,获得更为准确的用电需求信息,提高供电企业运行效率,提供企业管控能力。
关键词:供电企业;大数据分析;大数据处理;用电信息;处理效率
中图分类号:TM93 文献标识码:A
大数据(Big Data)又称为海量数据,这些数据在未经处理前不具备任何参考价值,无法作为参考或辅助决策的依据。但这些数据只要经過恰当的处理与分析就能将海量数据转化为有参考价值的数据,从而提升企业的服务水平及竞争力。
大数据的分析及应用与现今生活息息相关,涉及交通、购物、天气、刑侦、电力等众多领域,将不同类型的数据收集并加以分析,极有可能挖掘出以往不为人知的信息与模式。
例如在不侵犯个人隐私法规的前提下,利用数字医疗记录进行健康趋势分析或疾病关键因素分析与控制等,通过上述数据即可建立周围因素与健康之间的关系模型;网上购物网站利用数据分析可找出消费者喜好的产品,通过系统向消费者推荐同类商品,增加消费者购买的可能性;电力系统大数据分析从用户注册、缴费完成(包括现金缴费、银联缴费、代扣等)至核销对账的完成,所有类型数据均存储在系统中,构成电力营销系统大数据,使企业的信息管理更加便捷,同时能有效的识别和分析潜在风险,并制定相应的防范措施。
1 大数据的概念及意义
大数据又称海量数据,是指无法在一定时间内用常规软件处理的数据集合。
近年来,随着大数据处理与应用技术研究的深入,如何将大数据转换为企业生产力和竞争力是目前电力企业改革的趋势。
目前,对大数据的定义应具有以下5V特点:
1.1 数据量
数据量是大数据的最基本特征;物联网数据及使用者主动、被动分享的数据快速的累积,很容易是数据量达到TB或PB等级;海量数据给处理工作带来了挑战,不仅是数据的提取,资料的管理与存储,更重要的是有效挖掘出隐藏在此数据里的重要信息。
1.2 多样性
大数据不仅强调数据量的大小,还涉及数据类型的改变,具体可分为三类:结构化数据、半结构化数据以及非结构化数据;所谓结构化数据可用二维表结构表述,并可存储在数据库中,而非结构化数据将无法以预定的数据模型存入数据库表中。
1.3 数据的时效性
传统的数据分析注重对历史数据的分析与挖掘,并且所有分析数据都以日或月为基准单位产生,然后进行生产计划决策,但随着技术更新速度的加快,这类过长的历史数据以无法满足市场的需要,所以企业必须实时分析所拥有的最新数据。
1.4 数据的可靠性
过去数据在分析前均经过预处理,可保证数据的可靠度,如果处理企业实时数据,数据测量往往受到不同外在因素影响而产生不同形态的误差,甚至测量数据不完整,导致品质不良,影响分析结果。
1.5 数据价值
所收集的大数据期望可以带来能被利用的价值,将大数据经过适当的处理分析,进而得到各种应对方法。
针对供电企业的海量数据,传统的通过单机处理或使用一般数据库进行处理和分析已经不能满足企业的需求。
基于此,本文以Hadoop分散式平台与Hadoop两大核心技术——MapReduce分散式算法与HDFS分布式文件系统,对供电企业大数据进行存储、处理与分析。
2 供电企业大数据处理平台
Hadoop是针对MapReduce框架所实现一个具有分散式运算框架的开放式平台,包含有著名的分布式文件系统(HDFS)、分散式数据处理框架(MapReduce),分散式以Column-Oriented数据存储系统(HBse),提供可靠、高效、可伸缩的分散式处理平台。
2.1 分散式储存
通过Hadoop将数台电脑布置用于采集企业运行数据,并将数据存储在由HDFS自动分配的数据存储区,并建立备份,防止用于采集的电脑发生故障或错误时造成数据丢失,提高容错性。
2.2 分散式运算
Hadoop平台采用原始的MapReduce分散式处理方法处理结构化大数据,并利用分布式电脑归集分散的运算,将运算工作分割成许多任务分散在各个执行。提供高度的可靠性运算,降低网络传输需求基负载平衡。
虽然HadoopMapReduce在大数据处理密集型批处理数据上非常成功,但由于每执行一个MapReduce任务需要在数据收集环境内,初始化一个任务并通过网络指派工作内容,且每次MapReduce任务执行完毕后都需要执行I/O任务,将结果输出至HDFS。因此,MapReduce不适合在低延迟要求或高迭代运算上应用。
Spark是一种机遇内存运算框架且与Hadoop兼容,Spark的运算特性适合迭代运算,Spark再函数运算后并不会将结果输出,减少I/O任务执行次数,进而增加效率,因此Spark特别适合于反复迭代的机器学习机算法及交叉式对比分析。
2.3 分散式数据库
NoSQL根据存储方式可分为Key-value数据库、Column-oriented数据库、Document-oriented数据库及Graph-oriented数据库。
3 供电企业大数据应用案例
目前很多行业已经采用大数据解决方案来处理海量数据带来的各类问题,且各自发展出具有前瞻性的应用,这些企业以Hadoop作为其处理海量数据的平台,例如:
1)供电企业将售电数据记录文件导入至具有600节点的Hadoop数据库中存储,进行用电信息分析,供电峰值分析和售电价格分析等;
2)供电企业对用电信息进行统计整理,寻找出用电客户的特点,利用大数据对电能进行精准营销,对用电大户采取避峰开工的用电建议,维护电网安全运行。
3)根据用户用电数据、电網故障数据及电流峰值分析,判断电力系统中最易发生故障的环境,在电力检修过程中重点检查。
4)根据企业用电特征及电网运行特点,制定最适合企业经济性和电力系统安全的用电规则,使企业经济效益最大化,同时还能保证设备供电电压的穩定性和可靠度。
在数据处理过程中,协同过滤是大数据处理中最常用的方法,其主要是利用使用者对使用者或物品对物品之间的相似度去预测使用者对某种物品的评分。
因此,协同过滤可分为两部分,第一部分为基于使用者的协同过滤,第二种是基于物品的协同过滤。两部分的流程相同,只是一个针对使用者,另一个针对物品。
4 供电大数据系统结构
随着科技的发展,数据的收集与处理系统将成为企业未来解决方案及竞争力的核心基础,其包含四大技术即时串联分析、建模统计查询、分散存储提取、服务整合包装,提供电力企业从生产到销售整个过程的数据收集,分析直至效率统计与预测,具体技术如下:
4.1 即时串联分析
该技术系统主要构建于即时分析软件Apache Storm上;Storm是一个以分散式、容错、连续即时串联处理为目的的免费开源软件,可简单、可靠的处理大量的数据。适合以Strom开发的应用类型如:即时分析、线上机器学习、持续运算、分散式RPC等等,Strom具有高度容错性,保证每次数据都会处理,而且速度很快。另外对于使用者来说,Strom的设置与维护运行都非常方便,并且可以使用多种语言编写应用程序。故Strom具有以下重要特性:编写结构简单、可快速扩展性、高可靠度、高容错性、支持多种程序语言开发。
4.2 建模统计查询
该技术主要建立统计软件R与其相关的整合工具Deploy;R是一个程序语言、统计计算与绘图的整合环境,提供非常多的统计工具,包含线性与非线性模型、统计分析、时间序列分析、分类分析、集群分析等工具。其特点是免费、开放且占有率高,可实现跨平台运行,包括Windows、Linux等多种平台。
4.3 分散存储提取
该技术建立在HDFS之上,HDFS是Hadoopecosystem中数据存储管理的基础,将分散的储存数据整合成一个具有容错能力、高效率且超大容量为一体的储存环境,在Hadoop系统中大量的数据和运算时产生的暂时数据,都存放在这个分散式的档案系统上。
4.4 服务整合包装
该技术主要搭建在Node.js之上,Node.js是为一个事件驱动I/O伺服端的JavaScript环境,目的提供撰写可扩展的网络程序,如Web服务。是一种高效,易扩展的网站应用程序开发框架。
为了让开发者能够更好开发高延展性的网络服务,不需要经过太多复杂的调校、效能调整及程序修改,就能满足网络服务在不同发展阶段对效率的要求。
实际的能效实时监控,收集供电企业供电数据,并经过收集伺服器运行串联分析等技术模块对该运行数据进行提取、生产管理数据对比、统计分析处理、预测建模等步骤,以即时监控供电网络的运行效率,当供电数据超过由预测模型给定的安全范围时,给予效能异常的即时报警处理。
5 结论
在大数据时代如果能分析出有价值的信息,就能为企业带来更大的竞争力,同时为企业的发展指明方向。
就供电企业而言,精准的用电数据可给出发电企业准确的发电数据,从而使发电企业以最优化的配置进行电能生产,在保证用电企业正常运转的同时,使发电企业经济效益最大化,从而降低能耗,实现节能减排的目的。
此外,从大数据分析中提取出的有用信息可帮助供电企业指明企业的发展方向,同时可提高供电企业的服务水平及供电品质,提高企业竞争力。