顾敏奕,杜海舟
(1.同济大学,上海 200092;2.上海电力学院,上海 200090)
随着我国经济的迅速发展,对电力能源的需求也在以超乎想象的速度增加,从而刺激了电网企业的迅速发展,使得电力系统向高容量、超高压和跨区域方向发展.随着电网企业规模的不断扩大,海量数据得到存贮,如电网设备的状态数据、使用寿命,以及各部分参数指标等数据;新增用户、现有用户、用户位置、用户用电量,以及国家的建设计划等用户数据.这种现象也导致了“数据丰富,信息缺乏”的现状,获得的数据在经过少量应用后就被堆积起来,没有用于信息抽取,许多有价值的信息还没被发掘,这给电网企业带来一定损失.
如何利用数据挖掘技术将蕴藏在电网企业海量数据中有价值的信息挖掘出来,这是决定电网企业未来发展的关键.本文就数据挖掘技术在电网企业数据管理、信息采集等方面的应用进行分析.
数据挖掘(Data Mining)又称为数据库中的知识发现(Knowledge Discovery in Database,KDD)[1],它是指从大量的、不完全的、有噪音的、模糊的、随机的数据中提取隐含在其中、事先不知道的,但又是可信的、潜在的、有价值的信息和知识的过程.数据挖掘是一门交叉学科,涵盖了数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索及高性能计算等[2],它让数据应用上升到了新的高度,是一种新兴的数据处理技术,也是目前热门的研究领域.
数据挖掘技术的出现意味着数据库不再局限于实现数据录入、查询和统计等低层次的功能,而是可以通过对数据深层次分析,探寻数据模式及特征,揭示事物间的联系,预测未来趋势,为决策提供依据.
数据挖掘主要由数据准备、数据挖掘,以及对挖掘结果的评估与表示3个阶段组成.
(1)数据准备 从相关的数据源中选取所需的数据并整合成有利于进行数据挖掘的数据集.这一阶段可细分为数据选择、数据预处理和数据变化.许多专家认为,在整个数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段.由此可见,在进行数据分析前,有许多准备工作要完成.
(2)数据挖掘 用某种方法将数据集所暗含的规律找出来.这一阶段包括确定数据挖掘目标、选择算法、数据挖掘等.
(3)结果评估与表示 尽可能以用户可理解的方式将找出的规律表示出来.数据挖掘得到的模式并不是真正的知识,而是需要对其进行解释和评估后才能形成最终被用户理解且能用于实际的知识.
其具体流程如图1所示.
图1 数据挖掘流程
经过20年对数据挖掘技术的研究,国内外专家提出了不少算法,主要方法可以归纳如下.
(1)分类法 分类就是找出一个类别的内涵描述,用这种描述来构造模型的过程,可以用来预测未知信息,其常用的算法包括决策树归纳、贝叶斯分类算法、神经网络分类等.
(2)时序分析法 时序分析是指通过时间序列搜索出的重复发生概率较高的模式.它用已知的数据预测未来的趋势、发生的周期或前后数据之间的递进关系,其常用算法包括灰色模型GM(1,N)和Arima模型等.
(3)聚类分析法 聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异.聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系等,其常用算法包括 K-均值算法、DBscan密度算法、EM最大期望算法等.
(4)关联分析法 关联是指两个或多个变量的取值之间存在某种规律性.关联分析的目的就是要找出数据间隐藏的关联,其常用算法包括Apriori算法、基于划分的算法、FP-树频集算法等.
(5)孤异点分析法 数据库中经常存在一些不同于其他的数据对象,称之为“孤异点”,在实际问题中孤异点可反映一些特殊异常情况,具有一定的现实意义,其常用算法包括索引的算法、嵌套-循环算法、基于单元(cell-based)的算法等.
电网企业数据自身存在的特点:一是由于电力生产传输变化迅速,所以电网设备在进行数据监控时的数据采样频率很高,大部分电网设备平均每秒采样一次[3];二是电网企业是一个规模相当庞大的企业,电网企业产生的数据不仅多,而且维度高,数据列多,很难整理;三是在电力系统中,采集到的数据中包含着诸如噪音、数据缺失等不确定因素,导致数据质量差[4];四是电力供应涉及千家万户,社会影响巨大,当设备处于紧急状态时,必须制定实时在线快速决策,使设备重新回到正常状态.
电网企业产生的数据量大、质量不高,但又对数据要求较高,这就意味着电网企业迫切需要数据挖掘技术来处理海量数据,并发现数据间的潜在联系.
但目前绝大多数电网企业的数据管理模式比较单一,不同部门的数据信息由各个部门自行处理,只进行简单的参考或统计工作,没有汇总到一起进行系统的、全面的分析挖掘,导致大量有价值的信息被埋没.因此,电网企业迫切需要能够充分合理地进行数据处理的数据挖掘平台.
此外,在我国电网企业改革的大背景下,电网企业必须引入竞争机制来打破电力系统的垄断格局[5].为了能在未来的竞争中胜出,电网企业需要降低生产成本,为客户提供个性化服务,及时预测未来可能发生的变化趋势.而数据挖掘技术的应用将极大提高企业的核心竞争力.
2.2.1 在电力调度决策支持中的应用
随着电力系统的发展和电力体制改革的深化,为保证电网安全、优质和经济的运行,并为电力市场化运作提供技术支持,电力调度中心可能同时运行多个应用系统,每个系统中又可能同时包括多个应用.随着系统运行时间的推移和电力市场等新系统的投入,这些系统所产生的数据量在不断增长.同时,随着全球经济一体化的进程以及信息技术的发展,电力企业比以往任何时候都面临着更为复杂的生存环境.基于传统数据库的数据管理系统,由于未进行存储空间和检索效率的优化,未按主题进行集成和关联,且未对大量原始数据进行足够的归纳和综合,已无法满足企业对辅助决策的需要.因此,有必要采用数据挖掘技术建立电力调度数据仓库,为管理层的电力调度策略制定提供决策支持[5].
2.2.2 在电力生产决策支持中的应用
现代电力企业的发展对信息系统的要求越来越高,在过去的十几年中,我国电力企业都建立了自己的管理信息系统(如计划管理、负荷管理系统、生产MIS和GIS等),但基本局限于业务处理层,管理者和决策者只能根据固定的、定时的报表系统获得有限的业务信息,信息的准确性、实时性无法保证,无法适应管理尤其是决策的需要.
随着数据挖掘和决策支持系统技术的不断完善,可以通过建立电力生产智能分析及辅助决策系统,为管理决策者提供各种参考价值的生产安全运行方案.如将生产MIS和地理信息GIS系统中分散的大量数据,以及外部环境数据(气象信息)等资源进行组合、聚类、排序、抽取等加工,提炼升华为有价值的、支持决策的电力生产智能大厦.可以通过变电站、线路、设备、高压用户、气象等不同角度来分析关键业务和生产技术指标,掌握设备的运行状态和特性,了解设备的缺陷[6];对发生的事故、故障及停电进行分析跟踪,挖掘深层原因,从而控制电力生产的风险;指导基层保证设备完好率,支持和辅助基层做好设备更新技术,提高运行水平,降低事故发生率,提高供电可靠率和无故障运行时间;辅助支持负荷转移决策、设备检修或更新决策,让业务专责、生产主管、企业决策者作出准确的判断,使得电力企业取得最佳的社会效益和经济效益.
2.2.3 在同业对标决策支持中的应用
同业对标管理,即标杆管理,是以优秀企业或机构作为学习榜样或者标杆,对照其经营业绩或管理程序,找出本单位管理的差距所在,并参考标杆企业或机构的成功经验,制定并实施改进措施,从而提高本单位经营管理水平的一种管理活动.标杆管理有助于我国企业缩短与西方发达国家企业的差距,提升综合竞争力.
在电力改革发展的形势下,国家电网公司开展同业对标工作有利于企业学习和借鉴国内外先进管理理念和方法,为持续提高管理水平提供实现方法,更好地服务地方经济.国家电网已从安全生产、资产经营、电网运行、市场营销、供电质量、设备管理、人力资源、信息系统和基建管理9类共79项指标在区域公司、省公司和地市供电企业之间进行了对标[7],初步建立了对标指标体系.指标体系数据量庞大,信息复杂,利用数据挖掘技术对数据进行处理和分析,可以充分发挥对标工作在电网企业中的作用.
2.2.4 在安全稳定性评估中的应用
利用数据挖掘技术中的贝叶斯网络算法,根据相应的规则对系统数据进行自动分析,判断状态的稳定性概率.然后利用提取出来的安全评估知识,在系统正常运行时发现系统可能存在的隐患,以引起特别注意;还可利用可视化技术图形化地进行稳定性分析,给出提高系统安全稳定性的相应决策.
2.2.5 在规划设计中的应用
若要取得有效的系统规划结果,在进行规划设计时就必须考虑由于负荷模型不同而引起的系统多种结构及在每种结构下可能出现的故障,由此制定出保证系统安全稳定运行的规划策略,如确定相应的临界运行参数和稳定域、确定保护和控制装置的参数等.在此过程中,数据的处理量巨大,数据挖掘正是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这种模型和数据间的关系可被用来制定系统正常情况下的运行法则和发生故障时的应对策略.
2.2.6 在营销部门中的应用
在电力营销环节,针对“大营销”体系建设,抓住用户就意味着抓住市场.可以利用聚类分析法,根据不同客户的不同特点分成不同的组别,决策人员通过分析各组间的差异来决定采取不同的营销策略,以提高企业的经济效益[8].
电力市场化后,预测电价对于企业实现利益最大化有现实意义.可以通过时序分析法分析用电负荷需求、燃料价格、消费水平、物价指数等相关因素,在历史数据中对相似特性的特征元素追踪相应的电价,从而得到电价预测值[9].
此外,数据挖掘技术还可以应用于指导项目管理、安全管理、资源管理、投资组合管理,以及活动分析、销售预测、收入预测、需求预测、理赔分析等方面.
目前,数据挖掘技术理论已趋成熟,已在许多行业取得了巨大成效,但在电网企业中的应用还属初级阶段.有些应用已实现,但挖掘方法还不完善,在分析决策时还需要考虑多方面的影响,有些应用仍处于构想中.因此,我们应结合电网企业的特点,开发适用的数据挖掘平台,将理论付诸于实际应用,挖掘电力系统中有价值的数据,为电网企业创造更大的收益.
[1]BRAEHRNAN R,ALLAN T.The process of knowledge discovery in databases:a human centered approach[M].AAAI Press.Calif.,1996:37-58.
[2]王光宏,蒋平.数据挖掘综述[J].同济大学学报,2004,32(2):246-252.
[3]卢强.数字电力系统[J].电力系统自动化,2000,24(9):1-4.
[4]于之虹,郭志忠.数据挖掘与电力系统[J].电网技术,2001,25(8):58-62.
[5]张海勤,邹翔,洪流,等.电力调度数据挖掘系统的设计与实现[J].小型微型计算机系统,2003,24(1):64-67.
[6]陈超金.基于数据挖掘的电力设备状态检修技术研究综述[J].广东电力,2009,22(9):21-24.
[7]毛新蕾.对于同业对标工作的思考[J].华东电力,2008,36(3):111-113.
[8]冯璐,王成文.基于数据挖掘的供电企业客户关系管理系统研究与设计[J].电力信息化,2007,30(7):85-88.
[9]林其友,陈星莺,王之伟.数据挖掘技术在电价预测中的应用[J].电网技术,2006,23(12):83-87.