陈章良
[摘 要] 数据挖掘是一门新兴的数据处理技术,是当前热门的一个研究领域。本文简要介绍了数据挖掘的概念,论述了基于数据挖掘的预测决策模型建立、实施和效果评估,最后对基于数据挖掘的预测决策模型在电力营销系统中的应用作了实证。
[关键词] 数据挖掘;预测决策;电力营销系统
[中图分类号]F270.7;F272.3[文献标识码]A[文章编号]1673-0194(2009)01-0057-03
1 引 言
随着数据库、网络等技术的迅速发展,人们积累的数据越来越多,需要有新的、更有效的方法对各种大量的数据进行分析、提取以挖掘其潜能,数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,它的出现为智能地把海量的数据转化为有用的信息和知识提供了新的思路和手段。
随着电力市场的改革和发展,供电企业越来越需要对用户侧需求、发电侧需求以及第三方需求进行科学预测决策,以便为供电企业运营提供科学依据。
2 数据挖掘技术
数据挖掘(Data Mining,DM),就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘也可称为数据库中的知识发现,它是从大量数据中提取出可信的、新颖的、潜在的、有效并能被人理解的模式的一种高级处理过程。数据挖掘是按照企业既定的业务目标,对大量的企业数据进行探索,揭示隐藏其中的规律性,并进一步将之模型化的先进、有效的方法。
数据挖掘是从数据中发现有用知识的整个过程,如图1所示。整个数据挖掘过程是由若干挖掘步骤组成,其主要步骤有:数据清洗、数据集成、数据转换、数据挖掘和知识表示。
3 预测决策模型
预测决策系统根据历史数据对未来数据进行预测,同时根据天气因素/节假日因素等调整预测结果。任何一种方法只是数学上的一种理想的模型,很难用一种或几种预测决策模型描述所有的变化规律。因此建立预测决策的方法库,以尽可能多地预测决策模型,满足事物发展规律多样性的需求,其中既包括被企业预测人员所经常采用的常规方法,也包括一些比较新颖的预测决策方法,如人工神经网络法等。
提供对预测决策所用的历史序列进行不良数据的检测与辨识,有效地提高精度。预测人员可以结合具体情况灵活选用较为合适的预测决策方法,对多种方法的预测结果互为比较,再进行合理的综合分析,得出最终的预测结果。充分考虑影响预测结果的多种因素,如气象因素、日分类(正常日、国庆、春节等)、星期类型(周一至周日)等。
预测决策系统为4库结构:数据库、算法库、模型库、综合分析库。数据库中存储有关的历史业务指标,算法库/模型库保存了对预测决策模型的管理,综合分析数据库保存了进行组合预测决策的相关信息。预测决策系统基本结构如图2所示。
4 基于数据挖掘的电力营销预测决策系统
电力营销管理信息系统涵盖供电企业用电营业管理的全过程业务,包括电量电费、业扩报装、计量管理、用电检查和综合管理等。整体系统框图如图3所示。
对于一个中型地市级的供电企业,电力营销管理信息系统一年积累电量电费、业扩报装、计量管理、用电检查数据至少2GB,一般供电企业至少保存3年以上历史数据。预测决策层为制订营销管理目标及营销预测决策提供科学的依据,即从这些大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。
4. 1预测决策模型
预测决策的模型可以分为3类:初级模型、常规预测模型、专用模型,根据电力业务分析人员的实践经验,针对电量、电费等预测指标在年度、季度、月度等不同的时间单位上总结出一些独有的预测决策模型(详见图4)。
不同地区、不同时间、不同行业的负荷变化规律是不同的,很难用一种或几种预测决策模型描述所有的变化规律。建立预测决策的模型库,使得用户可以自定义预测决策模型中的参数,可定义各种新增加的预测决策模型。这种开放为用户提供了充分的空间,将人的经验与计算机有机地结合起来,从而保证了预测决策的精度。
4. 2预测决策策略
每一种预测决策模型都代表了一种发展规律,预测决策模型越多,预测决策人员的选择余地越大,预测决策结果越精确。系统提供的预测决策方法库中既包括了被电力系统预测决策人员所经常采用的常规方法,如一元及多元线性回归、滑动平均预测、指数平滑预测,也包括了一些比较新颖的预测决策模型,如人工神经网络模型等,并且对一些预测决策模型进行了改进,如改进的Winters-dm模型。同时针对电力业务分析人员的实践经验,总结出一些独有的预测决策模型,如模式分解预测决策法。
预测决策人员可以结合具体情况灵活选用较为合适的预测决策方法,对多种方法的预测决策结果互为比较,再进行合理的综合分析,得出最终的预测决策结果。
(1)基于模型库的预测决策模型管理。建立预测决策的方法库和模型库,将人的经验与计算机有机地结合起来,从而保证了预测决策的精度。
(2)组合模型预测决策技术。对于电量、负荷等序列量的预测决策,预测决策人员可选择的模型是多种多样的。数学模型是理想抽象,负荷发展的自然规律很难用单一数学模型加以描述,任何单一的预测决策模型的精度不可能很好。无论是从预测决策人员方便地选择模型的角度,还是为了提高预测决策的精度,都需要研究如何将不同种模型进行有机的组合,即综合模型,才能形成对电量、负荷发展自然规律的更贴切或完备的描述,提高预测决策的精度。
(3)预测决策过程控制技术。在预测决策值未得到真实值证实之前,由预测决策系统得到的预测决策结果是否达到了预测决策精度的要求,是预测决策工作者迫切关心的问题。系统采用“虚拟预测决策策略”,即通过对近期已知数据的虚拟预测决策,考察该预测决策系统在数据条件变化下的预测决策结果稳定性、拟合精度和虚拟预测决策精度等指标,得到预测决策模型的预测决策精度等级,为预测决策人员提供自动选择预测决策模型的功能。
(4)历史数据的预处理技术。为了获得较好的预测决策效果,用于预测决策的历史数据的合理性应该得到充分保证。因此,需要对历史数据进行合理性分析,去伪存真。最基本的要求是:须排除由于人为因素带来的错误、由于统计口径不同带来的误差,以及历史上的突发事件或由于某些特殊原因对统计数据带来重大的影响。
(5)预测决策结果评价与自动参数修正技术。预测决策结束后,随着实际数据的产生,为了进一步提高预测决策的精度,系统对多种预测决策方法所得结果进行全面的误差分析,对预测决策结果作出评价,并对预测决策模型的参数进行修正。所有误差分析结果均保存于用户指定的信息文件中,可供随时查阅,并对以后的预测决策数据进行校正。
(6)预测决策结果的人工干预。在业务实践过程中, 预测决策人员积累了丰富的工作经验,同时由于电力工作的实际情况,有很多未来的变化并不依从历史数据规律,而是政策性的或者是人为设置的。因此系统必须提供充分的人工调整预测决策数据的手段。
4. 3系统框架
系统整体结构由3部分组成:数据仓库的架构与管理、中间应用服务器的调优与设置、前端报表分析数据的展示与设计,如图5所示。
(1)数据仓库构架与管理主要包括数据仓库系统结构的构建、目标数据的生成过程(数据抽取)及数据仓库主题数据的管理与维护。
(2)中间应用服务器由两部分组成:Web服务器与报表分析应用服务器。Web服务器采用WebLogic作为应用服务器。报表分析应用服务器采用先进的商业智能软件Microstrategy的Intelligence Server进行元数据管理与描述,通过4级缓冲技术,可及时快速实现对用户数据分析内容的提取。在主题构架与属性定制方面,通过Microstrategy的Architect构架体系,可实现对主题灵活定义,对相关属性任意增删,对在用电营销过程中新加的各种分析方法与手段可以实现自助式设计,满足系统的不断扩充需求。
(3)前端数据分析内容的展示以表格与图形相结合的方式,通过对不同分析主题,相关不同属性的多角度、多方位转换,充分运用钻取、切片等分析手段,并配以不同的经济分析方法,可辅助决策者及时快捷地了解本区域电力运营的实际状况。全面掌握电力运营过程中潜在的问题及增长点。
4. 4数据抽取
数据抽取作为数据仓库数据生成的关键步骤,在数据抽取过程中,系统提供详细的日志功能。日志内容包括数据抽取过程中对源数据正确性校验、数据抽取相关分析主题抽取情况说明,并能将最终抽取日志内容按不同单位转发给各部门相关人员,对上报数据及时更正。
审核验证后的数据经汇总、聚集后可自动插入到相应的数据表中,基础数据生成后为只读形式,前端分析人员只有分析数据的权限,任何人没有更改基础数据的权限。
5 总 结
数据挖掘技术是一种多学科相互综合、相互渗透的技术。它以传统的数据库技术为基础,运用多种手段分析数据,对海量数据进行知识发现,并进行恰当的可视化表示,是一种高效的预测决策系统解决方案。数据挖掘技术为预测决策系统的研制和开发提供了一种有效的、可行的体系化解决方案。基于数据挖掘技术的预测决策系统,利用挖掘技术,通过构建预测决策模型,对企业生产和计划的完成情况及相关环境数据进行多角度、多层次的分析,帮助企业决策者及时掌握企业的运行情况和发展趋势,并为制订生产计划和长远规划提供理论和现实指导,从而提高企业的管理水平和竞争优势。
主要参考文献
[1] 王锐,马德涛,陈晨. 数据挖掘技术及其应用现状探析[J]. 电脑应用技术,2007(2).
[2] 李丹丹. 数据挖掘技术及其发展趋势[J]. 电脑应用技术,2007(2).
[3] 李洁,滕振芳. 数据仓库及数据挖掘技术在超市中的应用[J]. 保定职业技术学院学报,2007(12).