简燕红++符士侃
摘 要:数据立方体是一类多维矩阵,让用户从多个角度探索和分析数据集,即它允许以多个维度对数据进行建模和观察,数据立方体技术是数据仓库的核心技术。本文以电力系统数据统计分析工作为例,介绍了数据立方体技术的原理,研究探讨了数据立方体技术在电力系统数据统计分析工作中的运用,通过建立基于数据立方体模型的电力数据统计分析系统,不但可以实现运行轻量级数据分析工具,而且满足了当前电网建设运行数据统计分析灵活、多样的需求。
关键词:数据立方体模型 数据挖掘 轻量级工具
中图分类号:TM73 文献标识码:A 文章编号:1674-098X(2016)11(a)-0009-02
电网建设运行数据的采集与分析,是全面快速了解电网状态并指导后续工作开展的一项重要工作。电力数据统计分析需要对数据进行快速提取并进行灵活、多样的分析,现有电网中涉及电力运行分析的相关业务系统繁多,数据大部分面向业务虽有报表统计模块,却难以完全适应此需求。通过在电力数据统计分析管理系统中建立数据立方体模型,可以实现运行轻量级数据分析工具,满足当前电力数据统计分析工作的需要。
1 基于数据立方体技术数据分析模型建立
1.1 数据立方体
数据立方体是一类多维矩阵,通常一次同时考虑三个因素(维度),但并不局限于三个,在实际中常常用多个维度来构建数据立方体。
多维矩阵是数据立方体分析的基础,涉及2个重要概念:事实和维度。事实即分析的目标数据,如数量、金额等,维度即事实信息的属性,如对应的时间、设备类型、产权单位等。数据立方体是根据用户对数据挖掘的要求确定维及维层次而生成的多维数据集合。每个数据立方体是一个三维结构,x、y、z轴分别表示数据立方体的三个维度。x轴是时间轴,其时间单位是该层的统计粒度;y轴是属性轴,表示统计针对的记录类型;z轴是统计方法轴,表示采用的统计方法。
1.2 数据立方体的建立与提取
构建在数据库中的数据立方体并非如数据立方体字面意思直观,而是通过二维数据表形式进行组织与存储。通过将y轴的维度与z轴的统计值转化为二维表格中的列,x轴时间单位作为记录频率进行定期数据获取并存储到数据立方体所在数据库中。
(1)数据列重定义。大部分系统因为编码技术特点,开发人员往往使用英文字母与数字组合作为表格与字段名称,在客户展现端使用相应意义的中文显示。然而通过表格关联的字段,数据立方体视图在生成时按照计算机特点仍然使用英文字母与数字方式显示,由于需要考虑数据立方体生成灵活性,需要在数据库中针对表格和字段进行重定义,利用系统表格进行表名和字段名称中文与字母的映射,满足用户随意利用系统表关联建立视图工作方式。
(2)计算列实现。数据立方体中的指标列,既可以包含个数、长度、金额等原始表格数据列,也可以包含诸如平均数、求和、乘积等计算值。可利用数据库定义的多种函数进行计算列生成。
(3)维度递进实现。由于一些维度存在一定的层次结构特性,故而维度的定义与组织往往使用树状层次结构实现。递进维度是多个相关维度相互嵌套的一种形式,是实现数据立方体数据切块或切片的基础,通过组织好维度的树状菜单,可实现基于维度树的数据向上向下切片功能。
在数据提取上采用手工提取与系统获取相结合,通过系统统计周期即数据立方体中y轴频率对数据立方体中数据进行上一周期数据进行复制到本周期默认数据,相应数据管理单位通过对默认数据的修改填报完成各个数据立方体数据的填充。数据立方体主要采用自动化生成,由于电力数据统计分析数据管理需具备闭环管理功能,故采用数据自动生成,通过任务接收、提供对外标准接口,提供不同系统条件下数据填报由人工转入自动化接口。
2 系统构建
本系统通过B/S结构进行开发,用户客户端通过浏览器进行操作,服务端进行数据的存储和对外发布管理,实现基于省市县三级管理单位电力运行分析数据设备、缺陷、业务等数据的填报和报表统计分析管理。系统使用三层结构开发,分为数据层、逻辑层和应用层。数据层负责基础台账数据的存储,使用SQL SERVER 数据库进行管理,逻辑层负责数据填报与统计数据库操作逻辑与结果反馈功能,应用层使用基于Ajax页面无刷新技术的富客户端显示技术与操作用户进行交互。
3 数据挖掘实际运用
3.1 数据切片
数据立方体想要通过统计图进行展示,就需将数据立方体进行切片。通过数据切片,实现数据立方体中单一维度的分解,通过单位切片可以分析不同单位的缺陷分布统计图。
3.2 数据切块
数据切块主要包括两种方式,单一维区间切块和多维区间切块。单一维区间切块在本系统中应用较多。多维切块是指在两个或多个维度上选取相应的数据范围进行切块的方式。例如在缺陷数据切块中时间维度选择2015年,地区维度选择某市,影响设备类型选择电源,即可针对该范围提取相应的数据块,进行进一步的数据切片分析。
3.3 数据钻取
数据挖掘分数据源钻取、深度钻取两种方式。数据源钻取主要用于统计图表中相应数据项的统计来源数据的提取,具备数据源表格显示和表格下载功能。深度钻取指在数据立方体上进行某个方向上数据切块后,在获得的数据块基础上进一步进行维度切块或者切片分析的操作模式。
3.4 维度旋转
构建的数据立方体二维表格具备多个维度,在原有维度的基础上进行维度选择,可以实现图表不同维度的转换。分析出的数据视图大都具备三个以上的维度,系统用户往往需要对其多维度进行提取,从而完成基于两个维度的平面统计图构建工作,通过转换不同的x轴和y轴坐标可以实现多个图表的维度旋转。
3.5 数据导出
通过数据钻取的数据,通常用户需将其转换为EXCEL表格,进行报告的依据整理。使用基于微软COM组件基础的EXCEL DLL接口,实现基于web数据的导出工作,可以实现表格导出。
3.6 固定报表
企业报表是信息系统呈现用户价值所在,日常实现报表的方式有两种,一种网页格式,另一种电子文件格式。两种实现方式各具优缺点,本系统兼容两种格式。
(1)基于web的固定报表。Web固定报表可根据用户实际需求进行选取,图表展示和表格显示大部分报表工具都具备。由于系统支持电子文件格式导出报表,故而没有使用专业报表工具进行显示打印,仅仅使用Extjs前端腳本进行数据表格与图表的显示功能,也可以选择商业化的图表工具进行展示,提升系统的美观性。
(2)基于EXCEL的报表。基于微软COM组件技术的EXCEL DLL接口,实现基于web数据的导出,可以实现表格导出。通过COM自带OLE函数,调用生成EXCEL表格并填入表格数字,同时根据表格自动生成相应的图表,最后通过COM函数存储为需要的EXCEL文件。当报表数目很多时,可通过标签页实现或者通过调用ZIP函数进行多文件打包下载。
4 结语
数据立方体是数据仓库的核心技术,基于数据立方体模型建立电力数据统计分析系统,不但实现轻量化易于掌握的软件,而且可以满足数据统计灵活、多样需求,成为电力管理部门数据分析挖掘重要工具。
参考文献
[1] 王德文,周青.一种电力设备状态监测大数据的分布式联机分析处理方法[J].中国电机工程学报,2016,36(19):
5111-5121.
[2] 蒋建民,张世勇.在关系数据库上实现OLAP多维分析[J].渝州大学学报:自然科学版,2002,19(1):18-20.
[3] 潘东静.基于OLAP的多维分析模型设计及应用[J].德州学院学报,2004,20(6):55-58.