盛浩琪
摘要:通过一个实例介绍如何建立一个数据仓库的体系结构,提出了一个数据分析系统模型,以及数据仓库的构建与设计过程,用联机分析处理和数据挖掘的方法对数据进行分析处理。
关键词:数据仓库体系结构联机分析处理数据挖掘
0引言
汽车已进入千家万户,交通管理部门成立了车辆检测站对车辆的动力性、经济性、可靠性、以及尾气排放状况等整车性能进行检测。历年来对每辆车的检测情况积累了大量的信息,但是,交通管理部门及各维修企业对于这些数据的利用还只是停留在简单的业务查询、实时状态显示、报表生成等方面,对数据进行多角度的统计分析,挖掘隐藏在数据背后的有用信息的功能还欠缺,本文就如何在车辆检测系统中建立数据仓库,有效应用数据挖掘技术,方便准确地从大量的、规格各异的企业数据中提取、组织和整合出新的有价值的、易于利用的信息进行探讨。
1车辆检测管理系统数据仓库体系结构
本文将车辆检测管理系统数据仓库系统分为以下四个层次:
1.1数据源的类型可能是各种类型的数据库、文本或是其他二进制数据:数据源的位置也可能是分散分布的。在数据的传送过程中可能发生错误,降低ETL专用工具的效率。所以设置一个数据采集层,用于检查数据包的迟传、丢包和重传。数据采集将传送正确的数据置入临时存储区,将错误的数据置入错误数据区。
1.2 ETL过程是数据抽取、转换、清洗、装载的过程中是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型。将数据加载到数据仓库中去。
1.3当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛网”的关键。如果在建立数据集市的过程中,注意了元数据管理,在集成到数据仓库中时就会比较顺利。相反,如果在建设数据集市的过程中忽视了元数据管理,那么最后的集成过程就会很困难,甚至不可能实现。
1.4在应用层,各个应用子系统或模块则根据需要从数据仓库中获取所需数据并进行相关处理。可以生成报表,进行OLAP分析或是进行数据挖掘分析。
为了保证系统的正常运转还要进行系统管理。系统调度模块控制报表生成、ETL过程、数据采集以及数据挖掘过程的有序执行:安全管理提供对系统访问权限、加密等处理:系统监测包括对CPU、内存、I/O通道、网络等硬件以及各个软件子系统的运行进行监测告警:系统管理员通过日志管理模块对系统运行产生日志的查看、分析。
2数据仓库设计
在车辆检测管理系统数据仓库设计过程中,我们采用一种通用的三层数据建模方式,即概念模型设计,逻辑模型设计和物理模型设计。概念模型设计提供了对车辆检测公司的一个整体概括性描述,针对公司与用户联系的接触点,收集公司需求;逻辑数据建模层面向车辆信息数据仓库界定范围的全局及其应用;物理数据设计使用物理限制,如空间、特性和数据的物理分布,目的是设计实际的物理装载。根据以上的模型设计原则和目标,可以提出一个完整的车辆信息数据仓库数据模型规范化方法控。
3数据分析
数据分析包括OLAP分析和数据挖掘两部分,OLAP多维数据分析是指对多维数据采取切片、切块、钻取、旋转等各种分析操作,以求剖析数据。使最终用户能从多角度、多侧面观察数据库中的数据,从而深入了解包含在数据中的信息、内涵。数据仓库系统一般都支持OLAP的基本操作,也可以认为是一种扩展了的SQL操作。
一般来说,数据挖掘(Data Mining—DM)是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。关键的技术主要有关联分析、决策树、聚类分析、人工神经网络分析方法。下面用关联规则对车辆检测系统的数据进行挖掘:
数据挖掘的数据来源是数据仓库中维修企业送检车辆主题中的数据。而在建立数据仓库过程中,数据的ETL过程已经对来自维修企业车辆维修保养系统的数据进行了一系列数据选择、数据集成和其它必要的数据处理过程。所以,从数据仓库直接提取挖掘数据,省去了许多数据处理过程。
利用SQL Server 2000中提供的数据转换服务DTS,从数据仓库的维修企业送检车辆事实表、各检测项目维度表、检测日期维度表、各检测项目收费维度表中提取与数据挖掘有关的数据,关联规则的任务是从给定一个事务集D中求出所有满足指定的最小支持度和置信度的关联规则。本文中,从车辆检测管理系统数据仓库提取的维修企业送检车辆数据形成了事务集;其中维修企业送检车辆的每一条记录就是一个事务。
如上文关联规则概念中所说。对维修企业送检车辆分析数据表而言,表中的每一个字段的不同取值都是一个项,表中所有字段取值的集合就形成了项集。Apriori算法的主要工作就是要找出所有支持度大于最小支持度的项集(频繁项集),然后利用最小置信度来产生期望的规则。
本文采用Java语言实现Apriori关联规则算法,执行时,将维修企业送检车辆分析数据导入程序,其中支持度设定为Support=0.1,置信度设定为Condence=0.5,执行挖掘过程,得到频繁项集,由它们产生强关联规则。
执行程序后产生的强关联规则由程序导出,这些规则需要经过分析整理才能成为有用的知识。因为得到的规则中,有一些对实际管理没有多大意义,如检验次数和厂牌型号之间的关联规则,像这些规则就可以不考虑它们。经整理分析后得到的规则如表1所示。
结合车辆检测系统的实际情况,深入分析表1中规则,可以得出以下结论:
3.1企业为一类企业,有67.5%的车辆维护保养价格大于400元,调试收费小于30元。企业为二类企业,有62.5%的车辆维护保养价格大于200元,调试收费小于120元。企业为三类企业,有57%的车辆维护保养价格小于400元,调试收费大于1200分析可知,维修企业等级越高,车辆维护保养费越高,而检测费用也低。所以,可以建议用户企业想要有优质、快速的服务,请到一类维修企业去保养。
3.2厂牌型号为1(东风)且检验次数为1的维修保养记录中,有65%是承修单位为3(轿辰)。分析可知对东风这种型号的车辆,轿辰修理厂维修质量比较高。所以可以建议这种车型的车主可以到轿辰修理厂去维修。
3.3承修单位为7且检验次数为1的维修保养记录中,有61%为维修人员711(张春波)。分析可知在宁东修理厂中,维修人员张春波的维修水平比较高,到宁东修理厂去维修的用户可以找张春波维修。
4结论
通过一个数据仓库的设计模型阐述了数据仓库在企业中应用,介绍了一个简单通用的数据分析系统的模型和一个实际数据分析系统的初步实现,数据仓库在商业上的前景十分广阔,数据模型、数据库技术、OLAP技术、数据挖掘技术和决策支持都有很高的提高空间。