基于数据仓库的数据挖掘技术

2021-11-21 18:19任仲晟
数字技术与应用 2021年9期
关键词:数据仓库数据挖掘决策

任仲晟

(福建师范大学数学与信息学院,福建福州 350007)

0 引言

随着时间的推移,国内的社会经济和科学技术都实现了快速的发展和推进,其中最具代表性的就是计算机应用技术发展水平的提升,但与此同时,这也使得各行各业在实际的发展过程中产生了大量的数据和信息,也就是所谓的“数据爆炸”现象。当代社会发展过程中,如何将各行各业的海量数据进行储存和分析,并且使其转换成为信息和技术,是目前主要需要解决的问题,由此数据仓库和数据挖掘技术应运而生,并且开始在各行各业进行运用,包含生物医学、零售、医学信息系统、移动通信等行业,并且随着基于数据仓库的数据挖掘技术的应用,还取得了很好的作用和效果。

1 数据仓库和体系结构的概述

20世纪90年代,数据仓库的概念第一次出现,具体定义为:数据仓库就是面向主题的、集成的、与时间相关的、稳定的数据集合。数据仓库与传统的数据库具有比较大的不同,其能够服务于高层的决策,数据仓库不仅可以采集、组织、储存大量的信息员的数据[1],还可以针对这些历史数据进行加工和变化,由此得到相关的信息和数据就可以用于进行决策的分析,这可以使得决策者所作出的决策更具有科学合理性。另外,数据仓库还是一种面向主题的数据库,简单来说,就是可以按照一定的主题进行数据的组织,并且按照决策和分析的具体需求进行数据信息的处理。并且数据仓库还是一种包含历史数据和信息的数据库,这也代表着,数据仓库不仅能够用于进行检索,还能够对整个组织的运行状态和未来的发展趋势进行分析处理,数据仓库的基本架构中,数据源既可以是特定的数据文件[2],也可以是其他的数据源,可以为一系列的普通、传统业务数据库进行服务。

数据的采集和处理,顾名思义就是针对需要的数据进行采集,从各个数据源中抽取相关的数据,后续经过转换、集成操作之后,载入到数据仓库当中。

数据仓库树要储存两种类型的数据,一类是元数据,这是数据仓库的基本构成单元,可以进行数据结构和数据仓库所产生的变化。另一类数据就是实视图,可以为决策制定人员进行服务,进而使得做出来的决策变得更加科学合理和有效。

数据仓库与传统的数据库之间存在很大的差别,其已经脱离了软件产品的范畴,能够提供一种综合性的解决方案,其中功能强大的分析工具可以针对数据进行深度处理。在对数据仓库进行运用的过程中,必须要注重数据的一致性、完整性和准确性,这样才能提供高水平的数据和服务[3],因此在对数据仓库进行运用的过程中需要注意到,为了使得数据仓库质量方面的问题得到有效的解决,可以在元数据库中融入质量维度的质量模型,实现系统化的测量,提高数据质量,这也是数据仓库最为重要的一个发展方向。

2 基于数据仓库的数据挖掘技术分析

之所以进行数据仓库的构建,其最重要的一个目标就是从海量的数据和信息当中抽取相关的规律性的数据和知识,对相关的决策和管理活动进行服务和支持。但是在数据仓库当中,各类的数据的分散性非常强,想要实现以上最重要的目标,就需要相应的工具,从海量的、分散性的数据中提取具有价值的信息和数据,由此,基于数据仓库的数据挖掘技术应运而生。基于数据仓库的数据挖掘技术首次在第十一届国际人工智能学术会议上被提出,这是一种跨学科、跨领域的产物,既包含数据库技术和人工智能技术,还包含数据统计、数据分析等学科[4],这也注定了,基于数据仓库的数据挖掘技术可以在很多领域内进行运用,具有良好的应用前景,包含规则推理、人工神经网络和决策树等。数据挖掘技术是目前人工智能领域和数据仓库领域内研究的重点、热点问题,同时这也是一种决策支持过程,减少决策的风险,其中知识发现过程主要具有以下三个阶段,分别是数据准备、数据挖掘和结果的表达和解释,数据挖掘技术可以实现用户与知识库之间的交互。数据仓库具有明显的面向主题、数据集成和与时间相关的特点,而数据挖掘技术是数据仓库最终目标得以实现的有力工具[5]。

2.1 数据采集与处理

数据挖掘工具需要依据具体的目标需求,从数据仓库当中选取相对应的数据集合,在这一过程中还需要对其进行两方面的检查,其一是数据一致性的检查,其二是数据完整性的检查,这是基于数据仓库的数据挖掘技术实现其价值和作用的必要前提之一。

2.2 知识库

知识库主要可以在数据挖掘和知识评价方面进行运用,利用知识库中提供的相关数据和知识,可以指导数据挖掘过程中的一系列操作,还可以对挖掘得到的结果数据的兴趣度进行评价,需要注意到,这些数据结果既可以是概念,也可以是相关的规则或者是模式。

2.3 数据挖掘

这里所指的“挖掘”,其涵盖的内容是比较多的,需要针对数据仓库当中提取到的相关数据和信息进行一系列的分析和处理,包含数据的聚类、估值、分类、预测、关联和描述等;其中聚类,就是将相似的数据实现聚类,主要目的在于描述数据的共同特征;估值就是对未知连续变量的输出进行处理;分类,顾名思义,主要是针对离散变量的输出进行描述,包含有线性回归分类、决策树分类、神经网络分类等;预测,依据估值或者是分类得到的模型,在未来位置变量的评估过程中进行运用;关联,挖掘数据或者是特征之间的内在联系。

描述,主要对数据挖掘的具体结果进行表述。

2.4 知识评价

以兴趣度作为具体的衡量标准,对数据仓库的最终目标具有价值的知识进行查找和选择。

从本质角度上来说,基于数据仓库的数据挖掘技术其实就是针对数据仓库中的数据进行多层次、多角度的加工和处理过程,以此方式使得相关的数据和信息实现决策价值。通过对数据仓库中大量历史数据的更高层次的抽象,不仅能够反映出数据之间的内在联系和特性,在这一过程中还可以获得用于决策和分析的有用信息和知识。

3 基于数据仓库的数据挖掘技术的具体应用分析

基于数据仓库的数据挖掘技术,可以在数据仓库的基础之上实现深层次的数据分析进程,其不仅能够进行数据的分析,同时还能够揭示大量数据内在的、潜在的数据和信息,进而为用户提供良好的决策支撑。自从基于数据仓库的数据挖掘技术出现之后,很多大型公司、事业单位都开始构建属于自身的数据仓库,并且依据自身实际发展过程中产生的历史数据分析工作,得到了很多的实用性信息和数据[6],对企业、事业单位发展过程中的决策给予了强大的决策支持,使得企业或者是事业单位在发展过程中避免了很多风险因素,这一方面可以使得企业或者是事业单位的发展得到保障,另一方面可以降低企业蒙受的损失,对于企业和事业单位的良性发展非常重要。

就目前来看,实际的基于数据仓库的数据挖掘技术过程主要包含以下几个步骤和环节:(1)了解行业所处的背景,熟悉相对应的基本数据情况;(2)确定数据挖掘的具体目标;(3)选取数据仓库中对应的数据集合或者是数据源;(4)选取合适的数据挖掘技术算法;(5)进行现实的数据挖掘;(6)所取得的具体知识结果进行评价和输出。

就目前来看,基于数据仓库的数据挖掘技术的应用领域主要具有以下几个方面,包含市场分析、生产过程优化、股票分析、风险分析等。譬如,针对企业中的人力资源管理的具体目标需求,构建自身的人力资源数据仓库,依据选择树类分类器,完成数据挖掘,从而实现单位或者是企业的人力资源管理优化。需要注意到,在基于数据仓库的数据挖掘技术应用过程中,数据挖掘是系统的核心,对于数据仓库的历史数据决策价值会产生直接的影响,因此需要给予其高度的重视[7]。除此之外,基于数据仓库的数据挖掘技术还可以在通信技术方面进行应用,可以帮助不同的运营商进行业务工作的运作,包含利用多维分析电信数据,可以不断提升数据资源的利用效率,从而更加深入地了解用户行为,进而推进不同的电信业务的推广和应用,从而便可以实现经济利益的最大化,从宏观角度上来说,基于数据仓库的数据挖掘技术的现实应用对于国内企业和国民经济的发展都是非常重要的。

4 结论

综上所述,就是目前为止针对基于数据仓库的数据挖掘技术的相关研究和分析了,从文中阐述内容中不难看出,目前国内处于一个重要的大数据时代,对于基于数据仓库的数据挖掘技术的需求具有比较大的提升,因此后续发展过程中需要重视基于数据仓库的数据挖掘技术的具体应用,为科学决策提供相对应的支持,后续还需要针对基于数据仓库的数据挖掘技术进行深入的研究和开发,不断提升这项技术的水平。

猜你喜欢
数据仓库数据挖掘决策
为可持续决策提供依据
决策为什么失误了
基于数据仓库的住房城乡建设信息系统整合研究
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践
基于GPGPU的离散数据挖掘研究
关于抗美援朝出兵决策的几点认识