何丽
摘 要:对于存数据仓库中,将同一属性数据实施连续存储,并结合运用数据复用技术,可以节约数据仓库管理中的存储空间,提高列存数据仓库查询效率,提高了数据仓库应用性能,增强列存数据仓库复用的可行性。以下本篇浅析数据复用在存储数据仓库中的运用。
关键字:数据仓库;列存储数据仓库;数据复用
在存储数据仓库中,应用数据复用手段,对改善当前存储数据仓库性能有很好的推进作用,可以采取数据复用方案发掘数据仓库中可复用的列,并对可复用的数据列筛选、过滤,有效降低数据仓库存储中复用数据的复杂度,复用实现基于列存储的数据存储,减少存储量、节省数据装载时间,提升数据仓库性能。以下本文就对此做具体介绍。
1 数据仓库及数据复用
1.1 数据仓库
数据仓库,可以是面向主题的,也可以是集成、非易失性,数据仓库存储的内容,会随时间不断变化产生数据集合,以此来支持管理人员的策。数据仓库中,多数采取主题信息分类加工方法,将仓库中的数据信息集成起来,并确保集成数据的完整性与一致性【1】;同时,在数据仓库中,也负责实施数据抽取(Extract)、转换(Transform)、装载(Load)的一系列过程, 存储数据仓库中可以按照统一的规则,优化数据仓库存储作用。
1.2 数据复用的定义
在计算机技术中,数据复用,就是能够充分利用数据仓库内数据存在的重复关系,复用这些数据信息,从可以可以减少数据仓库系统的存储量,缩短数据仓库响应用户的时间。可以针对数据仓库数据内容,采取一系列存储手段,将数据仓库重复数据信息复用集合起来,提升数据仓库数据利用率。
2 改进当前存储数据仓库的意义
在通常情况下的数据仓库存储中,多数采取采用行存储的结构模式,主要将每条数据,以顺序方式存储在数据仓库的物理介质之中,然而此存储方法中,会因为数据集差异,导致数据仓库数据重复率不高,不易于复用。故此,在存储数据仓库中,应用数据复用技术,采取有效复用手段,提升数据仓库信息的复用率,改善数据仓库数据查询效率,分析数据中的海量数据,避免在数据仓库中发生内存争用,通过重用数据处理结果,有效满足存储数据仓库性能的提升需求【2】。在存储数据仓库中,数据复用技术的应用,采取数据复用方法,估计数据重用度、优化数据额外缓冲调度策略,提升数据复用度,采取列存储方法,将同一属性的数据连续存储,提高数据仓库应用价值。
3 在数据仓库中数据复用技术的运用
3.1 数据仓库中的基本定义
数据仓库:D ={S1,S2,…,Sn},由一系列相互关联的物理表构成,其中S表示关系表,n表示关系的数量。
关系表:Si={Ai1,Ai2,…,Aim},其中m表示关系Si的目的度,Aij表示Si中第j个属性
数据段:Segi={blki1,blki2,…,blkir}
目标表:T={A′1,A′2,…,A′k},k表示T的目的度,数据复用对于T中的每一个属性A′i,在D中寻找可复用数据并合理利用的过程
数据复用技术中,源属性集:已有关系表中能够被复 用 的 属 性 集 合 记 为 源 属 性 集Cols={Ai1,Ai2,…,Aij},集合中的每一项称为源属性目标表Colt={A1,A2,…,Aj},其中Ai又称为目标属性
3.2 数据复用中的列存储技术
数据复用技术,列存储数据复用技术,就是针对具有相同属性,且相同、相近的列,列存储中数据冗余度高,以此作为数据复用手段,应用到数据仓库的存储之中,可以利用数据模式匹配的技术,发掘数据仓库中可复用的列,缩小复用数据复杂度。数据复用中针对某个列中的值进行简单查询的速度非常快,需要的内部存储资源最少。数据复用技术,采取基于列存储的数据复用实现策略,可以减少数据仓库的存储量,提升少数据仓库查询性能。数据复用技术应用中,对于每个字段的数据,都聚集存储在数据仓库中,在查询数据时只需要通过几个字段,就可以读取数据仓库中的数据,更容易提升实际中数据仓库的存储空间量。
4 数据复用实现策略
4.1 列存储
对于数据仓库中,运用数据复用技术,在列存储数据的策略之中,可以将数据仓库中查询处理的对象,定义为列的形式, 使其可以属于一张表中的列属,并位于用一个数据空间内。然后再重组一行数据内容, 并给每一列附加伪列 rowid , 结构如< rowid, value >,且在每一列在中都有索引。
数据复用技术,对于同空间内的数据操作,可以由and 进行连接。从而实现在存储数据仓库中对两个操作以及两个列之间的比较,并可以将其定义为同空间列连接【3】。并且对于此类串行连接的数据存储复用技术中,对于一个连接操作对象,可以有两个孩子实施操作, 使用一个操作结果连接条件,过滤另一个孩子的操作方法,实现串行连接的数据复用。
4.2 数据复用方法选择
4.4 存储数据仓库评估
对于数据仓库中,应用基于列的数据复用技术,不仅优化SQL语句生成的语法树,还可以优化存储数据查询中的连接策略, 得到优化查询计划,生成大量的候选查询计划, 为数据复用提供决策。动态优化算法执行顺序, 优化查询计划,在存储数据仓库中,实际存储量一记录数X字段占用4个字节,根据列存储数据复用技术,可复用列占用428,时节约288空间,提升数据仓库数据复用的合理性,提升数据仓库存储空间。运用复用数据技术的数据仓库存储中,有效排除数据仓库存储大量无法复用的数据列,减少实际中复用数据检测的复杂度,有效利用数据之问的冗余,减少存储量。
5 结论
综上所述,对于存储数据仓库中,运用数据复用技术,采取有效的数据复用策略,不仅可以提升数据仓库的存储性能,还可以节省数据仓库存储空间。在存储数据仓库中,应用基于列存储的数据复用方法,有效集合相同属性的数据对象,充分利用串行连接以及并行连接优势, 优化列存储的查询策略,实现对相同数据的连续性存储,大大优化数据仓库信息复用效率,提升数据仓库数据存储容量,发挥实际运用效益。
参考文献
[1]陈建平.数据仓库的管理与使用[J].长春邮电学院学报,2012,07(18):41-42.
[2]陶再平,陈奇,俞瑞钊.数据仓库在企业中应用的研究[J]. 计算机工程,2011,14(12):76-77.
[3]唐宏,聂能,熊思民,赵明伟.数据仓库实现技术[J]. 数字通信,2013,21(14):56-57.
[4]马洪江.浅论数据仓库在企业管理决策支持系统中的应用[J]. 成都大学学报(自然科学版),2011,06(34):45-46.