投送装备器材数据仓库的设计与构建

2018-05-09 02:41
物流技术 2018年4期
关键词:数据仓库数据源仓库

(军事交通学院 学员四大队,天津 300161)

1 引言

投送装备种类繁多,其数据仓库系统的设计与建立过程十分繁杂,一个完整的数据仓库系统开发流程涉及到数据源、数据仓库所对应的数据库以及数据分析和报表工具等多个方面问题。本文主要进行投送装备器材数据仓库(简称DW)的设计与建立,涵盖的内容有投送装备器材仓库数据源分析、数据仓库逻辑模型、概念模型与物理模型的设计、数据的ETL操作以及数据仓库的实现这几个主要部分。

2 投送装备器材数据仓库的构建模式及数据源结构分析

设计数据仓库原则的中心思想是实际业务与需求,并通过已有的数据进行驱动。即围绕着实际业务方向的需求,确定数据仓库系统的范围和整体框架,并在已有数据源的基础上,从已有的操作型业务数据出发来设计。

2.1 投送装备器材数据仓库构建模式选择

数据仓库的构建模式一般分为两种,分别为自顶向下的构建模式与自底向上的构建模式。

自顶向下模式如图1所示,即先考虑整体后考虑局部的模式,再由数据仓库分离出各个具体业务部门和主题的数据集市。

自底向上模式如图2所示,即先考虑局部后考虑整体的构建模式,把内部各个部门需求看成是系统决策的子目标,针对各个子目标建立数据集市,然后进一步对整个系统加以完善和扩充,最终建立一个成熟的数据仓库,实现对整体目标的决策支持。

图1 自顶向下模式

图2 自底向上模式

针对本文所研究的投送装备器材数据仓库的实际情况,各个业务部分之间的数据相对较为统一,因此可以采用数据规范程度高、支持相对快速有效分离地应用于各部门的自顶向下构建模式进行数据仓库的开发。下面分别对各个流程进行详细的分析。

2.2 业务需求分析及数据源结构分析

投送装备器材数据仓库建立面向的业务需求是辅助仓库管理人员进行投送装备器材库存的控制决策,为仓库管理人员提供直观的数据分析与数据展示功能,为决策支持系统提供数据来源。通常数据仓库可以为DSS提供以下的服务功能:

(1)数据的抽取,依照主题从业务数据库中抽取分析所需数据,完成对元数据的求和、分类、统计等操作。

(2)数据的净化,去除问题数据并补充缺损数据。

(3)根据决策目标的不同,可以根据决策主题进行数据查询和访问,提高数据查询和分析的效率。

(4)通过数据分析等工具来展示数据仓库中丰富的数据,为预测趋势、制定决策提供信息来源。

部队投送装备器材仓库主要职能是对部队投送装备器材实施储存、供应以及管理。对于器材仓库的管理人员而言,业务目标是有效的控制各种器材的库存,减少库存管理过程中人力物力财力的消耗,数据来源则是器材仓库日常的出入库业务数据。本文数据仓库的建立是为了实现库存决策支持提供数据分析支撑,数据仓库的用户更关心的问题是投送装备器材库存的供应和需求的变动趋势以及库存的状态。因此数据源结构应该包含短期和长期的器材供应量(入库量)、器材消耗量(出库量)、订货时间、订货周期、库存器材种类、库存器材数量。同时也应该确定数据的总量以及数据质量,对数据的宽度、密度,数据的正确性、规范性以及一致性都有相应的要求。

3 投送装备器材数据仓库概念模型设计

数据仓库的设计流程包括概念模型的设计、逻辑模型的设计以及物理模型的设计三个步骤,其设计流程区别于传统数据库面向应用的设计方式,数据仓库是根据主题进行数据的组织。

3.1 系统边界的界定

为了能将数据仓库应用于决策支持,使用者需要通过数据仓库对投送装备器材仓库的实际库存水平和库存状况有一个全面的了解,以维持合适库存。因此为了能够对数据进行规范、有效且完整的分析,数据仓库中数据来源应基于仓库较长时间范围内(本文选取时间范围为年度)的库存器材品类数据、出入库数据、库存量数据等数据、仓库内部情况数据、器材需求数据等,系统的边界定义为原有的车材库存管理信息系统。

3.2 建立信息包图

信息包图中包含了三个目标对象:度量指标、维度和类别,在概念模型的设计中使用信息包图的关键在于对这三个对象的内容设计。

信息包图的设计实际上为一种自顶向下的建模方式,首先以数据仓库使用者的视角进行设计,再以数据仓库管理者的视角对各个主题所涉及到数据的多维特性进行分析,考虑各种信息源以及以何种方式影响业务活动,仓库信息包图应包含器材仓库管理活动中的关键业务指标因子。

以下通过对某投送装备器材仓库的库存情况进行分析制作信息包图,通过对该库近期库存情况的进一步分析和了解,可得到以下论述。该图以库存分析为主题,归纳相关事实和指标、数据的维度和层次,确定了数据的类别和粒度,见表1。

表1 DW信息包图

3.3 设计基于主题域的概念模型

通常确定主题域是为了更加深入地了解业务间的联系和关系,在确定了主题之后,还需对各个主题进行不同程度的细化以得到所面向主题的边界。

数据仓库主题域结构包括了订货主题、需求主题、器材主题、库存主题四个主题域,各个主题域包含有其主题内的主要关键指标,各主题之间的逻辑结构关系如图3所示。

图3 主题域设计

设计数据仓库的过程通常需要不断进行完善和改进,因此在开始时倾向于选择较为重要的主题作为设计起始点。通过将主题边界的划分方式应用于关系模型,把对主题域的划分与事务型数据库中的数据表相结合,得到初始化的概念模型。在上述的各个主题中:投送装备器材主题可能包含投送装备器材表、供需关系表等;器材仓库主题可能包含仓库表、仓储关系表、仓库管理关系表等。将这些表的关键字段连接起来,可以得到如图4所示的概念模型。

图4 数据仓库概念模型

4 投送装备器材数据仓库逻辑模型设计

4.1 根据需求分析与信息包图设计星型图

传统数据库设计逻辑模型时通常会采用实体关系图(ER图)的方式,把概念模型进一步转为逻辑模型,在前述信息包图的基础上设计星型图。星型图要素分别对应着信息包图中的对象。指标实体位于星型图中心,是最基础的业务实体以及数据查询的核心,在信息包图中,其对应着指标对象,其作用是为使用者进行各项业务活动提供定量数据,根据信息包图的内容,指标对象为对投送装备器材库存的分析。在以上所构建信息包图的基础上进行星型图的设计,所得星型图结构如图5所示。处于中心位置的为事实表,用于对器材库存的分析,处于五个星角的分别是器材信息、时间、订货信息、器材需求、仓储信息这五个维度。

图5 星型图设计

由图5能够看出星型模式的结构实际为一种关系型数据结构,利用事实表以及若干个维度来支持决策所需的数据。在星型图中间位置的是事实表,用于分析主题,位于星角的是维表,用于描述相关属性。事实表中一般包含特定的事件数据,例如一年的器材需求总量和器材订货总量等数据,新的数据会被不断的添加进去。

4.2 粒度的选择与设计

一般而言,越详细的数据其对应的数据粒度越小,级别越低;反之,综合度越高的数据,其数据的粒度也相应越大,所处的级别也越高。在粒度设计中产生的差异会造成数据仓库逻辑模型的差别以及数据实际物理存储情况的差别,而数据仓库的分析层次功能与数据的物理存储空间往往存在着矛盾关系,因此需要合理地设计粒度以符合实际情况。

根据对投送装备器材仓库库存需求情况分析设计相应的数据粒度形成的逻辑模型如图6所示。

各字段的解释说明见表2。

5 数据的ETL操作和转移

通过构建数据仓库的三层模型,能够确定各个维表以及事实表的大致结构,接下来就需要汇总现在投送装备器材管理信息系统中的操作型数据,将其进行处理并导入各个维表以及事实表。该过程在数据仓库的创建中,是一项工作量很大而且关键的重要环节。从操作型数据库中提取数据仓库所需要的数据需要一整套的流程,即ETL(提取,转换,加载)的操作。

图6 DW逻辑模型

表2 字段内容释义

ETL通过从附录中的数据源中提取数据,并对数据进行转换,然后将数据加载至数据仓库中,生成如表3-表7所示的填充数据。

6 投送装备器材数据仓库QCDW的创建

本文使用SQL Server 2008所提供的Microsoft Server Business Intelligence Studio来进行投送装备器材数据仓库QCWS的创建和访问。

表3 TIME维度

表4 ORDER维度

表5 STORAGE维度

表6 EQUIPMENT维度

表7 DEMAND维度

6.1 创建数据仓库维表

在建立数据仓库之前,需要先通过SQL Server 2008创建数据库“QCSERVER维表数据”,该数据库中共包含六个数据表,包含维表以及事实表等相关数据。

打开解决方案资源管理器,首先需要将已经创建的数据库连接到目标数据仓库的数据源,如图7所示,新建数据源连接,并定义“QCSERVER维表数据”的连接。

图7 连接管理器,定义数据源

进行新建数据源视图的操作,选择新创建的数据源“维表数据”,进行名称匹配(如图8所示),选择默认的与主键同名。

在选择表和视图环节(如图9所示),把数据源所连接数据库中涵盖的 Inventory、Order、QcInfo、Requirement、Time、Warehouse一共六个数据表选为包含的对象,完成数据源视图的创建。

完成了数据源视图的创建之后,需要对维表中的各个维度进行创建。通过选择“新建维度”命令,选择“使用现有表”,先对Time维表进行维度的建立(如图10所示)。

6.2 部署QCDW项目

通过以上步骤创建了投送装备器材数据仓库QCDW项目,在构建好数据源、各个维度以及多维数据集后,需要对项目进行部署,在资源管理器中右击QCDW选择部署命令,对系统进行部署,如图11、12所示。

6.3 浏览QCDW多维数据集

在QCDW项目部署完成后,可利用软件带有的视图工具对QCDW进行多维浏览。选择维度数据,执行浏览命令,可以进行多维分析。向待分析的区域中拖入相应的行、列以及汇总字段,系统会自动的统计出相应的报表。例如可以通过多维浏览对XXX仓库的库存数据进行以下的分析。

图8 名称匹配

图9 选择表和视图

(1)分析XXX仓库各个货位在各个季度的储存情况,选择行字段为Quarter(季度),选择列字段为Rack(货位号),选择汇总明细字段为Storage Amount(库存数量),可以得到各货位在不同季度的器材库存数量,如图13所示。

(2)分析XXX仓库不同分类类别的器材在各个货位的存储情况和价值,选择行字段为Category(器材分类),选择列字段为Rack(货位号),选择汇总明细字段为Storage Amount(库存数量),可以得到不同类别的器材在不同货位的库存数量,如图14所示。

图10 指定源信息

图11 QCDW项目结构

(3)分析XXX仓库对各个需求单位在各个月份的发货量。选择行字段为Demander ID(需求单位编号),选择列字段为Month(月份),选择汇总明细字段为Ship Amount(发货数量),可以得到仓库对各需求单位在不同月份的器材发货数量,如图15所示。

7 小结

本文系统的对投送装备器材的DW数据仓库的系统框架模型进行了分析和设计,创建了投送装备器材数据仓库,并通过SQL Server2008提供的平台对其进行了物理实现,创建了投送装备器材数据仓库QCDW,并在此基础上进行投送装备器材库存多维数据的浏览,为实现投送装备器材储备决策辅助系统提供了支撑。

图12 项目部署成功

图13 各季度不同货位库存数量浏览

图14 各类别器材不同货位库存量浏览

图15 仓库各需求单位在不同单位的发货量浏览

[参考文献]

[1]肖依永,常文兵,郭伟宏.基于关联规则的ABC库存分类方法[J].系统工程,2008,(6):10-15.

[2]叶伟龙,李青.ABC库存分类的多准则优化方法[J].辽宁工程技术大学学报(自然科学版),2008,(5):758-761.

[3]李波,赵志彦,段铁英.一种多准则库存分类的混合预测方法[J].计算机集成制造系统-CIMS,2004,(5):594-599.

[4]王珊,李翠平,李盛恩.数据仓库与数据分析教程[M].北京:高等教育出版社,2012

[5]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社,2004.

猜你喜欢
数据仓库数据源仓库
基于数据仓库的数据倾斜解决方案研究
填满仓库的方法
四行仓库的悲壮往事
基于数据仓库的住房城乡建设信息系统整合研究
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
小猫看仓库
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践
基于真值发现的冲突数据源质量评价算法