郭 磊
(安阳师范学院 计算机与信息工程学院,河南 455000)
物流业作为一个融交通运输与信息处理为一体的新兴行业,当前在我国的发展已经达到了一个顶盛时期。物流企业中,拥有大量的数据,这些数据具有冗余、大量、分散、异构等特点。如何充分利用、挖掘现有数据,来支持科学决策,使企业效益最大化,使企业立于不败之地,已经被很多大型物流企业所认识。
联机分析处理(On-Line Analysis Processing,简称 OLAP)是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。决策数据是多维数据,多维数据就是决策的主要内容。OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业的经营状况,了解对象的需求,制定正确的方案。
由于数据仓库是面向主题域的,即 OLAP的源数据是面向主题域的,所以在 OLAP之前就必须要确定主题域。本项目的主题域确定为企业毛收益主题域与成本主题域。这里的多维数据模型以成本主题域为例。
按成本项目划分,物流成本由物流功能成本和存货相关成本构成。其中物流功能成本包括物流活动过程中所发生的包装成本、运输成本、仓储成本、装卸搬运成本、流通加工成本、物流信息成本和物流管理成本,存货相关成本包括企业在物流活动过程中所发生的与存货有关的资金占用成本、物品损耗成本、保险和税收成本。下面简单给出几种成本的说明:
1)运输成本:一定时期内,企业为完成货物运输业务而发生的全部费用,包括从事货物运输业务的人员费用、车辆(包括其他运输工具)的燃料费、折旧费、维修保养费、租赁费、养路费、过路费、年检费、事故损失费、相关税金等。
2)物流信息成本:一定时期内,企业为采集、传输、处理物流信息而发生的全部费用,指与订货处理、储存管理、客户服务有关的费用,具体包括物流信息人员费用,软硬件折旧费、维护保养费、通讯费等。
3)保险和税收成本:一定时期内,企业支付的与存货相关的财产保险费以及因购进和销售物品应交纳的税金支出。
数据模型一般有两个层次:概念层(逻辑层)和物理层。逻辑数据模型是从概念角度抽象出现实世界的内在规律,如业务流程、数据架构等;物理数据模型则侧重于特定环境下的具体实现,如效率、安全性等。
多维数据模型通过引入维、维分层和度量等概念,将信息在概念上视为一个立方体。物流成本立方体模型如图1所示。
1)维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性的集合构成一个维。物流成本立方体模型中共有三个维:地区维、交通工具维、货物类维。
2)维分层:同一维度还可以存在细节程度不同的各个描述方面。如地区维还可以再分为省、市、区等。
3)维属性:维的一个取值,是数据项在某维中位置的描述。如,{河南省,郑州市,二七区}就是在地区维上的一个描述。
4)度量:立方体中的单元格,用以存放数据。多维数组的取值。如,物流成本立方体模型度量的物理意义是,某类货物在某地区使用某种交通工具的单位成本,即每公斤货物发生每公里运输的成本。立方体中的数字 3表示在华东地区使用汽车运输特件的单位成本为 3个货币单位。
5)立方体:用三维或更多的维数描述一个对象,每个维彼此垂直。数据的度量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。
图1 物流成本立方体模型
OLAP多维数据模型的实现有多种途径,其中主要有采用数组的多维数据库、关系型数据库以及两者相结合的方式,通常分别称之为多维联机分析处理(Multidimensional OLAP,简称 MOLAP)、关系联机分析处理(Relational OLAP,简称 ROLAP)和混合联机分析处理(Hybrid OLAP,简称 HOLAP)。
1)MOLAP:当利用多维数据库存储 OLAP数据时,不需要将多维数据模型中的维度、层划分和立方体等概念转换成其他的物理模型,因为多维数组(矩阵)能很好地体现多维数据模型特点。
2)ROLAP:以关系数据库为核心,以关系型结构进行多维数据的表示和存储,将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。
3)HOLAP:利用多维联机分析处理技术存储上层汇总数据,利用关系联机分析处理存储细节数据,即低层是关系型的,高层是多维矩阵型的。
针对图1所示的立方体模型,可以定义一个三维数组矩阵,各维的大小分别为(7,5,3)。例如,type a[7,5,3]={…,… ,… }。该数组矩阵的定义分别体现了立方体的如下信息:
维,即三个维,由数组的维数体现;
维属性,由数组每维的大小体现,如立方体模型中某个维包含 7个维属性;
度量,由每个数组元素的值体现,如 a[2,4,0]的值为 3,则表示华东地区使用汽车运输特件的单位成本为 3个货币单位。
利用数组实现多维数据模型的优点,在于对数据的快速访问,但同时也会带来存储空间的冗余,即稀疏矩阵问题,进而导致对存储空间的极大需求。在如图1所示的[地区,货类,交通工具]三维立方体模型中是不会出现该问题的。因为该数组最大最有空间数为 7×5×3=105个单位。但,若增加上时间维、部门维等,则其所占用的空间将急速增加。如,时间维为 366(每天一个数组维),部门维 20(每部门一个数组维),则所需空间为:7×5×3×366×20=768600。若再增加上交通工具维等,在计算机中存储该立方体所需的空间,将会出现问题。
在存储稀疏矩阵时,为了节省存储单元,很自然地想到使用压缩存储方法。但由于非零元素的分布一般是没有规律的,因此在存储非零元素的同时,还必须同时记下它所在的行和列的位置(i,j)。反之,一个三元组(i,j,aij)唯一确定了矩阵 A的一个非零元。因此,稀疏矩阵可由一个表示非零元的三元组集合唯一确定,如式子 1所示。
对于式(2),当 i为 0时,ti表示该稀疏矩阵的行列数,当 i大于 0时,ti表示位置(Prow,Pcol)的值。由于该三元组描述的为矩阵中非零值,所以 value的值不可能为 0。故,将用于描述矩阵行列数的三元组的value设置为 0。
例如,下列三元组集合
{(5,6,0),(1,3,9),(1,5,-7),(3,4,8),(4,1,5),(4,6,2),(5,5,16)}
可作为下面矩阵 M的另一种描述。
物流企业 DSS的构建,使物流企业不仅是大量数据的高速创造者,还是大量数据的充分使用者,使物流企业在数据的支持下更快更好的发展。而基于物流企业的 OLAP多维数据模型的科学合理地设计与实现,为物流企业 DSS的构建起了决定性作用。
[1]申献辰.水资源规划决策支持系统中水环境模型的作用及改进[C]∥中国水利学会一九九九年优秀论文集.
[2]任锦鸾,顾培亮,曾珍香.数据仓库中数据结构设计方法的研究 [J].计算机工程与应用,2001,(22).
[3]巢来春.策支持系统(DSS)的开发与研究 [J].电子科技大学学报,1986,(3).
[4]王有远,罗丽萍.企业物流成本管理与控制[J].商业时代,2004,(11).
[5]龚顺清.物流成本管理的措施与对策 [J].商业时代,2005,(20).