张圣扬 程学林 杨小虎
摘要:集装箱行业目前处于快速发展阶段,但依然存在很多问题,导致各组织之间信息沟通不畅,政府部门对行业的监管和服务水平不够深入。现存的一些物流信息化平台在行业监管和信息挖掘方面相对不足,数据共享以原始数据为主。本文以宁波市集装箱行业数据管理平台的建设为例,介绍了数据仓库技术在集装箱行业监管、信息挖掘以及数据共享等方面的应用。
关键词:集装箱运输;数据仓库;ETL
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2019)04-0142-02
1 研究背景
宁波市集装箱行业虽然整体发展稳健,但依然存在集装箱车辆规模大、运输企业众多、运作流程复杂等问题,导致货代、港口、物流园区等组织之间信息沟通不畅,集装箱行业的动态监管与公众服务不够深入。
而现存的一些系统,例如运政管理系统、运管处监管系统、物流园区系统等存在以下问题:
(1)行业监管和信息挖掘不足,行业辅助决策支持内容需要丰富。(2)企业数据共享以基础数据为主,需要加强企业间分析统计数据的共享。(3)各系统以企业内部使用为主,涉及行业数据也比较少,不能面向整个行业进行分析。
因此,建立集装箱行业数据管理平台,对实现集装箱行业的数据整合,提升政府对集装箱行业的监管和服务水平,推进港口信息化建设都具有重要意义。而数据仓库技术,因其具有面向主题、集成性、不可更新的,随时间变化的特性,在对集装箱行业数据的整合、存储和查询的过程中发挥了重要作用。
2 需求分析
集装箱行业数据管理平台主要需要实现如下几方面的要求:
(1)车辆运营监测。统计分析宁波市道路集装箱运输车辆每月实际运营情况。(2)企业运行监测。统计分析集装箱运输企业相关车辆运行次数,反映企业运营能力。(3)运量需求监测。了解宁波港口集装箱流量流向情况,反映集装箱运输需求变化。(4)运价监测。分析集装箱行业运价变动趋势,帮助企业制定合理运价。
3 数据仓库技术
W.H.Inmon 把数据仓库定义为“用于管理决策支持的面向主题、稳定、集成、随时间变化的数据集合”。Christopher Adamson将数据仓库分成三类,即Inmon的企业信息化工厂、Kimball的维度数据仓库以及独立型数据集市。本系统采用维度数据仓库,它由一系列星型模型组成,并由它们获取尽可能详尽的数据。
维度数据仓库有两个重要的概念:维度和事实。维度是指业务发生的环境,通常指在什么情况发生,在实现过程中,我们从其他行业信息系统中抽取出维度数据,例如从公安交管信息网中获取集装箱车辆的车牌号、注册日期等数据来形成车辆信息维度。事实是指描述业务的度量,通常指实际发生了什么,可以通过ETL的方式,从其他行业系统中获取事实数据,例如可以从各集装箱物流园区系统抽取集装箱车辆的作业时间等来形成车辆作业事实表。
通过各种维度表和事实表的创建,可以形成多个星型模型,从而实现对集装箱行业数据的面向主题的集成,方便对于数据的查询、展示与分析。
4 系统设计以及数据仓库的应用
集装箱行业数据管理平台通过与其他系统对接获取行业信息,并对原始数据进行取样建模,对数据进行处理计算,以图表形式提供集装箱行业经济运行分析、行业运行监测、从业人员监测等服务,方便有关部门对集装箱行业运行状况的监督,进而科学的发布行业管理决策。
系统总体设计流程由四部分组成,包括数据对接、数据仓库建模、ETL和数据展示。数据对接用于采集来自口岸办系统、GPS监管系统、物流园区系统等数据。数据建模包括设计并搭建数据仓库用于集成所有行业数据。ETL用于对行业原始数据进行处理并装载至数据仓库。数据展示是以数据可视化作为关键技术、基于数据仓库构造的互联网应用系统,实现了对集装箱行业数据的展示。
本系统的核心是数据仓库建模的实现。数据仓库建模主要遵循四个步骤:
(1)选取业务过程。结合对业务需求和原始数据的理解,确定建模的业务处理内容。例如运价监测可以作为一个业务过程。(2)定义粒度。由于原子型数据可为分析提供最大限度的灵活性,所以应优先考虑用业务流程记录最细粒度的信息开发维度模型。例如为了描述运价变动趋势,可以定义描述运价的粒度是时间、线路、集装箱尺寸,其中作为最佳粒度,时间粒度细分到月份,线路粒度细分到线路的起点和终点地区。(3)选定维度。粒度确定后形成基本维度。例如时间、集装箱尺寸和线路粒度确定后即可形成月份维度、集装箱类型维度和线路维度。(4)确定事实。确定要分析的度量。例如根据选中的运价监测业务过程可以收集到的事实为运价和平均运价,因为平均运价是非可加事实,不存储,所以只存储具有可加性的运价事实。这样通过关联集装箱类型维度和运价事实,即可分析不同尺寸集装箱的运价变动趋势。
在实际的操作过程中,基于以上四个数据仓库建模步骤,还会出现各种不同的数据仓库类型,例如有事实的和无事实的事实表、聚集表等。
5 数据仓库的应用效果
集装箱行业数据管理平台基于以数据仓库为技术基础而集成和存储的各类集装箱行业数据,可以方便实现对各类行业统计数据的查询,从而实现对集装箱行业的经济运行分析、行业运行监测以及从业人员监测等。例如根据我们建立的车辆维度表、日期维度表和车辆作业事实表形成的星型模型可以查询任意一段时间集裝箱车辆的出车率情况,如图1展示了连续12月的集装箱车辆出车率的变动情况,可以发现过年期间出车率降到了最低。
6 结语
基于数据仓库技术的集装箱行业数据管理平台实现了对集装箱行业数据的有机整合,实现了数据的共享特别是统计分析数据的共享,并且最大化了各类行业数据的价值,从而实现了对集装箱运输企业、车辆和人员的监管和监测,提高了行业监管部门的服务水平,并可以促进集装箱运输行业的进一步规范和发展。
参考文献
[1] Inmon W H. Building the data warehouse[M].John wiley & sons,2005.
[2] ChristopherAdamson,亚当森,王红滨,等.Star Schema完全参考手册:数据仓库维度设计权威指南[M].清华大学出版社,2012.
[3] Kimball R,金博尔, Ross M, et al.数据仓库工具箱:维度建模的完全指南[M].电子工业出版社,2003.