非结构化数据的ETL设计方法探讨

2014-04-29 08:27刘大滏赵盛
科技创新与应用 2014年14期

刘大滏 赵盛

摘 要:现代信息技术在行业中的应用日益深入,而各系统在开发过程中因其自身的独立性,在处理相关业务或实现数据管理时,多需要从异构环境下来进行整合。文章结合当前流行的公共仓库元模型以及ETL技术特点,针对非结构化数据的差异性,探讨属性提取和数据打包的有效方法,为实现非结构化数据的ETL设计奠定基础。

关键词:非结构化数据;CWM元模型;ETL设计

计算机技术、网络通信技术在行业应用的不断深入,诸如各类ERP系统、CRM系统、SCM系统及其他商业应用系统的开发,由于各系统在开发过程中因其独立性特点,在优化系统应用、改善业务流程等过程中,不得不考虑在异构环境下的数据资源共享问题。异构环境下的数据格式及定义是不一致的,而对于相对封闭的应用系统数据资源来说,如何更有效的提升数据资源的应用效力,提高数据资源的共享水平,结合行业应用差异和不同部门对数据的实际需求,从数据的整合需求上,建立起不同系统下数据仓库的数据转换技术即ETL技术,就显得尤为迫切。

1 ETL技术概述

ETL(Extract-Transform-Load )技术是数据抽取(Extract)、转换(Transform)、装载(Load)的过程。从其技术概述来看,Extract是对数据的抽取过程,其作用是从原始数据系统中读取所需要的数据,是实现数据转换工作的前提;Transform是按照预先设计规则进行相应转换的过程,其作用是基于异构的数据资源实现对数据格式及定义的统一;Load是对数据仓库进行装载的过程,其作用是对转换后的数据重新导入到数据仓库中,以实现对数据资源的有效整合。从国内外ETL技术的发展与应用来看,主要有IBM Data Stag、Informatics Power Center、Oracle 2 ODI,以及国内开发的Bee Load等产品。在中高端应用上以Data Stage和Power Center居多。ETL技术能够实现对异构数据库中相关数据的挖掘和统计,并结合数学模型来实现对未来发展进行可靠的预测分析,为行业决策支持系统提供有效的数据服务功能。

2 ETL技术模型分析

从主流的ETL技术应用来看,多以元数据为基础,也就是说满足CWM元数据标准的数据模式。CWM是Common Warehouse Meta-model的简称,由国际对象管理组织OMG制定的元数据模型标准,其作用主要是为了能够对异构环境下各数据仓库中的元数据进行交换和共享。其逻辑结构图如下所示:

图1 ETL技术逻辑示意图

在ETL系统中,借助于元数据采集工具来实现对源数据库、主题数据库,及相关数据抽取、转换、装载等操作,并依据CWM元模型标准,存储于元数据库。其执行过程是通过系统调度模块来实现对相应元数据的抽取与整合,其元数据主要包括三类:一是技术元数据,如ETL技术对各类源数据库中的数据类型、数据格式、数据序列名等进行描述,并准确获得源数据库与主题数库之间的变化信息;二是操作元数据,主要包括对业务用户和数据操作有价值的元数据,如数据质量、更新计划、访问模式等;三是业务元数据,主要包括对各业务用户有用的信息,如数据的所有权及各类业务规则,数据装载计划等,其作用能够为用户与数据仓库提供访问的桥梁。

3 ETL数据分析及设计

从CWM元数据模型对ETL系统的逻辑关系来看,这些元数据具有明确的格式特点、属性及数据关系,可以通过使用二维表来进行逻辑表达。而对于异构环境下无法用二维逻辑表进行表达的非结构化数据来说,其相对零散的数据堆积,不仅存在大量数据冗余和无效信息,还难以用简单的结构化描述语言进行准确表达。也就是说,对于非结构化数据,如视频数据、图像数据、音频数据等信息进行管理和提取时,迫切需要从ETL技术设计上来进行优化。在对CWM元数据结构进行分析后,ETL系统设计主要是对存储在源数据库中的结构化数据进行抽取、转换和加载,而对于非结构化数据来说,其元数据属于技术元数据,只要处理好技术元数据中的非结构化数据的转换,使其便于使用CWM元数据驱动ETL系统即可。因此,对于非结构化数据系统中的操作元数据和业务元数据,依据常规的数据控制转换模块即可完成对源数据库到主题数据库的装载。

对于结构化数据可以根据数据的属性来建立元数据,而对于非结构化数据,则需要从各种数据的隐藏属性进行分析,并使其能够显现出来。我们从非结构化数据的自有属性进行观察,主要有时间属性、空间属性、内容属性、格式属性、来源属性、获取手段属性及使用属性等,通过对原有非结构化数据文件进行重新命名分类,如结合某应用需要来建立新的文件名,即单位_科室_总类_分类_具体类型_日期.pdf,就可以很清晰的反映出某数据文件的来源、分类及时间等信息。Adobe公司的PDF数据压缩包能够实现对数据压缩和转换的功能,既可以节省存储空间,还能够实现对数据结构的转换。其组织结构如下图2所示:

图2 Adobe PDF 数据包组织结构

利用Adobe PDF数据包来实现对非结构化数据库的转换,可以依照树形结构来进行显示,也可以对不同类型的数据文件进行设计,使其满足对某一非结构化数据进行单独压缩,也可以对多个非结构化数据进行全面压缩,其摘要信息可以存放在info.xml文件。利用非结构化数据的转换方法,可以从其相关属性中来判定数据的摘要及内容,还可以利用工具软件编制数据索引,便于日后对相关数据的快速检索,从而实现了对非结构化数据的CWM的ETL处理,满足了非结构化数据的整合和管理目标。

4 结束语

文章通过对非结构化数据源的PDF转换压缩的分析,为更好的挖掘非结构化数据的隐藏属性,提高对非结构化数据源的准确定位,并实现了对非结构化数据的整合和管理,为满足行业应用提供了有效的解决方案。

参考文献

[1]萬里鹏.非结构化到结构化数据转换的研究与实现[D].西南交通大学,2013.

[2]周茂伟,邓苏,黄宏斌.基于元数据的ETL工具设计与实现[J].科学技术与工程,2006(21).

[3]马晓东.地理信息元数据的管理探讨[J].测绘技术装备,2009(02).

[4]梁大鹏,李红.基于数据仓库技术的决策支持系统研究设计[J].商场现代化,2011(04).

作者简介:刘大滏(1976,12-),男,重庆,高级工程师。

赵盛(1978,5-),男,陕西工程师。