刘忠臣
【摘要】数据整合已经成为未来水利设计单位进一步发展的必经之路,水利设计单位需要进一步的发展和提高,就需要进行数据整合。文章采用数据整合技术,充分整合综合办公管理、计划经营管理、项目设计流程管理、图档管理数据资源,并建设成统一的数据集成平台。利用这一数据集成平台将四大数据资源,经过抽取、规则转换、清洗、加载,形成整合资源库,为经营和战略决策提供数据支持。
【关键词】集成信息系统;数据整合;信息孤岛
1. 前言
1.1决策分析需要的数据通常都是统计数据,但在现有信息系统下进行会比较复杂。原因有:
(1)做出一个决策分析往往需要查询多个基于各种异构数据源的信息系统和外部系统,并进行大量数据分析,工作量大,数据利用率不高,且容易出现人为差错。
(2)现有信息系统平台及开发工具互不兼容,直接提取这些数据比较麻烦。
(3)各个信息系统没有统一的数据接口,也没有通用的数据标准和规范,各个数据库无法直接集成。
(4)统计分析需要大量的历史数据,但是历史数据并不完整。
1.2因此,为了适应决策信息系统建设的需要,我们采用数据整合技术,充分整合综合办公管理、计划经营管理、项目设计流程管理、图档管理数据资源,并建设成统一的数据集成平台。
2. 数据资源分析
数据整合资源库的数据都是一些统计和分析数据,如项目进度跟踪管理统计、产值管理统计等,它们来源于生产数据,所以在数据整合之前,需对现有生产数据资源进行归类。现阶段生产数据资源主要分为综合办公管钾数据集、计划经营管理数据集、项目设计流程管理数据集和图档管理数据集等。
2.1综合办公管理数据集是实现人员基础信息统一管理的基础数据集。主要包括:
(1)个人基本信息:包括个人信息库等。
(2)单位基本信息:包括单位基本信息库、单位所属分支机构信息库等。
(3)参数信息库:包括代码库、图表分析生成库等。
2.2计划经营管理数据集主要包括:(1)市场信息:包括顾客信息资源库、市场动态信息库、竞争对手信息库等。(2)招投标管理信息:包括招标信息库、投标信息库、专家信息库等。(3)合同信息:包括合同信息库、收付款项信息库、产品交付管理库等。(4)资质管理信息:包括资质信息库、资质审核库、资质借用管理库等。
2.3项目设计流程管理数据集主要包括:(1)项目信息:包括项目立项信息库、任务下达信息库、项目组人员任命库等。(2)项目任务分解:包括项目任务分解资源信息库、关键路径控制等。(3)网络虚拟办公室:包括项目动态信息库、中间成果管理库、动态分析库等。(4)产品管理信息:包括产品校审信息库、成果交付信息库等。
2.4图档管理数据集主要包括:(1)归档管理信息:包括资料预归档管理库、资料归档管理库等。(2)整编信息:包括档案整编信息库等。(3)借阅信息:包括人员信息库、档案借阅信息库等。(4)电子档案信息:包括电子档案授权库、电子档案借阅管理库等。(5)销档信息:包括销毁档案信息库、销毁人员信息库等。
3. 数据整合的实现方式
水利设计单位集成信息系统数据库大多为SQLServer数据库,数据整合实现方式通常可以采用数据库开发技术和ETL技术实现,以下分别介绍这两种实现方式。
3.1数据库开发技术。
3.1.1利用数据库开发技术的数据整合主要指利用数据库本身的功能,如触发器、PL/SQL存储过程、DBLINK等功能完成,完成对各个信息系统所需要数据的抽取、查询和关联等。
3.1.2这种数据整合技术有如下优势:(1)适合于同种数据库之间的数据集成。(2)投资少,基本都是靠开发人员手工编程为主,只需要一些开发费用。但是该数据整合实现技术也存在一些局限性。(3)扩展性较差。由于都是开发人员手工编程,后期的维护成本较高,特别是在决策需求发生变化时,需要开发人员修改程序源代码。(4)数据整合效率问题。由于数据库都靠开发商编写,在系统日趋庞大的情况下,在面对复杂的数据整合问题上,效率难以得到保证。
3.2ETL技术。
3.2.1通过ETL技术及专业ETL软件,即数据抽取(Extract)、转换(Transform)、装载(Load)能将数据从原系统数据库经过抽取,进行转换,最后加载到目标数据库,实现系统数据之间的整合。
3.2.2该数据整合实现技术运用在水利设计单位集成信息系统有如下优势:(1)高效率。ETL软件的数据抽取、转换、加载的效率非常高,特别对于大数据量的抽取。并且支持对ORACLE9i增量数据抽取。(2)改进数据质量。能够根据各种条件校验源数据和目标数据质量,对垃圾数据进行清洗。(3)强大管理功能。能够通过WEB管理界面对数据抽取策略执行制定时间触发方式,对抽取结果进行分析等。(4)多平台、多数据源支持。支持各种平台、各种数据库系统(如ORACLE、SQLServer等)以及不同版本数据库之间的数据抽取。(5)具备多种数据转换控件,能够完成各种非常复杂的数据转换工作。但是该数据整合实现技术也存在一些局限性:投资费用较为昂贵,实施周期通常较长。
4. 数据整合的实施
数据整合实施工作分为4个阶段。
(1)第一阶段为对信息系统原始数据分析阶段。为了更加全面理解各种数据格式的含义,获得各种相关文档资源,因此首先要对信息系统原始数据进行分析。该阶段主要包括了解需要采集的数据结构定义和数据表之间的设计联系。例如:我们对包括非电子数据、excel格式数据及其各种不同数据库格式数据进行分析。
(2)第二阶段为设计实施阶段。为了不影响原始数据格式的改变及其调用,并保证它们的安全性,第二阶段主要是定义数据整合规则及策略的设计实施阶段。前者包括字段映射、合并、函数计算定义等。后者主要定义时间策略。
(3)第三阶段为数据校验阶段。为了不会产生各种不完整甚至错误信息,因此在系统正式运行之前,必须建立严格的数据校验机制,以保证生产数据和整合平台数据的一致性。例如:我们对导人的数据进行校验,主要标准为水利设计单位设计规范标准,并对校验出来的问题进行处理,主要是人工处理确认。
(4)第四阶段为系统上线阶段。将设计好的数据整合流程正式发布,并可设定计划定时执行,系统管理人员可以通过监控界面,进行任务监控和跟踪。根据需求,管理人员还可修改计划,合理安排数据转换任务,以在规定的时间内完成所有的数据转换和加载任务。
5. 结语
(1)数据整合将改变原有的以部门和项目为中心的信息孤岛局面,从而能够实现整个水利设计单位的数据整合。原有的部门级、以项目为中心的运作方式,将可能使得各个项目的使用技术不尽相同,也使得项目的进度依赖于开发人员的编码效率,从而使得整个水利设计单位的效率低下。
(2)进行整个单位的数据整合之后,就能够在水利设计单位内部统一技术架构和标准,充分发挥团队协作的效率。通过由数据整合进行的数据移植、数据仓库等,将能够使得水利设计单位的数据整合成本大大下降。
参考文献
[1]蒋东兴,刘启新.数字校园信息整合之我见[M].北京:清华大学计算机与信息管理中心,2003.
[2]周志达,徐先传.数据仓库中数据抽取、转换及加载工具研究[J].北京理工大学学报,2003,23(6):720~723.
[文章编号]1619-2737(2014)03-18-634endprint