非结构化数据迁移工具的设计与实现

2013-04-29 20:40李志星
电脑知识与技术 2013年9期

李志星

摘要:国内大型企业开展内容管理平台的搭建,有效的整合了各个业务应用系统生成的非结构化数据,合理的实现了数据从分散存储到集中存储的巨大跨越,但是对于现有业务应用系统中海量历史非结构化数据迁移至内容管理平台的问题有待解决。保证业务应用系统和内容管理平台的安全稳定运行前提下,文中提出了通过第三方数据迁移工具和标准的数据迁移方案,从而保障各个业务应用系统非结构化数据的迁移工作有序的开展,并对迁移的历史数据的完整性和一致性进行校验,确保历史数据迁移后能够正常访问。

关键词:内容管理平台;非结构化数据;数据迁移;数据校验;标准流程

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)09-2117-05

在通信技术与软件开发技术高速发展的环境下,企业通过信息化办公系统提高了管理质量和工作效率。然而,现代企业在信息化办公过程中生成的大量电子文本文件、报表、账单、合同、规章制度、音频、视频等非结构化数据,每年以GB级向TB级的速度不断增长,依靠传统的关系型数据库已经无法满足企业数据管理的要求。针对此需求,内容管理平台的出现,彻底解决了非结构化数据存储的问题,其可扩展性先进性、安全性、标准性和开放性、系统集成性,完美的实现了非结构化数据集中存储和管理,但是,由于多年的信息化办公中生成的历史非结构化数据还存储在业务应用系统的服务器中,需要通过合理有效的数据迁移工具将历史非结构化数据统一存储到内容管理平台。

1 存在的问题

随着信息化办公的长远发展,数据的集中存储和管理是实现各个业务应用系统数据融合、信息共享、数据挖掘、获取有益数据的重要保障。但目前由于信息化数据管理标准、管理模式及要求等方面仍然存在着一定的问题。其中包括:

1.1 数据管理面临的典型问题

1)信息化办公中的非结构化数据需要内容管理平台的有效管理,但缺乏统一的管理标准和数据分类标准;

2)业务应用系统对非结构化数据的需求不统一;

3)各个业务系统中数据格式多样化,对数据的访问频率也各不相同;

4)非结构化数据的共享利用率较低。

1.2 目前主流的内容管理平台方面存在的问题

1)非结构化数据存储方式及数据格式多样,整合存在困难,使数据共享和共享平台建设留下了许多问题:

2)在数据挖掘和统一搜索方面,能够实现简单的业务元数据方式的查询,极少数实现了全文检索,同时随着非结构化数据量的增长,使得应用系统的查询过程变得漫长。;

3)数据传输的安全性相对薄弱,缺少数据的传输加密功能,比如多数系统无法控制被利用电子文件传输的安全性:

所以,通过对业务应用系统数据需求分析和存储现状的研究,制定一套统一的、专业的数据迁移方案和工具势在必行。通过对业务应用系统历史非结构化数据的集中存储和管理,为内容管理平台建设提供有力支撑,对实现数据共享、数据挖掘、加工利用提供有效保障;同时通过内容管理平台,加快解决用户对数据访问效率。

企业级内容管理平台的非结构化数据迁移工具的设计与实现的定位是以“来源于数据、利用于数据,实现数据共享、深度挖掘、提升利用价值”的思想,有力的支撑内容管理平台实现数据的统一存储和管理,提高数据的安全性,保证合理的数据共享和利用。

2 业务应用系统数据现状

2.1 需求分析

根据目前企业业务应用系统建设情况,分为已建系统和在建系统,大部分已建系统存在着大量的非结构化数据,这部分数据已在业务流程中使用,为实现数据的集中存储,需要将这部分数据迁移到内容管理平台进行统一存储和统一访问,以实现非结构化数据大集中管理,业务系统对历史数据迁移提出了以下需求:

1)存储空间的需求:业务系统根据自身系统非结构化数据的现状,计算非结构化数据的总容量和总条数,同时预估每年可能产生的数据量,需要使用多大的存储空间,提供多少的预留空间;

2)支持多数据源的迁移:目前公司业务系统非结构化数据的主要有数据库大字段BLOB、文件系统、FTP文件服务器等,根据业务系统不同的存储方式,内容管理平台需要提供不同的解决方案,以满足不同的业务系统对历史数据迁移的需求;

3)迁移支持的数据格式:各个业务系统对非结构化数据存储格式的需求不同,如:OA办公系统的非结构化数据有doc、ceb、wps、xls、pdf等格式,档案管理系统的文件格式有TGA、GIF、TIF、TIFF、MPG、AVI、MOV、MPEG、WAV、MP3、WMA、HTML、TXT、XML等;

4)迁移后用户使用非结构化历史数据体验不变:待历史数据迁移完成后,对于用户来说,非结构化数据迁移前和迁移后没有任何的体验变化;

5)非结构化数据的完整性:迁移过程中,不能破坏原有的非结构化数据,以免造成非结构化数据的不一致性;

6)平台的稳定性:历史数据迁移完成后,内容管理平台提供稳定运行,以保证业务系统能够实时使用迁移到内容管理平台中的非结构化数据。

2.2 存储现状

1)数据库的BLOB字段。将非结构化数据以二进制的格式存储在数据库的BLOB字段中,其优点是调用文件的速度快,维护和管理简单。使得企业大部分的应用系统中的采用此种方式将非结构化数据进行存储。其缺点是;一是由于非结构化数据文件相对于结构化数据较大,在数据量不断增长的情况下,数据库的存储达到一定程度,会导致数据库性能下降,进而影响业务应用系统的性能;二是由于各个业务应用系统相对封闭和独立,其他应用无法共享相关文档资料。

2)本地服务器。对于大多数没有应用系统的非结构化数据,如信息管理部门常用的工具软件、开发的应用系统软件、源代码、开发过程文档、技术研究资料等,新闻中心的素材、资料等通常都是将文件直接存储到文件服务器中。

3)FTP文件服务器。以FTP方式将文件上传至文件服务器中。其优点是解决文件的共享。其缺点是受到网络拥塞的影响,会导致数据访问性能下降。

3 数据迁移工具设计

3.1 数据迁移目标

业务应用系统历史非结构化数据迁移是实现数据集中管理和利用的一个重要步骤。迁移一般要达到以下目标:

1)在完成业务应用系统与内容管理平台接口集成的基础上,平滑的将原有业务应用系统内的历史非结构化数据完整地迁移到内容管理平台中。

2)简单、准确的数据校验方法。

3)最小限度的影响现有系统的运行。

4)最小的数据维护时间。

3.2 技术路线

整个框架基于Spring框架搭建,通过配置文件动态注入。包括数据源,日志,数据目标,数据传输模型等通过动态注入。同时运用了SQL Server数据库技术、Windows Service技术等等

3.3 技术方案

通过设计开发的数据迁移工具实现数据的迁移,其优点是不需要对业务应用系统停机,即对业务应用系统的影响极小,其缺点是数据迁移相对较慢,对系统的I/O资源消耗较大。

3.4 数据迁移工具总体结构框架

3.5 数据源表结构

3.6 数据迁移功能设计

数据迁移功能设计总共分为7个模块,分别为:导入处理模块、适配器模块、数据传输模块、数据存储模块、日志模块、配置模块、可视化配置模块。

1)导入处理模块:对数据传输模块,适配器模块、数据存储模块、日志模块的进行合理的调配和管理。

2)适配器模块:提供数据统一接口,用于数据初始化,读取数据库表中的数据信息,转换为统一格式,同时用于内容管理平台生产的文件ID回写到数据库表中。

3)数据传输模块:用于控制数据的传输。

4)数据存储模块:将数据传输模块传送的数据按照元数据和文件分别存放到内容管理平台。

5)日志模块:用于保存数据迁移的日志信息,如传输文件、时及传输成功、失败的日志信息。

6)业务配置模块:用于配置业务应用系统的系统编码,用户名,密码,文件柜等配置。

7)可视化配置模块:提供初始化信息配置,例如,导入进度显示。

3.7 数据迁移方案

3.7.1 历史数据迁移系统架构

参照上面的历史数据迁移系统架构图:其业务实现的步骤是:

1)首先,业务应用系统项目组根据数据源格式整理出业务应用系统需要迁移的历史非结构化数据和数据源,然后将数据源导入到数据库表中,提供给内容管理平台项目组,以便非结构化数据迁移工具读取非结构化数据。

2)通过非结构化数据迁移工具调用内容管理平台提供的HTTP接口,把迁移过程中的相关信息、系统验证码等信息传送给内容管理平台。

3)通过HTTP接口得到的对应信息,将通过权限认证(系统验证码)来判断从历史迁移工具获得的信息是否验证通过?若权限认证通过,则把导入的数据放入到对应的内容存储库中。若权限认证未通过,将返回错误消息。

4)将内容库中生成文件ID返回到内容管理平台,通过内容管理平台提供的HTTP接口,把文档ID回写到数据库的数据源中。

5)在通过内容管理平台历史迁移工具对业务系统的每条数据迁移到非结构化平台后,内容管理平台项目组将数据源导出,提供给业务系统项目,将文件ID更新到业务系统的数据源中。

综上所述,要进行成功的数据迁移,业务实现阶段的每一步骤的工作都要做好,充分而周到的准备工作是完成数据迁移的重要基础,正确的迁移策略和技术是完成数据迁移的核心条件,完善的检验工作是保证数据正确可靠的必不可少的补充。总之,完成数据迁移之后要保证新系统中的信息完备无遗、不包含冗余信息等。

3.7.2 业务应用系统历史数据迁移标准流程

1)迁移准备

① 内容管理平台项目组组织业务应用系统项目开展迁移的调研工作,包括业务应用系统与;② 内容管理平台接口集成情况,历史数据大小、文件类型等。

确定历史数据迁移时间计划,人员安排,确保迁移工作的顺利进行。

2)迁移工具验证

搭建测试环境,通过迁移工具开展验证测试工作,验证数据迁移工具是否成功实现数据迁移。

3)数据梳理

① 业务应用系统项目组需要向对口业务部门和运维单位提出生产环境历史数据导出申请,并将数据导出到指定的服务器中。

② 业务应用系统项目组根据内容管理平台项目组提供的历史数据的数据源格式对数据进行梳理,按实际情况完善历史数据的数据源。

③ 业务应用系统项目组将生产环境历史非结构化数据和历史数据的数据源提供给内容管理平台项目组。

4)测试环境数据迁移

① 内容管理平台项目组和业务应用系统项目组在测试环境下搭建各自的测试环境,并实现业务应用系统与内容管理平台的接口集成工作。

② 内容管理平台项目组根据业务应用提供的生产环境历史非结构化数据和历史数据的数据源对历史数据迁移工具进行配置。通过历史数据迁移工具读取历史数据的数据源信息将历史非结构化数据迁移到内容管理平台。

③ 迁移完成后,内容管理平台项目组将重新内容管理平台回写生成的数据源提供给业务应用系统项目组,由业务应用项目组将新的数据源更新到业务应用数据库。

5)生产环境数据迁移

① 内容管理平台项目组使用历史迁移工具读取历史数据的数据源中的记录,将历史数据迁移到生产环境内容管理平台中。

② 完成生产环境的历史数据迁移后,内容管理平台项目组将重新内容管理平台回写生成的数据源提供给业务应用系统项目组,由业务应用项目组将新的数据源更新到业务应用数据库。

6)完成

① 内容管理平台项目组根据数据迁移工具的日志信息分析数据的迁移情况;通过查看历史数据迁移日志分析迁移工具是否正常运行,历史数据迁移条数是否正确。若迁移条数与实际不符,业务应用项目组和内容管理平台项目组共同通过查看日志和数据库记录分析原因、解决问题;

② 业务应用系统项目组通过数据源中回写的FILE_SIZE与业务系统中历史数据的数据大小进行对比分析,若发现不一致的情况,及时与内容管理平台项目组沟通解决。

③ 业务应用系统项目组通过业务应用系统对迁移后的数据进行抽查访问,确保数据的完整性。

4 数据迁移的综合价值分析

开展非结构化数据集中管理平台数据迁移的研究,将使分散在各个业务应用系统中的企业非结构化数据存储孤岛能进行有效整合和集中存储,以此建立全方位的非结构化数据中心,只有通过此种整合和集中整合,方能建立企业非结构化数据存储标准,为将来的非结构化数据挖掘、给各业务应用系统提供统一的获取非结构化数据的基础支撑。

1)降低运行成本

降低企业运作成本,提高经营管理和服务水平; 数据的集中存储,从一方面,针对于信息维护人员实现了对单个业务应用系统的数据维护转变为针对各个业务应用系统集中存储的数据维护,大大的减少了人力成本;

2)提高效率

通过数据迁移工具实现了业务应用系统历史非结构化数据的迁移和存储,有效整合和管理在业务流转过程中产生的大量的非结构化数据,优化存储架构,提高存取和利用效率。

3)合理存储

多数业务应用系统数据由于独立存储业务数据,存在有的业务应用系统存储空间大,但数据量和数据增长量相对较小,有的业务应用系统存储空间小,但数据量和数据增长量相对较大,导致存储不均衡,通过人为分配容易造成数据损坏或丢失的风险。通过数据迁移,实现数据的统一存储,减少了人为风险,同时,根据每年的数据存储情况可以容易得知数据增长量,使得信息运维人员更合理分配存储空间。

4)建立全面的内容安全管理

通过数据迁移工具的加密功能,保证了数据访问的安全性,同时内容管理平台自身的内容加密、权限管理、安全监控及备份还原等功能,为企业内容提供全面的安全防护,确保内容无异常损毁、无泄漏,内容流转过程可控。

通过数据迁移工具把企业中非结构化数据的整合和数据采集、传输、存储和利用。对大量的企业信息资产进行深入分析,挖掘有益信息,为智能决策服务;打破数据流转和共享的壁垒,实现企业内容有效整合、集中存储、规范标准、统一服务,实现流程互通。

参考文献:

[1] 王克,王清心.基于ECM理念构建电信级知识内容管理平台的研究[J].微型机与应用,2010,29(22):9-12.

[2] 苏明.企业内容管理平台的研究与实现[J].科技信息,2011,(4):238-239.

[3] 任庆东,李天阳,袁满,等.基于元数据驱动的通用数据迁移工具[J].大庆石油学院学报 ,2011,35(1) :76-80.

[4] 高强,魏薇.大型企业级非结构化数据的迁移与转储技术研究[J].电脑知识与技术,2011,7(6) :1225-1228.

[5] 李喆 ,万小健.企业级信息系统数据迁移方法[J].计算机系统应用,2011,20(1) :182-184.