档案数据整合初探

2017-07-19 14:18吴春梅
卷宗 2017年12期
关键词:信息孤岛

吴春梅

摘 要:信息化经过多年的发展,已经积累了大量的基础数据,由于建设初期缺少统一规划和部署,“信息孤岛”问题日益明显。为将各应用系统间的数据联系起来,打破数据堡垒,本文作者对数据整合技术进行了初步分析,并以档案工作为例探讨“信息孤岛”问题的解决方案,提出进行数据整合工作需要注意的问题,最后总结了数据整合可能给档案工作带来的实际效益。

关键词:档案数据;信息孤岛;整合技术;利用效益

随着社会的发展和人们对信息技术认识的提高,各单位内部对软件开发的需求也越来越多。为了满足这些需求,就必须加快应用软件的开发速度,然而快速的信息化建设容易忽略整体的规划与设计,产生的问题就是不同的应用软件之间的数据不能互联互通,出现“信息孤岛”现象,从而阻碍了信息化工作的进一步发展及产生更大的社会效益和经济效益。

形成“信息孤岛”的本质是在数据库管理系统层面,如异构数据库、数据结构差异和数据含义不同等。数据的整合就是将分散而冗余的数据按照一定逻辑关系进行集中存储,使数据结构和数据含义统一,实现数据的全方位共享。

1 数据整合需求分析

数据整合的对象是数据,而这些数据存放于不同软件开发商的数据库内,这些数据库的数据结构又千差万别,无法通用,造成了应用的不便利。

为了使大家有一个直观的认识,以我馆一个典型的文学档案研究场景为例加以说明。

中国现代文学馆是中国第一座文学博物馆,收藏了大量现当代作家的版本图书、期刊、手稿、书信、字画及实物资料,是现当代文学的研究阵地。经过近20年的馆藏信息化建设,现在使用的馆藏业务应用系统有书刊管理系统、藏品管理系统、藏品数字化系统一期(文本类档案)和藏品数字化系统二期(音像类档案),为现当代文学研究提供服务。

在我们的服务过程中,经常会出现的场景是,一名研究人员准备进行某作家的专项研究,他得知我馆收藏该作家的资料比较丰富,但又不知道具体有哪些资料对自己的研究工作有帮助,于是该研究人员利用我馆的公共馆藏目录检索系统检索到关于这位作家在我馆的全部馆藏品,包括:各版本图书、手稿、书信、照片、字画以及录音、录像带。由于馆藏检索系统只提供目录检索,看到感兴趣的信息后,该研究人员需要到藏品数字化系统中去浏览图书、手稿、书信、照片的数字化影像,到音像数字化系统中去收听声音文件和观看视频文件。这个检索浏览的过程可能需要反复多次,才能找到他需要的资料信息,费时费力,还可能出现遗漏。因此,该研究人员希望有一个科学的数据整合机制,将数据集中展现在一个界面上,使用户能够方便地看到数据全貌,既节省时间,又不会错过有价值的信息。由此看来,数据整合是顺应用户的需求,是大势所趋。因此,档案数据整合工作是新形势下对各级档案部门提升自身实力,服务社会需求的集中体现。

2 数据整合的技术实现

构建数据整合平台,目的是从不同的应用程序和分散异构的数据库中提取数据源,并形成统一的、对分散异构数据源所产生映射的数据库。数据整合平台要整合各种应用系统数据库,综合利用数据资源,提供灵活的数据展现方式。

首先,数据整合工作的基础就是数据分析。由于信息化建设早期缺乏统一规划,造成不同应用系统的体系结构各不相同,数据缺乏统一规范和标准。做数据整合平台的公司一般又不会是以前做数据管理型应用系统的软件开发公司,要让软件开发公司向其他公司公开数据结构又是不可能的。那我们就换一种思路 ,使显示数据统一标准,只呈现数据库内常用数据或非标识数据,这样就保证了软件开发公司的自主知识产权,而且以后再增加软件系统,也可以按这种方式处理,做到了可持续发展。为实现这一目的,对数据源的结构分析就显得尤为重要。要看懂数据字典,了解数据库表中各字段的含义及作用,标注常用的、具有信息描述作用的字段。

通过中间数据库传递数据来解决“信息孤岛”问题。我们通过建立一个中间数据库,将各个分散异构数据源中的数据通过统一标准的视图呈现出来。视图中的字段可对应选取之前在原数据表中标注的字段,通过数据迁移机制按视图字段提取各个数据库的所需数据插入到中间数据库的相应表中。为了保证中间数据库与源数据库的数据一致性,可在对应的源数据表中建立触发器,一旦工作人员操作原始应用程序使表内数据发生改变,视图即可对被改变的数据进行记录。系统会按照事先制订的迁移策略对中间数据库数据进行定时更新。中间数据库是整合平台中的一个独立的数据库,甚至可以在其它网段,这样就有效保证了业务数据库的数据安全。

3 数据整合需要注意的问题

在数据整合的过程中,要确保数据的准确性、一致性和完整性。建立各库的唯一性标识,是对各库数据的规范性验证,也是建立数据联系的纠错方式。整合后的数据应进行数据比对并实行抽检,以验证数据整合效果。在进行数据迁移和中间数据库的存储过程中要确保数据不被修改,确保呈现给用户的数据是数据库中的原始数据。

数据整合是一项复杂的系统工程,涉及众多的应用系统、操作系统、数据库管理系统、不同的数据结构、数据接口以及硬件平台等,因此需要统一规划。要坚持“统一标准、方便快捷、便于利用”的原则,分步实施,稳扎稳打,重质轻量。

档案工作的根本目的是便于社会利用,这也是数据整合的目标之一。但整合数据在发布的过程中一定要遵循档案的开放原则,遵守相应的法律法规和信息公开制度。数据隐私保护技术一般是在原有的数据应用平台上实现的,经过抽取的数据在整合平台上展示就失去了原来的隐私保护功能。因此数据整合也意味着风险,某些档案信息的泄密会给社会稳定、民族利益甚至国防安全带来威胁。

4 数据整合工作的效益

通过数据整合,形成各个应用系统数据的统一访问入口,提供满足信息安全的统一数据发布平台。用户数据搜索只针对中间数据库进行,保证了业务数据的安全,更不会对业务网络造成压力。

通过数据整合,能够将信息全面地展示给用户,使用户方便的进行查询利用。用户在整合平台统一的检索界面上实现对多个异构数据库数据的检索,检索结果经合并去重和排序后,以统一的格式显示,并可提供多种输出方式。

可形成“按需订制”的数据架构。在面对大量信息涌入而无所适从之时,人们对信息的获取要求更直接更有针对性,希望能够得到解决问题的知识和具体内容。数据整合平台使有针对性的提供服务成为可能,变等待服务或被动服务为个性化的推荐服务或主动服务。

能够对档案数据进行信息分析和挖掘研究。信息本质是事物间的相互关系,关系是多维的、网状的,只有整合起来才能反映关系的全面属性。数据整合可以提高档案检索利用的智能化水平,從数据中发掘有价值的信息,满足不同利用者的信息需求,将数据资源转化为知识资源,实现从信息服务到内容服务的转变。

使档案部门的工作重点从以“拥有资源”为中心转向以“整合信息资源”为中心。通过数据整合,知识达到充分共享,知识价值得到充分体现。今后的档案部门将会向整合化方向发展,提供的服务由最初提供单一的物理实体服务,向多层次、多元化、数字化的知识共享服务方向发展。

参考文献

[1]数据整合技术研究.[J],兵团教育学院学报,2006,余晓平、瓮正科等.

[2]大数据时代的档案信息服务研究,[J],兰台世界,2014,陈芦燕.

[3]“大数据”时代科学数据整合研究[J],情报理论与实践,201,4白如江、冷伏海.

猜你喜欢
信息孤岛
会计信息化条件下企业的成本与效益分析
高校学生工作数据平台的构建和创新长效机制研究
国药控股:云端解围“信息孤岛”