数据仓库在档案信息管理中的应用

2006-12-06 02:51钱毅

北京档案 2006年4期

钱　毅

档案作为一种重要的信息资源,为人们提供鉴往知来､获取历史经验教训的重要信息功能｡但是由于档案信息资源具有时空分散性､数量庞大､记录形式多样等特点,使得档案信息的利用一直处于较低层次｡如何真正盘活档案信息,从大量历史数据中获得有价值的信息为现实服务,传统的数据处理技术并没有给出令人满意的答案｡采用数据仓库技术,可以实现有效的海量数据管理,提供数据管道实现多种数据源的综合,并提供联机分析和数据挖掘等手段对档案信息进行活化,为决策者提供参考服务,这将是日后包括档案信息在内的信息资源管理手段的努力方向｡

数据仓库技术简介

数据仓库的标准定义是支持管理决策过程的､面向主题的､集成的､随时间变化的､信息相对稳定的数据集合｡主题是数据仓库用来组织数据的维度,像对档案信息用户的分析就可以从用户年龄､职业､查询内容､使用偏好等主题进行组织｡集成是指这些数据是经过清理加工､并按照某种预定的规则进行整理的具有一致性的数据｡“随时间变化”的特征主要用于进行时间趋势分析,因此需要拥有大量的历史数据｡所谓“相对稳定性”是指数据仓库一旦装入数据,一般情况下就不能更改,但可以加入新数据｡由此可见,相比传统数据库,数据仓库是一个复杂的数据存储体系,它从外部系统数据源中提取数据到数据仓库中,通过集成管理器对多种数据源(有可能是异构的)进行抽取､整理和转换,得到基础数据库,并与各种外部分析工具相结合对数据进行分析整理,根据需要输出综合信息｡数据仓库在信息抽取､决策支持､知识管理等领域都具有广泛的应用｡

档案数据仓库的建设

(一)数据仓库是档案信息服务方式的发展方向

目前,绝大多数档案馆都拥有自己的信息管理系统,建立了规模不等的档案数据库｡有不少数据库的容量已经达到相当规模,且还在不断进行纸质档案文件的电子著录和数字化工作,如何对这些数据进行科学有效的分析并从中提取有价值的信息,变被动服务为主动服务,是档案信息服务在新的技术条件下面临的重大挑战｡

随着信息化的不断深入,机构内部可能存在运行于不同平台上的不同结构标准的数据集合,当要跨越一定的时间长度来查询历史信息时,或者需要汇总多个系统的文件信息时,数据处理和查询的难度便增大不少｡而且随着历史数据的积累,这种情况便越发突出｡数据仓库为解决这些问题提供了技术保证,它能够处理大量的数据资源,通过它的集成管理器能够将发展过程中离散的数据有效集中,此举不但能够提高业务效率,保证机构历史的完整性,而且能够集中处理历史数据,获得对某一问题历史的完整认识｡

(二)档案信息数据仓库建立流程

档案信息数据仓库的建立过程是一个系统工程,需要参与各方协同工作,其中包括仓库系统选型､模型设计､数据转换等技术工作,需要协调沟通档案数据源的提供方,需要熟悉档案业务流程和应用需求的领域专家,此处仅就档案数据仓库建立的核心环节进行讨论,参与各方的角色和功能从略｡

1､档案应用需求分析

如果档案利用者难以由现有的系统获得所需信息,或者决策者的要求比较复杂,需要对大量数据进行综合处理才能获得,那就有必要采用数据仓库技术来辅助决策｡比如对于档案用户的分析,决策者需要知道用户的利用偏好,包括利用时间､查阅档案的类别与用户年龄层次的关系､利用效果等信息,这些结论都需要参考大量数据,包括历年的用户记录和调查报表｡惟有如此,才能反映正确的用户信息,为调整档案开放时间､确定档案编研产品等决策提供信息保证｡

2､档案数据采集

经过多年的档案信息化进程,在档案领域中普遍存在着多种档案信息源,包括关系数据库､文件系统和INTERNET数据形式,这些档案数据源在数据结构上有不同的构造｡可以通过数据采集技术将其汇总,经过数据清理转换后集成到统一的档案数据仓库中,共同构成原始信息来源｡

虽然本环节具有一定的技术含量,但真正实现的难点在于破除档案信息孤岛的藩篱,沟通各数据单位,实现档案数据共享,同时需要由良好的档案质量保证体系来维护数据质量｡

3､档案数据转换

采集之后就需要将现有的档案数据转换到数据仓库中,这有可能是一项庞大的工作,取决于档案数据源的质量和规范程度｡仍以档案用户分析为例,用户籍贯的记录方式就有可能五花八门,有些用中文表示,有的用代号或者拼音来表示,这时数据转换工作就要根据用户需求将它们转换为相同的格式｡这种情况在建立文件中心和地区性档案目录中心时就表现出来了,而且普遍存在于文件和档案信息源中,这对档案数据源的整合是一个很大的障碍｡

在进行档案数据源特别是档案数据库建设的同时,应建立健全档案数据质量控制体系｡该体系主要从微观的角度,以具体的可操作的形式提供对数据库进行全面质量管理的方案,包括制定数据质量考核指标､校对制度､备份制度等,定期检查,责任到人,尽量将质量管理的要求嵌入软件功能之中,以期最大限度地保障档案数据的质量｡

对于档案数据的逻辑结构,则应当加强依赖于著录标准的元数据库的建设｡由于我国的《档案著录规则》在著录项目设置上并没有提供完全适用于计算机管理的结构,各档案数据库在建设时都根据自己的理解自行增删著录项目,自由选择字段类型､字段长度,这样的数据库进行互联互通的难度就可想而知了｡因此笔者建议以著录标准为基础,建立一定范围内的元数据标准,并以此构成元数据字典｡该字典提供数据项目的结构化信息,包括数据字段的名称､数据类型､长度､默认格式等规范,并说明字段之间的联系｡需要指出的是,这样一个具有内在联系的有机的元数据字典,实质上是为档案数据库提供通信格式,并不要求完全遵循,如果有特殊要求,只需要在此基础上提供转换功能即可｡在目前阶段,元数据字典的建设以二次文献信息项目为主,同时加强档案全文和电子文件元数据规范研究,为档案数据仓库的整合和档案管理系统的深入设计提供规范标准｡

数据仓库分析技术在档案信息管理中的应用

数据仓库只是存放和管理历史性数据的特殊数据结构,如果希望利用档案数据仓库服务于决策支持,获取高价值的信息,还需要诸如联机分析处理技术和数据挖掘等分析工具｡

(一)运用联机分析处理技术(OLAP)分析档案数据仓库

联机分析处理技术是针对特定问题的联机数据访问和分析,通过对数据进行多层次､多阶段的分析处理,获得高度归纳的分析结果｡OLAP是一种自上而下的分析工具,在用户提出问题之后,可以从宏观至微观的各个角度来查看分析数据,以比较直观的方式呈现给用户｡通过OLAP服务器可以将数据仓库模拟成多维数据库,采用EXCEL等前端分析工具获得信息｡例如利用数据仓库分析档案利用情况,决策者可以获得某类档案在2005年的利用次数数据,就时间维度而言,他可以再深入到该年各季度､各月份的利用次数,还可从用户类别维度获知哪些类别的用户查阅档案的次数较多｡

(二)运用数据挖掘分析档案数据仓库

在传统数据库应用中,人们通过查询获取数据,数据经过人的理解或解释,成为有用的信息｡数据库管理系统(DBMS)提供的查询手段一般只限于一些基本的数据库操作,因此通过DBMS只能对数据进行粗加工,获得一些初级的综合信息,但对于蕴藏在大量原始数据中的规则､规律､信息模式等高层次信息,仅仅通过查询是难以获得的,需要在数据仓库的基础上进行分析､推理,我们形象地称之为“数据挖掘”｡主要的挖掘方法包括以下几类:

联系分析｡在数据挖掘中通过关联算法,寻找数据属性之间的相关性｡比如挖掘档案用户类型与查询档案类别之间是否存在相关性,如果存在高相关性,就可以为不同类别的用户提供具有针对性的服务｡

聚类分析｡这是一种对具有共同趋势和模式的数据进行分组的方法，依据类内相似性最大、类间相似性最小的原则对数据集合进行分组。档案信息服务提供者可以根据信息用户群中是否存在某种相似性，进而划分不同的用户群体，掌握其各自的特点，更好地提供服务产品。比如我们一般是按照职业、年龄等属性来划分档案客户的，但通过聚类分析也许会发现，查询目的属性可以更有效地区分用户行为，为公查询和为私查询的用户在查询时间、查询档案类型等方面表现差异很大，因此可根据该属性将用户分类以便采取不同的服务措施。

总之，随着档案信息化的不断深入，如何存储管理呈爆炸性增长的数据，提供深层次的信息服务成为档案信息管理进一步发展的巨大障碍。采用数据仓库技术是档案信息管理领域中一个全新的课题，利用该技术来整合数据、管理数据，并使用其各种分析工具来分析、挖掘档案信息，是档案信息服务方式的发展方向。

参考文献：

1、万里云：《数据仓库技术以及在证券业应用展望》，《现代图书情报技术》2002年第4期。

2、钱毅：《政务数据库系统》，中国人民大学出版社 2004年出版。

3、浙江省档案数据库建设调查组：《档案信息化建设数据质量是关键》，《档案学研究》2002年第3期。

4、（美）W·H·Inmon著，王志海等译：《数据仓库》，机械工业出版社。

作者单位：中国人民大学信息资源管理学院