钱 毅
档案作为一种重要的信息资源,为人们提供鉴往知来、获取历史经验教训的重要信息功能。但是由于档案信息资源具有时空分散性、数量庞大、记录形式多样等特点,使得档案信息的利用一直处于较低层次。如何真正盘活档案信息,从大量历史数据中获得有价值的信息为现实服务,传统的数据处理技术并没有给出令人满意的答案。采用数据仓库技术,可以实现有效的海量数据管理,提供数据管道实现多种数据源的综合,并提供联机分析和数据挖掘等手段对档案信息进行活化,为决策者提供参考服务,这将是日后包括档案信息在内的信息资源管理手段的努力方向。
数据仓库技术简介
数据仓库的标准定义是支持管理决策过程的、面向主题的、集成的、随时间变化的、信息相对稳定的数据集合。主题是数据仓库用来组织数据的维度,像对档案信息用户的分析就可以从用户年龄、职业、查询内容、使用偏好等主题进行组织。集成是指这些数据是经过清理加工、并按照某种预定的规则进行整理的具有一致性的数据。“随时间变化”的特征主要用于进行时间趋势分析,因此需要拥有大量的历史数据。所谓“相对稳定性”是指数据仓库一旦装入数据,一般情况下就不能更改,但可以加入新数据。由此可见,相比传统数据库,数据仓库是一个复杂的数据存储体系,它从外部系统数据源中提取数据到数据仓库中,通过集成管理器对多种数据源(有可能是异构的)进行抽取、整理和转换,得到基础数据库,并与各种外部分析工具相结合对数据进行分析整理,根据需要输出综合信息。数据仓库在信息抽取、决策支持、知识管理等领域都具有广泛的应用。
档案数据仓库的建设
(一)数据仓库是档案信息服务方式的发展方向
目前,绝大多数档案馆都拥有自己的信息管理系统,建立了规模不等的档案数据库。有不少数据库的容量已经达到相当规模,且还在不断进行纸质档案文件的电子著录和数字化工作,如何对这些数据进行科学有效的分析并从中提取有价值的信息,变被动服务为主动服务,是档案信息服务在新的技术条件下面临的重大挑战。
随着信息化的不断深入,机构内部可能存在运行于不同平台上的不同结构标准的数据集合,当要跨越一定的时间长度来查询历史信息时,或者需要汇总多个系统的文件信息时,数据处理和查询的难度便增大不少。而且随着历史数据的积累,这种情况便越发突出。数据仓库为解决这些问题提供了技术保证,它能够处理大量的数据资源,通过它的集成管理器能够将发展过程中离散的数据有效集中,此举不但能够提高业务效率,保证机构历史的完整性,而且能够集中处理历史数据,获得对某一问题历史的完整认识。
(二)档案信息数据仓库建立流程
档案信息数据仓库的建立过程是一个系统工程,需要参与各方协同工作,其中包括仓库系统选型、模型设计、数据转换等技术工作,需要协调沟通档案数据源的提供方,需要熟悉档案业务流程和应用需求的领域专家,此处仅就档案数据仓库建立的核心环节进行讨论,参与各方的角色和功能从略。
1、档案应用需求分析
如果档案利用者难以由现有的系统获得所需信息,或者决策者的要求比较复杂,需要对大量数据进行综合处理才能获得,那就有必要采用数据仓库技术来辅助决策。比如对于档案用户的分析,决策者需要知道用户的利用偏好,包括利用时间、查阅档案的类别与用户年龄层次的关系、利用效果等信息,这些结论都需要参考大量数据,包括历年的用户记录和调查报表。惟有如此,才能反映正确的用户信息,为调整档案开放时间、确定档案编研产品等决策提供信息保证。
2、档案数据采集
经过多年的档案信息化进程,在档案领域中普遍存在着多种档案信息源,包括关系数据库、文件系统和INTERNET数据形式,这些档案数据源在数据结构上有不同的构造。可以通过数据采集技术将其汇总,经过数据清理转换后集成到统一的档案数据仓库中,共同构成原始信息来源。
虽然本环节具有一定的技术含量,但真正实现的难点在于破除档案信息孤岛的藩篱,沟通各数据单位,实现档案数据共享,同时需要由良好的档案质量保证体系来维护数据质量。
3、档案数据转换
采集之后就需要将现有的档案数据转换到数据仓库中,这有可能是一项庞大的工作,取决于档案数据源的质量和规范程度。仍以档案用户分析为例,用户籍贯的记录方式就有可能五花八门,有些用中文表示,有的用代号或者拼音来表示,这时数据转换工作就要根据用户需求将它们转换为相同的格式。这种情况在建立文件中心和地区性档案目录中心时就表现出来了,而且普遍存在于文件和档案信息源中,这对档案数据源的整合是一个很大的障碍。
在进行档案数据源特别是档案数据库建设的同时,应建立健全档案数据质量控制体系。该体系主要从微观的角度,以具体的可操作的形式提供对数据库进行全面质量管理的方案,包括制定数据质量考核指标、校对制度、备份制度等,定期检查,责任到人,尽量将质量管理的要求嵌入软件功能之中,以期最大限度地保障档案数据的质量。
对于档案数据的逻辑结构,则应当加强依赖于著录标准的元数据库的建设。由于我国的《档案著录规则》在著录项目设置上并没有提供完全适用于计算机管理的结构,各档案数据库在建设时都根据自己的理解自行增删著录项目,自由选择字段类型、字段长度,这样的数据库进行互联互通的难度就可想而知了。因此笔者建议以著录标准为基础,建立一定范围内的元数据标准,并以此构成元数据字典。该字典提供数据项目的结构化信息,包括数据字段的名称、数据类型、长度、默认格式等规范,并说明字段之间的联系。需要指出的是,这样一个具有内在联系的有机的元数据字典,实质上是为档案数据库提供通信格式,并不要求完全遵循,如果有特殊要求,只需要在此基础上提供转换功能即可。在目前阶段,元数据字典的建设以二次文献信息项目为主,同时加强档案全文和电子文件元数据规范研究,为档案数据仓库的整合和档案管理系统的深入设计提供规范标准。
数据仓库分析技术在档案信息管理中的应用
数据仓库只是存放和管理历史性数据的特殊数据结构,如果希望利用档案数据仓库服务于决策支持,获取高价值的信息,还需要诸如联机分析处理技术和数据挖掘等分析工具。
(一)运用联机分析处理技术(OLAP)分析档案数据仓库
联机分析处理技术是针对特定问题的联机数据访问和分析,通过对数据进行多层次、多阶段的分析处理,获得高度归纳的分析结果。OLAP是一种自上而下的分析工具,在用户提出问题之后,可以从宏观至微观的各个角度来查看分析数据,以比较直观的方式呈现给用户。通过OLAP服务器可以将数据仓库模拟成多维数据库,采用EXCEL等前端分析工具获得信息。例如利用数据仓库分析档案利用情况,决策者可以获得某类档案在2005年的利用次数数据,就时间维度而言,他可以再深入到该年各季度、各月份的利用次数,还可从用户类别维度获知哪些类别的用户查阅档案的次数较多。
(二)运用数据挖掘分析档案数据仓库
在传统数据库应用中,人们通过查询获取数据,数据经过人的理解或解释,成为有用的信息。数据库管理系统(DBMS)提供的查询手段一般只限于一些基本的数据库操作,因此通过DBMS只能对数据进行粗加工,获得一些初级的综合信息,但对于蕴藏在大量原始数据中的规则、规律、信息模式等高层次信息,仅仅通过查询是难以获得的,需要在数据仓库的基础上进行分析、推理,我们形象地称之为“数据挖掘”。主要的挖掘方法包括以下几类:
联系分析。在数据挖掘中通过关联算法,寻找数据属性之间的相关性。比如挖掘档案用户类型与查询档案类别之间是否存在相关性,如果存在高相关性,就可以为不同类别的用户提供具有针对性的服务。
聚类分析。这是一种对具有共同趋势和模式的数据进行分组的方法,依据类内相似性最大、类间相似性最小的原则对数据集合进行分组。档案信息服务提供者可以根据信息用户群中是否存在某种相似性,进而划分不同的用户群体,掌握其各自的特点,更好地提供服务产品。比如我们一般是按照职业、年龄等属性来划分档案客户的,但通过聚类分析也许会发现,查询目的属性可以更有效地区分用户行为,为公查询和为私查询的用户在查询时间、查询档案类型等方面表现差异很大,因此可根据该属性将用户分类以便采取不同的服务措施。
总之,随着档案信息化的不断深入,如何存储管理呈爆炸性增长的数据,提供深层次的信息服务成为档案信息管理进一步发展的巨大障碍。采用数据仓库技术是档案信息管理领域中一个全新的课题,利用该技术来整合数据、管理数据,并使用其各种分析工具来分析、挖掘档案信息,是档案信息服务方式的发展方向。
参考文献:
1、万里云:《数据仓库技术以及在证券业应用展望》,《现代图书情报技术》2002年第4期。
2、钱毅:《政务数据库系统》,中国人民大学出版社 2004年出版。
3、浙江省档案数据库建设调查组:《档案信息化建设数据质量是关键 》,《档案学研究 》2002年第3期。
4、(美)W·H·Inmon著, 王志海等译:《数据仓库》,机械工业出版社。
作者单位:中国人民大学信息资源管理学院