上海交通大学新藏地方历史文献的数字化建设规划与实践

2015-07-03 11:42李芳陈进王昕
大学图书馆学报 2015年2期
关键词:历史文献规范数字化

李芳+陈进+王昕

摘要 长期以来,图书馆对地方历史文献重发现和收藏、轻科学整理的状况,致使这些珍贵的文献得不到全面系统的揭示和充分利用。此文以上海交通大学图书馆新藏地方历史文献的整理和数字化建设为例,分析地方历史文献的特点及对其数字化的方案,通过行业扫描和自身环境分析,在数字化建设通用原则的基础上,提出了“求真”、“求用”的补充性原则,从资料整理、数字化标准、元数据规范、质量审核、资源保存和过程管理六个方面,系统深入地论述了地方历史文献的数字化管理和规范体系建设。

关键词 地方历史文献 数字化 上海交通大学图书馆

l 引言

近十年来,地方历史文献的发现、收藏数量呈井喷态势,“徽州、清水江流域、浙南,是目前发现量最大的三个地域,总数已超过100万件”[1],其中徽州文书被誉为是“继甲骨文字、汉晋简帛、敦煌文书、明清档案之后中国文献史上第五大发现”[2]。但是在规模不断增长的地方历史文献中,经过整理、出版和数字化的只是极少部分,对地方历史文献重发现收藏、轻科学整理的状况,致使这些珍贵的文献得不到全面系统的揭示和充分利用。近年来,“史学研究与数字化时代同步推进趋势日益明显”[3],数字资源已成为学术交流与研究的重要基础,作为为历史研究提供原始文献资料加工的基础工作,地方历史文献的数字化是当务之急。

上海交通大学图书馆目前新藏地方历史文献33万件,主要来自浙江、安徽、福建、江西,此外还有湖北、河北、辽宁、云南等多个省份,最北至辽宁喀喇沁左旗,最南至云南蒙自县。入藏文献已覆盖浙江、安徽、福建、江西四省总计36%的县份,是目前最能够系统反映东南地区传统社会的文献群。上海交通大学图书馆联合上海交通大学历史系,依托校“985计划”三期专项建设项目——契约文书的数字化加工及编目、教育部CALIS三期专题特色数据库建设项目等,对馆藏地方历史文献开展了系统的整理、保护性修复和数字化工作。在文献调研和分析的基础上,探索和总结出一套完整的数字化管理和规范体系,以期激发图书馆界对地方特色文献的组织和揭示的重视,为地方历史文献的数字化建设提供参考。

2 文献特点及其对数字化的影响

2.1 特点

地方历史文献主要产生于民间的日常生活,目前尚无达成学界共识的定义,在不同的语境中也被称为民间历史文献、民间文书、历史文书档案等。主要包括买卖契约、账本、家谱、书信、收据、分家文书等,学者可从中窥见民间的历史记忆,复原活生生的、丰富多彩的民间社会生活。从整理和数字化的角度看,地方历史文献的特点也明显区别于其他文献:

(1) 民间性。地方历史文献的创造主体或使用主体是普通老百姓。未经过知识再整理的过程,是地方历史文献民间性最显著的特点,其原始留存状态往往是学术研究中重要的线索。

(2) 归户性。整理者和研究者将收集到的文献以家族为单位进行分类整理,这一过程称为归户[4]。民间文献的特性在于其具有特定的生产使用机制、流传方式、保存系统,尤其是同一家庭的各种文献之间有内在的系统性和关联性。

(3) 非组织化。地方历史文献是一种非组织化的知识载体,不存在学术传承脉络。现代文献分类使用《中国图馆分类法》以及古籍图书使用的四部分类法等具有共同的特点,它们主要是针对有组织的知识载体的分类体系,无法适用于地方历史文献,需要设计新的分类法。

(4) 动态性。地方历史文献的时间跨度长,跨越明、清,延至民国时期,数量庞大,分散于民间,随着学者的不断收集和发掘,其收藏数量与涉及的内容,都将持续扩增,因此是一个动态的概念。

2.2 对文献整理和数字化的影响

地方历史文献从其载体形态到文献内容都与现代文献、外国文献不同,与成册的古籍文献不同,分析其文献特点及其对数字化的影响,是文献整理和数字化管理的基础和前提。

(1) 原始状态的记录和保存。考虑到原始留存状态对文献研究的重要作用,为避免原始留存记录受到文献买卖中介的阻断和影响,有必要在收购过程中,对文献中介持有人进行深入了解和记录;在清点、登记、入藏、修复和数字化过程中,保存文献原始的留存状态,保持文献状态在数字化前后的一致性。

(2) 归户与文献编目:归户有利于揭示文献内在的关联性,因此地方历史文献的整理和编目必须归户,并以村落为中心,元数据集的设计必须考虑归户信息,才能保证文书具有完整性和配套性,从而避免打破文献之间既有的有机联系。

(3) 分类及其扩展性。设计新的分类体系来组织和揭示地方历史文献应考虑人工判定的快速有效;数字化信息时代,分类法的应用与数据库开发、知识库的构建有关,便于检索和知识组织体系的兼容都是必须考虑的因素。此外,地方历史文献的动态性为其分类法的编制提出了挑战,我们不能仅仅着眼于已入藏的文献,还要考虑较强的可扩展性。

3 地方历史文献的数字化建设规划

地方历史文献具有的民间性和原生态、动态性和非组织化,使其数字化处理和编目的难度更大,但也因此更具探索性和挑战性。面对规模可观、独具特色、珍贵稀缺的史料,其数字化建设发展规划要有充分的调研和多角度的整体考量,既要符合数字图书馆的发展特点,又能满足历史学研究的需求;既要为人文社会科学的信息化、数字化发展提供支持,也要为今后的资源共享提供服务,以满足多层次的需求。为制定数字化建设的规划,上海交通大学图书馆开展了行业扫描,行业包括图书馆和史学研究领域,以明确建设目标;并对所处的内部环境进行剖析,确定关键问题和突破点。

3.1 行业扫描:明确目标和关键点

行业扫描是一种横向考察和比较,通过与同行进行比较分析,发现地方历史文献数字化建设的现状和存在的问题,同时还可以参考相关机构的做法,制定更具特色和前瞻性的发展规划和目标。地方历史文献数字化建设的行业扫描不应仅局限于图书馆行业,还应扩展到历史学研究机构。endprint

首先,我们对图书馆行业、地方历史文献研究机构进行了调研,调研数据显示[5],国内徽州民间历史文献的收藏单位约20家,极少数单位开展了数字化和数据库建设,且均处于小批量尝试阶段,摸索和总结地方历史文献数字化的科学管理流程和规范,既具有基础性,又具有前沿性。通过网上调研、文献调研和实地考察我们发现,地方历史文献的数字化和数据库建设存在一些问题,大体可概括为:

1) 缺乏针对地方历史文献的数字化标准。在过去的十年中,世界各国各地的图书馆及机构,如美国国会图书馆、英国的AHRC(Arts and HumanitiesResearch Council)、欧洲的TAPE(Training for Audiovisual Preservation in Europe)项目、美国马里兰大学图书馆和哈佛大学图书馆等开展了一系列数字化项目,积累了大量的数字资源和标准规范成果。在国内,国家科技部的《我国数字图书馆标准与规范建设》(CDLS)项目和国家数字图书馆工程标准规范项目等也在这方面取得了阶段性进展。但是在现有的数字资源加工标准规范中,通用数字资源一般包括文本、图像、视频和音频等。而地方历史文献并非普通的文本资源,由于来自民间,其载体多样(纸、皮、布)、幅面不规则、颜色深浅不一,没有现成的标准可以直接用于其数字化,给文献数字化标准的选择和加工带来难度。

2) 学界尚无统一的分类标准。地方历史文献的分类复杂,20世纪90年代初,“徽学界提出了两种分类方法《徽学文书类目》和《徽州历史档案总目提要》”[1],这是大陆学界较早编制的民间文书目录与分类体系,根据文献叙述内容进行分类,代表了当时大陆学界的意见。黄山学院图书馆特藏部徽学资料中心[3]就是使用《徽学文书类目》,将文书划分成9大类。中山大学图书馆“采用文献类型分类和文献内容分类相结合的综合分类原则”[4],将徽州民间历史文献分为16大类。分类整理工作陷于众多收藏研究机构各自为战的混乱状态。

3)专门元数据规范尚未建立。2007年,国家科技部推出《专门数字对象描述元数据规范》[6],元数据规范涉及十余项不同类型的资源对象,包括具有中国文化特色的文献资料类型(如古籍、拓片、舆图等),但地方历史文献不在其列。2011年国家数字图书馆工程标准规范项目相关研究成果推出,专门元数据规范分为古文献、电子书刊和网络多媒体资源三大类型,共涉及13种文献[7]。地方历史文献的元数据规范均未列入现有的专门元数据规范中。

4) 资源分散收藏,不利于系统研究。通过调研发现,被誉为中国文献史上第五大发现的徽州文书,目前分散在中山大学、安徽大学、黄山学院、上海交通大学、中国社会科学院等多家不同机构,这种因征集渠道、征集地点和征集时间的不同,而导致收藏分散,破坏了文献研究的整体性和系统性,不利于徽州文书的研究和利用。

在对环境扫描进行综合分析后,上海交通大学图书馆明确了在现有国家标准和规范框架的指导下,开展数字化建设工作,并最终建成地方历史文献特色数据库服务系统的基本目标。为实现上述目标,明确了任务和关键点,包括:

1) 通过对国内外数字化加工标准和规范的调研,尽可能直接引用或参考国际上已经普遍应用的技术标准,如国家图书馆数字资源唯一标识符规范研究成果可直接成为地方历史文献的参考标准。

2) 寻求专业合作,依托学校地方历史文献研究中心,“根据文书特定的产生源流和社会功能,提出以数据库应用为导向的分类原则,分类法的原则遵循批量处理时的效率、分类概念间的不相容性以及二次检索的效率”[1],并进行分类法的适用性测试。考虑到文书作为一个不断扩展的资料群,分类法应具有可扩展性。3)元数据规范方面,遵从科技部《专门数字对象描述元数据规范设计指南》的总体框架,在将复用DC15个元素中的大部分元素作为核心元素集的同时,根据地方历史文献的特点,制定所需的个别元素。

4) 数字资源合作共享,在调研、比较的基础上,明确数字化建设应遵循的标准化、兼容性等原则,开展数字化和知识组织,建设地方历史文献特色数据库。数字资源将有利于实现珍贵历史文献的共享,有助于研究者发现文献内部的有机联系,拓展新的研究议题。

3.2 微观审视:找准问题和突破口

在制定地方历史文献数字化建设规划时,要在扫描宏观环境、行业形势后,对所处的微观环境(即内部环境)进行剖析。微观环境直接决定着具体规划的实施,是确定数字化建设发展目标的决定性因素。

上海交通大学的文科建设正处于重点扶持和大力发展阶段,地方历史文献是由学校出巨资、由历史系深人民间收购而来,它对于文化保存与学术研究所具有的重要性不言而喻,只有开展文献的整理和数字化才是对这些珍贵史料的保护和利用。历史系、地方历史文献研究中心的研究团队依托这些文献,可以展开对中国东南山区社会经济史的全面研究,研究团队现已开辟多个专项研究,正迫切希望通过文献的整理和数字化建设,挖掘并开拓出一系列崭新的研究课题。

通过对学校发展要求、用户群的需求分析,图书馆积极争取学校领导的支持,与历史系、地方历史文献研究中心联合并保持密切协同,主动与学校相关部门沟通,就项目建设的经费、专业队伍、合作建设、业务规范等逐一规划、落实。

1) 经费问题:在项目规划建设初期,经费的落实成为首要问题。图书馆积极争取分管校领导的支持,学校支持并召开了项目建设任务和经费落实的会议,并设立985专项建设项目,数字化加工、杀虫除菌设备等费用得以落实,项目的实质性启动具备了条件;

2) 专业队伍:图书馆成立专项小组开展地方历史文献的数字化和编目,以保证人员的稳定性;并开辟专门空间开展数字化、编目和修复工作;

3) 合作建设:地方历史文献的整理工作是融研究于整理,需要史学专业人员的参与和指导,图书馆与历史系、地方历史文献研究中心联合开展文献整理工作,历史系派专业人员全程参与现场指导,并开展文献的保护性修复;在数据库建设上,与出版社结成战略合作伙伴,在数字出版和数据库制作、搜索等方面紧密合作,使数字产品更加易用化、人性化。endprint

4) 业务规范:编制《上海交通大学图书馆地方历史文献业务规范手册》,就文献的整理、编号、扫描、修复、编目、包装等业务流程进行规划设计。

上海交通大学图书馆通过对行业环境扫描和对所处微观环境的全面分析,向学校提交了地方历史文献专项建设的申请和任务计划书,提出了建设目标:基本建成国内外有影响力的地方文化研究专题特色资源的元数据仓储服务系统,为学校历史学、社会学等学科发展和研究提供保障,并力争成为国内乃至世界上最好、最完整的地方历史文献服务中心。在这一目标的引领下,科学规范地开展地方历史文献的数字化建设工作。

4 地方历史文献数字化建设的总体原则

在数字化建设总体规划和目标的指导下,首先确定了建设过程中应遵循的原则。总体上,地方历史文献的数字化遵循“我国数字图书馆工程标准规范建设”的通用性原则,同时结合地方历史文献的特点和需求,还提出地方历史文献数字化的两个补充性原则。

4.1 通周性原则

1) 标准化原则。

标准化将提升地方历史文献数字化产品在将来使用的可能性,有助于数据交换和资源共享。具体表现在元数据标准的选择、内容主题描述语言的选择、资源组织描述的标准规范、数字资源系统服务的标准规范、数字资源长期保存的标准规范等多个方面。上述标准规范的选择须认真参照和采用国家科技部和国家图书馆的研究成果。

2) 可扩展性原则。

遵从《专门数字对象描述元数据规范设计指南》的总体框架,在地方历史文献元数据标准选择和制定中,一方面应尽可能采用国际主流元数据标准都柏林核心元数据集(Dublin Core,DC),同时按需复用DC各应用方案和其他元数据规范中的元素或修饰词,并建立相应的映射关系。

同时,考虑到地方历史文献既不是一般档案资料,又非单一内容的专业学科主题文献,加之目前尚未形成统一的分类标准,其数字化产品的分类法宜结合文献的动态性,着眼于未来发展,提供较高的可扩展性。

3) 兼容性原则。

考虑与国内代表性元数据应用方案,如《专门数字对象描述元数据规范》的兼容问题;同时,要充分考虑与CALIS、中科院以及其他一些行业的数字图书馆系统的标准兼容问题,以保证各系统间互操作的实现。

4.2 补充性原则

1)求“真”原则。

地方历史文献的重要功能是保存,所以必须求真。在整理方式上通过一次编号、二次编号以确保文献的原有留存状态和次序。在数字化加工时,对不规则幅面等细节,在图像中保留毛边等原始文献的物理状态。

2) 求“用”原则。

地方历史文献的地域特征明显,无论是对于单件还是成册的地方历史文献,在元数据的元素设置时,都要求我们对研究者和使用者的需求进行深入的调研和分析,找出最重要的著录事项,如事主、归户、标的等信息,使得元素设置能满足研究者的检索需求。如用户有需求,还应对重要文献进行全文抄录,融研究于整理,在此基础上构建便于检索、便于研究的全文数据库。

5 地方历史文献的数字化规范设计

在整体规划、目标和建设原则的指导下,数字化建设的规范设计主要涉及:资料整理规范、数字化加工标准、元数据规范与设计、质量审核标准、保存和过程管理。

5.1 资料整理规范

地方历史文献的整理既要考虑保持地方历史文献的原始关联性,又要揭示不同文本类型的意义,上海交通大学图书馆通过地方历史文献的整理实践,融研究人整理,建立了科学的地方历史文献整理流程和规范。

(1) 编制了符合地方历史文献特点和研究需求的《上海交通大学图书馆地方历史文献业务规范手册》,用以指导数字化工作的开展;

(2) 明确了文献著录中参照采用的规范,包括“常见异体字及俗字与规范字对照表”、“中西历法转换系统”、“上海交通大学地方文献整理分类法”等;

(3) 制定了清晰的业务流程,包括清点、登记、编号、杀虫除菌、入藏、拍照、保护性修复、数字化、编目著录、包装、整理入库等步骤;

(4) 建立了规范的清点、登记、著录的制度,如“待扫描文书登记表”、“转出修复登记表”、“需修复文献跟踪表”、“文献编号工作手册”等。

为确保文献的原有留存状态和归户,设计了分次、分级编号,因此文献的编号分为初次编号、二次编号和分级编号。初次编号是文献清点时,根据初始的保存形态,以袋、包为依据对每一袋、每一包编号。二次编号是对每一件历史文献进行编号,包含来源码(文献的收集来源)、收集日期编码、归户信息码、扫描件编码(整理时自然产生的流水号)等信息。由于大量的地方历史文献需修复后才能正式编号、分级编号,是依据《古籍特藏破损定级标准》对文献的破损等级进行分级,判断为A、B级的文献归为不需修复一类,C级文献归为需要修复一类。需要修复的文书在修复完成后再正式编号。

5.2 数字化标准

分析确立应采用的数字编码与内容标记标准,针对保存格式、浏览格式提出该采用的数字内容格式标准,确立数字资源加工标准和程序的选择原则,编制数字资源建设指南的基本操作规范。我们将地方历史文献的数字化分为长期保存级和发布服务级,并根据文献特点制定了相应的技术标准和格式,详见表1。

5.3 元数据规范与设计

(1) 元数据规范的基本结构及扩展。

我国科技部重大项目《我国数字图书馆标准规范建设》的子项目《专门数字对象描述元数据规范》,对14种不同类型的元数据规范进行了设计,并且推出了《专门数字对象描述元数据规范设计指南》,以保证各种元数据规范在功能、数据结构、格式、语义、语法等方面的一致性和整体性。

地方历史文献元数据规范遵从《专门数字对象描述元数据规范设计指南》的总体框架,在复用DC15个元素中的大部分元素作为核心元素集的同时,根据地方历史文献的特点,制定所需的个别元素。地方历史文献描述元数据规范的基本结构由核心元素、个别元素两部分组成。这两个层次的划分目的是为了在保证各种不同元数据标准的一致性与整体性的基础上,最大限度地体现地方历史文献的个性特征,使标准具有更强的包容性和灵活性,支持数据交换和检索,实现数据共享。遵循这一结构,地方历史文献元数据设置了核心元素、个别元素共20个。endprint

(2) 元数据关联。

对下列情况建立关联,主要是文献、事件、记录和对象的关联。

文献关联——设置元素“归户”,将来源于同一家户、不同类型的文献之问实现关联。示例:同一家户的地契、账本,通过归户建立关联。

事件关联——设置元素“事主”和“第一事主”等,将同一事主参与的不同的经济活动、乡俗活动等事件实现关联。

对象关联——制定编码和编号规则,在数字对象和记录之间建立关联。示例:编码为011109150144的文献和编号为0111091501440001至011109150144——0012的数字对象表明来自于“歙县三十七区八段三甲归户清册”的文献和数字对象。

除元数据关联外,在元数据加工时,规范了计算机用字,积累了大量民间属性数据,自动进行繁简字关联,收录了异体字字典的内容,从而实现异体关联。检索功能有特色,实现了正文、事主、标的等小范围内的全文检索。

(3) 分类标准的建立。

当代出版物使用的《中国图书馆图书分类法》以及古籍图书使用的四部分类法等,是针对有组织的知识载体的分类体系;地方历史文献的特色恰在于其非组织化,不能适用于以上分类法。而目前史学界和图书馆界尚无统一的地方历史文献的分类标准。

上海交通大学图书馆尝试探索分类法的设计及其理论依据,和历史系联合编制设计了地方历史文献分类法。该分类法的设计以文献的产生源流和社会功能为依据,以数据库应用为导向,遵循四项原则:①分类主要依照文书性质;②确保批量处理的效率;③分类概念间不相容;④确保二次检索效率。分类法设置一级类目13个,分别用字母A——M表示,包括:契约、账本、赋役、诉讼、行政、家谱、信函、日用类书与工具书、家礼、宗教、戏剧、教育考试、医药。此外,考虑到地方历史文献的动态扩增,其数字化产品的分类法设计应结合文献的动态性,着眼于未来发展,该分类法在设计时提供了较高的可扩展性。“在每一大类下,都设置一个0号二级分类,供未来这一大类中新发现的尚无法归人已有二级分类的文献归类,直到可以确定其性质或建立新的二级分类。”[1]见表2。

为测定分类法的适用性,利用编目抽检结果、文献计量等方法进行了检测,验证该分类法在编目著录中的有效性,该分类法在上海交通大学图书馆地方历史文献数字化项目建设中得以实际应用。内有表格

5.4 质量审核

质量审核主要针对元数据和数字对象质量的审校。

(1) 元数据质量检验。明确规定元数据的检验范围,主要包括必备字段的完整著录、各字段描述的准确性、元数据和数字对象的对应等。

(2) 数字对象质量检验。检验范围主要针对可用性信息和格式信息,可用性主要检查数字对象是否可用、文件名命名是否正确、是否符合命名规范、附属文件是否齐备、存储路径是否正确、扫描完整性等。各项技术指标应达到表1中的加工标准和规范,严格控制各种数据的综合错误率。出现问题的应进行修正或重新扫描。

5.5 资源保存

数字资源的保存分为长期保存级和发布服务级,分别满足长期保存和数据库利用的需要。主要参考“国家图书馆数字资源对象管理规范”以及“数字资源加工标准与工作规范”的研究成果。

5.6 过程管理

(1) 过程管理表。

建立过程管理表,包括“待扫描文书登记表”、“转出修复登记表”、“需修复文献跟踪表”、“文献编号工作手册”等,及时整理汇总,在数字化工作完成的同时建立完整规范的记录。

(2) 安全管理机制。

为维护地方历史文献的稀缺性和珍贵性,应建立数字加工各环节的安全管理机制,确保实物在扫描和修复等加工过程中不丢失、不损坏。例如,文献入库前,用真空除氮设备开展杀虫除菌工作;文献加工过程中采取全记录跟踪,建立各种登记表;依据国家《古籍特藏破损定级标准》,对破损文献进行分级,开展不同程度的保护性修复。

6 结语

各收藏机构对地方历史文献重发现、收藏,而不重科学整理的状况,致使这些珍贵的文献得不到全面系统的揭示,阻碍了以地方历史文献为基础的各项人文社会科学的研究。上海交通大学将地方历史文献与数字化这一现代信息组织和处理技术有机结合,探索和总结出一套完整的数字化管理和规范体系,全面科学地揭示新藏历史文献。希望这些有益探索对当前的地方历史文献整理机构或个人有所启发和借鉴,我们同时希望能与相关机构开展资源共享和合作,发挥资源规模优势,帮助史学研究者拓展新的研究课题。

参考文献

1 赵思渊,汤萌.上海交通大学新藏地方历史文献的分类法及其依据[J].上海交通大学学报(哲学社会科学版),2014(3):76-86

2 张晓峰.徽州文书分类整理要点和疑难解析[J].大学图书情报学刊,2008,(2):58-61,67

3 陆航,张翼.史学文献数字化呼唤学者主动介入.中国社会科学报,2014年4月2日第A02版

4 刘伯山.徽州文书的整理与遗存.徽州文书(第一辑).桂林:广西师范大学出版社,2005

5 王蕾,申斌.徽州民间历史文献整理方法研究——以中山大学图书馆馆藏为例.图书馆论坛,2014,(4):120-126

6 “我国数字图书馆标准规范专门数字对象捕述元数据规范”子项目.[2014 - 10 - 30]. http://cdls. nstl. gov. cn/2003/SpcMetadata/

7 国家数字图书馆工程标准规范.[2014 -10 - 30].http://jwww.nlc.gov.cn/newstgc/gjsztsggc/bzgf/

8 访谈郊振满:为什么我们要进村找庙、进庙找碑?endprint

猜你喜欢
历史文献规范数字化
来稿规范
来稿规范
PDCA法在除颤仪规范操作中的应用
家纺业亟待数字化赋能
来稿规范
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
数字化制胜
历史文献纪录片中蒙太奇的运用
我国历史文献中所见黑水靺鞨概述