费佳
(中共南京市委党校图书馆,江苏南京 210046)
古籍在中华传统文化传承中发挥着重要的作用。国家对古籍保护高度重视,国务院办公厅于2017年发布《关于进一步加强古籍保护工作的意见》(国办发〔2007〕6 号),提出在“十一五”期间全面开展“中华古籍保护计划”,并提出“制定古籍数字化标准,规范古籍数字化工作,建立古籍数字资源库”的要求。党的十七届六中全会提出要“加强文化典籍整理和出版工作,推进文化典籍资源数字化”[1-2]。
民国文献中大量文字记载了马克思主义在中国的传播历程,记载了中国共产党人的奋斗历程和最终取得革命胜利的历史,记载了中国近代社会的变迁,是中国共产党带领中国人民争取民族独立与解放的伟大见证,具有较高的历史价值和学术价值。2012年,国家图书馆与国内多家文献收藏单位联合推出“革命文献与民国时期文献保护计划”,旨在加大民国文献的保护力度。2016年,该计划被列入《中华人民共和国国民经济和社会发展第十三个五年规划纲要》。2017年,被列入《国家“十三五”时期文化发展改革规划纲要》和《文化部“十三五”时期文化发展改革规划》[3]。
在国家实施“中华古籍保护计划”和“民国时期文献保护计划”两大保护计划的背景下,对古籍和民国文献实施原生性保护和再生性保护是一项重大举措,开展双重保护不仅有利于文献原件的保存还有利于文献内容的传播与利用[4]。
古籍保护的方式分为原生性保护和再生性保护两种。原生性保护是指在维持原件完整性的前提下,对古籍实施修复、加固和优化存放环境。再生性保护是指采用数字化等先进技术将古籍内容转移至其他载体,实现对古籍文献的二次呈现与传播。
数字化是再生性保护的重要手段。古籍数字化是指利用现代信息技术实现对古籍的加工处理,将原始文件转化成电子数据形式,并通过光盘、网络等介质进行保存、传播和利用[5]。
我国古籍数字化的发展经历了数据库版、 光盘版、网络版这3 个不同的阶段。
第一阶段,起源于20 世纪80年代,伴随计算机技术的发展,借助计算机对古籍资料进行目录检索,并编制索引,以改进古籍的检索方式。古籍数字化最初以书目数据库的形式为主,它始于南京图书馆、浙江图书馆等省市级图书馆。古籍书目数据库有设立书名目录、著者目录、分类目录等,可以通过输入古籍名检索该古籍的全部版本,也可以通过输入著者名检索馆藏全部相关书目。此后,又产生了全文数据库,它将古籍全文录入,转化为电子文本,供用户查阅,采用根据文献内容进行检索的查询手段。随着时代的进步,在书目数据库与全文数据库发展的基础上,又出现了综合检索系统。综合检索系统不仅实现了任意字、 词和字符串的检索,还实现了按条件检索,拓宽检索范围,不仅能够对文本和书目检索,也能对古籍的词句、注释、标题等内容进行匹配检索。
第二阶段,起源于20 世纪90年代,出现了以光盘为载体,通过目录进行查询、浏览原文的影像页的古籍文献或古籍数据库,所以又称为光盘版古籍。光盘版古籍包括图像版、全文版和图文版3 种形式。武汉大学出版社以文渊阁本《四库全书》作为底本,对全书两百余万页内容进行扫描识别,转化为电子文件,共打造出150 张“四库全书光盘版”资料。
第三阶段,进入21 世纪,数字化技术全面推广,古籍数字化实现了全文检索功能。将古籍的全文录入到数据库系统,通过文本与检索项匹配,实现直接到段落的精确查找。同时实行网络化,以各地区的图书馆为节点、 网络为纽带建立网上的联合数据库。2016年,“全国古籍普查登记基本数据库”“中华古籍资源库” 这两个数据库作为古籍保护项目成果开始投入使用,这意味着古籍影像和数据资源利用进入互联网服务时代。就目前来看,中华古籍资源库在线发布的古籍影像资源主要涵盖: 国家图书馆藏善本和普通古籍、法国国家图书馆藏敦煌遗书、天津图书馆藏普通古籍等,资源总量3.3 万余部。
近年来,国家图书馆联合全国多家古籍收藏单位在线发布古籍数字资源。目前已举办了四次联合在线发布活动,共在线发布古籍资源2.4 万余部,供大众阅览和学术研究。
民国时期文献是指1911年辛亥革命至1949年中华人民共和国成立这一特定历史时期的各种文献资料,包括图书、期刊、报纸、手稿、档案等。
民国时期文献联合目录是“民国时期文献保护计划”工作的数据发布展示服务平台,于2012年开发建设并投入使用。民国时期文献联合目录汇集国家图书馆、首都图书馆、南京图书馆等22 家民国时期文献普查成员馆的民国时期图书数据和馆藏数据,同时提供由国家图书馆数字化的民国时期图书文献全文扫描页的阅览服务,并提供该部分文献的目次检索。
为积极响应中央关于加强中华优秀传统文化传承的号召,加强对馆藏珍贵文献的揭示和利用,发挥珍贵文献的文化价值和社会服务功能,南京市委党校图书馆计划对馆藏珍贵文献(包括馆藏古籍和民国文献)开展数字化工作。
2.1.1 处理原则
国际图书馆协会联合会( International Federation of Library Associations and Institutions,IFLA) 于1994年发布了 《图书馆资料保护与处理原则》。IFLA 强调了格式转换对馆藏文献储存工作的重要意义,且提出,操作者在进行转换工作时务必谨慎小心,避免馆藏文献原件出现再次损害的情况。
《图书馆资料保护与处理原则》提醒操作者在格式转换的前、中、后期都要注重文献原件的保护。转换前需要对原件的纸张、 装帧、 破损等情况进行评估,判断其是否适合转换操作;转换过程中,在确保文件原件完整的前提下对部分原件实施临时修补,以提高格式转换的质量; 转换成功后选取最佳的保存环境和方式,并对需要修复的部分实施正式修复。
国家古籍保护中心组织编制的《古籍数字化工作手册》(试用本)对古籍数字化加工流程、古籍元数据著录、图像数字化、数据命名规范和数据发布利用等做了详细规定。
2.1.2 数字化技术应用
数字化技术融合了最新科技手段,常用技术包括:古籍数字化输入技术,该技术含拍照、非接触式扫描和缩微胶片转数字化技术;OCR 光学字符识别技术,该技术能够借助OCR 软件实现对古籍影像图片的识别功能,提高文字转化率;智能化处理技术,该技术是数据库分析功能的核心,对成功识别的古籍信息单元进行重组,可提高古籍整理效率;现代化的网络技术,该技术能够为古籍数字化资源跨平台、跨系统与统一检索提供技术支撑等。
南京市委党校图书馆馆藏古籍和民国文献的数字化方案流程见图1。
图1 数字化方案流程
2.2.1 文献整理
在数字化工作开展前,依据《图书馆资料保护与处理原则》对馆藏古籍和民国文献的纸张、装帧、破损、虫蛀等情况进行评估,判断哪些文献需要进行适当的临时加固、修补,确保较薄、破损、字迹较浅等纸张情况较差的文献扫描图像清晰,提高格式转换的质量。
2.2.2 扫描录入
扫描模块用于获取文献对应的电子图像文档。数字化过程中要求操作人员全程戴手套或使用指套,以避免汗渍污染文献。将馆藏古籍和民国文献使用免拆装扫描装置进行扫描录入,以减少对书页的损伤[6]。
2.2.3 图像处理
参照国家古籍保护中心编制的《古籍数字化工作手册》(试用本) 对图像采集处理的要求来进行图像处理,主要包括图像的倾斜校正、去噪去污、剪裁、翻转等,通过这些操作形成内容完整、清晰干净、版心正的图像文档。
2.2.4 文献元数据和文件生成
对馆藏古籍和民国文献进行元数据编目和图像文件合成处理,将加工文件进行字段标引和分类。
中国国家标准化管理委员会制定的《古籍著录规则》(GB3792.7) 规定了古籍著录项目及其排列顺序、著录用标识符号、著录用文字、著录信息源、专门的术语和特殊的著录方法。北京大学图书馆负责研制的《国家图书馆古籍元数据规范与著录规则》根据国家图书馆古籍情况制定了元数据规范和著录规则,并以著录实例对规范与规则加以具体阐释与说明,以供参考借鉴。古籍著录参照《古籍著录规则》和《国家图书馆古籍元数据规范与著录规则》进行。古籍分类按“经、史、子、集”四部分类法进行。“经史子集”是古人将古籍按内容区分的四大部类。经:指经书,儒家经典著作;史:指史书,即正史;子:指先秦百家著作,宗教;集:指文集,即诗词汇编[7-8]。
民国文献目前没有明确的著录规则,参照中文图书的《中国文献编目规则》进行著录。民国文献的分类参照《中国图书馆图书分类法》进行。
2.2.5 馆藏古籍和民国文献检索数据库
古籍和民国文献数据库以全文检索为基础,利用OCR 光学字符识别技术满足全文图像浏览的需求,实现全文检索的目标。在系统中设置繁简字体的智能转换功能,便于识别读者输入的简体文字,提高检索系统的准确率,同时实现检索定位功能,对已检索的结果进行二次检索[9]。
通过“书目检索”菜单,用户可以进行“直接检索”和通过“高级检索”链接进行组合检索。用户可选择“题名”“著者”“出版年”等检索项,以输入的检索词进行检索操作,也可选择“中国图书分类”的分类项作为单独检索或与“直接检索”“高级检索”一起参与检索。
2.2.6 数字资源发布平台
馆藏古籍和民国文献的数字资源提供在线共享服务,用户可以检索和浏览所有数字资源。数字资源发布管理系统支持内容发布的自动化管理模块,并提供全文检索、导航检索等多种检索途径。提供检索界面、检索语言、检索结果和知识展示方式统一的一站式服务。
2.2.7 数据存储与输出
馆藏古籍和民国文献原始扫描图像采用TIFF存储,在保证扫描图像清晰可读的情况下,尽可能降低压缩率,以减小存储空间。馆藏古籍和民国文献目录数据库中的文件,都对应关联图像文件和PDF文件。
在中央实施“中华古籍保护计划”和“民国时期文献保护计划”两大保护计划的背景下,对图书馆馆藏古籍和民国文献开展数字化保护工作,能充分发挥文献的价值,促进中华优秀传统文化的传承和发展。