张玉梅(宁夏社会科学院)
宁夏有着悠久的历史和灿烂的文化,方志文献记载了宁夏的沧桑变化和历史发展进程,详细反映了宁夏各民族的发展轨迹,是中华民族文化遗产宝库中不可或缺的一部分。保护好、传承好珍贵的历史文献,对于弘扬宁夏历史文化、彰显文献自身的文化价值以及进一步深入研究和利用这些珍贵文献有着重要的历史和现实意义。
宁夏修志始于宋、元,盛于明、清,民国亦有。据统计,现存世的宁夏旧方志有33 种。其中,明代6种,清代18 种,民国9 种。目前,国内部分收藏机构及古籍数字化公司已对旧方志进行了数字化整理。如,贵州省地方志全文数据库共收录146 本志书的总目提要、69 本省志和15 本旧志的全文;[1]中国数字方志库收录了1949 年以前的地方志类文献11,000 种、15 万册,影像数据近千万页,全文版书目数据2,000种;[2]万方地方志数据库收录新方志40,454 种,宋、元、明、清朝老方志100,000 册,是中国方志收录最全的数据库。[3]囿于诸多原因,宁夏尚未有机构或个人对存世宁夏旧方志开展数字化整理工作。随着信息技术、网络技术的飞速发展,旧方志数字化已成为其整理开发的新方向。鉴于此,本文在对存世宁夏旧方志梳理的基础上,主要从搭建数字化框架、旧方志的选择、数据库构建、数据库发布与推广等方面阐述宁夏旧方志数据库的构建过程。
对存世宁夏旧方志的数字化整理工作是一项系统工程,建立统一的管理机构进行总体规划的制定是项目实施的先决条件。按照总体规划制定详细的工作流程(见下图),并依照工作流程进行具体实施,才能保证旧方志数字化工作的有序开展。
图 旧方志数字化流程图
从下图可以看出,宁夏旧方志数字化整理过程由准备、建设及服务三个阶段组成。其中,准备阶段是数字化过程的核心阶段,包括志书的收录,软件、硬件、人员以及系统等方面的配置;建设阶段是数字化过程中的技术环节,本阶段是建立在对信息进行技术处理的基础上,包括对收录的志书进行诸如扫描、修图、OCR 识别以及进一步的知识库分类等方面;服务阶段是旧方志数字化系统建成后用户获取服务的阶段,包括对检索旧方志全文浏览、深度检索、信息重组及形成新的知识库。
底本的选择是数字化的重要环节,底本的合理性和实用性关乎数字化的整体质量。数字化底本的选择需遵循一定的策略,譬如要从书的状况、价值判断、版本筛查、馆藏查重等方面综合判断某类文献是否可以进入数字资源建设的范畴。国家图书馆数字方志项目将时间、地域、书品、版刻等因素作为底本选择依据。如,从资料的角度来看,要求选择范围要宽、地域覆盖要全,所有1949 年以前成书的方志原刻本和增补本均为数字化底本的选择范围,做到内容不断代,尽量不漏地;从书品、版刻、印刷、装帧的角度来看,尽量求善、求精、求美,有名家题跋或收藏印章的优先选、版本价值高的优先选、具有鲜明古籍特征的适量选。[4]
存世的宁夏旧方志种类不多,普遍存在书况欠佳、馆藏分散等状况。因此,对数字化的底本确定可以从旧志价值和版本两个方面进行选择。
旧方志按照其刊载内容可分为区域志、行业志两大类。其中,区域志是对该地区进行全方位记录的专业志书。对该类旧志的选择遵循 “凡志必收” 的原则;行业志是以某一行业为对象撰写的方志,这类志书能够系统的记载某一行业的发展状况,具有很强的史料价值和参考价值,应予以收录。
(1) 区域志。存世明代宁夏旧方志中的区域志有6 种,包括(弘治)《宁夏新志》 八卷、(嘉靖)《固原州志》 二卷、(嘉靖)《宁夏新志》 八卷、(正统)《宁夏志》 二卷、(万历)《固原州志》 二卷、(万历)《朔方新志》 五卷,均属于宁夏地区的综合性志书,应全部予以收录。其中,(正统)《宁夏志》 二卷反映了明代之前宁夏地理历史和文化的全貌,是明代北方 “九边重镇” 军事要区的第一部方志,存史价值不可低估;(弘治)《宁夏新志》 八卷从政治、军事、经济、文化等方面反映了明代初期宁夏地区的概貌,保存了大量的历史资料。存世清代宁夏方志中的18 种志书全部属于地区综合性志书范畴,应全部予以收录。其中,(康熙)《隆德县志》 二卷是隆德县传世旧志中成书时间最早的一部,其中最有价值的是关于隆德的土地、赋税、户口、隆德人科举名录、附载的隆德艺文等。诸如此类的清代宁夏志书应均予以收录。存世民国宁夏旧方志共有9 种,其中区域志6 种,应全部予以收录。如,《朔方道志》 三十一卷所载与宁夏有关的历史、政治、经济、军事、文化、人物等方面的内容,是研究近代宁夏的必读志书,其编修水平代表了民国时期宁夏旧志的最高水平;《固原县志》 十二卷全面总结了民国时期固原的政治、经济、文化、地理、社会生活等情况,尤其是与国计民生有关的统计资料、时人撰写的人物传记和亲历历史资料等,都为相关问题的研究提供了难得的详细资料。
(2) 行业志。存世宁夏旧方志中的专业志有《宁夏省人文地理图志》 和《宁夏资源志》。其中,《宁夏资源志》 是宁夏物产专业志,全书用8 万字来记述宁夏的矿产、畜产、农产、园产及特产、林产、植物药材、水产等资源;《宁夏省人文地理图志》 代表了民国时期宁夏人文地理研究的最高水平。其志内容丰富,篇目设计比较合理,对宁夏的地理、矿产、民族、宗教、名胜等方方面面进行了比较详细的阐述,是民国时期宁夏重要的一部专志。这两种志书应均予以收录。
此外,还有地情类文献,其不以 “志” 为题名,以记、考、书、略、典、录、图志、外志、志料、志略、材料、文献录、事情、文献志等名称命名,[5]这类史料刊载的内容与区域志、专业志互为补充,也应收录。如,《十年来宁夏省政述要》,虽然该书并非是严格意义上的志书,但仍然保留了不少1949 年前宁夏的重要史料,是研究宁夏民国史的重要参考书籍;《宁夏到何处去》 是作者以记者身份于民国三十五年(1946) 四月到宁夏进行为期40 天的采访考察后,根据记录整理而成的介绍宁夏情况的新闻报道集;《宁夏纪要》 反映了民国时期宁夏生活的方方面面,具有珍贵的史料价值。这些志书及文献都可作为数字化方志的底本。
版本是古籍的重要属性,有刻本、抄本、稿本、印本等刊载形式。同一种古籍也存在着各种版本,版本不同,其学术价值、文物价值和审美价值也不同。在数字化旧方志底本选择时,版本筛选也作为选择标准之一。
(1) 刻本。从刻本的残存情况、破损程度、是否为初刻本等方面进行选择。如(道光)《隆德县续志》,宁夏回族自治区图书馆藏该志的缩微胶片复制本是影印自现藏于美国国会图书馆的孤本,虽然属于刻本复制,但也应收录。但如为伪志书,即使版本为初刻本,也不予收录。
(2) 抄本。在原刻本丢失、不能被影印等情况下,为了利用其史料价值,只能选择按照原书抄写,此类志书也应收录。如《重修灵州志》,国家图书馆、甘肃省图书馆、宁夏灵武市档案馆均藏有该志的手抄残卷,未见原志书真貌,其抄本应收录。
(3) 稿本。稿本是志书正式出版前的最初形态,不存在传写翻刻的讹舛,也未经后人的臆删妄改,因而是最可靠、最可信的版本。[6]此类志书具有很高的史料价值,应收录。如《西吉县志》,其具有极其珍贵的史料价值。
(4) 印本。印本分为石印本和铅印本,均为油墨印刷,其收录与抄本的收录相似。具有代表性的是《盐池县志》 与《固原县志》 两部志书,虽然每卷刊印时间不同、版本不一,但均属于极难搜集的情况,且为该时期该区域唯一的一部志书,因此该志书也应收录。
(2)温度一定时,ND钢和Corten钢2种钢材的无应力工况腐蚀速率随着浓度升高先升高再处于平缓,有应力工况腐蚀速率普遍高于无应力的,但是在20%浓度时腐蚀速率有所下降。
古籍数字化既是关于古籍整理的研究,也是关于信息技术应用的研究。在其数字化过程中,各个环节都至关重要。
在旧方志数字化工作中,硬件的配置关系到数字化工作的效率,是数据安全稳定的重要保证。① 扫描仪是旧方志数字化过程中必不可少的硬件之一,其作用是获取图像,并将图像转换成机读数据。② 大容量高密度的存储设备是旧方志数字化整理的存储中心,包括计算机硬盘、光盘及光盘库。③ 服务器是整个网络数据的存储和处理中心,可靠性、可用性、可扩展性、易用性和可管理性等特点的服务器配置将会为旧方志数字化建设提供更坚实的硬件保障。
集合旧方志文献扫描系统、旧方志文字处理平台、数字信息管理平台等于一体的集成系统是旧方志数字化整理的基本保障。①宁夏旧方志图片扫描系统。可以使用诸如Adobe Photo Shop 等图像处理软件,该软件需支持多种格式的图片保存,支持Windows 操作系统、安卓系统与MAC OS。② 旧方志文字处理平台。该平台集旧方志的文字录入、识别功能以及文字校正功能为一体,要求其有非常完善的字库,装有各种汉语文字的录入法、字体库,即要具备处理楷书、隶书、篆体字、甲骨文等多种字体的功能,又具有造字功能。③数字信息管理平台。其是实现古籍全文的高效发布、浏览和检索的重要平台。其建立方式有两种:一是自行研发;二是选择成熟的产品。但一般而言,自行研发需要耗费高额的资金和较长周期的研发时间。因此,大多数存藏机构采用市场上较为成熟的产品,如青典数字化系统、北京中易公司数字化加工系统等,这些系统可以对旧方志的数据进行采集、全文化、自动校对、版式还原、信息入库和检索等,适用于处理旧方志等数字化加工难度大的项目,可以极大地提高数据加工的效率。
3.3.1 宁夏旧方志影像数据库
影像数据库是将旧方志的原始页面进行扫描处理后形成的原始数据库,是读者了解原始文献最直接的来源。宁夏旧方志影像数据库的构建是旧方志数字化的第一步,对旧方志采用高清晰度的、无边界的彩色扫描仪进行扫描。扫描仪可以选择具备寿命冷阴极荧光灯管、对古籍的损坏程度较小的虹光AW560 彩色A4 零边距扫描仪,扫描参数设置为600DPI,以TIFF格式的图像文件存档、以JPEG 格式的图像文件进行网络传输。值得注意的是,由于图像采用高分辨率进行扫描采集,文件所占的存储空间较大,扫描人员可以提前做好文件存储、备份等方面工作。
3.3.2 宁夏旧方志全文数据库
旧方志全文数据库是在影像数据库基础上对方志的进一步加工,是将旧方志页面中的文字、图片等信息通过数字化方式编码,形成具有检索等功能的数据库。目前的旧方志数据库多是将旧方志以图片的方式展示出来,不提供检索功能,属于数字化方志平台的初级产品。真正意义上的旧方志数字化是将旧方志中的文字通过录入、OCR、编译等环节,纸质文本转化为文本字符,最终实现对旧方志页面文字的编辑及修改,达到旧方志数字化的最终目的。[5]
存世宁夏旧方志中有大量的生僻字、异体字、模糊字、缺字,涉及到一些人名、地名、物产、图例、金石等内容漫漶不清,一般的输入法难以将其信息录入。因此,需采用人工录入文字的方法。录入人员可以采用支持7.1 万个汉字的UNICODE 标准,以减少旧方志文字录入的误差。对于部分无法录入的文字,如方志中的一些地名、人名等可能造成歧义的文字,先要进行文字规范,之后进行造字处理。因缺字、模糊等导致识别不准的字用符号“□” 代替,同时将“□” 字进行报备。如,《固原县志》 共有12 卷,该志书被后人点校过,有近一半的版面存在严重的点校、批注、撕页等使用痕迹。此类志书在构建全文数据库的过程中需要充分考虑文字录入环节的各类规范,以减少误差。
3.3.3 宁夏旧方志知识数据库
知识数据库是基于全文数据库的深层次加工。在对存世宁夏旧方志数字化的过程中,针对宁夏旧方志的特性,构建各类专题数据库,即知识数据库。各类专题数据库之间采取超链接的技术进行文献和知识索取等操作,实现文献资料的深度研究。如,读者在检索《(嘉靖)宁夏新志》 时,可以同时看到其他年代关于宁夏的各种旧志、后人研究该方志的相关资料或与该志书有关的参考工具书等信息。同时,在构建宁夏旧方志数据库时,最好可以实现图文对照的功能,为读者提供旧方志页面的数字图像版、文字版之间的任意链接和切换,并且显示该志书的版本类型、版刻特征等信息。
宁夏旧方志知识库的具体内容包括:人物知识库、事件知识库、地名知识库、文献知识库、民俗知识库、物产知识库、民族知识库、宗教知识库等8 个知识库。其中,① 人物知识库。对旧志书中有人物传记、人物介绍等资料进行标引,按照规范的人物标引方式,如人名+ 字+ 号+ 别名+ 笔名+ 职务+ 籍贯+ 生平介绍等,构建各字段之间的链接,形成人物库;②事件知识库。对各旧志中记载的、具有重要意义的历史事件进行标识,制作成相应的事件库;③ 地名知识库。对各旧志中相关的地名进行标识,如地名、原地名、变更信息等,构建各字段之间的链接,形成地名库;④ 文献知识库。对各旧志中记载的相关地方文献的信息进行标引(此类文献一般在志书的艺文卷中),形成旧志文献知识库。如,检索相关“宁夏八景” 知识点,需要将各志书 “艺文卷” 中相关的诗、词、歌、赋等分类标引,并建立它们之间的参照关系,形成文献库;⑤ 民俗知识库。对各旧志中记载的民俗知识点进行标识,形成民俗库;⑥ 物产知识库。对各旧志中记载的物产知识点进行标识,形成物产库;⑦ 民族知识库。对各旧志中记载的民族知识点进行标识,形成知识库。在该库的建设过程中需要注意的是,由于宁夏自古为多民族融合地区,在旧志中会记载诸多关于民族发展方面的资料,涉及到民族关系问题的信息,需要单独作标注,以免引起后续的民族问题;⑧ 宗教知识库。对各旧志中记载的关于宗教的信息点进行标识,形成宗教库,其注意事项与民族知识库类似。
在构建宁夏旧方志各类数据库的基础上,需要将各类数据库通过用户平台进行发布,即构建用户使用界面,实现古籍内容的组织加工、古籍知识的发掘和可视化呈现。所用的技术方法包括:运用计算机进行分类标引、书目编制、关键词索引,以及自动标点、校勘、注释、翻译、编纂等,主要满足用户对特定主题或学科领域内的古籍原文内容及语义阐释的需求。[7]
(1) 在用户界面的设计上,需要包含检索和浏览这两种功能:用户通过在搜索引擎中输入检索词,就可以迅速检索到数据库中的相关信息;用户通过浏览,在导航和用户提示下,快速检索到自己所需要的信息。
(2) 在对影像库的访问过程中,用户界面需实现如下功能:为用户提供影像在线浏览服务和书目检索服务,界面应设置放大、缩小、分版块复制、打印等功能。
(3) 针对全文数据库的访问,用户界面需实现如下功能:提供全文检索服务;用户界面设置显示文字的放大、缩小、批注、打印等功能。
(4) 针对知识库的访问,用户界面需实现如下功能:在对关键字进行检索时,用户可以按照自己的需求无障碍地访问多个数据库,并可自行添加知识元素,逐步扩大数据库的检索范围。如,以 “贺兰山” 为关键词进行检索,在 “地名知识库” 出现所有包含地理信息为 “贺兰山” 的页面,在 “民族知识库” 中出现与 “贺兰山” 相关的各民族信息的页面,在 “人物知识库” 中出现所有与 “贺兰山” 相关的历史人物,将这些检索结果进行整合,形成以 “贺兰山” 为知识点的新的知识库。
目前,我国旧方志数字化工作已经取得了很大的进步,积累了较多经验。宁夏的古籍文献整理工作尚处于起步阶段,在数字化实施过程中仍存在诸多问题,因此我们需要采取有效措施提高旧方志数字化建设水平。
任何文献的数字化都要投入大量的资金。旧方志由于纸张、用字情况复杂等问题,其整理的费用比普通的资料要高出很多。旧方志数字化所需的专业扫描设备、专用文字处理平台、专用图像处理软件及文字识别系统等软硬件的价格不斐,在后期对旧方志的校对、修版、录入等人力成本更加昂贵,因此单纯靠个人或者一些小的机构很难完成整个项目的开发。针对以上问题,开展旧方志数字化整理工作的相关机构可以积极主动向上级主管部门申请专项资金,或向社会力量筹措资金,解决自身经费不足等问题,并按照项目实施计划投入专项建设资金,从而保证数字化项目的顺利实施。
宁夏旧方志的数字化整理工作是一项系统性很强的工程,需要一支含有管理学、古籍文献学、信息学、历史学等专业的专业人员队伍。如,在旧方志数据库建设前期,对底本筛选时会涉及版本鉴定问题,而版本鉴定属于古籍文献学范畴,必须由专业的古籍鉴定专家承担;由于宁夏旧方志体量大,负责图像处理、校勘的工作人员需要具备高超的技术水平,在逐页、逐行、逐字修图及拼版、排版中,图像技术人员需结合多种图片处理技术进行整理修复,从而达到旧方志数字化的最佳效果,因此,对存世宁夏旧方志数字化整理过程中,一支综合能力较强的人才队伍是影响数字化建设水平的关键要素。在项目实施之前,需要对各环节的团队成员进行系统培训,且成员之间要形成合力,在工作各环节建立共建共享机制,积极应对遇到的各种问题。同时还要引进考评机制、奖励机制等,激发团队活力,打造专业化的人才队伍。
选题重复、缺少规划等问题是长期困扰古籍数字化的一个问题,已有不少学者意识到必须通过国家层面的机制创新来解决这一难题。[7]目前,国家层面还尚未设立一个专门的部门来组织、制定国内各旧方志数字化工作的整体规划,导致各地旧方志的数字化工作无章可循,各机构往往各成体系,严重影响了我国旧方志数字化的总体发展和资源共建共享。古籍数字化必须遵守统一规划、系统开发的原则。古籍数字化建设需要各部门相互协调,相互配合,统一规划,统一指挥,避免低质量的重复建设而造成的资源浪费。成立古籍数字化领导小组,是实现古籍数字化资源互补的有效保证。[8]对宁夏旧方志的数字化整理,首先需要相关部门对宁夏旧方志进行普查,摸清其存藏、版本状况等,其次制定科学合理的整体规划方案,完成数字化整理的顶层设计。同时成立 “存世宁夏旧方志数字化整理” 领导小组。数字化过程需要按照规划方案制定切实可行的工作流程,涉及旧方志数字化的各部门需要明确自身工作职责,按照工作职责和分工有序推进各项工作。
对古籍数字化工作设立规范的标准是确保该工作顺利进行的基本保障。古籍数字化必须坚持统一著录标准的原则。编制标准的古籍目录是建设古籍机读目录和古籍数字化资源共享的基础。因为只有经过深入标引和严格规范控制的数据库才能产生再生资源,而再生资源经过有效的排序和筛选,才能实现知识发现。[8]目前,国家数字图书馆已设立了33 个标准,虽然其中大部分已默许成为文化行业遵守的标准,但是严格来说,我国的古籍数字化工作尚未颁布一套有约束性的标准章程,导致各收藏机构在开展数字化工作时采用不同的格式规范,给读者使用带来不便,同时也影响古籍的数字化发展。因此,对存世宁夏旧方志的数字化整理需要遵循一定的数据库规范标准。在构建宁夏旧方志书目数据库时,按照题名、著者、主题、出版年、出版地、出版者、版本情况、馆藏信息、内容提要的格式进行书目数据库的著录;构建宁夏旧方志全文数据库时,从版本、存储、系统、界面等四个方面建立标准,如,采用UNICODE 字符集进行文本处理、支持简体和繁体的输入和存储、支持文本的超链接及浏览和打印等功能、支持多种操作系统的数字化整理系统及友好的主界面。
对宁夏历代旧方志的数字化整理,是一项伟大的文化工程,对宁夏古籍整理事业的繁荣发展起到积极作用,是古籍整理事业迈向成功的关键一步。加快旧方志整理的步伐,拓展旧方志开发的渠道,使旧方志古为今用,为社会主义文化事业作出更大的贡献。