清水江文书数字化图片数据著录前预处理方法研究*

2023-12-01 05:09赵冬香
甘肃科技 2023年10期
关键词:清水江文件夹文书

赵冬香

(凯里学院,贵州 凯里 556011)

1 引言

清水江文书是指广泛遗存于贵州省东南部(黔东南)清水江流域少数民族地区的民间历史文献的总称[1],是继敦煌文书、徽州文书后发现的第三大民间文献遗产。

因清水江文书的民间私有属性,绝大多数纸质文书都是采用就地保存方式,即在收藏户主家自行保存;对于可获得所有权的少部分文书则在相应村镇、县市档案馆或博物馆保存。无论采用哪种方式,纸质文献固有的易损毁性都注定了纸质清水江文书的长期保存有着不确定性。故而,为了清水江文书上所记载的内容能够得到深入挖掘和有效利用,经综合分析后,应在现有标准和规范的指导下,开展数字化建设工作,建立数字化平台进而实现资源共享。事实证明,只有建立具备一定规模的数据库平台,才能打破清水江文书的地域局限性,使研究学者们能够跨越时间、空间,最大限度地获取到文书资源,进而从民族学、语言学、历史学、经济学等多学科、多角度挖掘出文书资源潜在价值,发现文献内部的有机联系,开展更多新的研究议题。

建立数字化平台所需的软件框架可请专业机构搭建,建立平台框架后充实数据库通常要进行以下几步:纸质(图片)文书收集、纸质文书数字化(所谓文书数字化,即采用扫描仪或数码相机等数码设备对纸质文书进行数字化加工,将其转化为存储在磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程[2])、数字化图片预处理、JGP图片转换为PDF文件、PDF文件上传至数字化平台、对平台上的PDF文件进行元数据编目。

通过对CNKI期刊全文数据库检索发现,与清水江文书数据库建设相关的研究论文只有13篇,其中7篇是关于元数据标准和著录规范的研究,4篇是侧重于文书抢救、保护的研究,其余2篇是研究文书整理分类标准,未检索到关于文书图片预处理的文章。由此可见,学术界对于清水江文书数据库建设目前还处于探索阶段,虽然学者们已认识到了建库过程中文书整理、抢救、制定元数据标准及著录规范的重要性,但却忽视了文书图片数字化及预处理工作,而这一步恰恰是数据库质量控制的关键一环[3]。文章正是针对这一点,从清水江文书的来源、扫描规范入手,探讨文书数字化图片在最终进行元数据编目前的预处理规范。

2 纸质(图片)文书来源、扫描规范及命名规则

2.1 纸质(图片)文书来源

清水江文书图片主要有4个来源:一是与文书收藏机构协商后扫描原件得到的图片;二是到拥有文书的农户家中经协商后扫描原件得到的图片;三是研究人员通过田野调查使用手机或相机拍摄到的文书图片;四是与档案馆等收藏机构协商后直接复制经过初步转正、裁剪处理的图片。

2.2 扫描规范

清水江文书扫描是进行数据库建设的首要工作,也是数据库质量控制的第一步。为了高质量建设清水江文书数据库,其文书扫描图片需符合2005年国家档案局发布的《纸质档案数字化技术规范》(DA/T31—2005)标准要求,确保在对文书扫描时不对文书原件造成二次损伤,确保文书扫描图像与原件一致、整洁、清晰。扫描人员在扫描过程中必须尽量展开文书原件,做到不遗漏、不褶皱、不卷边,让扫描图片尽可能地展现原件内容[4]。

具体要求如下:扫描人员对文书进行扫描时,要对环境进行清洁,确保扫描环境不会污染文书。为避免对文书造成损伤,扫描人员必须佩戴手套轻拿轻放;采用高档平板扫描仪进行文书扫描,避免图像颜色失真,分辨率不足;扫描数据采用300DPI标准JPG格式;扫描文书页面不能上下连页或压字,当前页面上不能有其他页内容;对装订成册的多页文献不支持拆装扫描;扫描图像要求完整、无倾斜、无黑边,保证浏览及打印清晰[5]。

2.3 图片命名规则

由原始文书直接扫描或拍照的图片,这种文书要求在扫描前现场测量其原始文献尺寸、识别纸张类型(原始文献尺寸、纸张类型一般被称为载体形态)并记录在图片文件名中,在存入计算机时要求为其按规则命名为JPG格式文件,以便于后期的操作。清水江文书数字化的重要目标之一是以文献的原始形态保存,所以在命名规则上必须求真,在数字化加工时最大限度地保留文书的原有留存状态和次序。

2.3.1 文件夹命名规则

(1)民间收藏文书命名规则:以收藏户为单位建立文件夹,按照收藏县+乡镇+自然村+收藏户主名的四级命名,即文件夹名称为:XX县XX乡镇XX村+文献收藏户主姓名。例如,黎平县岩洞镇铜关村5组吴珍标。

若该收藏户中收藏文书有多幅面文献扫描,则在该文件夹下建立子文件夹,子文件夹直接命名为文书类型,并注明载体形态,例如契约抄白(23 cm×16 cm棉帛纸)、鱼鳞册(26 cm×19 cm毛边纸)、工分册(25 cm×17 cm构皮纸)等。

(2)单位收藏机构文书扫描文件夹命名规则:以户为单位建立文件夹,以收藏户为单位建立文件夹,按照收藏县+乡镇+自然村+收藏户主名+单位档案编号的五级命名规则,即文件夹名称为:XX县XX乡镇XX村档案编号。例如,肇兴乡纪堂上寨村3组陆德齐-322。

若该收藏户收藏文书要多幅面扫描,则在该文件夹下建立子文件夹,子文件夹命名规则同(1)。

2.3.2 图片文件命名规则

(1)单幅面扫描文书命名规则:文献序号_收藏户姓名+原始文献尺寸(cm);纸张类型(如棉帛纸、草纸、构皮纸、毛边纸等)。例如,扫描杨秀锦收藏户的第1份文书:001_杨秀锦40 cm×45 cm;毛边纸JPG。

(2)多幅面文书扫描:收藏户家的一册文献扫描在1个子文件夹中,子文件夹直接命名为文书类型,并注明载体形态,因子文件夹下的文书为整册分页扫描,其载体形态相同且在子文件夹上已注明,所以各页文书不必再单独标注,其命名规则为:序号_文书类型,如001_契约抄白JPG。

对于没有原始文书可测量及识别,只有电子版图片的情况,其原文件名中若没有记录原始文献载体形态,按其原文件名保存,后期处理时再添加题名。

3 文书扫描图片预处理流程

清水江文书扫描图片在初步命名后,进行数据著录前要先经过图片的预处理,预处理过程包括以下几步:检查→比对→转正→裁剪→修改分辨率→加注载体形态→加注题名→添加水印→JPG转PDF文件→数据库中添加文书收藏地[市(县)、乡、镇、村与户进行归户管理]→上传PDF文件到数据库。

3.1 图片检查、比对、转正、裁剪

(1)对于同时有2个图片来源的文书,即建库机构自行对原始图片进行了扫描,并且又从原收藏机构复制了经初步转正、裁剪过的图片,通常为了避免重复劳动,以该收藏机构初步处理过的图片为主,检查每张图片的完整性,包括图片是否有褶皱、文字是否有误裁剪致残缺等,如发现问题,和建库机构自行扫描的同一张文书图片对比,将完好的图片转正、裁剪后替换有问题图片,其预处理流程如图1所示。

图1 需要进行图片比对的扫描文书预处理流程

(2)对于只有建库自扫描图片的情况,则可直接进行转正、裁剪。转正时视图片具体情况决定是逐一或批量转正,但因图片大小不同,必须逐一手动裁剪以避免误裁,其预处理流程如图2所示。

图2 机构自扫描文书预处理流程

处理时原则上先将图片转正后再裁剪,裁剪掉图片上多余的白边,注意不可剪掉文字,裁剪时对不规则幅面等细节,在图像中保留毛边等原始文献的物理状态。

(3)对于通过田野调查使用手机或相机拍摄的图片,且不可能再次进行扫描的,要逐一对图片进行检查,是否清晰和完整,将完好的图片转正、裁剪。

经初步对比、检查后,将损毁严重、误裁剪或扫描不完整等情况导致无法识别的文书排除,不再进行下一步处理。

3.2 修改图片分辨率

经过转正、裁剪后的图片要降低分辨率。因考虑到原始文书扫描后可能用于编辑出版,图片最初扫描和拍摄时分辨率较高,但其在数据库中为保证图片既清晰又不影响其浏览流畅性,就要适当降低分辨率。经多次测试,确定将图片统一修改为最长边1 800像素,另一边按比例调整。该操作可批量进行,批量修改时注意保持图片上文字方向一致性,修改后图片大小基本保持在1 MB左右,符合应用要求。

3.3 加注载体形态

修改过分辨率的图片可进行加注载体形态工作。所谓加注载体形态就是将建库机构在扫描图片时同时测量记录的各文书纸张类型、大小信息逐一粘贴到从其他机构拷贝并经过以上处理的相应图片文件名上。若使用建库机构自扫描图片,因在最初扫描时已详细记录其载体形态,故这一项可省略。使用手机和相机拍摄的图片,若没有记录初始载体形态,在数据库著录时可忽略。

3.4 加注题名

修改过分辨率的图片可加注题名,题名的拟定要符合《清水江文书著录项目及著录规范》(建库机构自行制定),规范是按照“契约文书主体(事主)+事由+契约文书类别+契约文书签订时间”拟定。其中立契人为契约的主体,契约的文书类别为(卖契、租佃契、财产与山林析分合同、典当借贷、拨约字合同、宗族与分家文书、清白字等[6]);契约文书时间依原文书录入。将事先拟定的题名复制到相应图片文件名上,注意要复制到载体形态之前,不必加标点符号,加注题名的过程如下。

原文件名:001_杨秀锦40 cm×45 cm;毛边纸.JPG

题名:石秀先立卖杉木字(光绪十八年二月初九日)

加注题名后文件名:石秀先立卖杉木字(光绪十八年二月初九日)40 cm×45 cm;毛边纸.JPG

3.5 添加水印

原则上清水江文书数字化应尽可能保持其文献的原始性,不应添加任何水印。但是,因文书图片多为建库机构有偿扫描或复制而来,为保护其知识产权,防止非法拷贝及截图,所以要为图片添加数字水印。通常水印文字为文书所属版权机构,如“XX大学图书馆”“XX博物馆(档案馆)”等,经测试效果,确定水印文字选择黑体,26号,居中,透明度为90%~92%,具体透明度数值视图片颜色深浅而定。此项操作可批量进行,处理速度较快,但要注意添加水印时保持图片上文字与水印文字方向一致性。

3.6 JPG转PDF

为了便于图片批量处理,在保存图片时大多选择JPG格式,但是有些收藏机构也保存为TIF格式文件,这时一般在处理时也先将其批量转换为JPG格式文件。

JPG格式文件的扩展名后缀为“.JPE”或“.JPEG”,是最常用的一种有损压缩图像文件格式,能够将图像压缩在很小的储存空间,图像中重复或不重要的资料会丢失[7]。这种格式为点阵式,如果图片里有大小为6号或6号以下的文字,用JPG格式的文件发布后文字会看不清楚。

因此,在最终将文书图片上传到数据库著录前,要将其转换为更具优势的PDF格式文件。PDF是一种便携式文档格式,其可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,文字效果是矢量型,理论上无限放大不失真[8]。该特性非常适用于红契文书中公章的辨别,通过不失真的放大可以清晰识别红契文书(官文书)中公章细节,从而判断出文书的年代及其他历史信息。

将JPG图片转换为PDF文件,可利用软件批处理进行,转换前先新建一个保存PDF文件的文件夹,避免和JPG源文件混在一个文件夹中。转换时注意根据电脑性能选择合适的文件数量批处理,为避免死机,不建议一次转换超过500张图片。

3.7 数据库中添加文书收藏地进行归户管理

借鉴上海交通大学在“中国地方历史文献数据库”建设中,提出的尊重文献的产生来源与固有系统的归户性理论,制定《清水江文书地域导航设置细则》,登录清水江文书后台管理系统,在数据库的归户导航栏中添加文书所在的市(县)、乡、镇、村与户进行归户管理,要求严格按照前期制定细则中的相应编号添加。即取黔东南三字汉语拼音首字母大写“QDN”作为顶级(一级)地域代码,且为唯一代码;黔东南州辖县市设置为二级地域代码“QDN00”,使用2个字符“00”来标识下设县域,黔东南州下辖16个县市,即用“01~16”分别表示;黔东南县域下辖的乡镇设置为三级地域代码“QDN0000”,增加2个代码来标识乡镇;乡镇下辖的村落设置为四级地域代码,用2位阿拉伯数字表示;村落下面用3位阿拉伯数字来标识清水江文书的归户(收藏户)[9]。

以“黔东南州锦屏县平秋镇石引村刘光环家藏文书”导航设置为例,其代码为:QDN010202001。

(归户编码按当地收藏文献先后顺序编写,其他编码按照《清水江文书地域导航分类细则》编写)。

3.8 批量上传文件

将上述.PDF文件作为数字对象上传到数据库提前建好的收藏户名下,上传前注意记录下数据库中最后一条数据的记录号。因系统设置及字库不全,文书题名中全角字符、某些生僻字(如:、)或异体字数据库无法识别将导致传输中断,这时就要检查中断原因并在处理后继续上传后续数据,记录好原数据记录号和已上传数据量,确保不会产生漏传、重复上传及误删除等错误。

对于多张扫描图片属于一本书的情况,要分别处理每张图片,添加水印后生成一本PDF电子书后再上传。

4 存在问题及改进方向

在清水江文书数据库建设过程中,发现文书的数字化及数字化后图片的预处理过程存在一些问题,同时也提出了改进方向,现总结如下。

4.1 存在问题

(1)缺乏针对清水江文书的统一数字化标准

清水江文书研究近些年逐步崛起,已成为和安徽文书、敦煌文书齐名的三大文书之一,但是目前为止并没有权威部门制定出针对清水江文书的统一数字化标准。清水江文书作为地方历史文献,其数字化应该符合地方历史文献的相关标准。纵观近十来年国内外发布的各种数字化标准,并没有专门针对地方历史文献而制定的标准,而且在已有的数字资源加工标准或规范中,数字资源仅限定为文本、图像、视频和音频等,但清水江文书并不能简单地定义为普通的文本或图片资源,其来自于民间不同年代,载体形态多样(纸、皮、布等),仅纸就分为棉帛纸、草纸、皮纸、毛边纸等多种类型,且幅面不规则、颜色深浅不一,局限于没有统一的标准用于数字化,给清水江文书的数字化加工带来很大难度。鉴于此,各研究机构在对清水江文书数字化时只能各行其是,通过在实践中逐步摸索、修订而制定相应标准及规范,但因制定人的知识水平、认知能力、涉猎学科不同等而衍生出参差不同的标准。这就使得数据库后续的可使用性、可互操作性和可持续性严重受限。

(2)缺乏清水江文书图片预处理规范

所谓图像预处理,在计算机技术中指的是消除图像中无关信息,恢复有用的真实信息,增强有关信息可检测性和最大限度简化数据[10]。然而,在清水江文书数据库建设过程中,为最大限度保持文书原始性,预处理的含义更加广泛,不只是针对个别有污损、亮度低等影响文书阅读的情况先行处理以增强有关信息的可检测性,还包括后续进行的图片检查、比对、转正、裁剪、修改分辨率、加注载体形态、加注题名、添加水印、JPG转PDF文件、数据库中添加文书收藏地、上传PDF文件到数据库这11步操作。然而上述操作并没有按照相关规范来遵照执行,很多标准都是数据库建设人员在使用过程中逐步摸索改进中形成,如题名格式文中规定是按如下形式:石秀先立卖杉木字(光绪十八年二月初九日),但是在谭洪沛的《九寨侗族锦屏文书辑存》则是采用另一种表现形式:光绪十八年二月初九日(1892)石秀先立卖杉木字;此外,在江苏人民出版社出版的《天柱文书》和贵州人民出版社出版的《贵州清水江文书·三穗卷》则采用的是如下格式:光绪十八年二月初九日石秀先立卖杉木字,诸如此类情况不胜枚举。除此之外,图片命名规则、分辨率大小设定、水印标准等都存在各机构各部门标准不一致的情况。这诸多的不一致性就导致各机构数据库之间数据交流、置换的可能性降低,难度加大,这与打破清水江文书的地域局限性,多角度挖掘文书资源潜在价值的初衷相违背。

4.2 改进方向

清水江文书资源数字化合作共享,在调研、比较的基础上,明确数字化建设应遵循标准化、一致性、可扩展性、兼容性等原则。

(1)标准化原则

标准化将提升清水江文书数字化产品在将来使用的可能性,有助于数据交换和资源共享。通过对国内外数字化加工标准和规范的调研,尽可能直接引用或参考国际上已经普遍应用的技术标准[11],在此基础上须认真参照权威机构发布的研究成果,开展数字化,建设地方清水江文书标准数据库。

(2)可扩展性原则

考虑到清水江文书既不是一般档案资料,又非单一内容的专业学科主题文献,加之目前尚未形成统一的分类标准,其数字化产品的分类法宜结合文献的动态性,着眼于未来发展,提供较高的可扩展性。

(3)兼容性原则

考虑与国内代表性应用方案的兼容问题,要充分考虑与CALIS、中国科学院及其他一些行业的数字图书馆系统的标准兼容问题,以保证各系统间互操作的实现[12]。

猜你喜欢
清水江文件夹文书
磁力文件夹
太行山文书精品选(17)
监狱执法文书规范探讨
黑水城出土《宋西北边境军政文书》中“砲”类文书再讨论
摸清超标源头 大文件夹这样处理
调动右键 解决文件夹管理三大难题
清水江流域杉木育苗、种植技术及其生态学意义
清水江水体和沉积物中氮、磷的分布及变化趋势
挂在墙上的文件夹
明至民国清水江流域生态环境变迁探微