古籍文献数字化加工系统硬件解决方案

2017-04-19 17:52陈英敏
卷宗 2016年12期
关键词:古籍服务器加工

摘 要:古籍数字化与古籍整理、文献保护、文化传承紧密相关。文章从古籍数字化的概念与意义谈起,详细介绍了古籍数字化的加工流程,并从系统硬件配置入手,完整地设计并实现了一种通用古籍文献数字化系统的构建。

关键词:古籍数字化;系统设计

1 古籍文献数字化的概念与意义

古籍在各类文献中独具特色。以国家图书馆为例,其古籍文献资源数量庞大,种类齐全,既包括甲骨、金石、简帛、舆图、善本等珍贵特藏,也包括图书、期刊、报纸、缩微文献等传统普通古籍文献类型。无论线装古籍,还是碑帖拓本、古地图,所有古籍文献资源都蕴含着独特的文献价值、艺术价值,彰显着古老文明的魅力。据文化部统计,全国公共图书馆系统收藏古籍2717.5万册件,其中善本229.5万册件[1]。如此丰富的古籍资源,为古籍数字化建设提供了可供开采的丰富宝藏,成为数字图书馆资源建设不可缺少的重要内容。

古籍数字化就是從利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作[2]。

古籍文献数字化可以降低原件丢失和损失的风险。古老的文献、照片都可以转换成数字化文献,避免读者直接使用原件,以减少或避免原件损失的机率,同时也可以扩大原始文献的利用范围。古籍文献数字化后,可以产生较原件可靠而功能性更强的数字资源,这将有利于开展古籍文献研究,从而扩大研究范围。例如:对手稿字迹的鉴别,对图画、照片的放大浏览等等。古籍数字化是数字图书馆资源建设的重要组成部分,数字图书馆推广工程将在全国范围内依托图书馆馆藏优势,建成内容丰富、类型多样的公共文化资源库群。

2 古籍文献数字化加工系统工作流程

古籍文献数字化加工系统的工作流程一般可大致分为六个部分:文献整理、图像扫描、图像处理与质检、文字识别与质检、数据标引与质检、数据整理。其中,“文字识别与质检”根据加工需求为可选流程。图1为古籍文献数字化加工系统工作流程,各类古籍文献依据类型的差异在数字化细节上会有所不同。

根据古籍文献数字化加工系统工作流程图可以得出,完成古籍文献加工的单条流水线主要包含以下几个环节:

(1)文献整理:待加工的文献存放在专门的资料管理室,由相关人员统一上架登记,保护文献安全;需借出做加工和归还的文献需要登记入册,统计书目信息和文献数量;

(2)图像扫描:按照加工要求对古籍文献进行扫描,对扫描图像进行命名、旋转等;

(3)图像处理:应用专用图像整理工具,自动检查整理图像的DPI与图像模式,主要包括批量进行倾斜校对,调整倾斜度、统一画布尺寸、调整dpi、去除黑边等操作、纠正文件名命名、建立图像索引等,处理完成后导入数字化加工管理系统进行数据自动分发与流转,系统会在流水线上自动派发任务;

(4)OCR识别:应用专业OCR识别软件依照文献数字化加工要求进行全文或特定的文字识别;

(5)OCR数据质检:完成字体切分、校对,从而做到一字一框,精确对位,同时进行聚类校对,将一批次中所有同一个字的字形聚集到一起,选出与标准字库不一样的那一个进行标红,为下一步错字修改做准备;完成错字修改,操作员通过管理客户端可以实时读取到上一步的校对结果,并进行错误修改,修改完的字体会有高级人员校对;如遇操作员识别不了的字体,也可留给高级人员纠正。

(6)版式还原:包括原有版式编辑还原、XML排版、PDF排版、调整字体、字号、字间距、标题格式等内容;

(7)成品全检:根据文献数字化加工项目的特点,应用成品检查工具,对每批完成数据进行成品检查。对出错的部分,按照谁做谁修改的原则,由管理系统返回给操作员进行修改。

3 古籍文献数字化加工系统设计

参照古籍文献数字化系统工作的一般流程,可以将加工系统设计为包含软硬件运行平台、数字化专用采集和输出设备、数字化加工管理软件等几大部分。整个古籍文献数字化加工系统硬件架构中将包含服务器、存储设备、加工工作站(终端PC机)、各类型扫描仪及网络集成等。

3.1 古籍文献数字化加工系统拓扑结构图

3.2 古籍文献数字化加工系统软件

古籍文献数字化加工系统软件可分为数字化加工管理系统软件和文献数字化生产系统软件两大部分。软件系统部署在服务器端和工位的PC机端。目前市面上成品数字化管理及生产系统软件很多也比较成熟,可以依据古籍文献数字化的具体要求直接采购使用。

3.3 古籍文献数字化加工系统服务器设计

古籍文献数字化加工系统服务器可设计为数据库及管理服务器2台,互做双机热备,部署数据库、中间件、文献数字化生产系统和数字化加工管理系统。其中一台兼做数据封装服务器和数据自动处理服务器,另外一台兼做元数据控制服务器和FTP服务器。由于有频繁的数据处理,因此这2台服务器建议为大内存和多CPU。文献数字化加工系统服务器2台,参考配置如下:

☆4路PC服务器,配4颗Intel8核CPU。

☆内存至少为128GB,硬盘至少配2块1TB SAS 高速盘,做RAID1

☆至少配2个千兆网口,1个万兆光口

☆配DVD,冗余电源和风扇。

3.4 古籍文献数字化加工系统存储设计

采用IP-SAN磁盘阵列作为加工系统存储。目前各家IP-SAN厂商已研发出自己的卷共享软件并能免费提供,并且其iSCSI口已支持到万兆(10G)。iSCSI技术是一种新储存技术,该技术是将现有SCSI接口与以太网络(Ethernet)技术结合,使服务器通过网络交换机可与IP-SAN储存进行数据交换。文献数字化加工过程中,由于有多路的请求对存储数据进行大量频繁的数据读写,存储控制器的缓存大小对响应性能尤为重要,因此要求存储系统至少需要128G缓存,且具备一定的扩展能力。存储系统IP-SAN的具体要求如下:

☆双控制器,缓存为128G,有至少一倍以上的扩展能力;

☆提供至少8个iSCSC 10G接口;

☆一定容量的SAS高速硬盘用于数据库区和数据频繁交换区;

☆一定容量的SAS 低速硬盘用于扫描和加工数据的保存;

☆免费提供原厂的卷共享软件和管理软件。

3.5 古籍文献数字化加工系统网络设计

根据以上硬件系统设计,加工系统网络交换设备应满足2台配有万兆光口的服务器连接,8个iSCSI口IP-SAN连接,同时提供相应数量的千兆网络端口,能满足古籍文献加工区工位PC终端网络接口的连接需求。

3.6 古籍文献数字化加工系统PC终端设计

依据古籍文献数字化年加工量要求,可相应配置加工系统终端PC机数量,具体配置如下:

☆CPU:Intel I5,内存8G,硬盘1TB

☆2个千兆网口,配DVDRW

☆19寸液晶显示器、键盘、鼠标

☆预装Windows7 32bit操作系统软件。

3.7 古籍文献数字化加工系统扫描仪设计

古籍文献数字化加工系统中服务器、存储、终端PC和网络集成这些硬件部分是通用的,主要的差异化来源于数字化加工的古籍文献类型所带来的区别。古籍文献资源种类繁多,具有尺寸大小不一、载体材质各不相同等诸多特点,这就要求古籍数字化加工系统要依据古籍文献的资源类型,采用不同的前端扫描输入设备。

(1)2A0幅面彩色古籍仿真扫描仪(适合大幅面文物、艺术品、古籍、图书、报纸、字画、画册、地图等稿件)

主要性能参数指标:

☆顶置式扫描头,非接触扫描,

☆承稿台可扫描幅面:≥1800mm×1200mm ,承稿台采用特殊耐磨的合成材料,采集过程不会损害古籍原稿,

☆光学分辨率调节范围:≥300Dpi至1000Dpi,

☆全自动设定:对焦、曝光时间、黑白平衡、幅面探测、自动裁切页面等

☆输出: (彩色)≥42-bit,(灰度)≥12-bit,(黑白)≥1-bit

输出图像格式:TIFF、TIFF G4、TIFF Multipage、TIFF LZW、DNG、PNG、JPEG、JPEG2000、PDF等等

(2)A1幅面彩色扫描仪(适合文物、古籍、图书、报纸、字画、地图等单页或装订成册稿件)

主要性能参数指标:

☆顶置式扫描头,台式非接触扫描,自动开启式玻璃面板托书台

☆最大原件尺寸:880×640 mm(超A1)

☆光学分辨率:600×600 dpi

☆扫描速度(彩色,A1):6.5秒/300dpi,12.3秒/600dpi

☆扫描模式:36 位彩色,12 位灰度,1 位黑白二值

☆原稿厚度:书本厚度最大为240mm,打开最大尺寸为1070 x675 mm

☆扫描方式:高解析度扫描镜头,8 线对/毫米,高精度扫描头镜头,不失真,景深达50 毫米/2英寸

☆输出图像格式:TIFF 不压缩,TIFF G4,JPEG,JP2,PDF,多页TIFF,BNMP,PCS

(3)A2幅面彩色古籍仿真扫描仪(适合古籍、报纸、字画、地图等单页或装订成册稿件)

主要性能参数指标:

☆顶置式扫描头,台式非接触扫描,带完整的托书台,自动开启式玻璃压稿台

☆最大原件尺寸:635×460mm(超A2)

☆光学分辨率:600×600dpi

☆扫描速度(彩色,A2):3.5秒/300dpi,6.0秒/600dpi

☆扫描模式:36位彩色、12 位灰度,1 位黑白二值

☆原稿厚度:书本最大厚度为150毫米

☆扫描稿台:连机书稿台(可选90 度开合电动压稿玻璃)

☆扫描方式:自动对焦,景深达50 毫米

☆输出图像格式:TIFF ,TIFF G4,JPEG,JP2,PDF,多页TIFF,BNMP,PCS

(4)A3幅面零边距扫描仪(适合装订成册的普通古籍扫描)

主要性能参数指标:

☆进纸方式:平台式,边距:不超过2mm,影像感应器:CCD 影响感应器

☆光学解析度:600 dpi,灰阶模式:8 位元,彩色模式:24 位元

☆最大纸张規格:11.8 x 17 英吋 (299 x 431 公厘)

☆扫描速度: B&W@200 dpi, A3 : 7 秒

(5)V型彩色古籍仿真扫描仪(适合高精度古籍、拓片、舆图、卷轴、实物拍照)

主要性能参数指标:

☆顶置式扫描头,台式非接触扫描,带完整的托书台

☆最大原件尺寸≥455×315mm(超A3)

☆光学分辨率≥600×600dpi

☆扫描模式: 36位彩色,12位灰度,1位黑白

☆原稿厚度:书本最大厚度≥150毫米,可承受重量≥20公斤

☆扫描稿台:V型台可120°调整,V型玻璃台由扫描程序自动控制升降。

☆扫描方式:自动对焦,景深≥50 毫米

☆全自动设置:对焦,曝光时间,白平衡,格式检测

☆图像加强:纠偏,阈值,消手指,曲率校正

☆输出图像格式:TIFF, TIFF G4, 多页 TIFF, TIFF 12 Bits, JPEG, BMP, JPEG 2000, PDF,多页 PDF

以上列举了目前市场主流的各类幅面扫描输入设备类型及主要性能参数指标,在古籍文献数字化加工系统搭建时可以依据古籍文獻类型有针对性配置选用。

4 结语

本文从系统架构的角度给出了古籍文献数字化系统硬件设计实现的一个通用方案。古籍文献数字化加工系统的生产流程是古籍文献的扫描、存储、OCR识别、标识、质检、成品等工作。作为文献数字化生产系统,除了硬件设备本身要具有实用、易搭建、可扩展、故障率低、维护方便等特点之外,毕竟文献数字化还是一个有人参与的复杂过程,文献数字化的扫描工作是快速机械化的,而成品古籍数字资源的生产是由人工加软件完成,这两者之间存在着加工能力的不同,而整个生产又在一个统一的管理系统中完成,因此这两个环节之间相应的硬件设备要做好匹配。当然还包括应用软件与服务器性能的匹配,扫描及加工古籍数字资源容量与存储容量的匹配,在统一管理下的加工系统生产与网络环境的匹配,另外还包括了加工场地生产环境(温度、湿度、新风)与生产设备的匹配等等,实际系统搭建的时候只有充分考虑到这些差异化的因素,做好各分系统之间的协调配置,才能保证古籍数字化加工系统工作全流程的顺畅高效。

参考文献

[1] 张志清 .国家图书馆古籍保护的历史、现状和任务[M]. 杭州: 浙江省古籍出版社,2008: 7.

[2] 毛建军.古籍数字化的概念与内涵[J].图书馆理论与实践,2007,(4):82-83.

作者简介

陈英敏(1972-),男,国家图书馆数字资源部工程师,主要研究方向为文献数字化加工。

猜你喜欢
古籍服务器加工
认识“超加工食品”
后期加工
中医古籍“疒”部俗字考辨举隅
关于版本学的问答——《古籍善本》修订重版说明
通信控制服务器(CCS)维护终端的设计与实现
关于古籍保护人才培养的若干思考
我是古籍修复师
中国服务器市场份额出炉
得形忘意的服务器标准
计算机网络安全服务器入侵与防御