地方文献古籍数字化工作探索

2016-08-02 07:55古海峰
卷宗 2016年6期
关键词:异体字古籍数字化

古海峰

摘 要:随着古籍文献数字化资源的开发与建设,地方文献古籍数字化的进程也在有序地开展,本文从地方文献古籍数字化的意义入手,通过列举本馆在数字化工作中遇到的问题,并提出了解决这些问题的对策和方法。

关键词:地方文献;古籍;数字化

地方文献古籍即地方古代书籍、文献,是综合反映一个地区历史进程中政治、经济、文化、教育、历史、地理、风土人情、人物传记、物产资源、名胜古迹等重要内容的文献资源,它是各地区民族历史文化的重要载体,各地区的历史文化和民族的精神有赖于它而传承、延续。

笔者所在的梧州市,是岭南古都,自建制以来,历汉、三国、魏晋南北朝,达700多年。梧州市图书馆馆藏的地方文献古籍以方志为主,如广西通志(清嘉庆六年刻本 )、苍梧县志(清同治十三年刻本)、临桂县志(清嘉庆七年刻本)等。这些旧方志的很多材料来自现实生活,会记载大量的人物传记,这部分人物在正史中多半是不收录或者记载不详细,因此旧方志对于了解梧州地区一些特殊人物的真实生活情况,帮助更全面的还原这些人物的各种信息具有不可替代的作用。

1 地方文献古籍数字化的意义

地方文献古籍是珍贵文化遗产,我们既要保护好珍贵的地方文献古籍,又要利用好地方文献古籍给我们的精神遗产。但是地方文献古籍往往由于保护不力,都会出现虫蛀、残缺、发霉等破损情况,很多馆藏单位本着保护文献的目的,都不提供对外借阅,这就产生了保护与利用不能共存的矛盾。而地方文献古籍数字化以后,这个矛盾就不存在了,因为数字化地方文献古籍是对原文献的整理后以计算机数字形式呈现,它将原文献的文化价值和文物价值分开来,既实现了地方文献古籍的数字化永久保存,有可以使研究人员、读者在不接触原文献的基础上进行阅读和研究。

2 地方文献古籍数字化概念

地方文献古籍数字化可以称为“计算机化”,分为两个步骤:一是古籍文献的数字图像化,一是古籍文字的数字编码化。通过电子扫描、数码照相等技术手段,可以将古籍的图文处理成用计算机能识别和处理的数据。数字编码化是通过多种手段以字符方式输人计算机,现在普遍做法是在古籍文图的数字图像化基础上采用OCR (光学字符自动识别)技术,再辅以人工校对。古籍数字化后,利用计算机可对古籍作进一步整理、研究,进而予以更充分的利用。

3 地方文献古籍数字化存在的主要问题

3.1 存在重复建设现象

地方文献古籍相对于一般古籍来说地域性十分明显,收藏单位基本上是本地区的相关单位,可是相同收藏也十分普遍,如本馆馆藏的苍梧县志(清同治十三年刻本),广西民族大学图书馆、广西壮族自治区图书馆、广西档案局、广西壮族自治区博物馆等单位也收藏有,如果各单位都进行数字化工程,很容易产生重复建设现象。

3.2 图像处理标准化问题

数字化工作第一个步骤是图像扫描或拍照,由于不同的项目和工作人员变动,在图像处理工作中会出现很多问题,例如由于设备的不同,拍照或者扫描的图片会出现很多种格式和不同的分辨率,导致数据文件延续性很差和文件十分混乱,没有一个同一的标准,会使得数字化成果无法达到我们数据库建设最终预期,直接关系着数字化成果的利用效率。

3.3 文字编码化中异形字问题

在地方文献古籍文字编码化过程中,大量异体字的存在是很麻烦的事,人常说“字无定量”,就是说因为汉字异体字多得无法估量。如广西永福县寿城石壁上有幅《百寿图》雕刻有百个寿字,除不同字体外,至少有三十种不同写法。地方文献古籍中复杂多变的异体字,在文字编码化过程中处理起来非常棘手,稍不注意,就会出错。其中常遇到的异形字问题主要有三种:

3.3.1 同字异写,例如“半”上的两点写为八,“流”字右上无一点,“户”字上部写成一撇(戶)或一横(戸)等。

3.3.2 讹误异体字,即部分字长期被错误书写,渐渐发展成常见态势。这类字常见的如“擊”成了“撃”;“達”往往少了一 横,变成“逹”字;“淫”误写成“潘”等。

3.3.3 用字混乱现象,现今人们区分很清楚的形近字,古人却常常混用,常见的如“已一巳一己”、“戊一戌一 戍”等。

3.4 地方文献数字化人员缺乏和素质有待提高

目前地方文献数字化人员十分缺乏。如梧州市图书馆地方文献和古籍的整理工作都是辅导部人员兼职,所以进行地方文献数字化工作就会十分的缓慢,我们馆早在2007年已经购买了专业的冷光零边距扫描仪设备,但由于没有专职人员,数字化工作经常中断,将近10年的时间才完成少量的地方文献的扫描工作。而且由于不是专职,人员的专业知识得不到持续的学习和提高。

4 解决方法与对策

4.1 建立统一古籍数字化的标准规范

在国家没有建立古籍数字化标准规范的情况下,各馆之间要加强交流沟通,在进行数字化项目前,要跟项目文献有相同馆藏的单位进行联系,了解他们的情况,最好能达成一起合作开发、合作共建,这样不仅能很好的避免重复立项,重复建设现象,还能可以实现优势互补、资源共享。

4.2 制定数字化工作手册,统一图像处理标准

不论是采用照相还是扫描仪扫描的方式去获取文献的图像,解析度决定了一张图像所能呈现出来的效果。解析度所用的单位是dpi,我馆在实践中把dpi值设定为600dpi,文件格式为JPG,既兼顾了清晰度又控制文件的大小。我馆还把这一标准写入工作手册中,并把标准上墙悬挂。这样即使以后工作人员变动,都会按照标准来执行,使图像数据规范统一。

4.3 异体字的同功能替换

所谓“同功能替换”,即只可替换字形,而替换前后的字形所记录的词语的音义不能有丝毫的改变。

对于同字异写字,宜尽量统一成一个字形,将不常见的、字形怪异的改为常见的规范字。如 “戶”改作“户”、“趂”改作 “趁”、“畄”改作“留”等。因为对应关系比较简单,所以这个问题相对较好解决。对于地方文献古籍中存在的讹误异体字,编辑的时候一定要养成职业敏感,做到目光如炬,一经发现,立刻改回为规范字。对于常见的用字混乱现象,编辑遇到这种情况,也要有一个起码的区分意识,不能一仍其旧,而是要能够根据上下文语境选择正确的字。

4.4 提高图书馆馆员的综合素质

人才是做好地方文献古籍数字化工作的关键,数字化工作是技能性、专业性很强的工作,我馆很重视人才的培养,每年都制定古籍人才的培训计划,定期派遣人员参加国家古籍保护中心举办的各种培训和进修班,由于经常参加培训,馆员的技术每年都会有提高,开展古籍相关工作就会顺利很多。

5 结语

虽然地方文献古籍数字化现在还存在各种各样的问题,但其查询的便捷性、数字化后的便携性等优点将极大地方便研究人员和普通读者。地方文献古籍只有通过数字化的开发与建设,才能使各地区的传统民族文化更加容易传播,被大众熟悉,这些珍贵资源的数据库才能易被大家利用和推广,满足了现代读者对于传统地方文化的多层次需求。

参考文献

[1] 刘伟红,中文古籍数字化的现状与意义[J3].图书与情报,2009(4): 134一137.

[2] 刘聪明,姜爱蓉,郑小惠.信息技术在古籍数字化实践中的应用[J].兰台世界,2011(5):17一18.

[3] 康尔琴,中国古籍书目数据库建设浅议[J].图书馆界,2003, (2):14-16.

猜你喜欢
异体字古籍数字化
中医古籍“疒”部俗字考辨举隅
异体字字形类似偏旁的互用类型综合字图构建
家纺业亟待数字化赋能
关于版本学的问答——《古籍善本》修订重版说明
偏旁省略异体字研究
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
关于古籍保护人才培养的若干思考
常用隶书异体字表(二)
我是古籍修复师