(大理大学研究生处,云南 大理 671003)
回族文化历史悠久,涉及领域广阔,建树颇多,在整个中华民族的政治文明、社会经济发展的历史进程中,有着重要的、不可替代的价值与意义,并在不同时期都留下了众多的汉文、阿拉伯文和波斯文文献典籍,内容包含宗教、天文、历算、医药、占卜、历史、地理、物理、化学、文学等类别。大理地区作为回族最早的聚居区之一,回族文化底蕴十分深厚,也有着丰富文献典籍。同时,由于自然条件、地理环境、历史变迁、宗教信仰等因素的影响,大理地区回族古籍文献具有自己鲜明的地域特点和浓郁的民族特色,蕴含着浓厚的伊斯兰文化特色,记载着历史上大理地区回族与阿拉伯世界的文化交往与联系。但是,这些古籍文献大多散落在民间,且大都是以纸质的形式保存,一是不易于为大众共享,二是容易损毁、遗失,造成不可挽回的损失。因此,利用现代通信技术、网络技术和信息技术,建立大理地区回族古籍文献数据库,不仅对研究大理地区回族学有着重要的文献保障作用,而且有利于大理地区回族古籍文献的现代化管理、保护和利用,对认识和研究大理地区回族历史发展全貌及民族族源问题具有重要的史料价值,也对研究大理地区回族科技创新具有重要的学术价值。同时,通过对大理地区回族古籍文献开发利用,对传承与传播民族文化,促进边疆地区科技进步、经济繁荣、社会稳定和区域发展都具有重要的价值和意义[1]。
大理地区古籍文献的种类主要有各类经典典籍、碑刻铭文、匾额楹联、经文字画、文书档案等,其典藏形式有木刻、手抄、石印等多种,特色鲜明、内涵丰富、种类齐全、蕴藏量巨大。这些古籍文献大部分收藏于本地区的经学世家和各个村寨清真寺,也有少部分收藏于当地的图书馆、博物馆。很多珍贵的文献典籍在“破四旧”中被焚毁,现存的大多是主人冒着极大风险藏于床板下、牛圈里、草楼上才能得以保留,其中许多都是十分珍贵的孤本,且由于年代久远,面临着虫蛀、脱墨、掉色的境况。因此,对其进行数字化的挖掘、整理、存储和利用,不仅有利于保护大理地区十分珍贵的回族古籍文献资源,而且对研究本地区回族历史文化、推动回族地区经济和社会的进步也有着十分重要的意义。
2.1.1 数字化资源的获取
要对大理地区丰富的回族古籍文献进行数字化保护,首先就是要先获取其数字化资源。汉文古籍历朝历代都受到朝廷或政府的重视,其主要古籍文献被反复整理后收藏于图书馆、档案馆、文史馆等,皆有方位、目录可寻,故获取资源十分容易。而目前我们所接触到的大理地区的回族古籍文献,无论是经典籍著、碑铭匾联、文书档案,除很少部分是由民间团体或官方制作外,大多是由民间自行传抄、刻写、印制而成,种类繁杂,质量不高,且大多散存民间,因此,在对这些古籍文献的数字化资源的获取上:首先,采取原版数据化,即通过对原版文献进行图形扫描或数码拍照获取数字化资源;其次,通过开发文字识别软件对原版数据化资源进行文字识别,生成文档,以便进行检索[2]。
2.1.2 数字化资源的保存
数字化资源的保存贯穿于数字化资源的获取、检索和利用的整个生命周期,而且是一个动态的过程,因为数字化资源的长期保存是为了数字化资源的长效利用。而且这些资源是以多媒体形态存在的,类型有文本、图形、图像、语音、视频等,数据是海量的,需要对数据进行压缩,以保证其规模保持在可管理的范围内。因此,要实现对数字化资源的保存,首先要有海量存储空间,其次要采用数据压缩策略,也就是要建立一个多媒体数据库系统,用以实现快速、有效、有序、合法地保存数字化资源[3]。
2.1.3 数字化资源的利用
对大理地区回族古籍文献的搜集、整理和录入数据库,只是对其数字化保护的初级阶段,更重要的意义还在于对它的阅读、研究和利用。通过构建古籍文献原版图像数据库,开发出相应的应用软件,采用超链接的设计实现与正文相关内容之间的连接、正文与注释相关内容的连接、不同注释之间的连接、正文与相关知识资料之间的连接、原文与在线词典之间的连接,甚至古籍内容与相关网站的连接,进而形成完整的知识体系;此外,利用文字识别软件将图像文件转换成文本文件,以便开展对古籍文献中的字数、字频、词颁的统计分析,行文风格特色概率的统计,必要的背景知识资料汇聚,不同版本间的校对,以及字典词典、历代年表、历史地图等研究工具的加载等研究和利用;同时,还可将以往属于古籍整理研究范畴的标点、勘校、笺注,甚至白话翻译等工作,逐步让智能化的计算机替代,让大理地区回族古籍文献数字化保护进程步入为回族学研究提供极大便利的“数据库检索时代”[4]。
2.2.1 建立数据库
针对大理地区回族古籍文献大多收藏于民间,保存手段良莠不齐,残损、流失时有发生的现状,对已搜集到的民间木刻本、手抄本、绝版孤本等书面载体古籍文献,可采用扫描技术及文字识别技术;对碑刻、印章等金石载体的古籍文献,可采取照相复制方法;对赞词、曲调等口碑载体古籍文献,可采用录音录像方式获取数字资源,并辅以文字说明,建立全媒体数据库。
建立数据库的流程如下:①预处理,进行扫描或救码相机拍摄;②前处理,完成对图像版面分析、版面分割、去污、端正;③切分,分为自动切分和人工校对切分2种方式;④文字转换,完成图像文字向代码(code)文字的自动转换;⑤校对,分为列对列校对、聚类校对和重点提示校对;⑥置标,分为XML半自动置标和人工辅助置标;⑦配置搜索引擎;⑧提交入库。
2.2.2 检索与利用
当今社会已经进入信息数字化的时代,电子资源正在迅速增长,图书、文献的电子版已相当普及,越来越多文献信息可以通过网络获取,极大地方便了研究人员开展相关研究。对大理地区回族古籍文献的数字化保护,要在建立了全媒体数据库的基础上,积极探索古籍文献检索网络化,通过一定的平台,使相关的研究者能够方便快捷地进行检索,为其开展研究提供数字资源。采用数据库技术和网络技术,建立一个大理地区回族古籍文献检索系统,该系统的关键点在于网络通信模型的建立。系统采用3层网络应用体系架构,分别为数据库层、应用服务层和用户界面层,使用套接字(socket)来进行网络通信程序设计,通过建立一对套接字(其中一个运行于客户端,另一个运行于服务器端)实现点对点通信,进而建立服务器线程池,进行数据的接收和分析,同时维护后台业务。通过数据通信网络,实现用户直接使用终端的联机检索[5]。
系统包括4个核心体系∶①资源加工体系,完成对传统媒体信息资源进行数字化加工,对多媒体信息进行必要的格式整理;②存储管理体系,实现对数字信息的分类组织和存储,以提供安全备份;③资源调度体系,对元数据和对象数据的资源采用分布式存储方式,实现协调调度和跨平台查询检索等功能;④网络运营体系,基于网络平台为用户提供各种信息的在线应用、检索、上传、下载,并对数字资源进行管理,可方便地进行基于内容的检索[6]。
2.2.3 数字化保护中需要注意的几个问题
(1)统一数字化格式。在数字化资源获取时,由于不同载体的古籍文献需要采用不同的方式,因此获得的数字化资源格式就可能多种多样,为了更方便使用者的检索利用,必须在录入数据库前进行数字化格式的统一。文本文档统一为.DOC或.PDF格式;图像文档统一为.JPG格式;声音文档统一为.AVI格式;视频文档统一为.MPEG格式[7]。
(2)为用户提供多样化的检索模式。对古籍文献进行数字化保护的目的就是要对其进行研究和利用,因此应该为使用者提供多样化的、便捷的检索模式,包括条件检索、关键词检索、逻辑检索、模糊检索、组配检索和属性检索等。
(3)提供资源上传和下载接口。在客户端要提供资源上传和下载接口,以便访问者可以将其收集到的有价值的大理地区回族古籍文献资源添加进数据库,并且源源不断地获取数字化资源,这些资源不仅可为需要的人提供浏览服务,还可为其提供下载服务。
(4)版权问题。大理地区很多回族古籍文献资料是个人收藏,还有些是手抄孤本,具有较高价值,因此在收集、上传和下载过程中应处理好版权问题,以避免在以后的研究和利用中发生版权纠纷。
大理地区丰富多样的回族古籍文献,为研究和认识大理地区乃至整个云南的回族历史文化发展全貌提供了弥足珍贵的原始资料。对该地区回族古籍文献资源的整理、研究与利用由来已久,但进行数字化保护的研究才刚刚起步。回族古籍文献数字化是回族研究者的一种需求,是解决回族古籍文献典藏与利用的有效方式。通过对大理地区回族古籍文献数字化保护研究,可以彰显大理地区回族独特的文化风采,有助于对大理地区回族古籍文献的保护、开发和利用,也将为民族地区的经济社会提供强有力的信息资源和知识支持[8]。