刘晓建 季拥政
(青海大学图书馆,西宁 810016)
藏医药古籍文献是藏医学术的载体,包括藏药学、诊断、治疗以及藏医心理学和佛教中一些涵盖医学内容的部分书籍、古籍。据初步统计,藏医药古籍文献数量不少于5 000部(函),具有历史悠久、涉及地域广、存储地分散、数量众多、载体多样、版本众多等特点。目前国内先后抢救挖掘藏医药古籍文献2 000多部(函),整理出版800多部,完成《藏医药经典文献集成丛书》(100部)、《藏医药大典》(60卷)、《四部医典唐卡大详解》(18卷)等重大古籍文献整理出版工程等[1],在藏医药的传承与保护中发挥了积极作用。
由于历史和社会原因,以及印刷条件的落后,幸存下来的古籍文献数量本就不多,且受时间流逝、风雨侵蚀和虫蛀等因素的影响,现存的古籍逐渐遭到毁坏。如果不立刻采取有力措施进行抢救性搜集、整理和出版,用不了多少年许多文献将会绝迹,造成永久遗憾[2]。只有通过现代信息技术进行数字化整理,才能使藏医药古籍长期保存和永久传承。实现藏医药古籍文献数字化,首要解决的问题就是标准规范。藏医药古籍文献历史久远、载体多样、分布广泛、卷帙浩繁,致使藏医药古籍文献数字化的标准规范工作显得尤其复杂和非常重要,而且这项工作迫在眉睫、刻不容缓。
我国藏医药古籍文献数字化建设起步比较晚,虽然取得了一些成果,相继建立了不同类型的藏医药古籍文献数据库,但随着藏医药古籍文献数字化建设的深入,从系统性、专业性、规范性、科学性来看,数字化标准的问题日益显现,如缺乏统一技术标准,共建共享难以实现;各类版本与书目分类不一致,缺乏存储格式标准等。2007年,国务院办公厅关于《进一步加强古籍保护工作的意见》中明确指出“制订古籍数字化标准,规范古籍数字化工作,建立古籍数字资源库”[3]。因此,构建藏医药古籍文献数字化建设的标准体系势在必行。
荷兰国家图书馆保存部主任Weingarde曾表示,数字化产品能否长期保存和方便利用,需要在数字化开始时就考虑选择什么样的文件格式、制作标准和字型等[4]。藏医药古籍文献数字化是以利用和保护藏医药古籍为目的,建立相关的书目数据库、文摘数据库和全文数据库,用以揭示藏医药古籍文献信息资源,使其得以长期保存和有效保护。目前,我国藏医药古籍文献数字化标准现存问题如下。
技术标准各异是当前藏医药古籍文献数字化过程中最突出的问题。技术标准是实现高品质藏医药古籍数字资源库的重要保障,更是藏医药古籍文献数字化标准体系的核心,其中包括古籍版本类型、元数据标准、数据库标准、检索标准等。目前我国古籍数字化相关的标准主要有国家标准、行业标准和文化行业标准,其中国家标准包括《古籍著录规则》(GB/T 3792.7—2009)、《缩微摄影技术在16mm卷片上拍摄古籍的规定》(GB/T 7517—2004)、《缩微摄影技术在35mm卷片上拍摄古籍的规定》(GB/T 7518—2005);行业标准包括《古籍元数据规范》(WH/T 66—2014)、《数字资源长期保存元数据规范》(WH/Z1-2012)、《管理元数据规范》(WH/T 52-2012);文化行业标准包括《文本数据加工规范》(WH/T 45-2012)、《图像数据加工规范》(WH/T 46-2012)等。但目前西藏自治区以及青海、四川等省各自开展藏医药古籍文献数字化建设,并建立了各自不同类型的藏医药古籍文献数据库,这种状况难免造成各地采用的藏医药古籍文献数字化技术标准存在差异。
藏医药古籍文献经过数千年的流传,同一本藏医药古籍文献可能先后出现了不同的传世本、汉译本和校刊本,源于后期学者对藏医药古籍文献多次翻译、反复誊抄、修订校刊、补充注释等。藏医学的主要医典《四部医典》(《居悉》),相传为玉妥·云登贡布编著。但据《玉妥·云登贡布》记载,此医典是白若杂纳翻译的作品,玉妥·云登贡布对它进行了补充和注释[5]。经过历史的传承而产生多个版本,现在看到的几种版本,已不是最初的版本。不同的版本不乏存在很多错漏、讹传以及异文歧义的地方。藏医药古籍文献大部分以写本和木刻本居多,手写或手抄的形式为主,版本包括稿本、手抄本、木刻本、刻本、孤本、善本、金写本、银写本、铅印本、朱砂本、碑刻、摩崖等。藏医药古籍文献在不同历史时期,经过人工抄录、刻印等,造成了不同程度的错误,而且古藏文、藏文字存在同字不同义、同义不同字等现象。目前,还没有藏医药古籍文献版本选择标准,是藏医药古籍文献数字化的一大障碍。
元数据是数据的数据,用来组织、描述、发现、检索、索引、集成、浏览、保存和管理信息资源。元数据标准为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法[6]。为了藏医药古籍文献数字化的目标,必须设计和制定藏医药古籍文献数字化的元数据标准。统一的元数据标准缺乏,导致目前建成的藏医药古籍文献数据库相对独立,数据格式不统一,数据值不规范,数据内容和数据交换不一致,制约了藏医药古籍文献资源的深度开发和交流共享,造成大量的重复性建设,导致人力、物力和财力的严重浪费。
藏医药古籍文献完全是通过藏文记录和描述的,后期只有少量的翻译成为汉文以及英文和其他语言文字。随着时间的演进,藏医药古籍文献中还存在大量的藏医药术语、符号、藏文文字字符集等。同一种疾病或药物名称在不同时期或不同地域的读法、写法或解释均存在差异。这种情况给后期的整理加工带来很大的困难。
目前,藏医药古籍数字化存储格式种类繁多,如WORD、HTML、PDF、JPG、MP3、RMVB等格式。由于缺乏统一规划、协作和共享,就形成了不同的藏医药古籍数字化存储格式。这些不同格式的数据,只有专门的阅读器才能进行浏览、下载,而且各个阅读器是独立的,相互之间无法兼容。
《中国图书馆图书分类法》(以下简称《中图法》)是国家级文献分类标准,但是,《中图法》(第4版)的分类体系已不能满足学科发展的需要,分类类目的设置与实际分编工作存在比较大的距离[7]。以藏、蒙、维、壮、苗、彝、傣等为代表的各少数民族医药科学研究不断深入,实践能力逐步提高,研究成果日益丰富,并得到国家认可,也成为传统医药的重要组成部分[8]。《中图法》(第5版)的分类体系不能满足民族医药学科分类要求。这种状态致使藏医药学科体系不完善、学科分类不统一,缺乏标准,直接影响藏医药文献,尤其是藏医药古籍文献的收集、整理、开发和利用。
藏医药古籍文献数字化的标准化建设立足藏医药古籍文献自身的特点和规律,同时,需要考虑藏医药古籍文献的文字属性。因此,构建藏医药古籍文献数字化标准体系应具备相应的原则。
建立藏医药古籍文献数字化标准体系,首先要严格遵循国家古籍数字化相关标准以及行业标准,了解和掌握藏医药古籍文献数字化现状。依据藏医药古籍文献数字化的现实需求,构建藏医药古籍文献数字化标准体系的逻辑框架,保证藏医药古籍文献数字化的标准体系规范、合理、科学、可行。数字图书馆标准与规范以及古籍数字化相关标准,为藏医药古籍文献数字化建设提供了理论基础,并有效保障藏医药古籍文献数字化标准体系的实现。
藏医药古籍文献数字化标准体系涉及多环节、多层面、多内容的全方位的标准或规范,即构成标准体系的各个标准并不是独立的要素,而是相互联系、相互作用、相互补充的[9]。例如,开发藏医药古籍文献数据库需要遵循各种标准,不同的内容、阶段遵照不同的标准,而且藏医药古籍文献数字化标准体系中各标准之间是相互关联、协调统一,形成一个有机组合的整体性藏医药古籍文献数字化标准体系。
藏医药古籍文献具有民族医学的学科专业属性,其最重要的特点是藏医药古籍内容的原始性、地域性、历史性、民族性、核验性和现实性。所以,对藏医药古籍文献数字化要充分基于上述特征,系统分析藏医药古籍文献数字化现行标准的科学性、适用性、现实性和可操作性,着重研究藏医药古籍文献数字化的技术标准、管理标准、工作标准等。
在制定古籍数字化标准时要考虑到标准能否顺利实施,而且标准不是一成不变的,它要随着实施过程不断地完善和发展[9]。随着藏医药古籍文献数字化体系标准的应用和推广,可以显现出藏医药古籍文献数字化标准的应用情况、适用程度、需求结构、运行模式、科学规范和实际效果等,从而可以灵活调整和拓展藏医药古籍文献数字化标准。因此,随着大数据、人工智能、区块链等新技术的不断发展与应用,藏医药古籍文献数字化也要及时吸收和更新理论、技术、方法等,这样,才能完善和拓展藏医药古籍文献数字化标准体系,构建具有现代理念和技术方法的藏医药古籍文献数字化标准体系。
本文以现代信息技术和古籍文献数字化的研究与实践成果为基础,结合藏医药古籍文献数字化过程中的相关性、特殊性、复杂性特征,制定以技术标准为核心、工作标准为手段、管理标准为保障的藏医药古籍文献数字化标准体系[9](见图1)。
3.1.1 管理标准
藏医药古籍文献数字化是一项庞大、复杂的系统性工程,涉及各个方面的工作、相关责任主体和相关机构等。要将涉及的各个环节有机地结合起来,使藏医药古籍文献数字化的业务处理达到统一,保证藏医药古籍文献数字化的有序、顺利开展,就需要高效、规范、科学的管理准则。管理标准是开展藏医药古籍文献数字化建设的重要规则,也是藏医药古籍文献数字化流程中实施技术标准的重要手段,藏医药古籍文献数字化的管理标准包括选题与评估标准、藏医药古籍管理标准、数字化方案标准及标准化管理标准等。
图1 藏医药古籍文献数字化标准体系
3.1.2 技术标准
技术标准是开展数字化古籍作业的技术条件[10]。藏医药古籍文献数字化包括信息转换、信息承载和信息检索,实现这种功能需要多种技术的支撑。技术标准是开展藏医药古籍数字化工作的技术条件,涵盖工作对象、工作条件、工作方式等,包括藏医药古籍版本择取标准、数据加工标准、设备标准、元数据标准、文档存储标准、数据库标准、检索标准、软件标准等。
3.1.3 工作标准
工作标准是建设高质量藏医药古籍文献数据库、提高工作效率、实现各项技术标准的重要保障和手段。具体来讲,工作标准就是项目建设机构、工作人员的职责,工作要求、考核办法所作的规定,包括职责权利、工作程序、办事细则、考核标准和相互关系准则等。
藏医药古籍文献数字化就是对不同载体类型的藏医药古籍文献采取抄录、复印、翻拍、扫描、誊写等不同的“再造”手段[11]。为了保证藏医药古籍文献数字化有序、合理、规范、科学地开展,需要建立藏医药古籍文献数字化标准体系,指导和规范藏医药古籍文献数字化工作。鉴于藏医药古籍文献自身的特征及文字属性,藏医药古籍文献数字化标准体系应包括版本择取标准、藏文字处理标准、藏文字编码标准、藏医药古籍分类标准、元数据标准、存储格式标准、长期保存标准以及数据库标准等。
3.2.1 版本择取标准
由于藏医药古籍文献版本众多,不同版本的质量存在差异,而版本优劣影响藏医药古籍文献数字化产品的质量和水平。古籍版本择取标准为数字化古籍的内容质量提供保障,包括版本类型标准和版本细节标准两部分[12]。版本类型标准是对古籍数字化项目中涉及的底本和参照本的版本选择方式和要求进行规范,应指明版本的来源、数量、质量等性质,明确底本与参照本比对的具体模式,根据学界公认的版本鉴别方式进行善本和典籍的选择,保证鉴定的准确性以及所选底本版本信息的正确性[13]。版本细节标准规定了各类型古籍数据库对于古籍版本内容展现的细节程度,对于古籍的版刻工艺、装帧、用纸、行款、字体、边栏、墨色以及藏印、题跋等形态信息的展现必要性进行规范,要力求避免数字化成果可能出现的衍文、脱文、残阙等现象[13]。藏医药古籍文献版本择取标准确保选择高质量的藏医药古籍文献版本,从而生产高质量的藏医药古籍文献数字化产品。
3.2.2 藏文文字处理标准
藏文字的特殊性使藏文字处理必须遵循相关的文字处理标准。首先,制订藏医药古籍文献藏文字符集标准,应尽可能多地收集藏医药古籍文献中出现的所有古藏文字、藏文字,建立全面、系统的异体字、候选字参照,力求藏文字符集全面和准确。其次,藏文字抓取标准,应针对藏文字符识别工具的选择、识别字迹的候选字数量以及藏文字的准确度与容错度等相关参数作出规范。要求采用国际通用的Unicode编码的藏文字体进行录入和编排。采用藏文视窗系统、藏文字处理软件、藏文Internet技术等最新成果,进行藏文字与专用名词术语的信息处理[14],并提供汉文、拉丁文、英文、藏文对照形式。
3.2.3 藏文字编码标准
加工、重组后的藏医药古籍文献经过扫描复制获取数字信息后,还要进一步编码处理,才能供用户检索与使用。对于数字化藏文字处理标准,可依据《信息技术 信息交换用藏文编码字符集基本集》国家标准[15],作为文字处理的规范标准。该藏文字编码和主要字体字符集,可为藏医药古籍文献数字化标准体系构建提供支撑。由于藏文字符特征相对简单,不同字符是根据形状来区分的,因此本文推荐使用基于GIST全局特征的藏文字符识别方法。GIST特征是较好的全局特征之一,能快速描述文字在视觉维度上的结构信息,描述子相对简单[16],能很好地表征藏文的结构特征,是藏文字识别的有效途径。
3.2.4 藏医药古籍分类标准
藏医药古籍文献的挖掘、整理及数字化建设的持续发展,需对藏医药学文献进行细分。目前已有学者根据传统的《晶珠本草》《四部医典》等经典理论著作,划分出藏医外科学、藏医内科学、藏医儿科学、藏医妇科学等18个分支学科,形成了独具特色的藏医藏药体系[17]。随着国家、政府对藏医药事业的重视和支持,藏医药科学研究的不断深入,藏医药学的学科体系也在不断丰富和扩展,学科分类体系日益完善、科学和标准。结合《中图法》(第5版)“R29中国少数民族医学”类目(藏医药学为R291.4),并依据藏医药自身的发展特征及学科特点,笔者将藏医药划分为23个分支学科,形成藏医药学科分类表(见表1)。
3.2.5 元数据标准
资源加工标准分为数字化转换与存储标准和标引著录标准,前者规定了数字化设备和参数设置以及数字资源的属性,后者规定了元数据著录规范和要求[18]。可通过对藏医药古籍数据的收集、加工、整理等流程,确定元数据标准。依据藏医药古籍文献的自身特点,藏医药古籍文献的元数据由16个核心元素组成,包括资源形式(版本)、题名、摘要、主要责任者、其他责任者、翻译责任者、载体形态、出版者、主题、日期、标识符、来源、语种、关联、时空范围和收藏信息。
表1 藏医药学科分类
3.2.6 存储格式标准
统一藏医药古籍文献数字资源的存储格式是当前藏医药古籍文献数字化标准体系构建的重要目标。可将获取的藏医药古籍文献按照类型、载体、版本等进行整理,形成统一的数据存储格式,并能直接用于数字化。根据藏医药古籍文献的特点,数据存储格式有4种,即文本数据(描述性资料)采用WORD、PDF、EXCEL或纯文本文件格式存储;图像数据采用BMP、TIFF、JPEG、RAW、GIF、PNG等格式存储;音频数据采用MP3、WAV、FLAC、APE、ALAC、WavPack、AAC、OggVorbis、Opus等格式存储;视频数据采用RMVB、WMV、ASF、ASX、RM等格式存储。数据格式不但要适合藏文字的存储及使用,而且要兼顾古藏文字的兼容性,同时也要具备强大的加密功能,以保护藏医药古籍文献的知识产权。同时,文档格式还需要有利于进行汉语标注和人名、地名、药名标记。此外,藏医药古籍文献数字化需要处理大量的图片、实物文件信息,将图片、实物的存储格式设定为无损图片、无损实物,要保持图片和实物的原始风貌。
3.2.7 长期保存标准
藏医药古籍文献数字化的目的是藏医药古籍文献数字化资源得以长期保存、永久传承,其重点内容包括古籍数字化资源长期保存的基本构架,古籍数字化资源的开放存档系统参考模型、战略储备和灾备机制以及长期保存标准等。其中长期保存标准包括古籍数字化资源长期保存业务与管理框架、技术流程规范,以及特定条件下启用长期保存的古籍数字化资源提供服务的触发要件、服务方式、服务流程和服务管理等[12]。
3.2.8 数据库标准
目前数字化主要有图像数据库、文本数据库、音频数据库和视频数据库4种文献数字化方式。结合藏医药古籍文献的形式或类型,根据藏医药古籍文献的特点,可以建立藏医药古籍文献图像数据库、藏医药古籍文献书目数据库、藏医药古籍文献文摘数据库、藏医药古籍文献音频数据库、藏医药古籍文献视频数据库以及藏医药古籍文献全文数据库。
由于古籍数字化过程的特殊要求,其标准建设成为古籍数字化的一项重点工作内容[19]。因此,构建藏医药古籍文献数字化标准体系是藏医药古籍文献数字化建设的前期条件和重要保障。本文遵循规范性、系统性、现实性和拓展性原则,同时结合藏医药古籍文献数字化建设现状,尝试针对相关流程和技术环节制订共同遵守的准则和规范,统一数字化资源的版本和格式,形成一套完整的藏医药古籍文献数字化标准化体系,以指导藏医药古籍文献数字化工作,实现资源全面整合与交互共享。