中医药古籍数字化若干原则思考

2015-09-10 10:11程新
中国中医药图书情报 2015年1期
关键词:原则数字化思考

程新

摘要:中医药古籍具有学术和历史文化的双重价值,数字化是保存、整理和利用中医药古籍的有效方法。近年来,中医药发展受到高度重视,而中医药古籍数字化却进入了发展缓慢的瓶颈期,需要进一步深入思考的主要问题即是中医药古籍数字化原则问题。本文论述了中医药古籍数字化应遵从的9个原则:保护与利用相结合、统一规划与分步实施、共建共享、标准化、可持续发展、保真、整理、图文对照、技术服务于内容。

关键词:中医药古籍;数字化:原则:思考

中医药是我国独具特色的卫生资源,大量的中医药古籍承载着中医药学数千年来积累的丰富理论知识和临床经验,具有学术和历史文化的双重价值。对中医药古籍既要有效保护,又要便于传播,更要充分利用;既要保持优良传统,又要适应信息时代的发展潮流。中医药古籍数字化是解决上述问题的有效方法,也是保存、整理和利用中医药古籍的必然趋势。

近年来,中医药受到党和国家领导人的高度重视并寄予厚望,中医药事业发展一次次被放在党和国家事业发展全局的战略高度来部署。与此同时,我国大陆地区包括中医药在内的古籍数字化经过迅猛发展后,近几年进入了发展缓慢的瓶颈期,或者说处于化蛹为蝶的关键之期。这需要我们进一步审视、认真梳理、深入思考,笔者认为首先需要考虑的即是中医药占籍数字化原则问题。

按照《汉语大词典》的解释,“原则”指“说话、行事所依据的准则。”中医药古籍数字化的原则,即是进行中医药古籍数字化时所依据的准则。在有关研究中,学者从不同侧面提出过实用性原则、保真原则、整理原则、标准化原则、共建共享原则等,对古籍数字化产生了积极的促进作用。笔者以为,对于中医药古籍数字化的原则,我们可着重从以下9个方面来进行思考与探讨。

1 保护与利用相结合原则

1.1 解决藏与用的矛盾

保护与利用相结合原则也可称为实用性原则。中医药古籍数字化首先要解决的就是古籍“藏”与“用”的突出矛盾,或者说要在中医药古籍保护与利用这一矛盾中寻求一条合适之路。既能有效地保护古籍原典,努力使其作为文物“永不消失”;又能使古籍的文献价值,即原文图像、全文文本等能为越来越多的用户方便利用。

1.2 充分利用现代信息技术

中医药古籍数字化应充分利用现代信息技术,其所形成的系列产品,如古籍书目库、版本图像库、全文文本库、相关知识库等,不仅要具有数字化的图文存储,还要具备多种支持功能,如基于超链接设计的浏览阅读功能、强大的检索功能、必要的研究辅助工具等,以充分发挥数字化的优势,尽可能适应古籍管理者、专业研究者、一般阅读者等不同类型读者的多种层次需求。

1.3 注意保护古籍原典

在数字化过程中要注意对古籍原典的保护。古籍数字化产品的质量与其所使用的原典或底本是密不可分的,古籍数字化产品取代不了原典。作为数字化的基础,中医药古籍原典具有不可再生性,其中不少是国家珍贵的文物。在数字化过程中,既要防止因缺乏整体规划或操作中考虑不周,对同一部古籍多次进行数字化扫描;也要防止出于某种利益考虑,追求模数转换的效率与效益,从而可能在多个环节造成古籍原典永久性伤害。

2 统一规划与分步实施原则

中医药古籍数字化是中医药古籍保护、中医药文献利用、中医药文化传播的一次根本性的变革,也是一项艰巨而庞大的系统工程。中医药古籍数字化不仅要符合普通占籍数字化的特点与要求,由于其独特价值,其数字化过程还会更加复杂、要求更高。不仅有技术问题,更多的可能是思想认识、组织协调等非技术问题,需要充分认识到其长期性与复杂性。理想的数据库建设不可能一蹴而就,既要做好统一规划、整体设计,又要明确阶段任务、做好分步实施。

2.1 统一规划

这是中医药古籍数字化成功的关键与前提条件。对于全国中医药古籍数字化,笔者以为,可由国家中医药管理局牵头成立全国中医药古籍数字化领导小组,协调相关部门和地方,制定相应政策,协调中医药及相关古籍资源,保障任务落实。同时,成立全国中医药古籍数字化专家委员会,可由中国中医科学院中医药信息研究所等专业机构多方面的相关专家(如中医药、文献、信息技术、图书情报等)组成,负责制定技术方案,提供决策支持,明确任务分工,具体指导数字化建设。可参考全国古籍普查工作,形成长效发展机制与有效实施模式。在安徽中医药大学图书馆新安医学古籍数据库建设中,专家组就发挥了重要的作用。

2.2 分步实施

这是实现中医药古籍数字化的基础与必然要求。中医药古籍数字化既有迫切的要求,又难以在短期内全部实现。为此,必须按照阶段任务,分步实施,保质保量稳步有序推进。例如,先做较简单的书目库,再做初步标引与分类的图像库,然后做进行深度标引与分类的全文本库,最后做相关知识库,并丰富数据库的研究与应用功能等。也可考虑先做基本中医药古籍,再做其他中医药古籍,再做相关古籍等。先易后难,逐步推进,既能较快形成阶段性成果满足当前急需,又可作为后续工作基础,并提供合作经验。建设全国性中医药古籍数据库,还应考虑同一标准与平台下异地同步或分步进行,分工协作,并利于发挥各自优势。

3 共建共享原则

无论是地方性中医药古籍数据库,还是全国性专题数据库,均无法涵盖全面。因为中医药古籍之理法方药及多科内容等往往融合为一体,很难截然分开。同时,由于中医药古籍种类已基本确定(按《中国中医古籍总目》所载,全国150个图书馆、博物馆馆藏的1949年以前出版的中医药图书为13455种,其中有部分不属于古籍;若加上港澳台及流落国外的中医药古籍,估计总种类不会超过此数),使得建立全国性综合性古医籍平台与数据库(可分为若干专题)既十分必要,也完全可行。但由于工作量大、技术要求高、资源分布不同等原因,使之成为一项长期复杂的系统工程,不是单个机构仅凭一己之力就可以胜任的,必须要进行全国性协作,共同参与建设。

资源过少、规模过小的数据库作用很有限,费效比太低,甚至成为摆设、为建库而建设。整合多库后作用大大增强,功能得以丰富与拓展,从而达到一加一大于二的效果。因此,各地区、各系统要统一协作、共同开发、资源共建、成果共享,这样可避免重复开发,节约大量的人力、物力和财力,发挥综合优势,建立起良好的资源和服务保障体系。在共建的基础上,共享包括书目元数据信息、数字文献资源(原文图像、全文文本)、整理与研究成果、检索软件与系统平台等。共享的前提是共建,而共建的基础是统一标准。

4 标准化原则

目前制约占籍数字化发展和资源共享的最大问题就是标准和规范问题。因此,在数据库规划设计之初,就应重视标准化建设。要充分利用已有建设成果,尽可能采用通用或公认的标准规范。中医药古籍数字化建设的协作与协调统一、技术合作,乃至产品质量保障、数据资源共享等,均离不开标准化这一基础。从中医药古籍数字化来看,特别要完善以下5个方面的标准。

4.1 版本选择标准

这是数字化的基础和保障质量的关键。要充分利用古籍普查成果,由专家组进行选择和比较,确定公认的善本做底本,必要时同一种古籍可选择两个乃至多个版本。如,《本草纲目》版本一祖三系,金陵本已入选《世界记忆名录》,江西本、杭州本、合肥本各具特色。又如,中国古代本草著作中流传最广、翻印次数最多的《本草备要》,既有康熙二十二年汪昂还读斋初刻本(由郑金生教授从日本复制回国),又有康熙三十三年汪昂亲自增订后的还读斋刻本。要明确标示版本来源与依据,以便在此基础上做好后续整理等工作。

4.2 元数据著录标准

以元数据为基础进行书目著录,形成相应的检索系统。制定和完善《古籍元数据标准》,以元数据对古籍信息进行描述,可在更大范围内实现数字化产品的互操作及数据共享。2003年底正式启动的中国高等教育文献保障系统(China Academic Librarv&Information System,CALIS)汉语文古籍联机编目系统在这个方面进行了很好的探索,其古籍联合目录系统是CALIS联合目录建设的标志性成果之一,值得借鉴。

4.3 存储标准

4.3.1 汉字存储采用统一的字符已成为业界的共识,在古籍数字化中最常用的、也是较理想的是Unicode字符集。作为计算机科学领域里的一项业界标准,目前,Unicode的最新版本7.O已收入超过十万个字符。通过对古籍汉字中的异体字、通假字、避讳字、冷僻字、讹字等进行规范统一处理,使不同的语言平台之间形成共同的编码系统。

4.3.2 文件格式 目前数字化古籍存储的格式种类繁多,较常见的有doc、html、txt,还有abm、ebk、edb、epub、exe、pdf、pdg、wdl等,难以互相兼容,因此,必须研究建立国家或行业标准,形成统一的文件存储格式,实现数字资源共享。

4.4 系统标准

包括数据库系统可靠性、易用性、存取方便性及系统功能性等方面。必须尽可能采用国际、国内通用的标准,支持多种软硬件平台与操作系统,可构成多层次的数据集成体系,能聚合多个内容对象,对各种不同类型的对象进行灵活组合,并且能兼容多种不同形式的数据结构。要具备可扩展的灵活存储机制和多种发布形式,在确保安全控制的基础上,还应该充分考虑系统的互操作性和开放性。

4.5 标引标准

鉴于中医药古籍在当前中医药临床、教学和科研中的重要作用,通过智能检索、数据挖掘等技术充分揭示其潜在的学术价值,既是中医药古籍数字化的重点,也是发挥计算机与数据库优势之所在。但其前提是确定标引标准,做好数据标引工作。在统一标引方面,中医药领域由于前期工作扎实,形成了独特的优势。

4.5.1 分类标引 由中国中医科学院薛清录教授主编的《中国中医古籍总目》(2007年版)是在1958年《中医图书联合目录》和1991年《全国中医图书联合目录》的基础上,包括中医药高校在内的全国各大图书馆(博物馆)共同参与形成的。其对中医药古籍12大类65个二级类目及若干三级类目的分类体系,充分考虑了现存中医药古籍的实际,为业界所公认,可作为中医药占籍分类标引之标准。同时,考虑到《中国图书馆分类法》是我国图书情报单位普遍使用的一部综合性的分类法,为更多的人所熟悉,并可有效接轨现代医学乃至现代科学,故可以之作为辅助分类标引标准,并存互用。

4.5.2 主题标引 由中国中医科学院吴兰成教授主编的《中国中医药学主题词表》(2008年版)是在1987年《中医药学主题词表》和1996年《中国中医药学主题词表》基础上形成的,为国内外第一部被中医药学及医学信息界广泛采用的专业主题词表,以其科学性、适用性以及与《医学主题词表》(MeSH)的兼容性获得好评,可作为中医药古籍主题标引的标准。同时,考虑到MeSH词表是美国国立医学图书馆编制的目前最权威最常用的标准医学主题词表,为便于与现代医学接轨,故可以之作为辅助主题标引标准,并存互用。

此外,中医药古籍还有一些特殊的标引方法,如理法方药、古籍图像标识等,也要加强研究并逐步规范。

5 可持续发展原则

中医药古籍数字化建设,尤其是数据库的完善与深度开发,是一个长期的过程。对于这样一个功在当代、嘉惠后世的文化工程,必须贯彻可持续发展原则,这也是科学发展观的重要内容和基本要求。

5.1 政府主导

中医药古籍数字化既是一项重要的文化工程,也是文化、教育、卫生、科学研究等多方面受益的公益事业。其建设模式最好是国家行为,应由政府主导,制定政策、投入经费、协调各方,实行宏观管理,为其高效实施、有效运行与长远发展提供根本保障。

5.2 多方主体合作

在政府主导下,中医药古籍数字化建设各相关利益主体之间通过互利互惠、促进共同发展的机制与制度建设,结为长期战略合作伙伴,共同推进古籍数字化工程的可持续发展。即以图书馆为主体的文献部门提供文献资源,中医药教学科研与临床及文献研究机构提供内容专家,信息技术公司提供技术专家,共同组织成立一个中医药古籍数字化联合体,联合协作开发数字化产品,重点实施中医药古籍数字化公益性项目建设。这个多元化主体之间隐含了古籍数字化工作的三种性质,既具有古籍保护的公益性质,又有古籍学术利用的研究性质,还具有古籍资源开发的商业性质。

5.3 引入市场机制

在上述学界与业界各方联合开发中医药数字化主产品的同时,利用联合体的自身优势,引入市场化运作机制,加大商品化的古籍数字化衍生产品开发,即进行适度商业化,这样可为古籍数字化带来较大的赢利空间,促使数字化建设走上良性发展的道路,从而充分调动各方工作积极性,为持续发展提供更多的动力。

5.4 加强境外合作

近年来古籍数字化国际合作项目逐步增多,古籍数字信息的回流,进一步充实了文献资源量,特别是给古籍数字化工作带来了先进的技术、超前的理念与丰富的管理经验,同时也扩大了包括中医药在内的中国传统优秀文化的国际影响。通过与港澳台地区,日韩、欧美等国的跨境与跨行业合作,以我们的资源优势,与境外的技术优势与管理经验形成优势互补,对古籍数字化将起到重要的促进作用。当然,在合作中要注意文献资源和知识产权的保护。

5.5 版权保护

中医药占籍数字化产品不同于一般图书的数字出版,不仅要考虑中医药古籍学术价值的发掘、中医药古籍的普及推广、中医药文化的传播,同时还要认真考虑开发的成本和开发者的积极性,毕竟这些数字化产品是大批工作人员对古籍进行筛选、著录、扫描、录入、校勘、整理等一系列艰苦工作的成果。2012年9月中华书局诉某公司“二十五史”侵权案获法院支持,对古籍整理作品的著作权保护具有积极意义。2014年10月中央电视台新闻联播节目又播出了某网络文库侵权案。这表明政府加大了对数字化中医药古籍市场的监管力度,版权保护越来越受到重视,从法律上保证了中医药古籍数字化事业的顺利开展。

5.6 应用推广与日常运维

要加强对古籍数字化产品的宣传推广,不仅是衍生产品的商业推广,更需要由联合主体各方分别着重面对三类重点读者(用户),即大众用户、专门读者、专业研究者提供使用或试用。这一工作可与专业数字图书馆推广工程密切结合,与医疗(临床)工作、卫生事业及信息化工作相结合。同时,要成立常设的专门机构,负责数字系统与平台持续稳定运行与维护,及时解决日常使用中的各种问题,并注意收集反馈意见,经专家组研究后及时或定期修改完善数据库。

6 保真原则

古籍数字化从本质上说就是对古籍的一种整理,只不过是整理的手段、成果的形式与传统有别而已,必须遵循古籍整理的基本原则。中医药古籍不仅具有文献学术价值,还具有历史文物价值,因此在数字化过程中除了进行再生性保护,还应注重对其进行原生性保护,这就要求在进行再生性保护的“复制转移”过程中必须努力保持其原貌,此即保真原则。这一原则要求在对古籍进行图像处理时,除载体外应完整保留全部信息,使数字化产品在版本特征、刊印形式等方面保持与原典的一致性。同时,对载体也需作详细描述与全面记录,从而使数字化中医药古籍产品具有重现作为历史文物的古籍原貌的功能,其原文图像可以满足版本研究、文字校勘、书史研究、文物鉴赏、原件对照等特殊需要。

7 整理原则

7.1 整理的必要性

保真原则重在保持古籍作为历史文物的原貌,整理原则则重在发掘古籍的文献学术价值。古籍的数字化并不只是对其进行扫描并存储在计算机中供浏览就可以了。数字化的中医药古籍应该经过认真整理,成为现有较好乃至最好的版本,否则就会造成谬种流传,贻误后世,这对中医药古籍尤为重要。一方面,中医药古籍是蕴含了中华民族几千年来防病治病宝贵经验的知识宝库,需要学者去研究开发;另一方面,中医药直接关系人的生命与健康,倘若古籍中的医理、药物等文字出现错误,并且以讹传讹,将对百姓健康带来严重危害。同时,通过对中医药古籍的文献整理,结合现代信息技术进行学术价值发掘,正是中医药古籍数字化巨大价值与优势所在。

7.2 文字整理

由于时间久远或保护不善而导致古籍残缺或部分文字模糊不清,由于在抄录、重刻等流传过程中产生的文字讹误(谚日:书三写,鱼成鲁,虚成虎),由于少数书坊粗制滥造或个别不良书商有意作伪等,都导致古籍需要通过校勘、辑佚等方法进行整理,补其残缺,纠其错讹,从而去伪存真,正本清源。

7.3 内容整理

除对文字(含图像)本身进行整理外,还应重视中医药古籍文字背后的内容问题。

7.3.1 古今文字理解问题 由于古今文字差异,可能导致文义(医理)理解问题。如《素问·四气调神大论》“道者,圣人行之,愚者佩之。”对其中“佩”字的注释,杨上善、王冰、张介宾、张志聪四位大家皆有“望文生义之错”。胡澍《内经素问校义》以汉学考据之法,达其训诂,穷其声韵,以为“佩”、“倍”古音同声而通用,成为训诂之公论而传诸后学。

7.3.2 医家认识与时代局限问题 由于医家个人认识与所处时代局限,中医药古籍中不免有些不当或与现代认识不符的内容,甚至有些具有某种迷信色彩。如孙一奎所撰《赤水玄珠》30卷,博采群书,结合已验,见解独到,无论对理论研究还是临床实践都具有较高参考价值。但正如《四库提要》所云:“惟第十卷怯损劳瘵门,附方外还丹,专讲以人补人采炼之法,殊非正道。盖一奎以医术游公卿间,不免以是投其所好。遂为全书之大瑕,是足惜耳。”

7.3.3 今人自己产生的问题 原本无问题,今人自己逐步产生的问题。如《清史稿》有专传且明确记载为安徽人的三位医家,自上世纪80年代以来,其中的周学海、余霖两位分别被大多数文献认定为浙江人、江苏人。

以上这些问题就需要通过注释、标点、语译等方法进行整理,必要时增加导读,从而去粗取精,古为今用。

7.4 整理属于再创作

古籍整理不仅是利用的基础与前提,而且在某种程度上是一种再创作。其实不少中医药古籍正是通过诸如校订、注释、编纂、评注等方式形成的,如《黄帝内经素问吴注》《伤寒论条辨》等,这也从另一侧面说明古籍整理作品是具有版权的。当然,古籍整理是个复杂的、见仁见智的问题。对于数字化的古籍文本,还应有原版图像以便对照使用。

8 图文对照原则

8.1 保真与整理的统一

保真和整理分别侧重于从古籍作为文物和文献两方面对于数字化提出的要求,或者说是从形式与内容两方面提出的要求。在实际工作中他们是统一的,相辅相成的。从工作内容上看,一方面,保真形成的原文图形版可以进行适当的整理加工,如添加检索工具和辅助阅读工具,这正是数字化古籍的优势。另一方面,整理形成的数字文本版追求的是内容上的保真。如补其残缺模糊字、改正讹字、恢复避讳字、整理异体字等。从工作程序上看,古籍扫描形成原文图形版(保真)为整理的基础,整理形成的数字文本版是对保真的进一步完善、补充。

8.2 图文对照

保真与整理统一的原则要求数字化古籍应在原文图形版和数字文本版之间建立紧密的联系,即实现图文关联,使文本显示和图形显示能够方便地切换,以便随时对两个版本进行对照使用。

8.2.1 原文图像版 中医药占籍扫描形成的原文图像既能保持古籍的“原貌”,内容又不会错讹,而且录入也方便省力。原貌原图的采集及相应的版本扫描等可以最大程度地实现中医药古籍形式上的完全保真。

8.2.2 数字文本版 整理后录入的数字文本版不仅内容更加真实可靠,而且可发挥原文图像版所不具备的独特优势和功能,如全文检索、内容挖掘、深度标引、辅助阅读、统计等。当然,数字文本版永远不可能完全代替原文图像版,正如后者不能取代古籍原典一样。通过图文对照,可以达到古籍原貌保护和文本充分利用的双重目的。

9 技术服务于内容原则

古籍数字化从本质上属于古籍整理和学术研究范畴,以校勘、标点、注释、今译、辑佚等为手段,综合运用版本、目录、校勘、文字、音韵、训诂、考古等多种专业知识对古籍进行整理加工。数字化技术是其形式,是古籍整理的工具与手段,古籍内容本身才是本质和核心。就中医药古籍来说,古籍不仅是文物、文化遗产和历史文献,而且具有很高的学术价值,这就需要对其学术内涵进行深入挖掘。只有充分熟悉古籍内容的专家才有能力决定古籍数字化的基本思路和总体构架。因此,在整个数字化过程中,必须以中医药相关领域的学者(中医药教学、科研、临床及文献研究专家)即内容专家为主导,因为他们不仅对古籍内容整理最有发言权,而且还是古籍数字化产品的重点用户。主要由内容专家来决定数字化的内容、标引的深度、相关检索工具的配置等。在这一过程中,还需要认真听取图书情报信息专家意见,并与数字化技术专家深入沟通。三类专家充分交流,反复论证,最终形成实施技术方案。

在中医药古籍数字化的内容与技术问题权衡上,要明确技术是为方便利用而服务于内容的。我们既要避免过高估计和过分依赖计算机在古籍整理和研究领域的作用,又要注意技术优势的充分发挥。在学术研究中,电脑和人工智能无论如何先进,都只能是一种辅助工具,而不能替代学术本身。对中医药古籍进行数字化,无疑有助于消除信息鸿沟(即通过网络提供的广泛且方便的利用机会,消除使用者获取信息方面的差距),但也要防止学术异化及技术伪装学问。

10 小结

以上诸原则中,从总体看,保护与利用相结合原则、统一规划与分步实施原则、共建共享原则、可持续发展原则等可属宏观原则,为数字化前期所重点考虑,其中保护与利用相结合原则对于中医药古籍数字化尤为重要。保真原则、整理原则、图文对照原则等可属微观原则,为数据库建设的前期基础工作。标准化原则、技术服务于内容原则介于宏观、微观之间,贯穿于数字化建设始终。

猜你喜欢
原则数字化思考
十二星座的做事原则
揭示数字化转型的内在逻辑
数字化起舞
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
少儿图书馆小志愿者工作的意义和思考
浅论高中化学生活化教学的实践与思考
“语用”环境下对古诗词教学再思考
惹人喜爱的原则(二)
惹人喜爱的原则