李美
[摘 要]通过分析政府在古籍保护工作中的作用与成效,提出古籍数字化建设工作应该采取政府主导、企业辅助的模式,并指出该模式能够发挥政府在文字识别规则、字体转换标准、产品统一规格、产品审校验收等方面的作用。
[关键词]古籍数字化;政府作用
[中图分类号]G255.1[文献标志码]A[文章编号]1005-6041(2023)05-0022-05
1 引 言
2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》[1](以下简称《意见》),分别从总体要求、工作体系、工作质量、转化利用、工作保障等方面对新时代古籍工作进行全面部署。开展古籍数字化建设工作是顺应时代潮流发展和提高传统文化利用的重要举措,但这容易让公众产生误解:一方面,对古籍的基本保护期望值很高,认为如果能够把珍善本古籍按照要求进行相对应的数字化处理,使其成果可以通过各种终端设备(电脑、平板、手机等)方便阅读和使用,原始古籍就已经完成全部开发利用工作;另一方面,对已经进行数字化处理的古籍在利用方面的期望值很高,认为只要对古籍进行了数字化,就可以实现古籍的海量储存与共享、便捷查询与检索、传输快速与方便、链接跨时与跨空等良好局面[2]。如果仅仅是从理论上来分析,对古籍进行数字化确实可以实现这些优点,而这也正是传统古籍在检索、阅览与利用过程中所不能实现的功能。
虽然古籍数字化建设工作受到越来越多的关注,但是要达到高水平和高利用的发展状态还需要较长时间。当前,古籍数字化建设工作还是保持政府作用为主导、企业作用为辅助的模式,有关部门应在古籍数字化建设工作中统筹规划、有序组织、稳步推进、突出特色,并将其纳入文化主管部门的统一规划和基本建设任务之中,从而有效推动古籍数字化建设工作进程[3]。
2 古籍保护与数字化建设工作的政府作用成效分析
古籍保护与数字化建设工作,主要牵涉组织规划、经费投入以及营销利用等基本建设工作层面。长期以来,全国各古籍保护单位在古籍保护和数字化建设工作上取得了一定的成效,也拥有不少纸质和数字化古籍产品,这既是各古籍收藏与整理保护单位的主动作为,也得益于那些专门从事古籍保护、加工、营销的企业或公司所开展的企业行为。对于古籍整理保护和数字化建设工作來说,有关单位能够主动把自己的特色古籍馆藏进行整理保护和数字化,这样的行为无疑是一种积极主动、敢于担当的创举。接下来,笔者通过分析政府在古籍保护建设工作中的作用,进而分析政府在古籍数字化建设工作中的作用。
2.1 政府在古籍保护建设工作中的作用分析
当前,古籍保护建设工作已经取得良好的成效,而建设国家级和省市级古籍保护中心就是一种比较常见的组织形式与工作模式,也正是这样的方式使全国和各省市在古籍保护建设工作在组织和推进方面的成果有目共睹。
在国家级古籍保护建设层面:2005—2007年,国家古籍保护中心正式挂牌成立。该中心负责《中华古籍保护计划》的统筹规划、组织实施、标准研制等具体工作事宜,先后起草出台并获得原文化部颁布实施五项行业标准,即《古籍定级标准》《古籍特藏破损定级标准》《图书馆古籍特藏书库基本要求》《古籍修复技术规范与质量要求》《古籍普查规范》。同时,制订行业从业人员基本任职资格,即《图书馆古籍修复人员任职资格》。这些行业标准和任职资格是开展《中华古籍保护计划》的基本前提和坚实基础。该中心先后组织和完成六批次《国家珍贵古籍名录》的申报与评审工作,共有13 026部古籍入选,189家单位入选全国古籍重点保护单位。总之,国家古籍保护中心自成立以来,成绩突出、工作出色、组织有效、影响深远。
在省市级古籍保护建设层面:以广西壮族自治区为例,广西古籍保护中心于2008年正式成立。该中心先后组织广西各古籍收藏整理保护单位积极参与第一至第六批《国家珍贵古籍名录》和第一至第四批《广西壮族自治区珍贵古籍名录》的申报与评审工作。目前,广西共有84部珍贵古籍先后入选第一至第六批《国家珍贵古籍名录》,广西壮族自治区图书馆、广西师范大学图书馆、广西壮族自治区桂林图书馆、柳州市图书馆入选全国古籍重点保护单位。此外,结合广西实际,广西古籍保护中心组织制订了《“广西古籍重点保护单位”申报评定暂行办法》和《广西壮族自治区珍贵古籍名录申报评审暂行办法》,并启动自治区级珍贵古籍名录和古籍重点保护单位的专家评审工作,全区共有372部古籍入选第一批至第三批《广西珍贵古籍名录》(作者注:第四批尚未公布结果),广西壮族自治区图书馆、广西师范大学图书馆、广西壮族自治区桂林图书馆、柳州市图书馆、广西壮族自治区博物馆、广西壮族自治区少数民族古籍办公室列为广西古籍重点保护单位,广西壮族自治区图书馆、广西师范大学图书馆、广西壮族自治区桂林图书馆和广西壮族自治区博物馆定为自治区级古籍修复中心。总之,广西古籍保护中心通过开展这一系列的申报与评审工作,在推动广西古籍收藏与整理保护单位对古籍保护工作的重视、帮助各古籍收藏与整理保护单位改善古籍保护条件、建立完备的珍贵古籍档案和提高古籍保护工作水平等方面起到了重要作用。
因此,从国家级和省市级古籍保护中心成立以来所取得的建设工作成效来分析,整体加强和切实提高古籍保护工作效果的方式就是建设国家级和省市级古籍保护中心,必要时还可以成立地市级古籍保护部门,有利于形成以政府为主体、企业为辅助的模式。
2.2 政府在古籍数字化建设工作中的作用分析
如上文所述,古籍保护建设工作采用政府主导、企业辅助模式开展工作以来已经取得良好工作成效,而对古籍数字化建设工作来说,如果参照《意见》,该项工作应该也能够效仿这样的模式有序开展,其良好工作成效可以体现在建设经费、加工技术、人员配备等方面。例如,在国家级古籍数字化工作层面,可以在国家古籍保护中心基础上另外成立国家古籍数字化中心或者补充与增加数字化建设工作职责,新中心可以作为并列二级机构或组织,也可以作为下属分支机构,其基本职责就是负责全国古籍数字化建设工作的统筹规划、组织实施、标准研制等工作事宜,具体包括经费落实、标准制订、版本遴选、审核校勘、成果营销等,当然这些工作都应该在国家图书馆的统一领导下。在省市级古籍数字化工作层面,可以在省市图书馆成立省市级古籍数字化中心,其职责就是负责本省市的古籍数字化建设工作。
首先,古籍数字化中心能够保证各种建设经费的落实。古籍数字化工作是技术含量比较高的专业工作,其薄利性与烦琐性会使单纯的企业行为暴露出很多缺陷与不足,而采取政府行为不仅可以获得稳定的建设经费,而且能够从制度与协作方面保证开展古籍数字化工作所需的软件研发和成果推介,从而实现社会资源共享和提升科学研究水平。例如,中华再造善本工程由财政部、原文化部共同主持、统筹规划,并通过国家图书馆具体组织和实施完成。该工程既能够实现保护珍贵古籍文献的初衷,又有利于盘活和利用珍贵古籍文献,传承和发扬中华优秀传统文化。
其次,这种模式可以保证采用统一的古籍数字化加工技术。目前,在加工处理古籍数字资源工作中所使用的数据编码技术、数据语言与数据格式、信息存储与资源读写等技术方面都已经比较成熟,对古籍进行数字化所需要的相关技术已经不再成为难题,困难在于如何在古籍数字化工作中采用统一的技术组织与系统规划、总体规模与项目管理等问题。对此,采用政府主导、企业辅助的模式才有可能确保在古籍数字化建设中采用统一的技术标准。
再次,这种模式可以保证开展古籍数字化建设工作所需要的各类专业技术人员配备。一般来说,政府比较注重社会效益和长远利益,而企业更注重经济效益和当前利益,因此,政府行为可以从全局观念、长远规划、人才引进以及人员培养等方面提供帮助和支持,从而能够从制度保障方面进行各类专业技术人员的配备与补充。
因此,古籍数字化建设工作如果能够采取政府主导、企业辅助的模式是比较理想的,该模式可以有效保证古籍数字化工作所需要的建设经费、加工技术和人员配备等关键环节,而切实、有效、可行的办法就是建设国家级和省市级古籍数字化中心,并由他们具体负责全国和各省市的古籍数字化建设工作。
3 政府在古籍数字化建设工作中的作用体现
一般来说,古籍数字化建设工作的成果就是古籍数字化产品,他们应当具有一定的基本特征,而正如北京大学教授李国新所说,完善的古籍数字化产品必须保证具备四项基本功能,即:“第一是必须实现文本字符的数字化;第二是具有基于超链接的浏览阅读环境;第三是具有强大的检索功能;第四是具有研究支持功能。”[4]因此,古籍数字化产品要具备四项基本功能是古籍数字化建设工作的基本要求。具体来说,通过对古籍文献进行技术处理,使其满足数字化条件,从而准确地将其中的文本字符数字化。在这个过程中,文本字符的精准识别和数字产品的最终质量是关键。要顺利实现这些目标,需要加强政府在文字识别规则、不同字体间相互转换标准、产品统一规格等的制订与实施以及产品质量的审校验收方面发挥的作用。
3.1 政府能够保证文字识别规则的制订与实施
从当前古籍数字化建设工作的具体情况来分析,有一项技术问题还需要不断改进和完善,即还有大量古籍无法使用扫描仪或照相机来完成文字识别工作,这样的情况主要出现在古籍文献的稿本、写本和手抄本等各种特殊载体形式上,通常采用人工干预的办法才能顺利完成。对此,有必要由政府制订统一的文字识别规则,并对外公布实施。
在古籍数字化建设工作实践中,尽管扫描设备、存储条件、字符技术等基本条件都比较成熟,然而对于异体字的处理依然存在着欠缺,有时还只能人工造字(或符号)。虽然人工造字(或符号)可以基本解决异体字的处理问题,但这也直接影响了文字识别的通用性,因此只有解决好这个问题,才能完全实现古籍数字化的基本需求。在古籍特别是少数民族古籍中,异体字是比较常见的,其形式主要有四种:“第一是为了某种原因而使用的避讳字;第二是由于习惯而使用的异体字;第三是少数民族所使用的民族文字;第四是在各种手抄本中的草体字。”这些异体字对古籍数字化工作中的转换和检索产生了一定的影响。为了实现精确的数字化,需要使用照相机或扫描仪进行相应操作而得到特定的图像文件。如果连常用的特定工具都不能很好完成工作任务时,只能通过人工编码软件进行人工造字。而这些通过特殊方式才能获得的图像文件或人工造字却经常无法直接检索与利用,一定程度上影响用户对古籍数字化产品的正常使用。
因此,对这些古籍进行文字识别需要遵循一定的规则和标准,主要内容包括准确率、精确率、召回率和F1得分等,而只有政府组织起草、征询、完善、推行的规则和标准才能在权威性与执行力上获得保障。
3.2 政府能够保证不同字体间相互转换标准的制订与实施
在古籍数字化产品中,要想使异体字都具备通用性字符的功能,就必须针对异体字建立一个相对完备的字符库。这个字符库要考虑到不同字体间的相互转换问题,因此有必要由政府部門制订一个转换标准,并对外公布实施。
不同字体间相互转换在古籍中是常见现象,其形式也比较多。比较常见的有:1)简体字与繁体字的转换,如“义/義”“简/簡”“体/體”;2)正字与讹(伪)字的转换,如“派/泒”“久/乆”“犮/叐”;3)正体字与异体字的转换,如“兔/兎”“修/俢”“刃/刄”;4)古字体与今字体的转换,如“镸/長/长”;5)通假字与被通假字的转换,如“詳/佯”;6)生造字与正体字的转换,如“曌/照”“国/國”;7)异体字与正体字的转换,如“夘央/鸳鸯”;8)形近异义字与正体字的转换,如“諫/諌”“义/叉”“刺/剌”;9)新字形与旧字形的兼容和转换,如“説/說”“青/靑”“媪/媼”;10)避讳字与正体字的转换,如“胤/[XC胤.TIF]”“弘/[XC弘.TIF]”“玄/[XC玄.TIF]”。除了这10种类型的字体,另外还有一些俗字和俚语。如果需要对这些异体字进行数字化处理时,就要通过特定的Unicode编码系统构造一个字模来解决这些字符间转换的问题。
因此,对古籍进行不同字体间相互转换同样需要遵循一套由政府制订与实施的规则和标准。
3.3 政府能够保证古籍数字化产品规格统一
当前,古籍数字化产品做得比较好并得到广大用户认可的典型代表有《中华基本古籍库》《四库全书》(电子版)、《国学宝典》《永乐大典》等。这些古籍都有一个非常明显的共同之处,就是其中很少收录有诸如写本、抄本等类型的文献,其根本原因就在于受写本、抄本中异体字数字化程度的限制,如果只是依靠扫描和拍照进行文字识别,其识别率就会非常低,其准确率、保全率也低于人工录入的文字,远远达不到所需要的预期目标。
通常,在古籍数字化产品如数据库中比较容易出现一些错别字,如果用户正好选择含有这些错别字的检索词,就会收到系统给出无法匹配或命中的提示,如常常出现把“才能”转换成“材能”、把“闯贼”转换成“闯赋”、把“终于”转换成“终於”等,一般都是由于文字转换后没有仔细校勘或者没有能力校勘才会出现这样的状况。因此,有些相对严谨的古籍研究者或爱好者不敢完全相信古籍数字化产品的真实性和权威性,而是通过核对原文进行细致比对并确认无误后才会放心阅读和使用,这正是古籍数字化产品的不足之处。正如陈力所认为:“由于古籍传抄、刊刻的情况千差万别,因此在古籍中不仅有正字与异体字、正字与俗字的问题,还有由于各人审美观念不同或者因抄写刊刻的习惯而随意改变汉字笔划的位置、形状造成的异形字。而在进行古籍数字化转换时,操作人员限于水平,不能识别古籍中的异形字,不得不‘依样画葫芦,生造出一些新字。由于每一个汉字都有一个对应的编码,如果将异形字都当作不同的汉字,其结果就是大量生造Unicode表外字,不仅增加了录入的工作量,更重要的是将对检索和资源共享等产生重大的影响,因为使用者在检索时并不清楚某部书中某字的具体写法(甚至一部书中同样的字也有许多种变体),因此实际上无法进行检索或者出现大量漏检。”[5]
实际上,许多公共图书馆和企业都在开展古籍数字化工作,这就使得不同古籍收藏整理保护单位所形成的古籍数字化资源成果质量参差不齐,规格互不统一,导致通用性大大降低。对用户来说,不能同时融合和利用不同单位的古籍数字化产品在一定程度上影响到他们利用古籍数字化产品的积极性,甚至会放弃数字化资源转而去寻找纸质文献,出现这样的现象并不符合我们进行古籍数字化的初衷。
因此,对古籍进行数字化处理需要保证古籍数字化产品统一规格,而要想实现这样的结果,就必须制订数字化工作的相关标准严格遵守与实施。面对这样严密的工作组织和工作程序,只有政府才能组织各古籍收藏整理保护单位中更多古籍专业技术人员参与到古籍数字化工作体系建设之中来。古籍专业技术人员对古籍数字化工作保持较高的积极性是古籍数字化产品规格统一、质量良好的保证,这也是许多开展相关工作的企业难以实现的。
3.4 [JP3]政府能够保证古籍数字化产品质量的审校与验收
在古籍数字化产品市场领域中,不同的产品其质量和功能都可能存在着很大的区别。以当前使用比较广泛的两个古籍数字化产品《国学宝典数据库》和《中国基本古籍库》为例:《国学宝典数据库》是中国知网(CNKI)组织建立起来的专业古籍数字化产品,该数据库的基本数据格式有“DBF文件”(即数据库,可以包含文字及各种相关标示)、“TXT文本”“ATM文件(即网页,可以包含文字、图片、声音等)”等,为用户提供基本操作功能包括根据需要可以直接进行打印、复制和粘贴;《中国基本古籍库》是由文化和旅游部主办、国家图书馆承办,主要对中国基本古籍文献进行数字化处理的一项宏伟工程,其数据库基本格式为“ABT数据”,为用户提供的功能是可以通过圈点进行文字复制,但是不可以直接在数字化产品中进行复制、粘贴、打印等基本操作。因此,这两个数据库各有优势,《中国基本古籍库》的编辑功能虽然比较麻烦,但是其总体文献数量和数字化产品质量比较令人满意;而《国学宝典数据库》的文献编辑功能虽然比较灵活方便,但是其文献数量和数字化产品质量却不如前者。这样的现象涉及古籍数字化产品质量的审校与验收。
在古籍数字化产品市场中,数据库类产品比较丰富,但是彼此的数据格式却不尽相同。各古籍保护单位为了充实自身馆藏建设常常有针对性地购买多个古籍数据库,而对广大用户来说,要想正常使用这些不同数据库就不得不安装各种对应的专用阅读器或浏览器,这无形中增加了读者用户使用数字化产品的难度,其根本原因是古籍数字化产品质量标准的不统一。古籍数字化产品由于文件格式不同,其通用性能相对比较差,这在一定程度上影响了用户对古籍数字化产品的使用。对于专职从事古籍数字化业务的企业来说,为追求经济利益需要加快产品开发工作,他们通常只注重对相关古籍进行数字化处理,却不重视甚至没有文献校勘的流程環节,而这也正是导致古籍数字化产品问题频出的一个重要因素。要想切实提高古籍数字化产品的质量,必须由古籍整理专家或专业技术人员对所有数字化内容进行认真细致的审校、评估,确保质量合格后方能通过验收。
因此,政府要制订古籍数字化产品质量审校与验收的统一标准或者基本规则。这些标准和规则可以首先在部分企业内试行与执行,待条件成熟时再向其他古籍保护单位进行推广和落实,这样才能从根本上统一古籍数字化的数据加工格式,进而保证古籍数字化产品质量。另外,在古籍数字化工作实践中,那些不是由自己加工而是委托外企业如专业扫描公司进行相关数字化处理工作的古籍,其总体损毁情况与程度都相对严重,原因是这些古籍并不是属于企业,其对古籍的保护缺乏责任心,反而更重视工作进度。由政府开展古籍数字化产品的审校与验收工作,可以在一定程度上对古籍源文献进行保护。
4 结 语
从《意见》的角度出发,古籍数字化是更高级别的古籍保护,也更能适应现代社会的发展,但实际上许多古籍保护单位所开展的古籍数字化建设工作成效并不理想,一些古籍数字化产品的经济效益和社会效益都不高[6]。既然古籍保护工作在政府主导、企业辅助的工作模式下已经取得良好的工作成效,那么古籍数字化建设工作也可以采用这样的模式,通过加强政府职能作用形成统一规划、有序组织、稳步推进的共同行动方案,组织古籍收藏整理保护单位认真研究相关经济文化政策来指导具体的工作任务,充分发挥国家政策和部门职能作用,积极寻求经费倾斜和项目支持机会。总而言之,就是要把古籍保护的政策方针、制度建设、宣传机制、人员调配等认真贯彻和落实到实践中去,实现古籍数字化建设推动优秀传统文化保护与利用朝着正确的方向稳步发展。
[参考文献]
[1]中共中央办公厅 国务院办公厅印发《关于推进新时代古籍工作的意见》[EB/OL].[2023-07-16].https:∥www.gov.cn/zhengce/2022-04/11/content_5684555.htm.
[2]陈力.中文古籍数字化的再思考[J].国家图书馆学刊,2006(2):4249.
[3]黄水清,王晓光,夏翠娟,等.推进新时代古籍工作,加快创新智能化发展[J].农业图书情报学报,2022,34(5):420.
[4]李国新.中国古籍资源数字化的进展与任务[J].大学图书馆学报,2002(1):2126,4191.
[5]陈力.中文古籍数字化方法之检讨[J].国家图书馆学刊,2005(3):1116.
[6]刘春金,吕瑛,王劲松,等.中文古籍数字化现状分析[J].江西图书馆学刊,2008(2):112113,126.
[收稿日期]2023-07-16
[作者简介]李 美(1970—),女,硕士,讲师,广西民族大学图书馆。
[说 明]本文系2018年国家社会科学基金西部项目“‘一带一路中国—东盟传统医药文献资源战略保障体系研究”(项目编号:18XTQ002)的研究成果。