新技术背景下古籍数字化建设优化策略研究

2023-11-14 02:21严令耕
江苏科技信息 2023年26期
关键词:古籍数字化用户

严令耕

(南京中医药大学 图书馆,江苏 南京 210023)

0 引言

目前,古籍数字化迎来了新的技术革命时代,从起初的影像照片、图文对照等形式发展到智能化、网络化,以实现古籍资源的共建共享。美国于2014年颁布《文化遗产资料数字化技术指南》,从不同种类文化遗产资料的数字化规则、文件格式、元数据等方面全面制定数字化工作指南[1]。国际档案理事会于2016年呼吁全球档案机构利用虚拟现实技术,立体化、动态化地呈现数字资源和特色馆藏,方便公众在线访问[2-3]。加拿大于2020年提出要促进文化服务数字转型[4]。我国也有相应规定,“十三五”时期要求借助高新技术,促进古籍数字化资源共享和利用[5];2023年提出要利用智能化技术推动古籍数字化利用转型升级,打造公共文化数字资源库群[6-7]。可见,新技术为古籍数字化赋予新的活力,促使古籍数字化向智能化转变,应思考新技术背景下古籍数字化如何进行建设,从而让更多的古籍资源被利用,顺应时代发展的需求。

1 国内外相关研究

1.1 古籍数字化

我国古籍数字化的概念最早由刘炜[8]于1997年提出,主要工作是将古籍资源通过扫描写入光盘。经过多年发展,古籍数字化已成为古籍保护和利用的共识,对古籍数字化的定义主要从静态、动态两个维度出发。静态维度上就是制成古籍数据库[9]。乔红霞[10]认为古籍数字化是利用数据库技术、光盘存储技术等将纸质文献转化为数字化。动态维度上,刘琳等[11]认为古籍数字化是将古籍文字符号输入计算机,实现存储、传输、检索等功能。段泽勇等[12]认为古籍数字化是将文字转化成数字符号的过程。目前,通用的定义认为,古籍数字化是通过计算机技术将古籍中的要素制成数据库[13],包括制定古籍著录的数字化标准,建立资源载体,并向用户开放,方便使用[14]。

我国在古籍资源方面有独特的优势,与其他国家相比,具有储藏量大、文化底蕴深厚、用户群体广等突出特征,其数字化必将走在世界前列。需要利用古籍数字化这个契机,把握储藏量大和需求量多的特色化优势,完成向网络化、智能化的过渡。

1.2 文献回顾

国内外古籍数字化研究集中于以下2个方面:(1)新技术对古籍数字化的影响。日本正明柏村[15]于1999年提出使用图像处理技术修复古籍扫描件;耿洪旭[16]探究OCR等人工智能技术用于渔鸥古籍数字化建设。(2)古籍数字化建设案例研究。美国最早于1978年编制了《朱熹大学》等数字化目录[17];之后英国图书馆也计划进行馆藏文献数字化[18];国内爱如生公司开发了出版史学等数据库。

古籍数字化在使用新技术的同时,也暴露了不少问题,如古籍数字化缺乏统一标准,知识产权保护不力,产品质量参差不齐等[19]。究其原因,与古籍数字化建设过程相关,需要从宏观和微观方面做好布局,协调发展。

2 我国古籍数字化建设历程分析

笔者通过检索中国知网、维普、万方等数据平台,以“古籍”“典籍”“数字化”“数据库”等进行主题词检索,时间设定为2000年1月1日至2022年6月30日,共得到相关文献941种;其中,期刊论文621篇,博硕论文148篇,会议论文45篇,报纸文献16篇,成果文献35篇。因此,认为目前古籍数字化分为3个阶段。

第一个阶段为“十三五”前的初创摸索期(1970—2014年):自20世纪70年代末,美国和中国学者相继将计算机技术运用于古籍数字化。1995年开始探讨了字符集、语料库、OCR 识别、自动校勘等古籍数字化技术。1999 年开始探讨元数据、C语言等的相关技术问题,并利用中文信息处理技术出版了《文渊阁四库全书》电子书。这段时间还出版发行了其他一些古籍数字化影像书籍,但古籍数字化的理论和技术还处于不断完善之中。

第二个阶段为“十三五”建设发展期(2015—2020年):“十三五”时期,古籍数字化坚持依法保护和科学保护。这段时间,DCT 和 DWT 域水印算法[20]、图像检索技术[21]、地理信息系统技术[22]等新型技术陆续与古籍数字化融合,如表1所示。产生一批珍贵古籍缩微复制和数字化成果,并制定出台一系列数字化专业技术标准,从形式向服务转变。这一时期,无论是古籍数字化的建设和数字化技术研究都有了较大发展。

表1 “十三五”古籍数字化建设要点

第三个阶段为“十四五”完善成熟期(2021年至今):“十四五”规划时期,古籍数字化新技术迭代发展,涌现出自然语言处理等技术[23]和元宇宙、区块链等智能化管理古籍技术[24]。古籍数字化全面共建共享,标准规范体系基本健全,产生知识挖掘、可视化呈现等新技术(见表2)。

表2 “十四五”古籍数字化建设要点

3 古籍数字化建设战略中的关键

3.1 古籍版本问题

版本问题是古籍数字化建设中的核心和灵魂。过去主要关注的是古籍数据库图片是否清晰、文字是否正确,其实这些都取决于择取的底本是否精善。如果选择的版本有问题,后续的努力都是白费。因此古籍版本的鉴定具有权威性,有利于古籍资源的正确利用与传播。在进行古籍数字化建设之前,首先要选用善本作为底本。

3.2 建设原则

3.2.1 有利于古籍的保护和利用

古籍数字化的战略目标是保护古籍资源,并用于科研。大多数单位进行古籍数字化都把古籍保护作为目标,如果工作停留在对资源本体进行整理出版阶段就不能适应时代、技术与政策发展的需要,应该将“保护核心,利用至上”的理念在古籍数字化建设中体现。深入运用现代信息技术,对古籍知识内容进行多维度的组织和再发现,加快古籍的转化应用,梳理和挖掘古籍的精髓,做到致力于解决主要矛盾,才能劲往一处使,使古籍数字化发展的效益最大化。

3.2.2 战略规划与古籍特征的融合

战略规划要能够实现,必须与古籍特征相融合。目前,古籍数字化技术日新月异,国家在“十四五”古籍保护战略规划中出台大量古籍数字化政策。智能技术或国家政策与古籍特征相融合,才能达到保护古籍的目标。武汉大学根据古籍特征,提出进行智慧化技术创造,塑造古籍数字化知识服务体系。

3.2.3 战略定位与古籍服务个性化特征

战略定位与战略任务相辅相成,古籍数字化应根据古籍本体合理定位,制定战略任务。由于古籍数字化的最终目的是方便用户使用,因此要体现服务个性化特征。东南大学研究和设计数字化古籍书库系统,为用户提供个性化服务。古籍数字化与科技的融合程度进一步加深,促进古籍数字化更大发展。人工智能中的深度学习可根据用户的需求、历史行为,主动给用户提供、匹配相关的古籍资源。

3.3 建设步骤与层次

3.3.1 分期建设,由点到面

古籍数字化工程浩大,覆盖面广,不能一蹴而就,必须要按部就班,分期建设,由点到面,循序渐进。优先对善本开展数字化,促进资源共享[25],体现了古籍数字化建设的阶段性,最终形成全面的智能化、网络化目标体系。

3.3.2 优先项的选择

在战略规划中,不同阶段任务不同,因此优先等级也不同。在“十三五”时期,古籍数字化建设重点在于制定技术标准,在“十四五”时期,侧重于古籍数据共享,此时,技术是建设好古籍数字化资源的强大支撑。建设古籍数字化,根本的挑战还是技术性的,二级优先项可以是团队建设、人才培养等,三级优先项主要是一些具体的措施。

4 古籍数字化建设瓶颈分析

4.1 数字有余而用户共享服务赋能不足

古籍数字化的目的在于公众很难接触到古籍原著的情况下,更好地为公众服务。构建以技术为核心的古籍数字化系统,是为了赋能古籍保护和利用,实现基于用户行为和需求的古籍自我优化模式。目前,战略规划中出现的项目仅局限于古籍数字化单位内部的技术建设,如何通过数字化手段促进古籍利用必须作为战略规划的重要任务,否则,古籍数字化建设的成果将是一堆材料和一个没有智能内涵的外壳,无法实现为用户共享服务的目标。

4.2 古籍数字化发展不均衡

古籍数字化的资源、技术和人才分布不均衡。重点古籍收藏单位设备和平台建设相对完善,小型古籍收藏单位甚至没有智能设备,古籍资源也不丰富,专业人才缺乏,没有适合的古籍数字化战略发展规划,严重阻碍古籍收藏单位智能网络系统的建立。

4.3 处理好古籍拥有者和数字化公司的关系

由于古籍的收藏单位是分散的、众多的,而古籍数字化的技术和相关设备投入的成本较高,如果依靠单位或个人自身实力,以及政府的投入还是无法有效推动古籍数字化的发展,因此需要一些有技术实力的数字化公司参与该项工作。古籍拥有方与数字化公司就版权问题要进行协调。数字化开发前期投入大,销售困难,资金回收期长,商业的推广和营销策略跟不上市场的发展,往往收效欠佳,因此应该走社会化协同合作之路,即古籍拥有者和数字化相关单位参与联合共建共享,协作共赢。

4.4 古籍数字化成果知识产权有待保护

古籍数字化成果知识产权保护问题主要出现在数字化过程和用户使用过程中,包括古籍拥有者和数字化加工方的知识产权纠纷、恶意下载、非法传播等。在数字化过程中,大量学者和工作人员参与校勘、句读、扫描等工作,付出的劳动理应得到回报,但盗版侵权损害了他们的权益,影响古籍数字化的工作积极性。主要原因是目前知识产权的法律保护意识比较薄弱,也没有给古籍数字化相应的法律法规。

5 古籍数字化建设的优化策略

5.1 战略重点聚焦以用户共享为中心的服务

古籍数字化的核心在于人,在于在合适的时间、合适的地点以合适的方式向读者提供所需要的古籍资源和服务,知识服务能精准地推送给需要的用户。战略规划除了考虑服务的技术和形式,还要考虑服务的内容和质量,重点聚焦以用户共享为中心,同时考虑用户隐私、技术是否符合用户的需要等。

5.2 统一古籍数字化标准和规范

目前,古籍数字化如火如荼,但缺乏统一标准和规范。各种数据库采用的文本格式、图像格式无法兼容,信息资源共享受阻[26]。针对这种情况,首先要制定古籍数字化标准和规范,包括版本标准、元数据标准等;其次,要求古籍数字化单位遵守古籍数字化标准和规范,促进资源有效整合和共享,提高古籍资源的利用率。

5.3 推动数字化评价体系建设

只有评估古籍数字化的服务能力和智慧,才能衡量新技术赋能古籍数字化的深度和广度,检验古籍数字化的质量和效果。推进古籍数字化,建立科学规范的评价体系,集思广益,听取用户的需求。始终牢记用户的需求对评价古籍数字化的重要性,推动古籍数字化评价体系的标准化、规范化。

5.4 共建共享系统中知识产权保护有待提高

古籍数据库开发种类多样,多由各单位自主开发,难以形成领域内数据和知识的共享,目前只能称之为数据库,还不能称之为知识库,需要依托于大数据技术,形成规范化、系统化的知识网络体系,实现对古籍更为深层次的开发和利用,建立共建共享系统。另外,在共建共享系统中要加强知识产权保护,提高古籍数字化的积极性。

6 结语

古籍数字化开展智能化建设是时代发展的大势所趋,是保障古籍数字化可持续发展的必由之路。文章梳理了古籍数字化建设的发展历程,分析了新技术背景下古籍数字化参与发展规划的重要性,并提出优化策略,今后还需要古籍数字化从业人员的不断探索。

猜你喜欢
古籍数字化用户
中医古籍“疒”部俗字考辨举隅
家纺业亟待数字化赋能
关于版本学的问答——《古籍善本》修订重版说明
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
关于古籍保护人才培养的若干思考
我是古籍修复师
关注用户
数字化制胜
关注用户