刘利
摘 要:本研究通过文献法对我国古籍数字化的发展历程及其各个阶段的特征进行梳理,分析在新技术驱动下三种主要智能技术对古籍数字化的支持作用及其应用成效。分析显示,古籍数字化在跨学科整合、虚拟与增强现实、开放获取以及可视化交互等方面呈现了良好发展前景。一方面,应在政策出台、法规制定、技术创新等层面促进古籍数字化的发展;另一方面,应平衡好古籍原貌保护、人工智能技术与社会公众需求之间的关系。
关键词:技术驱动;古籍数字化;动态趋势
古籍数字化是推动我国优秀传统文化创造性转化和创新性发展的重要战略内容。2022年,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,为我国古籍数字化提供了指引。古籍数字化是通过现代信息技术手段,对古籍文献进行规模化、系统化扫描、微缩、识别、录入、存储,使其转化为电子数据形式,并通过网络通信、计算机或移动终端展现与传播的系统性工程。古籍数字化不仅从根本上避免了实地翻阅对古籍造成的各种潜在损害,而且彻底打破了古籍阅览的时空限制,从技术上提升了古籍保护程度和古籍使用效率。当前,我国古籍数字化工作在多个层面同步展开,形成古籍数字化巨制频出的局面,这不断激发着古代典籍旺盛的生命力。
古籍数字化并不是新近出现的现象,而是经历了从“古籍+数据库”技术阶段、“古籍+光盘”技术阶段、“古籍+OCR(光学字符识别)”技术阶段,向“古籍+人工智能”阶段演进的过程。
第一阶段:“古籍+数据库”技术阶段的起点可追溯至20世纪80年代初期,随着数据库技术的不断进步,古籍数字化逐渐步入联合目录阶段。这一阶段的特点在于:利用计算机在搜集、整理及检索等方面的优势,通过数据库形式存储古籍资料。此阶段主要以书目数据库为主,它克服了传统人工检索方式对古籍造成损害、耗时耗力等弊端,提升了检索效率。
第二阶段:“古籍+光盘”技术阶段起源于20世纪90年代初,以我国推出“二十四史检索光盘”为标志。在这个期间,随着存储技术的进步,古籍数字化步入光盘存储影像阶段。该阶段的特点在于:以光盘为载体,集成目录查询、内容检索及原始图像存储等功能,扩大了古籍资源的利用范围和使用来源,丰富了古籍的运用方式。
第三阶段:“古籍+OCR(光学字符识别)”技术阶段自20世纪80年代开始,进入21世纪,随着信息技术的不断进步和古籍数字化规模的扩大,古籍全文数字化迎来了快速发展期。这一阶段的特点在于:通过网络连接的古籍数字化数据库,可以实现精准定位已全文录入数据库中的古籍文本位置,从而实现古籍资源的精准检索,进一步拓宽了古籍的使用群体。
第四阶段:“古籍+人工智能”阶段。当前,随着人工智能技术在各领域的廣泛应用,古籍数字化也迎来新的发展机遇期。人工智能技术为古籍数字化提供了更高效、更准确的解决方案,古籍数字化正式迈入人工智能阶段。在这一阶段,通过深度学习等算法,人工智能可以对古籍进行自动识别、分类;利用图像处理和计算机视觉技术,检测和修复古籍中的破损和污渍;古籍检索系统和推荐系统也为读者提供了更加便捷、个性化的阅读体验。这些应用不仅彰显了人工智能技术在古籍数字化领域的广泛应用和深远影响,也为人类揭示了未来古籍数字化的发展方向和巨大潜力。
数字智能技术在现代古籍出版中发挥着举足轻重的作用,成为古籍数字化出版的关键支柱。借助数字智能技术,能够实现古籍的高清扫描、精确识别、快速录入以及大规模存储,既完整保留了古籍的原貌,又为后续处理提供了便利。当前,应用于古籍数字化的智能技术主要可分为以下三类。
一是光学字符识别(OCR)技术。即“电子设备(如扫描仪或数码相机)对纸质文档上的字符进行扫描,通过检测暗亮模式以确定其形状,进而采用字符识别方法将形状转换为计算机可编辑文本格式的过程”。相较于常规OCR技术,古籍OCR在质量、版式、风格等方面均面临较大挑战。当前主流的OCR技术虽具备较高的识别率,但尚不能直接应用于中文古籍OCR,原因在于高质量、大规模标注数据的缺失,尤其是中文大规模公开数据集的稀缺,也由于西方古籍版式数据集依然占据主导。目前,识别效果较好的OCR技术主要包括书同文公司的“i-慧眼OCR”和古联OCR系统。
二是虚拟现实与增强现实技术。虚拟现实(VR)及增强现实(AR)技术为古籍展示与研究带来了全新途径。借助虚拟现实技术,用户可在虚拟环境中亲身体验古籍的历史背景及其深刻内涵,从而提升沉浸式古籍阅读体验。增强现实技术则将古籍数字化副本与实体展品相结合,提供更为丰富的信息及交互功能。例如,我国国家博物馆与国家图书馆运用VR与AR技术构建虚拟展览及数字化交互平台,使读者能更为直观地认识与鉴赏古籍价值。
三是数据挖掘与自然语言处理技术。借助数据挖掘和自然语言处理手段,能够对大规模古籍文本进行深入分析和研究。通过对古籍文本数据进行语义分析、构建主题模型及关系网络,得以挖掘隐藏其中的知识和信息。这些技术在古籍的内容、作者、时代及流派等方面为古籍研究者提供了有力支持。例如,南京农业大学国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组与中华书局古联公司推出了一系列古籍处理领域的大语言模型:荀子系列大语言模型(XunziALLM),它是一种基于深度学习的自然语言处理技术,利用“荀子”能够完成古籍词法分析、实体识别、关系抽取、文本分类与匹配、文本摘要等工作,提高了古籍的可读性、可检索性、可利用性。
(一)以政策设计维护古籍公共性与商业性的平衡
古籍数字化进程涉及版权及访问限制等诸多问题。作为文化遗产的古籍,在数字化过程中实现了知识产权的创设,因此在古籍数字化及其利用的过程中,需要平衡公共利益与商业利益。为确保古籍知识产权得到保护,同时为确保公众能合法获取和使用数字化资源,应在政策、法律及技术层面进行全面考量,构建透明、公平且可持续的版权管理体系,进而推动古籍数字化资源的广泛传播和学术研究的顺利进行。
政府部门应制定相关政策法规,明确文字识别规范、字体转换标准、产品统一规格、产品审校验收、数字化古籍资源版权归属、使用权限及访问规则,确保古籍数字化的合法性与可持续性。同时,通过技术创新、协同合作、以用户需求为导向以及财政政策扶持,克服古籍数字化过程中所面临的困境,推进古籍数字化事业的发展,实现古籍文化资源的有效数字化和智能化运用,助力古籍文化的传承与创新。
(二)以技术创新维护古籍保护与数字化之间的平衡
在古籍数字化过程中,应始终秉持对古籍原貌的尊重与保护,同时在获取高品质数字化副本的同时,确保古籍的实体完整性与历史价值不受损害。为此,需要在光照、扫描和处理等环节审慎行事,以降低对古籍造成损害的潜在风险。如何在古籍原貌保护与古籍数字化之间取得平衡,是一项关键挑战。
应持续创新扫描与图像处理技术。通过引入高分辨率扫描和多光谱扫描等先进技术,提升数字化副本的品质与准确性。同时,运用尖端图像处理算法和技巧,提取并修复破损的文字和图像,增强古籍原貌的可读性与可视化效果。推动有针对性的技术创新,研发专门针对古籍数字化的工具与算法。例如,針对中文古籍文本的“OCR”问题,结合深度学习和计算机视觉技术,研发更为精确的算法。同时,还需探索更高效的扫描和图像处理技术,以提升数字化过程的效率和质量。通过技术创新,降低古籍数字化的成本与风险,助力推进中文古籍数字化进程。
(三)以人工智能维护古籍传统布局与现代阅读习惯的平衡
古籍文本的光学字符识别(OCR)是古籍数字化过程中的关键环节。然而,由于古籍文本的特殊性(包括复杂字体、旧体字和破损文字等),传统OCR技术可能难以对此进行妥善处理。古籍文本的OCR问题触及字形识别、字体变体、排版布局等诸多挑战。因此,在古籍数字化的过程中,需解决古籍传统格式布局与现代阅读习惯之间的矛盾。为应对此挑战,需要研发针对中文古籍特性的OCR算法,结合机器学习与深度学习等技术,提升古籍文本识别的准确性与处理效率。
通过整合人工智能、深度学习及自然语言处理等技术,开发智能化的古籍文本识别与标注工具。这些工具能自动识别古籍文本中的文字、字体变体和排版布局等特征,进而生成精确的元数据和索引。智能化文本识别与标注技术显著提升了数字化资源的可搜索性与可访问性,减轻了人工标注负担,确保古籍数字化标注的科学性与可靠性,缩短古籍数字化的上线周期,提高古籍数字化的生产效率。
参考文献
[1]金满楼.数字化赋能:汲古慧今,古籍新生[EB/OL]. (2023-03-06)[2024-01-18].https://wenyi.gmw.cn/2023-03/06/ content_36410604.htm.
[2]李明杰.构建中华古籍层级保护体系的设想——从古籍价值属性创新古籍保护思路[J]. 图书馆杂志, 2009,28 (03): 14-19.
[3]矩视智能.AI视觉在复杂场景下字符识别的全方位应用[EB/OL]. (2022-09-22)[2024-01-18]. https://zhuanlan.zhihu.com/ p/567199646.
[4]金凤.“荀子”大语言模型:化繁为简 通读古今[EB/OL]. (2024-01-09)[2024-01-18]. https://baijiahao.baidu.com/s?id=1787601 193121168873&wfr=spider&for=pc
[5]房惠玲. 敦煌文化遗产数字化进程稳步推进[EB/OL]. (2023-11-01)[2024-01-18].http://www.gsjb.com/ system/2023/11/01/030900894.shtml.
[6]刘晗. 新出版模式诞生:VR古籍出版怎么做?[EB/OL]. (2018-11-28)[2024-01-18]. https://epaper.gmw.cn/zhdsb/html/2018-11/28/nw.D110000zhdsb_20181128_2-06. htm?div=-1.
[7]公益时报. 一场技术与公益的双向奔赴[EB/OL]. (2023-06-13)[2024-01-18]. https://cj.sina.com.cn/articles/view/188112471 3/701faf69020016o5p.
[8]中国文化产业网.国家图书馆(国家古籍保护中心)“中华古籍资源库”构建中华古籍的数字网络家园[EB/OL].(2023-11-21) [2024-01-18].http://www.cnci.net.cn/ content/2023-11/21/content_30600652.htm.
[9]郭宇涵.智能与人文跨学科合作探索汉籍流传图谱[EB/OL]. (2023-07-16)[2024-01-18].http://vis.pku.edu.cn/blog/ chinese_classic_circulation/.
(作者单位:北京当代软科学研究所)