数字人文视角下的古籍整理与阅读转型

2023-03-22 22:07朱翠萍
文学与文化 2023年4期
关键词:沉浸式体验数字人文古籍整理

内容提要:数字化深刻影响且改变了人文学术,促进了研究范式和学术功能的改变。具体到文献整理领域主要体现在三个方面:文献生产方式的创革,文献整理的数字化转型,以及经典阅读方式的新变。数字化改变了文本整理方式,使人文学者可以自动化获取文本、建立目录与文本的关联,且能够一定程度上进行自动对勘。同时,数字化也为古籍文献带来新的阅读和呈现方式,从而实现主题聚类、增值性知识关联、时空并行、知识重组沉浸式体验等。未来,数字化技术到智能化技术的演进,必将对人文学术产生更加深刻的影响。

关键词:数字人文 古籍整理 OCR 自动校勘 聚类 知识重组 沉浸式体验

社会发展至今,数字化浪潮无所不在,深刻影响并改变着人文学术研究。清华大学人文学院院长刘石教授总结了这样一种现象,说:“我们在数字时代发现了前数字时代难以发现的现象,提出了前数字时代难以提出的设想,开展了前数字时代难以开展的工作,解决了前数字时代难以解决的问题。”这一观察引发了一股“数字人文”研究的热潮。“数字人文”是借助计算机和数据科学等工具进行的人文研究,其本质是一门交叉学科,也是一种方法论。它将数字技术应用于人文阐释,代表着知识生产范式因媒介变革而进行的一次转型。在古籍文献领域,这些转变主要表现为:文献生产的创革,文献整理的数字化转型,以及经典阅读方式的新变。

一 文献生产方式的创革

数字化兴盛之前,人们通常采用人工录入文本的方式,逐字逐句地阅读并添加标点,整理完毕后,将其交给出版单位进行编辑和出版。然而,随着数字化的普及和发展,古籍智能整理平台应运而生,可以实现文本采集、自动标点、繁简转换、自动排版等一站式工作流程。

在文献生产领域,最常用的技术就是OCR。OCR是Optical Character Recognition的缩写,意思是指光学字符识别,它可以将图像中的文字通过识别软件转换成文本格式,供文字处理软件进一步编辑和加工。在数量庞大的古籍整理工作中,这项技术非常实用,能大幅度提高文本录入效率。然而,开发古籍OCR系统并非易事,需要考虑古籍的版式、图像页面的完整和平整程度、字体风格、异体关系,以及现有字库的大小等多种因素。开发者需要通过对古籍版式的综合分析、对文本内容的智能化理解训练、对字形风格的模拟,以及在字库大小和字符使用规范之间取得平衡等,使古籍OCR工具最大限度地满足使用者的需求。目前市面上的古籍OCR工具,对于版面清晰、刻写规整的古籍来说,识别准确率多已超过90%,识别速度也达到了每台服务器8万页/日,文献资料的生产效率大大提高。

当然,也存在大量古籍采集不易的情况,如下图所示:

上图中间方框中的四个字,从字形上来看都像“月”字,但其解释是“上偏旁舟,二偏旁丹,三偏旁肉,下鱼曰翻”,说明这四个字分别是“舟、丹、肉、月”等不同的字,若用OCR系統进行简单识别,必定会因为字形极其接近而出错。但这只是OCR识别困难情况中的一种,在古籍中还存在大量复杂多样的字符情况,主要表现在以下几个方面:有古有今、有中有外、有字有符。

所谓“有古有今”是指古籍中包含着甲骨文、金文、小篆、楷书等不同时代的文字符号,即使是流传至今广泛应用的楷书字形,由于大量异体字的存在,也对自动识别构成了极大的困难。

所谓“有中有外”是指古籍文献中,除了汉字(包括一些疑难字的整理)以外,还存在如梵文、巴利文等非汉字的文字符号。

所谓“有字有符”是指古籍文献中,除了表音、表意的字之外,还包括如音乐文献中的古琴谱和道教文献中的符箓等非字符号。

针对这些特殊符号,数量多的一般都是建立专属的字库进行训练识别;数量少的,出于经济考量,往往把其纳入到某一类特殊符号中采用单个插入的方式使用。

总体来说,数字化时代,相较于传统手写和雕版印刷的方式,在文献生产的方式方面发生了根本性的变化,故称之为“创革”。

二 文献整理的数字化转型

传统文献学主要包含版本目录学、校勘学、断句标点等。

版本,原指雕版刷印的书本,雕版印刷发明之前,没有这个概念,雕版印刷发明之后,主要是从宋代才开始使用此概念。后来,“版本”的含义开始逐渐丰富,不仅仅指雕版印刷的本子,还可以指写本、活字本、批校本等。近代排印技术出现之后,又出现了石印本、铅印本等新形式,现代计算机技术出现之后,版本更是不再局限于纸质本子,进而扩展到非纸质载体的“数字版”了。故而,版本问题可以算是一个既古老又现代的课题。

数字化技术出现之后,围绕古籍整理工作建设大量古籍书目数据库,开发了自动校勘、自动标点、引文核查、繁简转换等系统,对古籍整理效率的提高起到至关重要的作用。

(一)版本目录的数字化转型

古籍书目数据库改变了传统的平面化呈现方式,以关联性和立体化的面貌呈现。例如《中国古籍总目》数据库①通过数字化和结构化处理,将题名、责任者、版本、馆藏、子目等具体信息拆分出来,使原书条目信息分门别类、清晰明了地呈现。同时,它集中展示了新中国成立以来出版的古籍整理本成果,并与《中国古籍总目》中记录的古籍条目进行了计算机自动关联匹配。

(二)校勘的数字化转型

在文献学中,校勘的方法一般分为对校、他校、本校、理校四类。为了提高古籍整理者的校勘效率,也开发了相应的技术来进行辅助。

目前来说,应用最广、效果最明显的是针对对校场景而开发的自动对勘技术。自动对勘,就是将不同版本的电子文本上传至平台,瞬间完成几十万字的不同版本的文字比对工作,同时还会参照校勘学中错误类别“讹衍倒脱”等分类,设置“异①衍倒脱”等差异类型,并配以校勘记填写格式框用来书写校勘记,然后生成并导出“校勘长编”。笔者曾以周祖谟先生的《广韵校本》进行实验,测试自动对勘系统的效果,以《广韵校本》所提到的底本和校本作为自动对勘的底本和校本,从时间、速度和比对准确性等方面进行分析,如下表所示:

经过验证,人工需要2个月完成的工作,自动对勘系统几分钟就完成了,大大缩减了时间成本,提高了效率。同时,自动对勘系统还十分有效地规避了人为疏漏,人工可以发现的问题,计算机都发现了,人工没有发现的问题,计算机也发现了。但另一方面,由于计算机读取字形编码和人类的判定存在差异,以及字形处理规范的一些规定,会影响异文数量。例如,在新旧字形方面,自动对勘系统发现了210处,人工记录了0处,这一方面是校勘者写《广韵校本》时还没有新旧字形的概念的缘故;另一方面,即使让现代人进行校勘,也不会把这些本属于印刷概念上的字形差异判定为有效的校勘差异。这就是人和自动校勘系统的差别。

(三)断句标点的数字化转型

为了让现代人看懂古籍,整理者多会采取逐句阅读、断句标点的方式,整理周期一般都很长。古籍整理智能技术研发者便利用前人已经标点好的数据进行训练,使系统能够自动理解并断点文句,从而提高古籍的断点效率。目前,多采用的是bert模型,运用一种类似“完形填空”的训练逻辑让系统反复预测缺失或故意遮掩的内容,从而达到正确填充标点的效果。目前市场上有影响力的古联公司自动标点系统,在断句方面达到了96%的正确率,在标点方面也能达到92%的正确率,整理者完全可以通过自动标点技术形成一个相对成熟的古籍整理作品,然后再发挥专家优势,将断句标点的正确率提升到读者满意的水平。所以说,在古籍断句标点方面也实现了很好的转型。

(四)繁简转换系统

考虑到现代人对繁体字文本阅读困难,古籍整理者会将繁体字转换为简体字,古籍整理技术研发者针对这一需求,开发了繁简转换系统。在该系统中,最关键的不是转换技术本身,而是复杂的字际关系。一个实用的繁简转换程序,需要考虑以下几个方面的因素:一是编码层面的同码异形、同形异码以及误用私用区编码问题;二是繁简对应方面的一对多、多对一、无对应等问题;三是繁体字的异体字形较多问题。所以,开发一个相对理想的繁简转换系统就需要按照一定的逻辑逐层梳理。先进行编码层面的认同,再将不合法的类推简化字还原为繁体字形,然后将同一个字的异体字形进行归并和认同,再根据一定的场景结合上下文义进行转换,才会得到较为可靠的结果。

正是由于以上系列技术的研发,文献整理的很多方面都实现了由传统方式向数字化甚至智能化的转型。这不仅大大提高了古籍整理的工作效率,也为古籍的保护和传承开辟了新的可能。

三 經典阅读方式的新变

数字化技术的出现,不仅在生产端产生了很大的影响,还促成了新的阅读和研究方式。这主要体现在以下几个方面:

(一)主题聚类检索阅读

在传统阅读中,一般是自上而下、自右而左,或者是自左而右、自上而下的线性阅读方式。然而,在数字化时代,人们往往以主题词检索的方式开展同类主题聚合。然后,再对资料进行集中总结和分析,找到自己需要的信息或得出某种结论。一般来说,文本类数据库大都能够满足这种需求,不再赘述。

(二)增值性知识关联

传统知识组织的方式是平面化的,而数字时代的内容组织却是立体的。前台的文本资料与后台的知识体系关联在一起,既不影响文本阅读的流畅,又可在文本阅读出现困难的时候,可以即时找到延展性知识内容,从而扫除阅读中的障碍。这种关联可以是解决疑难字的字典,例如《殷墟甲骨文数据库》配有《甲骨字典》,方便阅读者阅读甲骨释文的时候,遇到不认识的甲骨文进行查询。

也可以是解决疑难知识的专题词典,如人名辞典、地名辞典、职官词典,或者纪年表,例如籍合网(https://www.ancientbooks.cn)内置了各类专题词典和纪年换算表格,用于支撑平台各数据库的阅读查询所需。这些功能为读者提供了实时、方便的咨询工具,大大提升了阅读的效率和体验。

还可以是解决疑难现象的同实异称、同称异实等事实类考证内容,例如中国人民大学李今教授主持的《汉译文学编年考录数据库》,为1896年至1949年间期刊上的汉译文学及其相关现象做了编目、整理和考释,并为译介者做了生平简介以及笔名录。这样的功能提供了深入、详实的背景信息,有助于读者更深入地理解和研究文本。

(三)可视化知识图谱

随着数字人文研究与实践的深入开展,越来越多的学者及古籍数字化从业者开始由简单的资料汇集到深入的内容加工,他们把平面的文字资料进行人物、时间、地点、事件等方面的提取,并开展各种维度的属性标引,相同属性之间可以归类,甚至可以借助属性关系进行推理,从而使文献资料由平面叙述、说明变为知识网络的存在,呈现出基于一定专业逻辑的结构化关联,然后借助现代的知识图谱技术进行生动展示。例如,北京大学数字人文研究中心《宋元学案》知识图谱系统、北京师范大学的《汉字全息资源应用系统》都是很好的例子。

(四)时空并重

在数字人文的研究中,我们可以通过时空数据的整合,以全新的方式理解、解释历史和文化现象。我们可以利用地理信息系统(GIS)技术,将历史事件或文化现象在特定时间和地点的发生进行可视化,从而在更大的范围内观察和理解文献中的信息。例如,历史学家可以将古代诗人生活轨迹、人口迁移、疾病传播等信息映射到地图上,以空间的方式呈现时间的流动,揭示出这些现象背后的历史规律和文化模式,四川大学文学与新闻学院王兆鹏老师开发的《唐宋文学编年地图》就是很有影响力的例证。

(五)基于阅读的知识重组

在数字环境中,阅读的方式已经发生了根本性的变化。读者不再被限制于单一的、线性的文本阅读,而是可以在广阔的知识网络中自由穿行,通过链接、搜索和注释等工具,将来自不同来源、不同领域的信息整合在一起,形成专门的知识体系。例如中国人民大学夏明方教授主持的国家社科基金重大项目成果《清代灾荒纪年暨信息集成数据库》①,从清代史书和地方志等文献中提取与自然灾害相关的信息,重组为灾害类的专题数据库,详细梳理了灾害类型、灾害级别、赈灾政策等内容,提炼出一个新的知识体系,为史学研究之外的大气物理研究、地震研究及政府咨询等多领域提供了很好的参考。

(六)沉浸式体验

数字人文技术还为我们提供了全新的、沉浸式的阅读和学习体验。例如,虚拟现实(VR)和增强现实(AR)技术可以将读者带入历史现场,让他们亲身体验历史事件或文化现象。这种沉浸式体验,不仅能够提供更生动、直观的知识传递方式,也能够激发读者的兴趣和参与度,从而深化对文献内容的理解和记忆。例如,通过VR技术,读者可以亲身走进古罗马的街头,参观中世纪的教堂,或是亲眼看到长城的建设过程,这些都将给读者带来深刻的历史感受和理解。

还可以利用元宇宙技术复活古人,实现跨时空的对话,让古代文献的作者以类真人的方式,展示其生活或传递其作品中所承载的文化和知识内容。例如中华书局构建的“3D超写实数字人苏东坡”,通过数字全息技术,在中央电视台2023年度“诗词大会”中亮相,不仅生动再现了其与友人黄庭坚告别的场景,还与现场的选手互动诵诗。

时至今日,美国OPENAI公司推出了可以聊天、书写文本摘要、翻译,甚至可以写代码的聊天机器人ChtaGPT,再次引爆了网络,引发了以人工智能为代表的新一轮技术革命,并逐渐影响到业界和学术界。

这些新的数字技术给人文领域带来了很大改变,并形成了“数字人文”这一具有强烈时代特征的学科概念,成为迄今为止理念最为开放、成就最为显著的跨学科阅读与研究范式。这不仅打破了学术壁垒,架构了学科桥梁,甚至拉近了读者与专家的距离,改变了阅读和接受知识的方式。

(朱翠萍,中华书局古联公司副总经理)

猜你喜欢
沉浸式体验数字人文古籍整理
斯盐最灵,此籍可餐
——盐业古籍整理新成果《河东盐法备览合集简注》出版
论“明清实录藏族史料类编丛书”古籍整理工作
虚拟现实技术在主题公园中的应用
指向具身学习的高中物理“沉浸式体验”教学策略
新媒体时代虚拟现实中的诗与画
首届宋云彬古籍整理奖颁奖典礼在京举行
数字学术与公众科学:数字图书馆新生态
跨界与融合:全球视野下的数字人文
跨界与融合:全球视野下的数字人文
大规模古籍文本在中国史定量研究中的应用探索