数字时代的人文科学新探索
——论作为方法论的数字人文

2023-04-22 08:49章贝格

文化创新比较研究 2023年29期

关键词：人文文献数字

章贝格

(湖南工商大学，湖南长沙 410205)

从“云”概念到“元宇宙”概念，现代技术的发展使得网络正在无限逼近它最终的内涵：互联。网络这一新媒介作为人们处理世界的认识论和方法论，已经悄然融入众多人类智识的底层逻辑当中。当映射到人文科学中时，这一点就体现为数字人文方法论的崛起。

1 数字人文发展综述

1.1 数字人文历史溯源

数字人文（digital humanities）是从人文计算（Humanities Computing）发展而来的一个概念。人文计算着重于将人文科学中的量化研究思路用系统化的计算机信息技术优化实现。虽然这一阶段也已经在事实上衍生出了计算机技术和人文的交叉学科，但此时其研究对象仅囿于数据。公认的人文计算之始——1949 年意大利基督教神父罗伯特·布萨在IBM 公司帮助下，利用计算机技术对1 100 余万字的阿奎那著作合集进行了拉丁词汇索引编制[1]——人文计算仅将技术代入为工具而非思路中的经典例证。

20 世纪70 年代，国际文学与语言计算协会（The Association for Literary and Linguistic Computing，ALLC）的设立与《文学与语言学计算》(Literacy and Linguistic Computing）的创刊，不仅给交叉学科人才深化人文计算提供了一个集中阵地，还帮助数字技术应用在人文科学的各个环节，尤其是思路和逻辑上的不断深化，并由此推进了人文计算到数字人文的转型。数字人文在国际上目前公认的较经典定义之一是图书情报学专家John Unsworth 在2016年提出的本体实践论，他认为，数字人文是一种代表性的实践和一种建模的方式，或者说是一种拟态、一种推理、一个本体论约定。武汉大学王晓光教授则基于近年基础理论的新变对数字人文作出了更开放的界定，认为研究背景、人员和内容上的丰富性给数字人文提供了不断发展变动的跨学科研究范畴[2]。也就是说，现有的数字人文概念可以理解为以下几个方面：一是研究领域，即针对计算与人文科学之间的交叉领域进行学习、研究、发明，以及创新的研究领域；二是实践做法和通用方法论，即运用了数字技术或面向可数字化的研究对象的人文科学研究路径；三是一种社区，即数字时代的人文宇宙。从人文计算到数字人文，一言以蔽之，是一种从方法到方法论的升级。

1.2 数字人文文献分析

选取Web of Science（以下简称“WOS”）核心平台上的ESCI、SSCI、A＆HCI、SCI-E 等英文数据库和CNKI 平台上的期刊、报纸、会议等中英文数据库，以“‘数字人文’OR‘人文计算’OR‘digital humanities’OR‘humanities computing’”为检索式在主题（TOPIC）字段进行检索，分别得到了2 000 余篇中文文献和6 000 余篇外文文献。文献发表数量的时序变化是衡量该领域学术动态的重要指标。从年代分布来看，受到上面提及的人文计算发端事件的影响，1973 年发表的首篇相关文献《意大利的人文计算活动》（Humanities Computing Activities in Italy）[3]对截至当时的意大利人文计算活动进行了总结分析；之后20 年内的零星文献也大致延续了上面的内容，集中在人文计算项目的实践描述上；从1990 年开始，文献发表数量开始了低平的上升，这体现了伴随着第四代计算机的发明，人文计算研究逐渐获得重视并缓慢发展的过程，期间的英文文献中也首次出现了“数字人文”一词；到了21 世纪初，数字人文在以“文本”或“图像资源数字化”为主题的文献中迎来了短暂的发文高峰，其中图书情报学作为数字人文的基础学科，在这一时期的文献中占有相当的比重；2011 年，不仅国际性的数字人文机构日益增多，中国的首个数字人文研究中心也在武汉大学成立；这之后，数字人文彻底取代了人文计算在这一交叉学科领域的话语主导权，论文数量也呈现爆炸式增长；2020 年之后，两个平台上相关文献的年发表数量都始终保持在550 篇以上；度过理论新声的热度爆发期后，近两年相关文献增速在两个平台上均明显放缓，但CNKI 数据AI 仍对未来一年内相关文献发表数量做出了正面预测。整体来看，中文文献在两平台合计占比虽然逐年缓慢提升，但始终低于25%，这体现了国内数字人文研究起步较国外晚、成果较国外少的事实。

从学科归属上来看，许多文献直观地体现了数字人文的跨学科属性。计算机科学、图书馆学、世界文学分别占到了文献学科属性的前三名。对它们进行人文计算和数字人文的分类可以得出，前者更注重计算机等数字技术类研究，后者则更关注人文主题的技术参与。同时，相较于和数字人文一同成长起来的国内研究，自人文计算发端的国外研究跨学科程度更高：外文文献的全文有效词按词频从高到低排列是计算机技术、图书情报、艺术人文、教育、语言学、历史、工程、社会等，其词频的标准差约为283；国内相关文献关键词不仅在语义上互相接近，词频标准差也远高于国外。也就是说，国外文献词频离散程度更低，各学科研究数量分布较国内更为平均。

文献的共被引分析可以显示该学科发展的关键知识节点。WOS 平台中被引频次超过100 的文献多发表在数字人文萌芽后期，其中被引次数最多的是时空地理信息技术应用上的里程碑《人造夜空光源下的新型世界地图》（The new world atlas of artificial night sky brightness）[4],被引高达740 次（2023 年10月前数据），其次则是2020 年讨论疫情时代在线教育的《新冠肺炎大流行与在线学习：挑战与机遇》（Covid-19 pandemic and online learning: the challenges and opportunities）[5]，再次是文学方面的文本挖掘、语言学方面的语料库语言学、历史学方面的分析重建、数字图书馆和网络数据库等文章，这体现了近年来世界范围内的数字人文学科热点。在我国国家社科基金项目中，则是数据库建设、档案管理、图书情报等基础性主题占据着近年的相关热门。

另外，运用Cite Space 分析WOS 平台上被引次数超过50 次的66 篇文献及其引用的专著，可以得到数篇中介中心度达到0.3 以上的高关键文献。中介中心性指的是一个结点担任其他两个结点之间最短桥梁的次数。一个结点充当“中介”的次数越高，它的中介中心度就越大。在Cite Space 中，中介中心度超过0.1 的就已经被称为关键节点了，这类文献实际上组成了数字人文的基础理论构架，其中包括阐述计算机技术对人文科学重要意义的《人文计算》（Humanities Computing）[6]；介绍数字人文的应用与争议性概念、讨论了艺术与人文领域跨学科协作技术的《理解数字人文》（Introduction: Understanding the Digital Humanities）[7]及前述两篇最高被引文献等。

总的来说，数字人文在国内外都依旧处于学科建设的高速成长阶段，地理信息化和数字叙事是数字人文当前最热门的研究课题。以上综述实际上遵循了图书情报学中量化文献的思维，借用目前已经较为常见的文献管理工具达成，是数字人文的简单应用，下文尝试在技术与理论建构的基础上，进行具有针对性主题的数字人文方法论实践。

2 数字人文方法论实践的可能

2.1 数字人文方法论的基本框架

总的来说，数字人文的方法学基础是映射和模拟。映射指的是将某一人文学科中的研究资料经过数字化处理后在虚拟世界中建立起相对应的系统；模拟指的则是学科逻辑在虚拟世界系统中运行的过程。John Unsworth 提出了“七原语”说（发现、注释、比较、参考、抽样、说明和表示），后来被欧洲学者Tobias Blanke 和Sheila Andering 等规范为“五原语”说（发现、搜集、比较、发布和协作）[8]，用于解构上述过程，并对数字人文方法共同体进行抽象化和理论化。将这些原语和实际技术手段对应来看时，就能得到数字人文的技术体系。

一是数字化技术，即数字人文的基石——研究对象的支撑技术。值得注意的是，建设人文数据库时，所选用的原始资料本身就是价值密度较高的，甚至是经过几千年时间淘洗的珍贵资料，这使其在根本上区别了数字化技术应用最广的范畴——大数据。

二是数据管理技术，这一类技术源于语言学语料库的建设逻辑。这是指所有数据资料在收录之后，能够依据一定的编写规则，自动标识其中的有效单元，并以语义单位的形式析出。这也使得自动分类、归纳的数据库功能得以发展，因此在实质上是一种管理技术。

三是数据的分析技术，也是数字人文特有的基于数据的一套研究范式。如词频分析、共现分析、时空分析等[9]。前沿数据分析技术甚至在朝着机器学习、智慧算法的方向努力[10]。这不仅包括机器对人力的替代性学习，如代替人类进行繁重、危险的工作等；体验感的优化，如更人性化、交互性的研究体验等；更存在着基于远超智人计算能力的虚拟、再现，甚至预测等功能场景。

在技术的基础上，得以对数字人文进行包含创想的理论架构。首先，传统人文的结构化和再造。文本编码大大提高了数字文本的传播和研究效率。研究对象性质的转变所带来的影响是冰山—蓝海式的，一旦文本的“可计算性”得到充分释放，人文研究范式的颠覆将指日可待。资源富集和知识重构可能刺激人文科学期盼已久的文明升级拐点的到来。其次，人文研究的增强与拓展，这指的是海量的单维资料在被复合着地展现出来的同时就已经被接收，这一特性实现了研究过程和结果展示的“通感”。智能补充关键帧、极具冲击力的场景重建和增强交互艺术给人文对象赋予了更加鲜活可感的生命力，这能够极大帮助打通关联分析的“任督二脉”，促进学术研究的升级。

以上许多成果的直观性延伸都仰赖于可视化研究这一数字人文范畴下的具体研究范式。可视化研究是建立在计算机技术基石上的一种新型研究范式。它是指把数据、信息或知识转化为某种可视的表现形式，以获得对原始资料更深层次认识的过程[11]。借助数据分析、图像处理、人机交互、深度学习、模拟运算等技术，可视化研究把纷繁的内容输出为多维、直观且重点突出的易感知系统。

通过数字人文中的可视化方法，研究主体能够更充分地对研究对象运行“处理—展示—再处理”的循环，从而对每个阶段的研究结论作出人脑和计算机两重系统的深化分析，帮助推进研究成果从量变到质变的转化。比起传统研究，数字人文研究方法具有区别于前者的内生的必然特点，如过程依赖于计算机技术、形式上可读性强、更适应读图时代等，但作为两种平行的范式，这两者在应用逻辑上区别更甚。

2.2 实际案例中数字人文对分析的升级

为了更清晰地比较数字人文方法与传统研究方法的区别与联系，下文试以明刊百回本《西游记》中的孙悟空形象源流分析作为研究对象，结合数字人文的前沿热点地理信息系统和可视化研究范式，进行数字人文应用实践。

首先需要明确的是，从南宋《大唐三藏取经诗话》开始到元代《西游记杂剧》这些前本，都与明代百回本在主角团队设置和故事情节上有着明显的传承甚至照搬的关系。因此，这里对孙悟空形象源流的探讨应当抛开这些关系密切的已成书版本，而将重点放在虚构人物孙悟空的从无到有是怎样发生的这一疑问上。

为了研究这只富有神怪属性的猴子从哪里来、走过哪些路才最终成为西行故事的主角，就需要在《西游记》成书前的整个人类文化史中搜集它的痕迹。在这里，传统研究者们如鲁迅和胡适等，仅依赖于自身强硬的文献功底和分析能力，就分别在印度史诗和《山海经》佚本残卷中摸索出了孙悟空模糊的前身。这就体现了人文学科中传统研究范式的几个显著特点：一是受制于研究主体质素；二是在存在假设的前提下，再抓取论据而完成理论，有着某种类似先验的内涵；三是研究资料的一贯性，这里指的是，为了回答由文本《西游记》提出的问题，选取了同为文本的研究资料，输出了文本式的研究成果。长久以来，这些特点都使得人文学科对于疑问的解决和提出，都存在着极高的门槛，人们只有也只能在大师们已半完成式的成果上徘徊。

而一旦引入数字人文，这种限知视角就能被瞬间拓宽。首先，海量的古籍等其他文献资料被数字化存储和展示出来，几次点击就能使人手捧历史结晶，超越原先“站在巨人肩膀上”的高度。如在不同平台中检索“猴＋神怪or 传说”，经人工选择与EXCEL 简单处理后，就可以得到最早从公元前300 年左右开始，到明代百回本《西游记》成书结束这一时间跨度中，包括11 个国家文献在内的至少50 种猴怪传说，并将它们按照时间顺序进行排列。其次，数字人文独有的多维特性使其可以融合时间与空间信息，贯通历时研究与共时研究。在本案例中，第二步是引入简易的地理信息系统，将文献信息（最早发现时间、最早发现地点、叙事要点等）按地点标注在古代中国对外交流路线图上，由此验证了印度哈奴曼故事从东南亚—泉州口岸传入中国的可能性。另外，对于哈奴曼故事在汉文文本上从5 世纪到12 世纪的漫长空缺，在上面地图中显示的该传说可能的传播路径周边进行印度相关文献和景点等历史资料的搜寻，可以发现在这一空缺期间，相关城市存在包括哈奴曼雕像、壁画在内的众多佐证，足以证实哈奴曼故事在3 世纪末传入中国后并未失传。这体现了数字人文突破了文本的壁垒，在资料形式上的丰富多样性。最后，将文献整理并绘制系谱图，可以得出孙悟空形象囊括4 个起源大类：受罚猴、佛学猴、哈奴曼、好色猴。之所以这样划分，是因为在谱系图中可以明显地看出，这4 个大类在唐末以前几乎是各自平行的，到宋代它们开始产生各种交叉，到了南宋末年已经杂糅难分。这有力地否定了孙悟空形象的单源流说，再次验证了数字人文方法中的可视化研究在直观度及其效用上的一骑绝尘。

由以上分析可知，可视化研究在某一案例中至少应当包括分析和展示两个环节的功能。虽然囿于本文的纸本性质，无法对上述可视化环节进行完整展示，但仍可以通过该案例的研究思路与过程，窥见数字人文的新颖魅力。同时，其中反复运用的推理、联想、选择等方法亦是传统研究的运用。可以说，数字人文不能脱离传统研究的思路和手段而存在。

3 数字与人文的维度之争

3.1 数字人文的偏转症结

尽管数字人文的优势显而易见，但在其发展中困难同样比比皆是。目前，在数字人文的前端设计中，数据采集的部分技术很难达到人们期望的高度。这不仅体现在现有机器学习模式的欠缺中，更体现在传统资料数据化难、传统资料与现代系统的对接难。人们过去高度抽象化了的资料，现在需要用符号标识出来，这不仅是一套映射语言的建设问题，更是人类自古以来感性与理性的争斗中提出的永恒难点。如何分类细腻的感情色彩？如何量化标准各异、形式不同的原始资料？数字人文可能在未来的很长一段时间内都将默认着其量化的内核带来的与传统研究范式相比无限逼近却永远难以达成的研究饱满度。

另外，不得不承认的现实是交叉型人才数量稀少，使得这一方法论融会贯通的成本指数级膨胀着，收效却相对寥寥。人文学界对新技术的理解、掌握和运用缺乏足够的认识，而信息工作者的人文素养培训也同样长路漫漫。

值得注意的是，在人文学科的研究中，数字人文本身不能是唯一的、单纯的目的，而应当至少作为一种工具或手段参与着研究。这就是说，如果一项研究止步于新奇的学术范式的应用，那么再华丽的技术也只能成为研究空洞的“遮羞布”。伽达默尔认为，如果缺乏对方法论的反思，就可能导致强行将某种有条件的因果代入终极理性实现路径的错误，这一逻辑在数字人文的讨论中也是颠扑不破的。盲目崇拜技术方法论，放任数字科技和人文学术的联姻向着“轻文字、重图像，轻思想、重制作，轻创作、重编码”的分支走去，无疑会使人文学科抛却批判性和试验性，令自身成为过度偏离传统的分支。回到上文提到的可视化案例，可以发现案例中所有被可视化的对象无论进行了几重信息的叠加，都能被轻易复制。从资料到编码再到资料，仅从数字人文的第一步——存储来看，其中转换的每一步似乎都已然消解了专属于上一种载体的特殊体验，驱散着人们从印刷时代就已渐隐的灵晕，驱散着人文中人的体验的在场。数字技术在事实上的载体中心主义断绝了意义的延伸，将解释和韵味固化了。这样一来，不仅是普遍意义上面向载体的人的体验在一定程度上被破坏，研究主体自身的痕迹也被部分隐去了。

数字时代实现了某种意义上的“谈笑有鸿儒，往来无白丁。”扁平化的数字对象指数级地拉近了大儒和具有基本理性的普通人之间对一般结论获取程度的差距，但却并未能以同样的效率缩小二者之间认知积淀的区别。罔论文本资料的数字化甚至并非剥离感性体验的简单化，反而可能会因机器体验的渗透而在未来呈现为更加复杂的人工智能伦理问题，并同时持续架空着智人之所以为人的思维感受。

3.2 数字人文的人文出路

上述人文精神的损伤能否追回？人们或许可以先退一步，承认数字人文在方法论上不割裂成两个维度，而是浑然一体的运用，并不是一个前提要求，而是一个终极目标。向着这个目标，数字技术与人文方法必须展开对话而不是互斥。研究者们需要在两者的徘徊间找到衔接和融合的可能，因为“数字人文的收益绝不仅从数字技术或传统方法的单一途径中获得”[12]。带着这一底层逻辑再回到前述疑问，就可发现，载体的变迁因为至少保有着操作者这一层面的人文要素，而不可能成为纯数字化的过程。在不同平台间的迁移使得文本虽然打上了对应技术模式的烙印，但也创造着真正意义上的“众声喧哗”，在一个动态开放的文本系统中，人们甚至能够通过技术可倒溯的特性自然地限制“狂欢化”的弊端。通过数字技术有痕的脉络，人文得以在保有自身阐释边界的同时，免于损伤文化共享的空间。由此，所谓数字人文的极端拥趸对传统人文的贬低挫伤了人文精神甚至是人类精神文明的名誉这一说法即被证伪了。

人文在数字人文中不仅是目的，更是顶层设计。研究者们只有用数字技术吸纳人文感性，在研究中突出人文本位，才能不丢失通往未来云端世界的“杰克的魔豆”。事实上，就连自然科学本身都在汲取人文的思维，将模糊、偶然，甚至是哲学纳入学科体系当中。2022 年，诺贝尔物理学奖颁发给了证实量子纠缠和贝尔不等式的三位物理学家，并在颁奖礼中提到了中国“墨子号”量子科学实验卫星成功实现的量子跨洲通信给这一领域带来的宝贵资源。由此，20世纪20 年代海森堡提出的违背形而上因果律的“不确定性”理论得到了肯定，科学通过验证哲学而产生了革命般的推进。

4 结束语

艺术是文化的自然意识，元宇宙时代数字人文艺术的爆发就是数字文化大繁荣的缩影。进入到元宇宙时代后，物理世界的物质性约束越来越少，在纯意识的蓝图中，哲学和技术的终极在虚拟这一性质上得到互通，思想和文化将成为人们最后真正的稀缺资源，这也就提示了数字人文超出工具方法论的意义。在数字人文中，更珍贵的永远是人们最终希望达成的人文维度，人们因发现了这样一条复兴人文学术的全新路径而兴奋。尽管人文学科过去推崇的勤奋、渊博和洞见等品质的确都已或多或少地被现代技术夺去了光辉，但笔者相信，这反而能够倒逼研究者们坚持人文本位，强化研究主体地位，发扬从传统研究中继承下来的思维和精神，挖掘数字人文研究路径的更优可能，在自我感动的案牍劳行和机械复制的低质成果之废浪中淘取到真正的学术黄金。

数字时代的人文科学新探索——论作为方法论的数字人文