数字时代人文学研究的变革与超越
——数字人文在中国

2022-10-26 04:43赵薇

社会观察 2022年2期

文/赵薇

20世纪末以来，飞速发展的数据科学和信息网络技术，越来越普遍地影响了人文知识的获取、管理、分析、阐释、共享和再生产等基本环节，深刻重塑了人文社会科学的方法基础和研究形态。由人文计算（Humanities Computing）转化而来的数字人文（Digital Humanities，DH）成为全球范围内兴起的知识生产范型。尽管数字人文的基本界定尚处于广泛争议和多元发展中，在中国，这一领域仍以其鲜明的实践性特色，吸引了不同学科的学者投身其中，形成了跨学科、跨地域，甚至跨文化和语言共生的协作型研究社群。数字人文项目从无到有，相继孵育成熟，纷纷进入颇为可观的成果产出期。

发展历程

中国大陆数字化和文献计量的历史，可追溯至20世纪80—90年代古籍数字化的先驱工作。这些工作充分借助纸本索引，为数字化查询积累了经验，尤其处理了早期数字化过程中的中文编码和字符集受限等问题。钱锺书先生早在1984年就开始在中国社会科学院倡导把计算机技术引入中国古典文献的搜集、疏证和整理中。90年代中期后，随着 GBK字符集扩展到两万多个汉字并可支持繁体，OCR技术成熟，互联网兴起，各种通用的电子文献整理平台应运而生。1996年，上海图书馆率先建成“中国古籍善本查阅系统”，随后国家图书馆正式启动“中国数字图书馆工程”。中文自然语言处理利用语料统计来建立算法模型，完成音素、字词、句子、段落、篇章等不同单位上的词频统计、标注和分析等任务。2003年以后，机器学习在一些任务上的测评显示出优于人工规则的效果。清华大学、哈尔滨工业大学、南京师范大学等相关团队机构在汉语自动分词、语义计算、文本分类、意见挖掘、实体识别等典型任务上有了重要突破，形成了一个个可持续发展的技术热区，为后来数字人文中文本挖掘的研究面向积累了关键经验。文史领域仍倾向于采取简单易行的计量方法。如陈大康在20世纪80年代中期用耗时的人工统计步骤，对《红楼梦》作者统一性问题进行再检验，反驳了陈炳藻利用计算机得出的结论等。

中国的量化史学悄然复兴。蜚声海内外的李中清-康文林团队，自1979年起逐步建立基于八旗户口册和清代皇室族谱资料的“中国多代人口系列数据库”。还有90年代初兴起，由哈佛大学、台湾“中研院”、北京大学合建，2007年正式对外开放的“中国历代人物传记资料库”（CBDB）；复旦大学历史地理研究中心和哈佛大学共建的“中国历史地理信息系统”（CHGIS）等。

2009年，“数字人文”第一次以今天的义涵出现在中国大陆学界。2011年，大陆首个数字人文研究中心落户武汉大学。大陆学者开始有意识地发表相关文章，对图书档案情报和信息管理学界而言，数字人文将成为超越数字图书馆的下一个“大趋势”。王晓光团队对敦煌壁画图像语义描述层次模型的实证研究，包平团队对农业物产类方志古籍地名识别系统的研究和建构，郭金龙、许鑫等对文本挖掘的初步探索，黄水清、王东波、陈小荷等关于先秦文献的分词、命名实体识别，以及多位学者使用聚类方法研究作者归属问题等都取得了令人瞩目的进展。在传统文史哲等学科，只有零星学者关注数字人文，2013年陈静翻译了苏珊·霍基等人的文章，并对数字人文在英美的发展和争论作了检讨性综述。综论性文章有陈刚《“数字人文”与历史地理信息化》（2014），王涛《挑战与机遇：“数字史学”与历史研究》（2015），王兆鹏《建设中国文学数字化地图平台的构想》（2012），郑永晓《情感计算应用于古典诗词研究刍议》（2012），刘京臣《大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心》（2015）等。地理信息系统、文本挖掘、文体测量、网络分析等方法与传统问题结合，产生了一些颇有创建的应用个案，如许超《〈左传〉的语言网络与社会网络研究》（2014），赵思渊《19世纪徽州乡村的土地市场、信用机制与关系网络》（2015），赵薇《“社会网络分析”在现代汉语历史小说研究中的应用初探——以李劼人的〈大波〉三部曲为例》（2015）等。

被视为标杆的“中国历代人物传记资料库”项目由包弼德（Peter K.Bol）教授牵头，经过10多年辛苦的元数据标注，为目前世界上最大的中国历史人物传记资料分析数据库。台湾地区在这一时期也经历了由“数位典藏”向“数位人文”的转型，由单纯的资料检索向更深入的文本挖掘思维进步。2012年“台湾大学数位人文研究中心”的成立亦标志着台湾地区数字人文学自主性的形成。

2016年起，数字人文在中国大陆进入加速发展的建制化阶段，相关论文的发表量呈直线递增趋势。数字人文的基本内涵、应用实践和未来走向获得了图博档领域的高度关注，迅速成为当下最受欢迎的科际整合新方向。人文学者的参与度和热情大幅提高，“方法共同体”初步显形，网络基础设施建设和由研究性问题驱动的数字人文研究之间的分野渐渐清晰起来。数字人文的学术交流和出版活动日益繁荣。2016年起北京大学连续3年举办数字人文论坛，2017年清华大学举办“数字人文与文学研究国际工作坊”，2018年数字人文创研中心在南京大学成立。中国人民大学清史研究中心的“数字人文与清史研究工作坊”，中国社会科学院文学研究所2019年“数字人文时代的中国文史研究”工作坊，清华大学2019年“《数字人文》创刊仪式暨数字人文国际工作坊”等，均产生较大影响。2019年中国人民大学信息管理系牵头建立校级数字人文研究中心，在图书情报与档案管理学科下设全国首个数字人文硕士点，北京大学的数字人文中心于2021年1月正式宣告成立。此外，南京农业大学、中南民族大学等多个高校拥有自己的相关中心。中国社会科学情报学会数字人文专委会和中国索引学会数字人文专委会先后成立，自2019年起负责召集、举办全国数字人文年会，评出年度优秀项目和优秀论文。

2016年起，戴安德、姜文涛在《山东社会科学》上主持“数字人文：观其大较”栏目。2019年12月，清华大学与中华书局创办中国大陆第一个数字人文学术刊物《数字人文》（Journal of Digital Humanities）。一年后，中国人民大学信息资源管理学院推出《数字人文研究》。

方法共同体与基础设施建设

近年来机器学习有了长足进步，以深度学习为代表的数据驱动范式在业界取得了成功，人文学者开始希冀基于大数据的“计算智能”为传统学术带来翻天覆地的变化。在研究实际中，好的人文学者大都坚持“问题取向”，带着强烈的问题意识来构建数据集，寻求能够契合研究性问题的一两种主要技术手段，如此便在处理人文问题的同时，也完成了一项应用性的技术探索。

文本挖掘是“远读”海量文献时采用的一系列技术“集合”的统称，早期应用中有代表性的是对古代作品的作者归属研究。近年来的文史研究中，对文本挖掘倚重较多且能行之有效的，是金观涛、刘青峰、郑文惠、刘昭麟、邱伟云、梁颖谊等的“数字观念史研究”。他们以“中国近代思想史专业数据库（1830—1930）”为对象，运用词频统计、自然语言分布定律、词共现网络等方法，从海量语料中自动生成关键词群，对词群和网络所表征的价值体系进行历史语义学的描述，以之勾勒近现代思想观念的结构转型和演化趋势。此外，高剑波、赵思渊、胡恒、王涛、申斌等都取得了引人注目的成绩。台湾大学项洁团队近年来注重以基于特征的算法，发掘巨量文档间的多重知识脉络和关联结构，如对两部官修类书和淡新档案的研究。南京师范大学先后建设了《左传》《史记》《资治通鉴》等语料库平台，实现了词语概念的本体化检索，可用于更精准的数字人文研究。无监督的聚类和分类算法最近被用于古代文类和类书，甚至现代文类的研究，借此与一些文学史命题形成对话。前者如诸雨辰、李坤、胡韧奋对《汉书·艺文志》中的存世文献进行自动聚类实验，后者如芝加哥大学文本光学实验室与上海图书馆合作的“民国时期期刊语料库（1918—1949）”项目，采用朴素贝叶斯分类器、层次聚类和网络分析等多种方式，对近现代期刊中“新文类”的构型因素进行多层面研究。

深度学习和大规模语料结合，特别是近来预训练模型（如BERT）的提出和发布，使得“大数据预训练”加上“小数据微调”的做法在中文古籍处理方面拥有众多应用场景。清华大学自然语言处理与社会人文计算实验室曾以80余万首旧体诗语料和标注知识库，来训练专门的词汇句法模型，研发“九歌人工智能诗歌写作系统”。北京师范大学中文信息处理团队利用BERT成功提升了命名实体的准确率，开发古诗文断句和多元古籍标注系统。中华书局古联公司、龙泉寺和北京大学也上线了高效的自动标点和专名识别系统。清华大学邓柯团队的无监督中文文本分词方法TopWORDS系统，可以用极低的人力成本从海量经典古文献中快速建立专名索引。

社会网络分析是很多关系型数据库的方法论基础。在“中国历代人物传记资料库”中，各类实体间的关系经过人工编码，依靠算法来衡量，可在瞬间获得历代人物的生平资料，对其所置身的亲属、官僚、师门、著述、通信等社会关系一目了然，如包弼德、魏希德对宋代士人网络的研究。严承希、王军从CBDB中抽取数据，设计算法来表示宋代政治党群网络。徐永明利用数据库，将汤显祖的社会关系准确投射到地理坐标图上。王涛充分利用《德意志人物志》中人物的生卒地信息，绘制出15、18世纪德意志人物的“出生地图”和“死亡地图”。陈松对现存宋代地方官学碑记的作者进行网络分析，揭示宋代四川与其他地区在思想观念交流上的结构性鸿沟，以及理学思想在官学碑记写作中与日俱增的影响力。严程建立了以顾太清为中心的闺阁诗人交游网络，解释了“秋红诗社”的“中断之谜”。许超等在《左传》标注语料库基础上，将“人物”与“事件”实体通过共现网络表示出来，发现了春秋网络的小世界性。

图像与视觉化是数字人文研究不可或缺的重要手段。向帆、朱舜山采用“中国历代人物传记资料库”中的家族关系数据，结合上海图书馆的家谱数据和可视化、3D技术及其交互性，建构中国古代皇室家谱巨大的树状立体网络。王军、李晓煜的“宋元学案知识图谱系统”将《宋元学案》中的人物、时间、地点、著作以及它们之间的复杂语义关系提取出来构造成知识图谱。由莱斯大学Tani Barlow和南京大学陈静合作的“中国商业广告数据库”，对海量商业广告进行数字化和元数据标注，结合文本挖掘及图像自动聚类工具，完成广告内容和图像的量化分析，并将其放置于其他信息关联的节点上，来追踪广告业发展与中国近现代社会思想之间的关系。

历史地理信息化与空间人文研究可看作数字人文中技术性最强、科学化程度最高的分支体系。“中国历史地理信息系统”（CHGIS）使用典型的矢量化数据，以点—线—面的组合来描述现实地理世界信息，对后续历史地理信息化产生深远影响。2013年后，复旦大学、首都师范大学和陕西师范大学、云南大学等均发布了“丝绸之路”的地理信息平台。其他独立的平台还有南京大学陈刚团队于2006年开发的“六朝建康历史地理信息系统”，上海交通大学曹树基主持的“中国历史地图地理信息平台”等。南京师范大学“华夏家谱GIS平台”，致力于以通用型GIS数据模型和标准来处理历史文献，将家族、人口、迁移等多方面问题相关联。中国人民大学历史地理学团队借助“《缙绅录》数据库”，发挥GIS在清史研究中的功用。中南民族大学王兆鹏团队“唐宋文学编年地图”将GIS、电子地图与唐宋作家作品编年信息深度融合，提出“系地”的概念。浙江大学徐永明主持的“学术地图发布平台”，支持用户个人上传数据，生成学术地图，包括历史人物行迹图和各类实体定位查询图等，提供了一个友好、专业的信息共享环境。台湾“中山大学”简锦松教授倡导的“现地研究”、何捷在天津大学筹建的SHAPC Lab，近年来贡献了颇多开创性成果。

近年来信息管理学界提出了一套“智慧数据”的解决方案，为铺设全面的人文网络基础设施，特别是提升文化遗产保存和研究领域的价值提供了保障。武汉大学王晓光团队与敦煌研究院合作，围绕“敦煌智慧数据”建设和敦煌文化遗产保护、研究和传播，建构了敦煌壁画的图像增强展示和叙事系统。中国人民大学冯惠玲团队的工作以“高迁古村数字记忆网站项目”为代表，为用户提供了一个可检索和呈现、富含语义关联的沉浸式知识库，完成了多种文本的再媒介化和交互式诠释。

数字人文学界已经普遍认识到，一方面，有必要尽快确立技术和元数据的统一规范，实现全国乃至全球范围内的数据、技术资源共享；另一方面，要为专业人文学者赋能，增强大型通用研究平台的建构能力。其代表，如上海图书馆的“历史人文大数据平台”，整合了“中国家谱知识服务平台”“中文古籍联合目录及征询平台”“人名规范库”“中国近代报刊库”等前期资源，建立起有关人物、机构、事件、物品、时空、领域概念等词表体系及知识图谱，实现了对扫描图片的互操作管理，数据中台和算法中台具有共享数据和计算的能力。与此同时，刘炜、夏翠娟、王晓光、陈涛、张春景、张磊、黄水清、朱庆华、王东波、赵宇翔、许鑫、包平、李斌、欧阳剑、赵生辉、张卫东、裴雷、聂华、王丽华、张卫东、左娜、徐晨飞、张永娟、朱锁玲、李欣、单蓉蓉等诸多学者在基础设施的设计和理论方面都发表了奠基性成果。朱本军、张久珍等较早意识到国家基础设施建设的文化战略意义，敦促中国学者牢牢把握数字基础设施建设的主动权，同时吸引海外学者进驻参与。台湾大学项洁教授主持的“Docusky数位人文学术研究平台”，整合了个人文本的格式转换、标记与建库、探勘与分析，以及视觉化观察、GIS整合等数字人文的工具模块，致力于为人文学者提供个人化的资料储存和分析平台。此类平台也提供API接口，可以获得外部资源，让人文研究者不必再步步仰赖信息科技专家，自主且自由地融合数字科技进行人文研究。

中国古典文献学的资深学者们则就当下古籍由数字化向数据化再向知识化的进程提出激荡人心的宏大构想。清华大学刘石、孙茂松教授提出建设“中国古典知识库”（CCKB）的构想，即以20多万种全部存世古籍为基础，辅之以相应的工具，在保障古籍文献内容完整性及内部逻辑性的基础上突破文献原有结构，通过实体及相互关系对文献进行深层组织和知识管理。

前景、挑战与问题

2019年以来，适逢中国教育部力推“新文科”建设，数字人文在中国被寄予厚望。数字人文带来了材料和议题的扩展，一些在前数字环境下无从观察的现象、难以想象和处理的议题得以展开。在学科区分日趋细密的今天，数字人文重新唤起人文学者思考和解决“大问题”和“综合问题”的雄心。在数字人文的背景下，学科的固化、社会科学与人文学术间的壁垒和禁忌将被进一步破除，量化实证的方法将进一步得到规范化的运用，跨学科、多学科协作的知识生产方式将重塑人文社科领域。中文数字人文的推进有望触发中国人文学科在知识基础、认识论、方法论和评价体系等多方面的反思，一个学科大碰撞大融通的时代终将来临。

媒介变革使得整个学术界进入“后数字社会”，开放获取的学术出版和发表方式，将逐步影响学术生产方式。文献基础设施已经深入人文学科的每个分支，新时代的学者人人都要成为懂数据的文献学家。对单个命题有意义的自建专题数据集将与大数据对接，能够满足多样化的研究需求，可以展开有问题针对性的研究。同时，这些小型数据也将被使用者公开，源源不断地汇入全球数据海洋，在一种开放、共享的数字情境下，承担起连接更广泛的公共文化的桥梁作用。未来将有越来越多的文献数据库按照语义单元来组织领域知识，能够模拟领域应用的知识环境，促使研究者彻底摆脱纸质文献的存储和利用思维，实现真正高效、共享的资源“数据化”，促进文献学的“现代转型”。

从另一方面说，数字人文是将对象和历史材料数字化之后，在虚拟世界里建立起一套相应的映射和模拟系统，可以视之为一种典型的“再现实践”。因而，计算不可避免地具有“压缩效果”，数字人文无法自动获得批判性的维度，由“算法优化”主导的诸多数字人文研究，会将其进一步抽离具体社会、文化甚至技术语境。在“数据驱动”与“知识驱动”、“问题意识”之间，人文学者还需要把握平衡点，发展作为一种阐释和批评手段的数字人文，使其具有反思性的向度。在这方面，一部分人文学者作出了清晰的思考，认为数字人文须超越“工具角色”的阶段，反对数字人文的学科化，或将主导权交给仅仅在技术上占有优势的学科，提倡开放边界和“复数的数字人文”（陈静，姜文涛，但汉松）。未来应有更多的量化成果以“计算批评”的面貌出现——人文学者能够从自身的领域知识和细读体验出发，巧妙地利用数字工具设计实验，和数据驱动的结果交流对话，从而达到破除算法黑箱，揭示现象背后的文化逻辑的目的（赵薇）。同时，人文学者能够有效参与到搭建、部署、运行和评判复杂的计算和实验的系统工作中去，而不是“外包”给技术团队，如此才不会割裂实践的各个环节。从现实来看，踏实投入实践也是避免数字人文的泡沫化和过分虚热的唯一有效办法。

必须承认，数字人文绝非无所不能，总的看来，中国数字人文在很长一段时间内都将处于探索阶段，它所面临的问题也是显而易见的。其一，中国大陆的数字人文学术进展到今天，摇旗呐喊者居多，但真正投身实践的并不多。其二，缺乏规范，数字人文的标准和共识亟待形成。已发表的量化成果也面临严重的评价问题。在问题定义、数据集建构、技术实现、问题求解和结果评价诸环节都缺乏规范化的方法。其三，数字人文的评价体系建设任重道远。其四，来自国家、社会的决策和支撑体系也需要机制创新。其五，对于大量潜在的自发研究者来说，发展“微型数字人文”可能是别无选择的选择。

数字时代人文学研究的变革与超越——数字人文在中国

发展历程

方法共同体与基础设施建设

前景、挑战与问题

数字时代人文学研究的变革与超越
——数字人文在中国