数字人文在中国农史研究中的实践与思考
——以中华农业文明研究院数字人文项目为例

2021-12-31 08:37朱锁玲
农业图书情报学刊 2021年8期
关键词:物产典籍方志

朱锁玲,包 平

(南京农业大学数字人文研究中心,南京 210095)

1 引言

数字人文是数字技术与人文学科交叉融合的研究领域,其产生在本质上属于一种方法论和研究范式的创新[1],即通过数据计算与挖掘发现传统人文研究方法难以得出的新观点、新线索,或为新观点、新线索的发现提供数据、技术及工具支撑[2]。国际数字人文组织联盟(The Alliance of Digital Humanities Organizations,ADHO)每年召开一次数字人文国际会议,全球多所大学也已建立数字人文研究中心。这些数字人文研究学会和研究机构为各类人文研究项目提供丰富的数据支撑、持续的资金支持、机构间的协同管理以及研究人员的培训服务,在哲学、历史学、文学、语言学、艺术学等多个学科领域取得丰硕成果[3]。

农史学作为一门介于自然科学与社会科学之间的交叉学科,其跨学科属性决定了其研究方法的多元化,也给农史研究带来了新的契机。国外在该领域已有不少数字人文实践探索,如美国国家农业图书馆开发的农史数字人文项目“Growing a Nation:The Story of American Agriculture”借助视频等多媒体形式,以剧本故事的方式讲述美国的农业史[4];日本农林水产省建制的“Agriknowledge”知识库提供了论文、研究成果情报、研究课题、研究业绩、认定品种、农机具等大量日本农业科学与技术相关的信息资源[5];印度科学研究院学者利用1990—2016 年的Landsat 卫星图像数据,对印度密集的地下水灌溉农业流域的灌溉历史进行估算[6];另外,澳大利亚的牛奶记录系统是澳大利亚农业大数据使用的首批案例之一,它收集、分析和使用农场层面的数据(牛奶生产、泌乳和育种记录),提供奶牛个体和牛群的性能信息,供农场主个人在农场管理决策时使用。澳大利亚拉特罗布维多利亚农业大学的学者通过分析澳大利亚牛奶记录系统中1912 年至今的历史数据,探讨大数据在农业决策中的应用,提出数据展示格式的多样性有助于促进农场向数字化和智能农业的转型[7]。

中国数字人文研究正如火如荼地开展,研究者不仅在理论与方法层面进行深入探讨,包括对数字人文的概念、内容、发展历史、研究现状和前沿方向进行全面介绍[8],提出加快面向人文研究的国家数据基础设施建设[9],探讨数字人文的技术体系及理论结构[10]等;在实践应用层面也开展了不少有益探索,应用领域涉及历史学[11]、文学[12]、档案学[13]等多个学科,处理的人文资料包括文化遗产文献[14]、家谱[15]、地方历史文献[16]、先秦典籍[17]等。至于农史学领域的数字人文实践项目,目前仍较少,且主要集中在南京农业大学中华农业文明研究院。该研究院作为国内农史研究的重镇,其特藏《方志物产》等资料被学界誉为“海内孤本”。近年来,围绕方志物产典籍的整理与利用,学者们先后开展了以数字化整理及素材库构建为主的数据基础设施建设、以命名实体识别为主的文本挖掘研究、以地理信息系统和社会网络分析应用为主的可视化呈现,以及以知识服务平台构建为主的应用开发等一系列数字人文研究,成为农史学领域数字人文应用实践的典型。本文以中华农业文明研究院围绕方志物产典籍开展的数字人文研究项目为例,介绍项目的研究进展,分析数字人文研究中存在的问题并提出相关对策,旨在为数字人文视角下的农史研究提供参考与借鉴。

2 项目研究进展

2.1 数字资源建设

农史研究须以可靠和充分的农业史料为基础。方志物产史料主要记录一地出产的植物、动物、货物(含天然产矿物与动植物制品)等资源,是农史研究中不可或缺的重要文献资料。因方志物产史料极为丰富却又十分庞杂,整理和利用的难度很大,以往农史学者对方志物产史料的提取和利用都是通过手工逐页逐字地在数量浩繁的方志中搜求翻检,费时费力。如今,信息技术飞速发展,数字人文、语义技术等的实践应用不仅能降低方志物产史料整理和利用的难度,也能通过数据驱动的研究范式以及新的资料呈现方式揭示方志物产典籍中的隐含知识,推动数据共享和联合研究。

数字人文在农史研究中的实践基础是数据资源建设。早在20 世纪50 年代,金陵大学农业图书研究部万国鼎先生组织人员从全国40 多个大中型城市、100多个文史单位、8 000 多部地方志中手工摘抄物产资料,后于1960 年初编成专题性资料——《方志物产》。该方志物产史料详细记载一地物产的名称、性能、作用及分布情况,在一定程度上反映了当时当地的民生状况,对农史研究具有重要参考价值。

2000 年始,中华农业文明研究院农史学家王思明教授带领团队分阶段完成对《方志物产》全部内容的扫描,并采用人工录入的方式初步实现《方志物产》文本字符的数字化。之后,以情报语言学家侯汉清教授为首的研究团队从技术层面对文化典籍整理与开发的智能技术进行了系列研究,通过对自动编纂、自动注释、自动校勘、自动断句标点、自动分类标引等技术的实验性探讨,推进了古典文献整理研究的自动化和智能化。

近年来,中华农业文明研究院数字人文研究团队在《方志物产》数字化成果的基础上,对照原手抄本和扫描图像对《方志物产》的电子文本进行人工校对,对错字、漏字做修订、补充和注释等处理;制定《方志物产》文本格式规范化整理的说明文档,在此基础上将非结构化的《方志物产》电子文本转换成包含物产名、志书名、年代、物产类别、物产说明、省属及地区编号等关键信息在内的半结构化数据,并以素材库的形式予以存储,实现了物产的导入/ 导出、浏览、查询、删除、修改、统计等功能。《方志物产》素材库的建立为中华农业文明研究院数字人文项目的研究奠定了数据基础,开启了农史学领域数字人文研究的基础设施建设。

2.2 命名实体识别

面对海量的《方志物产》文本数据,农史学者迫切需要一些自动化的工具来帮助其进行信息处理,命名实体识别是其中必不可少的关键技术。所谓命名实体,是指现实世界中具体的或抽象的实体,如人、地点、组织,广义上也包括时间、数量表达式等,通常用唯一的标志符(即专有名词)表示,如人名、地名、组织名等。《方志物产》文本中,命名实体主要包括人名、地名、物产及其别名、时间、引书名等。这些实体作为《方志物产》文本的基本信息元素,包含了《方志物产》文本的主要知识内容。命名实体识别的任务主要包括两部分:一是确定命名实体的左右边界,二是识别命名实体对应的类别。因《方志物产》的行文格式和语言特点皆不同于现代文献,命名实体识别任务相对复杂,学者们结合《方志物产》的语法特点,先后开展了一系列探索研究。

2008 年,白振田等以《方志物产》广东分卷为语料,设计并构建了古籍引书挖掘系统,探讨引书的模式提取、N-gram 分词识别等功能算法[18];2011 年,朱锁玲以广东、福建、台湾三省《方志物产》为例,分析、归纳物产说明文本的描述特征,提炼物产地名的不同表达模式,采用基于规则的识别方法对物产地名进行识别。由于识别规则的覆盖面有限,《方志物产》资料数字化处理过程中存在生字、错字等原因,物产地名识别的准确率不足70%[19];2018 年,李娜以《方志物产》山西分卷为例,分析文本书写特征并研制出方志物产的多特征词汇表,通过人工标注、机器学习的策略实现方志物产别名、人名、地名、引书名的自动标注,同时构建基于条件随机场的方志物产典籍地名、人名、引书名、物产别名等实体的自动识别模型,物产别名、地名、引用名的识别精确率较好,但人名的识别精确率不到80%[20];2020 年,徐晨飞又以《方志物产》云南分卷为例,在分析并归纳史料知识书写差异性的基础上制定方志物产的多特征词汇表,通过人工标注、深度学习的策略实现对方志物产文本中物产别名、人名、地名、引书名的智能识别,同时构建基于Bi-LSTM-CRF 的方志物产实体识别模型,整体识别精确率为81.87%,验证了深度学习应用于方志类典籍文本数据集具有一定的可行性[21]。

从起初基于规则的识别方法,到后来基于统计的识别模型,再到基于深度学习的人工智能标注平台,学者们一直致力于寻求适合方志物产典籍命名实体识别的有效方法。该工作将研究的触角从文献整理层面深入到知识组织层面,实现了对文本数据的细粒度管理,是知识从产生来源到利用终端的重要中间过程。

2.3 大数据分析及可视化展示

基于命名实体识别的结果,数字人文研究学者采用定量分析的方法,结合各类统计模型对数据进行计算、分析,提取数据之间的关联关系,借助关联关系揭示数据中隐含的规律性知识,并利用可视化工具予以展示。

最初,学者基于物产地名的识别结果及识别规则,利用时空分析的方法,开展物产种植区域及引种路径的知识挖掘及可视化研究[22,23]。先后统计、分析物产及其原产地(识别规则为“本出-”“来自-”“种自-来”“唯-产”等)、优产地(识别规则为“-产者佳”“-出者佳”“产-者佳”“出-者佳”等)、高产地(识别规则为“-多产”“-多出”“唯-类多”“唯-盛多”等)等数据,整体还原特定物产的优质产地在空间上的地域分布以及时间上的历史变迁,揭示不同历史时期外来物产通过对外贸易、朝贡、朝廷使者或传教人士传入等各类途径引种、推广和传播的历史演变。

之后,又有学者基于物产类别名称开展物产栽培种类及分类体系的知识挖掘研究[24]。利用时空分析的方法,统计、分析物产类别名称、地名、时间,揭示不同历史时期、不同地域的物产栽培种类,同时构建方志物产分类体系,揭示物产知识被标准化的过程。

除时空分析之外,社会关系分析法也被用于农史研究中的大数据分析。学者基于物产别名、人名的识别结果,运用社会网络分析方法揭示物产与别名、物产与人物、人物与人物之间的网络关系并进行可视化呈现[25]。通过抽取语料识别结果中蕴含的物产与别名、物产与人名、人名与人名的关联关系为数据对象,借助社会网络分析方法中线值、点度、个人中心网络、连通子网络等维度,直观呈现物产异物同名、同物异名的网络关系,揭示特定人物与物产之间的关系(如苏轼曾赋诗描写菠菜、杜鹃花、海棠、芥菜、蒲笔、荠菜、荞麦、人参、芍药、松膏、薇、枣等物产),挖掘不同人物之间(如李时珍与张骞)因物产而建立的关联等。

时空分析、社会关系分析等方法的应用,使农史研究和数字人文技术更加有效地对接和融合,细化了农史研究的时间粒度,也深化了农史研究的空间层次,推动农史研究从传统的选择性分析向整体性还原转变。

2.4 知识服务平台构建

大数据分析通过数据驱动的研究方法揭示了海量的物产数据中隐含的知识,为知识发现提供了可能。学者们在此基础上又进一步开发了方志物产相关知识服务平台,推动数字人文研究的技术转化和成果应用。

最初,中华农业文明研究院的学者基于物产地名的识别结果构建了物产地名查询平台,通过该平台可浏览、查询方志物产的地名识别结果,获取不同历史时期特定物产其种植区域分布的相关知识;也可按物产名、物产属名、物产地名、识别规则、志书名称、时间等条件进行知识的聚类检索。

之后,他们又在物产地名识别的基础上,借助命名实体识别方法实现方志物产典籍中优质产品及其产地、贡区、出口区、名人故事、诗词歌赋等内涵信息的自动识别,并基于机器识别结果构建地方优特产品数据库,为深入挖掘地方特产的历史文化内涵提供了计算机可直接统计与运算的数据。这些与当地独特的自然资源和人文传统资源密切相关的历史文化底蕴,为各地地标农产品发展及地标品牌建设提供了数据支撑[26]。

近年来,学者还尝试构建了基于关联数据四原则与语义技术框架的云南方志物产知识库,实现了物产知识检索、知识聚合、时空展现等功能,能够为相关用户提供物产时空聚类分析等增值服务[21]。

上述知识服务平台皆以新的知识谱系和新的知识呈现模式展示《方志物产》中蕴藏的物产知识,是数字技术与农史研究深度融合的具体体现,这就使得方志物产典籍不再是平面的、孤立的史料,而是成为一个立体的、融合的文化学术信息知识库,一方面可使研究人员充分享受到现代数字化技术给学术研究带来的便利,在资料的搜集、整理等基础环节上节省大量时间;另一方面也使其有可能从中获取新的思路和研究方法,开拓新的研究方向与课题内容。

3 项目研究存在的问题

围绕方志物产典籍的整理与利用,中华农业文明研究院开展的数字人文研究在取得一定进展的同时,也面临一些问题。

3.1 基础数据的全面性与准确性亟待完善

数字人文研究的对象是基础数据,数字人文研究是基于对数据的计算与分析得出相关结论,所以,数据的全面性和准确性直接关系着数字人文研究的成效。中华农业文明研究院数字人文应用研究的基础数据主要来源于《方志物产》,由于该史料本身的特点以及史料整理过程中的诸多因素导致数据在全面性与准确性方面仍存在一定缺陷,需进一步完善。

首先,不可否认的是,因不同朝代、不同地域的方志物产其编纂水平良莠不齐,有些史料详实、考证精准,而有些则考证不精、裁剪不当,部分方志物产的内容过于简略,或仅列少数物产,或仅列物产名称而对物产不加任何注释,这些都将影响数据集的质量与颗粒度。其次,因《方志物产》是手工摘抄的方志物产汇编资料,抄得全不全,对不对,其覆盖面和完整度如何,还需结合海内外现存的方志目录作比对及补充辑录。再者,从手抄本到电子文本的数字化加工过程中,尽管研究中采用了汉字超大字符集字库,也配备了字符集字体支持包,并在校对过程中补充漏字、修订并注释错字,但仍有不少集外字无法录入,导致数据缺失。另外,《方志物产》中引用了大量民国时期的实业调查报告,其中有不少珍贵的统计图表在数据的半结构化处理过程中存在少量的信息丢失。这些数据问题都成为制约数字人文研究的瓶颈,亟待完善。

3.2 数字人文技术与方法的应用有待深入

围绕方志物产典籍整理与利用开展的数字人文研究已尝试利用扫描、数据库设计、实体识别、时空分析、社会关系分析等技术与方法实现了典籍资源的收集、发现、比较、发布等功能。这些技术方法的应用不仅为学者在研究过程中节省了大量的时间和精力,还帮助他们发现了大数据背后隐藏的农史事实,也改变了传统农史研究的认知角度和方法,使农史研究从选择性分析向整体性还原的转变成为可能。但从已有的应用实践来看,数字人文相关技术与方法的运用还比较粗浅,也存在一定缺陷。例如实体识别技术的应用过程中,因《方志物产》史料为古文,没有句读和标点,且行文格式也不同于现代文本;加之方志资料本身具有较强的地域性,史料中各地地名、人名、物产别名、引书名等实体的表述不尽相同,尤其是不同地域的地名差异性较大,这些都直接影响了算法模型的性能,所以应用过程中必须结合一定量的人工标注及校对工作才能保证识别的效果。此外,数字人文技术与方法的应用也比较单一,尚不够全面。数字人文技术方法体系丰富,可应用于整个数字人文研究的生命周期过程中。而方志物产典籍是中国独有的文献资源,其文本书写特征与知识组织方式的揭示、物产相关历史文化与传统技艺的仿真与再现等,都有赖于更多数据分析技术、可视化技术、VR/AR 等技术的深入应用。另外,已有的知识服务平台主要是提供规范的数字化信息和数据,大量的软件和统计分析工具尚未能提供,众包、协作等功能尚未实现。

3.3 数据结果的实用性与新颖性尚待考证

中华农业文明研究院的数字人文研究项目通过数据计算与分析得出的数据结果,如果不加甄别地直接用于下一步的农史解释,很难形成阐释意义,这也是目前很多数字人文研究可能存在的问题。这种完全由数据驱动、主体介入较少的结果,其实用性很难不引起人们质疑。所以,严格意义上来说,这些数据结果都还仅仅是假设,尚未得到人文学科领域的专业检验、考证与解释,不能算作问题求解的结果。例如方志物产典籍的命名实体识别环节中,一些物产的品种、地名因其出现的特征与别名十分相似,被机器误判为物产别名(比如机器识别出赭石的别名有“代赭、雁门、土朱、铁朱”,而其中的“雁门”并非赭石的别名,而是地点“代”表示的地名;比如机器识别得出物产“稷”有43 个别名,但其中“朱砂红”“牛尾黄”“狼尾”“秤锤”其实是“稷”的不同品种,并非别称),这些结果都需经过领域专家的甄别才能为下一步研究所用。

再者,在数据结果的基础上形成的知识发现的初步结果,理应是传统人文研究方法难以得出的新观点或新线索,如果其新颖性不能获得农史学者的普遍认可,则失去数字人文研究的意义。所以,知识发现的初步结果其新颖性尚有待农史学领域专家的专业考证。

4 相关对策

针对中华农业文明研究院数字人文项目存在的问题,笔者提出以下几点对策。

4.1 以数据资源为核心,加快数字人文基础设施建设

针对方志物产典籍数字人文研究中基础数据的全面性与准确性存在一定缺陷的问题,首先需要掌握方志物产史料的目录,尽可能获取该领域的主要内容。一方面可通过比对海内外现存方志目录,对缺失部分进行补充辑录;另一方面也可关联古农书、博物志及物产志、笔记、正史、本草类典籍、小学类等其他典籍,辑录其中所载物产史料,力求数据全面。其次,要妥善解决史料文献数字化过程中集外字录入的问题,可通过对比分析目前古籍数字化实践中集外字的处理方法,总结归纳替换法、造字法、描述法等各类方法的优缺点,同时结合物产相关典籍的文本特点,考虑采取构造集外字资源库、开发专门的生僻字输入法软件等方法予以解决。再者,针对特殊类型的史料信息,要制定统一的处理规范,避免因处理不当造成信息丢失。如针对典籍中的图表信息,应尽可能整体还原并多层级标注,形成领域内的操作规范与执行标准。

以数据资源为核心的数字人文基础设施建设是数字人文项目的首要工程。数字人文基础设施,即支持人文学者在数字环境下开展科研活动的必须具备的基础设施,包括与主题相关的数字化文献资源、数据、软件工具、硬件(云存储),系统平台等对象。这些基础设施能够支持人文科学研究数据的分享与重用,促进科研成果在线出版、全球人文学科合作,加速科研创新的生态系统[27]。中华农业文明研究院拥有丰富的农史资料,如古农书、农业期刊、农史论文、农业调查报告等。中华农业文明研究院开展数字人文研究应当以人文学者的学术研究需求为出发点,选择具有独特性的史料资源,制定建设规划,从数字化、数据化,到知识化、平台化,最终关联多方外部数据提供知识服务,建成具有中国特色、农史风采的数字人文基础设施。当然,建设过程中需要加强多方合作,鼓励众包加工,实行共建共享,避免重复建设。

4.2 以技术方法为支撑,强化数字人文技术在农史研究中的实践应用

数字人文研究中,学者试图将文本挖掘、内容分析、多媒体出版、信息可视化、地理信息系统、虚拟现实以及深度学习等多种信息技术融进人文领域的研究,这样不仅能跳出传统人文学科的研究范式,也能在发现新问题上有独特优势。上文提到中华农业文明研究院数字人文项目中数字人文技术与方法的应用尚为粗浅、不够全面,笔者认为可围绕数字人文研究的生命周期过程建立体系化的技术方案,强化数字人文技术在农史学研究中的实践应用。首先,立足农史资料的文本特征,研制语料的自动分词、自动断句、标点、词性标注、实体识别和浅层句法结构标识、语义分析、语用分析、语境分析等研究支持工具,实现计算机对史料的字、词、句、篇章的存储、识别、分析、理解、生成等多方面的加工处理,通过文本分析实现对方志物产典籍书写特征和知识内容组织方式的揭示。其次,针对方志物产典籍中所记载的一些地方名优特产的传统制作工艺等,可尝试借助场景模拟、历史仿真等可视化技术进行直观、形象的再现。再者,在知识服务平台上提供规范的数字化信息和数据的同时,也应尽可能提供诸如GIS 平台、时间线工具等一系列软件和统计分析工具,以便减轻学者的基础工作量,使其能够有更多的精力集中在创新性研究方面。当然,值得注意的一点,技术方法的应用皆有一定适用范围,其使用是有条件的,当数字人文技术与方法应用到农史资料的处理过程中,相应的领域化改造工作必不可少,可针对选定的研究问题以及史料数据的实际情况改进算法或调整参数,注重算法的运行效率,以确保数字人文研究软件和系统能高效运行。

4.3 以农史专家为主导,实现对数字人文研究结果的考证

在方志物产典籍的数字人文研究中,一些通过数据计算与分析得出的数据结果由于缺乏专业领域的考证,尚无法投入实际应用。事实上,无论是基于自然语言处理技术得出的数据结果,还是利用社会网络分析法予以可视化呈现的隐含知识,均需经过专业人员的检验和校对,要有领域专家的解释和考证,这样才能使数据真正转化为可靠的知识,从而激活蕴藏在典籍中的深层文化基因;也才能使数字人文研究的结果被领域学者所接受,使其焕发新的学术生命力。

当然,考虑到人工检验和校对耗时耗力,可通过计算机辅助实现数据结果的自动比对。如对物产别名的检验和核对,可借助计算机对提取的物产别名进行汇总及组内比对,对每一条物产别名皆链接其来源志书对应的原文及扫描图像。而在数据结果的基础上所得的问题结果,即大数据驱动下通过新的资料呈现方式所揭示的农史典籍中的隐含知识,还需以农史学领域专家为主导进行专业论证与考释,如对物产同名异物、同物异名的考证,对特定物产其性状变化、数量消长以及变迁路线的考证等。如果领域专家对数字人文研究结果不能完全接受,就需要重新审视问题选定、数据采集与整理、算法设计与技术实现、知识发现与展示等各个过程,调整思路继续研究。这样的考证,能够从“基础数据”的层面,实现真正的跨学科协同合作,并从方法和路径的层面打通自然科学、应用工程、社会科学、人文科学与艺术的综合研究,也使得研究者从自身的学科立场出发,得以扩展到其他领域,并能以“问题导向”出发,与其他学者协同研究,实现研究层面的资源最大共享化、分析方法的最大通约化和知识内容的最大综合性[28]。

5 结语

诚如学者所言,“作为一个不断变化和再定义的新兴领域,数字人文注定要在跨界与融合中谋求发展,在追问与反思中不断前行[29]”。经过几十年的发展历程,目前数字人文在实践上仍处于分布式的摸索阶段,在研究中尚缺乏与历史、文学等具体学科的紧密结合。本文以中华农业文明研究院的数字人文项目为例,梳理已有研究进展,分析存在问题,并提出相关对策和建议。今后,农史学领域的数字人文研究应广泛借助相关技术与方法赋予传统农史资料以新的知识谱系和新的知识展示模式,更好地帮助研究学者、社会政企和公众等各类用户解构、表现和利用农史知识。希望该领域的实践探索能够有助于推动数字人文视角下的典籍传承与学科融合,促进数字人文技术转化与成果应用。

猜你喜欢
物产典籍方志
晚清来华德国人的中医典籍译介及其学术影响
Effects of O2 addition on the plasma uniformity and reactivity of Ar DBD excited by ns pulsed and AC power supplies
Development of a battery-operated floatingelectrode dielectric barrier discharge plasma device and its characteristics
The investigation of OH radicals produced in a DC glow discharge by laser-induced fluorescence spectrometry
《典籍里的中国》为什么火?
Activated persulfate by DBD plasma and activated carbon for the degradation of acid orange II
“瓟斝”与“点犀”新解*——兼论中国典籍中名物词的英译
实践活动—教学设计案列
东北地域物产及其词语缘由
典籍翻译模式的构建与启发