摘要:明确数字人文及数字人文服务平台的内涵,解析目前数字人文服务平台建设中存在的误区。通过提炼民国档案数字人文服务平台建设的价值目标,确立民国档案数字人文服务平台的功能定位,进一步(从完善跨学科研究体系、构建档案整理开发自动化体系、优化知识服务体系、加强网络文献资源采集和信息组织等四个方面)提出民国档案数字人文服务平台的建设思路。
关键词:开放利用 民国档案 数字人文服务平台
新《档案法》把创新档案信息资源共享服务平台建设作为推进档案开放利用体系和开放利用能力现代化的重要内容,提出了“推动档案数字资源跨区域、跨部门共享利用”的目标要求。民国档案资源建设是档案信息资源建设的重要组成部分,是提升民国档案服务能力的一项基础建设,也是当前和今后民国档案工作的一项重点任务。
数字人文是借助数字科技进行人文研究的新型跨学科研究领域,从技术角度看,其热点主题有文本挖掘与可视化、语义网技术两类。前者又可以分成三个子主题:文献计量与知识图谱,自然语言处理、机器学习与可视化,文本挖掘、可视化与地理信息系统(GIS)技术。[1]空间人文通过抽取文献中不同粒度的地理位置、人口、自然等信息,利用GIS重现原文对地点的描述,或与现实地理位置关联,为历史、考古等研究提供支撑。文本挖掘则是沿着“从真实的数据到结构化数据,再到有用的知识”这条路,通过标记数据或发现数据隐式结构,将文本数据转化为多维知识。[2]
数字人文服务平台本质上就是基于数字人文技术构建的一个聚合数据资源、数据工具、数据服务的知识共享平台、内容开放平台。通过对国内数字人文项目的考察,当前数字人文服务平台主要实现的功能包括六类:一是文本挖掘。利用文本挖掘、关联数据等技术对文本内容信息与外部特征进行捕获与收集,分类组织、定量分析并提供多种检索途径;二是可视化分析。基于可视化工具将地理空间与时间空间的相互叠加,以图表、词云、动图等形式勾勒地理空间和特定历史事件、事物或数据间的联系,形成路线图、演进图、沿革图、迁徙图等可视化图表[3];三是场景模拟与复原。通过对文献记载、图像、音视频资料进行分析、挖掘,运用计算机建模、关联数据等技术将相关元素集中分析提炼,立体、多维、生动的还原各类历史场景;四是语料库利用。挖掘口述文献、文本文献中的大量地名、机构、人物等名称,建立人名库、地名库、地理名词表、机构名录等规范数据库,提供多途径检索服务;五是用户参与。对开放浏览的数字化资料提供自由创建标签、百科辞典编辑、数据审核众包等互动参与式的利用服务;六是研究支持。汇集必要的背景知识、参考数据,以及历史年表、历史地图、字典词典等研究工具。
一是单学科利用需求大于社会公众需求,导致数字人文服务平台的价值迷失。数字人文服务平台建设的实质是以实现和维护公众权利为目标,通过匹配和实现公众表达资源需求、利用资源、参与建设的权利,推动数字资源的合理配置和有效利用。但目前数字人文服务平台建设一方面把某一学科利用需求作为平台建设的核心价值需求,把建设中的主要资源和精力都用于学科内部“表浅化的检索”,忽视学科间、数据间联结的建立,不足以提供增加新认知的结构性信息。另一方面,平台汇集了大量面向公众开放的数字资源,但在运行方式上,开放程度普遍不高,多数仅限内部使用,实际并没有让社会公众享受数字技术福利、降低查找文献资料的成本。
二是数字化外包替代多元参与,导致数字人文服务平台的协作格局没有形成。随着众包、共享等服务功能的出现,平台资源的提供者由单一的保管机构向个人、企业、团体等多中心转变,数字人文服务平台的建设主体不仅是人文社会科学学者、资源保管机构,还要依托群体智慧和用户的协同参与。“(网络世界资源交换群体)以社区论坛为活动中心,以网络云盘作存储场所,利用微博、微信群传递消息,通过这些形式发布的资源具有公开、免费和即时性。”[4]然而,由于部分资源涉及版权纠纷,存在大量繁复的甄别工作,并且数字化外包已规模化、专业化,使国内网络信息资料的采集与保存工作没有获得足够的重视,从而忽略了丰富的网络文献资源在数字人文服务平台中的作用,漠视了网络资源的集聚效应实际传达出的社会公众对自由、平等、开放数字人文服务平台建设的公共需求。结果不仅会导致协同合作的数字人文服务平台建设难以持续,也会因为缺乏用户参与和多主体参与而缺乏认同,演变成闭门造车式的自娱自乐。
三是被动开放重于用户需求,导致数字人文服务平台建设的路径本末倒置。目前数字人文服务平台一方面把主要精力放在新功能的丰富和实验上,对文本标引、词频统计、语义标记、文本对比、影像文字辨识等基础功能、工具的升级更新研究不足,使用户的参与度、参与数只是平台功能自我验证的实验数据。另一方面,平台旨在满足用户个性化的知识需求,但用户需求又无法影响数字资源供给的范围和水平,由此导致平台数据质量不高、数据间缺乏关联等不足,会不断带来新的功能诉求。因此,只有把用户需求作为数字人文服务平台建设的基本,通过优化知识服务模式,形成资源共建共享的高效分享机制,才有可能从根本上实现不同功能的合理实现与划分。[5]
四是项目式举措多于科学规划,导致数字人文服务平台建设的稳定保障不足。目前数字人文服务平台的原始语料库多是各类社科项目数据库建设成果的衍生,具备学术创新,但由于多数属于专题式、局部式、个人式的学术积累,缺乏宏观的统筹设计和科学规划,往往出现课题结项后数据库关闭或停止更新维护,可持续性不足的情况。当前,一方面数据库建设质量、规模的参差不齐,分类体系、功能设置的不一致,衔接沟通、配合协调的缺乏,使得单一数据库成为资源“孤岛”,难以构建纵向贯通、横向集成的数字人文服务平台资源库,实现量化研究和质性研究的对话;[6]另一方面部分平臺建设缺乏数字人文和传统研究方式的融通。人文学科具有特定的属性,这些属性对于数字人文的功能要求实际超出了文本间关联的发现,同时也对平台设计者、维护者的素质提出了更高的要求。
新《档案法》不仅对“推进电子档案管理信息系统建设,有条件的档案馆应当建设数字档案馆,国家推动档案数字资源跨区域、跨部门共享利用”的主要任务做了明确部署,也深刻指出数字人文服务平台的建设既包括档案开放范围、利用形式,还包括平台建设的内涵和基本原则。民国档案数字人文服务平台理应是工具价值和独立价值兼具的系统平台。
共享共建。在民国档案数字人文服务平台建设中必须坚持公众的主体地位。要树立档案活态保护、动态利用的服务理念,一切以维护公众利用档案的合法权益为根本,变“被动开放”为“主动开放”,最终走向“合作开放”,促进民国档案开放利用制度化、规范化、程序化,在学术科研、社会服务等方面发展更加广泛、更加充分、更加健全的共享共建机制。[7]
精准公平。一方面,档案部门绝不能只以“资源提供者”的角色参与到数字人文浪潮中,因为只有以公共服务部门为主导的数字人文项目才最有可能实现数字人文成果面向社会公众的免费开放。另一方面,民国档案数字人文服务平台的建设也是档案资源重新组织、配置的过程,必然面临各方主体的不同利用需求,只有建立精准的用户需求调查机制、公平的档案资源利用机制,才能有效化解供需矛盾,让档案整理编研、开放利用的成果更精准地惠及每一名用户,保障普通用户平等参与共建过程,构建资源匹配精准、机会开放公平的数字人文服务平台。
多元活力。在当前学科划分细化、学者跨界频繁、学术交流深化、学术原创精神不断拓展、学术视野更趋开阔的条件下,民国档案数字人文服务平台既要确保公共服务能力的最大化,坚守“为党管档、为国守史、为民服务”价值体系,确保基本价值功能不受侵害,也要鼓励社会多元,理解用户多样化和个性化的需求。特别是在数字人文服务功能的设置上,及时把合理的个性化诉求转化为服务功能的创新,让用户和网络文献资源充满生机活力,使民国档案收集与开放保持动态平稳状态。[8]
安全有序。民国档案数字人文服务平台的宗旨是确保档案开放有序、档案数据安全。面向社会化网络的平台建设并不是完全没有潜在风险,因此要在共同遵循规则秩序的前提下将档案安全风险控制在有限范围内,用户矛盾纠纷可以在统一的解决机制下获得较快解决。[9]首先需要平台具备完善的管理系统,依靠身份管理、诚信管理、知识管理弥合由于信息不对称、关系联结松散带来的风险形成;其次需要构建网络环境下民国档案资源建设的标准体系,包括收集、流转、存储、利用等方面的技术标准,以及档案元数据标准;最后需要建立知识产权保护机制,运用数字版权管理技术,全过程保护平台知识贡献者的正当权益,防止知识产权的滥用。
民国档案数字人文服务平台是以满足和维护公众需求为核心,发挥各类主体作用,针对现有档案开放利用中的不足,创新开放形式,强化服务功能,提高数字化水平,促进社会共享,推动民国档案工作紧跟时代改革创新。[10]《“十四五”全国档案事业发展规划》鼓励加大档案资源跨领域、跨区域、跨层级整合力度,推动档案数字资源跨区域、跨部门共享利用,具有很强的时代创新性和战略指导性,为我们深刻理解民国档案数字人文服务平台在促进民国档案开放利用中的功能定位提供了引导作用。[11]
一是推进档案治理能力现代化的先行示范。民国档案开放利用体系在形式上体现为一系列规范机制的档案管理制度,内容涉及保管、修复、整理、信息化、编研、利用等六个方面,重点在于利用规则、开放形式、服务功能、协作方向、数字化内容、信息安全的完善,实质是通过运用民国档案资源为国家机关和社会公众开展有关问题研究提供文献支持和便利,适应档案管理体系和档案治理能力现代化要求,实现民国档案事业走向依法治理、走向开放、走向现代化。民国档案开放利用能力,就是运用上述各项档案管理体制机制推进民国档案开放利用的水平和绩效。[12]因为民国档案开放利用能力反映了开放利用行为的水平和质量,是对创新模式有效性、合理性和长期性的直观度量。
二是提升民国档案开放利用实效的知识中心。民国档案的开放利用由于经过鉴定审查、划控、审核等流程,与公共需求存在一定时间上的延滞。随着近代史、抗战史研究的日益精细化,对外交流合作的日益国际化,公众阅文查档的日益频繁化,在加快民国档案开放范围扩大、开放方式转变、利用形式多样的过程中,必然面临知识观念深刻变化、协作方式深刻调整、档案需求深刻变动等现实难题,能否正确处理好民国档案事业发展与社会共享,数据化、全文化与档案保护,用户需求与档案信息安全,需求增长与服务供给不足等开放利用问题,这既是构建民国档案开放利用体系的基础,也是提升民国档案开放利用能力的前提。[13]
三是民国档案数字化成果集中展示的创新基地。民国档案数字化建设,既包括发展档案数字化工作,即数据信息挖掘、档案史料众包、档案文件级目录著录、档案信息安全等基本服务功能[14],也包括網络文献资料的采集、档案编研数字化出版。这些既是民国档案数字人文服务平台的核心内容,也是民国档案开放利用的基础。
四是强化社会协同合作的共享平台。其基本方向:一是以跨学科合作为利用方式。要实现民国档案数字人文服务平台的建设,必须建立一个以资源互通为基础,以多维度协作为特征的多元统一的数字人文服务平台结构。促进与博物馆、地方馆、科研院校等主体广泛协作的制度化发展。二是资源主体趋于多元化,档案保管机构必须与各种网络文献资源一起形成互补网络,在共同开放利用的基础上形成信息的重组与增值,共享档案资源,并使各方共同获益。[15]三是档案资源向社会的回归。档案资源的开放利用过程不再是自上而下、由内而外的,而是回归社会和网络之中成为服务者。
一是要完善跨学科研究体系。跨学科研究既指在平台建设中加入如文献学、民俗学、人类学、经济学、教育学、敦煌学等不同学科领域的方法和数据,也指在已有的海量文本数据挖掘中采用不同学科视角多维度、多粒度的提取文本数据中的知识信息。跨学科研究体系是推进民国档案数字人文服务平台建设的基本保障,也是影响其建设质量的制度基础。
二是要构建档案整理开发自动化体系。自动化体系主要是指实现档案整理开发自动化的技术保障和功能规则制度。档案的整理开发如果缺乏实现识别检错、主题提取、自动分类等技术工具仅依靠人工进行文本字符的数字化,就很难充分发挥档案资源的研究支持功能。首先,要建立民国档案文献语料库,利用抽取民国公文、职官、机构、军事、人名、区划等,与异名别称规则、分类规则、断句标点规则、书法字体、图片唱片等形成丰富的语料库,为实现规范数据的重用和共享构建基础;其次,要运用语料库实现民国档案整理与开发自动化。通过基数庞大的语料库,组织编纂期刊论文索引、职官机构索引、卷宗主题索引等各类索引,构建起语料库之间的元数据交叉联系,并结合语言学方法,实现计算机的辅助识别、自动校勘、自动断句,从而实现成果挖掘和知识增值功能。[16]
三是要优化知识服务体系。首先,要提升知识服务模式的共建化水平,平台可以打通馆藏资源和社会资源、工作人员与档案馆、读者与工作人员之间的联系,而且挖掘出广大社会读者的知识资源;其次,转变人员服务角色,构建多主体协同供给机制。借助平台可以实现知识资源的交换,实现用户参与与知识贡献的互动关系,逐步形成档案馆主导,多主体协同共建的知识聚合格局。[17]
四是要加强网络文献资源采集和信息组织。首先要统一网络文献资源采集的标准规范。针对目前网络文献资源标引不规范导致难以二次开发利用的问题,探索建立“垂直典藏、专题建设、深层检索”的元数据加工制度,实施分类管理;[18]其次构建网络文献资源的信息组织机制。档案馆作为知识的存储机构,可以承担对网络文献资源的采集与信息组织分析机制的探索,制定网络文献资源采集、编目、管理工作规范。引导社会公众参与对网络文献资源的信息抽取、知识组织等环节,引入网络文献资源观察评估制度,编制网络文献资源的年度报告书,逐步建立起一个嵌入民国档案数字人文服务平台,与既有档案资源数据相互补充的互联网资源服务体系;最后,要建立网络文献资源采集的激励机制。制定激励公众用户参与网络文献资源发展的管理策略,运用欣赏激励、奖励激励,鼓励用户在学习、交流中完成网络文献资源的转移、留存和流动。[19]
注释与参考文献
[1]王东波.面向知识挖掘的平行句法语料库构建研究[M].南京:南京大学出版社,2019:12-31.
[2张超,韩家炜等.海量文本数据的多维挖掘[M].北京:机械工业出版社,2020:1-10.
[3]王华.晚清民国华侨文献整理与研究[M].广州:广东人民出版社,2021:448-459.
[4]陈宇.应急保障视角下对网络资源“集聚效应”的重新审视[J].高校图书馆工作.2020(5):50.
[5]程静.国内外数字人文服务平台建设现状及思考[J].图书馆学研究. 2020(2):41-43.
[6]周耀林,赵跃等.非物质文化遗产档案资源建设“群体智慧模式”[M].武汉:武汉大学出版社,2020:272-276.
[7]陈果.面向网络社区的领域知识聚合研究[M].北京:科学技术文献出版社, 2019:30-35.
[8]贺晨芝,张磊.图书馆数字人文众包项目实践[J].图书馆论坛. 2020(5):6-8.
[9]左娜,张卫东.面向数字人文的档案资源整合模式构想:解构与重组[J].档案学通讯. 2020(3):33-34.
[10]唐燕,刘小榕等.智慧图书馆空间再造与数字人文服务创新研究[J].图书馆. 2020(5):74-76.
[11]刘舒妍.以法治化促进档案治理现代化[N].中国档案报. 2020-12-10(3).
[12]朱丽梅.档案信息化建设的绩效评价研究[D].华南理工大学,2014:24-27.
[13]李明华.在全国档案局长馆长会议上的工作报告[J].中国档案. 2019(4):25-28.
[14]馬振犊,王俊明等.档案数字化前整理工作的实践研究[J].创新:档案与文化强国建设——2014年档案事业发展研究报告集. 2014:93-100.
[15]马费成.信息管理与信息系统研究进展第2辑[M].武汉:武汉大学出版社,2017:496-498.
[16]王雅戈著.古籍计算机自动索引研究以民国农业文献自动索引为例[M].芜湖:安徽师范大学出版社, 2013:2-6.
[17]尉迟文珠.试论我国高校图书馆知识服务模式构建[D].天津师范大学,2007:27.
[18]李晓明,马宁宁.国家图书馆网络信息采集的实践与发展[J].网络资源采集与数字资源长期保存学术研讨会论文集. 2013:15-17.
[19]陈鹤阳.众包平台用户持续知识贡献行为研究[M].2020:164-166.
作者单位:中国第二历史档案馆