数字人文产品开发过程中档案馆的角色定位研究*

2020-12-06 15:11:04
山西档案 2020年4期
关键词:档案馆人文数字

(吉林大学管理学院 长春 130022)

0 引言

随着数字人文在人文学科的影响日益增强,诸多学者对于数字人文研究的热潮提出了审慎的“冷思考”,认为数字人文应用于人文学科研究存在一些谬误,主要表现在以下几个方面。一是数字人文研究的大多数项目还没有产生全新的叙述,更没有出现震动学界的成果;二是某些数字人文倡导者推崇数据中心论,从而使人文研究失去人文意义,削弱甚至消解了研究者的主体性;三是获取数据的现实情况有时并不能达到数字人文学者的设想的“一切皆可量化”的理想情况[1]。第一点与第二点集中表现为对数字人文产品质量的质疑,第三点则体现了数字人文研究开展的客观困难。

尽管数字人文的应用受到了历史学、文学、艺术学等领域诸多学者的质疑,图情档学者对于数字人文研究的关注度和研究保持了较高的热情。近年来,与数字人文相关的研究成果层出不穷,“图书情报与档案管理视野下的数字人文”入选“2019年度中国图情档学界十大学术热点”。档案学领域参与数字人文有多方面动因与优势。首先,档案馆拥有丰富的文献资源可作为人文研究的资源基础;其次,数字时代文献信息资源开发的目标、方法与数字人文项目相吻合;此外,档案馆也相对比较了解人文学者的学术需求,熟悉利用数字技术处理文本的原理和方法,可以充当人文学者及计算机技术人员之间的沟通纽带,可以按专题研发并向读者推荐数字人文产品。因此,结合当前数字人文面对的质疑,提出档案馆在数字人文产品开发过程中的角色与定位,可以提高档案馆和档案学者在数字人文研究中的参与度,更有助于数字人文研究在理论和实践层次上的进步。

1 学界对针对数字人文产品的质疑

1.1 数字人文的出发点与意义

信息技术的应用可以代替学者进行以往人文研究中一些诸如信息标引和检索等简单但繁琐的工作,随着大数据、文本挖掘、机器学习等技术的发展,计算机分析技术被广泛应用于人文研究中,较成功的案例是在比较文学领域通过对大数据集进行定量分析从而学习人类文化的“文化测量”模式。在计算机代替学者进行数据收集、统计与分析之后,人文学者就可以有更多的时间和精力投入到思考与创作过程中。但是,以往需要学者进行长时间的学习、积累和思考才能得出的结果,如今利用信息技术就可以在较短的时间得到较为全面而正确的结果。于是,出现了一种人文数字人文是投机取巧的观点:在学术界早已形成相对固定的格局,一些年轻学者因不满足于自己在学术界所处的边缘地位和自己所拥有的少量学术资源,而采用数字人文来帮助自己获得更多的学术资源并提升在学术界的地位,[2]数字人文被应用于政治目的而非学术研究。例如,美国学者亚当·克思奇认为数字人文体现了技术化和职场化,给大学管理造成了消极的影响。[3]但以上观点都没有就数字人文中信息技术的应用为学者开展人文研究节省了时间和精力、提高了人文研究的效率提出明确的否认,而质疑的主要内容是有些数字人文研究被不正当的利用,在研究目的方面偏离了人文学术研究。

此外,在利用数字人文开展人文学术研究的过程中,出现了一种极端的立场,即对数据的过度依赖,以及对计算机技术的过度崇拜,对传统人文核心价值造成了冲击,淡化了研究中的人文思想。人文思维在本质上不是实验性的实证去伪思维,而是一种脑力活动,受艺术创作和历史语境的启发,达到增进理解和培育同情的目的。思维的体验和文字表达构成人文研究和人文教育的骨髓,而数字人文在总体上有架空这种思维的危险[4]。脱离了人文核心价值的数据及其分析对于人文研究而言是没有意义的,数字人文有一种标志性的风格或可被描述为技术狂热与新词崇拜的结合。数据被“展示”而不是被处理;信息被“杠杆化”;事实被“聚合”而不是被质问。[5]于是这就要求明确数字人文在研究中的工具属性以及在此基础上结合人文思想制定人文研究的目标。

此外,对于将信息技术应用于人文研究的目的,还没有达成共识。有的学者认为数字人文是提供一种全新的诠释问题的工具,计算学科的主要作用不是加速人文学科的进步,而是为人文学科领域研究中长期存在的问题提供新的研究方法[6]。还有学者认为信息技术应该帮助发现新的研究问题进而推动学科进步,比如在文学批评领域,文学批评家需要自动算法,不是指望它以多高的准确率区分一首诗是不是俳句,或一部戏是悲剧还是喜剧;算法批评的意义是利用人工智能,促使批评家发现之前使用别的方法未曾觉察的问题,帮助批评家阐释文本并解析出新的意义[7]。

对于数字人文产品开发目的的不同理解不仅会影响产品本身的功能和形式,更会在一定程度上影响人文学界对于数字人文产品的功能期待和价值认识,进而影响产品在人文学界的被接受程度和被应用范围。

1.2 科学技术的局限性

在数字人文研究中,信息技术能够被用来代替人工开展部分研究工作,是因为数字人文倡导者认为技术可以在保证质量的前提下提高效率。有的学者发现现实并不是如此,信息技术主要是数据分析技术在研究过程中出现了很多局限性。首先是技术对于研究问题的适用性,计算机尝试给出的阐释性问题并不是那些长期困扰批评家们的问题。正相反,技术要求人们只能问它能够回答的问题,也就使得问题本身被改变了,而改变的依据却是计算机自身的局限[8]。这种对于研究问题的扭曲和简化,不利于开展真正的批判性反思,会直接影响研究结果的深度和质量。其次,计算机的计算能力和人脑的思考能力并不完全等同,例如将利用自然语言应用于文学研究时,对于文学中语境分析的能力十分有限。存在一些诸如话语陈述的语言现象,他们并不以词汇为基础,因此计算机既不能对其进行全面而准确的搜索,也不能结合上下文的特定语境进行解释[9]。此外,在语义层面,计算机的处理能力也十分有限,意义的确定是比较复杂的过程,涉及每个阅读主体在各自阅读情景和阅读过程中的分析、计划和自身的文化背景,是一个因读者个体不同而不同的认知过程,而不是仅仅在标准语料库中进行比较就可以得到的[10]。可见信息技术只能在部分工作上代替人工进行操作,而人脑的智能在数字人文产品开发过程中仍具有不可替代性。

1.3 数据的欺骗性

在合理利用信息技术并且围绕研究问题对计算机分析的结果进行合理思考之后得到的研究结果也有出现差错的可能,问题在于计算机分析结果的欺骗性。以最简单的统计分析为例,数据的分组与合并会影响结论,即“辛普森悖论”,在合并组的统计计算中可能会出现与分组统计的变量趋势相反的结果。同时,机器学习中会出现“过拟合”的问题,也就是算法在数据中找到了现实世界里并不存在的虚假模型,这是数据带给我们的幻觉。甚至有人说,数据挖掘意味着“折磨数据,直到数据妥协”[11]。此外,数据样本的选择也会影响研究结果。如果在数字人文范式下的文学研究中进一步引入读者心理认知的维度,我们还要提防在心理学研究中的“重复性危机”,不要过分相信在中小规模的受试读者中以调查问卷方式获得的统计分布规律[12],尽管大数据相关技术的发展可以扩大研究样本的规模而规避这一问题,但数据样本数量的增大会导致数据质量的下降,进而影响数据分析的精确性。

综上所述,学界对于数字人文产品主要存在数字人文产品的出发点与意义、科学技术的局限性和数据的欺骗性方面的质疑,这些质疑并不是否定了数字人文产品的价值,而是为数字人文产品的完善提供了方向。针对这些质疑,笔者提出了三条数字人文产品开发的原则,旨在规范数字人文产品开发过称,提高数字人文产品开发质量。

2 数字人文产品开发的原则

2.1 数据驱动原则

以一定数据量作为数字人文产品的开发基础具有可行性且具有必要性。一方面,图档博等领域的标准化、结构化甚至智慧化的数字化信息已经具备进行深度挖掘与开发的条件。

数字人文作为一个跨学科的领域,无论从论文数量还是产品数量来看,目前在历史学、文学和艺术领域的应用较为成熟,但在这些学科内部对于数字人文的应用并不是那么流行,大多数学者对与数字人文都是持有十分谨慎的态度。相反,图档博领域的学者对于数字人文的研究十分热衷,其中一个重要的原因就是图书馆、档案馆和博物馆中的图书、档案、文献和文物在数字人文背景下可以进行再创作,进而进行潜在价值实现与潜在多元价值增值。另一方面,为了使数字人文产品的结论具有更强的可靠性和说服力,需要足够的数据作为支撑。在科学领域,一个关键的决定因素是大数定律,即在特定的实验中,研究者重复实验的次数越多,就越接近实验结果的平均值。换句话说,这是一种确立信息的方式,即更大的数据集可以提供更易被验证的结论[13]。足够的开发资源是好的数字人文产品的必要不充分条件,开发数字人文产品之前,既要充分分析研究课题,收集相关的资料文献作为研究基础,这部分工作的质量直接影响了后续开发的质量和进度,数字人文产品的开发是以数据为基础,并由数据进行驱动的。

2.2 问题导向原则

数字人文设计的研究问题包括两种:一种是结合领域学者的研究需求,在数字人文产品开发之前就已确定的待解决问题,另一种是在开发过程中由于灵感的迸发而产生的新的研究问题。数字人文产品涉及如何以符合计算能力的方式进行处理,所谓处理是指利用计算机将某些任务自动化,以解答人文学者最初提出的一些研究问题[14]。数字人文研究开展的初衷就是利用信息技术代替人工进行重复性的工作,为人文研究提供方便,使学者从繁重的机械操作中解放出来,进而将精力投入到更加有意义的研究活动中,数字人文最基本应该做到以更高的效率解决人文研究中的问题,并形成具有说服力的结论。

另外,以数字人文在文学领域的应用“远读模式”为例,计算机回路可能如闪电般迅速,但它们却排除了可能随机发生的研究方向的切换,由于其自身机制,数字“阅读”从根本上将大脑自然产生的智慧灵感,以及本能冲动都彻底排除在外[15]。因此一个好的数字人文产品应该是启发性的,应允许并鼓励在计划之外的研究问题的产生。此外关注产品开发过程中研究问题的产生和研究方向的转变还可以在一定程度上防止数字人文过多关注技术的应用而是去人文色彩。检验数字人文产品含金量的判定依据是规定研究问题的用户与数字人文产品之间的“相互作用性”[16]。好的数字人文应该保持人脑的意识与计算机的认知之间的平衡,这并非简单的折中主义,更是一种元批评,即不对结论做先入为主的预设,而是对批评方法、模型本身保持暂定性态度,一旦数据计算中揭示出的 “意外”状况,人类读者就可以开启反思式、生产性的解读[17]。例在如“远读模式”中,对大量的文学文本资料利用文本分析、数据挖掘、主题建模和可视化等手段对大规模文本素材进行分析仅仅只是远距离阅读的开始环节,而不应成为其理论终点[18]。

或许数字人文产品开发的初衷是提供一种新的研究方法和研究平台来解决传统人文学科中不易回答的问题,但在实际开发过程中,如何促进技术与人脑的良性互动进而促进提出更加有价值的新研究问题,形成数字人文产品的完善和人文学科的发展相互促进的良性循环,也是进行数字人文产品开发需要考虑的问题。

2.3 技术辅助原则

对于技术的局限性之前已有所讨论,承认技术的局限性并不是要将所有技术应用都抛弃,在数字人文产品开发过程中要树立人脑智能为主、技术为辅的原则,使用数字媒介的工具和方法来重新考察传统人文学科的课题,同时又用人文研究的范式和方法来探索数字媒介的功能与意义[19]。人脑智能的应用不光体现在对研究问题的思考和研究灵感的迸发,还应体现在对计算机技术的理解上,人脑对技术的应用与改造也体现了技术处于辅助地位。技术的应用主要用于信息与知识的集成、存储、挖掘与在线,而非知识的生产,在产品开发过程中遵守问题导向的原则,加强多学科协作,使技术的应用与研究问题的契合度更高。

另外,为了更好的理解科学技术的角色与作用,应深入到工具和算法的内部对其进行考察,而避免陷入“技术黑箱”。否则,研究者在获取数据分析的结论后可能会对其公正性过分依赖,并对工具的实际应用及影响缺乏深入的理解,会出现分析结论过分植根于个人经验的后果[20]。

在数字人文产品开发的过程中,需要统筹兼顾数据驱动、问题导向和技术辅助。首先应充分考虑现有数据资源的内容、格式和对应的人文领域,结合人文学者的现实研究需求,在产品设计阶段对需要解决的研究问题进行合理设想,其次在产品开发阶段应参考数据类型选择合适的计算机技术,并明确计算机技术作为辅助工具的参与方式及参与程度,并允许和鼓励人脑智能对研究问题的修改或补充。

3 数字人文产品开发中档案馆的角色定位

目前在图档博等公共文化机构开展数字人文研究的实践中,图书馆领域取得了相对明显的进展,如上海图书馆“名人手稿档案关联开发数据集”等。这些实践在理论、技术和流程等方面对于档案馆参与数字人文研究提供了参考与借鉴。但同时也要进行反思,档案馆怎样才能结合自身的发展基础与业务流程提高在数字人文产品开发中的参与度。

档案馆业务与数字人文之间存在着双向关系,两者相互交融和影响。档案领域研究数字人文的主要任务是学习利用数字人文的技术和观念辅助人文研究,为人文研究提供更加完整和真实的资源,进行更加深入和全面的解读[21]。上文已经对现存的针对数字人文的质疑进行了总结,从这些质疑入手,分析档案馆的角色与优势,在提高数字人文产品质量的同时为数字时代档案馆的发展及档案价值的发挥提供新方向。

3.1 信息资源的提供者

首先,从资源特点的角度看,档案的根本属性即原始记录性,及其他基本属性如真实性、可靠性和完整性等使档案具有其他资源无可替代的优势。档案因其凭证价值、证据价值和参考价值,一直以来都是人文研究的核心对象和重要资源。此外,新兴的档案的情感价值和记忆构建价值也与数字人产品的开发目的存在交叉。数字人文研究涉及的领域多为文学、历史学和文学等人文学科,将档案资源作为数字人文产品开发的资源基础,在一定程度上可以保证数字人文研究者从历史背景出发开展研究,有利于保障数字人文产品的真实性和权威性。

其次,从资源内容的角度来看,档案馆长久以来的资源积累使馆藏资丰富,能为数字人文项目提供充足的研究和参考资料。保存、分析、编辑和建模是数字人文核心的基础性活动,涉及到档案、藏品、资料库和其他材料的聚集[22]。档案馆收集和保存了机构文件、特殊手稿以及珍贵的文化历史档案,这构成了人文学者和档案工作之间天然伙伴关系的基础[23]。除了档案内容全面性,有些档案的独特性也决定了其在数字人文开发资源中的不可替代性。很多地方档案馆或综合性档案馆还保存有具有独特性的地方特色档案和社群档案,如云南省档案局搜集和抢救的哈尼族档案,这些档案具有极强的针对性和关联性,为特定研究主题或特定研究区域的数字人文产品的开发提供了便利。

此外,从资源组织的角度来看,长久以来在全宗原则指导下的档案收集与整理,使纸质档案保存了形成的内在的自然联系。而在利用档案资源库、档案数据库和档案知识库等建设数字馆藏体系的过程中,标准化的元数据实现了对资源的形式特征的描述,可实现文件级的组织与检索。开放关联数据应用在档案数字化管理中,有助于档案资源的互操作与集成,有助于数字人文究者了解档案信息在整个资源体系中的位置。语义标引和本体构建使档案信息在数字化的基础上实现数据化,不仅针对文字资料,甚至一些图片和声像档案也可实现信息的结构化,可实现检索的细粒度化。

内容优质、结构合理的档案资源体系可以在一定程度上规避数字人文产品开发过程中的数据质量问题,结构清晰的档案资源体系可为合理的数据抽样奠定基础,细粒度化的资源组织有利于利用机器推理和机器学习对档案信息进行深度挖掘与知识发现。

3.2 跨界合作的沟通者

数字人文产品的开发涉及到了多种开发主体,为了更好的发挥数字人文产品开发过程中的资源优势和技术优势,同时平衡好“数字技术”与“人文研究”的关系,需要一个发挥沟通功能的参与者,在提出研究问题的人文学者、进行产品开发的技术人员以及可能参与的社会公众之间承担沟通的功能。一方面,一些对数字人文有兴趣且进行过实践探索的人文学者虽然并未加入相应的数字人文研究机构,呈现单兵作战的状态,但实力不容小觑;另一方面,档案资源不同于文学、艺术作品的特质,要求数字人文研究者对相关内容的熟悉与理解达到一定的程度,因而需要对数字人文研究机构中的既有成员进行灵活调整,必要时吸纳新的成员以形成新的研究团队[24]。档案馆长久以来作为公共文化服务机构,在发挥档案的凭证价值过程中与社会公众沟通频繁,在发挥档案研究价值的过程中与相关学者联系紧密,加之档案部门一直密切关注现代技术在档案管理、开发和服务中的应用,可以很好的承担沟通者的角色,促进数字人文产品开发过程中不同参与者之间的协作。

首先,正如前文提到的数字人文产品的开发应该明确以研究问题为导向,档案馆应与人文学者沟通,明确研究问题或数字人文产品的开发目的,并及时开展产品的评价与反馈,并持续关注可能出现的新的研究问题。其次,档案馆应与技术团队密切联系,确保数字人文产品的功能与人文学者的需求相契合,同时还要确保档案资源以最适合的方式被开发和被最大程度的利用。另外,在数字人文产品开发的众包模式中,还需要调动与整合。社会公众的积极性与能力,档案馆要加强与社会公众的沟通。如上海图书馆开展的盛怀柔档案知识库建设中,就借助公众力量,对盛怀柔档案盒手稿进行抄录和标引。

档案馆的跨界合作的沟通者的角色与资源提供者的角色并不构成矛盾,只有充分了解资源体系的构成与特点,才能更好的将其与研究问题与社会需求及开发手段相结合,即最大程度发挥档案的价值,又能保证数字人文产品的质量。从档案馆的角度来看,在档案文化资源开发实际工作中,强调档案机构在此过程中的基础性、统筹性作用,由档案机构牵头,引导相关组织与学科、技术专家参与其中,借助数字人文技术的创意驱动,构建档案文化资源开发与社会推广的常态化工作机制[25]。

3.3 产品开发的推动者

档案馆作为跨界合作的沟通者,其参与了数字人文产品开发的生命周期的全过程,在一定程度上也推动了数字人文产品开发的进展。档案部门要根据档案资源的特点,主动发现与其相契合的研究问题,结合可能的开发形式组建技术开团队,并聚合公众力量,为数字人文产品的开发提供基础和方向。在开发的过程中,档案工作者具备扎实的档案业务技能和史学知识,能为数字人文项目实施提供工具性辅助[26]。当数字人文产品开发者缺乏有效的工具或专业知识来解决他们所遇到的问题时,档案部门可将信息导航、数据挖掘、知识发现与传播、数据长期安全保存等相关技术可嵌入到数字人文的生命周期,通过相关标准应用、元数据管理以及其他方式,确保数字人文工作得以顺利开展[27]。

为了充分而合理地利用档案馆的现有馆藏资源推动数字人文产品的开发与完善、更好地担任起数字人文产品开发者的角色,档案馆工作人员需要对相关人文领域中的研究范式和研究场景进行深入而全面的了解。首先要主动了解该领域正在正在使用并被普遍接受的研究工具和方法,然后,还要掌握和分析技术的发展现状及趋势,在此基础上将档案馆藏资源、计算机技术和人文学者的研究需求进行联系,在数字人文产品开发的过程中为人文研究中的研究手段、研究方法和研究视角提供新的理论与实践。这将为数字人文科学领域的长期发展提供支持。

3.4 产品质量的控制者

档案馆在提供资源基础和推动产品开发的同时也在数字人文产品生命周期全过程中进行质量控制。在以档案馆馆藏为基础资源的数字人文产品开发过程中,需要对档案资源进行诸如编辑、建模和分析等处理,在此过程中技术人员可能会出现对档案来源不明、对档案内容理解不准确、对档案结构识别出现偏差等问题,这时就需要档案工作者结合来源原则、全宗原则等,结合档案本身的自然联系,进而提供专业而全面的背景信息支持。此外,产品开发过程总产生的数据、信息合理收集、妥善保存将直接影响后续开发进程,档案馆应立足档案专业管理视角通过建立开发过程档案,监督产品开发的进程与质量。更为重要的是,档案部门还需制定一定的数字人文产品评价体系,对正在建设中或已经完成建设的数字人文产品进行追踪,及时收集人文研究者的使用感受和建议,最终实现档案领域数字人文产品的社会价值[28]。

4 结语

尽管学界多于数字人文产品存在一些质疑,但数字人文研究的价值依然是不可否认的,在数字人文发展与完善的过程中,档案馆的角色与优势是不可忽视的。档案学是人文社科领域的基础学科,数字人文和档案领域合作是数字人文发展的关键组成部分,档案工作的参与可促进数字人文研究的有效开展和文化形式的持续优化[29],档案馆在参与数字人文产品开发的过程中,承担着信息资源的提供者、跨界合作的沟通者、产品开发的推动者和产品质量控制者的角色,可见档案馆参与数字人文研究既可以完善数字人文产品的开发,又可以为数字时代下档案价值的发挥和档案馆服务的发展提供新的方向,是互惠互利、合作共赢的过程。

档案界要明确自身的角色与优势,开发档案循证平台、建设档案数字资源库、描画专家档案知识地图、设计档案利用界面[30]、制作数字人文开发工具包以及培养复合型人才等,以更好的参与和辅助数字人文产品的开发。

猜你喜欢
档案馆人文数字
人文
北京纪事(2024年1期)2024-01-03 03:16:55
答数字
人文绍兴
中国三峡(2017年3期)2017-06-09 08:14:59
关于县级档案馆馆藏档案开发利用的思考
兰台内外(2017年6期)2017-05-30 06:46:41
全省部分档案馆新馆掠影
浙江档案(2017年10期)2017-03-31 06:27:31
数字看G20
南风窗(2016年19期)2016-09-21 16:56:12
人文社科
全国新书目(2016年5期)2016-06-08 08:54:10
让人文光辉照耀未来
when与while档案馆
成双成对