数字人文视域下口述历史档案资源开发利用研究★

2021-08-05 00:38高淞王向女
山西档案 2021年3期
关键词:声像视域语义

高淞 王向女

(上海大学图书情报档案系 上海 200444)

关键字:口述历史档案;资源开发;数字人文;语义关联

0 引言

口述历史档案多以声像档案等非结构化数据信息形式存在,具有形式上的多样性、内容的多维性。目前我国档案学界对口述历史档案的研究主要集中在三方面:第一是对于口述历史档案概念和内涵的认识如口述历史档案的概念、价值、特点,例如吴品才提出口述历史档案存在的合理性[1],潘玉民对口述历史档案概念和特点进行阐释[2],杨烨、康永梅以及洪慧娟等人分别对口述历史档案的凭证价值[3]、历史文化价值[4]进行阐述,洪佳慧对口述历史档案真实性进行论证[5]等;第二是口述历史档案资源建设,如潘玉民对资源建设基本问题进行阐述以及对进展进行评析[6],张玉琴对资源建设中资料采集标准化进行探索[7],刘晓蓓提出口述历史档案收集工作以地方特色、印证历史、补充史料为重点[8],刘伟晶和柳旭对口述历史档案保管工作提出动态保护等[9];第三是对口述历史档案功能的探索,如王玉龙对口述历史档案建构社会记忆的选择[10]、结合[11]、转化[12]、互构[13]等机制探索。

涉及口述历史档案实际工作方面,研究多集中在采集、保管方面,对于资源的开发方面的研究较少,口述历史档案多以声像档案为主,具有不同于纸质档案的多维性,不同于电子文件的非结构化特征,其开发的具体模式也应符合其特性进行构建。

1 口述历史档案的资源概述及开发利用现状

1.1 口述历史档案的资源特点及价值

口述历史的概念发源于20世纪40年代的美国哥伦比亚大学的口述历史研究室,80年代传入我国,引发了历史学界和档案学界的重视。塞内加尔档案馆长萨利乌·姆贝伊在1988年第十一届国际档案大会上对口述资料的阐述是:口述史的查访结果和口头传说的汇集组成了口述档案,它还包括演讲、讲座录音、辩论、圆桌会议录音、广播电视、记录在录音电话机上的通信和指示,以及合唱或独唱的录音等[14]。后我国档案学者潘玉民作了更加简练的定义:“口述历史档案是为抢救社会记忆而对个人进行有计划采访的结果,表现形式为录像、录音及文字记录。”[15]口述历史档案以声像档案和文字记录为主。目前国内档案学界对口述历史档案的资源建设讨论颇多,馆藏也集中了一定的数字化资源。

平民性是口述历史档案具备的显著特征,还有多元性、叙述性、规划性等特征,例如少数民族、民间技艺传承人的口述档案。口述历史档案在历史学、民俗学中也有体现,例如民俗学中的“口述传统”,口述历史档案因其“平民口述”的特征,在档案家族中增强民众归属感、传承民族文化的价值难有出其右者。

社会记忆特征也是口述历史档案的显著特征,美国的口述历史学家唐纳德·里奇在所著的《大家来做口述历史》中提出:“‘记忆’是口述历史访问的主题”[16]。台湾学者王明珂认为口述历史是“社会记忆”,从这些边缘的、口述的、被忽略的“历史记忆”中,探求历史的本质及其形成过程[17]。那么口述历史档案作为口述历史的结晶,其建构社会记忆、反映社会逻辑的价值相比政府机关等机构产生的档案更为突出。

文书、声像档案具备的基本特征也是不可忽略的,口述历史档案具有档案本身显著的可资为凭、可资参考的价值。

反映历史意识与平民性特征相似,是口述历史档案具备的感染力的特征。美国历史学家托什指出的:“应当更加关注口述历史当中人类的历史意识的形成,而并非其是否真实,或是否突显政治意图。[18]”例如南京大屠杀幸存者的口述历史档案,相比其他档案、文献资料记载的客观事实,实际是从另一个视角提供了这一历史事件的再现和认识,尽管回忆这一过程可能存在信息的部分失真,但其精神、情感的真实性是毋庸置疑的,具备重现历史意识、防止历史失忆的价值。

从口述历史档案的特点以及价值来看,口述历史档案的人文研究价值显著,从其资源种类、载体来看,具有多样性的特点,采用传统的编研开发和直接利用难免不尽如人意。

表1 口述历史档案资源特点及价值

1.2 口述历史档案资源开发利用现状

目前对于口述历史档案资源的建设工作已经比较完备,建立了比较成熟的资源数据库。按照主题分类,当前建设的口述历史档案资源数据库可分为三类:抗日和红色革命记忆、地方特色文化传承、重要历史事件[19]。牵头的机构有国家级、省部级和高校单位,建设的资源库具有一定的资源互构性:以视频为主,文字、照片为辅。

在具体的资源库开发方面较为薄弱,多以形成视频资源为主,例如中国记忆系列栏目、抗战老兵口述资料中心、吉林省红色历史文化专题数据库、厦门记忆、北京记忆等项目[20]。在资源利用方式上,与普通档案的利用无异,档案馆图书馆提供简单的的线上检索,利用者自行查找并查看资源。可以见得,对于口述历史档案的资源开发并没有贴合资源种类以声像档案为主、主题围绕特定事件和人物、特点上平民性社会记忆性显著等元素,对其信息的挖掘、资源的开发、利用服务的提供并无创新之处,造成对口述历史档案资源的利用难度大,利用方式落后,利用者观看视频录像进行利用识别难度大、费时费力,难以建立不同资源之间的联系,对人文研究和社会利用获取都造成了较大的阻碍。

2 数字人文视域下资源开发利用必要性及模式构建

2.1 数字人文概述

数字人文是在传统人文研究和教学中深入应用现代网络和计算机技术的新型跨学科研究领域[21],数字人文可以改造、重塑人文领域的知识,为学者提供规律性、趋势性、差异化、宏观性研究的知识和线索,通过设计、计算、分析以及可视化表达的方式扩展学术疆域和潜力,推动人文领域知识研究[22]。数字人文不仅是利用计算机技术运算,更是一种视域和视角,从数字人文视域出发,借助计算机技术对资源进行开发,实现促进人文领域研究的目的。

数字人文的技术体系主要由数字化技术、数据管理、分析以及可视化技术构成。具体而言,例如文本挖掘、数字仓储、多媒体出版、虚拟现实、信息可视化、地理信息系统等多种信息技术都深入应用在人文研究领域。研究对象包含各种可计算的基础数据对象,以声像档案为主的口述历史档案囊括在其中,如格式化数据、图像、声音以及自由文本等,针对这些数据进行的计算包括文本分析与检索、地图可视化、音视频检索等技术,其核心是以数字化的研究对象为基础,保障和创新人文科学研究的内容、方法和模式[23],进而提供更准确、更全面、更形象的人文研究利用。

2.2 数字人文视域下开发利用必要性

数字人文的内涵在于借助数字技术开发为人文研究做铺垫。从开发上看,前文第一部分对口述历史档案的资源特点进行阐述,具有平民性、叙述性、记忆特征显著等特点,而且口述历史档案与口述历史、口述传统之间的微妙关系抛开不谈,但具有浓厚的人文研究特色显而易见,对研究档案学、民俗学、历史学都有重要作用,相较于文书、科技等类型的档案,口述历史档案的人文色彩更加浓厚,与数字人文的贴合度更高。

从利用上看,应当考虑到其利用者的受众范围更加广泛,例如平民群体,其利用需求与学者研究不同,是其寻找记忆、历史意识的方式,数字人文可以提供VR/AR技术逼真再现场景、GIS关联不同地区等多样化利用形式;而从学者的研究利用上看,口述历史档案多为声像档案,与学者研究主题相关的可能只是其中微小的一部分,如果通过人为观看音视频进行查找利用不现实,也没有完备、精确的检索系统和利用平台,能否发现并利用在一定程度上“随缘”,这也是导致口述历史档案资源建设进展较快,而开发利用较为缓慢的原因之一。

口述历史档案资源形式多样,当前的开发、利用模式与其他类型档案无大差别,数字人文技术在开发上更加贴合口述历史档案的资源特点,也可以解决口述历史档案当前的利用难题,因此需要借助数字人文来构建口述历史档案资源开发利用模式。

2.3 口述历史档案资源开发利用的模式

口述历史档案的形式分为包括录音、录像带、照片的声像档案和记录口述历史档案采集规划、过程等内容的文书档案和电子文件,首先对资源的种类进行区分,文书档案、电子文件和声像档案存在较大差别,纸质的文书档案的开发过程相对已经比较完善,而声像档案涉及多维的信息内容和更难识别和组织的数据信息,现实利用存在如“利用需要声像档案之中的检索主题、人物等元素,但却无法准确定位”“利用者利用无法进行检索,需要逐个、逐帧观看声像档案寻找与研究主题相关内容”等难题,开发利用模式的构建着重解决这些问题。

在口述历史档案的利用中存在的检索或服务系统问题,实则是从数据信息的挖掘、组织一脉相承,需要构建一个一以贯之的开发框架才能从根源上解决人文研究中有档难查等问题。框架的构建主要分为以下三个部分(如图1所示),目的是实现跨越不同媒体、方便利用的档案资源开发。

图1 口述历史档案资源开发模式

首先是对口述历史档案资源信息的挖掘与提取过程。可使用文本挖掘技术对声像档案进行信息特征的提取工作,文本挖掘是一种对人文资料的更深层次利用,从半结构或非结构的文本信息中提取有价值、可理解的知识,文本挖掘的过程大体分为对文本的预处理、构建语料库、提取特征、文本聚类、文本分类等过程,有些文本挖掘项目还伴随着对挖掘成果的可视化处理,即以表格、图像等形式将成果生动地表现出来[24]。

第二部分是信息组织,目的是形成以口述历史档案内容为核心的语义网络。对挖掘提取的信息进行语义描述和语义关联,然后将其进行可视化处理,形成系统的可被检索的文本化内容。对信息的提取和组织这两个步骤,本质属于对资源的描述环节,非结构化的声像中,人力很难去分辨有几帧画面,某人物出现了多少次,或两份声像档案是否出现同一人物,是否存在关联,并且有些声像档案的录像带由于长期保管需要,利用时也不可以快进,人为整理其内容几乎不可能。借助数字人文技术构架一个资源描述框架(Resource Description Framework,RDF),该框架包括三个部分:资源、属性、陈述[25]。对应档案资源信息的关联层面,形成数据关联网,为检索和利用提供条件。

第三部分是利用环节。利用的过程中首先是检索,建立一个涵盖语义网络的检索系统和利用服务平台,平台和提供服务的原则其一是为人文学术研究提供知识服务,其二是使得社会利用实现口述历史档案历史意识重现的功能。最后呈现给利用者服务平台的终端进行利用,通过可视化、VR/AR、语义网络呈现等形式向利用者更加系统、直观、全面、精细的提供口述历史档案资源。

3 数字人文视域下口述历史档案资源开发

3.1 数字人文视域下口述历史档案的资源挖掘

口述历史档案的资源挖掘,是利用数字技术,对资源进行信息提取。口述历史档案多为客体全宗,通常是以主题、人物、事件为中心,对于其主题、人物、事件、背景信息的挖掘尤为重要。对声像档案中画面和声音进行提取,数量内容庞大,人为和简单的计算难以做到。《数字人文:改变知识创新与分享的游戏规则》一书中提到:“利用高端计算分析和数据可视化解析大规模数据集,可以得到数字化的历史数据,如维尔托夫电影中的每一个镜头,美国20世纪每本杂志的封面和目录[26]。”对口述历史档案的资源挖掘也可达到这样的程度,即拆分声像中的镜头、画面、人物、背景为元素,为之后的组织关联提供条件。

数字人文中的文本挖掘技术可以用来解决口述历史档案内容挖掘、信息提取困难。文本挖掘不同于机械整理、归纳,是发现知识的过程,从数据中抽取隐含、未知、潜在有用的模式[27]。文本挖掘的分支技术多样,不只限于对文字的信息提取,还涉及数据挖掘、处理自然语言、统计、数据库、可视化等多个领域的知识和技术。该技术在数字人文领域已有成功应用:例如美国北德州大学一历史领域文本挖掘与可视化应用的项目[28],该项目使用文本挖掘技术对历史报纸、新闻报道进行处理,从海量数字化的历史报纸图片中发现散布的语言模式,通过时间和空间的多维角度利用可视化技术把这种语言模式展示出来。再例如德国的TextGrid项目,基于数字人文视角通过计算机技术为人文艺术学科提供特殊功能应用,如为艺术史提供图像数据的标注功能;为古典文学提供注释编辑功能;为音乐提供在XML编辑器中整合笔记等功能。这些成功案例中对图像和声音的处理,也正是对口述历史档案中声像档案文本挖掘的重要部分。

将文本挖掘中的数据挖掘、聚类分析、自然语言处理技术应用到对口述历史档案的资源开发中来。聚类分析的聚类不同于分类,聚类要求划分的类是未知的,研究者也不必事先给出对知识的分类标准。口述历史档案内容中所含有的信息有些类似于隐性知识,在不深入研究的基础上,难以人为归纳出。例如,人类很难分辨出或记住某一档案中的某一场景的背景画面和另一档案中的画面是否相同,也难以将相关知识归纳起来。借助数字人文技术进行探索性的聚类分析,充分地挖掘、提取其中的信息,并将其进行一定的聚类处理。实现对资源的主题、人物、背景信息等内容的分析处理,对不同资源之间的相同或相似属性的关联。例如“四川的老兵口述历史档案”和“云南的少数民族档案”,口述者都曾参加过抗日战争中同一场战役,甚至当时在同一部队中,那么在同一关键词二者就关联到一起,对于当时的历史时期、事件的研究多了一些佐证材料,如果不借助数字人文技术,谁又能将老兵红色档案和少数民族档案关联到一起呢?即便有人恰好查阅过两份档案,但又如何在声像档案中找到具体谈论此事的那几分钟甚至那几帧呢?更多时候也不过是脑海中闪过一丝想法,就止于此了。文本挖掘、聚类分析就是要将人力不能及和工程量浩大的工作,通过计算机技术更加节约资源的完成,并且收获更好、更系统、更精确的结果。

图2 数字人文视域下口述历史档案的资源挖掘

3.2 数字人文视域下口述历史档案的资源组织

对口述历史档案的资源组织本质上是构建资源描述框架(RDF)的陈述环节,即将资源的属性进行描述。口述历史档案具有以主题、事件、人物等元素为核心的特征,在资源组织的环节,构建一个以口述历史档案为“主核心”、以资源属性为“副核心”的语义网络(如图3所示)。

图3 数字人文视域下口述历史档案的资源组织

对第一步挖掘出的资源属性,进行结构化的语义标注,对有关联性的档案资源进行分析、关联,语义关联技术是对口述历史档案资源属性进行陈述的关键技术。语义网的构建,具体指的是为了使得资源展开有效、全面的利用,使用语义关系产生的一种网络,也是一种技术类型[29]。通俗讲是利用计算机识别、分析描述出来的语义信息,并在此基础上进行整合处理,去探求语义信息和资源之间、不同语义信息之间的关系,构建连接,最后发布出RDF序列化格式数据。

通过语义描述和语义关联技术,不仅要形成一个以口述历史档案资源为核心的包括其主题、事件、人物、背景信息等属性的语义网络,同时需要将具有相同属性的不同资源进行关联,将原本复杂的声音、图像等非结构化数据,转化成具有文本可编辑特征的简易结构图。相较于其他组织方法,语义关联技术更具人文研究的特性,更注重知识的整合分析,而并非机械的整合相同词条。关联与聚合的同时具有链接新知识的功能,聚合网络上的相关新资源,不局限在馆藏的口述历史档案,从而形成一个完整的知识图谱[30],实现在语义环境下对口述历史档案的挖掘和组织。

语义关联技术不仅对语义网络构建的作用巨大,对利用环节的作用同样不可忽视。语义关联技术作为检索系统背后的核心技术,在为利用者提供档案资源时,可以根据利用者的检索需要,提供其感兴趣的内容,在已有资源语义网络基础上对资源进行深度联合、动态提供,具有主动性和智能性;同时针对用户在检索中提出的问题,知识检索系统在语义关联技术基础上会做出积极的回应,具有系统和技术与利用者之间的交互性[31]。

3.3 数字人文视域下口述历史档案的资源利用

数字人文视域下更加注重成果、知识的传播和普及。传播和普及的必要条件是平台与系统,因此数字人文视域下口述历史档案的资源利用旨在构建一个以档案资源语义网为链接、口述历史档案资源库为内核的知识服务平台。

检索系统是平台与利用者交流的窗口,数字人文视域下的检索系统应当具有智能性、动态性和交互性。在大数据时代,大数据的特点“4V”中“Value”,是价值低,传统的检索方式主要是信息的匹配检索,虽然可以检索出大量的信息,但信息的价值量低,利用者需自行甄别、筛选才能得到有价值的内容。数字人文视域下的检索系统建立在知识组织的基础之上,能够有效实现知识关联和概念语义检索的智能化检索方式。检索系统基于语义、数据关联之上,可以在用户提出需求后进行筛选和智能化处理,根据利用者的身份、利用需要进行深度联合和倾向性分析,例如学者的研究需要和普通民众回忆需要存在区别,不同学者研究的领域和侧重也有差异,检索系统的智能化尤为重要;此外,利用者提出利用、疑问、交流的需求后,语义关联技术下的知识检索系统对此也会做出非常积极的回应,充分体现人机交互的特性。

数字人文视域下口述历史档案开发的最终成果集中体现在平台的服务上,按照学者、利用者的需求,平台首先承载的是实现档案的学术文化功能的期望,要为学者的研究利用提供相应的档案以资参考,并且基于语义网络、数据关联以及口述历史档案资源库提供一定程度的智慧服务,为利用查询者提供良好的利用体验。

针对口述历史档案的资源特征和价值,还需要满足历史意识重现的功能,利用“VR/AR”等技术,尝试再现一些口述历史相关的场景、实物等。例如在多力·劳布所著的《证言:文学、精神分析和历史中的见证危机》中提到,二战时期,奥斯维辛集中营中一位60多岁的幸存者在回忆犹太人组织起义时说:“我们看到焚尸房的四个烟囱燃起熊熊大火甚至发生了爆炸。人们四散奔逃,火焰直冲云天,那真是令人动容,难以置信”[32]。这样规模宏大、摄人心弦的一幕仅仅通过口述历史档案无法传达其震撼感与惨烈感,利用数字人文中的VR/AR虚拟现实技术可以在一定程度上还原当时的场景,带给利用者们沉浸式的经历和体验,增强口述历史档案的表现力和共情感,弥补冰冷文字表达缺失的遗憾。此外,其实后世通过专家考证,当时其实只有一座烟囱爆炸了,这样的口述历史档案还有价值吗?无疑是有的,幸存者的证词表达了一种框架式的破坏,表达了一种更为激进更为关键的情感:对纳粹的痛恨,当时情绪的震撼等等。这种历史意识的表达通过“叙述”融汇到口述历史档案之中,单纯的文字将其难以全貌呈现,倘若通过数字人文的技术还原出当时的场景,带给人们的震撼和触动是难以想象的,数字人文视域下口述历史档案的开发利用不仅仅是为了开发资源而构建,同时也是为了在利用上“锦上添花”。口述历史档案的突出之处在于其历史意识的表达无出其右,更需要通过数字人文来立体化完整表达,使融汇档案中的历史意识再现。

4 结语

口述历史档案形式上以音视频、图片等非结构化信息为主,内容上具有平民性、多元性、历史意识突出等特点,与历史学、民俗学有较为密切的关系,人文研究色彩浓厚。目前对口述历史档案的建设、馆藏已经比较完备,但是在开发利用方面比较薄弱,没有贴合口述历史档案资源特点和利用需求的开发利用模式,学术研究和社会获取存在一定困难。从数字人文视域出发,针对口述历史档案资源形式多样、音视频利用难度大、资源之间难以建立联系等问题,运用文本挖掘、聚类分析、语义关联等核心数字技术构建口述历史档案信息挖掘、组织到利用模式的框架,挖掘档案资源深层次的内容信息并进行聚类分析,构建口述历史档案资源的语义网络,建立不同口述历史档案资源之间的联系。同时以资源库为核心、语义网络为链接,搭建口述历史档案资源的利用服务平台,为利用者提供更加精确、系统、智能的检索,为需要口述历史档案的学术研究提供利用;同时可以利用VR/AR虚拟现实、地理可视化GIS等技术提供更具体验感的多维浸入式体验,进而实现口述历史档案历史意识再现的功能。

猜你喜欢
声像视域语义
对戊戍维新派思想家心路历程的思考——以“启蒙自我循环”为视域
真实场景水下语义分割方法及数据集
声像档案管理现状与发展对策分析
校外教育机构声像档案管理创新探析
“一带一路”视域下我国冰球赛事提升与塑造
基于养生视域论传统武术的现代传承与发展
濮阳县声像档案管理的调查分析
“吃+NP”的语义生成机制研究
声像档案管理工作之我见
汉语依凭介词的语义范畴