文利君 周文泓
(中国人民大学信息资源管理学院 北京 100872)
随着信息技术的不断发展和网络档案重要性的凸显,网络信息存档实践在全球范围内不断推进[1],美国国会图书馆的Twitter存档项目[2]、国际互联网保存联盟IIPC[3]、中国国家图书馆的互联网信息保存项目[4]为代表的不同规模与性质的网络信息存档项目收集并保管了大量宝贵的网络信息和海量的文化遗产,例如截止到2023年Internet Archive项目已经存储了超过8000亿个网页,在积累了大量资源后,对这些网络档案进行开发利用成为了网络存档领域关注的重要议题。美国国会图书馆的Twitter存档项目、Internet Archive等网络存档实践逐步探索开放专题数据集、开发知识化产品和服务等开发利用举措。其中,描述性元数据作为对网络档案本身的内容、属性、外在特征进行描述的元数据,因其在定位、检索、提取网络档案内容中重要的作用,在网络档案开发利用领域受到了极大关注。数字保存联盟开展的调查与研究表明缺乏针对性的描述性元数据方案是存档方和用户在网络档案的开发与利用中面临最普遍的挑战。
在实践领域中,较为主流的元数据标准如MARC(机读目录格式)、DC(都柏林核心元数据集)、EAD(档案元数据著录标准)等在目前的网络存档中得到广泛推广,其描述性元数据标准也得以大规模的使用。但这些描述性元数据标准对于网络档案的著录存在难点,一方面,网络资源作为原生于数字空间的动态信息,在标题、创建者等元数据要素上都表现出与其他档案不同的特征,例如有大量的网页都没有现成的标题可以直接使用,以何种方式形成网页的标题成为网络档案相较于其他类型信息保存的特点和难点。[5-6]另一方面,网络档案在形式上具有多样性,一个网页往往可能涵盖音频、视频、图片、超链接等形式的内容,既有的描述性元数据标准常常难以同时对多类型的内容形式进行描述。[7]再者,网络档案具有动态性的特征,网络档案作为动态的数据流,内容处在不断更新之中,网页内容的编辑、评论等动态性的信息也需要针对性的描述性元数据方案进行著录。[8-9]因之,如何面向网络档案形成针对性的描述性元数据方案急需进一步探索。
研究层面,面向网络档案的元数据探索在多方面显示出成果:一是元数据在网络档案保存、组织等管理中的价值得到确认,尤其是描述性元数据在网络档案查找利用中的重要作用得到说明。[10-11]二是结合网络档案的特质,对不同类型的元数据的定义和功能进行了阐释,认为在描述性元数据、保存元数据、技术元数据、管理元数据构成的网络档案元数据体系中,描述性元数据是最为重要的元数据,其主要功能包括描述、定位、检索、评估、共享网络档案,有助于将用户和网络档案进行连接,实现对于网络档案的利用。[12]三是对通用元数据集与网络信息资源的融合进行探索,例如对DC元数据集在网络资源中的应用研究,描述性元数据涵盖其中。[13-14]四是针对网页、社交媒体及社交媒体图片、视频等特定存档对象的元数据方案设计得到一定程度的探索,如根据复用性、模块化、可扩展性、互操作性原则制定的包括管理性元数据和描述性元数据在内的社交媒体文件存档元数据方案。[15-16]然而,目前的研究对针对网络存档的专门元数据方案缺乏探索,未对网络资源在元数据描述实践中与其他类型信息的不同与特征展开深入分析;此外,目前的研究更多的是面向保存视角,侧重于对管理性元数据和保存性元数据的探索,在网络档案在保存之外更延伸至利用与服务的实践现状下,缺乏对支撑网络档案利用的描述性元数据探索。
因此,为促进网络档案的利用与服务,明确针对网络存档的描述性元数据方案的内容特征与建设策略,本文将基于代表性实践,展开案例研究,选定联机计算机图书馆中心(Online Computer Library Center,以下简称OCLC)制定的网络存档描述性元数据方案,对其工作背景与目标、元数据方案主要内容等进行梳理分析,明确其主要特征,依据其显示的方向,提出立足我国的网络档案描述性元数据方案设计策略。
联机计算机图书馆中心(OCLC)是世界上最大的提供文献信息服务的机构之一,其重要的宗旨和目标是链接用户与所需信息、分享知识,作为图书馆机构OCLC也一直致力于参与档案实践,尤其是在增强档案描述以促进档案利用方面。早在2011年,OCLC开发了汇集有超过500万份档案的描述信息资料库ArchiveGrid,旨在通过对档案描述信息的检索实现对全球档案馆藏的查找与发现。[17]随着网络存档实践的开展,OCLC也关注到了对网络档案的描述著录问题。既有研究表明,缺乏针对性的元数据方案是网络存档中面临的最普遍的挑战,因此OCLC研究部成立了网络存档元数据工作组,工作组由来自普林斯顿大学、哈佛大学、宾夕法尼亚大学、加州大学洛杉矶分校等高校图情档领域的学者、国会图书馆等机构专家和OCLC研究员等24名成员构成,以制定对网络存档的描述性元数据方案,从而提高网络存档中元数据的一致性和元数据著录效率。
首先,网络档案捕获工具状况为OCLC描述性元数据方案提供了内容导向。网络存档的工作都需要依赖于一定的采集工具进行,在捕获的过程中技术元数据、保存元数据大多由捕获工具自动生成,部分捕获工具会自动生成部分的描述性元数据。由于网络档案的数量大、动态性强,完全由人工进行描述性元数据的著录难以实现,由采集工具自动生成描述性元数据能极大地提高著录的效率,从而有助于促进大规模描述性元数据的生成,以促进网络档案的开发与利用。因此OCLC元数据工作组对Archive-It、Wayback Machine、Heritrix、HTTrack、Web Archive Discovery在内的11个主流的捕获工具进行了调研,以明确目前的采集工具在描述性元数据生成方面的情况以及采用何种元数据方案进行描述性元数据的提取,从而为OCLC描述性元数据方案的内容制定提供基础。调研结果显示绝大多数的采集工具都专注于捕获和存储技术元数据,而描述性元数据是捕获工具最少捕获到的。此外,不同的工具对于描述性元数据的定义和元数据元素的构成也存在差异,这不利于对于网络档案的描述和发现。因此,OCLC希望建立起合适的网络档案的描述性元数据方案用以辅助网络存档工具自动生成元数据能力的提升。
其次,OCLC网络档案描述性元数据方案以用户需求为内容方向。OCLC元数据工作组的最终目的在于通过描述性元数据架起用户和网络档案之间的桥梁从而促进对网络档案的发现和利用,因此在工作最初,工作组对网络档案相关人员进行了需求调研,包括网络档案的利用者与网络档案著录人员。其中,网络档案的利用者主要是各类型的学术研究人员,而网络档案著录人员是指对网络档案进行元数据著录的工作者。针对描述性元数据,用户表达了对于更详细的来源信息的强烈需求,并希望能使选择捕获对象和建立馆藏的过程保持透明,增加对捕获对象的完整性和变化状态相关的描述。网络档案著录人员认为目前许多既有的书目著录标准和档案著录标准都被应用于网络档案描述性元数据的实践中,而书目著录和档案著录之间存在一定的差异,希望可以找到弥合这样差异的方法;此外,目前的各类元数据标准应用在网络存档时存在各类元数据元素与内容高度不一致的情况。通过对两类人员的调查,工作组厘清了用户和工作者对网络档案描述性元数据的需求,主要包括丰富来源信息、融合书目著录和档案著录方法建立统一的描述性元数据方案等,这是OCLC描述性元数据方案内容的重要建设内容。
同时,既有的描述性元数据标准是OCLC描述性元数据方案重要的内容参照。为了对现有的网络档案描述性元数据著录实践有全面的了解,进而明确图书馆、档案馆领域常用的可应用于网站描述的元数据元素,从而为工作组的方案建设提供内容参照,工作组分析了包括DACS、RDA、DC等在内的三份元数据标准、七份机构元数据指南和各类元数据方案。一方面,既有的元数据标准中源数据元素的构成为OCLC元数据方案提供了基础的内容参照,这些方案中重要的元数据元素在OCLC描述性元数据方案中得以保留,DC元数据方案因其灵活性和可扩展性被作为OCLC描述元数据方案的基础架构。另一方面,现有描述性元数据方案的不足也为OCLC描述性元数据方案的内容指明了进一步的优化空间。例如,现有的元数据标准均未有针对网络存档的特殊要素;机构的元数据指南对元数据元素选择差异较大;部分元数据标准中部分遵循书目传统,将存档对象视为独立个体进行描述;部分采用档案方法,对存档对象的描述中也会记录网站集合。基于此,工作组明确了OCLC描述性元数据方案的内容必须要具备衔接起不同的描述性元数据方案,以提升网络档案开发利用的便利度。
OCLC元数据工作组形成的网络存档描述性元数据方案由元数据元素和使用指南两部分有机构成。其中元数据元素包括:收集方、贡献方、创建方、日期、描述、范围、形式、语言、关系、权利、描述源、主题、标题、URL。具体内容如表一所示。
表一 元数据元素表
在每一个元数据元素后,都附有对该元数据元素的使用指南,包括制定该元数据元素的原因、元数据元素含义的详细解释、使用该元数据元素的场景与范例、该元数据元素与其他元数据标准的映射关系。以创建者为例,元数据方案中给出了非常详细且具有可操作性的使用指南。使用指南中首先说明了使用该元素的场景:仅当组织明确肩负起创建知识内容的主要责任时,才能使用这一元素,如不确定或有任何疑问,则使用贡献者这一元素进行描述。其次对不同情况下这一元素的使用进行了介绍:例如在Twitter等个人社交媒体中,个人明确是知识内容的创建者,该主体可被视为创作者;但是当仅按主题描述相关的内容构成网站时,不能使用创建者这一元素。随后,对创建者这一元素与都柏林、MARC、schema.org等元数据方案之间的映射以对照表的形式进行了说明,如图一所示,OCLC描述性元数据方案中的Creator元素对应Dublin Core的Contributor、EAD的repository、MODS的
图一 “创建者”元素对照表
图二 EAD转换示例
网络存档对象和网络存档活动都存在与传统的档案实践的不同之处,通用性的元数据方案往往难以描述出网络档案动态性、形式多样性等特质而限制了对于网络档案充分的开发利用。基于此,OCLC网络存档元数据工作组在制定描述性元数据方案时,充分考虑到了网络存档的特质与需求,在元数据元素的设计和使用指南中都融合网络存档的特点进行设计。一方面,工作组清晰地认识到网络的动态性网络存档的对象也呈现出易变的特征,相较于其他类型的档案,对网络档案进行描述性元数据著录时也要考虑到如何以元数据来说明这种存档内容的动态变化,因此设计了“描述源”这一元素对著录元数据内容的来源、日期等背景信息进行说明。通过对于描述源的著录,网络档案用户尤其是研究人员对于元数据来源的需求得到了极大的满足,有利于研究人员借助网络档案开展科研活动。另一方面,网络存档活动存在多样性,网络档案的创建者、存档方、存档对象都存在诸多类型,为了充分地帮助用户参照元数据方案进行设计,在操作指南的设计中,工作组对各类场景下如何使用相应的元数据元素进行了说明,如针对范围这一元素,对存档网站和存档网站集合如何描述进行了具体的说明。
OCLC网络存档元数据工作组的最终目的是促进对网络档案的描述以推动网络档案的发现和利用,在此基础上工作组充分考虑了目前网络存档的实践进展以及相关人员的实践现状和需求,立足实践进行了描述性元数据方案设计的探索。首先,OCLC网络档案描述元数据方案设计的启动就受到实践的强力推动,既有研究成果表明缺乏针对性的元数据方案是网络档案的开发利用中面临的最普遍的挑战,而OCLC进行的调研也说明缺乏描述性元数据是促进网络档案利用中面临的最大障碍,因此OCLC成立了网络存档描述性元数据工作组专门制定针对网络档案的描述性元数据方案。其次,元数据方案的内容设计是基于用户实际需求、网络存档元数据著录实践需求的,针对这两类用户的调研帮助工作组统筹规划对网络档案来源进行更为丰富的描述的方向,以及明确现有的描述性元数据著录档案中存在的优化空间,如为弥补现有元数据方案在描述网络档案与其他信息之间关联的不足,OCLC描述性元数据方案设置了Relation元素用以描述单个网站与所述的任何集合之间的关系从而促进网络档案的检索与发现。
存档主体的不同往往会导致对网络档案描述性元数据的方案不同,而网络档案的高效益的开发利用又需要对于不同元数据格式下的网络档案进行统一组织,为用户提供一致性的服务,因此,在网络档案中描述性元数据方案内容的互操作性极为重要。OCLC描述性元数据方案十分注重元数据方案在不同存档实践中的兼容性和与其他元数据标准或方案之间的互操作性以确保不同元数据格式间的信息贡献、转换和跨系统检索等功能的实现。OCLC描述性元数据方案应既可单独使用也可以与精细的图书馆或档案馆领域的元数据标准一起使用。制定的元数据方案之中既有在设定元数据元素时,对其他元数据方案中相应元数据元素的阐释,也用对照表的形式建立了元数据元素与其他元数据标准元素之间的映射关系,此外,还给出了相应的实例,介绍如何将工作组设计的元数据方案与DC、EAD等元数据标准之间进行转换,极大地提高工作组编制的元数据方案与其他元数据方案之间的互操作性。
OCLC网络存档工作组进行针对网络存档进行描述性元数据方案建设的行动展现了面向网络档案进行描述性元数据方案建设的探索空间,显示出许多行之有效值得深入研究的策略,各个国家和网络存档项目在选择或设计元数据方案时都可以从中找到值得参考的亮点或是需要规避的不足。就我国而言,在我国颁布的多份政策如《重大活动和突发事件档案管理办法》中,将网页、社交媒体等网络资源纳入到归档范围之中[18],图书馆也主动推进了政府网站存档与互联信息保存项目,网络存档活动已取得显著进展,但面向网络存档的具体性的政策指导如《政府网站网页归档指南》并未部署描述性元数据相关的内容,与此同时,国家文化数字化战略的推进又对网络档案资源的开发和利用提出了新要求。因此,我国也需要进一步针对网络存档描述性元数据建设进行深度探索以更好支持存档内容的管理、组织、利用。基于OCLC存档工作组实践,结合我国网络存档的实践与现实情况,提出面向网络存档的描述性元数据方案建设启示如下:
网络存档项目往往涉及图书馆、档案馆、博物馆等多方记忆机构、负责网络内容采集等技术人员,相应的元数据方案的建设也需要纳入多方主体进行团队建设,综合考虑不同机构对资源描述的优势和差异,并融入技术视角,考量哪些元数据对网络档案保存重要、哪些元数据可通过技术手段直接生成。OCLC 网络存档元数据工作组由高校学者、图书馆等机构专家和OCLC研究员等24名成员构成,这些成员来自不同的专业背景和不同的实践领域,为元数据方案的建设贡献了不同方面的智慧。
OCLC网络存档元数据工作组项目始终与实践对于网络档案开发利用的需求紧密相连,对用户需求和网络档案存档捕获工具与实践现状进行了充分的调研,以明确如何辅助捕获工作进行描述性元数据方案建设以满足用户需求,促进对于网络档案的开发利用。在针对网络档案的描述性元数据方案建设中,一方面,进行网络存档的目的在于促进学术研究、决策支持等方面的开发利用,因此在制定元数据方案时必须先对用户的需求进行调研,明确在开发利用中哪些元数据元素对于用户来说是不可或缺的。另一方面,网络存档的实践进展与捕获工具现状也需要得到明确,调研哪些元数据内容在实践中被忽略或是需要更为充分的描述,并明确如何设计元数据方案辅助网络存档捕获工具,从而更好地实现对于网络档案的大规模描述元数据的生成。对于网络档案描述性元数据开发,必须要围绕描述性元数据促进网络档案检索、内容发现的功能定位,围绕网络档案的开发利用进行内容的制定。
相较于其他档案资源,网络档案的动态性较为突出,网络档案庞大的数量、复杂的内容与形式构成也显现出其不同于其他类型档案的诸多特质,网络存档实践的多样性也更为突出。因此在设计描述性元数据方案时,必须深入考虑网络档案的特质,并在描述性元数据元素和内容中充分包容并体现网络档案的动态性、内容复杂性等特质。如OCLC元数据工作组设计的元数据方案为适应网络档案的动态性设置了“描述源”这一元素,以说明元数据内容于什么时候进行著录、来源是什么,以描述网络档案动态性带来的元数据内容的变动;再如对“类型/形式”这一元素的说明中,工作组强调了要对网页中存在视频、音频等内容的形式进行充分的描述。针对网络档案的元数据方案设计,必须在元数据内容设置中深入考虑到网络档案的特质,这样才能保障最终元数据方案在网络存档实践中的可操作性。
选取OCLC网络存档工作组的开展的描述性元数据制定工作为例,解析针对网络存档的描述性元数据标准的建设,旨在明确网络存档描述性元数据的特征及制定思路,为对网络档案的元数据方案建设提供参考。然而,本文更多从方案内容建设的视角出发,对于元数据元素的设计和内涵还有待进一步进行更深入的解析,后续的研究中可从更具体的元数据元素层面,并结合关联数据等新技术进行描述性元数据方案建设。