何露彤 林妍歆 王春蕾
(中国人民大学信息资源管理学院 北京 100872)
网络信息作为互联网技术革命中的衍生产物,是人们进行网络活动的真实记录,包含文字、图像、声音等多种形式,生动直观地反映了人们的网络生活。[1]网络信息具有凭证价值和记忆价值,是一个国家和组织珍贵的数字资产和数字文化遗产;同时,网络信息资源也是一种动态增长的、易逝的且不可再生的“原生性”网络文献,具有易消失、难复原等特性。网络信息存档是指在一种“原生性”网络信息资源的整个生命周期内对其进行有目的的评价、选择、采集、描述、元数据表示、存储、发布和维护等一系列工作以确保其当前可用和未来价值增值的管理活动。[2]
当前我国关于网络信息存档的研究大体上可分为三类:一是案例类研究。即对美国、英国等国家的网络信息存档项目进行成果介绍和经验总结,分析网络信息存档项目的存档方式、存档主体和主要功能等,以周文泓[3]等为代表;二是技术类研究。基于区块链理念及相关技术对资源采集、管理、保存和利用的全流程网络信息存档进行分析,旨在增强数据安全性和提高自动化认证能力,以张炜[4]为代表;三是价值类研究。即从价值的来源、属性和影响等因素出发,阐述存档网络信息价值的概念,以胡吉颖[5]、吴硕娜[6]为代表。以上研究成果皆具有启发意义,但这些研究或着眼于个别国家的单个项目,未从全流程视角形成系统分析;或过多地关注技术本身,而缺少整体性的战略框架。
基于上述背景,本研究着眼国际知其全貌,立足整体窥其要理,采用网络调查法展开系统研究,具体来说,项目组于2023 年9 月25 日至9 月30 日开展调查工作,以维基百科的网络信息存档行动列表、国际互联网保存联盟的成员列表为主要信息来源,并在调查过程中采用滚雪球法扩大收集范围,尽可能获得更为完整、全面的网络信息存档项目列表。需要说明的是,由于当前全球网络信息存档项目中,存档对象多为网页和社交媒体,而社交媒体信息归档还尚不成熟和普遍,因此,本文所指的网络信息归档主要指向网页信息存档;随后,于10 月1 日至10 月10 日开展资料收集工作,从机构及项目的官方网站、相关新闻及研究报告中摘取项目相关信息,从项目资料的细粒度和完整性出发,以项目实践效果为基础、以社会评价指标为依据、以项目的代表性为支撑,进行项目的层层筛选和资料的渐次补充,最终形成来自19 个国家的26 篇项目介绍文档;最后,于10 月11 日至10 月15 日开展项目编码工作,依据所获取的项目文本内容形成全球部分代表性网络信息存档项目编码表、网络信息存档行动基本要素编码表以及网络信息存档行动关键问题编码表共三张编码表。以这些编码信息为主,本研究尝试对全球网络信息存档行动进行全景描绘,从行动的基本要素和关键问题两个层面归纳其基本要素框架,以此为我国网络信息存档行动提出建设性意见。
全球网络信息存档行动始于1996 年,澳大利亚、瑞典等国家相继发起PANDORA、Kulturarw3 等项目,以先驱性尝试拉开了网络信息存档系列行动的序幕。此后,瑞典、新西兰、捷克等国纷纷开启了本国的网络信息存档实践,网络信息存档逐渐从区域性尝试演变上升为全球共识,行动足迹几乎遍及各洲。项目组按照项目所属地区对选取的代表性网络信息存档项目进行了编码,并按开展时间对其进行了排序,形成了全球部分代表性网络信息存档项目编码表(见表1)。
表1 全球部分代表性网络信息存档项目编码表
俯瞰全球网络信息存档行动全景,可以从以下三个维度对其进行解析:
首先,从时间维度来看,1996 年—2002 年为萌芽期,尽管少数国家在1996 年开启了网络信息存档实践尝试,但其后六年间相关项目零星增长,网络信息存档并未引起普遍关注。2003 年—2013 年为快速发展期,2003 年国际互联网保存联盟的成立成为促使网络信息存档行动高速发展的重要转折点,探索性实践的经验积累与全球范围内的交流合作使这一时期的网络信息存档项目激增,全球网络信息存档行动迎来十年发展高峰。2014 年至今为沉淀发展期,这一时期全球网络信息存档行动的增长势头趋于平缓,但新行动的规划水平和技术水平均有明显提升,网络信息存档步入智慧存档新阶段。
其次,从地区维度来看,欧洲、北美洲,如英国、美国、澳大利亚等发达国家作为先行者走在前列,亚洲国家如韩国、日本、中国紧随其后,经济水平相对落后的非洲、南美洲国家则缺少探索。这种地区分布有其合理性,开展国家网络信息存档行动不仅需要完善的网络基础设施和充足的网络信息资源,更因庞大的资料数量要求有强大的资金及技术支持,总体而言对开展国家的网络发展状况、经济实力都有较高的要求。
最后,从主导机构维度来看,全球网络信息存档行动的主导机构较为多样化,涵盖图书馆、档案馆、政府机构、高校、私人企业等,但国家级的网络信息存档行动一般由图书馆主导,或由图书馆和档案馆共同合作主持,这与二者作为公共文化机构的责任和使命相符。
整体来看,历经数十年的发展,网络信息存档已形成全球行动态势,网络信息作为记录时代历史、构建社会记忆的重要数字资源已然引起了世界各国图书馆及档案馆的普遍关注。
网络信息存档行动包含多个流程要素,对其进行解析有助于把握网络信息存档各个环节的具体内容及特点,同时促进对网络信息存档行动的整体性认知。依据上述所整合的全球部分代表性网络信息存档行动的资料,对网络信息存档行动的流程要素进行编码,最终梳理出所选取网络信息存档行动的“选、管、存、用”四个流程要素。
3.1.1 内容选择策略
信息选择是网络信息存档的首要环节,旨在根据制定的内容选择策略,采用一定的内容采集方法,对互联网上生成的网络信息进行选择并加以捕获。网络信息存档行动主导机构的不同决定了存档网络信息内容选择策略的差别。其选择策略主要有以下几种,一是根据网络信息的类型进行选择。如英国议会选择性捕获、保存和提供在网络上发布的英国议会信息,包括2009 年至今的英国议会网站和社交媒体网络信息。[7]二是立足机构职责范围进行选择。如德国网络服务部门、德国联邦议院议会档案部门根据其职责范围存储、接收和提供来自议会及其行政部门的值得存档的文件,包括文件、图像、视频记录等。[8]三是立足国家记忆,对国家域名网站进行广泛爬网,还会基于重要事件或主题进行选择性网络信息收集。代表性项目如英国网络档案馆,该项目每年至少进行一次英国网站的自动爬取,同时策展人和其他专家还会收集有关特定事件、主题或感兴趣领域的网站。[9]
3.1.2 内容采集方法
全球网络信息存档项目在内容的采集方法上既有共性又各具特色,具体表现在采集工具的选择和采集频率的设定两个方面。一方面,Heritrix、HTTrack、Webrecorder 软件是几个通用使用范围最广的采集工具。此外还有一些专门软件也会被用于存档项目中,如美国图书馆专门开发的内部工作流DigiBoard 软件,允许员工选择网站进行存档、管理和跟踪所需的权限和通知、执行质量审查流程以及其他任务[10]。另一方面,采集频率的确定一般与存档网络的更新频率有关。一般情况下,网络的采集频率为每年2—4 次,而对于新闻网络等更新周期较短的网络信息,则一般每日或每周采集一次。如日本国立国会图书馆将网络类型分为国家机关网络和其他网站网络,对于前者按月采集,对于后者按季度采集[11]。尤为特殊的是,采集频率的变更还与存档网络的价值评估情况有关,比如美国图书馆会定期对存档名录中的网站进行评估,一旦网站的价值被重新评估,其采集频率也会随之发生改变。[12]
信息管理是网络信息存档的中间环节,旨在通过著录描述、分类整合等管理手段对网络信息的内容特征与物理特征加以描述,以确保存档网络信息的质量。对存档网络信息进行质量管控具有两方面的必要性:一是网络信息形成于计算机网络之中,具有物理结构和逻辑结构的复杂性,存档主体需要采取专门的文件格式以及元数据管理工具对其进行质量管控;二是网络信息具有内容动态和更新速度快的特征,其存档价值的确认和维护存在较大挑战,存档主体不仅需要在深入理解其语义及内涵的基础上加以分类和组织,还需确保网络信息的真实性固化和有效性保障,以为信息利用奠定良好的基础。
3.2.1 著录描述
著录描述是对存档网络信息的内容描述。不同项目采用的元数据标准存在差别。一般情况下,多数项目采用国际通用数字材料或电子文档著录规则对存档网络信息进行手动著录。如韩国国家图书馆应用了国际标准格式都柏林核心元数据(DC)的15 个基本元素,对其资源进行元数据著录[13];日本国立国会图书馆采用NDL 元数据标准[14];澳大利亚图书馆采用MARC 机读目录标准[15]。这些国际通用元数据著录标准的运用,极大地增强了网络信息的可检索性和可理解性,同时也提升了系统中数据著录信息的一致性和共享性。如前所述的描述性元数据通常是手动创建的,而技术元数据一般是在抓取时自动生成的,如美国End 0f Term Web Archive 就借助Internet Archive 经重新配置的内部工具,为馆藏6,000 多个网站自动生成了元数据记录[16]。
3.2.2 分类整合
分类整合是指根据内容主题将存档网络信息划分为不同类别,以方便资源的管理和开发利用。总体而言,存档网络信息的类型划分充分体现了不同存档项目所采集网络内容的丰富性和特色性。比如,英国网络档案馆将所存档的网络信息划分为艺术与文化、政治与政府、运动与休闲等多个核心主题,在每个核心主题之下又包含若干个子话题[17];澳大利亚网络图书馆则按照艺术、商业与经济、教育、政府与法律等主题对信息进行了分类和整合[18];各具特色的分类方式不仅能让用户快速把握存档网络资源的内容和特色,而且有利于对存档网络信息的质量控制,并根据网络的更新变化情况随时补充新的存档网络信息,以更全面地覆盖主题网络范围。
3.3.1 存储格式
存档网络信息的长期保存依赖于统一、标准、完整的存储格式,因此全球网络信息存档项目力争采用最为理想的存储格式对资源进行保存。WARC 格式就是目前最为普遍的存储格式,被广泛运用于多个网络信息存档项目中,包括澳大利亚PANDORA 项目[19]、丹麦网络档案Netarkivet 项目[20]、捷克网络档案Webarchiv 项目[21]等。此外,还有一些项目也会存储网络的原始版本,如美国互联网档案馆利用网络快照对网络进行存档保存[22]。
3.3.2 存储平台
网络信息存档项目普遍基于项目目标和建设条件,或选择自行开发网络信息存档平台,或选择使用合作伙伴、技术公司、国际网络存档组织提供的存储服务,或将二者进行组合使用。自行开发网络信息存档平台的机构,如瑞典Kulturarw3 项目开发了学术期刊数据库,专用于网络信息存档[23];斯坦福大学图书馆将存档后的网络信息存储于斯坦福大学数字存储库[24]。而借用其他存储系统进行资源存储的项目则更为普遍,如英国网络档案馆将存档后的网络信息存储于由大英图书馆开发并得到其他英国法定存放图书馆支持的数字图书馆系统当中[25]。
信息利用是网络信息存档的最终环节,也是网络信息存档的最终目标。存档网络信息的利用需要更为重视信息利用的伦理与法理风险,在确保信息的合理利用前提下追求信息利用的共享性和便利性。这是由网络信息生成主体的多元性所决定的。在互联网空间中,与信息的生成、管理、处置等过程相关的利益者层层交叉,存在权责不分,利益冲突等情况,加之个人网络信息的所有权、知识产权、隐私保护等意识的强化,这些都将导致存档网络信息的利用更加复杂,存档主体需要在法律的框架下兼顾网络信息利用的合法性和合理性,以满足用户利用需求为目标丰富信息开发的成果形式和利用形式。
3.4.1 成果形式
根据信息展现形式和平台的不同,存档网络信息的开发利用成果形式主要分为两种。第一种是面向用户利用的专门数据集,比如美国国会图书馆公开发布网络信息存档衍生数据集,向广大用户提供利用[26]。第二种是建设通用型检索平台,为用户提供多个检索途径和入口,比如美国斯坦福大学图书馆提供斯坦福网络档案门户网站,支持搜索URL 获取存档网站信息[27]。不同的成果形式能够满足相应的用户需求,实现存档网络信息价值的最大化,将存档信息转变为可供检索和利用的知识性资源。
3.4.2 利用形式
按照信息开放利用程度的不同,存档网络信息的利用形式一共可以分为三类。第一类是开放利用,比如英国议会网络档案项目存档的材料保存在英国议会网络档案馆 (UKPWA) 中,任何人都可以在线访问[28]。第二类是提供部分访问,比如澳大利亚PANDORA项目中一些存档网络被禁止公开,如包含隐私信息、有害信息的网络。用户对少数主题的访问受到限制[29]。第三类是不提供开放利用。比如丹麦网络档案无法公开访问[30]。该档案仅供已请求并获得特殊许可,将馆藏用于特定研究目的的研究人员访问。
网络信息的采集与利用触及知识产权、隐私权等诸多复杂的法律问题,因此网络信息存档项目的顺利推进离不开法律的保障与支持。目前各国在解决网络信息存档所面临的法律问题上已经探索出了一些可供借鉴的路径。具体来说,首先在网络信息的采集上,多数国家会对相关法律如法定呈缴法、版权法、档案法进行修改,以将网络信息纳入合法收集范围。如英国在2003 年通过了《法定缴存图书馆法》,将现有的法定缴存立法扩展到包括网站在内的非印刷(电子)出版物[31];美国在2005 年重新修订了版权法第108 款,将呈缴范围扩大至在线资源[32]。
其次,在网络信息的开放利用上,为保护可能包含于网络信息中的个人或机构隐私信息及版权内容,避免侵权行为,多数存档机构都对存档网络信息的访问设置了一定限制,其中较为常见的有以下三种。一是对提供信息进行限制,即对存档网络信息只提供部分公开访问,如前文提到的澳大利亚PANDORA项目;二是对访问场所进行限制,即将对存档网络信息的访问限制于图书馆或档案馆内,如英国网络档案馆的存档网络信息除非获得了网站发布者的额外许可,否则只能在图书馆实地查看[33];三是对使用目的进行限制,即只允许以研究为目的对存档网络信息进行利用,如丹麦网络档案Netarkivet 仅供已请求并获得特殊许可将馆藏用于特定研究目的的研究人员访问[34]。而在此方面,澳大利亚PANDORA 项目的做法值得借鉴,其根据版权的不同对资源的利用设置了严格的用户检索等级表[35],在版权限制下实现了存档资源利用价值的最大化。
在确保网络信息存档合法合规的基础之上,对于网络信息的开发利用,存档机构既需维护信息所有者利益,又需注重公众获取信息的基本权利,可以通过检索等级表此类更为细致、完善的访问规定促使网络信息的价值在法律框架下得到最大程度的发挥。
技术是贯穿于网络信息存档全流程的重要要素之一,作为网络信息存档流程顺利开展的保障对存档行动起到根本性支撑作用。目前对于网络信息存档行动中的主要技术问题已经拥有了成熟度较高的相应技术工具,按具体用途大致可以分为以下三类:第一类用于网络信息的采集爬取,如Heritrix、HTTrack 等,其中由互联网档案馆开发的Heritrix 是应用最为广泛的网络爬虫,可用于选择型和完整型资源采集;第二类用于存档网络信息的浏览重现,常用的有OpenWayback、WebRecorder pywb 等,其中WebRecorder pywb 作为国际互联网保存联盟建议的OpenWayback 替代工具,能够准确地重现各类存档网络,并可用于创建高保真网络信息档案;第三类是既可用于资源采集,又可用于信息呈现的集成性技术工具,如开源工具WebRecorder 就集网络捕获与网络重现于一体,为网络信息存档实践提供了极大便利。此外,目前也已出现帮助组织机构解决网络信息存档相关技术问题的外部服务供应商,如英国议会网络档案的合作公司Mirrorweb,其为存档机构提供网络、社交媒体等网络信息的存档及访问服务,帮助减少机构进行网络信息存档的时间及精力成本。
网络信息存档的相关基础性技术工具已较为完备,但仍有一些前沿技术问题需要给以持续关注以在未来予以解决。如在网络信息的采集上,需提高对动态内容的捕获能力,解决动态网络的捕获问题;在网络信息的利用上,需实现对存档信息的深度处理和分析,解决存档信息的开发问题。
网络存档政策是图书馆、档案馆等机构对网络资源进行评估与选择、采集、存档范围界定、存储和组织、质量保证与分析、访问利用等制定的一系列指导原则、标准规范与战略目标等[36]。在网络信息存档行动中,重视相关政策的制定能够为各个流程提供实践层面的指南,提高存档工作的科学性和规范性。一些国家已经制定颁布了综合性或专门性的网络信息存档政策,用以指导网络信息存档的某一环节或多个环节,包括内容选择、风险管理以及法律问题等内容。比如澳大利亚国家档案馆的政策文本中,分别对宏观国家级收藏及微观具体收集资源类别进行了说明;加拿大图书档案馆的政策文本中制定存档内容选择与保存方面的内容;芬兰国家图书馆将具有长期研究价值的权威出版物及学术资源网站列入网络选择范围当中。
网络信息存档作为一项极具复杂性的系统工程,涉及主体众多,存档对象多元,需要借助政策力量给予网络信息存档行动指导和保护。具体来说,一是要完善政策覆盖的全面性,即兼顾存档内容选择与保存、存档内容管理与利用以及保障政策三个方面的内容,并且需重视合作保存、预评估与存档流程、技术选择、质量管理与评估等方面的政策制定;二是要增强政策内容的特色性,针对国家自身社会和民族的特色制定体现本国、本民族特质的政策内容,在采集范围与采集方式、采集内容优先权等方面制定相应规定;三是要提升政策制定的平衡性,综合考虑多重利益相关方的诉求,在保护相关组织或个体信息权益的前提下实现国家数字记忆的长久留存和开发利用,在权利、法律义务、人力配置、合规管理等多个方面制定相应规定。
网络信息存档标准作为网络信息存档的前端控制环节,以其规范化、科学化和流程化的特点,为选择、管理、保存和利用各个项目环节提供了运行依据和实施要求,目前各国网络信息存档项目中通用的信息存储标准为WARC文件格式标准,其是由ISO国际标准化组织于2009年发布的网络信息资源存档格式标准,是面向网络信息资源长期保存领域的唯一文件格式标准[37]。首先,在选择和采集环节上,WARC 文件格式标准支持对采集资源进行详细描述、对资源内容进行充分切割、实现外部语义关联等,同时也便于对资源进行存档和压缩。其次,在著录与整合环节上,WARC 标准基于系统化、科学化的著录流程,可实现对网络资源的全方位整合与精准化著录。如Archive-it 项目采用都柏林核心元数据和WARC 标准对网络信息资源进行规范化著录,实现对网络信息资源文件类型、标题、内容、URL、主题及发布者等方面的全面描述和著录[38]。最后在保存与共享环节,WARC 标准是网络信息资源存档保存标准封装格式,用于解决存档资源格式多样、关联复杂等问题,有助于网络信息资源的整合共享和永续保存。目前Archiveit 项目、PANDORA 项目、UKGWA 项目等都应用了WARC 文件格式标准。
虽然WARC 标准能够对网络归档的前三个环节做出科学评估,并提供可供借鉴和应用的归档范式,但在访问和利用环节中,WARC 标准的应用范围仍然较为狭窄,主要是由于在访问和检索过程中,国际上并未形成具有针对性和适用性的标准,缺少可供遵循和应用的标准化依据。此外,目前在实践过程中WARC 标准因制定时间较为久远,内容上呈现出模拟态向数据态转化的缺位,操作上面临领域空白和规范不清的困境,亟需围绕各国网络信息存档项目实践开发和制定更符合时代需求、内容更加健全的网络信息存档标准。此外,在存档主体和存档对象方面,各国档案部门除了接收和保管各类网络信息资源,还应该积极制定相关规章制度和标准指南来规范和监督网络信息存档工作。同时,针对存档对象的不同形态和类型,要给出相应的存档标准和规范,包括一些可视静态内容,如文本、静态图片等,页面中的动画、音视频等类型的内容的存档格式也需要规范化[39]。
综全文所述,网络信息作为社会知识资源和记忆财富,能够起到知识赋能和集体认同的作用,为了避免网络资源的消弭和丢失,开展网络信息存档行动,对珍贵网络资源进行保存、开发和利用具有重要历史价值和社会意义。限于篇幅,本文只选取了实施效果较好、社会评价较高的网络信息存档项目,并未对全球所有国家的网络信息存档项目进行详细描述,但这并不妨碍我们从代表性案例中归纳出网络信息存档的基本要素框架和关键性问题。当前,我国网络信息存档工作大多处于放任自流或各行其是的状态,基于网络资源更新快、易消失、唯一性的本质属性和我国刚刚起步、缺乏经验的网络信息存档行动现状,学习国外先进网络信息存档模式,加快网络信息存档行动步伐势在必行。
(致谢:本文作者感谢中国人民大学信息资源管理学院加小双副教授对本文的指导。)