网络信息资源归档挑战与对策

2024-06-20 03:29刘冰

兰台内外 2024年16期

刘冰

摘要：根据西方网络信息资源归档最新理论与实践成果及将异常现象作为示踪剂的研究方法，本研究尝试将网络信息资源归档系统的后台异常现象引导至前台讨论，从URL无序性和时效性差异的研究视角阐释解构、规范URL的必要性以及通过自动代码或搜索工具对时间戳展开简单聚合或排序的弊端，提出超越以算法为中心的归档逻辑并广泛关注网络基础设施动态与关系互动或对我国网络信息资源归档研究具有一定启示。

关键词：网络档案；异常现象；算法；URL；时效性

中图分类号：G250.73文献标识码：A

在某个环境中开发的解决方案，应充分考虑悖论，识别和解决异常现象（Star和Ruhleder，1996）。网络信息资源归档是目前国际档案研究的前沿领域，在前人研究的基础上，本研究探索网络信息资源归档的异常现象，从URL顺序和时间性两个维度对网络信息资源归档过程中的故障展开分析，基于两者数据中的潜在离散值和归档过程中的痛点，通过异常现象定位不同过程、系统和标准化数据结构下的计算逻辑局限，推动网络信息资源归档机理研究。本研究对归档系统数据开发固有逻辑和秩序质疑，建议超越以系统算法为中心的数字档案归档逻辑（Milligan， 2019），并对当下网络档案研究关注收集决策算法和数据素养的流行观点做出回应。

一、URL无序性

1.URL的基本概念

URL（Uniform resource locator），统一资源定位符，最初由英国计算机科学家、万维网发明者Tim Berners-Lee提出。URL是互联网标准资源地址，互联网上的每个文件都有唯一的URL，URL是与网络相连机器上可访问对象的指针，URL为资源位置提供抽象识别方式，系统可以对资源存取、更新、替换和属性查找。URL包含模式（协议）、服务器（IP地址）、路径和文件名，相当于文件名在网络范围的扩展。

2.URL的构成特征

从Web和Internet标准角度看，URL被视为特定资源标识符，与HTML文档或媒体文件关联，与HTTP等协议共同在整个网络分布式服务器上查找特定网络资源。URL对于网络用户来说可识别、在日常生活中无处不在，较易掩盖其复杂性。URL根据国际标准形成，但其构成并不是清晰一致的，通常是无序的，不是标准化的数字地址，URL通过多种方式构建，有时会偏离互联网标准设定规则，不符合期望规则。在网络信息资源归档过程中，需要分析URL的特定构成，对URL组织和排序，降低不确定性。

3.URL无序化对策

网络信息资源归档系统可通过规范化归档顺序，对URL分类，转换URL网络存在形式，使URL数据有序化、可知化和可识别化。归档过程中，URL是其他资源的分类标签，面向接口，围绕存档资源访问设计，使用域和种子作为访问主要单位。但是，对网络存档的研究不应局限于将URL作为HTML页面或整个域的符号分析，应当进一步扩展将URL视为分析对象。

（1）URL解构及网络基础设备设施的研究视角

爬虫遇到的URL与特定组件相关，通过分析URL结构，可以发现网络资源顺序，原始顺序是原生网络档案的重要组成部分（Acker，2014）。解构URL可以解析网络元数据，单个文件路径和核心要素描述了资源在网络的生成和存储方式， URL被发现和分析之前不可预测，网络信息资源无法依据过去经验预测未来配置，对基于计算规则的选择提出挑战。网站有一定的规范秩序，但在档案环境中处理URL，或抵制易于解析的方法和规则，URL根据网络动态而非标准或存档顺序存在、活动和传播，URL未实现完全自动化，排序相对较难，需要确定网络基础设施的域、服务器、文件层次结构和管理系统，处理应沿着不同基础结构维度排序。同时，还应考虑生成网络资源的底层系统，如特定平台施加顺序以及归档基础设备设施应用程序。目前，较少有计算分析工具专注于解构URL并将其作为通过字符表示的数字对象展开系统研究，网络归档需充分了解URL的复杂性，重构对URL的理解，掌握给定URL特定技术的基础结构，规避URL作为简单或可预测构造数据模型的弊端，通过网络基础设施视角与URL互动，了解互联网和档案基础设施的构建机理，将URL视为与域、主机和服务器的底层基础设施相关的复杂对象，充分考虑跨网络分布式数据及多元影响。

（2）Heritrix规范化

Heritrix是由 Java 开发的网络爬虫，包括范围部件、边界部件和处理器链，可以用来从网络上抓取目标资源，具有良好的可扩展性，方便实现抓取逻辑。Heritrix网络爬虫是IIPC和许多其他机构网络存档使用最广泛的爬虫（Costa等，2017）在网络信息资源归档过程中，URL是爬虫处理的主要单元，可以通过开发爬虫范围、定义爬虫遇到新的URL时采取的行动确定爬虫处理URL的方式，爬虫范围记录在作业配置文件中作为计算决策树，确定爬虫对URL的操作。Heritrix可自动应用规范化，将URL错误格式转换为标准格式。每个网络服务器配置以不同方式显示URL，使用非标准编码的错误URL格式，通过不同方法替换无效URL字符，服务器和链接以不同方式配置或导致编码不匹配，给爬虫、存档及网络整体导航带来一定问题。网络归档应分析、综合解释给定URL的构成，推断URL的各个表示部分与特定域和服务器的关系。在抓取过程中应用特定规则对URL分类，并对存在于网络上的URL排序。在开发和指定作用域参数时，可以爬虫受限的方式查看URL，通过范围界定、定义收集数据，将需求转换为爬虫可明确解释和应用的命令。捕获系统需要编写过滤器使爬虫避免捕获重复或不需要的数据，决定系统范围。

（3）网站测试的促进作用

与可能导致误报或难以解析的URL不同，模糊的URL遵循可预测的不匹配原则存在于网络中，可以通过创建小型网站，记录已知或可预测的异常问题，识别问题URL集并自动编码。网站测试可以针对给爬虫带来问题的URL，通过网络服务器和浏览器，基于已知问题执行测试，测试对于转换和规范特定形式数据发挥重要作用，便于在存档中使用和管理，并通过索引促进更有效的访问。网站上可测试工作流程，确保归档和索引系统按照计划工作，记录和编目网络上不同类型的URL异常、突变等标准偏离，可以促进URL排序工作自动化、规范化。

（4）收集系统解决方案

Archive-it由美国互联网档案馆推出，提供全球领先的网络档案存档服务，用于获取网络信息资源，在默认情况下提供四种程度不同的作用域。在开发抓取范围时，Archive-It注重正确指定种子URL，强调特定站点和确定范围经验法则，Archive-It提供站点指导和内置范围界定模板。NAS网络存储器是一种专用数据存储服务器，以数据为中心，将存储设备与服务器彻底分离，集中管理数据，从而释放带宽，提高性能，其成本远远低于服务器存储，效率却远远高于后者。与Archive-It相比，NAS系统支持自定义用户生成的抓取配置文件。Netarchive开发了规范的抓取作业配置文件，参与爬虫应用不同分类，记录爬虫根据嵌入和链接，解释网站上的URL和资源。NAS系统中可定制的配置发挥促进作用，可以编写代码片段过滤爬虫陷阱，指定爬虫从归档数据中排除或过滤掉URL，代码片段，使用正则表达式指定URL组件模式，与CMS或数据库自动生成的URL相匹配。

二、时效性差异

1.差异产生原因

网络存档中不同网络设备设施的时间性影响产生时效性差异，目前，已有研究关注资源创建时间和网络档案收藏记录时间之间的不一致，该时间间隔影响网络材料的读取和存档，爬虫捕获页面日期通常比资源创建日期晚。在抓取过程中，网络上的文件资料可能发生变化或更新，时间上不连贯，存档网页由跨越不同时间框架的不匹配资源组成，最终或导致存档呈现页面未存在于现有网络（Ainsworth等，2015；Spaniol，2008）。一方面，网络资源收集缺乏同步性，通常爬虫持续截获需要跨越数周或数月时间；另一方面，网络档案时效性差异源于计算系统使用的标准化时间，时间的协调性是WARC和其他网络档案数据的核心要求之一，由于标准化时间无处不在，在分布式系统和网络服务器之间跟踪和比较时间戳较为复杂，通过计算机跟踪生成时间戳的过程比较困难，时间看上去是标准化和精确的记录，但这些时间戳在分布式机器上不一定准确，存在不协调与不同步的问题。人工作业模式也对网络存档活动产生影响。爬行程序可以24小时工作，服务器可以从不同地理位置自动响应，但是监视爬行过程的人工管理活动只能在工作时间开展。因此，也会对数据的生成方式产生影响。

2.时效性差异对策

（1）收集系统解决方案及网络基础设备设施的研究视角

Netarchive为所有进程加上时间戳，并将它们记录在WARC文件中，确保一致、可靠的时间记录。在本地化时间方面，Netarchive调整并适应计算进程始终在线的性能。Heritrix网络爬虫显示，重要日期和重大事件可以用来区分收藏的时间轴，但是这种断点不绝对，对数据系统和流程的更改、更新和升级不是即刻发生，技术更改以分布式方式开展并在长时间跨度内发挥作用。同样，新系统的引入不是即时变化，或需要许多年才产生新版本。Internet Archive于2009年12月正式推出Heritrix Version 3（以下简称“H3”），在NAS系统内的Netarchive本地集成需要更新NAS代码，更改测试并跨越多个站点。NAS V5.0整合H3生产版本，比最初版本晚了6年。从基础设备设施角度来看，对H3的逐步更新可用Star（1999）确定的中心特征解释，即基础设备设施以模块化增量固定，不是全局或一次性全部固定，就数据实践而言，变化的分布式特性突出了变化在局部发生的必要性，揭示了依赖于网络的时间性差异，由于各系统是局部的。因此，它们无法实现整体一致的充分协调。

由于基础设备设施的互联性，许多不同的变化可能同时发生，形成多米诺骨牌效应，即基础设备设施系统中不相关的部分可能会同时调整，对相同的外部变化做出反应。Netarchive对H3的更新对收集的策略产生影响，显示了新旧系统之间的配置文件不兼容导致出现问题，定期维护检查梳理模板较为重要，应改进现有模板，解决过去决策积累的问题。此外， Netarchive变更收集策略，基于对过去抓取数据的经验总结更新收集流程，这些变化不是由H3的转变引起，显示了不可预测相互作用。滚雪球式的变化和本地化活动对事件产生影响，NAS开源软件系统有与特定更新或新版本相关的技术文档，但由于文档通常也在网络上，容易受到基础设备设施变化的影响。

（2）时间戳的科学解读

Tejon将时间体验简化为数据化的时间戳（Finn，2013），网络信息资源的转移无法做到无缝衔接，不同平台上文档周期重复或在迁移过程中丢失某些特殊属性、元数据或准确地发布日期，当软件代码发生更改、设置更新时，没有集中的文档源用于跟踪，需要做大量工作梳理特定时期给定数据集上应用的软件组合。因此，亟须开发工具记录和解释网络档案数据中测量和事件发生时间的差异，确切了解时间戳记录的时间和对资源的作用，而非简单通过自动代码或搜索工具聚合或排序时间戳。同时，需要关注人为活动的时间周期及对工作实践的影响。收藏通常跨越长时间框架，通过离散的时间戳表示精确时间与模糊时间存在一定冲突。对时间的基础解读需要更多关注事件的局域性及特定时间、地点等体验，基于Drucker对信息系统和可视化时间及时间性的人文探索研究，本研究建议考虑档案时间标记的情感维度，对数据展开情感排序有利于在网络基础设施和档案基础设施上看到更加丰富的时间图。同时，应注重本地化时间读取数据，充分考虑根据特定地理位置、文化实践、组织实践和集成软件组件之间的关系要求和时间线的周期变化。

三、结语

借鉴西方数字化档案研究理论和网络信息资源归档实践，本研究尝试探索网络信息资源归档过程中的异常，利用异常现象揭示归档逻辑。本研究建议URL排序、清理和规范化，将异常的URL视为有价值的研究对象，以更加广泛的视角对URL展开研究。时效性差异揭示了归档数据受到局部偶然事件和网络动态更新的影响，需要介入更复杂的时间研究框架，并通过关键网络基础设施的视角，与互联网的其他相关理论研究形成批判性互动。异常现象揭示了决策不完全基于爬虫选择算法逻辑，由复杂和不断发展变化的组合决定，包括搜索引擎、管理系统、服务器管理以及跨时空的人工服务，基于这种生成张力，网络信息资源研究应找到驱动决策更复杂的逻辑。未来，我国应以多样性为中心构建并分析数据，研究开发更多分析工具和监测流程，降低对特定简化数据的形式依赖，识别数据携带逻辑并超越计算逻辑。同时，还应关注网络基础设施动态及互动，以更广阔的视野开展我国网络信息资源归档研究。

参考文献：

[1]Milligan，I.（2019）.History in the Age of Abundance？： How the Web Is Transforming Historical Research. McGill-Queens University Press，Montreal.

[2]Costa，M.，Gomes，D.，and Silva，M.J.（2017）.The evolution of web archiving. International Journal on Digital Libraries，18（3）：191–205.

[3]Acker，A.（2014）.Born Networked Records：A History of the Short Message Service Format.Doctor of Philosophy，University of California Los Angeles， Los Angeles，Calif.

[4]Costa，M.，Gomes，D.，and Silva，M. J. （2017）.The evolution of web archiving. International Journal on Digital Libraries，18（3）：191-205.

[5]Ainsworth，S.G.，Nelson，M.L.，and Van de Sompel，H.（2015）. Only One Out of Five Archived Web Pages Existed as Presented. In Proceedings of the 26th ACM Conference on Hypertext & Social Media， pages 257-266，Guzelyurt，Northern Cyprus.ACM Press.

[6]Spaniol，M.（2008）.”Catch me if you can”.Temporal Coherence of Web Archives. In 8th International Web Archiving Workshop（IWAW08），Aarhus， Denmark. http：//iwaw.net/08/IWAW2008-Spaniol-pres.pdf.

[7]Star，S.L.（1999）.The Ethnography of Infrastructure.American Behavioral Scientist，43（3）：377-391.

[8]Finn，M.（2013）.Information Infrastructure and Descriptions of the 1857 Fort Tejon Earthquake.Information & Culture，48（2）：194-221.https：//www.jstor.org/stable/43737461.

作者单位：大连商品交易所行政服务有限责任公司