加小双/中国人民大学信息资源管理学院 中国人民大学档案事业发展研究中心 中国人民大学人文北京研究中心 王春蕾/中国人民大学信息资源管理学院
随着社会多元主体对于网络信息利用乃至网络信息存档技术的需求与日俱增,越来越多的网络信息存档项目开始超越其原有单纯的网络信息保存实践,进而向社会提供更加丰富、立体的公共服务。目前研究主要聚焦对网络信息存档的项目分析、技术导向和路径展望等主题研究成果较为丰富,但缺乏对其公共服务供给与需求的关照与探究。网络信息存档可以提供哪些公共服务?这些公共服务要素之间又构成什么关系?本文以葡萄牙网络信息存档Arquivo网站(以下简称Arquivo网站)运行实践为基础开展案例研究,构建基于网络信息存档的公共服务体系。
Arquivo网站在设计理念、组织架构、技术特点、运行方式、用户互动、业务扩展等方面深受互联网档案馆(Internet Archive,IA)的影响,同时也十分重视针对网络信息的数字遗产管护。该项目经历了酝酿、建设和升级三个阶段,是对网络信息存档新一轮创新性探索。选择Arquivo网站作为案例研究对象的主要理由包括:一是从系统性看,该项目由葡萄牙政府主导,具有典型的公共服务供给性质且运行体系较为成熟完整;二是从代表性看,2022年该项目被葡萄牙信息通信技术期刊《信息测试》(Exame Informática)评为最佳数字服务奖[1]。
随着数据作为生产要素的功能不断被激活,信息服务成为现代信息社会中公共服务系统的基本构成,网络信息存档实践最终目的也会指向实用且高效的信息利用服务。Arquivo网站提供的信息利用服务主要包括:
首先,不断优化检索技术提供高效的信息搜索服务。截至2023年1月,Arquivo网站保存了自1996年以来葡萄牙发布的3200万个网站,共计177.16亿个网络文件,主题涉及“经济与时事”“政治、司法和新闻”“体育与文化”等类别[2]。针对这些网络信息的有效检索,Arquivo网站的亮点在于为用户提供精准化搜索服务:在普通搜索服务上,网站支持全文搜索和统一资源定位符(Uniform Resource Locator,URL)两种检索方式,并在检索主页附加了一个宽大页脚,帮助用户链接到相关简介、新闻或视频等额外的信息背景;另在高级搜索服务上,用户可以通过给定的关键词语、句子或通过提交感兴趣网页文档的URL,将检索范围缩小到特定的时间间隔以迅速定位历史发布的特定页面。为了使信息搜索服务更加完备和高效,Arquivo网站充分考虑了用户搜索网络信息过程中的可能困难,试图通过科学预测消弭“信息孤岛”。例如针对获取网络信息过程中面临的改变原链接内容的“内容漂移”和完全消除原链接的“失效链接”两种情形,Arquivo网站研发了失效文件找寻(file404)服务。当用户尝试访问网站上不再可用的页面时,“file404”会自动检查是否在网站中保留了该页面的版本,若存在该页面,则会自动显示出可供用户访问的链接;若不存在该页面,则会显示正常的错误页面。同时,随着网站建设不断细化和完善,词组搜索、分类搜索、图像检索及按相关性和日期排序等多种检索功能陆续面世,不断满足公众日常的信息搜索需求。例如“图像服务发布”(Image Service Release)移动图像检索服务能够支持用户使用移动设备检索历史图像,并自动链接到包含原始图像的历史网页[3]。
其次,持续开放数据资源提供优质的数据服务。Arquivo网站通过对数据进行可整理、可传输、规程化的操作,将原始数据集以原生格式进行配置,并保存在物理、虚拟或基于云的存储卷中,不断提高数据的可用性、弹性和可理解性。在访问数据层面,表现为用户可以通过应用程序编程接口(API)以复制代码或导入程序的方式获取关于网络信息检索和存档的相关操作数据,实现无障碍化访问数据。例如用户可以借助主体网站API对存档的文字信息内容及相关元数据进行自动访问,同时利用图像搜索功能(ImageSearch API)输入关键词语访问图像信息内容及相关元数据。在管理数据层面,当用户需要大批量下载存档信息资源时,数据集中的用例能够帮助用户选择可能包含最有趣的网络存档数据的集合。目前,该网站每分钟可以处理400个以上的用户请求,自动列出、排序和过滤来自用户需要的URL页面。总体而言,Arquivo网站以促进数据合规高效流通使用、赋能网络信息存档为主线,以开放数据、安全接口、流程简化、免费获取为重点,构建适应数据特征、符合服务规律、彰显创新引领的开放数据公共服务模式,激活了数据要素潜能,充分发挥了网络信息海量数据规模和丰富应用场景的优势。
最后,充分利用数字人文技术实现信息增值服务。为顺应用户对于网络信息的多样需求,Arquivo网站以数字人文技术为基础,提供了更高维度的知识化服务。具体来说,一是提供知识图谱服务。网站将用户查询的关键词映射到语义知识库的概念上,以资源可视化实现网络信息的背景关联,从而智能地反馈用户需要的答案。该服务有利于将错综复杂的文档数据进行聚合加工,转化为公众可观察可理解的语义丰富与结构友好的“实体-关系-实体”三元组,充分满足公众的知识认知和科研需求。二是提供交互式分析服务。“档案公开(Arquivo Público)”网络应用程序,专注于将网站保存的内容进行可视化,并通过关系抽取和属性抽取,实现知识融合与知识加工[4]。例如,在交互式地图中,用户可以看到公共期刊(Jornal Público)上2010年至2021年期间所有头版新闻中提到的地点,并可以点击地点图标了解详细新闻内容;在交互式词云中,用户可以观察到公共期刊头版新闻中出现频率最高的相关词,了解12年间葡萄牙发生的热点事件。
数字技术服务是网络信息存档过程中满足公众个性化存档需求的重要行动路径,在赋予公众主体性地位的同时,也实现了网络信息的长期保存与深度流动。Arquivo网站提供的数字技术服务主要包括:
一方面,通过区块链技术自动存档网页信息和资源链接,消弭了公众由于特定阅读目的和瞬时浏览行为而忘记保留源网页的“无意识”习惯。“立即保存页面(Save Page Now)”服务是应用区块链式数据结构验证与存储数据,利用分布式节点共识算法生成和更新数据的数字技术服务。当用户在浏览器中回放或查看网络内容时,无需在浏览网页的同时额外保存“外部链接”,只需在输入网页源链接的同时浏览内容,即可实现自动存档。该服务在技术架构与服务方式上借鉴了IA的“Save Page Now”服务,但其精简了用户保存网络界面的操作程序,并且使用功能齐全的网络存档回放系统(pywb webrecorder,pywb),更加注重操作便利化和服务智能化。随着Save Page Now服务的不断成熟,网站开始聚焦存档网页信息内容的细粒度,以期优化用户体验感、提升用户满意度。例如,对于网页信息附加的资源链接,“引文保护程序”(Citation Saver)服务,将存档网页内容细化到引用链接层级,当用户上传PDF或TXT格式的文章后,能够使用该服务提取和保留该文章引用链接的地址,并将详细内容后保留在网站中,以备访问和利用。
另一方面,利用大数据和云计算技术免费存档历史网站,实现海量信息聚合,保留了大量提供珍贵凭证价值和历史情感价值的网站,降低了网站所有者定期维护网站的边际成本。“档案纪念活动(Memorial do Arquivo.pt)”是一项面向葡萄牙境内全部网站所有者开通的为信息内容和原始访问链接提供高质量保存功能的公共服务。该项服务并未设置申请范围和使用时间上的权限,即所有者无需投资服务器、电力、内容管理系统等基础设施,也无需安排固定人力资源定期维护,只需向网站在线提交网站域名即可永久免费保留在线信息,并可以通过建立合作协议的方式开通永久技术支持服务。截至2023年3月,已保存了62个网站,有超过1万名用户注册使用[5]。
宣传教育服务是保障网络信息存档服务扎根公众群体的重要操作方法,聚焦重点、全面普及网络信息存档公共服务,在全民教育和自发传播中实现网络信息存档对于留存民族历史记忆的作用。Arquivo网站提供的宣传教育服务主要包括:
课堂教学服务,落实知技互促。Arquivo网站划定了四个难度渐次提升和内容不断丰富课程模块,有针对性将网络信息存档的基础理论知识和实操技能分布在每个模块中,每项课程内容都与信息利用服务和数字技术服务相融合,为公民讲授实用、易用的网络信息存档课程。模块一是“跨越过去的新方式”,即为公众展示可用的搜索和访问服务,包括服务功能介绍、服务操作介绍和服务实践培训三个部分;模块二是“好出版和好保存”,即讨论发布可保存的网页信息或网站的建议,包括可保存网络信息发布建议简介、为将来访问创建可保存网站的建议、关于创建和管理可保存网站技术的实践培训三个部分;模块三是“自动处理从网页保存的信息”,即介绍开发网站应用程序的方法和技术,学习内容侧重于网络编程,相对应提升了学员的专业知识门槛;模块四为“网络存档–自己动手”,教授如何充分获取、存储和重放网络内容。
第二,分层教育服务,统筹多方需求。Arquivo网站利用以公众职业类别定位课程模块的方法,将公众的学历层次、职业类别和学习基础考虑在内,根据学习难度划定低、中、高三个等级,允许公众自由选择课程内容。例如课程中的模块一并不设置学员身份和职业门槛,面向所有互联网学员,学习持续时长5个小时,而模块二则开始设置目标学员门槛,并对学员职业身份做出界定,由于教授内容多涉及超文本标记语言(Hyper Text Markup Language,HTML)和网站管理,所以更倾向于招收对数字保存感兴趣的研究人员或者网页设计开发人员。同时,Arquivo网站还充分赋予了公众对于课程模块内容提出建议或意见的权力,公民可以随时随地通过拨打电话或发送电子邮件的方式表达自身学习需求,并要求更换或增加培训模块,网站将根据学习者的不同兴趣和需要进行定制化调整,保障公民的主体性地位和课程教学效果,在尊重公民主体性和提升公民满意度中,持续拓宽影响力。
第三,在线教育服务,凸显公民自主。Arquivo网站在教育方式上并不拘泥于课堂授课和实操授课两种方式,而是公民提供多渠道、多种类的培养模式。公民可以实地到学习场所进行集中学习、采用视频会议的方式进行远程学习、参加在线探讨交流会议进行合作学习三种方式。在此以合作学习为例,“Arquivo.pt在线咖啡馆(On line Cafe with Arquivo.pt)”是网站专门为学习者打造的在线研讨交流平台,每周邀请网络信息存档领域的专家学者或技术人才通过经验介绍、公开演讲、技术操演等方式为公众讲解鲜活的理论知识与工具用法,讨论与网络信息及其保存相关的主题,公众还可以从中了解网络归档的最新热点话题和前沿动态。
公民是网络信息存档公共服务的接受客体和应用主体,公民参与作为信息共享利用的行为表征和实践手段,可以发挥积极力量助力网络信息存档公共服务提质增效。Arquivo网站提供的公民参与服务主要包括:
首先,提供建议,参与内容供给。一方面,以“意见反馈式”的服务模式邀请公民参与网络信息存档的内容创作,利用问卷调查、留言反馈、发送邮件、网站留言等形式,接纳公民关于服务体验和资源建设等方面的建议,满足公民宽口径、多维度、广视域的网络信息存档需求。例如在关于葡萄牙COVID-19的网络信息存档项目中,葡萄牙邀请政府、社区、专业协会、教育机构和普通公民等多元主体推荐与2020年3月以来葡萄牙COVID-19事件相关的网页内容以备存档。另一方面,Arquivo网站邀请公民参与存档内容的宣传和推广中,提供订阅邮件列表,方便公民及时接收关于培训课程、项目提案、最新活动等服务内容,呼吁公民以社交媒体积极分享和传播网站的存档内容和服务模式。
其次,公民策展,参与数据整理。Arquivo网站利用公民的想象力和创造力,在开放数据中邀请公民以数字策展的形式展现数据印证文化记忆的效用。表现为公民可以根据网站所提供按照机构或主题范围分类的网络信息页面集合、馆藏内容清单、数据集等,自由选择感兴趣的主题规划展览内容和展览形式。目前,网站上的公民策展内容可以分为“时间旅行”“群体记忆”和“网站记忆”三大类别。例如在“时间旅行”中,已有葡萄牙广播商业40年列表,按照时间轴将网站上保存的相关信息进行梳理,呈现了关于葡萄牙广播商业发展的历时性文字和图片全景概览。此外,在策展的过程中,公民被赋予极大的自主性,除了自由选择展览主题和内容外,也可以对字体颜色、图片组合方式、内容排列顺序等进行自由设定。
最后,创意竞赛,参与技术开发。Arquivo网站采取“以奖促智”的方式,鼓励公民以存档内容作为主要信息来源,通过对网站运行现状评估与用户需求分析,设计助力网络信息存档公共服务转型升级的创新性作品。2018年推出的“Arquivo.pt奖”着重奖励能够为网站发展作出突出贡献的项目,获奖者不仅能够获取丰厚的奖金激励,获奖项目也会得到网站提供的技术支持,持续开发成为正式使用和运行的服务。例如网站在2021年9月上线的允许用户自动创建关于任何主题时间叙述的功能,即为2018年Arquivo.pt奖获得者Conta-me Histórias与 Arquivo.pt 合作的成果[6]。
随着网络信息的爆炸式增长,信息更迭频率和消逝速度越来越快,拉近公众与网络信息之间的距离成为网络信息存档活动的必要使命和重要目标,需要将公众“接收者和探索者”的信息客体角色转变为“利用者和创新者”的服务主体角色,凸显强烈的“公共服务”导向,在网络信息存档语境下构建起以网络信息为核心的公共服务体系,为公民提供通用、实用、耐用的数字公共服务。本文基于葡萄牙网络信息存档Arquivo网站将其网络信息存档实践活动进行梳理和归纳构建包含“信息利用、数字技术、宣传教育、公民参与”四个模块的一核多元形态的通用性公共服务体系架构图,以此作为网络信息存档公共服务分析框架,详见图。
具体来说,网络信息存档公共服务体系架构包括:
第一,信息利用服务。该模块包括信息搜索服务、资源利用服务、信息增值服务等多种服务形式。信息利用服务为公众提供了跨时空场域下“缺场”获取信息的可能性,仍然是当前“数字态”语境下公众利用网络信息的主流路径,同时也是社会新一轮的、基于数据维度的空间和秩序变革的主要对象[7],因此需要围绕信息检索、数据开源和知识创造不断转换网络信息利用方式,提升利用动能,加速资源转化效率。
第二,数字技术服务。网络信息存档作为一项涉及管理、技术、资源等诸多方面的系统性工程[8],存档技术是信息备查和利用的重要抓手。该模块涵盖对网页信息、网站信息等多种网络载体信息以区块链、大数据、云计算等数字技术形式进行开发,并将其作为开源系统提供给公众。一方面以公众的个性化利用需求驱动网络信息存档生态系统运转,倒逼网络存档平台拓宽信息捕获渠道,丰富网络信息资源;另一方面也减少了公众对于网络存档平台的资源依赖,强化了对网络信息资源的利用意识。
第三,宣传教育服务。网络信息存档语境下档案的内涵、外延、技术环境均发生改变,熟练进行信息获取和使用网络信息存档技术需要新的理论支撑和实践指南。宣传教育服务由课堂教育、在线教育、分层教育等构成,保障了公众充分了解网络信息存档技术和流程,提升信息检索的速度与效率、信息获取的广度与精度、信息利用的深度与效果,从而在口口相传中实现网络信息存档的信息价值与应用效能。
第四,公众参与服务。该模块涵盖了内容创作与推广、数据分类与开发、创意实践与探索等参与方式和手段,分别对应着信息利用服务中的信息搜索、资源利用和信息增值三项内容。公众参与一方面是公众主人翁意识的集中体现,另一方面也能够通过群策群力提升网络信息存档项目的工作效率。
图 网络信息存档公共服务体系架构图
理念为先,以综合性、广维度的视野规划网络信息存档公共服务体系建设,在拥抱数字化浪潮中革新思维。传统档案信息服务模式是一种线性模式,即档案机构接收了档案形成者的档案,经过整理后通过来馆查询、在线查询等形式将信息资源供给利用者利用。而在“Web 2.0”时代下的网络信息存档公共服务模式则是一种广域模式,不再仅局限于信息服务的桎梏,服务内容更加丰富、方式更加多元、渠道更加畅通,在以信息、技术、宣教、参与等综合性服务体系下为公民提供全方位的网络信息存档服务。同时也是一种螺旋模式,即信息供给者与信息利用者不再是渐进的服务与被服务关系,而是“利用-反馈-创新-升级”的螺旋上升关系,网络以其信息多维流变和时空缺场交往吸引越来越多公众参与到网络信息存档活动中。2021年《“十四五”全国档案事业发展规划》中仅在档案数字转型和数字信息化建设的背景下,要求融入网络信息保存的建设要素,并未提出具体战略要点与实施策略,但建设网络信息存档公共服务供给体系不失为一个努力方向,可以重点关注以下三点:一是要充分考虑内容、数据、知识等供给要素,以资源的多样供给和利用助推信息循环与多元服务。二是要充分开发云计算、文本挖掘技术、关联数据等数字技术,将其应用于网络信息存档的数据分析、语义关联和知识开发等方面[9],以技术赋能网络信息存档公共服务体系建设。三是要转换思维,时刻关注公众的主体地位和主动作用,不断创新服务供给方式和破除服务群体壁垒。
民生为本,以服务性、公共性的行动迎合用户的多元需求,在供给侧结构性改革中保障信息安全。网络信息存档活动中,信息资源通过网络化方式传递,用户的需求信息和反馈信息都能迅速传递并获取,用户以数据化、表演化和节点化的生存方式利用网络信息资源,表现出关系需求、内容需求和服务需求。以用户需求为导向,一方面能够形成以供给迎合需求、需求拉动供给的流动型服务模式,盘活网络信息资源,加速资源开发与利用;另一方面有利于减少因网络信息的动态易变化、碎片无序化和信源复杂性[10]引起的信息遗失与信息失真,在“云环境”下留存有价值的网络信息,建构个人和集体记忆。公共文化机构作为网络信息存档的重要主体,一方面需要摸清公众的存档习惯与利用需求,在信息选择、要素确认、资源体系、利用路径等方面均需匹配公众的记忆建构需求和身份认同需求。另一方面需要提升供给效能,以技术革新和系统再造不断供给符合公众需求的公共服务模式。譬如利用数据挖掘、资源关联、图神经网络、资源可视化等方法进行网络信息精准整合与高效利用。
普及为重,以宽口径、全方位的活动推动服务延伸,在服务广度和服务细度上精准发力。随着网络信息存档的基数广度不断拓宽、内容颗粒度不断深化、操作技术转型升级,网络信息存档服务也应加快信息化服务普及,降低应用成本,让公众在共享网络信息存档服务成果上有更多获得感。近年来,我国在网络信息层面的宣传教育工作主要围绕网络安全、意识形态、道德建设等展开,并未涉及网络信息存档,这和我国网络信息存档基础条件薄弱、实践进展缓慢有关。2019年,国家图书馆与新浪网合作,开启了国家图书馆互联网信息战略保存项目[11],推动互联网信息的社会化保存与服务。此外,教育部办公厅2021年发布了《关于开展2021年度网络学习空间应用普及活动的通知》[12],提出“大力实施‘网络学习空间覆盖行动’,积极发展‘互联网+教育’”。在“互联网+教育”战略背景下,宣传教育服务作为一种成本低廉且受众面广的工具型手段,不失为加速我国网络信息存档实践推进的可行路径,一方面要广泛开展网络信息存档服务教育培训,借助数字报刊、移动电视、手机媒体、手机短信、微信、博客、播客、微博客等新兴媒体,吸引公众参与到培训活动,并将培训成果利用到网络信息存档实践中;另一方面要积极宣传网络信息存档基础理论与操作技术,在潜移默化中提升公众对存档个体和集体记忆的重视,主动参与到网络存档信息的利用与开发中来。