2019年国际互联网保存联盟年会（IIPC GA&WAC2019）综述

2020-01-09 21:17:25季士妍国家图书馆

图书馆理论与实践 2020年3期

季士妍（国家图书馆）

2003年，澳大利亚、加拿大、丹麦、芬兰、法国、冰岛、意大利、挪威、瑞典、英国等国的国家图书馆以及美国国会图书馆和美国互联网档案馆共12个机构联合组成国际互联网保存联盟（International Internet Preservation Consortium，IIPC），［1］IIPC 对全球网络信息资源保存的建设与发展起着非常重要的作用，它采用责任平等的合作机制，鼓励世界范围内的文化遗产保护机构一起参与网络信息资源保存的工作。截至2018年6月，IIPC的成员已有45个国家的56个单位，［2］中国国家图书馆馆于2007年7月成为IIPC会员并开展相关工作。

为促进全球网络信息资源保存的建设与发展，为成员提供交流学习的机会，IIPC每年定期举办年会，2019年国际互联网保存联盟年会（International Internet Preservation Consortium General Assembly（GA） and Web Archiving Conference（WAC））于6月5-7日在克罗地亚首都萨格勒布市举行，［3］会议主题为“网络存档社区：共同成熟的实践”。笔者作为IIPC会员代表及论文作者参加了此次会议，下面将按主题对会议内容进行总结，以供参考。

1 会议概况

年会为期三天，分为两个阶段举行。第一阶段为6月5日，是限定IIPC会员参加的IIPC会员年会（IIPCGENERALASSEMBLY（iipcGA19））。第二阶段为6月6-7日，是面向所有会议注册人员开放的IIPC网络保存会议（IIPCWEBARCHIVINGCONFERENCE（iipcWAC19））。

此次年会吸引了来自39个国家约150人参加，其中71%的参会代表是IIPC会员。从参会代表所属的地区来分类，欧洲代表占78%，北美洲占12%，亚洲占4%，非洲占3%、拉丁美洲占3%。此次参会代表来自78个组织机构，其中59%的组织机构为IIPC会员。

于2019年6月5日举行的iipcGA19约60名会员代表参会，其中，亚洲地区的代表包括中国国家图书馆（2人）、日本国立国会图书馆（2人）、韩国国家图书馆（2人）、新加坡国际图书馆管理局（2人）。

iipcGA19上午的议程包括欢迎致辞、小组讨论及新会员报告。会议伊始，萨格勒布国家和大学图书馆总干事Petricé女士、Holub女士及来自瑞士国家图书馆的IIPC主席Locher先生先后致辞。随后，与会者分为10个小组，每组5-7人不等，针对参与IIPC组织的目的、对IIPC组织起到的作用、工作内容、期待可以获得的帮助以及可以参与的活动进行了讨论。与会者对于IIPC组织在推动和促进网络采集技术的分享、网络信息资源存档相关标准的发展及推广，以及通用性、开源性软件开发等方面发挥的重要作用给予了充分肯定，并就IIPC组织的任务和目标提出了较好的建议，包括提供项目基金以支持网络采集事业发展、制定多种语言适用的标准规范、组织成员间开展更深入地合作及有经济援助的培训计划等。此外，与会者对期待参与的IIPC组织的活动发表了自己的观点，62.5%的与会者选择“推广会员网络存档的活动”“出版物（白皮书、报告、会议记录）”，37.5%的与会者选择“存档办法发展”“网络存档意识的提高”，25%的与会者选择“网络工作”相关活动，12.5%的与会者选择“培训”“社区主导式工具和方法的发展”“参与研究”。在IIPC会员新成员分享阶段，比利时皇家图书馆、匈牙利国家图书馆、挪威国家图书馆的代表先后介绍了其在网络信息资源采集方面的进展和情况。

iipcGA19下午的会议以不同的主题分为4个“工作组”同时开展，分别为：采集内容工作组、技术工作组（Heritrix3、OpenWayBackUpdate、Automatedquality assurance）、Web Curator Tool（WCT）工作组、保存工作组。每个工作组以主讲人与参与人随时讨论的模式开展，主讲人讲解本项工作的进展，参与人提出自己在工作中遇到的问题。工作小组的讨论内容具有专业性、技术性、实践性的特点，讨论氛围轻松友好。由于4个工作组同时开展活动，在此仅介绍笔者参与的技术工作组的互动情况。Heritrix3是Internet Archive开发的网络采集的开源软件，［5］目前，很多机构采用的网络采集工具均是基于该开源软件进行的二次开发。Heritix软件有专门的技术团队做程序开发和功能跟踪，具有开放、共享的特点。2019年4月发布的Heritrix3.4.0是Heritix的最新版本，Heritrix3工作组由冰岛国家和大学图书馆Kristinn Sigur sson主持，英国Andy Jackson通过网络远程视频与大家分享了Heritrix3的新功能以及程序开发中遇到的问题。

为期两天的iipcWAC19会议多达24场共计76个报告，包括特邀报告、主题报告、座谈会、工作组讨论等，议程安排丰富、报告内容详实、会议时间紧凑、展示形式多样，给了与会者充分了解行业发展、认识同业人员的良好机会。

3.1 特邀报告

iipcWAC19每日上午开场报告均为“特邀报告”。会议邀请了Europeana平台运营商欧洲基金会执行董事Harry Verwayen做题为《我们用文化改变世界》的主题报告。［6］Europeana是目前国际上较成功的数字文化资源整合平台，通过构建统一的平台整合图书馆、博物馆、档案馆的文化历史资源，为用户提供一站式浏览和检索服务。［7］该平台包括艺术、图片、地图、历史、新闻以及电影等资源，资源类型包括图片、文本、音频、视频和3D，并支持35种语言。Harry以Europeana平台为例，指出网络存档在图书馆和档案馆保存工作中成为越来越重要的组成部分，并介绍了网络存档在当前和未来的可预见机会以及如何成功地抓住这些机会。以色列开放大学社会学、政治学和传播系的高级讲师、开放媒体和信息实验室的共同创始人Anat Ben David博士做了题为《作为记忆的网络存档：对网络历史来源和方法的批判性思考》的主题报告。［8］Ben-David博士将网络存档视为与软件和硬件类似的第三类记忆软件，包括爬虫、机器人、采集人以及特定形式的保存技术，并对Web存档本身以及使用Web存档构建的特定历史类型进行批判性关注，进而对网络存档的研究提出新的挑战。

3.2 快速发言

快速发言（LightningTalks以及 Drop-in Talks）环节由多位发言人在规定的时间里（5-10分钟）介绍自己的项目进展、项目创新或技术发展等内容。每位发言人都提前准备了图文并茂的海报并张贴于茶歇的公共区域，会议期间与会者都可以仔细阅读这些海报，并与发言人进行深入交流和探讨。笔者于6月6日作了题为“The Key Technologies of Web archiving Service Platform”的快速发言，与多位与会者就各自机构在网络信息资源采集与保存方面的工作和方法进行了深入的交流。［9］

3.3 分会场主题报告及座谈

iipcWAC19主题报告以“主题”为组织方式，以主讲人发言、听众提问的形式开展。同一时间段内开设2-3个分会场，共有16个主题：学术环境、机器学习项目、国家保存、东南欧地区的网络信息保存、国家级网络信息采集、研究应用、构建（和重建）网络信息采集项目、视频内容保存、管理者策略、技术架构基础、访问政策、规划可持续性、采集主题和格式、采集策略和工具、培训和影响力、欧盟和《通用数据保护条例》。

3.3.1 机器学习项目

“机器学习项目”主题报告共有4位发言人，均来自于大学及大学图书馆。“机器学习”［10］在近几年的互联网应用中逐渐被人们熟悉和认知，它已经渗入到人们生活的方方面面，如自动驾驶、比赛结果及股票动向预测、诊断疾病以及物联网相关服务等。相应地，利用机器学习的技术和方法可以在海量互联网信息中进行数据挖掘、自然语言处理以及计算机视觉等方面进行应用和扩展。

北德克萨斯大学图书馆的Mark Phillips介绍了其与伊利诺伊大学芝加哥分校合作的项目“利用机器学习从网络资源中抽取出版物”。［11］全球范围内的研究型图书馆、博物馆以及网络资源保存机构通过网络收集原生数字资源，这些数据量远远超过传统数字图书馆收集的数字资源，而他们则通过使用机器学习、深度学习、神经网络等方法从网络采集到的资源中抽取出电子出版物。该项目主要从大学域（unt.edu域）的网络档案中提取机构存储库的学术出版物，从州级域采集（texas.gov域）中提取州文档，从联邦机构的网络存档（usda.gov域）中提取技术报告。目前，该项目已经对“学术出版物”有较好的识别方法，对“技术报告”类资源有较好的处理方法，今后会持续更新机器学习模型和方法。来自Internet Archive（互联网档案馆）网络归档&数据保存部的Maria Praetzellis介绍了其在2018年启动的“从开放获取到永久保存——网络学术出版物的保存”项目，［11］包括网络学术出版物的范围、项目技术方法以及机器学习等。该项目开发了多种技术手段，包括新的爬行方法、系统和API开发，扩展了网络开放获取的目标范围、识别和存档相关的研究成果，如博客、数据集、代码记录和其他相关研究对象。此外，该项目开发的机器学习的训练种子、分类和代码将在2020年对公众开源。来自葡萄牙Arquivo.pt的Fernando Melo介绍了他所在机构于2018年12月公开发布的实验图像搜索原型以及基于该原型的工作流程，详细介绍了从网页抽取图像、图像分类以及索引的实现流程和代码。［12］目前，该项目已经实现了1,700万个图片的搜索，识别了1996-2017年网络保存资源中的图像，并且每幅图像都有原始页面的链接。同时，该机构推出了图像搜索的移动App API应用接口，未来将继续开发该图像搜索的手机应用版本。来自亚历山大图书馆的Sara Elshobaky介绍了如何使用机器学习方法在网络采集中有效识别埃及的阿拉伯语网站。［11］许多埃及网站的域名是“.com”，而不是“.eg”，也很难从网站内容或者阿拉伯语的角度判定埃及语的网站范围，因此，亚历山大图书馆使用了机器学习方法，通过收集训练数据、特征提取、模型训练、模型评估，选择了300个埃及网站以及300个阿拉伯语的非埃及网站作为机器学习的数据集，结果表明可以将埃及语的识别率提升至84%。Sara Elshobaky表示，他们将继续开展机器学习，持续增加训练数据集，改善机器学习的算法和参数，还将机器学习的应用场景扩展到埃及网站中英语、法语的识别中。

本主题的报告从不同的应用场景、技术处理方法以及发展方向为与会者展示了“机器学习”技术在网络资源采集和保存工作中的应用，不但让机器学习的概念和技术更加实质性地落地和应用，而且为开展网络采集工作开拓了新思路、提供了新方法、丰富了新手段。

3.3.2 视频内容网络采集和保存

第43次《中国互联网络发展状况统计报告》显示，截至2018年12月，我国网络视频的用户规模达6.12亿，占网民整体的73.9%。［13］如何有效、合理地采集和保存网络上的视频资源，成为了各保存机构认真思考和研究的重要课题。

来自法国国家图书馆（Bibliothèque nationale de France，BnF）的 Géraldine Camile介绍了 BnF在网络资源采集工作中对视频资源的采集和保存。BnF从2008年就开始采集和保存法国最常用的视频平台Dailymotion上的视频，2017年采集YouTube网站中的28个频道与总统大选相关的视频，2018年对YouTube网站的42个频道进行视频采集。从2019年开始，每年进行2次采集，第一次采集已经完成了209个频道、37,403个视频的采集。［14］在采集过程中，BnF使用开源软件Heritrix 3的架构和组件，基于OpenWayback的BnF访问接口提供对外服务，并提供视频的回放和访问服务。BnF还将继续扩展嵌入式的视频采集以及面向Vimeo、Dailymotion等视频网站的视频采集工作。来自法国国家试听研究所（InstitutNationaldel’Audiovisuel，INA）的 ThomasDrugeon介绍 INA从 2008年开始对YouTube进行视频采集。［14］2011年开始，INA采集的视频文件数量和采集目标网站逐年呈直线增加趋势，截至2019年6月，该机构已经在包括YouTube、Twitter、Facebook以及主要电视/电台广播平台在内的17个平台中收集了230万小时共计2,200万个视频。INA的视频采集面向7,500个目标频道，自动识别并抓取嵌入在存档网页中的视频，平均每天可采集1TB的视频资源，自动提取采集到的视频资源的元数据并将其标准化，采集到的视频文件则以原始的格式进行存档。来自丹麦皇家图书馆的Sabine Schostag介绍，他们使用传统检索、研究人员定位网站、Heritrix软件抽取等方法实现视频资源在网络资源中的识别，使用外部程序“youtoube-dl”获取视频资源的url地址并实现收割，借助如Blacklight这样的ApacheSolr索引实现全文检索。

本主题的3个机构都将本机构在视频资源识别、采集、获取以及展现等方面使用的策略、技术以及流程等进行了不同层面的介绍，为同行业人员提供了多种工作思路和方法，值得相互借鉴和学习。

3.4 工作组

iipcWAC19组织了“工作组”的模式，让与会者可以以小组学习和讨论的形式深入参与到具体的主题学习中，便于大家互相交流和学习。本次会议在同一时间开展3个“工作组”：由法国国家图书馆主持的“WARC文件格式：最新格式的更新和交换”、由大英图书馆主持的“反思我们如何在网络存档中培训新的入门者”、由CameraForensics主持的“StormCrawler（以及ElasticSearch）网络爬行/采集介绍”。

从本次iipcGA19和iipcWAC19会议的“工作组”组织内容可以看出，两个会议都组织了“培训新成员”主题讨论，进而也能看出网络资源采集与保存工作是一项需要不断更新知识、扩充成员的长期工作，培训环节在这项工作中的作用不容忽视。

在iipcGA19讨论环节，很多成员都对IIPC提出了培训需求——希望培训的内容更加丰富、面向的人员更加广泛、培训的方式更加多样等。在全体成员投票的“IIPC会员未来享有的权利”上，12.5%的与会者选择“培训”权利。可见培训已经成为网络资源采集和保存工作中较为重要的环节，很多机构都根据自己的需求制定了培训工作，而且大家都愿意为IIPC组织的培训工作共享自己的成果。

本次的iipcGA19和iipcWAC19都安排了主题为“培训”的“工作组”活动。IIPC在2017年成立了培训工作组（Training Working Group，TWG），由美国国会图书馆的Abbie Grotke、冰岛国家图书馆的Maria Praetzellis以及英国国家档案馆的ClaireNewing共同主持。TWG在iipcGA19会议上组织了“工作组”形式的活动，［15］与与会者分享TWG在培训内容规划、培训计划、培训材料推广与分发等方面的进展。此外，TWG集中了较为丰富和完善的网络资源采集与保存相关的培训资料（文档/视频）、工具软件以及交流社区，通过网络向公众免费公开。在iipcWAC2019会议中，安排了一个“有关我们在网络采集工作中如何培训新人”的工作组。该工作组由来自大英图书馆的Helena Byrne和Carlos Rarugal主持。主持人介绍了大英图书馆为网络采集工作的新人制定了一套较为完整的培训流程，包括工具使用、操作流程、培训文档以及技术文档。在该工作组的讨论中，多个参与人均分享了自己所在机构在培训方面的做法以及如何评估培训效果。

2019年国际互联网保存联盟年会（iipcGA19&iipcWAC19）是国际网络信息资源保存业界较权威的学术性会议。从报告内容可以看出，各个机构的采集策略、技术架构、自动编目、质量监控、数据格式、保存策略都在持续发展，同时也关注了社交网络、机器学习、云架构等技术的应用。IIPC联盟倡导并鼓励参与者重视网络资源采集与保存，并为之做出贡献。