基于IIIF A/V 规范和Avalon 系统的大学图书馆视听数据库建设研究*

2024-02-21 15:04熊泽泉胡晓明华东师范大学图书馆

图书馆杂志 2024年1期

张毅熊泽泉胡晓明陈丹（华东师范大学图书馆）

0 引言

网络视听已经成为人们获取信息的主要渠道之一，第50 次《中国互联网络发展状况统计报告》显示[1]，截至2022 年6 月，我国网民规模为10.51 亿，其中网络视频用户规模为9.95 亿，占总网民数量的94.7%。随着国内网络基础设施的不断升级，网络资费的不断下降，视听资源将进一步从资讯娱乐领域渗透到教学与科研等领域。教育部高校图工委原主任委员，北京大学原常务副书记、常务副校长吴志攀[2]，在2021 年12 月24 日的“继承与创新：大学图书馆现代化征程”学术研讨会上指出，文字只是学习研究的一部分，当前人们的很多时间都用在短视频、有声书以及视频会议等方面，而以保存文字为主的图书馆应该如何面对当前这种时代巨变，未来5 年、10 年，已经习惯通过视听进行学习与交流以及研究的年轻人，图书馆该如何为他们服务。《2017 年地平线报告（图书馆版）》也给出建议，图书馆从现在开始，就要利用自己在资源保存整理方面的优势，成为高价值视听资源保存、管理与揭示者[3]。

2022 年3 月，国际图联视听及多媒体小组（IFLA Audiovisual and Multimedia Section，以下简称IFLA AVMS）与国际图像互操作框架视听小组（IIIF A/V Community Group）发布了深度合作草案，草案使用谷歌文档在线发布，鼓励社区成员共同修订[4]，希望能够改善数字视听内容的在线访问，促进视听资源的跨域互操作，草案指出IFLA AVMS 将在图书馆界推荐实施IIIF 展示接口3.0 中的视听规范，IIIF A/V小组也将为图书馆发布视听资源提供技术支持、编写相关文档，并将积极促进与IFLA AVMS 的二期合作框架的形成。综上所述，面对视听资源价值的不断凸显，构建一套功能完备，能够实现视听资源保存、揭示以及嵌入教学研究的数据库平台，是大学图书馆抓住视听时代机遇的重要手段。

1 国内外大学图书馆自建视听数据库调查

2022 年11 月至2023 年1 月通过网络调查法开展调查，国外调查了活跃于IFLA AVMS和IIIF A/V 小组的大学图书馆，以及关注视听开源社区的大学图书馆，国内的调查对象为“双一流”大学和港台部分大学。

1.1 国外

1.1.1 通用数字资源存储库已经无法满足师生对视听资源访问的需求

将视听资源嵌入已有的数字图书馆中，与文档、图片等统一保存的方式更加节约成本，但是，无法满足师生进行视听资源播放、注释、检索以及收藏等需求。2022 年10 月26日，在开源社区Samvera 举办的“管理音频和移动图像：当前的解决方案和持续需求”在线会议上[5]，美国西北大学馆员维罗妮卡罗宾逊（Veronica Robinson）表示在当前的通用数字图书馆系统中，虽然可以通过支持IIIF2.0 的Universal Viewer 浏览器播放视听资源，但系统不支持自定义播放列表的问题导致师生意见很大。同样，得克萨斯州大学奥斯汀分校的师生也常常反馈视听资源无法播放，图书馆正在尽力使视听资源支持IIIF A/V，以实现视听资源的在线播放。

1.1.2 基于IIIF A/V 建设专业视听数据库成为趋势

专业视听数据库能够更好地针对视听资源进行优化，比如构建视听播放列表，基于时间线的注释，对不同格式视听资源进行转码与解码等。比如，印第安纳大学图书馆面向视听资源开发的在线媒体馆藏平台[6]，是当前IIIF A/V 应用的一个最佳实践，包含9 070 条视频和3 546 条录音资料，涉及印第安纳大学的在线课程、讲座、研讨会、口述历史、档案、音乐与电影等高价值收藏，并且为学者提供多种视听资源在线研究工具。在美国博物馆与图书馆服务协会补助金和梅隆基金会的支持下，印第安纳大学图书馆的在线媒体馆藏系统已经发布为一个具有完善功能的开源系统，名称为Avalon①https://www.avalonmediasystem.org/.。包含1 860 条口述史、档案与影视作品的休斯敦大学图书馆的音视频存储库[7]，收藏量超过1 万种音乐、舞蹈、戏剧的马里兰大学图书馆[8]，以教育、历史为主要收藏的得克萨斯州大学阿灵顿分校图书馆[9]，都采用了Avalon 发布视听数字对象，并且这些图书馆还在持续将其他平台的视听资源迁移到Avalon 媒体系统。

除了采用Avalon 系统外，田纳西大学图书馆开发的“从灰烬中复活”口述史平台则更加关注内容的呈现[10]，该平台收集了近140 个视频采访，采用IIIF A/V 规范，包含注释与转录数据，这些数据将作为档案长期保存于田纳西大学图书馆。此外，詹姆斯麦迪逊大学的愤怒之花诗歌中心、得克萨斯州大学的哈里兰塞姆中心、肯塔基大学的路易·纳恩口述历史中心等机构[11]，与符合IIIF A/V 规范且提供代码托管服务的视听可扩展工作流程（Audiovisual Extensible Workflow，以下简称AWE）项目组建立了合作伙伴关系[12]，探索视听资源促进学术和教学的方法。

1.1.3 越来越多的人工智能技术应用于自建视听数据库

在梅隆基金会的支持下，印第安纳大学图书馆与纽约公共图书馆，从2021 年开始，计划开发一套视听元数据平台（Audiovisual Metadata Platform，以下简称AMP），致力于解决视听资源的发现问题，该项目前期是由印第安纳大学与得克萨斯州大学奥斯汀分校合作开发[13]。印第安纳大学图书馆的研究人员在Avalon 的Slack 社区中表示，未来AMP 项目将首先与Avalon 媒体系统整合。

“AI.4.AV”是另外一个面向视听资源的人工智能项目，由得克萨斯州大学奥斯汀分校领导，项目致力于对音频特征分析[14]，从而生成音频的元数据，项目已经开发了开源软件ARLO（Adaptive Recognition with Layered Optimization）①http://arloproject.com/.，能够提取基本的韵律特征，如音高、节奏和音色，用于发现、自动分类以及可视化。

1.2 国内

（1）仅限校内访问

部分“双一流”大学图书馆已经为师生构建了专业的视听数据库，如北京大学图书馆多媒体资源服务平台[15]、中国人民大学图书馆音乐特色数据库[16]、武汉大学图书馆多媒体中心[17]。这些视听数据库有大量课程和讲座资源，但多数无法在校外访问。

（2）自建视听资源依托商业视听库发布

上海交通大学图书馆与华东师范大学图书馆的视听数据库，是将自建资源与商业视听资源整合在一起进行发布。上海交通大学为将采购的8 个重要视频数据库与本校讲座等资源进行统一揭示，构建了上海交通大学全媒体数字资源中心[18]，虽然资源量很多，但是师生需要在多个平台之间切换。华东师范大学的部分讲座、报告和课程等视听资源集成在本地镜像平台——爱迪科森网上报告厅，尽管省去了建设视听数据库的技术、人力与经费，但由于商业数据库的限制，数据二次利用存在困难。

（3）港台地区的视听数据库还停留在通用数据库阶段

香港中文大学图书馆的“妈姐：口述历史数据库”采用开源软件Islandor 发布[19]，完全对外开放。由于Islandor 是通用数字资源发布平台，无法将图书馆转录的文字与音视频联动。香港大学图书馆的商业电台广播剧数据库与电子视频库数据库[20]，基于开源通用音视频软件Samvera 开发，校外仅提供元数据层面浏览。台湾大学图书馆的“慎芝与关华石赠藏唱片数据库”基于开源软件Omeka-S 开发[21]，有小部分资源对外开放。

2 IIIF A/V 为视听资源发布提供方案与工具

调查发现，IIIF A/V 成为当前图档博社区热议的话题，并已形成众多的开源软件。此外，IIIF A/V 还可以复用图像方面已有的开源软件，有助于图书馆克服视听数据库建设的技术壁垒。比如，印第安纳大学图书馆的在线媒体馆藏平台、欧洲媒体项目（The Project “Europeana Media”）[22]、大英图书馆的拯救我们的声音计划（Save our Sounds programme）[23]。国内图书馆界虽然也重视视听资源的价值，但还未有采用IIIF A/V 规范构建的数据库。

2.1 IIIF A/V 规范

国际图像互操作框架（International Image Interoperability Framework，以下简称IIIF）在图像互操作方面取得的巨大成功[24]，促使视听收藏机构也开始探索复用IIIF 在图像发布方面的开源软件与互操作方法，并成立了IIIF A/V技术规范组。小组于2016 年春季开始收集IIIF视听需求，并决定首先专注于音视频的IIIF 展示接口开发[25]，经过印第安纳大学、北卡罗来纳州立大学以及美国国会图书馆等机构的共同努力，最终于2020 年6 月在发布的展示接口3.0 中增加了对于时间媒体的支持，形成了IIIF A/V 模型，模型如图1 所示，流程图来源于IIIF 官网。

图1 IIIF 展示接口3.0（IIIF A/V）数据模型① https://iiif.io/api/presentation/3.0/.

IIIF A/V 最大的升级是赋予画布（Canvas）时间属性，并且在原有注释页（Annotation Page）对象基础上增加了注释集合（Annotation Collection）对象，将注释与具有时间属性的画布联动，就能实现视听资源的逐帧标注、转录与共享，注释集合（Annotation Collection）对象则赋予视听资源结构化导航功能。可以加工流媒体的画布（Canvas）使视听资源也具备类似图像深度缩放的功能，使其根据访问设备尺寸提供最合适的视听内容。

2.2 IIIF 社区已有大量支持IIIF A/V 的开源软件

（1）支持IIIF A/V 的在线视听播放器

随着IIIF 展示接口3.0 的发布，Mirador 浏览器的升级版已经完全支持IIIF A/V。同时，出现了许多专门为IIIF A/V 规范开发的开源软件，例如，由Samvera 社区开发的IIIF React Media Player、Clover 工具，欧洲文化图书馆推出的Europeana Unified Media Player，开放超视频项目组（Open Hypervideo Project）的IIIFInteractive-Transcript 等开源软件。

（2）创建IIIF A/V 注释的开源工具

支持IIIF A/V 注释的开源工具有两种类型：在线注释工具如MemoRekall 与Europeana Video Editor，以及本地注释工具如BWF MetaEdit、Sonic Visualiser 和ELAN 等。其中，Timeliner 是在线注释工具中比较特殊的一个②https://timeliner.dlib.indiana.edu/.，它不仅能浏览IIIF A/V 发布的视听资源，还能创建时间线气泡图来赋予视听资源结构化数据，作为视觉线索，帮助师生快速识别视听资源中的知识。

（3）数字资产管理发布系统

当前支持IIIF A/V 的数字资源管理发布系统主要是AudiAnnotate[26]与Avalon，AudiAnnotate基于GitHub 存储库进行IIIF A/V 结构化数据与注释的发布，不提供数字对象保存，资源的注释还需要借助第三方工具生成，所以不适合图书馆进行大规模视听资源的IIIF 发布。

3 华东师范大学视听数据库建设实践

华东师范大学图书馆致力于视听馆藏的建设，比如收集整理年谱数据、讲座课程、名师纪录片等。尤其在疫情期间，图书馆邀请校内外专家学者通过音视频分享读书经验，推出“微信五分钟听教授讲书”专题活动，著名学者如俞立中、张济顺、范军、许纪霖、许子东等参与分享[27]。同时，校内院系学者积极提交整理的高价值视听资源，例如传播学院教师提供的电影、纪录片、教学视频和学生作品等，总量超过30TB。

3.1 视听数据库需求分析

视听资源数据库的重点是资源长期保存，为此，图书馆除了确保物理层数据的安全外，更加重要的是需要一套专业的存档软件系统，用以确保存储在硬件中的二进制文件不会出错；具备在数据层细颗粒度开放共享，才能打破信息孤岛，使视听数据库具备强大的生命力；采用流媒体技术，使得视听资源能够适应各种网络环境，以最小的数据流量确保用户获得最佳的浏览体验；可以创建播放列表、注释、转录等数据，也可以进行分享，以实现团队间的合作，甚至在线查看波形、频谱以及节奏等信息的功能；视听资源数据库需提供类似纸本图书的受控借阅模式，可以规避很大一部分版权问题。还可以通过IP 控制、用户类型控制等方式，确保在版权范围内使用资源。

3.2 部署视听资源管理与发布系统

（1）选择Avalon 媒体系统管理与发布视听资源

Avalon 媒体系统对IIIF A/V 的支持比较完善，并且在印第安纳大学图书馆、康考迪亚大学以及马里兰大学图书馆的实践也取得了成功。Avalon 采用Fedora 开源存储库实现数字对象存储，其内置的开源媒体转码工具FFmpeg可以将常见的视听数据格式转换为流媒体格式在线播放，系统提供基于HTTP 的自适应码率流媒体传输协议（HTTP Live Streaming，以下简称HLS），使用苹果公司推出的m3u8 视频播放标准。

（2）本地部署

Avalon 媒体系统需要安装多个开源软件，主要包括关系数据库MariaDB、存档系统Fedora、数据检索Solr、HLS 流媒体服务Media Streaming Server、视听转码工具FFmpeg和网络服务器Apache 等。这些服务需要开通多个端口，其中80 端口用于数据库平台对外服务，8983 端口用于Solr，8984 端口用于Fedora。华东师范大学图书馆视听资源数据库的展示界面如图2 所示，Avalon 系统按照单元（Unit）、集合（Collection）、记录（Item）的结构组织数字资源。例如，“微信五分钟听教授讲书”集合属于阅读推广单元。

图2 华东师范大学图书馆视听数据库

3.3 元数据

视听资源缺少元数据是其无法被有效利用的重要原因之一，本研究为了能最大限度地进行资源揭示，已经采用百度人工智能接口将部分音频资源转录为文本，而基于自然语言处理技术生成的标签与分类数据，成为引导用户查找资源的线索。对于仅有题名且暂时还没有完成声音转文本的视听资源，将根据文件类别，通过Windows 批处理命令获取全部数字对象的名称，然后仅以单元、集合、记录名称的结构进行发布，先让师生能够在线使用，未来将积极探索众包方式，发挥师生智力资源，利用IIIF A/V 提供的注释与标签功能丰富这些数据的元数据。

3.4 IIIF A/V 视听播放器

基于Avalon 的华东师范大学图书馆视听资源数据库系统完全兼容IIIF A/V 规范，流媒体技术使师生可以边播放边下载，并根据师生网络情况、浏览设备尺寸，自动调节视频帧率与清晰度，保证师生获取最佳的视听播放体验。图3 是华东师范大学图书馆视听资源数据库的播放界面，视频中的人物是四川大学古籍所向以鲜教授在“微信五分钟听教授讲书”活动中分享自己对于“诗与匠”的理解，并且朗诵了自己的作品《棉花匠》。

图3 视听对象播放器：结构化数据、转录数据、借阅状态

视频使用Avalon IIIF React Media Player媒体播放器展示图书馆的视听资源结构化数据，播放器下方提供结构化数据，帮助师生进行资源导航。播放器右下角还有字幕显示或关闭按钮、截屏按钮和添加播放列表按钮等。在视听播放器的右侧，使用Transcript Viewer 工具显示转录数据，它是Avalon IIIF React Media Player 的一个组件，支持WebVTT 和Word 格式数据，实现转录数据与视听内容联动。

3.5 在线研究工具

（1）在线资料整理

师生可对感兴趣的研究内容收藏并创建播放列表。图3 播放器右下角的添加播放列表按钮不仅适用于整个视听资源，还可选取特定段落或帧添加到播放列表。具有权限的用户还可将其他平台以IIIF A/V 发布的视听资源添加到自己的播放列表，体验与本地资源类似，仅受网速限制。

（2）时间线气泡注释

本研究采用印第安纳大学图书馆开发的Timeliner 工具，它最初是一个仅支持音频标注的客户端程序，但是由于IIIF A/V 规范的引入，印第安纳大学图书馆对Timeliner 进行了重新编码，使其不仅能够在线注释，而且增加了对视频对象的支持，并与Avalon 媒体系统深度融合。图4 是华东师范大学图书馆视听数据库的在线Timeliner 工具，图中的气泡图是对“微信五分钟听教授讲书”中向以鲜说诗匠视频的在线标注，气泡图的视频标注用户界面非常生动有趣，能够激发师生创建标注的兴趣。

图4 符合IIIF 规范的视频气泡时间线注释

（3）视频与数字图书对比查看

可以在最新版本的Mirador 中将视听资源与相应的数字图书对照查看，这里的数字图书，可以是本馆或其他机构以IIIF 发布的图书。如图5 所示，左边是“国立”编译馆于1940 年出版的钱穆先生的《国史大纲》，保存于华东师范大学图书馆的全文电子书库中；右边是耶鲁大学苏炜教授参加“微信五分钟听教授讲书”活动的视频，讲述自己与《国史大纲》这本书的渊源。

图5 苏炜讲钱穆《国史大纲》对照浏览

3.6 在线受控借阅

图书馆收藏的视听资源大多是对光盘、磁带、胶卷等的数字化，对于这些资源，图书馆通常只拥有类似纸质图书的借阅版权，因此在线发布可能涉及版权问题[28]。密歇根州立大学图书馆与Avalon 项目组共同努力，在最新发布的Avalon 版本中，已经添加了媒体访问控制功能，赋予数字对象类似纸质图书的借阅功能。在华东师范大学图书馆视听数据库中，对收藏的纪录片、学生影视作品等资源启用了借阅模式。图3 中的视频就属于需要借阅的视频，可以看出在视频播放页面的右上角有这个视频自动归还的时间。图书馆还可以指定某些特殊资源仅对特定IP 或者账户开放。

3.7 资源的发现与开放共享

（1）资源发现

师生除了可以按照单元、集合与记录这样的导航进行浏览外，视听数据库还通过开源工具BlackLight 实现资源分面浏览功能。对于完成声音转文字的音视频可进行全文检索，且可通过Transcript Viewer 浏览工具直接定位到检索音视频片段，当然，全文检索功能也可以检索到视频的结构化数据、气泡注释等数据。

（2）开放共享

华东师范大学图书馆的视听资源数据库完全基于IIIF A/V 规范构建，未有特殊限制的资源都是开放共享的，只要在对应资源的网址后面添加“/manifest.json”就能获取数字对象，并且还可以通过URI 调用数字对象的某一段、某一帧等细颗粒数据。

4 思考与展望

4.1 进一步提升视听数据库功能与性能

（1）整合AMP 平台生成视听资源元数据

华东师范大学图书馆当前采用百度人工智能接口进行语音转文字和文本分析，但这种方式存在高费用和隐私泄露等问题。未来，将在视听资源数据库中整合开源视听元数据工具AMP 系统，AMP 是一组视听资源相关开源工具的有机整合，利用Python 的开源库SpaCy进行自然语言处理，从而识别语音中的人物、地点、时间等，利用法国国家视听研究所创建的开源语音分割器工具InaSpeechSegmenter 找出音频中的静音、噪音、环境音等，这些数据以标签的形式标注在视听数字对象中。视频方面，利用FFmpeg 将视频转化为逐帧图像，然后基于Tesseract 进行图像识别，从而识别视频中的文字、人物、标志等，使用Python 的Dlib 库进行视频中的人脸识别，还可以基于PySceneDetect 查找视频中帧内容的变化，实现视频内容的镜头检测。

（2）提升硬件系统性能

以静态图像、文档、数据集等保存为主的图书馆，缺少面向视听资源大规模编辑、转码等硬件计算单元。但是随着IIIF 规范的引入，它要求图像可以实现动态缩放、组合、分割，视听对象需要以流媒体播放、裁剪、逐帧处理等操作，对专业图像计算的需要大大增加。未来AMP 平台的实施更是需要大量的图像计算资源，为此，图书馆购置专业的图像处理器必不可少。

4.2 国内图书馆参与开源数字存档社区的方法

参与开源数字存档社区能够与全球图书馆专业人员、软件开发人员交流，共享数字图书馆的建设经验、拓展国内图书馆的视野。使用开源软件解决图书馆的技术痛点是国内图书馆参与开源社区的主要方式，比如厦门大学图书馆使用Omeka 进行数字特藏资源的管理与发布[29]，复旦大学图书馆利用ArchivesSpace 对馆藏大型特藏进行深度揭示[30]；开源软件使用过程中遇到各种技术问题，可以通过社区的论坛、Slack、邮件列表、会议等渠道获得解答。本研究在Avalon 系统本地部署过程中，通过Avalon 的Slack 与Github 获得了许多帮助。实践中也发现了Avalon 系统的一些问题，比如，Avalon 系统生成的IIIF 清单只能使用Avalon的React media player 在线浏览，Avalon7.5 版本虽然声称已经支持UTF-8 编码方式，但是在集合详细信息、媒体附件中无法使用UTF-8 编码方式等问题，这些反馈促进了Avalon 系统的完善。

此外，复旦大学图书馆、上海图书馆、香港大学图书馆的多位馆员，在哔哩哔哩的IIIFChina 账号下分享所在馆使用IIIF 进行数字特藏库系统建设的实践[31]，促进了IIIF 在国内的传播；上海图书馆作为合作伙伴参与到FOLIO（The Future of Libraries is Open）社区，并携手上海交通大学图书馆等18 家图书馆以及8 家开发机构成立上海市图书馆行业协会FOLIO 技术及应用联盟，于2021 年组建云瀚社区领导FOLIO 的本土化运行[32—33]。

4.3 IIIF A/V 将给图书馆服务带来新的机会

IIIF A/V 规范的广泛应用催生了许多开源软件。国内大学图书馆可利用这些软件，根据自身需求构建符合本校需求的音视频数据库，充分释放音视频资源的价值。支持IIIF A/V 的浏览工具如Mirador 和Universal Viewer，都基于响应式技术开发，使图书馆的视听资源可在手机、平板电脑、电脑甚至触摸大屏上发布。IIIF A/V 的互操作性使音视频资源能嵌入图书馆的OPAC，并通过IIIF Manifest 链接就能直接播放音视频。此外，IIIF A/V 还可以为师生提供在线进行视频逐帧图像识别、音频转录，挖掘音视频资源中的知识。IIIF A/V 使视听资源的细颗粒开放共享成为可能，也为图书馆间进行资源整合提供了技术解决方案。Avalon 构建的视听资源数据库支持LTI 规范，可以与Blackboard、Canvas、Sakai 等在线学习管理系统集成，本研究将探索图书馆视听资源数据与学校Blackboard 学习管理系统的集合方案。

5 总结

随着年轻一代越来越习惯利用视听资源进行学习与研究，大学图书馆迫切需要构建满足师生需求的视听资源库。IIIF A/V 标准对于视听资源的支持为大学图书馆视听资源建设注入了新的活力，尤其是大量开源软件的涌现，其中，最显著的开源软件是时间线气泡标注工具Timeliner，它是Avalon 系统的一个组件，由于支持IIIF A/V 规范，Avalon 媒体系统再次受到存档机构的关注。在与Avalon 开放社区的多次沟通交流后，本研究成功利用Avalon 构建了华东师范大学图书馆的视听资源数据库。目前，该数据库已收藏了华东师范大学图书馆的“微信五分钟听教授讲书”项目的全部视听资源。此外，还将逐步导入华东师范大学传播学院教授整理的纪录片、教学相关的电影、学生制作的视频作品等资源，并计划将图书馆保存的讲座、口述史、社科大师资料等视听资源也迁入数据库。本研究计划将视听数据库发布为一个具备完整功能的虚拟机，以便国内图档博机构可以方便地将该系统下载到本地进行测试，从而推动国内视听资源库的建设。

（本文数据链接地址：http://hdl.handle.net/20.500.12304/11162）