李 倩,肖文美
(南京林业大学 图书馆,江苏 南京 210037)
特藏资源是一种珍贵的文化遗产和学术资源,具有很高的历史、文化和学术价值。在馆藏资源同质化越来越严重的今天,加强图书馆特藏资源建设是彰显图书馆特色的重要手段。随着特藏资源的不断扩大和数字化进程的加速,特藏资源数据库成了特藏资源的主要管理平台。特藏资源多以图像为载体,然而特藏资源数据库中的图像管理和展示面临着诸多问题,如图像的高效访问和处理、图像的共享和重用、图像的可视化展示和交互式探索等。数字化技术为特藏资源的保存和利用提供了全新的途径和手段,但数字化展示方式的创新与优化仍然是特藏资源数据库建设的重要研究方向。
国际图像互操作框架(International Image Interoperability Framework,IIIF)是一种图像互操作标准,可以提供高效的图像访问和处理服务,支持多平台互操作性,提高数图像的互操作性和可重用性。IIIF标准在文化遗产资源领域中得到了广泛应用,为特藏资源的数字化展示提供了新的思路和解决方案。将IIIF标准应用于特藏资源数据库建设,对于提高特藏资源的数字化展示效果和用户体验,实现特藏资源从数字化到数据化、智能化具有重要意义。
IIIF是由一些数字图书馆和博物馆组织共同制定的开放标准。该标准的制定始于2011年,最初由斯坦福大学、哈佛大学、牛津大学等机构联合制定。截至2023年,IIIF 社区已经拥有超过100个成员机构,包括图书馆、博物馆、档案馆和数字人文研究机构等。这些机构通过共同参与标准的制定和推广,推动了数字文化遗产领域的开放和互操作性发展。
IIIF通过制定一系列技术规范和协议,实现了对不同图像资源的统一访问和使用。IIIF API的实现工作可以分解为核心API和附加API。核心API中,Image API主要用于访问和传输图像资源。它允许构造参数化URL来获取图像的特定区域和大小,从而支持缩略图和深度缩放查看。它还指定了一种获取图像信息(info.json)的方法。Image API 可以通过Apache、Nginx等标准Web服务器实现,也可以通过专门创建的图像服务器实现。Presentation API用于描述和呈现图像资源,在实现 Presentation API时会创建一个被称为演示清单的json文档,它包括向用户呈现整个资源所需的所有信息。附加API中,Authentication API主要用于用户认证和授权,Content Search API允许在资源内进行搜索,Change Discovery API描述对IIIF内容资源的更改以及要获取的这些资源的位置。
1.2.1 提供高效的图像访问和处理服务
IIIF提供了高效的图像访问服务。在 IIIF 中,所有的图像都可以通过URL来获取。它可以将大型的高清晰度图像分割为多个小图像,根据需要动态加载和显示,从而提高图像的访问效率和速度。同时,IIIF提供了包括JPEG、PNG、TIFF等在内的多种图像格式选项,可以根据用户需求灵活地选择图像格式,满足不同应用场景的需求。IIIF支持图像的多分辨率展示。这种技术使得图像可以根据需要切换不同的分辨率。通过IIIF提供的API,用户可以快速、流畅地查看高分辨率的图像,而不需要等待图像加载。IIIF支持图像的裁剪、旋转、缩放等操作,用户可以在不下载图像的情况下,通过IIIF直接对图像进行处理,极大地提高了图像处理的效率。
1.2.2 支持丰富的图像元数据描述
IIIF通过Presentation API定义的元数据描述模型,可以为图像资源提供详细的描述。这些元数据可以提供关于图像资源的更多信息,如作者、版权信息、采集日期、地点等。这些信息为数字图像的管理、分类和使用带来了便利。IIIF支持多种元数据格式,如EXIF、XMP和Dublin Core等,使得IIIF能够适应不同的应用场景,可以方便地与其他应用程序进行集成。此外,IIIF还支持扩展元数据,用户可以根据需要定义自己的元数据模型,以满足不同领域的需求。IIIF提供了标注和注释的功能。通过IIIF提供的API,用户可以轻松地添加、编辑和查看标注和注释,大大促进了图像资源的共享和协作。
1.2.3 具有多平台互操作性
IIIF提供了一个开放的标准化图像访问协议,使不同平台之间的图像访问变得更加简单高效。如果一个图像在IIIF服务器上可用,那么用户就可以通过不同的IIIF客户端访问该图像。此外,IIIF还支持基于HTML5技术的图像嵌入和共享。这使得用户不仅可以在网页上嵌入IIIF图像,还可以在不同的平台上共享和访问这些图像,极大地提升了图像资源的传播力度。IIIF具有高度的互操作性。通过IIIF提供的API,用户可以对来自不同机构和组织的图像资源进行统一的访问和处理,而不需要使用不同的软件或API来处理不同的图像资源。
作为一个开放、透明、社区驱动的项目,IIIF吸引了全球许多机构和个人的参与,促进了IIIF标准的实现和发展。在符合框架标准的前提下,机构或用户可以根据自身需求选择或自行开发相关应用。图像服务器和图像浏览器是IIIF的2个核心组件。截至2023年4月,GitHub上的IIIF存储库提供了15个图像服务器和16个图像浏览器的具体实现。
图像服务器主要用于处理和存储数字图像资源,并提供统一的基于Web的接口,使得这些图像资源可以被全球范围内的 IIIF客户端实时检索和利用。用户可以选择Apache、Nginx等标准的Web服务器简单实现Image API,也可以使用专门的图像服务器来实现更复杂的功能。常见的图像服务器包括:Cantaloupe、Loris、IIPImage等。图像浏览器主要用于对图像资源进行检索、浏览、标注、分享和复用。常见的图像浏览器包括:OpenSeaDragon、Mirador、Universal Viewer等。
IIIF在国外大学图书馆中有着丰富的实践案例。哈佛大学、斯坦福大学、牛津大学均是IIIF标准的发起者,他们与耶鲁大学、普林斯顿大学、康奈尔大学一起参与了多个IIIF应用程序的开发和使用文档的编辑工作。哈佛图书馆基于开源Mirador项目开发了新型图像查看平台Harvard Library Viewer作为IIIF图像浏览器。用户不仅可以通过它使用翻页导航、目录、全文搜索、打印、IIIF兼容文档的比较等多项功能,还可以在Harvard Library Viewer上非常方便地进行文本识别。耶鲁大学图书馆使用了Universal Viewer作为图像浏览器。其支持根据深度缩放请求,灵活地返回图像片段,解决了通过Web浏览高质量的大型图像问题。Digital Bodleian不仅为用户提供了Mirador和Universal Viewer 2种图像浏览器,还提供了符合IIIF规范的清单下载,实现了图像数据的共享和复用。
在国内也有许多机构尝试将IIIF应用到特藏资源建设中。厦门大学图书馆使用了基于ZendFramework3.0框架的开源平台Omeka S建设特藏数字资源管理平台,采用Loris2作为图像服务器,提供高质量图像的访问接口;采用OpenSeadragon作为图像浏览器,提供了在线浏览、比对及缩放等服务,使得特藏资源得以更好地利用和分享[1]。复旦大学图书馆将IIIF技术应用到印谱特藏资源的展示中,建设了“印藏”数据库。该数据库以林章松先生的印学资料馆松荫轩所藏的印谱为基础,整合了其他私人收藏,汇聚了1 400多种历代印谱。“印藏”数据库采用了基于开源Mirador项目的新图像查看平台“易图”作为图像浏览器。用户可以通过“易图”实现图像的访问、标注及对比研究。华东师范大学图书馆将IIIF技术应用到“近代教科书数据库”的构建中。数据库使用了Omeka的经典版本,采用Universal Viewer作为图像浏览器,实现了对2 800本近代教科书的35万张图像资源的保存、管理、发布、揭示与共享[2]。
南京林业大学图书馆作为全国林业文献信息收藏最完整的图书馆之一,其馆藏书刊资源部分来自原金陵大学、中央大学以及华中农学院,包含了大量民国时期的林业类书刊、工作报告、手稿。民国时期的馆藏文献受其纸质载体限制,老化速度非常快,大部分都已泛黄变脆。图书馆难以直接提供民国时期文献的阅览服务,用户在使用这部分文献时存在着诸多障碍。为此,图书馆使用非接触式高清扫描仪对民国时期的林业类馆藏文献进行了数字化。
民国时期的林业数字化文献包含了大量的图像资源,需要创建特藏数据库系统对其进行精细化管理,并创建符合国际通用标准的元数据格式。系统需要从多维度对图像资源进行揭示,并为读者提供检索功能和图像浏览工具。因为馆藏的民国林业文献并不完整,而互联网上提供了部分民国时期的林业文献资源影像,如CADAL、全国报刊索引近代期刊数据库、中国林业信息网等,为了实现数据的共享和复用,系统需要支持IIIF标准,为实现林业文献数字资源的多平台互操作提供支撑。
民国时期林业特色馆藏数据库系统架构包括4个主要组件:数据存储、IIIF图像服务器、Web服务器和前端用户界面。
数据存储分为2部分:元数据存储和图像存储。元数据存储部分存储每个资源的描述信息包括:资源的标题、作者、日期、主题、地点、类型等信息。元数据需要采用标准的元数据格式,如Dublin Core或MODS等,以便与其他系统互操作。图像存储部分存储每个资源的图像文件。图像文件需要采用符合IIIF规范的格式,如JPEG2000等,以提供资源的高清影像。
IIIF图像服务器是支持IIIF协议的关键组件之一。它需要能够根据IIIF请求生成相应的图像,以供用户进行浏览和处理。该图像服务器需要采用符合IIIF规范的软件,如Loris等,以支持IIIF协议的图像缩放、剪切、旋转、标注等操作,并提供高效的网络传输。
Web服务器是将元数据、图像和IIIF服务整合起来的组件。它需要支持多种网络协议,如HTTP、HTTPS等。Web服务器需要能够根据用户的请求,从元数据存储和IIIF图像服务器中获取相应的数据,并将其整合为IIIF请求的响应。Web服务器还需要支持基于IIIF的高级检索和目录浏览功能,以方便用户查找和浏览资源。
前端用户界面是用户访问和使用特色馆藏数据库系统的入口,它需要提供符合人机工程学的用户界面设计和易用性。前端用户界面需要采用符合IIIF规范的JavaScript库和框架,以提供诸如缩放、旋转、标注、对比等功能,方便用户进行浏览和研究。
考虑到开发成本与可扩展性,系统采用了开源项目Omeka。Omeka是一个用于创建数字展览和在线图书馆的开源软件平台,可以帮助用户轻松创建和发布数字资源。Omeka提供了许多可扩展的插件和主题,可以根据需要进行自定义配置和扩展。Omeka还支持多种标准元数据格式,如Dublin Core、MARC和MODS等。考察了Omeka的不同版本后,本文选择Omeka Classic作为民国时期林业特色馆藏数据库系统的管理平台。
由于Omaka只支持Linux操作系统[3],因此笔者选择安装了Ubuntu18,并根据要求安装了Apache2作为HTTP服务器,开启了apache的mod_rewrite,安装了MySQL5.7作为数据库服务器,安装了PHP7.2和mysqli、exif等扩展,安装了ImageMagick图像处理软件用于调整图像大小。完成操作系统安装和环境部署后,将下载的omeka3.1.1安装文件解压至apache网站目录,并设置相应的目录权限;修改数据库配置文件db.ini设置MySQL数据库的名称、用户名和密码;在浏览器地址栏输入http://127.0.0.1/即可启动Omeka安装程序。Omeka提供了图形化的安装界面,按照引导操作完成安装。在浏览器地址栏输入http://127.0.0.1/admin/进入后台管理页面,Omaka后台提供了对站点一般信息、安全、搜索、元素集、条目类型元素、API、外观等选项的配置功能。
Omeka系统通过插件提供对IIIF的支持。从Omeka官方网站的插件页面下载Universal Viewer 2.6,将其解压到Omaka安装目录的plugins文件夹下后,在Omaka后台的插件页面就可以识别到这个插件,并对其进行配置管理。
最后,在后台管理页面进行资源元数据导入和图像文件的上传。
本文探讨了IIIF在特藏数据库建设中的应用实践。IIIF作为图像互操作标准,可以有效地解决特藏数据库中的图像管理和展示问题,实现图像的快速访问、多样化展示和交互式探索,提高了用户的使用体验和满意度。未来,随着特藏数据库的不断发展和完善,IIIF在特藏数据库中的应用将变得越来越普遍。同时,IIIF标准也将不断完善和发展,为特藏数据库更多类型资源的管理和展示提供更加丰富和多样化的功能和服务,为特藏资源的保护和传承作出更加积极的贡献。