面向数字人文的图像数据基础设施建设研究
——以我国图博档领域为视角*

2021-06-07 06:41:40
图书馆 2021年5期
关键词:数字图像语义基础设施

颜 佳 杨 敏 彭 梅

(上海图书馆 上海 200031)

1 引言

1.1 背景

数字图像和文本一样,是人类文化记忆的重要资源载体和表现形式。图书馆、博物馆、档案馆(简称图博档)作为相似的公共文化机构,具有相似的使命责任,例如保护文化遗产、保存与提供信息资源等[1]。在图博档领域,数字图像往往以数字化的历史文献、档案、手稿、文物照片等形式出现,是对人文历史事件的真实记录。但是和文本相比,当前对数字图像的研究还比较少。虽然过去十多年的数字典藏与数字图书馆计划,将大量的图像资源数字化并建成数据库,但是由于数字图像受限于其语义内容难以揭示、跨机构之间的资源难以互通等困难,图博档对图像资源的发现、比较、引用、再利用、交换等均存在障碍。

我国图博档领域对数字图像的研究,从上世纪90年代便逐渐开展,之后随着馆藏数字化建设、文化遗产数字化、大数据、机器学习等研究的兴起,图博档对数字图像的研究也在不断推进。尤其是近年来数字人文研究的发展,革新了人文社科领域的研究范式,使数据成为一种支持研究、创新、服务大众的新型资源,也由此引发了图博档等文化机构建设数据基础设施的需求。图像数据建设作为数字人文基础建设的重要组成部分,更是得到业界空前的重视。为了厘清我国图博档领域数字图像发展脉络,找出其研究进展与趋势,笔者拟对我国图博档领域图像数据基础设施建设的学术文献进行分析,借助CiteSpace、VOSviewer等科学计量与可视化分析工具[2],探讨未来图像数据基础设施建设的发展方向,为我国图博档领域的图像内容揭示、文化遗产建设、数字人文基础设施建设提供参考和借鉴。

1.2 数字人文基础设施与图像数据基础设施

在我国图博档领域,数字人文基础设施建设实际开展较早,如上世纪末各大图书馆就已经着手建设的数字图书馆项目可以算作数字人文基础设施的一部分,其他如中国高等教育文献保障系统(CALIS)、大学数字图书馆国际合作计划(CADAL)等跨机构的文献资源合作建设项目也可以纳入数字人文基础设施建设的范围。而国内完整阐述数字人文基础设施建设这一概念的,当属刘炜在2016年发表的《面向人文研究的国家数据基础设施建设》[3]。该文将数字人文的基础设施定义成为人文研究提供资源、工具、网络空间的研究基础设施(research infrastructure),具体指在数字环境下为开展人文研究而必须具备的基本条件,包括全球范围内与研究主题相关的所有文献、数据、相关软件工具、学术交流和出版的公用设施及相关服务等。与一般性的公共基础设施相似,数字人文基础设施同样具有公共性、开放性、可持续性等特点,这使得图博档这类伴随人类文明进步的公共文化机构参与数字人文基础设施建设有着天然的可能性。

图像数据基础设施作为数字人文基础设施的一部分,一般情况下,我们可以认为其特指数字人文基础设施中的图像数据的建设及相关服务。图像数据基础设施中提到的数据并不特指单一的图像数据库,而是一种数据规模大、覆盖时间长、地域范围广、描述粒度小、维度多的介于信息基础设施后台和特定领域研究前台之间的数据中台[4]。它不仅包含带有图像检索服务的文献知识库,还包含基于资源对象和数据单元层面的基础知识库,同时这些图像数据可以支持跨机构的共建共享与跨网域的开放互联。因此讨论我国图博档领域对图像数据基础设施的研究关系到图像数字化技术、图像文本化技术、数字图像的知识表示、数字图像互联与共享、图像知识库构建等多个环节。

2 数据来源与研究方法

文章的数据来源于中国知网(CNKI)数据库,该数据库为我国最大的、连续更新的综合性文献数据库,能够较为全面地反映我国关于数字图像的研究情况。笔者以篇名=“图像”or篇名=“数字人文”为条件进行检索,共得到图书情报与数字图书馆、档案及博物馆类目下的所有核心文献814篇,其中以“图像”为题的文章440篇,以“数字人文”为题的388篇,而同时包含“图像”和“数字人文”文章仅12篇(表1)。考虑到本文研究的对象为图像数据的基础设施建设,包含图像数字化、文本化、结构化、语义化建设等多个环节,因此尽管很多图像研究的文章主题中并无数字人文,但仍可作为图像基础设施建设的一部分,而检索词为“数字人文”的文章得出的结论多是关于数字人文的相关分析,范围更为宽泛。因此,为了对我国图博档领域图像数据基础设施建设进行系统的梳理,对其未来发展趋势和方向提供针对性的指导建议,本文最终选取“图像”为检索词的440篇核心文献,采集数据的时间为2020年9月12日。

表1 检索词及相关文献数量

文章采用信息计量学的方法,以定量分析为主,并借助科学文本挖掘及可视化软件形象地展示图像数据基础设施建设进展及前沿。文章采用的具体分析方法为:定量统计分析,以期获得图像数据基础设施建设的进展情况;词频分析,通过在文献信息中提取能够表达核心内容的关键词频次的高低分布来研究该领域发展动向和研究热点;可视化网络及自动生成的结果解读,通过分析重要的可视化网络节点、时间、主题内容等来确定主要学者、机构、研究前沿、热点等,为今后在该领域进行学术资源引进、开展合作提供支撑。

3 研究时间与科研合作网络分析

3.1 图像数据基础设施建设研究的时间分布

通过统计某学科的文献数量及其变化情况,来分析研究该学科的发展及其趋势是文献计量学的基本方法之一[5]。图1中的曲线展示了发表的文献数量随时间变化的情况。我国图博档领域关于数字图像的研究最早可以追溯到1993年,为韩建新发表的关于图像数据库和图像检索的研究论文[6]。在1993到2001年,相关文献数量每年不超过10篇,说明我国图博档领域对数字图像的研究刚刚起步,研究内容也主要集中在图像的数字化采集加工、图像数据库的建设与检索等方面。2001年以后,关于数字图像研究的文献数量有了较大提升,每年的发文量保持在20篇左右,探究其背后的原因与当时互联网尤其是语义网的快速发展有关。20世纪末,万维网之父蒂姆·伯纳斯·李提出了语义网(semantic web)的概念[7],在此背景下,关于数字图像语义标注和知识本体等的研究也逐渐增多,我国图博档领域图像数据基础设施建设的热点逐渐由数字化技术向图像内容的深度标注、图像语义本体的建设等方向转换。

图1 图像数据基础设施建设文献时间分布

3.2 图像数据基础设施建设的科研合作网络分布

笔者对所获取的文献机构进行统计,440篇文章共有机构192家。按照普莱斯定律[8],核心机构的数量等于全部机构总数的平方根,因此192家机构中核心机构约14家,文章取其中位列前10的机构进行考察(表2)。通过表2可以看出图博档领域有关数字图像的研究机构主要以各个大学及科研院所为主。其中武汉大学占有较大优势,其次为南京大学、中国科学院、华中师范大学等。值得一提的是,上海图书馆非高校或研究机构,同样占有一席之地,这与上海图书馆数字人文团队近年来发表了大量的研究成果有较大关系。同时笔者关注到,作为拥有大量数字图像资源的博物馆、档案馆等文化记忆机构,在整个研究成果中占比较低。

表2 图像数据基础设施建设研究前十高产作者及机构

同样,我们对文献的作者进行了统计,440篇文献共有作者791名,根据普莱斯定律,核心作者为28名,合作完成文章268篇,合作度为1.79,合作率为61%。为了方便读者直观地了解相关合作情况,文章借助CiteSpace来对作者合作网络进行展示。笔者将440篇文章导入CiteSpace(版本CiteSpace5.6R5)中,时间跨度为1993—2020年,时间切片为1,各时间切片阈值为TOP50,此时的Nodes Types选择Author,网络连线强度计算用Cosine算法,网络不使用裁剪方法,得到作者合作网络图谱(图2)。该图谱共获得节点499个,连线352条,网络密度为0.0028,可见作者合作相对较为分散,以小团体居多。通过绘制作者合作图谱,我们找出了主要的合作团队,其中最大的来自武汉大学数字人文研究中心王晓光带领的团队,成员有李纲、徐雷、侯西龙等21名,研究成果从2013年延续至今,研究内容为数字人文视域下的“数字敦煌”项目。该项目建立了壁画主题词表及关联数据服务平台、文化遗产图像交互式数字系统等,是我国图博档领域数字图像研究的成功案例,具有很强的示范作用[9-10]。其次为来自武汉大学图书情报与数字图书馆的陆伟、陆泉等所在的团队,共有成员12名,成果发布时间为2009年到2017年,研究内容主要为图像的语义标注。第三为来自南京大学计算机软件学院的朱学芳团队,共有成员12名,成果发布时间为2002年到2013年,研究内容主要为图像数字化、档案数字化、图像特征提取、基于内容的图像检索等。值得一提的是由上海图书馆陈涛、上海大学张永娟等组成的团队,共有成员9名,主要研究成果集中在近两年,其研究内容包括数字人文图像资源语义化建设的框架、国际图像互操作框架(International Image Interoperability Framework,IIIF)等,代表了我国图博档领域图像研究在未来的发展趋势。

图2 图像数据基础设施建设研究高产作者合作网络

4 图像数据基础设施建设研究进展分析

词频分析是指对一组文章中的关键词出现的次数进行统计分析,一般情况下,关键词出现的次数越多,越能反映文章所表达的主要观点。笔者对我国图博档领域图像数据基础设施建设的关键词词频进行统计分析,并结合词汇的中介中心性(测度节点重要性的指标,中介中心性越高,节点重要性越大),得到高频关键词列表(表3),并通过CiteSpace构建关键词共现网络。由于CiteSpace的可视化视图效果较为有限,因此文章借助可视化知识图谱软件VOSviewer绘制关键词共现网络(图3),得出了当前图像数据基础设施建设研究的主要进展。

表3 图像数据基础设施建设研究高频关键词列表(前25位)

通过高频关键词表和关键词共现网络,我们可以看到我国图博档领域关于图像数据基础设施建设研究的核心词汇包括基于内容的图像检索、数字图书馆、语义标注、图像数字化、元数据等,然后以图像数字化、元数据与语义标注、数字人文与知识图谱为核心分成了4块核心区域,同时还包含光学字符识别、照片档案数字化等外围概念。文章将基于以上4块核心区域分别介绍相关的研究进展。

图3 图像数据基础设施建设研究关键词共现网络

4.1 从实体到数字图像的技术性探讨

如何利用信息技术将实体转化为数字图像,其中涉及诸多技术问题,在这一领域也有很多探讨,包括实体修复、图像采集、图像识别、图像处理、图像标准化加工等等,最终实现保护性利用与开发。如李升所撰写的《敦煌壁画的数字化保护与传播研究》一文讨论了敦煌壁画的数字化辅助修复技术、智能化交互的壁画临摹辅助技术以及壁画色彩虚拟复原技术等在敦煌壁画数字化过程中的应用[11];彭韵华在《平面图像数位化之品质控制因素分析》中对影响平面图像质量的诸多因素进行了分析和探讨[12];钱铮等在《民国期刊数字化建设中图像倾斜度问题研究》中对近代报刊图像在数字图像采集中的扫描及处理技术进行了探讨,为业内进行近代报刊图像的数字化扫描与加工提供了实践案例[13]。

4.2 关于图像数字资源的描述、分类及元数据等问题的研究

对图像数字资源的特征进行提取、描述、分类进而实现多层次的标引是满足用户多维度检索需求和实现图像知识检索的重要前提,因此对这一问题的研究是整个图像数字资源服务提升的关键所在。

在图像分类方法的研究上,基于卷积神经网络图像分类算法 、RGB-D图像分类方法 、图像语义分类等的研究是非常丰富的。国外比较通行的图像主题词表“ICONCLASS”则是专为艺术和图像设计的分类主题词表,它是在描述和检索图像(艺术作品、书籍插图、复制品、照片等)主题方面最广为人知的科学工具,被世界各地的博物馆和艺术机构所使用[14]。由张弘星团队参考“ICONCLASS”主题词表的构建形式,设计出的符合中文图像的“中国图像志索引典”(Chinese Iconography Thesaurus,CIT)项目,构建了一套索引典系统,收录词汇约有11 000个,分为7个大类[15]。

在图像元数据标准方面,国外有IPTC 、VRA Core、MOA2、CDL、NISO/CLIR/RLG 等,我国则结合特定资源并在通用元数据标准上进行修改和完善,如郑巧英等编著的《国家图书馆图像资源元数据规范和著录规则》[16],肖珑等编著的《国家图书馆舆图元数据规范与著录规则》[17]等。

从2011年开始,图像的语义标注开始逐渐兴起,学者陈金菊等对数字图像语义模型进行了比较与分析,归纳出Eakins模型、Jaimes&Chang模型、Kong模型及Panofsky模型,并比较其在语义层次、可扩展性及应用场景方面的特点[18];李旭晖等提出了基于角色关联的叙事型文化遗产知识表示方法,提出了多粒度、多角度的语义数据模型[19]。在实证研究方面,王晓光等基于Eakins模型提出了一个敦煌壁画数字图像语义描述层次模型[9]52-56;徐雷等对叙述性图像语义标注模型进行了研究,结合开放标注协同框架(OAC)实现了基于本体的语义标注模型,并通过敦煌壁画的案例实践提出其模型的应用前景[20];曾子明等提出一种面向数字人文的图像语义描述模式,并基于国家图书馆老照片数据进行实验论证[21]。

4.3 图像检索研究

我国图博档领域对图像检索的研究主要包括图像内容特征提取的各类算法、图像匹配查找技术、图像检索结果优化技术等。目前常用的图像检索技术多利用计算机算法提取视觉特征来对数字图像进行描述,这些做法较难满足图博档机构对数字图像检索的要求,主要问题在于图博档机构的数字图像语义信息较多,利用通用的数字图像学方法提取语义信息容易导致明显的错误,因此图博档机构对图像检索的研究主要是为了解决特定领域内图像的语义特征提取及检索问题。田学东等利用卷积神经网络技术构建了适用于古籍汉字图像的CNN模型,以提高图像检索的准确率[22];针对医学图像基于内容检索的深度要求而语义描述框架又仅仅是对象层面描述的难题,丁恒等利用语义标注模型实现医学图像领域的语义描述与自动标注[23];邓三鸿等利用在图像语义描述框架中增加社会标签的机制,满足了博物馆图像检索中对深层次语义表达的检索需求,继而提高了图像检索的效率[24]。

4.4 数字图像与数字人文

数字人文的研究中,图像可作为一种重要的研究资料,不仅仅包括人文研究的历史原照还包括各种数字化后的图像文献、文物照片、绘画扫描件等。图像基础设施的建设将改变并逐步形成新的人文研究范式,实现人文研究范式的全面改革,为新文科建设提供有力的支撑。我国图博档领域将数字人文研究中的新兴、热门技术应用于图像数据基础设施建设中,如关联数据、深度学习、众包、自然语言处理、知识图谱、国际图像互操作框架等。徐芳等基于关联数据对文化遗产的数字化保护进行了研究综述,发现基于关联数据的对象化的知识标识手段是下一步文化遗产内容揭示的有利途径[25];杨冠灿等分析了人文研究的深度需求,对京剧脸谱图案的数字化保护提出具体的方案,并利用“北京记忆-京剧脸谱”网站案例进行了实证研究[26];陈涛等讨论了数字人文中图像资源的语义化标注研究和语义化建设框架,提出了一套图像资源语义化框架设计的方案,将关联数据、IIIF与语义标注相结合,推动图博档资源在信息化、数字化、语义化方面的创新转型[27-28]。

5 下一步的发展趋势

在CiteSpace中,某个领域所包含的突发节点越多,那么该领域就越活跃或是研究的新兴趋势。共现时区视图(Time View)是将相同时间内的节点集合在了相同的时区中,清晰地展示时间维度上知识领域的演进过程[29]。因此,我国图博档领域图像数据基础设施建设的新兴趋势,可以通过绘制关键词突变表和关键词共现时区视图来(图4—5)揭示。结合这两张图表,我们可以发现随着时间的演进,语义标注、移动视觉搜索、大数据、关联数据、国际图像互操作框架和数字人文逐渐成为当前领域的活跃关键词,因此我们从以下4个方向对下一阶段图博档领域图像语义标注的趋势进行梳理。

5.1 解决语义鸿沟依旧是核心关键——图像语义标注的再发展

图4 图像数据基础设施建设研究关键词突变表

图5 图像数据基础设施建设研究关键词共现时区视图

我们通过图4中数字图像领域的关键词突变表可以看出,语义标注的突变强度高达11.1276,表明图像的语义标注仍然为当前研究的新兴趋势,具备很高的活跃度。曾蕾等在《图档博领域的智慧数据及其在数字人文研究中的角色》中指出,语义化表示的标注信息与图像本身一同构成了图像智慧数据资源,对语义检索、细粒度内容资源集成、知识发现、跨模态认知计算、深度学习等计算机处理形成了资源支撑[30]。

未来,图像的语义标注将呈现如下三个特征:第一,结合受控术语或本体,建立适合特定领域的语义标注模型。如敦煌壁画的语义描述模型、“中研院”的佛教石窟图像分类标注系统、民国报纸广告图像资源标注模型[31]等,这些都是对特定领域图像资源特点进行描述。第二,语义标注与IIIF、关联数据、众包等其他数字人文技术、图像标准相结合。由于IIIF并不包括语义标注标准模型,因此将图像的语义标注与国际图像互操作框架相结合,可以实现通用的图像资源语义化建设。如陈涛等在其著作《数字人文中图像资源的语义化标注研究》[27]7-8中就以IIIF为框架,以关联数据、语义网技术为支撑,建立了语义知识(本体)管理平台。第三,利用深度学习技术、卷积神经网络推动自动图像标注技术的发展。如王仁武等在《图片情感分析研究综述》中指出,随着图片情感分析粒度的细化,下一步的研究方向是深度学习算法和标注方式的优化;同时,加快带有情感标签图片数据集的开放进程,可以更好地推动该领域研究的不断深入[32]。李志义等在《基于深度学习CNN模型的图像情感特征抽取研究》中提出了一种基于深度学习的图像情感特征抽取的算法,将图像底层特征融合到图像的高层情感语义当中,应用改进的卷积神经网络模型,实现了对图像情感特征的提取[33]。

5.2 数字图像语义化建设的关键技术——IIIF

IIIF在2015年由美国斯坦福大学的研究人员首先提出,核心是一组API解决数字化图像尤其是高精度数字化图像的查看、比较、标注、开放、共享等问题。由于针对的是高精度图像,因此迅速在国外的文化记忆机构中得到了广泛的应用。欧洲文化图书馆(Europeana)是欧洲的数字文化遗产平台,鼓励其合作伙伴网络(包括图书馆、档案馆、博物馆)提供高质量的内容,并为此调整了基础设施,以便能够处理IIIF资源。目前,遵循第一个IIIF标准的数据集可以在欧洲文化图书馆数据集(Europeana Collections)门户网站上访问。法国数字人文中心的圣经文献(Biblissima)项目,重点是展示中世纪和文艺复兴时期的书面文化遗产,目前支持同时显示在多个机构托管的内容,并将越来越多地提供对法语内容的访问。在这样的背景下,我国也有多个机构利用IIIF中的图像API和呈现API来进行大量全文图像资源的展示,如上海图书馆的家谱、古籍、红色文献等文献知识库,华东师范大学的地方志数据库等。

5.3 数字图像与人文研究的互动与实践——图像智慧数据建设

数字人文基础设施被视为一种支持数字人文研究活动的“研究基础设施(research infrastructure)”,包括数字化的文献资源、数据库、工具平台、支持知识生产和信息交流的网络空间等。数字人文基础设施建设的公共性、开放性与持续性等特点,决定了图博档等公共文化机构将成为其主要责任主体,致力于资源保存、文化传承与知识整序。

数字图像作为数字人文数据基础设施中文献资源与数据库的主要部分,有待图书馆、博物馆、档案馆等文化记忆机构打破原有的壁垒,将所藏资源与已建平台等联合起来,遵循统一的技术规范,依托关联数据的优势,利用HTTPURI来作为唯一表示和定位的统一资源标识符,最终实现资源跨机构的共建共享。利用数字图像语义描述框架、知识本体、知识图谱、语义网等概念加强知识的表示与知识建模,以支持对图像内容细粒度的揭示。

在新型数字化技术以及语义网、人工智能等现代信息技术的推动下,图像库的建设在内容上结合领域主题词表进行语义描述,在技术上与关联数据技术、数字人文、知识图谱技术相结合,并由此催生了一批图档博机构主导的、优质的数据库。比如英国瓦尔堡研究院(Warburg Institute)的“图像文献库”、普林斯顿大学(Princeton University)的“中世纪艺术索引”(Index of Medieval Art)以及荷兰的“文化史图像数据库(ARKYVES)”等[34-36]。在此背景下,我国图博档领域在图像库的建设上也有一定的成果,国家图书馆出版社的《民国图片资源库》实现了图片分类、标签、专题、事件等语义层次的描述,但是数据库数量较少,没有实现大规模的数据标注;中国故宫博物院的数字文物库文物照片数量超过5万张,涵盖绘画、法书、碑帖等25个类目,其描述的元数据条目篇名达到186万条;上海图书馆《全国报刊索引》将馆藏近代报刊中的图片进行挖掘,辅以照片、绘画、漫画、手稿等16个类目,建立了图片数量多达百万级的数据库;“数字敦煌”是我国进行数字图像语义描述的典范,不仅详细描述了对象元数据的属性特征,同时对其对象的关联关系也进行了详尽的揭示。

6 结语

本文运用CiteSpace、VOSviewer等可视化工具,对我国图博档领域图像数据基础设施建设研究的发文量、合作网络、研究进展和下一阶段的研究趋势进行了可视化的分析与知识图谱的展示。研究得出如下四点结论:首先,我国图博档领域图像数据基础设施建设研究的发文量近几年呈现逐年递增的趋势,说明图像数据基础设施建设将成为下一步研究的热点;其次,图像数据基础设施建设研究已经形成了一批具有影响力的机构与作者,但无论是机构还是作者之间合作都比较少,因此应加强机构之间、作者之间的交流,尤其是博物馆、档案馆作为拥有大量数字图像资源的责任主体更应该加强与高校、科研机构、图书馆的交流合作;再次,对图像内容的语义化描述与知识建模将是图像数据基础设施建设领域的重点,目前已经形成了一批示范性的、面向具体应用领域的语义描述框架与知识挖掘,但是相关研究尚比较粗浅,比如怎样在实现标准规范性的前提下更好地展现特定领域图像的特性是值得深入探讨的问题;最后,数字人文方兴未艾,数字人文对人文研究的影响已经非常显著,有关图像与数字人文的研究探讨众多,利用关联数据、国际图像互操作框架等数字人文相关技术进行的研究已经取得了一定进展,但数字图像资源在人文研究领域的深化运用,对知识生产与知识传播的影响的探讨还有待深入和细化。

猜你喜欢
数字图像语义基础设施
农业基础设施建设有望加速
公募基础设施REITs与股票的比较
语言与语义
ARGUS-100 艺术品鉴证数字图像比对系统
振动搅拌,基础设施耐久性的保障
中国公路(2017年14期)2017-09-26 11:51:43
“上”与“下”语义的不对称性及其认知阐释
现代语文(2016年21期)2016-05-25 13:13:44
基于块效应测度的JPEG数字图像盲取证
认知范畴模糊与语义模糊
5G——“互联网+”的基础设施
数字图像修复在图像压缩上的应用
机械与电子(2014年1期)2014-02-28 02:07:31