严明 杨慧波
摘要:利用元数据对资源(特别是数字化资源)进行描述,并据此对资源进行管理和检索,终始是最直接、最有效的手段。本文首先探讨了数字图像的描述需求,然后分析了目前常见的数字图像的元数据标准,最后提出了基于元数据的数字图像管理的基本方法。
关键词:数字图像;元数据;元数据标准;图像管理
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)27-0161-02
1 引言
随着数码影像设备的发展及普及,以及多媒体技术和互联网的发展,人们面对的各种数字图像信息迅速增长。据报道,Facebook、微信等社交媒体每天上传的图片达数亿张,一些单位或部门(如公安部门)每天收集和保存数万、数十万张图片,即使对个人来说,许多人每年拍摄和保存的数码照片也是成千上万张。面对如此巨量的数字图像信息,如何能快速地获取和有效地利用,这就需要对其进行科学、合理的组织、存储和管理。
元数据(metadata)是关于数据的组织、数据域及其关系的信息[1]。简言之,元数据是关于数据的数据,其实质是传统的文献资源的著录信息在数字资源的一种扩展。因此,利用元数据管理图像是一种的最佳选择。
2 数字图像的描述需求
根据多媒体内容描述接口MPEG-7标准,多媒体内容描述可以包括如下的信息[2]:有关内容的产生和发展进程的描述信息、与内容使用有关的信息、有关内容存储特性的信息、有关容的低级特性的信息、从内容捕捉到的实体的概念化信息、关于如何用有效方法浏览内容的信息、关于用户和内容交互作用的信息等。这些描述可以分为一般性描述和基于内容的描述。一般性描述是指从图像外部导出的、不依赖于其内容的信息,用于图像的标识和检索,如标题、作者、时间、文档大小、存储格式与编码格式、使用信息(使用要求、版权等)等;基于内容的描述又可以分为结构性描述(用于描述所包括的对象之间的结构与关系等)、低级特征描述(用于描述颜色、纹理等物理特征)和语义描述(用于描述包括的对象和事件)。
无论是从用户的时间和精力来看,还是从实际应用需求看,通常不可能对所有的图像进行全方位描述。不同类型数字图像在功能、用途、消费对象和使用方式等方面可能有所不同,因而对其描述需求也有所不同。例如对于某一张风景图片来说,一般人员只是从审美的角度对其进行欣赏、获得美的享受,可能仅需要了解该图片是在何时何地拍摄的,专业摄影人员可能还需要了解该图片拍摄时及后期处理的相关信息(如相机参数等),出版(发布)者可能还需要了解该图片的来源等版权信息,等等。因此,图像的元数据描述应重点考虑用户群及其应用需求,有选择地采用某个元数据标准,或综合应用多个元数据标准。
3 数字图像的元数据标准
随着数字图像等相关技术的发展,针对数字图像的元数据研究和应用在不断地深入,并已出现了一些面向不同应用需求的元数据标准或规范。例如,数字图书馆联盟(DLF)制定的MOA2元数据标准、美国国家标准化组织(NISO)发起制定的NISO Z39.87元数据标准等等。从元数据存储方式和使用情况来看,元数据标准可以分两类:一类是以独立于数字图像文件的数据(库)文件存储元数据,这类元数据标准(或规范)由具体的应用行业、单位或软件商制定,应用于具体的应用软件或系统,例如图书、档案、公安等部门(行业)制定的图像元数据标准,ACD See软件中使用ACD See元数据也属于这一类。另一类是嵌入在数字图像文件(JPEG、TIFF等类型的文件)中的元数据,即元数据信息与图像数据均保存在同一个图像文件中,这类元数据标准主要有EXIF、IPTC等,目前許多图像应用软件均支持这类元数据标准。
EXIF(Exchangeable Image File,可交换图像文件)由JEIDA(Japan Electronic Industry Development Association,日本电子工业发展协会)制订的专门为数码相机的照片而定制的元数据标准,用于实现在不同的软件或设备之间进行图像数据的交流,其典型应用之一是数码相机直接连接打印机输出照片[3]。目前绝大多数数码相机(包括扫描仪)均支持EXIF标准,数码相机在拍摄(扫描仪在扫描)过程中采集一系列的信息,然后把相关信息放置在JPEG、TIFF等文件的头部,也就是说EXIF元数据信息是嵌入在 JPEG/TIFF 图像文件格式内的一组拍摄参数。EXIF所记录的元数据信息非常丰富,主要包含:拍摄器材、拍摄参数、图像处理参数、图像描述及版权信息、GPS定位数据和缩略图等。
IPTC是国际出版电讯委员会(International Press Telecommunications Council)制定的一种元数据标准,用于识别传输文本和图像[4]。该元数据标准中包含了标题、关键词、类别、创建者、版权声明等一系列条目。虽然目前绝大多数数码相机(包括扫描仪)均不直接支持IPTC标准,但多数主流的图像处理软件(如Photoshop、ACD See等)均支持IPTC元数据的查看、编辑和检索。
此外,与数字图像相关的可用或可参考的元数据标准还有DC元数据标准和MPEG-7标准等。DC(Dublin Core Metadata Element Set,元数据标准都柏林核心元数据集,缩写为DCMES、简称为DC)是一个起源于图书馆界、基于内容描述的元数据模型,它具有简练性、可扩展性、易于人机理解性等特点,已成为国际范围内通用的网络资源描述元数据标准[5]。虽然DC主要面向网络资源的著目描述,且仅包含15个基本元素,但通过对其进行扩展,制定针对图像的修饰词,可以用于全面描述数字图像信息。MPEG-7标准(多媒体内容描述接口)的目标是制定一套标准的描述符合描述方案,用来描述各种类型的多媒体信息及它们之间的关系,以便更快更有效地检索信息。MPEG-7的描述符与描述方案主要用于多媒体内容的低层次特征的描述(如颜色、纹理等)和高层次特征的描述(如区域、分割、对象、事件以及与创作、作品、使用等相关的元数据),涉及图像视觉特征的描述符有颜色描述符、纹理描述符、形状描述符和位置描述符等。
4 基于元数据的数字图像管理
无论是何种类型的用户(包括个人和单位),保存大量的数字图像,其主要目的都是为了今后的检索与利用。作为单位或部门专业用户(例如档案局、公安局、新闻出版单位等),往往借助于专用的管理软件对收集和存储的数字图像进行管理;对于多数用户(特别是个人用户)来说,往往借助于通用的图像处理软件对数字图像进行管理。对于后者,基于元数据对数字图像进行管理一般需要做好以下三个方面的工作。
一是以合理的文件夹结构来组织数字图像文件的存储。在绝大多数情况下,每张数字图像都是以一个独立的文件进行保存的,创建合理的树形文件夹结构分类存储和管理数字图像文件,便于以导航方式查找和浏览数字图像。虽然对于何谓“合理”没有标准和规范可言,但采用类似于“时间——问题”的分类法是一种较好的选择,这种分类法也便于按年度进行增量备份。在实际应用中,可以采取“年度—问题1—问题2……”的多级文件夹结构(通常为3~5级文件夹)进行数字图像文件的分类组织和管理。例如,对于旅游过程中拍摄的照片,可以采用“年度—旅游—地点—景点”的文件夹结構形式;对于工作过程中的照片,可以采用“年度—工作—会议—名称”的形式,等等。
二是对文件夹中的数字图像文件进行批量重命名。通过数码相机拍摄(或扫描仪扫描)的数字图像文件的文件名都是由固定的字符(由数码相机与扫描仪设备决定)及数字流水号组成,例如“DSC_0001、DSC_0002、DSC_0003……”。显然,这样的文件命名与照片内容无关,不便于今后的查看(有意义的文件名及文件夹名称便于文件的导航浏览),且不同批次的照片会有重名现象。从数码相机中将照片导入电脑时(不是直接复制),用户可输入一个名称,在导入照片时系统将以该名称加数字流水号对照片进行重命名,这种重命名是对所有导入的照片进行统一处理,用户在整理归类后将其分存在不同文件夹,往往需要对不同文件夹中的所有文件或部分文件再次进行批量重命名。对此,虽然用户可以使用诸如ACD See之类的图像处理软件或专用的重命名软件(网上可以找到许多这类专用的免费软件),但最简便的方法是直接使用Windows操作系统的文件“重命名”功能。其操作方法是:在“Windows资源管理器”中选择某文件夹中的所有文件或多个文件,执行(快捷)菜单中的“重命名”命令(此时选中的第一个文件名称变成了可修改状态),在“第一个文件”中输入一个名称,则系统自动地对所选择的所有文件进行批量重命名(以输入的名称以及括号加数字流水号进行命名,每个文件的数字流水号与当前文件排序相关)。
三是为数字图像文件设置元数据。在一定意义上说,数字图像的文件名及其存储文件夹名(多级文件夹构成的存取路径)都是其元数据,利用Windows操作系统的文件浏览和查找功能可以直接查看图像文件,但文件名和文件夹名能描述的信息有限,用户应借助EXIF元数据、IPTC元数据对数字图像做进一步的描述,以便于今后的检索与使用。对于多数用户来说,为数字图像设置多个关键词是一种便于检索图像的常用方式,ACDsee等图像管理软件支持基于关键词的图像搜索。许多图像处理软件均支持关键词的设置关键词,但最简便的方法是直接通过设置一个或多个图像文件的文件属性实现。其操作方法是:在“Windows资源管理器”中选择一个或多个图像文件(同时为多个图像文件设置相同的关键词),执行(快捷)菜单中的“属性”命令,在“属性”对话框“详细信息”页面的“标记”文本框中输入一个或多个关键词(该“标记”属性与IPTC元数据的“关键词”元素相对应)。
对于收集和保存的大量数字图像,基于元数据进行管理是一种必然选择,即便是通过合适的文件夹结构、文件(夹)名以及关键词设置,大多数普通用户仅基于Windows操作系统的文件管理功能及ACDsee软件(即使是官方免费版)即可满足一般的数字图像管理需求。
参考文献:
[1]李国辉,汤大权,武德峰. 信息组织与检索[M]. 北京:科学出版社.
[2]José M. Martínez. MPEG-7 Overview. http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm.
[3]华威.数码图片大揭秘——EXIF篇.中国摄影家,2009(6):120-123.
[4]华威.数码图片大揭秘——IPTC篇.中国摄影家,2009(4):103-105.
[5]Jane Hunter. An Application Profile which combines Dublin Core and MPEG-7 Metadata Terms for Simple Video Description. http://metadata.net/harmony/video_appln_profile.html.