广东金融学院图书馆 〔广东省广州市 510521〕 陈彩红
至今元数据还没有统一的定义,最常规的定义就是:元数据是关于数据的数据(Data about data)。过于简单的此定义无法揭示其内涵,一些专家和学者遂将其深化和扩展,比较有代表性的是:元数据(Metadata)是描述数据的数据(Data that defines and describes other data)(ISO/IEC 11179-3:2003(E));是结构化数据(Structured data about data),它描述数据的结构和意义;是用于描述数据的内容(What)、覆盖范围 (Where,When)、质量(Quality)、管理方式(Management)、数据的所有者(Who)、数据的提供方式(How)等信息的数据,是连接数据与数据用户二者之间的桥梁(Bridge);是一组独立的关于资源的说明(metadata is a set of independent assertions about a resource);是描述资源的信息(Information about a resource);是数据管理、控制信息(Administrative information);是数据编目信息(Cataloguing information)。传统的书目数据、产品目录等都是元数据。元数据可以为各种形态的信息资源提供规范、普遍的描述方法,为由多种资源组成的信息体系(如数字图书馆等)提供整合的工具与检索。离开元数据的数字图书馆将无法提供有效的处理。
DC由美国 OCLC公司与国家超级计算应用中心 (NCSA)联合发起,国际性合作项目Dublin Core Metadata Initiative设计,52位来自图书馆界、计算机网络界专家共同研究产生,适用于网络信息资源描述,包括l5个元数据核心元素:数据集名称、主题、摘要、数据源、语言、关系、时空覆盖范围、数据生产者、出版者、其他生产者、版权、日期、类型、格式、标识码。它吸引了诸如博物馆、图书馆、政府部门和商业组织等正规资源描述界的广泛关注,得到了国际间的广泛承认,作为学科分类信息资源描述而言,是目前世界上使用最广泛的元数据格式,具有最大的弹性和最强的适应性,是描述、支持、发现、管理和检索网络信息资源的最有效组织方式之一。
DC元数据原是为作者生成对万维网资源的描述而设计的,是旨在推动电子资源发现的最小的元数据元素集,由其适应性和互操作性而额外具有一个重要特质——全世界范围内在一个核心集内达成跨学科领域的共识。DC元数据是在充分吸收图书情报界的编目、分类、文籀等经验以及利用计算机、网络自动搜索、编目、索引、检索等研究成果的基础上发展起来的,其最大特点是数据结构简单。
由 AIT F(Art Information Task Force,艺术信息专业组织)颁布实施,适用于艺术品及数字图像资源描述,包括描述艺术品物理形态、图像及与时空、人物、历史文化等方面的上下文关系等 26个基本元素:对象 /作品、分类、方位 /布置、题名、形态、版本、尺寸、材质与技术、制作方法、物理描述、碑铭 /标志、条件 /检查历史、保存 /处理历史、创造性、拥有 /收藏历史、版权 /限制、风格 /时期 /流派 /乐章、主题、上下文、展览 /借出历史、视频文件、文本参考描述、反响、编目历史、所在地等。
由美国视觉资料协会制定,适用于艺术、建筑、史前古器物、民间文化等艺术类三维实体的可视化资源描述,包括 l7个基本元素:类型、题名、作者、时间、身份号、文化、主题、关系、描述、来源、版权、记录式样、尺寸、材质、技术、所在地、风格 /时期等。
由美国联邦地理数据委员会制定,适用于地理空间数据内容描述,FGDC是按照段(Section)、复合元素 (Compound Element)、数据元素 (Data Element)由来组织记录的,包括 7个主要子集和 3个辅助子集,共有 460个元数据实体(含复合元素)和元素。FGDC规定了3种性质的子集、复合元素和元素。主要子集包括:标识信息、数据质量信息、空间数据组织信息、空间参照系统信息、实体和属性信息、发行信息、元数据参考信息。次要子集包括:引用文献(引证)信息、时间信息、联系信息等。
由美国管理与预算办公室、国家档案与记录管理局及总务管理局联合制定,适用于政府的公用信息资源描述,包括描述性、管理性及记录维护或系统使用的28个核心元素。描述性元素包括:标题、创作者、投稿者、公布时间、公布地点、使用语种、文摘、规范主题索引、非控主题词、空间域、时间段、联系方式、附加信息、目的、处理程序、参照、来源日期、方法。管理性元素包括:有效性、获取条件、使用权限、进度号码、处理标识、来源控制标识、记录来源。记录维护或系统用的元素包括:使用语种、最后更新时间、记录检查时间。
由计算机和人文协会、计算语言学会、文字语言协会联合制定,适用于电子文本的描述方法、标记定义、记录结构,TEI使用 SGM L作为数据记录的编码语言,对元数据和内容数据进行描述,包括 T EI Header、front、body、back 4个 部分。其 中 ,T EI Header规定了对电子文本内容的描述,front、body和back分别用 TEI标签格式来记载文本文前内容、文本正文、附录的实际内容。TEI Header包括的元素有:题名、版本、长度、出版、丛书、附注、来源元素、项目过程描述、抽样、编辑、标签、参照、分类、特征体系、变化声明元素、制作信息、语言使用、文本类别、文本参数、参加者、背景描述、日期、责任说明、变化项目元素。每个元素还包括相应的子元素。front包含图像——封面、书脊、空白页、标题页、卷首插图等文本——标题页、序言,包括其中的目录、插图目录、导论、序言、铭文等;Body中是正文部分,根据文本类型不同,可以使用核心标记集+相应的附加标记集合(DTD)来标记文本;back包含附录和索引的内容等。
由美国国会图书馆网络开发&M ARC标准办公室、美国档案管理员协会联合开发维护,主要用于描述档案和手稿资源,包括文本文档、电子文档、可视材料和声音记录等,EAD使用SGML作为数据记录的编码语言,EAD2002共计包括 146个元素,由EAD标目 (eadheader)、前面事项 (frontmatter)、档案描述(archdesc)三个高层元素组成,每一个高层元素下可分若干子元素,子元素下还可再细分出若干元素,主要元素包括:取用限制、增加、采访信息、其他可取得的形式、鉴定、档案描述、编排、书目、传记 /历史、收藏历史、描述规则、EAD识别、语言资料、法律状态、附注、其他描述资料、原件位置、来源、其他检索工具、实体描述、实体技术、处理信息、相关资料、范围与内容、分别资料、单元日期、单元识别、单元题名、使用限制等。
由国家图书馆中文元数据研究组制定,适用于中文数字资源建设、保存及共建共享服务,包括 25个描述性、管理性、技术性和法律性信息元素:名称、主题、版本、内容摘要、内容类型、语种、内容覆盖范围、内容创建者、其他责任者、内容创建日期、出版、版权所有者、资源标识符、关联资源、数字资源制作者、数字资源制作日期、数字资源制作地、权限声明、公开对象、操作许可、原始技术环境、加工处理历史、维护历史、认证指示符、基本抽象格式描述等。
由中国科学院计算机网络信息中心主持,联合中科院各单位共同研究制定,属于中国科学院“科学数据库及其应用系统”项目研究成果,适用于科学数据库资源的建设、管理、共享和服务,包括数据集元数据、服务元数据两部分。数据集元数据主要包括:数据集描述信息 (名称、URI、主题、描述、目的、类型、数据量、数据来源、提供者、贡献者、更新频率、数据集时间、语种、URL、关联数据集、数据集范围)、数据集质量信息(数据志、评测报告)、数据集分发信息(数据格式、技术要求、收费策略、权限声明、订购指南、访问时间、联系方式、分发信息元数据示例)、元数据参考信息(元数据标准、元数据时间、元数据联系信息、元数据参考信息元数据示例)、服务参考信息、指示信息、结构描述信息(检索点、实体、关系)、范围信息(学科范围、时间范围、空间范围)、联系信息(联系人名称、联系地址、其他联系方式、联系时间)。服务元数据主要包括:服务类型、服务名称、服务URI、服务描述、服务属性等。
属于科技部科技基础工作专项资金重大项目研究成果,适用于各类数字对象管理,包括 15个基本元素:名称、主要责任者、主题、描述、出版者、其他责任者、日期、类型、格式、标识符、来源、语种、关联、时空范围、权限。基本元数据集可根据实际需要进行扩展,采用 RDF Schema和 RDF/XM L对元数据形式化的词汇和语法进行描述。
由北京大学数字图书馆研发,适用于各类数字资源对象,由14个核心元数据、3个北大数字图书馆核心元素及个别元素组成。核心元数据:元素名称、主要责任者、主题 /关键词、资源描述、其他责任者、日期、资源类型、资源形式、来源、语种、相关资源、时空范围、权限管理;北大数字图书馆核心元素:版本、物理特征、出版项;个别元素根据资源对象情况制定。
在中文元数据开发与利用方面,我国台湾省和香港特区已经取得了一定的成果,而中国大陆关于这一方面的研究还处于刚刚起步的阶段。因此,两岸三地有必要加强合作、共同开发,避免资源浪费,共享研究成果,共同促进中文元数据的发展,促进中文元数据标准的进一步发展和完善,为中文网络信息资源的编目组织工作提供有效的工具,促进中文网络信息资源建设的发展。
在本文的第二部分,评述都柏林核心元数据时,已经提到,从元数据在整个世界范围的发展及应用情况来看,都柏林核心元数据主导信息资源描述格式发展趋势已成定局,都柏林核心元数据具有很大的弹性、有效的互操作性和最强的适应性,已日渐得到业界的广泛认同。因此,都柏林核心元数据大有逐渐取代其他元数据格式而成为元数据格式发展主导之势,在制定中文元数据标准时要充分认识到这一点,图书馆应在兼顾使用者的习惯以及与现有系统的兼容性的同时,考虑是否开发以都柏林核心元数据格式作为信息资源描述结构的系统,以及如何开发等问题,应以充分论证为基础,对都柏林核心元数据信息资源描述格式给予充分的重视。
在制定中文元数据标准方面,在充分认识中文元数据处理方面特殊性的同时,还必须注意到与国际相关标准兼容的问题,考虑所定立标准的开放性,从全球信息大环境、元数据标准大系统着眼,制定能与国际相关标准兼容的中文元数据标准,形成国际化的标准体系,这也有助于标准的进一步发展。
通过参加一系列试验项目,进而总结,为中文元数据标准的制定积累经验。众所周知,国际上对于网络信息资源是否进行编目以及如何进行、采取何种方式方法早已形成定论,中国大陆的图书馆应尽早加入此类项目,在多方国际合作的过程中积累经验,这将有助于开展中文网络信息资源组织,推动中文网络信息资源的对外输出,提高中文信息资源在国际互联网上所占的比例,弘扬中国文化,扩大中文的世界影响力。
[1]张晓林,肖珑,孙一刚,等.我国数字图书馆标准与规范的建设框架 [J].图书情报工作,2003,47(4):7~11,64.
[2]林卫,高雄鹰.试谈网络信息资源的编目 [J].山东图书馆季刊 ,2001,(2):25~27.
[3]张东.论元数据互操作的层次 [J].情报理论与实践,2005,(6):648~650.
[4]朱超.关于元数据互操作的探讨 [J].情报理论与实践,2005,(6):644~647,655.
[5]肖珑,陈凌,冯项云,等.中文元数据标准框架及其应用[J].大学图书馆学报 ,2001,19(5):29~35.
[6]冯项云,肖珑,廖三三,等.国外常用元数据标准比较研究[J].大学图书馆学报,2001,19(4):15~21.
[7]张晓琳.元数据研究与应用 [M].北京:北京图书馆出版社,2002:15~18.
[8]刘嘉.元数据导论 [M].北京:华艺出版社,2002:37~41.