黄明玉
(北京科技大学,北京 100083)
在当前全球数字化、网络化、智能化的发展趋势下,博物馆作为社会教育机构所提供的学习形式发生了巨大变化。以信息技术强化藏品的知识挖掘、传播的深度与广度已成为博物馆领域的共识。随着信息技术在博物馆的广泛应用,博物馆数据核心基础薄弱的瓶颈问题日益突显,因此博物馆学界开始尝试将信息化的理论与技术,与博物馆学和文化遗产研究的理论和业务深度融合,进而催生了博物馆/文化遗产信息学的研究领域。在2002年的《布达佩斯开放获取协议》(Budapest Open Access Initiative,open access一词除翻译为开放获取,亦常见译为开放存取、开放近用、开放取用)和2003年《关于自然与人文知识开放存取的柏林宣言》(Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities)之后,国际博物馆协会(ICOM)于2004年修订的《博物馆伦理准则》(ICOM Code of Ethics for Museums)也明确提出博物馆对信息开放负有责任,ICOM下辖的记录建档国际委员会(International Committee for Documentation,简称CIDOC)于2007年发布的《博物馆记录建档原则声明》(Statement of principles of museum documentation)也规定了博物馆应对信息获取与使用者需求提供相关服务与内容。许多博物馆制定了藏品信息开放获取和开放数据政策,信息化和藏品信息有效应用的实践成为博物馆日常业务的重要组成部分。
藏品信息的获取与博物馆对其藏品的编目品质直接相关,博物馆对其藏品信息的呈现应以规范化描述的数据标准为基础。当前国内外许多文化遗产机构提出或应用了各有特色的文物描述元数据方案,但在我国尚缺乏建立完成的规范化的标准方案。在分析阐述文物数据标准的定义与类型基础上,主要通过对比分析国内外4项典型文物元数据标准的结构,探讨其元素组成的异同对于呈现文物藏品信息的影响;继而比较分析大英博物馆、大都会艺术博物馆、北京故宫博物院、台北故宫博物院的线上藏品检索方法与信息内容,以期学习、吸收这些具有示范性意义的经验,为我国文博领域的文物藏品数字化编目工作带来启迪。
文物数据结构即所谓的元数据方案、元数据元素集,作用为聚集和组织文物的信息,以鉴别和描述文物与相关的信息资源[2]。文物与艺术品领域常见的数据结构标准中,最为集大成者为美国盖蒂研究所(Getty Research Institute,简称GRI)提出的《艺术品描述类目》(Categories for the Description of Works of Arts,简称CDWA),该标准为描述和获取文物信息提供了一个概念框架,旨在为艺术品、建筑、物质文化、收藏品和相关图像提供周全的编目和描述指引,包括31大类约540个信息项,其中36项为核心元素,为文博领域的编目信息结构定下框架,成为领域内许多重要元数据规范的参考引用来源。由于CDWA过于庞大和繁琐,为了便于应用,业界在CDWA的基础上发展出《视觉资源关联核心类目》(VRA Core Categories,简称VRACore)、《藏品识别码》(Object ID)、《艺术品描述类目精简版》(CDWA Lite)等较为简化的文物数据结构。
数据值是数据的呈现形式,是用于填写元数据元素集的词语、名称和其他值,呈现为受控词汇。博物馆常采用的受控词汇形式包括叙词表、受控词单、规范档、分类表、主题标目表等,目的在于为元数据元素提供标准术语,以规范某些元素的取值。针对上述需求,国外相关机构发展出多部受控词汇表,例如盖蒂研究所的《艺术与建筑叙词表》(Art & Architecture Thesaurus,简称AAT)、《文物名称规范》Cultural Objects Name Authority,简称CONA)、《盖蒂地理名称叙词表》(Getty Thesaurus of Geographic Names,简称TGN)、《艺术家名称联合名录》(Union List of Artist Names,简称ULAN);以及由荷兰艺术史学院发展的《ICONCLASS图像学分类系统》、美国国会图书馆发展的《国会图书馆标题表》(Library of Congress Subject Headings, 简称LCSH)、英国遗产信息标准论坛(Forum on Information Standards in Heritage)汇聚的《FISH词表》等。许多机构对于文物数据值标准的制订是以上述已公布的受控词汇表为基础,结合本地资源实际修订。
数据内容标准即编目规范和准则,关注的是如何描述文物,为文物描述的内容制定规范。国际文博领域关于藏品编目的研究和讨论,一直视为藏品管理和登录的主要部分。从过去到信息化时代早期,藏品编目通常注重的是数据结构的完整性,即藏品信息是否全面和一致;时至今日,由于藏品信息检索和交换的需要,博物馆信息人员意识到藏品登录内容的规则和语法同样需要标准化。2006年,美国图书馆协会(American Library Association,ALA)出版了《文物编目指引》(Cataloging Cultural Objects,简称CCO),成为国际文化遗产领域重要的编目标准。此部编目规范阐述了一般编目的指导原则,并针对9组元数据元素论述编目内容要求,讨论了编目内容需要的规范数据值,并推荐多部受控词汇表来源[3]。其优势在于,它提出用于规范化编目的元数据元素可以映射到行业通用的元数据标准,如VRACore、CDWA和CDWA Lite,也可以扩展至图书领域的《机读目录》(Machine Readable Catalogue,简称MARC)元数据或更为通用的《都柏林核心元素据元素集》(Dublin Core Metadata Element Set,简称DCMES)。
我国文博领域在上述文物描述元数据的数据结构、数据内容标准方面,已有性质相近的规范出台,如《博物馆藏品信息指标体系规范》(试行)(2001)以及WW/T 0017—2008《馆藏文物登录规范》,但规范内容仍有待完善[4]。在数据值标准方面,目前尚未有用于标引的专业词表出版,在这方面的工作亟待开展,应以主题词表或规范档的形式建立适用于我国文博领域的受控词表。目前在国家文物局文物标准委员会指导下制定的《中国文物分类主题词表》目前仍在审订修改阶段,发布后将作为行业标准用于文物的一般概念标引。如同美国图书馆协会CCO规范的建议做法,在文物信息标引中采用受控词汇作为标准取值,对编目信息的品质有关键影响。
文化遗产机构在电脑化时代开始之前,行业特性决定了其高度重视物件信息的组织和呈现。而文物元数据的发展也反映了该领域对数据结构的强调。随着信息技术的深入应用,相关从业人员意识到,文物信息的高度结构化更有利于用户的搜索与操作,并有助于在物件信息间建立关联关系,而文物元数据的发展正契合对文物数据结构化和标准化的强烈需求。元数据不仅能描述和发掘资源,还可以合并数字信息系统涵盖的范围,可以涉及收藏机构的所有业务。有鉴于此,在数字对象生命周期中产生的不同功能的元数据,可以进一步归类为几种类型:管理元数据、描述元数据、保存元数据、技术元数据和使用元数据。在网络化的环境下,这些元数据的研究与应用无疑是当下行业信息化的核心关键。其中,“描述元数据”的定义为:用于辨识、认证和描述藏品与相关可信信息资源的元数据,包括由原始的信息创建者和系统产生的元数据、编目记录、专业索引、研究信息、资源的关联关系等[1]4-9。对照传统的博物馆文物编目内容,可得知描述元数据除包含编目信息,更着重于整合性的信息资源(包含文物实体和数字化版本)内容描述,目的在于创建和维护物件的知识完整性。
然而,由于文物的多样性和文博机构业务的复杂性,由不同专业与职责的机构研发的描述元数据标准在理论和实践上都存在很大差异。如《都柏林核心元数据元素集》(DCMES)之所以应用范围广而被多数机构所接受,是因为其元素集相对精简且通用,创建与维护成本较低。有专门需求的用户则会选择增加元数据种类,如收藏文物或艺术品的博物馆可能倾向于采用盖蒂研究所的《艺术品描述类目》(CDWA)元数据标准以充分描述特定类型的藏品信息,并创建符合其需求的受控词汇表。不同的元数据标准之间则通过映射来共享与交换。良好的描述元数据对于使用者查找与检索文物信息至关重要,然而若追求元数据的周全性和正确性,其创建和维护相当复杂、耗时和资源消耗大,因此效用和成本的平衡是必须考虑的议题。同时,文博机构应该认识到,一套“万能的”数据标准并不存在,不同的文博机构必须选择与之需求相匹配的元数据方案、受控词汇表与编目标准,通过最适宜的资源描述以提供其用户访问与使用。在此诉求下,采用较为精简的描述元数据方案,以满足信息创建者、收藏机构和用户的需求,应是首选做法。
数据挖掘对象为大型公共建筑内的群体,主要从时空数据挖掘出发,将挖掘任务分为:时空模式发展、时空聚类、时空异常检测、时空预测和分类等.环境参数测试和设备控制采用ZigBee技术组成的无线传感网络去实现,避免了传统测控系统复杂繁琐的布线操作.各种测试仪器和控制器按照规定标准接入网络,控制中心就能实时地获得相关数据.由此将时空数据挖掘得到的环境期望参数和各测试数据进行分析处理,得到实时的控制方案并通过网络传输给末端空调设备控制器.
对描述元数据方案异同的比较分析,是博物馆间藏品信息互通及互享工作应重视的议题[5]。元数据方案可对应我国文物信息化工作中“信息指标项”一词,即“数据结构”的概念。多数博物馆在信息化建设初期,针对自身馆藏特点各自独立开发藏品管理系统,造成采用数据结构和描述的差异化是必然结果,如果不通过元数据方案加以规范,馆际间数据将因为存在多源异构的问题而影响整合、交换和深度应用。再者,描述元数据作为资源发掘“指标”的作用,会因为博物馆收藏文物的类型和数量差异而有不同需求。是故,在描述元数据方案中指定核心元素,可以呈现高度凝练的核心信息以揭示目标物件的特殊性,在网络环境检索的第一时间给予使用者正确且足够的信息量,帮助使用者发现相关资源。
本节通过对比国内外4组作为标准规范的文物描述元数据方案,包括盖蒂研究所制订的《文物名称规范》(CONA)、《艺术品描述类目精简版》(CDWA Lite)、《藏品识别码》(Object ID)和我国全国第一次可移动文物普查必填指标项[6](以下简称“一普指标”),以说明元数据方案的差异反映出的设计需求和结果差异。
CONA是盖蒂研究所数字艺术史项目发展出的文物名称规范,其形式是文物名称的受控词汇表,该词汇表指标涵盖了文物编目信息的10项核心元素,故能视为一种元数据方案讨论;CDWA Lite包含了CDWA的核心元素并采用CCO规则,分为描述元数据和管理元数据两部分,此处仅讨论其19项描述元数据元素;Object ID是许多国际文物机构采用的描述元数据标准,元数据方案包含8项元素。一普指标是国家文物局近年来实施的重要文物普查工作的基础指标,其元数据方案共设置了14个必填信息指标项,可视为核心元素,扣除其中5项管理类指标(藏品编号、文物级别、来源方式、入藏时间、保存状态),作为描述元数据讨论的共9项元素。4组元数据方案元素对比见表1。
表1 描述元数据方案核心元素对比:CONA、CDWA lite、Object ID、一普指标
说明:为方便理解和讨论CONA、Object ID、CDWA lite原文中元素所使用词语的概念,表格中相关元素以原文标示。
由于CDWA Lite和CONA遵循CCO编辑规则,故在相关元素的著录规范中直接引用CCO规则。
表1中CDWA Lite在创作者、量度、材料与技术、创作日期等元素区分了呈现(display)和标引(indexing)两种形式,所以表中在上述元素栏位标记两个符号,实际可归纳为14个元素。CDWA Lite在时间属性元素中区分了风格、时代、文化、创作日期4个元素。从表1对比结果看出,国外3个描述元数据标准中设立而一普指标中没有的元素为:编目层级、文物类型、创作者、主题4项。编目层级的定义是根据编目对象的实质形式或内容,在文物记录中指出该条记录涵盖的程度范围,如单项、组、卷、册、套等,是一串可选词单。在一普指标方案中,有一“数量”指标可标记为“件套”,与“编目层级”概念有所重叠,但就文物编目或统计的需求而言,其认知数量的单位应仔细界定,仅以“件套”表示可能不够准确。此外,就文物而言,“创作者”一词通常令人直接联想到文物的“制作者本人”,但除了书画类型作品会有明确的作者署名,或少数类型的器物上会标记有工匠名字,多数文物的制作者身份通常是未知的,所以“创作者”元素在我国文物编目传统中通常不被认为是必备元素。在CONA和CDWA Lite的编目原则中,“创作者”定义为“对作品的设计、生产、制造或改动负有责任的署名或匿名的个人或法人团体”。所以,和文物制作生产有关的人物或团体应该记录在这个栏位中,包括出资者、出版者、监造者等身份;未知姓名的个人会以“unknown”标示。
“文物类型”和“主题”元素是国内博物馆文物编目工作中较为陌生的概念。在CDWA和CONA的核心元素中,将类别(Classification)和文物类型(Work Type)明确区分为两个元素,前者定义是“在正式分类架构下,依据类似特征将文物归类”,通常是收藏机构本身的分类框架;“文物类型”定义为“描述文物所归属的类别”,通常比“类别”元素专指度高,会使用受控词汇标引其形制或功能。在一普指标方案中,虽然援引WW/T 0017—2008《馆藏文物登录规范》中的文物分类标准,但通过调研,实际在博物馆本地的应用上经常存在套用困难的情况,例如:皮衣是该归入皮革类还是服饰类?同一类文物在不同博物馆可能存在相异的分类结果。面对这种情况,另设“文物类型”元素并以受控词汇标引,会是比较理想的解决方式。
主题元素类似某些博物馆在线上藏品查询系统中提供的“关键词”概念,根据CDWA的定义,“主题”元素指的是文物的叙事性或图像内容,或非客观含义;对于没有叙事内容的物件或建筑物,主题概念则涵盖其功能。美国学者Hourihane指出,许多网络环境的终端用户倾向使用的检索条件是创作者和主题两个元素[7]。若以文物通常缺乏创作者信息来推论,则“主题”元素可以说是对检索文物来说最重要的元素。
综上,编目层级、文物类型、创作者、主题4项元素,作为文物描述元数据之核心元素是合理且必要的。
博物馆于网络环境提供的藏品信息,是其藏品获取策略的具体实践。本节主要从大英博物馆、大都会艺术博物馆、北京故宫博物院、台北故宫博物院4座博物馆网页所提供的藏品信息检索项,进一步对比文物信息在网络环境的呈现。大英博物馆“藏品在线”是全球范围内建置最早、内容最为丰富的博物馆线上搜索平台,其藏品数量约700万件,已完成数字化编目的超过450万件藏品的记录,其中有图像的记录超过100万条(可下载),其进阶搜索选项开放了14个字段供用户查询,这些选项在后台数据库中由叙词表和元数据著录规范提供受控词汇以供终端用户检索。为集中讨论核心元数据信息项,此处略去陶瓷类型(Ware)、擒纵机构(Escapement)两项,并将两个出版品元素[“publication(author/title)”“publication reference”]合并讨论。大都会博物馆网站在线检索提供的选项包括9个字段,其藏品图像践行开放获取原则(该政策于2017年2月发布),目前已开放超过40万张高分辨率藏品图片供大众免费下载。北京故宫博物院院藏180万余件套文物,公布有《藏品总目》(2016年发布),部分开放检索,其线上查询系统提供级别、名称、年代、分类4个字段;就国内博物馆而言,该院公布藏品总目在开放获取的做法上实属创举。台北故宫博物院院藏约70万件/册文物,其典藏资料库系统包含书画、器物、善本古籍等18个数据库,在开放获取和开放数据方面的先行性亦属中文博物馆界翘楚,选择其中“器物典藏资料检索系统”和“书画典藏资料检索系统”数据库与其他3家博物馆线上藏品资源进行比较和讨论;综合其器物和书画两个藏品检索系统共有8个元数据字段供用户检索。上述博物馆藏品线上检索系统的元数据字段比较见表2。
表2 博物馆线上藏品检索系统元数据字段比较
根据查询系统搜索出现的结果,4家博物馆呈现的文物信息通常较查询字段多,反映出这些博物馆的文物编目品质和研究成果。如大英博物馆藏品查询结果的呈现内容,除了检索系统中的元数据字段内容,还给出了图片(带描述)、编号、描述、尺寸、发现地点、研究人员评述、状况、入馆登录信息、部门等信息。
大都会博物馆的进阶检索有“物件类型/材料、地理位置、日期/时代、部门”4个字段提供下拉菜单选项,分别有100、100、10、22个选项供用户在基本检索之外进一步筛选查询结果。藏品的网页呈现信息除检索的元数据字段,还根据藏品特点提供图片、分类、签名、款式和标记、来源、展览史、艺术史时间线、该馆相关出版物等信息,同时关联了同部门、同作者/文化、同物件类型/材料、同地理位置、同时代的藏品信息,以及相关文物信息。可以判断其后台数据库在这些元素的标引详细情况。
北京故宫博物院线上藏品信息包括图片、名称、描述、年代、尺寸、材质,并提供关键词和(编目)撰稿人信息。关键词有名词解释,足见其后台数据库对文物编目信息有一定程度的术语控制和标引。
台北故宫博物院的书画文物于线上检索结果除检索字段内容,针对文物类型还分为基本资料、尺寸质地、题跋印记、主题技法、参考资料,定义了详细的元数据结构,如基本资料包括:书体、色彩、装裱形式、作品语文、数量、编目层级、释文等元素内容,尤其在“主题技法”栏位,区分主题的类别、层次,并对主题的取值内容有所说明。其器物类文物之开放数据结构和内容较为简单,但提供“功能”和“款识”字段查询也让检索结果更为精确。台北故宫博物院在过去执行“数位典藏计划”期间与台湾“中央研究院”合作完成有《故宫博物院器物与书画控制词汇》,是中国艺术领域重要的受控词汇研究成果,也用于其文物藏品数据的标引;且目前该院仍根据其数字化成果持续发展本地受控词汇。此外,该馆文物检索系统还设有社群标签功能,供线上用户对文物标引主题词,也是博物馆在开放获取与公众互动传播方面的创新举措。
从上述结果对比,可总结出以下3点。
1) 博物院藏品信息的组成和其收藏特色直接相关。大英博物馆和大都会博物馆藏品因来自世界各地,故均提供文物藏品(原产地/来源)的地理位置信息字段的检索,其藏品研究部门也有许多根据地理区域区分组成。
2) 大英博物馆、大都会博物馆和台北故宫博物院提供了“文物类型”和“主题”或相近检索选项(大都会博物馆没有主题选项,但开放“描述”内容的检索,提供了部分近似主题检索的功能)。
3) 从藏品信息反映出其研究体系与应用实践。长期的藏品研究成果通过信息的标准化,实现藏品及其研究信息的标引,将内容丰富的藏品本体信息、关联物件信息和其他外延信息等检索结果呈现给用户,有助于用户的研究或学习活动。此外,就藏品信息的开放获取而言,藏品的图像是重点,如欧美文化遗产学界的物质文化研究传统十分重视图像,故其文物收藏机构的信息开放共享也同样重视图像信息的编目品质。
近二十年来,我国文博领域在文物信息化和数字化方面开展了大量工作,各类新兴数字技术在管理、研究、展示、传播等各业务环节都有所应用,但藏品的信息化成果和应用水平仍有待提升。藏品信息传播和应用的厚度与延展性,未能满足社会日益增加的信息需求,其根本原因即在于藏品信息缺乏统一规范的数据描述标准和应用方案,造成馆藏文物数据的互通与集成受到严重制约。因此,借鉴已有国内外相关经验,研究探讨并形成适用于我国博物馆需求的馆藏文物描述元数据方案,已成为领域夯实信息化基础,实现系统化升级的核心关键。基于此,就馆藏文物描述元数据研究与应用提出4点建议。
1) 馆藏文物编目应在已有理论和实践成果的基础上,深度结合信息化需求。以此为导向,修订相关行业标准或制定新的配套标准,尤其应制定和发展各类受控词表,以作为藏品数字化编目的标准数据值来源。
2) 各文物博物馆机构应在行业文物描述元数据规范的指导下,制定可满足馆际数据交换需求的藏品描述元数据方案和配套的编目规则,并发展基于本地藏品编目需求的本地受控词表。描述元数据方案应规定核心元素,其中包含编目层级、文物类型、创作者和主题4项元素;编目内容应区分标引和展示两种格式。
3) 文博机构在线藏品查询检索功能设计方面,应提供完善的藏品数字化编目成果,充分体现机构自身藏品研究的专业性。创建与维护完整并具有扩展性的文物藏品信息,是文物研究的专业需要,亦是藏品信息传播利用的基石。
4) 随着信息技术与博物馆学和文化遗产研究的融合发展,基于文物研究和文物编目的馆藏文物信息化基础理论和技术的新议题也将不断涌现,例如文物的知识组织、信息标引等均有待继续探索。期待领域内更多专业人士投入其中,以推进文物博物馆行业开创信息化的全新局面。