张云中 焦凤枝 刘嘉琳
摘 要:过去一段时期,公共数字文化资源建设注重资源组织和整合,现阶段其重心从“藏”转向于“用”,着重于“用户体验”及“文化服务”。文章以馆藏唐三彩数字文化资源为对象,综合运用用户画像和扎根理论,在用户角色建构基础上对馆藏唐三彩数字文化资源展示的语义需求逐级编码,建构了馆藏唐三彩数字文化资源展示的语义描述模型,从标识描述、基本描述、价值描述以及延伸描述四方面揭示了馆藏唐三彩数字文化资源展示语义描述的核心需求,最终据此制定了馆藏唐三彩数字文化资源展示的元数据框架。
关键词:数字文化资源;数字资源展示;语义描述;元数据;唐三彩
Abstract In past decades, great attention has been paid to organization and integration in public digital cultural resources, but now the main work transfers from storage to utilization, focusing on user experience and cultural service. Taking Tang Tri-color as the object, based on user's portrait and Grounded Theory, this study builds up specific personal requirements and encodes their different semantic requirements on the display of Tang Tri-color. Then it constructs a semantic description model, showing the core need of semantic description on digital cultural resources from all aspects including identification description, basic description, value description and extended description. Relying on the preceding steps, the metadata framework on display of Tang Tri-color resources is established.
Key words digital cultural resource; digital resource display; semantic description; metadata; Tang Tri-color
1 引言
國家(原)文化部2017年印发的《“十三五”时期公共数字文化建设规划》指出,要“制订可兼容现有数据结构的、同时具备良好可扩展性的数据结构规范和符合开放数据标准的数据格式规范,提高公共数字文化资源的开放共享水平和服务效能”,这对新时期公共数字文化资源建设提出了“面向用户、面向服务”的纲领性要求。过去一段时期,公共数字文化资源建设注重资源组织和整合,现阶段其重心从“藏”转向于“用”,着重于“用户体验”及“文化服务”。因此,公共数字文化资源的数据基础设施建设应从支持资源“存储、组织、整合”向“展示”转变。
公共数字文化资源语义描述是公共数字文化资源数据基础设施建设的关键环节,其旨在通过对资源内、外部特征的全面描述,形成支持资源存储、组织、检索、评价、关联、整合及展示等功能的数据结构规范,帮助用户发现、获取和利用资源。公共数字文化资源展示语义描述特指以满足数字化展示为需求、动机和目标的资源语义描述范畴。
迄今,语义本体、社会化标注、机器标注、关联数据等知识组织技术体系在大数据背景下不断完备,加之数字人文技术的成熟及数字人文研究的异军突起,“技术”与“人文”环境交织变革,倒逼公共数字文化资源语义描述向体验化、精细化、智慧化演变。因而,探讨如何从“用户体验”和“数字人文”视角规范公共数字文化资源语义描述,对推动公共数字文化资源进一步开放、共享、利用意义重大。
唐三彩作为唐朝绚烂文化的代表,是中华文化中不可缺少的元素,唐三彩数字文化资源建设之路也代表了传统文物的数字化生存之道。本文从用户体验和数字人文的视角切入,以馆藏唐三彩数字文化资源为研究对象,针对在线展示、实体空间虚拟展示及虚实结合三种展示方式,考察其数字化展示的用户关注焦点,从中析取针对馆藏唐三彩数字文化资源的语义描述模型,用来指导馆藏唐三彩数字文化资源展示、资源组织和资源关联,以期达到“管中窥豹”之效。
2 研究述评
本文将国内外关于公共数字文化资源语义描述的相关研究脉络梳理为面向资源组织的语义描述、面向资源整合的语义描述、面向资源关联的语义描述和面向资源展示的语义描述等四个阶段。
(1)面向资源组织的语义描述——元数据方案设计。结合特定文化资源库中资源特点和应用需求来设计相应元数据格式是该阶段研究的典型模式,西域民族文化资源库元数据设计[1]、Europeana项目的ESE和EDM元数据方案[2]、梅州客家山歌元数据方案[3]等即是其中的典型代表,以“核心格式+扩展元素”的元数据格式来服务数字文化资源的描述、管理和检索成为该类问题普适性的解决方案[4]。
(2)面向资源整合的语义描述——元数据互操作及受控词拓展。该阶段,针对公共数字文化资源的类型划分更为细致,跨机构、跨平台的文化数字整合变成趋势,元数据之间的交互操作成为公共数字文化资源语义描述的新主题,元数据映射、复用、集成、互操作协议与API接口成为必须的实现互操作方法[5-6]。互操作实现方案也呈现出多样性,“对元数据分级分类,建立不同层级元数据的互操作”是经典思路之一[7];“将资源整合语义描述从元数据拓展到多维集成的受控词表”是另一新颖思路[8]。
(3)面向资源关联的语义描述——本体与关联数据的延续。鉴于元数据无法解决资源描述的异构性和形式化问题,本体驱动的語义互操作优势便随之凸显:一种思路是构建集成元数据本体对不同元数据规范中的概念和属性进行整合,另一种思路是对每种元数据规范进行本体化描述,再建立不同元数据本体之间的映射关系[9-10]。当然,元数据本体对“建立与其他资源之间关联”及“揭示资源间深层次或隐含的相互关系”的能力仍然有限[11]。而后,关联数据驱动的公共数字文化资源语义描述随之兴起,通过关联数据模型建构与发布,依托整合、发布、查询等语义融合技术,从而建立不同数据源之间的公共数字文化资源链接并为用户提供一站式应用服务[12],Europeana,DPLA,DigitalNZ即是此类项目中的最佳实践[13]。
(4)面向资源展示的语义描述——聚焦用户体验与数字人文。该阶段,公共数字文化资源语义描述立足于迎合用户需求并面向资源展示[14],尝试将社交媒体、Web服务数据等相关数据汇集成“大数据基础设施”进而支持公共数字文化资源开发利用[15]。公共数字文化资源语义描述也更强调对资源中蕴含对象、对象空间、场景、活动、情感等内容特征的描述和揭示,敦煌壁画数字图像语义描述[16]堪称这种转变的典范。与此同时,数字人文技术体系的兴起,形式化语义描述数据与资源本身一同构成的智慧数据并为数字人文研究提供了有力支撑[17],数据分析及可视化技术使得公共数字文化资源展现、交互等高端服务成为可能[18],符合此理念的虚拟旅游博物馆原型[19]已落地开花,这在客观上也倒逼公共数字文化资源的语义描述必须以满足用户体验、支持人文研究、助力文化传播为新的目标。
综上,公共数字文化资源展示语义描述,已呈现出鲜明的体验化、精细化、智慧化特征。尽管当前研究积累了诸多成果,但仍有一系列关键问题尚未被解决:公共数字文化资源展示中用户如何角色分型?其语义描述的关注点及核心需求在哪些方面聚焦?如何完善和修订现有元数据方案以迎合公共数字文化资源的“展示”导向?本研究将着眼于上述一脉相承的问题,以唐三彩数字文化资源展示为例,尝试勾勒馆藏唐三彩用户的常见群体画像,析取典型角色的馆藏唐三彩数字文化资源展示的语义描述模型,最终完善馆藏唐三彩数字文化资源展示的元数据描述框架。
3 研究方案设计
3.1 研究框架的设计
本文以馆藏唐三彩数字文化资源为研究对象,以用户体验和数字人文的视角为切入点,提出了馆藏唐三彩数字文化资源展示的语义描述模型研究建构路径(见图1):首先,明确公共数字文化资源数字化展示类别,并结合用户画像的技术对用户角色分型,梳理出不同类型用户的数字文化资源展示需求;其次,通过深度访谈,采用扎根理论方法,利用NVIVO对用户需求逐级编码形成资源展示的用户关注焦点框架;最后,对接用户角色分型与用户关注焦点框架,构建馆藏唐三彩数字文化资源展示语义描述模型,并据此析取数字文化资源展示元数据框架。
3.2 研究方法的考量
(1)用户画像技术。交互设计之父Alan Cooper[20]认为用户画像是真实用户的虚拟代表,是建立在真实数据之上的以目标为导向的用户模型。用户画像通过对用户展开特征描述及标签化及抽象化,最终创造人物角色的过程。其本质仍是用户分类方法,但其分类不仅涉及用户的统计学特征,而且触及到用户的目标、行为、观点等深层次的特征,因而更能精准定位用户群体,锁定用户的根本诉求,这也正是本研究采用该方法实现馆藏唐三彩数字文化资源展示的用户角色分型的缘由所在。
(2)扎根理论。扎根理论是从原始资料中自下而上建构理论的质性研究方法,强调的是理论的建构而不是对现有理论的解释或者验证,扎根理论不先入为主的形成理论,而是从原始资料中不断提炼核心概念与范畴进而抽象化为理论的过程[21]。其不先入为主的特点,可以更全面地析取用户体验和数字人文背景下用户对馆藏唐三彩数字文化资源展示的关注焦点。因此,本文采用扎根理论的方法,通过对深度访谈获得的用户需求数据进行三级编码,最终构建馆藏唐三彩数字文化资源展示的用户关注焦点析取框架。
4 馆藏唐三彩数字文化资源展示的用户画像
本文采用四步画像构成法对馆藏唐三彩数字文化资源展示进行用户体验设计:确定维度、数据收集、角色分析、画像呈现。
4.1 确定分析维度
Alan Cooper[20]认为,用户画像可以分为显性画像和隐性画像,可着重从用户的目标、行为、观点来对用户角色进行划分。据此,本研究将用户的性别、年龄、职业、教育程度及专业背景等作为显性画像考量因素,将目标(哪些动机目的)、行为(哪些经历)和观点(哪些关注焦点)作为隐性画像考量因素。
4.2 基础数据收集
唐三彩数字文化资源展示包括在线展示、实体空间虚拟展示及虚实结合展示等三种类型。本研究根据确定的分析维度,拟定半结构化的访谈提纲,采用线上(电话、在线访谈)与线下(以走访博物馆唐三彩展为主)结合的方式,其中博物馆包括陕西历史博物馆(45人)、洛阳唐三彩博物馆(42人)、南京博物馆(25人)、上海博物馆(15人)、首都博物馆(5人),对关注唐三彩数字文化资源的150余位用户进行深度访谈,最后筛选整理出具有代表性的37位受访者的一手资料作为本研究的数据来源(见表1)。
4.3 角色分析建模
通过用户访谈和观察,将用户的目标、行为、观点等隐性画像要素作为重要变量,将用户划分为休闲娱乐型、艺术审美型、考古探索型、技艺传承型、历史文化型(见表2)。
4.4 用户画像呈现
确定用户的行为模式后,用户画像即从显性画像和隐性画像入手,给用户添加标签,通过wordart网站制作文字云,从用户角色分型归纳五类用户形象特征,结合访谈统计数据以词频量降序编辑文字云中词汇字体大小,并佐以不同色彩区分。通过用户画像可以清晰分辨各类型角色的用户特征信息(见图2)。
5 基于Nvivo的用户需求编码
5.1 第一阶段:开放性编码
开放性编码是指按照“本土化概念”,将原始资料中有意义的词语或者句子定义成现象,将定义的现象概念化的过程。笔者将访谈资料进行整理,然后将整理形成的文档导入到NVIVO 11中,采用“见实编码”的方式对访谈文档进行开放性编码,最终共提取出169个初始概念(开放性编码的具体过程见图3)。
将开放性编码得到的169个初始概念进行分析、整合,分析整合的规则如下:
(1)归纳相似的概念,如将“百姓生活习俗”“百姓生活状态”归纳为“民风民俗”;(2)将下位类概念归并到上位类中,如将“文物釉色种类”节点归并到“文物釉色”节点,通过以上方式,最终获得114个核心概念(见表3)。
5.2 第二阶段:主轴性编码
主轴性编码是使开放性编码形成的114个核心概念概括化的过程。通过发现和建立概念之间的关系,依据关系将概念范畴化,将概念归纳为更高一级的类属,以此来发现范畴和类属(见表4第三列和第四列)。
5.3 第三阶段:选择性编码
在选择性编码的过程中,发现类属之间的关系,经过分析关系和原始资料,选择更具有统领性的核心类属。最终得到馆藏唐三彩数字文化资源展示的用户焦点框架(见表4第一列和第二列)。
6 馆藏唐三彩数字文化资源展示的语义描述模型
基于三阶段编码形成的馆藏唐三彩数字文化资源展示的用户关注焦点析取,结合用户画像形成的用户角色,将展示需求与用户角色匹配,最终构建馆藏唐三彩数字文化资源展示的语义描述模型(见图4)。
该语义描述模型兼顾了4种需求,分别是标识描述需求、基本描述需求、价值描述需求以及延伸描述需求,对接了五种人物角色,分别是休闲娱乐型、艺术审美型、考古探索型、技艺传承型、历史文化型。
6.1 标识描述
标识描述位于语义描述模型的中心,是展品的核心标识,在展示信息诠释中起基础性的作用。标识描述划分为属性标识和来源标识两个部分,二者相辅相成。前者包括展品识别号、展品名称等信息,用来刻画展品的固有标识;后者包括展品的出土、获得方式等信息,是对展品来源与处理过程信息的描述。
标识描述是所有用户获取信息的重要来源和公共文化机构传播文物信息的重要因素,因而标识描述信息需求的用户角色体现为全角色分布,不论是对于关注展品外部特征的休闲娱乐型和艺术审美型,还是侧重于展品内容特征的考古探索型、技艺传承型以及历史文化型角色而言,标识描述的信息成为所有人物角色共有的展示需求信息。
6.2 基本描述
基本描述侧重于对展品外部特征的描述,是对展品直观视觉信息的说明。基本描述包括整体描述和局部描述,前者是展品颜色、大小、重量等整体外观信息的集合,后者是展品纹饰、人物姿势以及配饰等局部外观信息的集合。
对休闲娱乐型和艺术审美型角色而言,受自身视觉感知、艺术感知及求知感知等内在因素的驱动,其对整体描述和局部描述的信息需求较为均衡,两者同为关注之焦点。对于考古探索型、技艺传承型、历史文化型的用户角色,基本描述信息的需求呈现出不同侧重,尤其在局部信息描述的信息需求上呈现出明显的差异:历史文化型角色多聚焦局部信息描述,关注展品中的文化风俗积淀,而这并非技艺传承型、考古探索型用户所必需。
6.3 价值描述
价值描述层面是揭示展品价值特征的信息层面,包括艺术价值、经济价值、功用价值、工艺价值、历史价值、文化价值和科技价值。展品的教育作用、借鉴作用及其史料作用是通过其价值信息来体现的,因此价值描述已成为用户深度了解文物的信息来源。
知識结构、能力培养、认知深度及职业思维的差异,衍生出不同的价值关注焦点,从而致使价值描述存在鲜明的角色分布差异。关注艺术价值和经济价值的角色较为单一,分别是艺术审美型与考古探索型;而工艺价值和历史价值的角色则较为复合,为考古探索型、技艺传承型以及历史文化型所普遍关注;文化价值多关乎历史研究和人文情怀,因而为艺术审美型和历史文化型所青睐;科技价值贯通古今之科技水平,是技艺传承型和历史文化型不可或缺之焦点。
6.4 延伸描述
延伸需求属于展品的边缘性需求层面,主要是描述展示平台诉求而非对展品本身的信息需求,其主要包括聚类、交互、关联以及推荐等方面。聚类展示旨在满足用户按类观展的诉求,聚类项多依托于展品标识和基本描述,故而呈现全角色分布;体验感强的特点促使交互成为全角色的“宠儿”,再加上交互多涉及用户行为,使其成为历史文化型与技艺传承型用户研究及发现问题的重要途径;关联展示诉求旨在链接展品的各种媒介资源和文化交流活动,包括文本、音视频以及相关学术报告和文物展览,关联资源丰富性和多样性的特点使其成为了各类用户触及文物、全面搜集资料、深入了解历史的重要手段;推荐问答诉求旨在使用户快速准确地定位更多展品深度信息的平台,被考古探索型和历史文化型青睐。
7 馆藏唐三彩数字文化资源展示的元数据框架
7.1 馆藏唐三彩数字文化资源展示的元数据框架
根据馆藏唐三彩数字文化资源展示语义描述模型,本研究拟从标识描述、基本描述、价值描述及延伸描述四个维度,按如下思路制定馆藏唐三彩数字文化资源展示元数据框架:对照语义描述模型,系统梳理、分析和对比现有文博元数据框架,归纳现有框架对资源展示的语义描述表现力的支撑点和缺失项,一方面析取其中与展示元数据有关的著录项;另一方面补充其中缺失的元数据的需求项。
目前,具有代表性的典型文博元数据框架主要有CDWA、AAT、AMS、Object ID、CHIN、ULAN、CCO、
REACH、CONA等,笔者按照元数据标准及适用域、一级元素架构、资源展示的语义描述表现力的支撑点及缺失项,对上述元数据框架展开对比分析(见表5)。
经过系统梳理后,可明确现有文博元数据方案存在如下两个问题:(1)对文物内容特征刻画不足,具体表现在大部分元数据方案都主要涉及到文物标识描述和基本描述,而对于价值描述和延伸描述却呈现出表现力缺失或者不足之态,支撑文物外部特征描述的同时,缺失对其内容特征的刻画;(2)揭示文物的元素较为粗糙,大部分文博的元数据方案所含元素一般化,虽细致而全面地协助了文物资源著录与使用,但却缺乏对唐三彩资源的个性化描述,对藏品展示需求的支撑不足。
7.2 唐三彩数字文化资源展示元数据框架设计
一方面,从现有文博元数据方案中析取与展示元数据有关的著录项,另一方面对标馆藏唐三彩数字文化资源展示语义描述模型,采用大众标注或机器标注的组合方式,补充现有文博元数据方案中不包含的元数据描述的需求项,最终,本研究演绎得出多途径融合的元数据框架(见表6)。
制定唐三彩元数据框架,可为后续相关研究做奠基,具体价值体现在:(1)以此为基础建立展示元数据本体,借助本体作为共享概念模型形式化规范说明的优越性,为不同唐三彩馆藏机构数字文化资源的组织提供复用标准,利用本体映射、桥接、合并等方式实现异构唐三彩数字文化资源的语义互通与互操作;(2)以此为基础建立唐三彩数字文化资源展示的关联数据架构(schema),利用语义知识图谱等方法和技术实现关联数据构建与发布,进而支撑语义检索、资源推荐、知识问答、可视化展示等高层次的用户利用需求,在互联网平台上真正实现唐三彩数字文化资源深度开放与共享利用等;(3)以此为基础,为唐三彩数字文化资源的社会化标注提供维度线索和指南,激发大众参与唐三彩数字文化资源知识组织的活力和积极性,丰富社会化标签的类别和角度,提高标签语义的精细度,便于生成优质全面的标注数据;(4)以此为基础,契合国际图像互操作框架(IIIF)的技术,为唐三彩数字图像资源自动分类的机器学习模型提供训练向度,通过元数据注入、内容抄录和语义引入等途径实现图像对象的语义增强、知识扩充、自动化分类与精准关联。
8 结语
当前公共数字文化资源展示愈加关注用户体验和文化服务,馆藏机构应主动充分考虑公共数字文化资源从“藏”到“用”过程中可能存在的用户诉求,并将其呈现在最终的元数据方案上。研究发现,运用用户画像等方法构建用户角色,是析取公共数字文化资源展示用户需求的前提条件;结合用户需求规整标识描述、基本描述、价值描述、延伸描述等资源展示语义描述项,是搭建公共数字文化资源展示元数据框架的关键依据。后续研究将继续以唐三彩数字文化资源为典型代表,在所建唐三彩数字文化资源展示元数据框架的基础上,面向河南博物院、陕西历史博物馆、上海博物馆所藏代表性唐三彩数字文化资源,析取并标注全面优质的数字资源展示元数据集,利用元数据本体和关联数据技术,最终实现唐三彩数字文化资源展示数据的线上关联发布与开放共享。
参考文献:
[1] 張旭,解虹.西域民族文化资源数据库建设中元数据选择与结构设计方案[J].图书馆理论与实践,2009(1):101-103.
[2] Bonchev B.Evolving Europeanas Metadata:from ESE to EDM[J].Digital Presentation and Preservation of Cultural and Scientific Heritage,2012(II):27-37.
[3] 李建伟.地方文化资源知识开放共享实现——以广东梅州客家山歌为例[J].图书馆理论与实践,2016(3):44-48.
[4] 兰绪柳,孟放.数字文化资源的元数据格式分析[J].现代情报,2013,33(8):61-64.
[5] 杨蕾,李金芮.国外公共数字文化资源整合元数据互操作方式研究[J].图书与情报,2015(1):15-21.
[6] 宋琳琳,李海涛.大型文献数字化项目元数据互操作调查与启示[J].中国图书馆学报,2012,38(5):27-38.
[7] Chan L M,Zeng M L.Metadata interoperability and standardization-a study of methodology part I[J].D-Lib magazine,2006,12(6):1082-9873.
[8] 张芳源,司莉.受控词表中多维坐标系统构建——以公共数字文化资源整合为例[J].图书情报工作,2015,59(6):97-103.
[9] 肖希明,完颜邓邓.基于本体的公共数字文化资源整合语义互操作研究[J].国家图书馆学刊,2015,24(3):43-49.
[10] Stasinopoulou T,Bountouri L,Kakali C,et al.Ontology-Based Metadata Integration in the Cultural Heritage Domain[C].Asian Digital Libraries.Looking Back 10 Years and Forging New Frontiers,10th International Conference on Asian Digital Libraries, ICADL 2007,Hanoi,Vietnam,December 10-13,2007,Proceedings.DBLP,2007.
[11] 欧石燕.面向关联数据的语义数字图书馆资源描述与组织框架设计与实现[J].中国图书馆学报,2012,38(6):58-71.
[12] 王萍,黄新平.基于关联开放数据的数字文化资源语义融合方法研究[J].图书情报工作,2016,60(12):29-37.
[13] Simou N,Chortaras A,Stamou G,et al.Enriching and publishing cultural heritage as linked open data[M].Mixed Reality and Gamification for Cultural Heritage.Springer,Cham,2017:201-223.
[14] Tang Y,Zhou L,Cao J,et al.Integration of Digital Cultural Heritage Resources in China:Understanding Public Expectations[J].Libri,2018,68(1):59-70.
[15] Castiglione A,Colace F,Moscato V,et al.CHIS:A big data infrastructure to manage digital cultural items[J].Future Generation Computer Systems,2018,86:1134-1145.
[16] 王晓光,徐雷,李纲.敦煌壁画数字图像语义描述方法研究[J].中国图书馆学报,2014,40(1):50-59.
[17] 曾蕾,王晓光,范炜.图档博领域的智慧数据及其在数字人文研究中的角色[J].中国图书馆学报,2018,44(1):17-34.
[18] 刘炜,叶鹰.数字人文的技术体系与理论结构探讨[J].中国图书馆学报,2017,43(5):32-41.
[19] Aurindo M J,Machado C.MUVITUR(virtual museum of tourism):a new approach to tourism history[J].Journal of Tourism History,2016,8(3): 300-309.
[20] (美)Alan cooper,Robert Reimann,David Cronin,et al.倪卫国,刘松涛,杭敏,等译.About Face 4:交互设计精髓[M].北京:电子工业出版社,2015:33-50.
[21] 吴毅,吴刚,马颂歌.扎根理论的起源、流派与应用方法述评——基于工作场所学习的案例分析[J].远程教育杂志,2016,35(3):32-41.
[22] Mourkoussis N,White M,Patel M,et al.AMS:metadata for cultural exhibitions using virtual reality[C].International Conference on Dublin Core & Metadata Applications:Supporting Communiti Communities of Discourse & Practice-metadata Research & Applications.Dublin Core Metadata Initiative,2003.
[23] Yasaitis,Elizabeth K.Object ID:a model of global collaboration[J].Museum Management & Curatorship,2005,20(1):21-39.
[24] 张俊娥,王亚林.博物馆元数据标准构建研究:以盖蒂研究所元数据标准为例[J].大学图书馆学报,2018,36(6):55-63.
[25] 贾君枝,史璇.数字博物馆元数据标准构建研究[J].山西大学学报(哲学社会科学版),2015,38(1):114-119.
[26] 华苏永,顾建新,袁曦临.文物建筑数字博物馆元数据设计[J].图书情报工作,2011,55(2):39-44.
[27] 吴桂英.元数据MODS及其应用前景展望[J].科技情报开发与经济,2009,19(8):125-127.
[28] 董焱.數字博物馆元数据标准初探[J].北京联合大学学报(自然科学版),2005(2):61-65.
作者简介:张云中,男,上海大学图书情报档案系副教授;焦凤枝,上海大学图书情报档案系博士研究生;刘嘉琳,上海大学图书情报档案系硕士研究生。