非遗数字媒体资源本体模型构建研究

2022-08-16 07:12朱佳慧常娥
数字图书馆论坛 2022年6期
关键词:本体剪纸概念

朱佳慧 常娥,2

(1.东南大学经济管理学院,南京 211189;2.东南大学图书馆,南京 210096)

非物质文化遗产(以下简称“非遗”)是指各群体、团体,甚至是个人世代相传并视其为传统文化的各种表现形式及文化空间,与群众生活密切相关[1]。21世纪以来,非遗保护成为学界和业界关注的重要议题,伴随着联合国教科文组织《保护非物质文化遗产公约》(以下简称《公约》)的出台,人们对于非遗的关注度持续飙升。我国于2004年正式加入《公约》,此后在全国各地开展了非遗立法、申报、普查等一系列保护工作,取得显著成效。截至2020年12月,国务院发布了四批国家级项目名录,国家级非遗代表性项目共计1 557项[2]。其中,列入联合国教科文组织非遗名录的项目共42项,总数位居世界第一[3]。2021年8月,中共中央办公厅、国务院办公厅印发《关于进一步加强非物质文化遗产保护工作的意见》[4],明确指出将非遗融入国民教育体系,支持有条件的高校开展非遗相关专业和课程建设,这将进一步推动非遗领域的相关研究工作。

作为一门“活着”的艺术,非遗与人类生活密切相关,需要融入现代生活中,才能焕发出无穷的生命活力,不断对其进行宣传和报道是非遗保护和传承的重要方式。目前各类新闻媒体平台经过多年的宣传与报道,已经积累了海量非遗数字媒体资源。对于专家学者而言,非遗数字媒体资源反映的是纯粹的、时事型的非遗信息,是学术研究重要的基础性资源;对于普通用户而言,非遗数字媒体资源内容丰富、简单易懂,是了解和学习非遗知识的重要来源。有鉴于此,本文以非遗数字媒体资源为研究对象,尝试构建非遗数字媒体资源本体模型,以期用一种细粒度、结构化的方式将数字媒体、非遗活动、非遗人物与新闻资源进行关联化组织,具有一定的学术价值和应用价值。

1 非遗数字媒体资源概念界定与特点分析

目前学术界还没有关于非遗数字媒体资源概念的明确定义。本研究认为,非遗数字媒体资源是指以网络为传播载体,经职业新闻人或普通用户报告与评述,综合运用多种大众传播媒体对以非遗知识为主导的新闻信息进行传递和呈现。简言之,非遗数字媒体资源是基于新闻媒体平台发布的非遗数字资源总称,明显带有新闻性这一功能定位。

由于大众传媒环境的发展变化,传统新闻媒体的概念已然发生了很大变化,以微博、微信、抖音、快手等为代表的新媒体平台逐渐兴起。在非遗知识的传播与报道过程中,除报纸、广播和电视等传统传播媒介外,各种非遗社团、学会、协会与学校等机构/组织,抑或非遗传承人、非遗爱好者等借助微信、微博、抖音、视频号等新媒体平台生成了大量的非遗数字媒体资源,内容涵盖非遗的教学、培训、展览、讲座、社会实践以及学术交流等各个方面。

已生成的非遗数字媒体资源总量十分丰富,不仅是普通大众接触、了解与获取非遗相关知识的重要来源渠道,同时也是学术研究的重要基础性资源。然而,由于各类新媒体平台数字网络化特征显著,因此非遗数字媒体资源明显具有分布广泛、动态性强、非结构化、零散无序、内容重复等特点,迫切需要对非遗数字媒体资源进行科学的组织研究,以实现对非遗数字媒体资源的深度开发与利用。

2 非遗数字媒体资源组织与利用现状综述

在漫长的历史旅途中,非遗能够历经诸多劫难而不衰、不断吐故纳新,新闻媒体在其中的作用不可忽视[5]。自2003年以来,联合国教科文组织一直致力于挖掘促进非遗得以传承和保护的创新举措,他们发现并采用了一种全新方式,在YouTube上保存非遗的视频并将其制作成数字档案[6]。而Zhao等[7]在调研北京相声成功要素的实践中发现与微信、微博等媒体的合作关系是北京相声作为非遗得以传承和发展的关键因素之一。目前,有关非遗与媒体的探讨,尤其是非遗媒体资源的开发与利用已经成为学界研究热点。学者主要倾向于以媒体上与非遗相关的内容及其衍生的数据为支撑,探究媒体对于非遗保护的影响。Khalid等[8]通过对孟加拉国非遗的Facebook页面内容进行分析揭露了社交媒体在创建和传播非遗知识过程中所具有的空间作用;韩国学者以珍岛阿里郎民歌在大众传媒上的发展历程为侧重点,探讨了珍岛阿里郎普及的社会文化背景[9];吴祐昕等[5]借助媒体活跃度分析,揭示了媒体宣传强化和非遗项目关注度提升之间的紧密关系;赵路平等[10]则以关于37个世界级非遗项目的各种新闻报道为研究样本,利用传播“5W模式”阐述我国非遗传播存在的问题及可行的改进策略。

在知识组织领域,目前尚未见直接研究非遗数字媒体资源组织的文献,但对于普遍意义上的非遗信息资源的组织研究,包括对某一特定民族或地域的非遗信息资源的组织研究,为本文研究奠定了基础。滕春娥[11]、夏建军[12]等分别以赫哲族非遗资源和土家织锦非遗资源为研究对象,建立了相应的领域本体组织模型。Isa等[13]则以丁加奴铜器工艺(Terengganu brassware craftsmanship)为实例,模拟了传统工艺的领域知识。另外有一部分学者关注非遗信息资源的知识元素,计划揭示这些组成要素间的语义关系。首先对于核心要素而言,学者通过描述非遗信息资源的核心概念及概念之间的关系,得到一个通用的非遗本体库[14-15]。而考虑与非遗相关的社会文化元素,则需要创建一个可扩展的本体库。Kalita等[16]在对用户和特定领域需求调查的基础上,构建了一个保存印度传统舞蹈的知识库,能够满足不同使用意图的信息搜索需要。除此之外,学者也热衷于对多媒体类型(图片、视频、音频和3D动画)的非遗信息资源进行语义化组织尝试[17-18],如侯西龙等实现了非遗视频资源从片段到关键帧的细颗粒度本体模型构建。

综上所述,随着非遗保护和传播活动的进一步开展,产生数量巨大、形式多样且内容丰富的非遗数字媒体资源,但鲜有学者涉及非遗数字媒体资源组织研究。如何从非遗数字媒体资源本身特点出发,构建语义化组织模型,以深入挖掘其中蕴含的非遗知识,发现非遗信息传播与演化的规律,是值得探索的研究课题。

3 非遗数字媒体资源本体模型设计

3.1 设计理念和思路

书目描述框架(the Bibliographic Frame Work Initiative,BIBFRAME)作为一种新型书目数据格式标准,具有较好的开放性和包容性,对于资源类型的描述没有限制,在科研数据、电子资源、连续性资源以及文学作品上都显示了良好的语义映射效果[19-21]。2016年6月,BIBFRAME 2.0正式确立。相较于BIBFRAME 1.0,BIBFRAME 2.0的核心类更为精简,主要包括三大类:作品、实例和单件[22-23]。考虑到BIBFRAME 2.0模型的广泛适应性,本文拟在借鉴和发展BIBFRAME 2.0模型基础上,围绕非遗数字媒体资源的自身特点,构建非遗数字媒体资源本体模型。

结合BIBFRAME 2.0模型,对非遗数字媒体资源从内容特征、载体形式和获取方式三个层面进行分析,各层面具有以下特点。①内容层面,非遗数字媒体资源特征主要表现在两个方面:其一围绕非遗知识内容本身;其二具有新闻性,带有事件主导性。因此该层面需要深入揭示非遗传承人、非遗活动、发生地点与时间、非遗物品、非遗组织等相关信息,从而构建非遗数字媒体资源“作品”层面知识概念及其关系。②载体层面,非遗数字媒体资源不再依赖以文本、图片、视频等传统资源格式进行描述,可以考虑从微博、微信、抖音等数字媒体平台角度进行表达,以便于对非遗数字媒体传播方式与路径进行组织与挖掘,从而构建非遗数字媒体资源“实例”层面知识概念及其关系。③获取方式层面,非遗数字媒体资源不同于纸本资源,它以数字化形式存在于网络之中,因此需要清晰设计包括URI地址、媒体频道名称等在内的资源获取方式,以代替纸本资源的馆藏地和条形码等信息,从而构建非遗数字媒体资源“单件”层面知识概念及其关系。

3.2 模型核心类与属性关系构建

基于上述考虑,本文以BIBFRAME 2.0模型的“作品-实例-单件”为主轴,重点在“数字媒体-非遗活动-非遗人物-新闻资源”之间架起桥梁,构建非遗数字媒体资源本体模型,具体如图1所示。本文用矩形代表非遗数字媒体资源本体模型中的概念类,有向箭头代表属性,箭头的起止位置分别对应定义域和值域,椭圆形代表字符串。另外,将带有bf前缀、dc前缀的词分别标记为复用BIBFRAME 2.0词表和DC词表,带有dmr前缀的词表示为自定义词汇,本模型各层级详细核心概念类与属性关系设计如下文所述。

图1 非遗数字媒体资源本体模型中相关类、属性及其关系展示

3.2.1 对于“作品”层概念类的扩展与延伸

非遗数字媒体资源带有明显的新闻性,为反映这一特性,本文设计了新闻体裁概念类,原因在于新闻体裁是具有新闻特性的形象思维或逻辑思维的物化反映[24],是传播非遗信息与知识的直观表现形式。根据内容记述目的的不同,非遗新闻体裁概念类下又设计了新闻、言论、科普、广告这4个概念类。其中,新闻以报道非遗信息事实为主;言论主要阐述对于非遗事物的看法和见解;科普重在传授非遗知识、讲解非遗概念;广告在陈述非遗事实信息的同时,会为达到特定目的而带有一些推销性话语,涵盖与非遗相关的社会公益广告、社会服务公告等。

为帮助用户快速找到自己感兴趣的非遗新闻和确定非遗项目类别,本文设计了非遗新闻主题、非遗项目这两个概念类,以有效揭示非遗数字媒体资源的主题思想。其中非遗新闻主题对应的概念实例有非遗文化传承、非遗教育、非遗旅游、非遗产业建设、非遗鉴赏等;非遗项目对应的概念实例借鉴中国非物质文化遗产网给出的10大非遗类别,包括民间文学、传统音乐、传统舞蹈、传统戏剧、曲艺、传统体育、游艺与杂技等。

为进一步揭示非遗数字媒体资源的内容,本文特别设计了非遗活动、非遗人物、非遗组织和非遗产物这4个概念类。其中,非遗活动指在一定时间和地点发生的事件(如展览、课程、实践等),利用活动类型对象属性及活动开始日期、活动结束日期、活动地点、主办方/承办方等数据属性进行补充描述;非遗人物是与非遗相关的一切人物的抽象,包括非遗传承人、非遗学术专家、非遗学徒和非遗推广人这4种概念类,采用姓名、性别、出生年月、技能等数据属性进行描述;非遗组织指与非遗相关的团体或集体;非遗产物指与非遗相关的有形或无形的文创产品,包括窗花、云锦、空竹、陶艺作品、昆曲、民族歌谣等。

基于上述分析,本文对非遗数字媒体资源本体模型“作品”层概念类进行扩展和延伸,其中包含的相关概念、属性及其关系描述具体如图1(a)所示。

3.2.2 对于“实例”层概念类的扩展与延伸

媒体平台作为非遗数字媒体资源的物质载体,不仅承担着记录和出版非遗数字媒体资源的重要功能,而且能够深刻反映非遗数字媒体资源丰富多样的载体表现,本文设计了报纸、广播电视、微信公众号等9个概念类表达不同的媒体平台。

其中,报纸和广播电视是传统官方媒体平台的代表,主要指在新媒体环境下发展起来的相关新闻网站和新闻客户端;博客、微博、论坛等概念类主要是自媒体平台的代表,但也不乏官方媒体所设立的微信、微博等宣传客户端;短视频是近几年流行起来的自媒体平台,特别适合宣传报道贴近民众生活的非遗知识和技能,视频时长一般控制在5分钟以内,根据用户观看工具的不同,又可细分为快手、抖音、视频号等不同媒体平台。值得注意的是,门户网站指的是除官方媒体网站外通向某类综合性互联网信息资源的媒体平台,包括新浪、搜狐等网站平台;而资讯阅读App有别于微信公众号,主要指致力于满足用户资讯类信息个性化阅读的媒体平台。此外,除设计上述相关媒体平台概念类外,本文还设计了创建者、发布时间、语种、来源、贡献者等数据属性进行补充描述,特别设计了版本数据属性,描述相同非遗数字媒体资源出版在不同数字媒体平台上而构成的实例。

基于上述分析,本文对非遗数字媒体资源本体模型“实例”层概念类进行扩展与延伸,其中包含的相关概念、属性及其关系描述具体如图1(b)所示。

3.2.3 对于“单件”层概念类的扩展与延伸

非遗数字媒体资源借助网络以多样化的数字形式呈现,为准确描述非遗数字媒体资源的获取方式,本文设计了获取访问来源、官方网址、所在媒体栏目、所属公司名称、联系方式等一系列数据属性。其中,获取访问来源指可直接定位获取数字媒体资源的URI网址,标识了其在“单件”层上的唯一性;官方网址指获取访问来源的上层URI地址。基于此,本文对非遗数字媒体资源本体模型“单件”层概念类进行扩展与延伸,其中包含的相关概念、属性及其关系描述具体如图1(c)所示。

剪纸又称刻纸,是一种用刀具在纸上剪刻出花纹,以装饰和配合民俗活动的民间艺术。2009年中国剪纸被列入联合国教科文组织《人类非物质文化遗产代表作名录》,剪纸艺术成为我国极具世界影响力的传统文化之一,具有传承和保护的重要价值。其中,南京剪纸于2008年6月被列入第一批国家级非物质文化遗产扩展项目名录,因此本文选择南京剪纸作为实证研究对象。以慧科新闻搜索研究数据库为数据来源,以“南京剪纸”为检索词,筛选得到与南京剪纸相关的数字媒体资源共计1 461篇。

4.1 南京剪纸数字媒体资源知识图谱构建

本文应用Protégé软件工具将南京剪纸数字媒体数据转换为计算机可识别语言。首先自定义IRI为http://www.ICH_Digital_Media_Resource_Ontology.com,根据非遗数字媒体资源本体模型添加相关类和属性。其中,构建了Work、ICHProject、ICHProduct、ICHOrganization等8个一级类,并且在Work_types、Role、Instance大类下分设了不同数量的子类;在Object property选项卡中添加了如hasPerson、hasInstance、relatedTo等在内的37个关系属性;在Data proterty选项卡添加了birthday、gender、skill、language等在内的31个数据属性。

本文将采集到的1 461篇资源数据按照非遗数字媒体资源本体模型进行语义化表达,以CSV格式文件方式进行存储,并批量导入Protégé生成相应的OWL文件,形成南京剪纸数字媒体资源知识图谱,充实非遗领域的知识组织架构体系。在本文所构建的知识图谱中,包含南京剪纸相关作品345种、实例1 461篇、非遗活动103场、非遗组织29个、非遗人物43位、非遗产物139件、数字媒体平台216个。

4.2 南京剪纸数字媒体资源知识图谱的查询推理

Neo4j图数据库相比传统的关系型数据库具有更佳的数据分析处理能力,并且该数据库的查询语言Cypher提供了更加简便有效的查询表达方式,能够轻松获取概念间的语义路径,更好地处理数据中复杂的知识。因此,本文将南京剪纸数字媒体资源知识图谱OWL文件与Neo4j图数据库结构进行映射分析[25],通过neosemantics插件导入Neo4j图数据库进行存储,实现本研究知识图谱的C-path(x,y)路径检索、适用范围检索以及知识传播与演化推理等功能。

(1)C-path(x,y)路径检索。C-path(x,y)路径检索通过推导实体间的路径关系,探析实体间的联系。本文以查询“张方林”与“陈耀”之间的关联路径为例,通过构建查询语言“match p=(a:ICHPerson{name:'张方林'})-[*..2]-(b:ICHPerson{name:'陈耀'}) return p”得到查询结果。在本次查询中,发现张方林和陈耀之间没有直接联系,往往通过作品、非遗活动和非遗组织等建立关联。图2显示了他们之间的所有关联路径。

图2 “张方林”与“陈耀”路径图

(2)适用范围检索。借助适用范围检索方式探究符合某些条件的实体,能够实现基于个性化需求的检索。例如,查询与“张方林”拥有社会关系和所属关系的全部个人和组织的情况,具体见图3。可以发现,张方林师承其舅舅马连喜,与父亲张吉根、儿子张钧、妹妹张林娣、侄女张滢同属于有着“金陵神剪张”之称的张氏剪纸流派家族,并且同其家族成员参与到了中国民间文学艺术家协会、金陵神剪张剪纸传习所等多个组织中,积极传播和教授南京剪纸技艺。

图3 适用范围检索图

(3)知识传播与演化推理。利用Cypher语句,查询2021年4月15日开展的相关活动,得到startDate属性值为“2021/4/15”的3个非遗活动实例,分别为“中国馆‘非遗江苏’轮展区南京专场”“世园会南京城市主题周”“2021扬州世园会‘非遗江苏’轮展区-南京专场”,见图4。通过分析与之关联的新闻报道名称、非遗活动的类型、地点、开始日期与结束日期等信息,可以推理得到这3个非遗活动是某一非遗活动通过不同新闻报道而形成的3种不同说法而已,它们具有等同关系,实际上是同一种非遗活动。活动前期,相关新闻报道以广告体裁为主,多带有呼吁人们参与其中的性质;活动后期,则更多进行活动总结和回顾报道。这一变化揭示了非遗媒体信息随着时间的推移而转变其传播重点的特征。

图4 知识传播与演化推理图

5 结语

本文以非遗数字媒体资源作为研究对象,构建了非遗数字媒体资源本体模型,并以南京剪纸作为实证对象,利用Protégé本体软件和Neo4j图数据库进行了非遗数字媒体资源语义化组织实验研究,最终实现非遗数字媒体资源的知识发现。囿于研究时间与精力,本文所采集的实验数据量有限,但本文提出的非遗数字媒体资源本体模型可为后续研究提供借鉴,不足之处在于,非遗数字媒体资源知识图谱构建过程中人工参与较多。今后,本文将进一步系统采集非遗数字媒体资源,丰富非遗数字媒体资源知识图谱,并积极探索自动化知识图谱构建方法,搭建面向非遗数字媒体资源领域的智能服务平台,更好地支持该领域的语义查询、知识推理与传播轨迹研究等智能知识服务。

猜你喜欢
本体剪纸概念
Birdie Cup Coffee丰盛里概念店
眼睛是“本体”
剪纸
幾樣概念店
学习集合概念『四步走』
基于本体的机械产品工艺知识表示
深入概念,活学活用
剪纸
剪纸
专题