念其锋,李立耀,赵少卡,吴红霞
(福建技术师范学院a.大数据与人工智能学院;b.非遗数字化与多源信息融合福建省高校工程研究中心,福建福清 350300)
非物质文化遗产(intangible cultural heritage,以下简称“非遗”,ICH)是国家和民族的宝贵文化财富,彰显了民族文化和历史底蕴,必须通过现代化技术和管理手段加以永久保护,使其源远流长.自20 世纪90 年代初起,随着互联网、虚拟现实、人工智能、大数据等数字化技术的高速发展,运用数字化技术手段来保护非遗越来越受到世界各国重视,数字化技术已成为非遗保护的重要途径,非遗数字化是非遗保护研究领域的热点之一[1].非遗数字化包括数据采集与处理、数据存储、数据展示与应用等技术层面.近年来,无论研究深度还是研究广度,相关理论和技术都得到快速发展,获得大量研究成果[1-10].数据存储技术和方法是非遗数字化保护的基础,如何高效组织和管理大量的非遗数据,成为非遗数字化保护向非遗智能化保护演化的技术瓶颈之一.目前,国内外相关非遗机构大多采用传统的关系型数据库技术,大多根据自身特定需求而相继建立特色鲜明、独立运营的非遗数据库及其应用系统.但是,这些非遗数据库之间明显存在数据异构、兼容性差等缺陷,形成“数据孤岛”而无法实现数据共享与融合,限制了非遗数字化保护的进一步发展.
每一项非物质文化遗产都有自身的生命轨迹,在不同的时间空间内持续演化,具有明显的动态性.因此,活态性是非遗的一个重要特征,体现了非遗项目的传承和演变情况,必须成为非遗数字化保护所体现的重要内涵.在非遗数据的采集、存储和应用过程中,产生大量具有活态性的显性非遗数据,同时蕴含许多深层次的非遗隐性知识.借助知识建模理论、方法和工具进行非遗知识建模,使非遗知识体系具备可理解性、完备性、可推理性和可解释性,从而构建非遗知识库,为非遗数字化和智能化保护奠定基础.
本体是语义网的核心技术,是对客观世界进行明确的形式化和概念化描述,已广泛应用于人工智能领域.由于在表示非遗概念、非遗属性及它们之间深层次关系具有明显优势,国内外许多专家学者利用本体技术对非遗领域知识建模,取得了一系列研究成果[2-11].滕春娥等以黑龙江地区赫哲族为例,构建了非遗知识组织体系,包括确定概念、建立模型和软件建模三个阶段[2].侯西龙等在非遗领域知识要素和语义关系分析基础上,构建了非遗知识本体模型,并以湖北省非遗项目为例,开发了非遗知识关联数据集与知识服务平台[3].魏清华等在关联数据技术基础上,以甘肃省国家级非遗为例,构建甘肃省非遗知识库[4].何春雨等采用本体和关联数据技术,以赫哲族非遗资源为例,构建非物质文化遗产资源本体库[5].同样地,本体工程技术在其它领域知识建模方面也得到了广泛应用,构建了诸多领域本体[12-16].已有研究成果对非遗知识管理具有重要的应用和参考价值.本文从知识模型的系统性、规范性等层面出发,运用本体七元组形式对非遗领域知识进行建模,提高本体质量.同时,提出了概念冲突检测算法,有效解决了本体中概念之间继承关系不一致问题,有效提升非遗知识推理效率.通过构建非物质文化遗产领域知识的本体模型,提高了非遗领域知识的共享性和非遗智能化应用前景,对推动非遗数字化保护具有重要意义.
本体技术已经在不同领域中得到广泛应用,但不同领域本体的构建过程和方法存在较大差异,甚至同一领域本体的构建方法也不一样,目前还没有形成一种标准的本体构建方法.然而,本体构建是一个系统性工程,高质量的领域本体需要建立在科学的构建准则和构建步骤基础上.
Gruber[17]在给出本体定义的同时,提出了一种本体构建原则已被广泛采纳和应用,是目前最有影响力的本体构建准则,包括明确性(clarity)、一致性(coherence)、可扩展性(extendibility)、最小编码偏差(minimal encoding bias)、 最 小 本 体 承 诺(minimal ontological commitment).在此构建准则的基础上,非遗领域本体可以对非遗领域知识进行形式化表示,可以明确地定义非遗领域中的概念、属性、关系等,是可重用的和可共享的领域本体.
目前,本体构建方法主要有七步法、骨架法、TOVE 法、METHONLOGY 法、KACTUS 法、IDEF5 法等,其中,七步法是应用较为广泛的一种本体构建方法,其构建步骤如图1 所示.在分析本体构建方法和非遗领域知识表示特性的基础上,以七步法为基础,结合自顶向下的本体开发与建模方法,建立了非遗领域本体知识模型的构建流程,如图2 所示.
图1 本体构建步骤
图2 非遗本体构建流程
在文化遗产知识建模研究领域内,CIDOC概念参考模型(CIDOC conceptual reference model,CIDOC CRM)[18]是一个兼具理论和实践的信息融合工具,对构建非遗领域本体具有非常重要的参考价值,对本文ICH-Onto 的概念、关系、属性的建立也具有借鉴意义.同时,《中华人民共和国非物质文化遗产法》、中国非物质文化遗产网、各省市地区非物质文化遗产网,以及文献图书资料都是构建ICH-Onto的信息源,其中包含了海量的非遗知识.因此,系统分析了非遗领域知识,充分挖掘非遗知识的组成因素,通过非遗项目、非遗继承人、非遗项目类型、非遗项目申报时间、申报单位、申报地区等方面描述非遗知识,从而得到非遗本体术语.
为了提高基于本体的非遗领域知识模型的系统性和完备性,便于构建非物质文化遗产知识模型,根据非遗知识的特点,本文对非遗领域知识本体ICH-Onto 进行形式化定义.
定义1ICH-Onto =〈C,AC,R,AR,H,I,X〉
其中,C是非遗领域本体中的概念(concepts)集合或类(classes)集合(以下统称为概念),例如:非遗项目、传承人、保护单位等;AC是概念的属性(attributes)集合,例如:一个非遗项目具有名称和类别等属性;R是概念间的关系(relations)集合,概念间关系包括定义域和值域两个部分,而定义域通常为概念,值域可以为概念也可以是取值域,例如:部分和整体的part of 关系;AR是关系属性集合,是对关系的进一步限制,例如:非遗项目的类别关系只能取《中华人民共和国非物质文化遗产法》所规定的各种传统文化表现形式,以及与其相关的实物和场所;H表示层次(hierarchies)的集合,通常定义在概念、关系、属性上,表示对象之间的层次关系,例如:概念A 是概念B 的父类,概念B 是概念A 的子类;I表示实例(instances)的集合,实例具有唯一性;X表示公理(axioms)的集合,每一条公理代表一个断言(assertion),例如:传承人继承(inheritOf)和非遗被继承(inheritedBy)是互逆关系,传统戏曲类与传统医药是不相交的,等等.
定义2存 在 概 念Ci和 概 念Cj, 若Ci≤Cj,则称Ci为子类,Cj为父类,即Ci继承于Cj,记为subclassOf(Ci,Cj)或is_A(Ci,Cj).
定义3若概念Ci和概念Cj互为子类,即subclassOf(Ci,Cj)和subclassOf(Cj,Ci)均成立,那么称概念Ci和概念Cj存在等价关系,记为equivalentTo(Ci,Cj).
定义4若存在任意两个实例x∈Ci和y∈Cj,如果x和y均不相同,即{Ax∈Ci,Ay∈Cj|x≠y},那么称概念Ci和概念Cj是不相交的,记为disjointWith(Ci,Cj).
定义5如果x是概念C的实例,记为instanceOf(x,C).
在系统分析非遗领域相关文件、借鉴非遗知识表示方法等基础上,根据本体术语和ICH-Onto 本体的定义,ICH-Onto 本体从概念、概念属性、关系、关系属性、概念层次、实例、公理等七个方面来构建.
2.2.1 ICH-Onto 的概念及其层次关系
为充分地对非遗知识进行系统性表示,在借鉴其它文献和咨询非遗专家基础上,非遗领域本体ICH-Onto 的概念定义如下.
定义6ICH-Onto Classes = {Project, Person,Organization, Region, Category, Matter, Event,Document}
其中,Project 指非物质文化遗产项目,可以是国家级非遗代表性项目名录项,亦可以为各省、自治区、直辖市人民政府建立的地方非遗代表性项目名录项;Person 是指非遗代表性项目的代表性传承人;Organization 是指非遗代表性项目的保护单位;Region 是指非遗代表性项目的申报地区或单位;Category 是指非遗代表性项目的类别;Matter 是指与非遗代表性项目相关的事物,如图片、视频、实物等;Event 是指与非遗代表性项目相关的事件或活动等;Document 是指与非遗代表性项目有关的文献资料.
ICH-Onto 本体主要由非遗项目、传承人、保护单位、所属地区、项目类别、项目事物、项目事件、项目文献等核心概念组成,核心概念及其属性如表1 所示.
表1 ICH-Onto 核心概念及其属性
概念间层次关系用来描述本体概念与概念之间的层次关系,ICH-Onto 本体中主要包含了3种概念间层次关系:子类关系subclassOf、等价关系equivalentTo、不相交关系disjiontWith.
2.2.2 ICH-Onto 对象属性及其限制
属性分为数据属性(Data properties)和对象属性(Object properties).其中,对象属性用于描述概念之间的关系,其定义域和值域均为概念,例如:对象属性inheritedBy 的定义域(Domains)为非遗项目概念,值域(Ranges)为传承人.对象属性包含功能性(Functional)、反向功能性(Inverse functional)、传递性(Transitive)、对称性(Symmetric)、非对称性(Asymmetric)、自反性(Reflexive)和非自反性(Irreflexive)等特性,其使用方法如表2 所示.
表2 对象属性的特性
续表2
当定义域为概念,值域为取值域时,该关系属性就变为数据属性,用于描述对象与数据类型之间的关联值.例如:对象属性hasName的定义域可以为传承人或非遗项目,值域为传承人姓名或非遗项目名称,数据类型为字符串string.图3 给出了非遗领域本体ICH-Onto 主要的对象属性和数据属性.
图3 ICH-Onto 本体的主要对象属性和数据属性
2.2.3 ICH-Onto 公理
在本体工程中,公理代表一系列的事实、约束条件和推理规则.ICH-Onto 中定义的公理用于约束概念间、概念属性间的关系,有概念间的等价关系、概念间的子类关系、概念间的不相交关系、概念属性间的传递(transitive)、对称(symmetric)、非对称(asymmetric)等关系.例如,高甲戏是闽南地方戏曲剧种之一,又名戈甲戏、九角戏、大班、土班.高甲戏就是一种概念的存在公理,表示概念通过其名字唯一确定;另外,高甲戏是闽南地方戏曲的子类,构成子类关系公理;高甲戏又名戈甲戏,说明高甲戏和戈甲戏是等价关系公理.
2.2.4 ICH-Onto 本体概念冲突检测算法
在构建非遗领域本体ICH-Onto 中,定义了数量较多的概念,概念与概念之间的关系较为复杂,可能会出现概念间冲突情况.例如,存在Ca⊆Cb,Cb⊆Cc而disjoinWith(Ca,Cc),这是一种概念间关系冲突情况.再有,存在Ca⊆Cb,Cb⊆Cc,Cc⊆Ca这也是一种明显的概念间关系冲突错误.
随着ICH-Onto 的扩展,这种概念间冲突存在的可能性将会明显增加.因此,为了提高非遗领域本体ICH-Onto 的正确性和健壮性,需要消除本体概念间问题冲突.本文运用描述逻辑语言提出了本体概念间冲突检测算法,具体过程如下.
(2)将ICH-Onto 每个概念Ci看成顶点vi,两个概念之间继承关系构成有向边ei,则G=(V,E)是一个有n个顶点的有向图,其邻接矩阵的定义如下:
(3)定义一个表示概念间关系的不相交的二维矩阵Disjoint[i][j],如下:
(4)任取Disjoint[i][j]=1 的两个顶点vi和vj,分别从vi和vj出发,利用深度优先搜索算法DFS,查询从顶点vi到顶点vj的路径.如果找到一条有向连通路径,说明本体中存在概念间关系冲突现象,跳到步骤(6),否则,继续查找下一对顶点,直到Disjoint[i][j]=1 的所有顶点对都搜索完毕.
(5)运用广度优先搜索算法BFS,查找图G中是否存在闭环.如果存在闭环,表明本体中存在概念间关系冲突现象,则跳到步骤(6).
(6)算法结束.
在非遗领域知识建模的准则基础上,深入分析非遗领域知识体系,运用主流的本体开发语言OWL(Web Ontology Language),定义非遗本体的概念、关系、属性、层次、公理,并进行实例化,从而构建了非遗领域知识本体ICH-Onto,收集整理了福建省国家级非物质文化遗产代表性项目数据,部分数据如表3 所示.借助Protégé 5.5.0 本体软件构建和实现了非遗领域本体ICH-Onto,图4 显示ICH-Onto的部分本体模型.
图4 非物质文化领域本体模型
表3 福建省国家级非遗项目(部分)
数字化技术手段是非物质文化遗产保护的重要途经,而非遗知识建模进一步提升了非遗数字化保护技术内涵,使非遗领域数据具有语义内涵,对非遗保护和智能化应用具有非常重要的意义.本文在系统分析非遗领域数据管理和数据应用现状的基础上,采用七步法构建了非遗领域本体ICH-Onto,该本体能够系统全面地展示非遗概念和非遗概念间关系,具有完整性和完备性.本文提出了基于有向图的本体概念间关系冲突检测算法,能够有效地检测概念间关系冲突,提高了本体质量,为本体的进一步扩展和应用奠定坚实基础.以福建省国家级非遗项目为例,对非遗领域本体ICH-Onto进行实例化,结果进一步表明ICH-Onto 的应用价值和可操作性.虽然采用本体技术对非遗领域进行知识建模,提高了非遗领域知识共享和应用前景,但由于国内外本体建模方法尚未形成统一标准,人工构建本体方法工程量大且效率不高,自动化或半自动化构建本体方法将成为重要的发展趋势.因此,构建非遗领域本体的意义不仅在于建立一个可共享的知识库,更是未来智能服务和智能应用的必然基础,也将为非物质文化遗产数字化、智能化保护提供数据和知识支撑.