廖开明 施晓圆 王建刚
甘肃开放大学
随着数字技术的发展,知识图谱已经成为文化遗产数字化保护的重要手段之一。知识图谱是一种用于表示和存储知识的图形化模型,可以将文化遗产的相关信息进行整合和归纳,为文化遗产的保护和传承提供有力的支持。甘南地处青藏高原,是中国重要的藏族文化区域之一,具有丰富多彩的非遗。甘南藏族非遗的数字化构建可以帮助我们更好地理解和研究甘南藏族非遗的内涵和外延,为保护和传承甘南藏族非遗提供有力的支持。
本文旨在探索甘南藏族非遗知识图谱数字化构建的方法和技术,通过实践探索,总结出适合甘南藏族非遗文化的数字化构建模式和经验,为甘南藏族非遗的保护和传承提供有力的支持。
本研究主要包括以下内容:
1.甘南藏族非遗知识图谱数据的获取方法和技术。
2.甘南藏族非遗知识图谱中实体的识别方法和技术。
3.甘南藏族非遗知识图谱中知识的表示方法和技术。
4.甘南藏族非遗知识图谱的存储架构和技术。
5.甘南藏族非遗知识图谱数字化构建的应用与发展。
为了更好地保护、传承和利用甘南藏族非遗,提高其价值和影响力,采用知识图谱技术进行数字化构建是一种重要的方法。下面将探讨甘南藏族非遗知识图谱的数字化构建方法,包括数据获取、实体识别、关系抽取、知识表示、存储架构、数字化构建的应用与发展等方面的内容。
1.数据来源
(1)文献资料:通过查阅相关文献和资料,了解甘南藏族非遗的历史、发展、分类、特点等基本信息。以“甘南藏族”“非物质文化遗产”“知识图谱”为关键词在CNKI 数据库中共交叉检索出相关文献88 篇。从甘南州文化馆、甘南州图书馆等收集相关图书资料12 本,各类文件、资料156 页。
(2)田野调查:通过实地走访和观察,收集第一手资料,了解甘南藏族非遗在现实生活中的表现、传承方式、使用场景等信息。发放问卷80 份,收回78 份。专家访谈21 人。
(3)传承人口述:通过采访甘南藏族非遗的传承人,了解非遗的制作工艺、传承方式、历史渊源等信息。走访国家级非遗传承人13 人,收集文字资料120 页。
(4)数字化技术:在文献查询、田野调查和传承人走访的基础上,通过数字化技术手段,将甘南藏族非遗的文字、图片、视频等数据进行采集和处理,形成数字化资源库,便于后续的数据分析和知识图谱构建。
(5)社交媒体和网络资源:通过社交媒体和网络资源,获取甘南藏族非遗的相关信息,包括传承人的动态、非遗项目的相关新闻和事件等。
2.数据获取方法
(1)数据采集:通过田野调查、传承人口述、文献资料、数字化技术、社交媒体和网络资源等多种渠道,收集与甘南藏族非遗有关的数据。
(2)数据清洗和处理:对采集到的数据进行清洗和处理,去除重复、无效、错误的数据,确保数据的准确性和完整性。
(3)知识抽取:从清洗和处理后的数据中提取有用的信息,包括非遗项目的名称、分类、特点、历史渊源、传承方式、使用场景等,以及传承人的基本信息、动态等。
(4)知识表示和学习:利用知识表示和学习算法,将抽取出的知识转化为计算机可理解的形式,构建甘南藏族非遗知识图谱。
(5)知识存储和查询:将构建好的知识图谱存储在数据库中,并设计相应的查询接口,方便用户进行查询和使用。
(6)知识更新和维护:定期对知识图谱进行更新和维护,以保证其准确性和完整性。
实体识别是知识图谱构建的第一步,其目的是从文本数据中识别出相关实体,包括名称、简介、特点、传承人、非遗级别、类别、内容、地点、时间、保护措施等。针对甘南藏族非遗的实体识别,可以采用基于规则和机器学习的方法。
1.基于规则的实体识别
基于规则的实体识别方法是指通过一些预先定义的规则来识别文本中的实体。通过人工阅读文本资料,确定出关键词和实体的上下文特征,再根据这些特征定义规则,最后使用规则匹配的方式进行实体识别。这种方法的优点是可以快速、准确地识别实体,但其缺点是需要耗费大量人力来定义规则,而且对于不同的领域、不同的语言,规则也需要有不同的定义。
2.基于机器学习的实体识别
基于机器学习的实体识别方法是利用已有的标注数据进行训练,得到实体识别模型,再用该模型对新的文本数据进行实体识别。这种方法的优点在于可以自动学习特征,不需要专业人员进行规则的定义和维护。对于甘南藏族非遗采用超星知识图谱工具进行实体的识别与抽取。实体主要包含五种要素:类别、属性、函数、关系、实例。
在本文中,我们采用基于正则表达式的方式来定义实体识别规则。正则表达式是一种用来描述字符串模式的语言,可以更方便地匹配文本中的实体。我们根据甘南藏族非遗相关文本的特点,定义了一系列正则表达式规则,如下所示:
文化遗产项目:我们使用了包含“传统技艺”“传统工艺”“传统文化”“非物质文化遗产”等关键词的正则表达式,来识别文化遗产项目实体。
传承人:我们使用了包含“传承人”“传承者”等关键词的正则表达式,来识别传承人实体。
应用Spacy 自然语言模型,识别自然语句,将所得到的文本进行实体识别,下面以甘南唐卡片段为例:
首先加载Spacy 模型,定义抽取函数,定义测试文本为“甘南藏族非遗包括唐卡、藏戏、泥塑等项目。其中,甘南唐卡是具有代表性的艺术品之一。甘南唐卡通常由天然颜料绘制,如矿物颜料和植物颜料。甘南唐卡在绘制工艺上具有的特点,如色彩鲜艳、图案精美等”。调用抽取函数,获取实体知识点。
运行程序,输出结果:' 甘南藏族非遗',' 唐卡','藏戏', '泥塑', '甘南唐卡', '矿物颜料', '植物颜料'。
关系抽取是知识图谱构建的关键步骤之一,其目的是从文本数据中抽取实体之间的关系,包括层次关系、属性关系和实体关系等。针对甘南藏族非遗的关系抽取,可以采用基于规则和基于机器学习的方法。
1.基于规则的关系抽取
基于规则的关系抽取方法是利用一系列人工定义的规则来抽取实体之间的关系。这种方法的优点在于准确率高,需要专业人员进行规则的定义和维护。
2.实体属性定义和关系建立
在实体属性定义方面,需要对每个实体进行属性的定义,包括实体的名称、简介、传承人、地点、时间、特点、保护措施等属性。这些属性可以根据实际情况进行调整和修改。
在关系建立方面,需要定义不同实体之间的关系,以便形成知识图谱的结构。
以下代码在描述概念与概念之间、关系与关系之间用到了散点图的方式。在知识图谱中,概念和关系是知识图谱的核心元素。概念通常代表一个实体,而关系则描述了这些实体之间的关系。首先定义了一些概念(concepts),然后定义了一些关系(relationships)。这些关系是连接两个概念之间的关系。
例如,在relationships 中定义了('甘南藏族非遗','唐卡'),这意味着甘南藏族非遗和唐卡之间存在某种关系。在知识图谱中,这种关系可以是父子关系、兄弟关系、同类型关系等,具体的关系需要根据实际情况来确定。然后,这段代码使用matplotlib 库绘制了一个散点图,表示了x 和y 之间的关系。在知识图谱中,这种散点图可以用来表示概念之间的关系。例如,如果x 和y 分别代表两个概念,那么散点图上的点就表示这两个概念之间的关系。
最后,这段代码还使用了matplotlib 库的xlabel,ylabel,title 等函数来为图形添加标签和标题。这些标签和标题可以帮助用户更好地理解图形所表达的含义。本代码在描述概念与概念之间、关系与关系之间用到了散点图的方式,这有助于更好地理解知识图谱中的概念和关系。
我们定义概念和关系。定义概念为(concepts)= '甘南藏族非遗', '唐卡', '藏戏', '泥塑', '甘南唐卡', '矿物颜料','植物颜料'。得到关系('甘南藏族非遗', '唐卡'),('甘南藏族非遗', '藏戏'),('甘南藏族非遗', '泥塑'),('唐卡', '矿物颜料'),('唐卡','植物颜料'),('藏戏', '甘南唐卡'),('泥塑', '甘南唐卡')。
根据上述描述,以唐卡为实体节点,经过数据清洗后,可以建立以下实体间的关系:
唐卡—绘画艺术:唐卡是一种绘画艺术,因此它与绘画艺术之间存在一种类型关系。
唐卡—天然颜料:唐卡通常由天然颜料绘制而成,因此它与天然颜料之间存在一种使用关系。
唐卡—矿物颜料:唐卡使用的颜料包括矿物颜料,因此它与矿物颜料之间存在一种包含关系。
唐卡—植物颜料:唐卡使用的颜料还包括植物颜料,因此它与植物颜料之间也存在一种包含关系。
唐卡—甘南藏族文化:唐卡是甘南藏族文化的重要组成部分,因此它与甘南藏族文化之间存在一种文化关系。
唐卡—非遗:唐卡是非遗的重要代表之一,因此它与非遗之间存在一种代表关系。
知识图谱可视化展示是将知识图谱以图形的形式展示出来,方便用户进行直观的浏览和查询。在甘南藏族非遗知识图谱的可视化展示方面,采用万方知识图谱工具,通过调整节点大小、颜色、标签等方式,呈现出直观美观的知识图谱。
本文通过构建甘南藏族非物质文化遗产知识图谱,探索了非遗数字化构建的方法和技术,并分析了在数字化构建中所面临的问题和挑战。通过本文的研究,我们得出了以下结论:
1.知识图谱构建是非遗数字化构建的有效方法。通过知识图谱的构建,可以将非遗多样化、复杂化的知识和文化信息进行有效的整合和管理,为非遗传承、保护和传播提供了新的思路和方法。
2.甘南藏族非遗具有丰富多样的文化内涵和历史价值。通过知识图谱的构建,可以更好地展示和传承这些文化遗产的内涵和价值,促进其保护和传承。
3.知识图谱构建过程中需要克服的问题和挑战包括数据来源、实体识别、关系抽取、知识表示和知识存储等方面。未来需要通过更加先进的技术手段来解决这些问题,实现知识图谱构建的高效性和可靠性。
基于以上结论,未来可从以下几个方面展开研究:
1.加强非物质文化遗产数字化保护和传承的研究。未来可以通过更加先进的技术手段来实现非物质文化遗产数字化保护和传承,以更好地推动非遗的传承和发展。
2.探索知识图谱在其他领域的应用。知识图谱不仅可以用于非遗数字化构建,还可以用于其他领域的知识管理和应用。未来可以通过跨学科的研究,推动知识图谱在更多领域的应用。
3.加强对非遗数字化构建相关问题的研究。未来需要进一步研究非遗数字化构建过程中所面临的问题和挑战,并探索解决这些问题的方法和技术,以更好地推动非遗数字化构建的发展。
本文的研究为甘南藏族非遗数字化构建提供了一定的思路和方法,但也存在一些局限性。未来需要更多的学者投身于非遗数字化构建的研究中,不断拓展研究领域,探索更加有效的研究方法和技术,为非遗的保护和传承贡献力量。