本文系广西民族文化保护与传承研究中心开放课题“数字人文背景下的铜鼓数字资源组织构建研究”(2021KFYB01)研究成果之一。
收稿日期:2024-03-20
摘 要:
铜鼓作为古代文化遗产的重要组成部分,其资源的语义表达形式需要向知识细粒度化、知识集成、知识可视化方向拓展,并充分利用强大的文献资源作为其知识体系的重要支撑。本研究以铜鼓史料文献为研究对象,利用知识元提取和可视化图谱技术,探索表层视觉元素与内在知识的关联、铜鼓文献知识元组织模型的构建,以及时空属性向量可视化等问题,提出数据融合的铜鼓知识平台应由至少4个基础数据库组合而成,并展望其下一步探索路径。
关键词:
铜鼓;知识元;细粒度;时空向量;数据融合
中图分类号:G250.7 文献标识码:A 文章编号:1003-7136(2024)04-0023-09
Research on the Fine-grained Knowledge Elements of Historical Documents in the Organizing of Timbal Resources
QIN Xi
Abstract:
Timbal, as an important component of ancient cultural heritage, needs to expand its semantic expression into knowledge fine-grained, knowledge integration and knowledge visualization, and fully utilize the powerful document resources to support its knowledge hierarchy.This paper takes the historical documents of timbal as the research object, uses technologies of knowledge element extraction and visualized map, and explores the correlation between surface visual elements and internal knowledge, the construction of knowledge element organization model of timbal documents, and the visualization of vectors with spatio-temporal attributes.It is proposed that the timbal knowledge platform of data fusion should consist of four fundamental databases at least, and prospecting its next pathway of exploration.
Keywords:
timbal; knowledge element; fine-grained; spatio-temporal vector; data fusion
0 引言
铜鼓是我国古代西南地区具有少数民族代表性的历史遗物,也是我国古代文化遗产的重要组成部分,为少数民族文化研究提供重要的信息价值。铜鼓资源组织建设目前常见的形式是以铜鼓类型、代表性实物图片、实物属性、现代研究文献为数据元的数据库为主。“让文物活起来”,并不是简单地在器物展示上由平面变立体、静态变动态,其背后应该有一个知识体系[1]。作为考古和历史研究的对象,铜鼓的史料文献应作为参考文献及研究对象进入资源组织建设范畴,但由于其具备古籍特殊的语法结构和语言特点、特定的时间空间属性、人物及事件属性等方面的处理特征,现代文献的知识元提取技术很难直接运用于史料研究,铜鼓资源组织将古文献纳入建设体系就显得尤为困难。
随着可视化技术在资源揭示与挖掘方面的广泛运用,学者和大众对铜鼓资源的需求向知识细粒度化、知识集成、知识可视化方向拓展,对史料文献的需求表现为更丰富的语义描述与知识关联。他们关注的不仅是铜鼓本身的特征和属性,还强调围绕文物资源的领域背景知识展开,关注与其相关的空间、地理、事件、人物等信息以及随着时间变化的发展规律[2]。因此,建立合理的时空数据可视化的史料文献细粒度知识组织模型,提供数字信息阅读方案,是推动铜鼓研究和知识管理的有效路径。
1 相关研究
1.1 铜鼓信息资源相关研究
铜鼓资源建设方面,广西民族博物馆构建了目前最齐全的铜鼓数据库[3],以图片和文字为知识元作储存和展示,以关键词方法对器物进行描述。为了构建世界上最完备的铜鼓专业数据平台,广西民族博物馆还对馆藏铜鼓进行数据采集和数字化保护,获取高精度几何信息、纹理信息、色彩信息,实现文物本体客观、完整的信息数字化存档,并制作铜鼓高精度三维模型、高精度影像、线划图、展开图等。
在信息组织方面,单独面向铜鼓的知识组织体系相对缺乏,但文物知识组织方法是相通的。学者们研究构建不同类型的馆藏文物知识体系,主要从文物作为知识本体方面展开。如从中、细粒度层面设计文物知识组织方法,对“后母戊”青铜方鼎进行实例研究[4];针对文物图像资源建立基于知识元构造的细粒度知识表示模型[5],以及基于关联数据的文物资源知识关联模型[6];对比不同元数据架构的特征,选择出最佳的架构方式,并提出文物信息资源元数据应用策略[7];结合国际上数字博物馆领域成熟的元数据,对“文物馆藏信息指标体系规范”进行修改完善[8]。在国外,斯里兰卡4个博物馆2600多个资源记录,通过映射到盖蒂《艺术与建筑叙词表》(AAT),实现了博物馆词汇之间的资源元数据交叉描述[9]。
1.2 史料文献细粒度知识元相关研究
数字人文作为人文学科的一种研究新范式正在古籍研究领域蓬勃发展,由此催生出的文本远读、统计、分析等数字人文工具也层出不穷。史料的文本标注方法上,有基于古籍半自动标记平台MARKUS的文本标注模型[10];文本分类摘要方面有SikuBERT和SikuRoBERTa预训练模型[11-12]。
古籍文献的标引和知识元提取在中医研究领域的运用相对广泛,有学者基于病名、病因、辨证、疗法、方剂、预后等30多个知识元进行标引,为中医知识可视化提供了大量的史料基础[13],多数采用元数据或是本体方法[14]。史料元数据知识组织的研究主要集中在三个方面:提取时空数据和特定属性数据、建设开放性的时间词表和地名词表及其转换工具、设计时空数据模型[15]。
2024年第4期总第260期
覃熙:铜鼓资源组织中的史料文献细粒度知识元研究
从史料中提取出描述知识的元数据之后,我们发现仍然难以描述知识之间的复杂关系。知识本体可以描述信息之间的概念关系,但无法建立知识与资源实体间的关联,并且大多数研究仍在理论阶段,尚未运用于实际的知识服务。
1.3 数据融合的知识组织相关研究
知识组织强调大规模、多种类、跨学科、粒度不一、结构不同的知识互支持、互操作,强调知识建模和表示方式的统一。以用户需求为导向,数字图书馆多粒度集成知识服务模式已展开,基于显性、隐性知识链接的多粒度知识集合集成方法,通过知识元抽取、标引和链接的方法,满足用户的知识需求,构建“需求—知识—资源”映射[16]。数据标准方面,国际文献工作委员会(CIDOC)开发的基于本体的数据模型CIDOC CRM成为国际标准化组织(ISO)的推荐标准[17],它提供了一个通用并且可以扩展的语义框架,适用于任何文化遗产的信息描述,并定义了各类实体、属性,形成通用的属性词表[18]。国际图联发布的业内标准《图书馆参考模型》,是一个元数据高层框架,集合了书目记录功能需求模型FRBR、规范数据功能需求模型FRAD、主题规范数据功能需求模型FRSAD,旨在应用关联数据环境[19]。知识组织方面,本体匹配技术被广泛运用,通过融合规则与算法得到新知识的关联数据知识融合模型[20]。美术馆、图书馆、档案馆、博物馆等文化记忆机构(以下简称:GLAM)领域都经历了知识组织方法发展的三个阶段:分类主题法、元数据方法、本体方法[21]。概念与规则方面,赵蓉英等论述了馆藏资源聚合的四个层次:实体文献整理、数据集成、信息整合和知识聚合[22]。李亚婷对知识聚合、融合、整合作了概念辨析,并将不同粒度的聚合对象(文献、数据、信息、知识本体)囊括为知识聚合[23]。
综合以上现状,现有的铜鼓资源平台构建方式普遍采用空间表述的策略,侧重于资源表层视觉特征的知识表示,缺少资源内部特征的语义描述,以及铜鼓研究背后整个知识体系的深度结合;细粒度知识元提取以及数据融合的知识组织研究虽已有理论体系,但未能进入到具体的铜鼓资源建设实战中。因此,有必要解决表层视觉元素与内在知识体系之间的“语义鸿沟”现象,通过在史料文献与铜鼓实物之间建立一致性的细粒度数据融合,实现表层视觉特征与知识体系的有效关联和映射,为铜鼓资源引入具有知识背景的时空结合的表述策略,从而进一步完善铜鼓资源组织的建设。
2 基于文献细粒度知识元的铜鼓资源组织表示过程
2.1 铜鼓文献数据源及知识组织模型
关于少数民族铸造和使用铜鼓的文献记载,自汉以来,史不绝书[24]。曾任广西壮族自治区博物馆馆长、中国古代铜鼓研究会理事长的蒋廷瑜先生编著了《广西铜鼓文献汇编及铜鼓闻见记》[25]、《古代铜鼓通论》[26]两部著作。前者搜集了自汉代以来的广西铜鼓文献,分为综合文献辑录、地方志辑录、铜鼓专论辑录、铜鼓诗词;后者包含了铜鼓的记载、收藏、起源、分布、类型、年代、族属、用途、铸造工艺、装饰工艺及其反映的音乐、舞蹈等内容,囊括了铜鼓研究的各方面知识,是非常齐全的铜鼓史料文献,也是铜鼓资源平台组织中应当包含的隐性知识体系,可为铜鼓文化知识组织提供重要支撑。本研究以此两部书为研究对象,并采用文献细粒度标引平台作为框架工具,基于数据标引聚合结构化拆分方法进行知识元组织,从语料库中抽取建模元数据,并紧密适配“数据仓储”模块,通过知识图谱推理、语义搜索核心技术,实现在自主学习、智能文本信息读取、知识图谱、文本摘要、内容生成等场景上的应用,提供一种新的信息检索模式。
铜鼓文献知识组织模型是其资源平台构建的逻辑基础,体现从数据源中提取知识元并建设成数据库的过程,包括概念定义、技术手段和组织方式等,如图1所示。首先,确定数据源,即史料文献与文物实体,两者之间存在表层视觉元素与内在知识体系的初步关联。其次,针对史料文献的文本知识特征和实物表层元素属性等特征分别选取适合的知识元抽取方法,完成实体抽取和属性关联,并通过模型训练实现知识推理、知识关联,建立铜鼓实物的表层视觉元素与内在知识体系的一致性和细粒度的元描述。然后,在知识表示层的基础上通过关系抽取和知识融合,实现多种实体匹配,联系知识元与命名实体之间的语义映射,实现实体统一、实体消歧、指代消解。最后在知识推理和本体抽取的基础上,对实体匹配层的数据进行质量评估。最终,铜鼓文献和相关实物的知识以细粒度形态提供给用户检索,以知识图谱的形式组织和发布。
2.2 文献知识元细粒度化及提取
2.2.1 知识细粒度化及其运用优势
文献知识细粒度化是对学术文献内容的深入解析,将文献中的复合信息拆解为基本的、离散的且具有明确意义的知识单元,包括但不限于数据、概念、人名、地名、术语等,它们共同构成了知识的微观基础,为知识聚合研究提供更多视角。聚合粒度越小,知识单元语义越丰富,因此,作为不能进一步细化、分割的最小的知识单元,细粒度知识元被广泛运用于GLAM领域,并呈现出两大优势:①知识元以足够细微的描述粒度,与表层视觉元素构建相对吻合的描述关系;②知识元能够实现知识本体内部与外部复杂语义的组配、关联和聚合。细粒度知识元能够在知识本体的表层视觉特征与内在知识体系之间建立多维度、精细、动态的关联,减少知识表示中的“语义鸿沟”现象[5]。
2.2.2 铜鼓文献细粒度知识元提取过程
分词和标注。数字资源精细化标引一般以文献结构的最小单元为加工单位,首先开展文献信息著录,进而进行知识内容标引。针对史料资源,应将书衣、封面(内封)、牌记、序、凡例、目录、正文卷目、插图、跋、签条、夹纸、校勘、附录、封底等每个独立结构作为著录单元,将文献中的人物、机构、地理名称、事件或其他具有标目意义的关键词作为标引单元。这些都是铜鼓文献的细粒度知识元,每个标引单元生成一条数据。因古汉语表达的特殊性和语料库的不完全性,在现代分词工具进行简单分词后,还需要人工进行精准校对。古今地名转换是本研究的重要工作之一。一千多年以来的社会与政治变迁使得今天的地名与文献中的大不相同,目前的中国古今地名转换系统能够实现历史行政区划地名的转换[27],却难以运用在《广西铜鼓文献汇编及铜鼓闻见记》中所用的通俗地名转化,例如俚僚、夷僚、交阯、骆越等非行政区名称的片区地域名。因此,本研究需要运用多种资料的检索匹配,用人工方式实现古今地名的转换和地理信息的配准,以完成现代地名的标注。
主题词提取。利用protégé软件将本体概念体系可视化并建立知识抽取模型,如图2。
以《广西铜鼓文献汇编及铜鼓闻见记》为例,核心类目有作者、相关事件、古籍名录、铜鼓描述四大类,扩展元数据则有:作者简介、生卒年(公历年/朝代年)、相关其他文献、古籍原文、注引、卷名、注释、相关事件时间(公历年/朝代年)、地名(古地名/今地名)、地理位置标注(地理可视化数据)、事件人物简介(官职/功名)、简介文本、相关历史时间、铜鼓的用途、大小、类型、族属、铸造年份、铸造工艺、装饰工艺、反映的内容、出土地点、分布特点、出土年份、收藏馆、符合描述的实物图片等30个知识元类目。遵循模型,开展知识标引工作,以形成基于文献知识内容的语料库。每个从文献中抽取出来的知识条目生成一条知识抽取数据。从同一基础文献、不同内容位置抽取的同一个人物、职务、地理名称、事件、专题等信息,原则上应合并为一条数据。
实体关系抽取。主要任务是识别文本中的本体短语以及这些本体之间的语义关系(例如从属、发生、影响等)并加以归类[28],涉及模式识别和逻辑推理。实体及关系作为知识图谱的基本元素,其抽取的准确率和召回率直接关系到后续知识组织的质量。古籍史料属于词法分析中未登录词数量最多的文献类别之一,无站点、词典、开放域的参考。本文采用基于统计机器学习的方法进行实体抽取,对文本语料进行训练,分析各文献中的收录信息、铜鼓属性信息、时空数据,并利用训练好的模型去识别实体,构建核心属性语义场,如表1。
《十道志》,全称为《十道四蕃志》,乃是唐代武周时梁载言所撰,共计十六卷,为后世研究唐代地貌和疆域等提供了宝贵的重要史料,是唐代全国地理总志。
《太平寰宇记》是古代中国地理志史,记述了宋朝的疆域版图。广泛引用历代史书、地志、文集、碑刻、诗赋、仙佛杂记等,计约二百种,且多注明出处,保留了大量珍贵的史料……
2.3 铜鼓文献知识关联构建
知识关联构建的最终目标是通过发布知识图谱,构建高质量的铜鼓资源分析服务平台,实现表层视觉特征与内在知识的关联,即对铜鼓文献知识库实体、事件或者概念以及它们之间的相关性进行描述。本研究采用一种成熟的基于三元组的表示方式,知识以一个资源描述框架结构的三元组方式进行表示[29]。首先对文献实体抽取得到的一系列离散的命名实体,例如以“title”为“岭表录异”的text中,抽取到命名实体如下:
“鼓大小”:“鼓面圆二尺许,通体均匀,厚二分以外”;
“鼓形式”:“形如腰鼓,而一头有面。鼓面圆二尺许,面与身连,全用铜铸。其身遍有虫鱼花草之状,通体均匀,厚二分以外”;
“用途”:“乐器”;
“相关人名”:“张直方、郑纲”;
“相关古地名”:“1国,2龚州-赛汉-延庆,3番禺-高州”。
结合时空地理信息对照,再抽取出“相关现代地名”:“1缅甸(伊洛瓦底江流域),2广西壮族自治区贵港市平南县-湖北省襄阳市-河北省唐山市滦南县,3广东省广州市番禺区-广东省茂名市高州市”。
抽取出的实体和关系需要与本体对齐,并将数据融合到一起,构建起一个有关联的数据网络。这个过程需要对其中存在的指向歧义进行消解,对知识库中已有的其他实体关系数据,包括文献知识元的属性、本体概念层次关系等,进行计算机知识推理,建立新的实体关联,丰富和拓展知识网络,初步完成知识建模。
模型训练步骤中,我们使用基于Transformer的一种深度双向语言表征模型——BERT预训练语言模型,对初步完成的知识建模进行优化,将BERT的两步关系抽取过程(识别subject的位置和识别 predicate和object的位置)修改为多任务类型,同时预测suject、predicate、object 三部分,最终形成文献属性知识关联可视化图谱。
3 文献时空向量属性库建设
时空向量是指将在分词、标引环节中获取的年代数据转换为公元年,形成时间向量;将获取的地名数据转换为现代地名或区域,形成空间向量。为保证建成高质量的知识图谱,对存疑的地名需加强人工干预识别。如《林邑记》记载的“浦通铜鼓,外越安定、黄冈、心口”,此处“铜鼓”在机器语言中无法识别为地名,经联系下文的地名,判断应为广西壮族自治区桂平市铜鼓滩,因此,该文本对应地名增加一标注为“桂平”。再如,《欧阳頠传》中记载“钦南征夷僚,擒陈文彻,所获不可胜计,大献铜鼓,累代所无”,在标引环节中对“夷僚”一词赋予的空间定义较宽泛,涉及云南、贵州、湖南、广东、广西等地的僚族,因此,该文本可从人名进行考证。《南史》称,陈文彻是西江俚帅,西江即今广东肇庆一带,陈文彻便是那里俚人的首领。因擒获他而得到大量的铜鼓,于是此文本应增加一地理标注为“肇庆”。经过大量的人工识别和讨论考证,进一步精确向量属性,采用规则和监督学习相结合的方法实现古文献与时间地图向量界面。
从本体构建、实体关系抽取、数据融合、图数据库存储到检索与可视化,整个铜鼓文献知识构建的数据流中,需要确保不同模块之间的数据格式和接口是兼容的,例如,实体关系抽取模块的输出(实体和关系)需要能够被图数据库识别和存储,同时,图数据库的查询结果应该能够被可视化工具所展示。一些平台能提供从知识获取到知识应用的端到端解决方案,包括实时动态时序知识图谱和AI平台的构建。在实现不同技术模块之间的数据转换与衔接时,还需要考虑到系统的可维护性、扩展性以及性能要求,确保知识数据库能够适应不断变化的数据和查询需求。
4 探索:数据融合的铜鼓知识平台建设
铜鼓具有乐器和社会文化象征的双重角色,其丰富的史料文献,以及在艺术、工艺、历史价值和学术研究中展现的跨文化特性,使它成为连接不同民族和时代的文化桥梁,而且为研究中国南方及东南亚地区的古代民族历史提供了珍贵视角,因此,铜鼓知识平台的建立具有重要的学术和文化价值。本文以部分铜鼓史料文献,汉晋南北朝至民国的331条古代文献记载文本、125幅图片、1383具铜鼓实测记录资料,作为细粒度知识表示的研究对象,通过知识元的处理理论,建立起史料文献高层语义特征与知识图谱表层视觉特征的映射,为铜鼓研究提供新的文献知识表示思路。
然而,为彻底解决铜鼓内部知识、外部特征以及语义特征等众多资源的“语义鸿沟”现象,更多的铜鼓史料文献以及现代属性需要加入到完整的铜鼓资源组织中来,如现存世铜鼓图片/视频/音频、馆藏地点、出土记录。完整的铜鼓知识平台应至少由史料文献库、现存世器物库、时空向量库、基础知识及研究成果库四个数据库组成的庞大知识库提供支撑,并规范术语,统一数据结构,建立本体辞典。通过数据映射技术对不同数据源中抽取词汇的映射关系建立数据融合,在模型训练过程中对不同源数据指向同一现实客体的数据进行融合,对不同术语描述的同一客体数据进行融合。现存世器物库中的铜鼓特征,依然需要提取细粒度知识元,进行精确的语义描述,才能与其他库相关的知识元进行关联,实现史料文献与铜鼓实体器物的匹配。通过构建数据中台,实现结构化、半结构化、非结构化数据的接入和异构数据源储存管理,建立起铜鼓资源“自上而下”的知识表示方式,不断丰富知识存量和提升知识图谱的质量。在未来的研究中,还需要在铜鼓资源组织中对Spark或者Hadoop等数据平台的融合功能作进一步实践探索。
参考文献:
[1]李峰.文物知识聚合与传播的初步研究:以上海博物馆“宋徽宗与他的时代数字人文专题”为例[J].东南文化,2022(3):169-177,191-192,197-199.
[2]高劲松,杨慧娟,付家炜,等.数字人文视域下可移动文物时空数据模型构建研究[J].数字图书馆论坛,2022(1):37-46.
[3]广西民族博物馆.铜鼓[EB/OL].[2024-02-26].http://www.amgx.org/Collection/Treasure/tonggu?name=%E9%9 3%9C%E9%BC%93&typecode=tonggu.
[4]李迎迎,孙玉琦.文化传承视角下馆藏文物多粒度知识组织研究[J].数字图书馆论坛,2022(8):65-72.
[5]高劲松,付家炜.基于知识元的文物图像资源细粒度知识表示方法研究[J].情报科学,2022,40(1):16-24.
[6]刘思洋.基于关联数据的馆藏文物资源知识关联模型研究[D].武汉:华中师范大学,2019.
[7]龚花萍,孙晓,刘春年.文物信息资源元数据模型、实施标准与应用策略[J].情报科学,2015,33(2):80-84.
[8]贾君枝,史璇.数字博物馆元数据标准构建研究[J].山西大学学报(哲学社会科学版),2015,38(1):114-119.
[9]WIJESUNDARA C,SUGIMOTO S,NARAYAN B,et al. Bringing cultural heritage information from developing regions to the global information space as linked open data:an exploratory metadata aggregation model for Sri Lankan heritage and its extension [C]//The 7th Asia-Pacific Conference on Library and Information Education and Practice (A-LIEP),November 3-4,2016,Nanjing University,Nanjing:117-132.
[10]于亚秀,李欣.数字人文视域中的古籍文本标注方法研究:以MARKUS为例[J].大数据,2022,8(6):15-25.
[11]徐润华,王东波,刘欢,等.面向古籍数字人文的《资治通鉴》自动摘要研究:以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(12):129-137.
[12]胡昊天,张逸勤,邓三鸿,等.面向数字人文的《四库全书》子部自动分类研究:以SikuBERT和SikuRoBERTa预训练模型为例[J].图书馆论坛,2022,42(12):138-148.
[13]黄俊伟,刘金涛,史延昊,等.基于知识元标引的中医古籍研究回顾与反思[J].北京中医药大学学报,2021,44(8):694-699.
[14]DUTTA B,GIUNCHIGLIA F,MALTESE V.From knowledge organization to knowledge representation[J].Knowledge organization,2014,41(1):44-56.
[15]夏翠娟,娄秀明,潘威,等.数智时代的知识组织方法在历史地理信息化中的应用初探:兼论图情领域与人文研究的跨学科融合范式[J].图书情报知识,2021,38(3):37-49.
[16]毕崇武,王忠义,宋红文.基于知识元的数字图书馆多粒度集成知识服务研究[J].图书情报工作,2017,61(4):115-122.
[17]What is the CIDOC CRM?[EB/OL].[2024-02-28].https://www.cidoc-crm.org/.
[18]王绍平.FRBR与面向对象模型[J].新世纪图书馆,2007(2):11-14.
[19]胡小菁.国际图联图书馆参考模型及其应用[J].上海高校图书情报工作研究,2018,28(3):38-39.
[20]高劲松,梁艳琪.关联数据环境下知识融合模型研究[J].情报科学,2016,34(2):50-54.
[21]夏翠娟.文化记忆资源的知识融通:从异构资源元数据应用纲要到一体化本体设计[J].图书情报知识,2021(1):53-65.
[22]赵蓉英,王嵩,董克.国内馆藏资源聚合模式研究综述[J].图书情报工作,2014,58(18):138-143.
[23]李亚婷.知识聚合研究述评[J].图书情报工作,2016,60(21):128-136.
[24]洪声.广西古代铜鼓研究[J].考古学报,1974(1):45-90,188-191.
[25]蒋廷瑜.广西铜鼓文献汇编及铜鼓闻见记[M].桂林:广西师范大学出版社,2014.
[26]蒋廷瑜.古代铜鼓通论[M].北京:紫禁城出版社,1999.
[27]中国历史地名查询系统[EB/OL].[2024-02-28].http://archive.ihp.sinica.edu.tw/hplname/.
[28]
CHINCHOR N, MARSH E.Muc-7 information extraction task definition[C]//Proceedings of Seventh Message Understanding Conference(MUC-7),April 29-May 1,1998,Fairfax, Virginia:359-367.
[29]杜悦,常志军,董美,等.一种面向海量科技文献数据的大规模知识图谱构建方法[J].数据分析与知识发现,2023,7(2):141-150.
作者简介:
覃熙(1980— ),女,硕士,副研究馆员,任职于广西民族大学图书馆。研究方向:知识组织、数字人文。