音乐领域知识图谱构建框架研究

2022-04-14 02:00杨媛
数字图书馆论坛 2022年2期
关键词:乐谱数据源音频

杨媛

(天津音乐学院图书馆,天津 300171)

知识图谱的本质是一种结构化的知识表示形式,在语义网背景下,知识图谱可以解释为由链接标识的实体和本体定义的关系组成的网络[1]。近年来,知识图谱技术被广泛用于发现和组织文本知识,对于听觉、视觉等非结构化的多模态数据的关注度则较低[2]。

音乐领域知识图谱(以下简称“音乐知识图谱”)是以融合音乐领域信息、资源为目的,对包含在元数据、音频、视频、图片和文本中的音乐知识进行抽取,再按照音乐领域本体定义的模型对其进行结构化、语义化的表示。音乐知识图谱对音乐作品、音乐概念、音乐内容、音乐人物、音乐资源各层次实体进行关联,支持音乐知识的统一获取和知识深度发现。早期的音乐知识图谱较多关注音乐文本资源的组织,其知识获取来源多为音乐元数据和音乐文本,基本采用文本知识图谱的构建方法。随着音乐信息检索技术的成熟,音乐知识图谱进入快速发展阶段,音乐音频、乐谱成为音乐知识图谱的重要知识源,虽然音乐知识图谱与文本知识图谱的主要构建步骤基本一致,都需要经历知识获取、知识融合到知识应用的过程,但两者在数据源类型、知识处理技术、知识模型设计方面均存在较大差异。

国际上网络音频语义集成项目(Web Audio Semantic Aggregated in the Browser for Indexation/WASABI)[3]、数字音乐实验室项目(The Digital Music Lab/DML)[4]等音乐知识图谱构建项目已在多模态、跨表示类型的音乐知识融合方面取得领先成果,但音乐知识图谱研究基本上以个案研究为主,整体系统性研究十分欠缺。国内图书情报领域虽在文本知识图谱构建方面积累了丰富经验,在图像数据的语义描述模型[5]及语义化建设框架研究[6]方面也取得相当进展,但是对于音乐领域数据,特别是音乐内容数据的处理、融合技术仍缺乏关注,数字基础设施支持不足,音乐知识图谱的构建研究及相关实践未能有效开展。

为此,本文在对国外音乐知识图谱充分调研的基础上,对音乐知识图谱的特征进行深入分析,据此提出音乐知识图谱的构建框架,并对其中各环节涉及的方法、技术、资源等进行介绍,以期为推动我国音乐知识图谱的构建提供借鉴,完善多模态知识图谱研究体系,推动相关技术及实践的发展。

1 音乐知识图谱的特征分析

通过对国外现有音乐知识图谱项目的研究和分析,总结出音乐知识图谱具备以下4个典型特征。

(1)多模态特征。模态是一种生物学概念,指感官条件下事物发生或存在的方式[2]。音乐知识图谱属于多模态知识图谱,其数据源不仅包括文本和结构化数据,还包括多种音乐内容数据,如乐谱(图片)、音乐音频和乐谱编码数据等。音乐知识图谱需要在传统文本知识图谱基础上,构建多种模态(听觉、视觉)下的实体,以及多模态实体间的多模语义关系,完成跨知识表示的融合。

(2)知识模型层次丰富。音乐知识图谱的知识模型构建,需要满足资料收藏、音乐创作、音乐研究、音乐欣赏等不同用途的知识组织需求。模型须具备音乐资源、音乐内容结构、音乐理论知识、资源处理加工、资源存储、使用权限等方面信息的描述功能。

(3)跨领域技术应用。基于音乐内容数据的知识自动抽取及深度知识发现是音乐知识图谱研究的重点、难点。为解决这一问题,需要利用音乐信息检索技术结合自然语言处理技术实现音乐内容数据的智能化处理分析。其中就涉及机器学习、数字信号处理、数据挖掘、音乐光学识别等技术的综合应用。

(4)音乐知识深度融合。知识图谱作为一种新的音乐知识表示形式,将音乐内容、音乐知识、音乐资源深度融合。它支持不同数据源、不同表示类型的音乐实体的全面获取,并支持深度隐性知识的智能发现。为此,音乐知识图谱在公共图书馆、公共网站、商业网站、教学科研机构等领域广泛应用。

构建音乐知识图谱既需要借鉴其他领域知识图谱构建方法,又要充分考虑音乐知识图谱的特征,实现音乐知识的深度融合。下面针对音乐知识图谱的特点,按照知识获取、知识融合、知识检索与推理、可视化展示4个环节对音乐知识图谱的构建进行设计。

2 音乐知识图谱构建框架设计

本文设计构建一个典型的多模态音乐知识图谱,处理信息涵盖听觉、视觉、文本,音乐知识来自音频、乐谱、唱词、元数据等各类数据源,融合知识类型包括外部描述信息和音乐内容信息。它可以支持基于音乐内容的知识检索和知识发现,也支持多种媒体形式结合的可视化展示。

如图1所示,音乐知识获取是图谱构建的第一步,需要获取音乐知识系统基础构建元素——音乐知识。在明确图谱知识范围后,对数据源进行选择、收集,然后对蕴含在各类数据源中的音乐知识进行抽取,最后才能获得覆盖主题的音乐知识。音乐知识融合是图谱构建的第二步,包括本体构建、实体对齐、实体链接3个过程。本体构建解决的是模型概念层的统一,实体对齐解决的是实例层的统一,两者结合可完成不同来源音乐知识的整合。实体链接则将知识图谱中的实体与外部数据源进行链接,实现更大范围的知识融合。音乐知识检索与推理是图谱构建的第三步,它主要解决知识图谱应用阶段音乐知识发现和知识自生成的问题。构建过程的最后一步是音乐知识图谱可视化,它将不同来源的音乐信息和音乐内容分析结果统一转化为视觉形式进行呈现。

图1 音乐知识图谱构建框架设计图

2.1 音乐知识获取

知识获取是指从多种数据源获取并抽取所需知识的过程。音乐知识获取的基本任务就是获取音乐领域知识,建立健全、完善、有效的音乐知识图谱,以满足音乐领域的知识需求。

2.1.1 数据源

知识获取的数据源通常包括专业文献和相关数据库、知识库中的数据。在构建音乐知识系统时,知识获取的主要数据源包括音乐文献(音乐研究文献、唱词、剧本),各种表示类型(音频、视频、乐谱)的音乐作品,以及数据库、知识库、网页中记录的音乐信息等。

从数据结构分析,存储在数据库(SQL Servicer、Oracle、MySQL等)、知识库中的音乐元数据和用户使用数据都属于结构化数据;CVS、JSON格式的音乐特征数据、使用XML语言编码的乐谱(如MusicXML、MEI格式乐谱)及音乐元数据(如DC、MARC元数据)都属于半结构化数据;音乐文本、音频、视频和乐谱(图像形式)均属于非结构化数据。

从对音乐作品的揭示程度分析,数据源可分为音乐元数据和音乐内容数据两类。音乐元数据一般包含音乐资源的描述性信息和音乐知识信息。音乐元数据的获取渠道极为丰富,图书馆加工的音乐资料馆藏信息与商业音乐领域的音乐出版物信息都是可用的数据获取来源。如RISM可提供乐谱(手稿或印刷)、音乐理论著作、歌剧或音乐剧剧本等各类音乐资源元数据[7]。Last.fm[8]可提供681万多条用户创造的标签数据。标签包括用户对50多万首曲目的描述信息,全面涵盖音乐情绪、音乐风格等属性的描述词汇。在知识抽取环节,这些数据可以有效支持知识模型的建立,帮助完成音乐特征的自动分类识别。另外,还有综合知识库(如Wikidata、DBpedia)、音乐专业知识库(如MusicBrainz)可提供丰富的音乐知识及音乐资源信息。

构建完整的音乐知识图谱,还需要从音乐音频、乐谱、唱词等音乐内容数据中获取内容、结构信息。对于不受版权限制的音乐内容数据可以直接从公共领域获取。如IMSLP国际乐谱网站,就是一个重要的国际音乐资源共享数据源。它可以提供公共领域内19.5万首音乐作品的63万份乐谱(部分包括唱词)和7.3万张唱片资源[9]。ELVIS等开源的乐谱编码数据库,也是高质量乐谱及唱词数据的有效获取渠道。对于存在版权限制的音频数据,AcousticBrainz[10]、百万歌曲集(Million Song Dataset/MSD)[11]等特征数据集可作为替代数据源,反映音乐内容特征。对于受到版权限制的乐谱,虽然其编辑出版过程存在乐谱编码文件,但文件并不允许出售或对外提供。在数据源缺失情况下,需要先将乐谱中的音符、唱词信息从视觉形式转换为编码形式,这样才能用于音乐知识抽取。

综上所述,音乐知识图谱的数据源选取需要考虑以下因素:①开放性,数据是否开放、免费,以及数据使用的版权限制情况;②可获取性,数据是否易于查询、检索,是否提供API、OPAC、OAI-PMH、SPARQL终端等形式的数据获取途径;③质量水平,数据内容是否满足知识图谱构建要求,信息内容是否正确可信,并有较高应用价值,数据存储、记录、组织是否遵照通用标准;④完整性,数据是否全面充足,能否囊括相对完整的领域资源信息,并对特定主题做到全样本收集。

2.1.2 知识抽取

知识抽取是指将数据源中蕴含的知识,经过识别、理解等手段抽取出来的过程。音乐内容数据是音乐领域独特的知识抽取对象。音频、乐谱、唱词三类主要的音乐内容数据,分别对应不同的知识抽取方法。

(1)音频知识抽取。音频知识抽取是基于音频的音乐分析过程。这一过程,涉及人工智能、音乐学、心理声学等多个研究领域,需要数字信号处理、机器学习、数据挖掘、可视化技术的共同参与。一般音频内容分析过程包括信号预处理、音频特征提取、音乐内容分类推理。音频信号预处理可以减少处理数据总量,剔除不相关信息和干扰信息,增强音频稳健性。音频特征的提取是一切音乐内容分析的基础,它可以从音频信号中分析和提取语义丰富的信息,以获得一个紧凑的、可由机器处理的特征表示。从技术角度分析,对于音乐内容的低水平特征描述包括以下5类:①从音频数据中提取的统计性、技术性特征;②音色或音质特征;③音调特征,包括信号中音高之间的关系;④与强度相关特征,如响度;⑤时间相关特征,如节奏、节拍位置。音频中提取的参数、特征是客观的,它们描述的是独立于环境和感知的音乐物理属性。为了挖掘音乐表层信息下蕴含的深层知识,包括人类对音乐产生的感知(如悲伤、轻快),音乐专业概念(如风格、体裁、音乐结构)等高水平音乐特征,还需要应用数据挖掘、机器学习技术填补表层知识与深层知识间的语义鸿沟。对音乐深层知识的挖掘,在音乐内容分析领域对应音乐分类任务,包括风格分类、情感分类、音乐家识别、乐器识别、音乐相似性分析。

(2)乐谱知识抽取。乐谱知识抽取是基于符号的音乐内容分析过程,需以乐谱的形式化、结构化编码为基础。MIDI、MusicXML、MEI是3种最常见的乐谱编码。利用jSymbolic、Humdrum toolkit、music21等音乐特征分析工具对乐谱知识进行处理,可获得音高、旋律、和弦音程、节奏、乐器配置、声部相关的音乐符号特征数据,并以Weka ARFF、CSV、XML、JSON等格式存储分析结果。与基于音频的知识抽取过程类似,利用符号特征数据和机器学习技术同样可以进行音乐风格分析、匿名作曲家身份分析等深度知识的获取。在某些领域,音频特征数据和符号特征数据能以相似的结构化方式表示。例如,在自动和弦识别过程中,可以使用几乎相同的神经网络架构分析两类数据,获得质量相当的分析结果[12]。目前,基于音频的知识抽取研究更为丰富。但是,乐谱与音频可以形成信息域互补。相较音频,乐谱具有以下优势:①特征值稳定、准确,不受演奏、录音因素影响;②明确的符号化的音乐表演说明(如演奏乐器、声部设置),方便知识抽取;③基于符号的分析结果易于与音乐抽象概念形成映射。

(3)唱词知识抽取。唱词知识抽取可以参考文本知识抽取过程,它们同样需要借助自然语言处理技术,但唱词知识抽取还需辅以音频分析技术的支持。以唱词为知识获取对象,能够完成的知识抽取任务包括:①唱词结构分析(structural segmentation),通过训练卷积神经网络,使其准确识别自相似性矩阵编码中的重复结构,从而预测唱词片段位置,并在音频对应位置标记唱词的不同段落(副歌、合唱、前奏等);②主题分布检测,结合数据训练和人工标注,获得基于歌词的主题判断模型,然后利用主题模型对歌词数据进行分析,获得歌曲的主题分布信息;③不健康内容识别,利用基于词典或卷积神经网络的方法,判断歌词中是否存在敏感词语或涉及不健康内容,对音乐内容自动进行等级评价,方便内容传播平台对使用者进行提示或限制;④歌词摘要提取,基于歌词与音频的强相关性,利用音频缩率图(audio thumbnail)技术找到音乐中的代表性片段,然后结合图形分析、主题分析的方法形成歌词摘要;⑤情绪描述,通过训练情绪识别模型,对歌词表现的情感倾向进行判定(积极或消极),甚至对更明确的情绪进行描述(如快乐、愤怒、平静、恐惧、惊讶等)[13]。

2.2 音乐知识融合

知识融合就是高层次的知识组织,能使来自不同知识源的知识在同一框架规范下实现异构数据整合,实现步骤包括本体构建、实体对齐、实体链接,最终达到数据、信息、方法、经验以及思想的融合,形成高质量的知识图谱。

2.2.1 本体构建

本体构建是音乐知识融合的关键步骤,需要完成对音乐领域知识的抽象建模和结构化定义。目前,音乐知识图谱涉及的知识信息可以分为三大类:音乐资源或作品的描述性信息、音乐事件信息、音乐内容记录与分析信息。前两类信息普遍存在于文本知识图谱中,而第三类信息需要通过对音乐内容数据分析后获取,是多模态知识图谱的重要信息类型,也是基于语义的音乐分析系统的必要信息支持。音乐知识图谱应根据自身包含的信息范围,选择复用本体或扩展定义新本体。

对于前两类信息的描述组织,可以选择复用Music Ontology本体。因为它是一个结构合理、信息描述范围全面的音乐领域通用本体,支持从音乐作品、音乐内容表达、音乐载体表现、音乐单件4个层次对音乐作品进行描述[14]。并且,它还支持覆盖音乐创作流程和音乐出版过程的事件描述,包括演出、作曲、录制、转录、改编等。针对第三类信息,虽然Music Ontology没有定义具体的类及属性,但它提供了扩展框架。知识图谱可以根据自身需求进行扩展定义。例如,音频信号分析类本体Multitrack Ontology[15]、Segment Ontology[16]就是在Music Ontology的mo:Signal类下进行的扩展。

2.2.2 实体对齐

实体对齐就是将不同数据源中的实体,对应到它们共同指向的同一实体的过程。音乐领域知识融合的一项重要任务就是完成音乐家、音乐作品、乐器等核心实体的实体对齐。

(1)基于字符串相似度的实体对齐。基于字符串相似度的实体对齐,就是将与实体相关的字符串形式的文本或元数据进行相似度分析,然后基于此判断实体是否指向相同。在多数情况下,音乐知识图谱集成获取的实体名称和实体描述存在歧义,涉及的作品名、艺术家信息没有统一表述形式或标识符。如元数据中经常出现的作曲家“巴赫”,它可以指代J.S.巴赫、C.P.E.巴赫,或者其他任何“巴赫”。而且,音乐作品的多版本现象极为普遍,不同的乐谱版本、演奏配器、演出场次、翻录或转录等因素都能产生不同的音频版本,也会对应产生多种语言和语法表述方式的题名。为此,在自动实体对齐的过程中,仅凭借字符串相似度进行的音乐作品、音乐家的实体对齐难度极大,需要利用所有可获取的信息进行推理,然后再辅以人工(用户或知识工程师)参与的审查和纠正过程。

(2)基于音频指纹的实体对齐。除了基于文本、元数据的实体对齐,还可以利用音频指纹(audio fingerprints)识别技术,进行基于音频特征的音乐实体(音乐作品或演出版本)对齐。音频指纹提取是一种基于音频信号的特征提取,它是具有高密度性和唯一性的音频特征表示。在音频注释缺失或不准确的情况下,通过提取的指纹可以快速与既有的音乐指纹库记录进行匹配,然后查询获得音频对应标识和相关信息,并补充到知识库中。目前,AcoustID是一个成熟的开源音频识别方案。它由客户端的音频指纹生成器和大型分布式音频指纹数据库组成。指纹库包括6 000余万条音频标识和7 000余万条音频指纹数据,可提供音频指纹搜索和比对服务[17]。2012年,AcoustID被MusicBrainz引用,通过AcoustID的音频指纹匹配,可以完成与MusicBrainz的实体对齐。

2.2.3 实体链接

本体构建和实体对齐完成了知识图谱的内部知识融合,而实体链接是将歧义实体链接到外部权威知识库中,实现知识图谱与外部数据源的知识融合。关联开放数据云(LOD)定义的五星标准中将知识图谱与其他开放知识库产生的链接数据量作为评价数据集质量的重要标准。DBpedia作为跨领域综合知识库,其在知识图谱的相互关联中起到枢纽作用。在音乐知识图谱构建中,DBpedia中的音乐家、音乐作品、乐器、音乐概念(如音乐风格、音乐体裁)等实体经常被选为实体链接对象。LinkedBrainz[18]知识图谱因包含丰富的音乐作品、音乐家、唱片、单曲等音乐相关实体,是构建音乐研究的知识图谱首选的实体链接对象。通过与其建立链接,还可扩展检索到AcousticBrainz提供的音频特征分析数据,包括音高、节奏、音色等信息。最后,作为专门的地理信息知识图谱GeoNames,音乐知识图谱中常出现的音乐演出地点、音乐家出生地等地理位置实体也通常选择与其链接。

2.3 音乐知识检索与推理

在音乐知识图谱中,音乐知识检索可利用SPARQL语言构建查询语句直接实现,还可通过自然语言形式和基于范例的知识检索方式实现。其中,基于音乐范例的相关性、相似性检索是音乐领域独特的知识发现方式,属于基于音乐内容的检索。这种检索方式要求知识图谱对音乐内容数据作深度语义处理。对于音频数据,需要利用音频特征提取技术获得内容特征数据,再依照音频分析类本体对其进行组织、存储。对于乐谱编码数据,要依照乐谱相关本体对其进行RDF转换或语义标注。通过不同表示类型的音乐知识在构建过程中深度融合,就能实现范例与目标实体的跨资源类型的检索发现。例如,对音频范例进行特征分析后,就能发现具有相同或相似特征值的目标实体,该实体可以是音频或乐谱。音乐知识推理是在已有的音乐实体关系中推断出实体间的新关系或者实体的新属性。可以通过定义SWRL规则集的方法,对乐器、和声、旋律等条件进行组合、限定,然后实现音乐风格等属性的自动推理判断。可见,音乐知识图谱解决了音乐信息多领域传播和载体形态多样的问题,实现了机器可理解的音乐内容的统一表达,扩大了音乐知识发现的范围。

2.4 音乐知识图谱可视化

知识图谱的可视化研究包括对图谱不同类型信息的可视表达,还有新关系的推断及对潜在模式或问题进行发现的可视分析[19]。对于音乐知识图谱中的音乐元数据类信息可视化表达,可选用节点链接图,实现实体及实体间关系的直接视觉呈现。对图谱中的音乐内容类信息的可视化,因其涉及实体(如音符、音高、音调)较为抽象,直接的可视表达不具有实用性。因此,知识图谱需要根据信息类型定制可视分析工具。为了灵活满足用户对音乐内容分析需求,知识图谱采用基于查询的可视分析技术,根据查询结果的信息类型和内部结构驱动可视化生成,结合信息过滤技术,以交互形式实现视觉表示优化。如在音乐知识图谱(DML)的用户端可视化界面[20],用户可以输入检索词、选择数据集、设定属性值范围,之后获得音高、音调、节拍的直方图分析结果反馈。虽然定制视觉化工具缺乏通用性,但能帮助用户避免SPARQL查询的复杂性,提高用户适用度。值得注意的是,音乐知识图谱可视化需要更丰富的多媒体内容,图像(如专辑封面、乐谱)、音频的灵活嵌入是音乐知识图谱可视化方向未来研究与应用的重要趋势。

3 总结与建议

作为多模态知识图谱的典型应用,音乐知识图谱借助音乐信息检索、人工智能、大数据等技术,创新地实现了音乐内容层面的知识组织与融合,可以帮助图书馆提升音乐信息的提炼和加工能力,实现音乐资源的组织升级和音乐知识表示升级;可以为音乐研究学者提供良好的音乐知识发现、音乐内容分析和音乐知识信息可视化平台,极大促进音乐领域研究环境的提升;还能促进商业音乐领域海量音乐信息有效组织,通过智能问答和音乐推荐功能实现巨大商业价值。目前,音乐知识图谱正成为音乐领域知识智能应用的高效解决方案,并在公共服务、学术研究和商业领域得到重视和发展。

不过,我国的音乐知识图谱建设还处于初创探索阶段,要想全面启动音乐知识图谱的建设,还需要在技术、资源和方法上进行完善。技术方面,由于音乐内容数据是音乐知识图谱独特的数据源类型,对此类数据的处理,就形成了较为复杂且独立的技术应用体系。但目前针对内容数据的知识抽取、多模态实体对齐、基于音乐内容的检索发现、与多媒体结合的可视化展示、适应音乐知识环境的深度知识分析推理等技术仍存在诸多困难。要解决这些问题,需要加强不同领域技术的综合应用,并且不断加快相关技术的提升研究。资源方面,由于多模态知识图谱的研究难度大,所以可用来支持图谱建设的资源与工具相对较少。此外,在中文研究环境下,用于实体链接的权威知识图谱、用于音乐资源组织的本体、用于音乐知识抽取和实体对齐的工具都相对缺乏。因此,应认真分析中文音乐知识图谱发展所需的资源及研究环境,尽力弥补缺失条件。在建设方法上,我国应借鉴国外成功经验,契合学科融合的研究模式,打造多元化研究团队,积极发挥图书情报领域在资源建设、知识组织和知识服务方面的优势。最后,随着我国对知识组织的语义化、智能化研究的不断加深,我国音乐知识图谱建设工作必将迎来重大发展。

猜你喜欢
乐谱数据源音频
山之高
乐谱:放飞梦想
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
Web 大数据系统数据源选择*
一毛学琴记——乐谱失踪
基于不同网络数据源的期刊评价研究
音频分析仪中低失真音频信号的发生方法
基因密码乐谱
Pro Tools音频剪辑及修正