基于内容的音乐标示与特征提取研究

2019-01-06 03:39朱乐

艺术科技 2019年21期

朱乐

摘要：本文针对数字音乐资源中基于音乐内容的标示形式、检索关键技术、音乐特征提取算法等问题进行研究，通过比较各种音乐内容标示方法的特点和优缺点，给出音乐内容特征提取算法。

关键词：数字音乐;音乐旋律;音乐轮廓;音乐节奏

0 引言

在当今网络时代，数字化音乐已成为音乐存在的主要方式。数字音乐比传统的磁记录音乐等能够更好地利用现有的大量音乐资源，来满足人们的娱乐、教育、商业等各类需求。由于每年都有大量的音乐作品产生，如何能够有效地利用这些音乐资源寻找到需要的信息，就成为一项十分具有现实意义的工作。传统情况下，人们是按照音乐的标识信息来查询需要的音乐资料。例如，当人们需要查询一首乐曲时，必须知道音乐的名称，或是作曲者、演奏者等相关音乐标志信息，否则就得通过浏览整个数据库来查找乐曲。音乐标识的信息具有复杂性，显然，通过音乐标识信息来寻找资源方法的效率也是很低的。目前，基于内容分析的音乐表示逐渐得到了广泛的重视，已经被证明是非常有效的音乐分类方法，而基于音乐内容的查询方式是有效利用音乐资源的关键技术。

众所周知，音乐旋律是利用调式关系和节奏以及节拍关系组合起来的，通过具有独立性的许多音的单声部进行。从某种意义上讲，音乐的主要特征就是旋律。旋律体现了音乐的全部思想或主要思想，它被认为是音乐的基础和灵魂。旋律的一个简单的定义是单调的连续的音阶序列。目前的技术所考虑的旋律是简单的，是很容易哼唱的，比如流行音乐、乡村音乐中的旋律。一般意义上，旋律是音调和节奏的组合。有关文献对音乐的记忆特性进行了研究，Dowling指出，旋律的轮廓比对精确的旋律更易于记忆。旋律的轮廓是指旋律音调的起伏的整体形状，即相邻音符的起伏。假定音乐的轮廓和音阶是分开存储在我们的大脑中的，而旋律的轮廓是主要的、印象深刻的部分。相同的旋律轮廓可以映射到不同的音阶上。Edworthy在文献中也提出了类似的观点。

基于上述观点，有以下几种音乐内容的标示方法：基于节奏、基于音乐轮廓、基于音乐旋律以及综合方法。这些方法都可以进行基于内容的查询，各有利弊。

1 基于内容的音乐标示方法

1.1 基于音乐轮廓的标示法

众所周知，音调高低对于旋律表示是一种很重要的信息。一般情况下，研究者利用3层（+/-/0）方法来表达音乐旋律的轮廓。符号“+”表示现有音符与前面音符相比，音调提高;符号“-”表示现有音符与他前面音符相比，音调减小;符号“0”表示现有音符与它前面音符相比，音调不变。例如，旋律422143325可用符号0-0-+-0-+表示。旋律的音调轮廓描述了相对音调的变化，但是它忽略了音乐的节奏信息，也忽略了音调的精确变化，因此旋律的音调轮廓表示方法丢失了很多重要信息。这种表示方法比较简单，虽然能够减少搜索空间，但搜索精度不高。在对某个大型数据库进行检索时，可能查找到过多的检索结果，冗余信息量大，不利于精确得到需要的结果。为了提高检索准确性，则需要输入较长的标识信息，此时要求用户对歌曲有更多的记忆长度。

1.2 基于节奏的标示法

音乐是声音在时间上的艺术。任何声音在时间上都具有一定的长度，节奏就是音乐的时间标示。无论是古典音乐还是通俗音乐，都通过一定的节奏来标示。利用节奏来标示音乐内容的方法，将忽略音乐音调特性。与基于音乐轮廓的内容标示方法相比，基于节奏的标示较为复杂。不同的乐曲可能具有相同的节奏，因此，利用此方法仍不能精确检索需要的结果。同时，这个方法在音乐内容标示中忽略了音乐旋律的根本特性：音调特性。

1.3 基于主题的标示法

在一段音乐旋律中，相同的旋律主题可能反复出现，利用旋律主题的重复特性来标示音乐可以提高标示的精简程度，减小信息存储量和检索时需要的数据量。由于音乐旋律的主题是复杂多样的，从一首乐曲中自动提取出旋律主题非常困难。旋律主题的发展还有许多其他特性，例如变化、扩展、紧缩，将影响旋律主题的标示。

1.4 综合标示法

以上3种方法从不同的方面对音乐内容进行了标示，但是反映的特性单一，在实际检索时效果不尽理想，采用旋律综合表示法可相应解决上述问题。

所谓旋律的综合标示法是利用“T、P、B”来表示旋律，T表示乐曲的时间记号，它是可变的;P表示基音轮廓量，它的取值范围依赖于轮廓等级数，例如0、-、+、-=、++;B的第一个值标示第一个音符的位置，B中的值随着音符的变化而逐步增加。

2 音乐特征提取算法

一般情况下，可以从两种音乐格式中提取旋律，一是声音音乐数据，主要是指基于波形形式的WAV、MP4，另一种格式是符号音乐数据，如乐谱和MID。从复杂的多声部波形音乐数据中自动提取各个声部信息是很復杂的，目前还没有很好的方法解决这个问题。在大部分情况下，数字音乐资源是对符号音乐数据即MIDI格式的音乐进行处理。MIDI文件绝大多数包含一个独立的单声部音轨。这些音轨有着特定的名字，如Melody、Vocal、Lead、String。MIDI的整体抽取操作是基于音轨特征来实现的。具体而言，首先要选择含有Melody、Vocal、Lead和String的音轨作为主要音轨，如果没有包含上述名字的音轨则将第一个音轨作为主要音轨。判断第一个音轨的条件是满足音符数大于某一值，从主要音轨中获取音调序列，然后对音调序列进行处理，以获得最终特征。

基于以上的分析，下面提出了提取音乐特征的算法，见图1。

3 结语

本文主要研究了数字音乐资源中基于内容的音乐检索关键技术、音乐内容的标示形式、基于特征的提取算法等问题，并且通过比较各种音乐内容标示方法的特点和优缺点，给出了笔者的音乐内容特征提取算法。

参考文献：

[1] 张晶.基于Web的音乐哼唱检索关键技术研究[D].西北大学，2008.

[2] 高为杰·陈丹布.曲式分析基础教程[M].北京：高等教育出版社，2009.

[3] 孙俪.哼唱检索中特征提取研究[D].北京邮电大学，2012.

[4] 刘亚琼.浅析歌曲旋律与音乐形象的关系——旋律线的探索[J].中国体卫艺教育论坛，2008（08）.

艺术科技2019年21期

艺术科技的其它文章: 从封闭到研究：大学校园空间规划研究述评; 教育戏剧; 移动互联网环境下营销游戏的发展与现状; 《时代周刊》封面中国元素传播范式研究; 高职学生人文阅读状况及对策研究; 乡村振兴战略下四平市民俗艺术特色产业发展建设研究