基于内容的音乐语义特征描述方法

2013-09-19 10:29:30张二芬徐淮杰

电子设计工程 2013年1期

张二芬，徐淮杰

（河海大学计算机与信息学院，江苏南京 211100）

音乐是能够代表人们情感、个人风格、精神状况以及有关人性的其他方面的一种交流方式。尽管很多时候，对于同一首歌，不同的听众会给出不同的关键词来描述，然而听众还是常常试图使用关键词来描述他们听到的歌曲。使用关键词的描述确实能够反应音乐的一些内容，比如音乐的旋律、风格、表演乐器和用途等[1]。而且，对于听众来说，人们并不关心也不熟悉音乐的较底层音频特征，而对于较高层的关键词比较熟悉也比较感兴趣。根据这一观点，本文提出一种方法，能够找到音乐的低层特征和高层语义描述之间的联系，给出音乐的丰富的关键词的描述，这将在音乐的相似度比较、基于内容的音乐检索及推荐等方面提供很大的方便。

1 总体设计

该方法实现的总体结构图如图1所示，这里的每一个音乐文件都要经过短时窗的特征提取，组成一系列音频特征向量，关键词的选择即是选取将要训练的语义关键词，并找到与关键词相关的歌曲，将这些歌曲作为训练集。这里的参数模型GMM是针对要进行训练的每一个关键词，取得关于其在音频特征空间上的一种分布，每一个分布使用混合高斯模型（GMM）建模。每一个关键词的GMM的参数估计是由和此关键词相关的一系列歌曲组成的音频内容来估计。通过GMM的参数估计，得到歌曲的关键词的概率分布，从而得到语义特征向量，完成基于内容的音乐语义特征描述。

图1 总体结构图Fig.1 Structure diagram of the overall structure

2 音乐特征提取

音乐是一种重要的音频类型，具有节奏、旋律和调性等要素，是人声、乐器等发声体配合所构成的声音。除了声波形式以外，音乐还可以用乐谱来进行表示，基于声波形式的信号可以得到音乐的低层特征。特征提取是指寻找原始音频信号的表达形式，提取能够代表原始信号的数据[2]。一般采用的技术路线有2条：1）从叠加音频帧中提取特征，其原因在于音频信号是短时平稳的，所以在短时提取的特征比较稳定。2）从音频片段中提取，因为任何语义都有时间延续性，在长时间刻度内提取的音频特征可以更好地反映音频所蕴含的语义信息，一般是提取音频帧的统计特征作为音频片段特征，特征参数提取图如图2所示。

图2 特征参数提取图Fig.2 Diagram of the extracting of characteristic parameters

文中对基于音频帧的低层特征进行了如下内容的提取。

1）节奏（tempo）音乐的节奏是一个广义词，包括音乐中与时间有关的所有因素，它指音乐运动中音的长短、强弱的变化规律，比如语义关键词标注为 happy，excting，powerful等关键词，相应的tempo值比较高，相反，语义关键词标注为sad，tender，sleeping等关键词，相应的 tempo值比较低。

2）旋律清晰度（pulseclarity）估算旋律清晰度，揭示了节拍的强度，强度越强，能量越大，信息量就越大。这一特征对于关键词标注为流派的genre-pop，genre-soul，genre-rock等的区分性意义很大。

3）主调（mode）估计音乐的主要感觉，返回 major和minor的值，如果值大于0，且越大于0，预测的就是 major越多，反之值越小于0，minor越多，主要表征的是音乐信号的频率信息。

4）调性（key）主要包括7个与主因有固定关系的音色的调因系统（如E大调）。在西方音乐中，调性一直是音乐的结构基础。

5）清晰度（keyclarity）调性的清晰程度，找到最好的调。

6）音调中心（tonalcentroid）是在色谱图的基础上加入了和弦结构信息（五度循环圈）得到的六维信息，主要表征的是音乐信号的频率信息，能够检测和弦的变化，反应音乐的旋律特征。

7）调强度（keystrength）计算key的强度。

在提取特征参数过程中，首先将音乐文件转换成单声道wav格式的音频，每段音乐的位速是256 kbps，采样大小是16位，采样频率为16 kHz，音频格式为PCM。参考MIRtoolbox工具包[3]，提取时间采用的是帧长5 s，帧移0.5 s，提取以上所述特征参数，得到1维的节奏（tempo），1维的旋律清晰度（pulseclarity），1维的主调（mode），1维的音调（key），1维的音调清晰度（keyclarity），6维的音调中心（tonalcentroid），24维的调强度（keystrength），最终组成一个35维的长时特征矢量，这个步骤是在matlab环境下进行的。每首歌曲用一个txt文档保存其按帧提取出来的的特征矢量。

3 音乐的语义特征标注

如何描述音乐的语义特征是一个关键问题。随着生活条件的提高，人们越来越注重精神品味的培养，在不同的场合人们将需求不同的音乐，对音乐的用途提出了越来越明确以及细致的要求，这就要求我们能够对音乐进行全面的剖析和描述。本文使用 Computer Audio Lab 500（CAL500）数据集[1]。其具体做法是，通过用户一边试听音乐一边对音乐进行关键词标注的方法，对语义标签给出了一个清晰的定义集本。这些语义词包括18种表示情感的标注，如emotion-happy，notemotion-happy等；36种表示流派的标注，如 genre-pop，genrerock等；29种音乐器具的标注，如instrument-bass，instrumentpiano等，等等。这个数据集要反应出语义词与歌曲之间联系的程度，因此对于每一首歌，在给出一系列关键词标签的同时，也给出了标签对应的分值。这样每一首歌，都由一个数值向量来表示，其数值分布在0到1之间，0表示这首歌与这个关键词不相关，1表示极其相关。

对于接下来要做的模型的训练，要进行关键词的选择，即选择要进行训练的关键词，找出这个关键词分值大于0的这些歌曲，作为训练集，生成基于关键词的模板。

4 实验

4.1 混合高斯模型（Gaussian Mixture Models，GMM）原理

GMM[4]训练的过程，首先需要进行样本的选择。对于每一个单词来说，要进行一个GMM的训练，训练样本集的选择即是与这个单词相关的歌曲。这里选择单词标注值大于0的歌曲作为训练样本集，实验中，500首歌中随机选择85%作为训练集，剩下的15%作为测试集。

高斯混合模型由M个多维的高斯概率密度函数线性加权求和构成，可以用公式表示如下：

其中X是N维音频信号特征矢量，M是混合高斯模型的阶数，pi（X）是高斯混合模型分量，βi是对应高斯混合分量pi（X）的加权因子。

在获得了音乐的低层特征之后，GMM的训练即是估计模型的参数，即通过最大似然估计法，给定训练矢量集的情况下，寻找合适的模型参数，使得GMM的似然函数最大[5-6]。

高斯混合模型的似然函数表达式如：

其中 X 为训练矢量集，X={x1，x2，…，xn}。

对于高斯混合模型的阶数M的选择，一般情况是M选取的大一些比较好，但也并不是M越大越好，况且随着M的增大，对于训练的时间成本也造成很大了影响。文中使用M为9的混合高斯模型进行训练，得到基于关键词的模板的均值和方差以及对应的权重。

4.2 语义特征向量的形成

经过GMM的训练得到词汇库中每一个关键词的均值和方差，接下来使用贝叶斯法则去计算每一个关键词的先验概率[1]。i），根据全概率公式得到

这样可得

使用公式（5）可以计算出每一个单词在一首歌里出现的概率。对于一首歌，将得到这首歌的所有关键词模型的概率向量，在这里将这个概率向量称为语义特征向量，这样完成了由低层音频特征向高层语义特征的一个映射。语义特征分布图如图3所示，这里是对于air_sexy_boy.wav这首歌的词汇库中关键词的语义特征向量分布，图中还标注出了对于这首歌描述的8个最大概率的关键词。

5 结论

文中提出的基于内容的音乐语义特征描述方法，采用提取音乐丰富的较低层音频特征，训练基于语义关键词的GMM模型，不仅给够对歌曲进行语义关键词的描述，而且还能够给出关键词的程度。对于一首歌来说，使用语义特征分布来代表一首歌是十分有意义的，这将对于音乐的检索或是推荐分析工作都提供了很大的方便。使用语义特征向量来表征一首歌，一方面给出了底层音频特征到高层语义特征的映射关系，弥补了语义空缺；另一方面，将音频信息转化成更易于处理的数值信息，这对于音乐的相似度比较，提供了一个很好的入口。

图3 语义特征分布图Fig.3 Diagram of the Semantic features distribution

[1]Turnbull D，Barrington L，Torres D，et al.Lanckriet.Towards Musical Query-by-Semantic Description Using the CAL500 Data Set[EB/OL][2012-8-10].http://cosmal.ucsd.edu/cal/pubs/MusicQBSD_SIGIR07.pdf

[2]韩纪庆，郑铁然，郑贵滨.音频信息检索理论与技术[M].北京:科学出版社，2011.

[3]Lartillot O.MIRtoolbox1.3.2 User’s Manual[M].Finland：Finnish Center of Excellence in Interdisciplinary Music Research University of Jyvaskyla，2011.

[4]Reynolds A，Rose C.Robust text-independent speaker identification using caussian mixture speaker Models[J].IEEE Transactions on Speech and Audio Processing，1995，3（1）:72-83.

[5]Steve Young，Dan Kershaw，Julian Odell，et al.The HTK Book for HTK Version3.4[M].Cambridge University Engineering Department（CUED），2009.

[6]Timo Sorsa and Jyri Huopaniemi Nokia Research Center.Speech and Audio Systems Laboratory.Melodic Resolution in Music Retrieval[EB/OL][2012-8-10].http://ismir2001.ismir.net/posters/sorsa.pdf.