基于节拍谱的语音音乐分类模型*

2020-11-20 03:12
通信技术 2020年11期
关键词:余弦音频语音

(昆明理工大学,云南 昆明 650000)

0 引言

语音和音乐是语音信号处理中非常重要的两类数据。语音和音乐信号的分类在音频检索、节拍追踪以及语音识别等各个领域有着重要意义。例如,在语音信号处理中,先判断类别,若是语音类,后续步骤可以分析语种、性别等。若是音乐类,后续步骤可以分析音乐类别、节拍追踪等。由此可见,语音与音乐分类影响着后续的实验结果。

目前,对于语音和音乐分类问题有多种多样的分类方法。万玉龙[1]等人用回声器时频分析计算平均能量谱和定长片段的优化短时低能量比,由分类器判定类型,并根据内容连续性修正分段结果,最后采用振幅包络匹配滤波器求所有起始点,从而进一步优化分段结果。文献[2]基于感知机的区分,主要提取信号的短时幅度、音调等,通过阈值判定信号类别。卢坚[3]等人首先对音频进行分帧,计算每一帧的傅里叶变换系数和频域能量等音频的7个特征,使用隐马尔可夫区分语音和音乐。文献[4]则使用过零率等特征区分广播中的音乐与语音信号。文献[5]提出了一种基于广义高斯分布描述符的语音/音乐分类特征提取方法,将音频信号转换为IIR-CQT 谱图,可在高频时提供优越的时间分辨率。与提供均匀频率分辨率的传统短时傅里叶变换分析相比,它在低频时提供了更好的频谱分辨率。文献[6]提出了基于各态历经混合高斯密度隐马尔可夫模型的分类器,提取了信号的子带能量比、带宽均值等8 个特征值应用于语音、音乐和混合声音的分类。文献[7]则基于MLER 的分类方法,计算优化低能量率作为特征,然后利用初级分类器得到初步分类的结果,最后利用音频类别的前后相关性,使用上下文分类器修正初始分类得到最终分类的结果。

以上是通过各种方法求取常规参数,使用各种分类器区分语音与音乐,忽视了音乐具有节拍这一特征。节拍是指强拍和弱拍的组合规律。强拍和弱拍按照一定的顺序循环重复,形成了节拍。在音乐中,节拍用强弱关系来组织音乐。因此,提出了基于节拍谱的语音音乐分类模型,即音频经过预处理后,将其通过梅尔三角滤波处理得到MFCC 参数,把MFCC 参数用自相关的相似矩阵得到节拍谱,最后统计相关阈值判断音频的种类。在后续非实时提取音乐的节拍时间点,此模型对其影响较少,且运算速度较快。

1 模型描述

根据音乐计算的节拍谱存在周期性规律,而大部分语音是无规律的。本文选用节拍谱作为模型的输入特征,以判断信号为语音或者音乐。信号的特征参数不仅影响模型的准确率,还影响模型的计算速度。

1.1 梅尔频率倒谱系数

美尔频率倒谱系数是将人耳的听觉感知特性和语音的产生机制相结合,已广泛被应用在语音识别系统领域。人耳所听到的声音的高低与声音的频率并不成线性正比关系,用梅尔频率尺度更符合人耳的听觉特性。梅尔频率尺度的值大体上对应于实际频率的对数分布关系,与实际频率的具体关系为:

式中,Mel{x}是以Mel为单位的感知频率;x是以Hz 为单位的实际频率。

1.2 余弦相似度

通过计算两个向量夹角的余弦值来评估其之间的相似性,0°的余弦值为1,而其他任何角度的余弦值都不大于1,且最小值为-1。音乐具有节奏的特性,使得计算其相似性时具有一定的重复性,而话音则不会。具体公式为:

式中,a、b分别为两个特征向量;cosθ为算出的余弦值。

1.3 节拍谱

节拍谱是声学自相似性的一种度量,是时滞的函数。高度结构化或重复性的音乐会有很强的节拍谱峰,揭示了节奏和特定节拍的相对强度,因此可以区分同一节拍的不同类型的节奏。节拍谱与以往的节奏分析方法不同,节拍谱不依赖于能量或频率等特定属性,因此适用于任何类型的音乐或音频[8]。本文的节拍谱是对信号进行短时傅里叶变换,以每帧信号的幅度作为特征向量进行相似性计算。利用特征向量的夹角余弦参数,通过式(3)计算得到信号的相似矩阵。节拍谱通过计算相似矩阵的自相关得到:

式中:x(i)、x(j)为分别为第i帧、第j帧的特征向量;R(i,j)为相似矩阵;C(k,l)为对称矩阵;只需按行或者按列相加,即可得到节拍谱C(l)[8]。

1.4 模型步骤

根据音频相关特征的语音音乐分类的模型流程如图1 所示。

具体的模型步骤如下。

步骤1:提取MFCC 参数。提取原理如图2 所示。预处理包含分帧加窗等。FFT 为快速傅里叶变换。Mel-Filtering 为梅尔三角滤波器组,DCT 为离散余弦变换。本实验使用MATLAB 的MFCC 函数提取得到MFCC 参数。

图2 MFCC 参数提取过程

步骤2:基于文献[8],用余弦相似度计算MFCC 参数两两之间的相似性,可得到一个相似矩阵。其中,语音信号的节拍没有周期性规律,音乐信号会周期性形成峰值。实验使用MATLAB 的cos函数计算得到特征向量的相似性。余弦距离更多从方向上区分差异,而对绝对的数值不敏感。正因为余弦相似度在数值上的不敏感,只能分辨个体在维度之间的差异,没法衡量每个维数值的差异,所以得到的相似矩阵更能体现出节拍的周期性规律。

步骤3:用相似矩阵的自相关性得到节拍谱。基于文献[9]中关于节拍的特征,它能够反映节奏的周期性变化规律。节拍谱不依赖于能量或频率等特定属性,因此适用于任何类型的音乐或音频,反映了节拍周期性变化规律。实验使用MATLAB 的xcorr 函数计算其自相关。节拍谱中的峰值对应于音乐信号中的主要节奏成分,不同峰的相对振幅反映了其对应韵律成分的强弱。一些拥有强烈节奏感的音乐节拍谱的峰值变化会比较明显,而节奏感比较弱的峰值变化稍弱。图3 为音乐的节拍谱图,可以看到有明显的起伏。

图3 节拍谱

步骤4:归一化。归一化的目的是把得到的数据限制在一定区间内,使得各个音频的数据易于后续的处理,且可以消除奇异样本数据导致的不良影响。归一化公式为:

式中,X为算出节拍谱后的幅度值,X´为归一化后的值。

步骤5:统计并计算阈值判定音频类别。基于总体判定的准确率设定阈值,判定流程如图4 所示。当语音或音乐的准确率下降过大时,则阈值调整完毕。

2 实验结果及分析

为验证基于节拍谱的语音音乐分类模型的分类准确率,实验的样本数据来源为广播电台、普通话学习网以及MIR 数据等。此数据用来设定阈值。实验测试数据来源为普通话学习网、各个广播电台各大音乐app 下载的音乐等,共有436 个样本,其中音乐为198 段个样本,语音为238 个样本。每个样本的采样频率为16 kHz,精度为16 bit,单声道,每段时间长度为10 s。

实验1:测试了32 维的MFCC 参数节拍谱,实验结果如表1 所示。

实验2:测试了13 维的MFCC 参数节拍谱,实验结果如表2 所示。

模型结果与文献[10]的模型对比,分类结果提高了3%左右。与文献[11]的模型对比,音乐的区分高2%左右,说明本模型分类具有有效性和合理性。本模型对音乐的区分度会高的原因是音乐包含节拍特性,因此识别率会更高。

为了验证模型对节奏不明显的音乐与语音有同样的区分效果,对其进行了实验。实验数据集选用了古典音乐和普通话,共有200 段样本,其中音乐为100 段样本,语音为100 段样本。每个样本的采样频率为16 kHz,精度为16 bit,单声道,每段时间长度为10 s。实验结果如表3 所示。

图4 阈值判定流程

表1 实验1 的分类结果

表2 实验2 的分类结果

表3 实验3 的分类结果

可以看到,语音与音乐的识别率可以达到98%,证明了此模型对节奏不明显的音乐同样具有分类能力。

3 结语

语音和音乐是最重要的两类音频数据。语音音乐的分类在基于内容的音频检索、视频检索和摘要以及语音文档的检索等领域都有重要的应用价值。本文主要提取信号的节拍特征,能够揭示不同类型音频的时间统计特性。实验结果表明,基于节拍谱的语音音乐区分模型对于音频的分类是有效的。可以看到,实验1 的结果与实验2 的结果准确率相差不大,准确率都在96%上下,说明维数的改变对结果影响并不大。实验2 中的音乐区分接近了100%的正确,但是语音区分正确率略低。两个实验都可以看出,识别音乐的正确率会比识别语音的正确率高2%左右。实验3 的结果证明了此模型对节奏不明显的音乐信号依然有效。实验后续又做了GTCC的对比,发现MFCC 的正确率较高。但是,对比其他模型,此模型正确率还需提升。因此,后续将主要加大数据集,探究能否在不影响后续试验的基础上提高准确率。

猜你喜欢
余弦音频语音
旋转变压器接线故障分析法的研究
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
对方正在输入……
基于Daubechies(dbN)的飞行器音频特征提取
音频分析仪中低失真音频信号的发生方法
两个含余弦函数的三角母不等式及其推论
实施正、余弦函数代换破解一类代数问题