基于高频加权CQT谱的音符起始点检测

2015-12-20 06:56贺前华李新超杨继臣
计算机工程与设计 2015年9期
关键词:频带门限音符

林 静,贺前华,李新超,杨继臣

(1.茂名职业技术学院 机电信息系,广东 茂名525000;2.华南理工大学 电子与信息学院,广东 广州510641)

0 引 言

目前对音符起始点检测主要利用音乐信号的时域或变换域特征的变化进行判决检测,其中利用时域特征的有幅度差分、短时能量差分等[1,2],该类方法计算简单但鲁棒性差;利用变换域特征的方法主要通过短时傅里叶变换获取音符信号的频谱特征并利用频谱、相位变化进行音符起始点的判决,频谱特征相比时域特征提高了检测的准确性和鲁棒性[3-4],但进行短时傅里叶变换时,变换的时频窗口分辨率是固定的,对于频域跨度较大的音乐信号时域和频域分辨率不能同时兼顾,带来时间和频谱分布上的计算误差,导致检测错误[4]。CQT (constant Q transform)变换是一种变窗长的信号谱分布计算方法,其求得的频谱分布与音乐信号的音阶频率一一对应,更能准确体现音乐的频谱特征[5],根据音乐的CQT 谱分布特征进行音符起始点检测具有更好的效果[4]。文献 [6]在小波滤波后,采用CQT 谱距离检测音符的起始点取得了不错的效果,但采用CQT 变换计算谱分布时,低频部分窗长较长造成时间分辨率较低,使信号的谱分布在时间轴上产生超前和拖尾现象,影响音符起始点检测的正确性和定位精度。音乐信号通常含有丰富的谐波,音符谐波频率要高于音符的音高频率[7],其谱分布时间分辨率较高,在进行谱分布距离计算时,采用非线性加权,利用谐波信息增加高频成分的权重,可以提高起始点检测的准确性,本文提出了高频加权的谱能量差分检测音符起始点算法,并采用标注的音乐曲目对算法的有效性进行了验证。

1 信号的CQT分布

1.1 音乐信号的韵律分布

音乐信号是由高低、长短不同的音按一定规律组成的,一般现代乐器普遍采用十二平均律来确定各音的绝对准确音高 (频率)。对于音乐信号而言,音符变换即音高发生变化时就是音符起始点。

钢琴是现代乐器使用十二平均律的典型代表,有88个高低不同的音,最低音为27.5Hz,最高音为4185.6Hz,低于或高于这个范围的音一般不用[7]。每个相邻的琴键所发出的音的频率比值均相等,其基音频率之比为2的1/12次方。

1.2 CQT变换

CQT 变换是一种频率带宽比为常数的变换,根据谱线频率的不同改变窗长以获得更好的性能,这是CQT 的一个显著特点,其采用指数分布的频域采样点与音乐信号的音阶频率指数分布规律相同,进行CQT 变换后指数规律分布的频带与音乐的音阶频率是一一对应的[4]。其频带中心频率定义如式 (1)所示

式中:fk——音符信号在所变换谱内的第k 个频率分量,fmin——所处理音乐信号的频率下限,K——CQT谱变换的划分的频带数目,b——一个八度的频率范围所包含的谱线数。

频率带宽比为Q,CQT 因保持Q 为常数,则Q 是由b决定,满足式 (2),式中δf是频率f 处的频带宽度

根据频率的解析度的定义,可得随频率变化的窗长Nk,如式 (3)所示,式中fs是采样率

式 (4)对信号加窗、变换得到信号的CQT 有限长序列X(k)

式中:x(n)——时域信号,WNK——长度为Nk的窗函数,可以取矩形窗、汉明窗等。Q——CQT 变换中的常数因子,在式 (1)~式 (3)中,令b=12,K=88,fmin=27.5Hz,fmax=4185.6Hz,n=1…N 为帧序列号。可求得音乐信号CQT 谱分布矩阵X(K,N)。

由式 (1)~式 (4)可见,CQT 采用频率带宽比为常数的等比序列,得到音乐信号的音高分布矩阵,为音乐信号提供了更为合理的频谱表示方式。

1.3 信号CQT谱的分布特点

由于音乐信号中的音符是按照十二平均律分布,在对音乐信号进行CQT 变换时,每个音符都被分解在其对应的特定音阶频率上,而通过每个音阶频率分布的变化可以判定音符的起始点,对应的音高及音强等。在实际的音乐信号中,包含着丰富的泛音和噪音,其CQT 分布在多个频带上,增加了音符起始点检测的难度,但对于特定的音符信号,在没有噪声干扰的情况下,其泛音的构成是相对稳定的,其CQT 分布也是相对稳定和有规律的,如果能滤除信号中的噪声,通过CQT 谱分布的变化,仍可以准确判定音符的起始点。音乐信号中产生的噪声信号主要也是高斯白噪声信号,短时窄带脉冲干扰,工频交流噪声等。

高斯白噪声的频谱分布于多个频带上,在一定的信噪比条件下,信号谱能量的分散分布使每个频带的谱分布值很小,通过设定门限,将小于门限的频带滤除,可去除对应的噪声信号。短时窄带脉冲噪声能量集中于少数频带,但通常时长较短,帧数很少,可以通过设定帧长门限将其滤除。工频交流噪声主要分布于工频对应的音阶频率上,通过提高对应频带上的噪声门限,可将其滤除,但通常持续存在于音乐信号的整个过程,影响音符的识别,但对音符起始点的检测影响不大,因此本文未滤除工频交流噪声。

为了验证信号CQT 变换后的分布特性,图1为一段依次由钢琴音乐信号、高斯白噪声信号、单频标准正弦信号构成的序列信号及其CQT 分布。

图1 不同信号的CQT 谱分布

如图1 (b)所示,钢琴音符信号的频谱分布在其音高频率和谐波对应的频带上,并且对比图1 (a)的时域波形产生时间,音符音高对应的谱分布产生了超前和拖尾现象。高斯白噪声信号的频谱散布在其多个频带上,每个频带上分布的能量较小。正弦信号能量集中分布在其频率对应的频带上。

2 基于高频加权CQT谱的音符起始点检测

本文提出的高频加权CQT 谱能量的音符起始点检测的流程如图2所示。

图2 音符起始点检测流程

2.1 对音乐信号进行CQT变换

设定CQT 变换的帧移点数,按照1.2 所描述的CQT变换过程,读取音乐信号进行CQT 变换得到按频带顺序和帧序分布的矩阵X(K,N),设定相关函数K、b、帧移、窗函数等,采用式 (4)对整段音乐信号做CQT 变换,对其进行归一化处理使信号的谱分布值规整在0 和1 之间,设X(K,N)的最大值为CQMAX,利用 (5)式归一化

2.2 滤除噪声

对实际的音乐信号中可能存在高斯白噪声,窄带脉冲噪声等,可在CQT 变换后,根据这些信号CQT 分布的特点,在CQT 频谱域进行处理,去除相关干扰。

2.2.1 设置能量门限滤除高斯白噪声

(1)高斯白噪声的频谱是均匀的分布在所有频率上,音符信号的能量稀疏分布在少数频点上,经过CQT 变换后,在一定的信噪比条件下,每个频点上噪声的能量分布要远小于音符信号的能量,通过设置门限可将其滤除。对于一般音乐信号,谱分布通常是稀疏分布的,通过实验门限取整个分布的平均值δ,如式 (6)所示即可将噪声滤除

(2)将归一化后的谱分布通过门限去除噪声,使低于门限阈值的谱值为零,如式 (7)所示

2.2.2 设置时长门限滤除短时窄带脉冲噪声

短时窄带脉冲噪声的频点可能集中在某些频点上,但时长有限,音符信号通常都有一个相对连续稳定的过程,通过检测频点上能量分布的帧长,设置帧长门限消除小于正常音符帧长的信号,在未知音乐信号节拍的情况下,按照演奏节奏Bpm 和音符占节拍的最小比例1/L(通过节拍记号计算),计算一个最小音符的时间长度Tmin,FrameInc为CQT 变换的帧移,如式 (8)所示,即为门限δL(在相关信息未知的情况下,考虑极限情况,也可按文献 [7]音符最短为Tmin=0.0625 S计算δL),通过判别CQT 分布各频点的连续性可以滤除短时窄带脉冲噪声干扰

2.3 高频加权的CQT谱能量差分

音乐信号CQT 变换后,CQT谱信息保存在一个与音阶频率对应的谱分布矩阵X (K,N)中,根据式 (9)计算两帧信号的CQT谱能量差分值,得到一个能量差分函数即音符起始点判决函数,音符起始点通常伴随着相邻帧幅值增大的情况,谱能量差值的谱峰点即为音符信号的起始点

由于CQT 变换采用变窗长计算,低频部分的时间分辨率较低,使低频信号谱分布产生超前及拖尾现象,利用音乐信号谐波成分丰富且时间分辨率较高的特点,在计算谱能量差分时,通过调整高频部分和低频部分的权值,突出高频部分的权重,降低低频部分时间分辨率较低带来的影响,参照音乐信号的十二平均律分布,本文提出权值的计算公式如式 (10)所示,随频率的增加,权值变大,修改后的能量差分函数如式 (11)所示

2.4 音符起始点检测

谱能量差分函数的峰值点通常就是音符信号的起始点,但对于小提琴等音乐信号本身会产生所谓调制包络,产生虚假的峰值点,为提高算法的鲁棒性,减小算法的误识率,设置一个能量门限,取差分序列的平均值作为能量门限,如式 (12)所示

判定音符起始点,设定判定条件如式 (13)所示,即如果d(n)是谱能量差分函数的峰值点,且能量的增量大于门限δd,则判定该点为音符信号的候选起始点

为防止局部峰值点造成重复检测,设置峰值点间隔δlt如式 (14)所示,如果几个候选起始点的间隔小于δlt,则取d(n)最大的,舍去其它的,本文中取δt=Tmin

3 实验仿真

3.1 算法性能验证

为了验证算法的性能,选取已标注时间的MAPS[8]库中的一段音乐MAPS-RE-M61,加入高斯白噪声和短时正弦脉冲干扰的混合信号采用本文算法进行实验。

音乐信号如图3 (a)所示,噪声信号如图3 (b)所示,混合后得到如图3 (c)所示的信号。

图3 MAPS-M61音乐信号及噪声混合信号

对混合信号CQT 变换后的谱分布如图4 (a)所示,按本文的算法滤波后得到的谱分布如图4 (b)所示,说明本文算法在CQT 谱域可以滤除相关噪声。

图4 混合噪声的音乐信号滤波前后的CQT 谱分布

对图3 (c)所示的混合信号分别采用时域短时能量,原始CQT 谱分布、滤波CQT 谱分布,高频加权CQT 谱分布进行能量差分的起始点检测,采用CQT 谱的3组实验参数相同。结果如图5、表1所示,图5中高度较高的菱形表示信号的真实起始点,高度较低的标注为本文实验检测的起始点。

表1 混有噪声的MAPS-M61的音乐信号起始点检测结果

实验结果采用国际音乐信息检索评估交流评比大会MIREX (music information retreval evaluation Xchange)的标准进行评价,允许误差为50 ms,评价指标有准确率P(precision),召回率R (recall),F值 (f-measure)[9],其计算方法如下

图5 混合噪声的钢琴音乐起始点检测实验结果

式中:Ocd、Ofn、Ofp——正确检测点个数、未被检出的漏检点个数、检测结果发生错误的误检点个数。准确率和召回率是互相制约的两个指标,F 值是这两种指标的综合。

由图表可见噪声信号影响了短时能量差分法的检测结果,且如图5所示在4.5s附近由于音符间隔时间较短,能量起伏不明显,短时能量法也出现了漏检问题;原始CQT算法和短时能量算法效果一样,不具备抗干扰能力,由于CQT 谱的低频超前和拖尾使算法出现了漏检问题;滤波的CQT 算法剔除了噪声的影响,但在4.5s附近由于音符间隔时间较短,CQT 超前拖尾问题带来的能量重叠产生了漏检问题,本文的高频加重CQT 算法准确实现了音符起始点的检测,验证了本文提出的高频加权CQT 算法具有良好的抗噪能力和较准确的起始点检测能力。

3.2 算法性能测试

为更好地测试算法的性能,选取已标注音符起始点的ODB数据库[10]的18首曲目以及MAPS内的32首标注曲目共50首进行实验,曲目涵盖多种类型,其中钢琴曲目居多,总时长2430s,共2838个起始点,采用本文的高频加权CQT 能量差分求得最好实验结果,和MIXREX 最好结果比较见表2,从结果看本文算法的F 值要高于2011 和2012MIREX[9]的求解结果。

表2 本文算法和MIREX 比较

4 结束语

音符起始点检测是音乐信号分析处理中关键的一步,本文应用改进的高频加权CQT 谱能量进行音符起始点检测。该算法针对音乐信号通过CQT 变换时由于不同窗长带来的低频时移超前和拖尾问题,利用音乐信号谐波丰富的特点,采用高频加权的CQT 谱能量差分法实现音符起始点的检测,采用标注的音乐数据库验证了算法的有效性。由于音乐信号起伏变化复杂,不同曲目判决门限的差异较大,进一步提高相关门限的自适应能力,提高算法的鲁棒性是下一步研究的重点。

[1]Michael A,Casey RV.Content-based music information retrieval:Current directions and future challenges [J].Proceedings of the IEEE,2008,96 (4):668-696.

[2]Toh CC,Zhang B,Wang Y.Multiple-feature fusion based onset detection for solo singing voice[C]//9th ISMIR,2008.

[3]Zhou R,Mattavelli M,Zoia G.Music onset detection based on resonator time frequency image[J].IEEE Transactions on Audio,Speech,and Language Processing,2008,16 (8):1685-1695.

[4]HAN Yahuan.Music onset detection based on Constant Q transform [D].Nanjing:Nanjing University of Posts and Telecommunications,2013 (in Chinese).[韩雅欢.基于Constant Q 变换的音符起始点检测算法研究 [D].南京:南京邮电大学,2013.]

[5]Schorkhuber,Christian,Anssi Klapuri.Constant-Q transform toolbox for music processing [C]//7th Sound and Music Computing Conference,2010.

[6]GUI Wenming,LIU Ruifan,SHAO Xi,et al.Note onset detection based on constant Q transform [J].Computer Engineering,2013,39 (10):283-286 (in Chinese). [桂文明,刘睿凡,邵曦,等.基于常量Q 变换的音符起始点检测 [J].计算机工程,2013,39 (10):283-286.]

[7]Muller M,Ewert S.Towards timbre-invariant audio features for harmony-based music [J].IEEE Transactions on Audio,Speech,and Language Processing,2010,18 (3):649-662.

[8]Emiya V,Badeau R,David B.Multipitch estimation of piano sounds using a new probabilistic spectral smoothness principle[J].IEEE Transactions on Audio,Speech,and Language Processing,2010,18 (6):1643-1654.

[9]MIREX [R/OL].http://www.music-ir.org/mirex/wiki/MIREX_HOME,2014.

[10]Onset Detection Database[DB/OL].http://grfia.dlsi.ua.es/cm/projects/prosemus/database.php,2014.

猜你喜欢
频带门限音符
基于规则的HEV逻辑门限控制策略
Wi-Fi网络中5G和2.4G是什么?有何区别?
随机失效门限下指数退化轨道模型的分析与应用
基于Neyman-Pearson准则的自适应门限干扰抑制算法*
美妙音符
单音及部分频带干扰下DSSS系统性能分析
春天的音符
双频带隔板极化器
音符(两首)
生产性服务业集聚与工业集聚的非线性效应——基于门限回归模型的分析