基于多特征融合的乐器声品质评价方法研究

2019-10-18 07:52陈燕文王燕平
测试技术学报 2019年5期
关键词:乐音频域主观

陈燕文,李 坤,韩 焱,王燕平

(1.中北大学 信息探测与处理山西省重点实验室,山西 太原 030051;2.中北大学 艺术学院,山西 太原 030051)

0 引 言

中国传统音乐是世界音乐史中璀璨的一部分,蕴含着丰富的历史、文化和民间传统资源,是民族历史的积淀和思想意识的结晶,是活着的传统.然而随着现在快速文化的涌入和影响,许多传统音乐正在逐渐消失,特别在民族乐器的传承与发展上严重不足.研究乐器声品质有助于民族乐器的传承与发展,对于乐器质量的改良起到至关重要的作用,对乐器购买者亦具有很好的指导意义[1].

目前,研究乐器声品质主要集中在乐器结构及其物理特性,如:材质、力学、尺寸大小和共振特性等[2-5].文献[6]从乐器选材、制作工艺上,对二胡声品质进行客观评价和鉴赏;文献[7-9]从主观听感上对乐器声品质进行评价研究.在音乐声学领域,对乐器质量进行客观测量评价是一项艰巨的任务[10].李子晋在主观评价与客观量分析之间建立了联系,并阐述了建立主客观评价方法的重要性[11];徐茂滨和田英志研究出分析二胡乐音的客观声音指标(主观与客观评价之间的桥梁),并通过客观测量来评估二胡乐音特性[12].

国内外关于乐器声品质评价研究多数集中在西洋乐器,民族乐器少之又少;评价研究主要是从乐器的结构以及物理特性出发,忽略了乐音本身的重要性.考虑到客观评价测量复杂,且不易准确实现,结合人工神经网络(Artificial Neural Networks,ANN)具有模仿人类大脑行为特征的功能,本文提出一种基于多特征融合的乐器声品质评价方法.通过主观评价法[13-15]获得乐器琵琶的声品质评价结果,并建立具有主观评价的乐音信号库;提取乐音信号的相关系数(Correlation Coefficient,CC)[16]、常数Q变换 (Constant Q Transform,CQT)[17-19]和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)[20,21],将单一特征以及多特征融合后通过基于BP神经网络[22]的乐器声品质评价模型,实现乐器声品质评价.实验结果表明,利用乐音信号的多特征融合[23]以及评价模型进行乐器声品质主观评价预测,取得了很好的效果.

1 建立主观评价的乐音信号库

乐器声品质评价方法研究建立在主观评价基础上,具有主观评价的乐音信号库是实验研究的样本.

1.1 主观评价法

主观评价法流程如图1所示.

具体过程要求为:

1) 乐器选择:选用不同价位、不同品质的6把琵琶作为主观评价与乐音信号采集的对象.

图1 主观评价法流程框图

2) 评价环境选择:由于评价环境的声学特性对于乐器声品质的听辨具有直接的影响.理想选择是在消音室内进行,但实际条件不允许,于是选择带有吸音材料的音乐厅进行.

3) 确定评价成员:评价成员必须具备较为深厚的音乐素养,熟悉所评价乐器的音响以及相关的评价项目,并能够较为客观、全面地进行评价.评价成员由5名琵琶专业教师组成,且保证评价员在听审时的身体与情绪状态均为正常.

4) 选择演奏人员:演奏人员对乐器实施的演奏行为会直接影响乐器声品质的结果,即使是同一种技术操作,其运用与把握的程度也会导致评价结果产生较大的差异.因此,选用演奏技术娴熟的专业教师一名,且保证演奏员在演奏时的身体与情绪状态均为正常,全部演奏由同一个人完成.

5) 选定评价曲目:以全面反映乐器声学品质为原则,由评价成员与演奏人员共同选定包含低中高音区的曲目《金蛇狂舞》.

采用5分评分制,最终获得的评价结果如表1所示.

表1 主观评价结果

1.2 构建乐音信号库

为了获取不同位置的乐音信息,搭建8路音频信号采集系统,采用8个高保真的拾音器,连接到计算机采集设备上.为了避免声波产生空间混叠现象,拾音器线性采集阵列间距应满足空间采样定理[24]

(1)

式中:fmax为演奏出的乐音最大频率值,选取阵元间距d=20 cm.为了满足采样频率不低于44.1 kHz[25]的要求,选用56.25 kHz.每个乐音音频文件采集时间为30 s,录制评价曲目中音域跨度广的一小段,每把琵琶进行3次主观评价与采集.8路均匀线性采集阵列如图2所示,建立乐音信号库的具体原理过程如图3所示.乐音信号库包含144个音频文件.

图2 8通道均匀线性采集阵列

图3 乐音信号库构建原理流程框图

2 乐音信号的特征提取

音频信号的特征提取参数有两点需要满足:① 不同特征参数之间能有效地区分开,且具备相对稳定性,不随时间与空间的变换发生实质性的变化;② 提取的特征参数应该尽可能全面,准确地反映音频信号的特性.

乐音信号的特征包含时域、频域和倒频域3种域特征,时域特征有短时能量(Short-term Energy,STE)、相关系数(CC)等;频域特征有短时傅里叶变换(Short-time Fourier Transform,STFT)、常数Q变换(CQT)等;倒频域特征有线性预测倒谱系数(Linear Prediction Cepstrum Coefficients,LPCC)、Mel频率倒谱系数(MFCC)等.为了尽可能全面、充分地获取乐音信号中的谱特征信息以及声场分布信息,本文选取时域中的相关系数(CC)、频域中的常数Q变换(CQT)和倒频域中的Mel频率倒谱系数(MFCC)作为特征提取.

2.1 相关系数(CC)

采集阵列中的阵元分布在声场的不同方位,故可以模拟不同位置的主观评价员.对声场中的不同采集信号做时域的相关分析,可以研究声场不同位置的相似度以及探究出声场的分布状态.互相关的物理意义是表示两个时间序列之间的相关系数,即表示两组不同随机信号之间的相关程度.两个随机信号的互相关函数定义为

(2)

将乐音信号库中的8个一组的音频文件(即8通道信号)两两求取相关系数,获得一个8*8的相关系数矩阵,并进一步提取矩阵特征值作为评价系统的时域特征.

2.2 常数Q变换(CQT)

CQT使音乐信号在12平均律的频点进行分解,体现了音乐信号频率分布规律,而短时傅里叶变换(STFT)并不能体现这种规律.

有限长序列的CQT变换为

(3)

式中:wNk(n)是长度为Nk的窗函数(选用汉明窗);Q是CQT变换中的常数因子;k是CQT谱的频率序号;Nk的值与k值有关.

Q=1/(21/b-1),

(4)

式中:b是一个8度内包含的频率谱线数.

(5)

fk=fmin×2k/b,k=0,1,…,K-1,

(6)

(7)

特征提取过程中,取b=12,fmin=27.5,fmax=4 186,fs=56.25 kHz.获得乐音信号的CQT谱如图4所示.

CQT变换,在低频部分频率分辨率高,在高频部分时间分辨率高.CQT谱信息保存在一个分音矩阵XCQT(k,n)中,其中,k=1,2,…,K为频点序号;n=1,2,…,N为帧序号.

图4 乐音信号与CQT特征曲线

2.3 梅尔频率倒谱系数(MFCC)

MFCC是基于人类听觉的非线性特性提出的一种特征提取方法,它比线性预测倒谱系数(LPCC)更符合人耳的听觉特征,可以更好地表征音符信号特性.Mel频率与线性频率的转换关系为

fmel=2 595log10(1+f/700),

或fmel=1 125ln(1+f/700),

(8)

式中:fmel是以Mel为单位的感知频率,f是以Hz为单位的实际频率.

通过观察分析如图5所示的Mel频率与线性频率对应关系曲线及Mel滤波器组频率响应曲线,可知Mel频率与线性频率是非线性关系,Mel滤波器在低频区域分布比较密集.

图5 Mel频率与线性频率对应关系曲线及Mel滤波器组频率响应曲线

MFCC特征参数提取原理如图6所示.

图6 MFCC特征参数提取原理框图

具体过程为:

1) 原始乐音信号x(n)经过分帧、加窗处理得到单帧的短时信号xw(i,n).分帧的目的是能把较短的单帧作为稳态信号处理,使帧间参数平稳过度,帧长wlen=1 024,帧移inc=512;加窗的目的是减少频域的泄漏,并采用汉明窗.

2) 快速傅里叶变换(FFT)

X(i,k)=FFT[xi(m)].

(9)

3) 计算每帧谱线能量

E(i,k)=[X(i,k)]2.

(10)

4) 计算通过Mel滤波器的能量

(11)

式中:i为第i帧;k为频域中第k条谱线.

5) 将Mel滤波器的能量取对数后计算DCT

(12)

式中:m是指第m个Mel滤波器(共有M=24个),i是指第i帧,是离散余弦变换(DCT)后的谱线.提取的MFCC特征如图7所示.

图7 乐音信号与MFCC特征曲线

2.4 多特征融合方法

由于各特征之间的性质不同,且具有不同的量纲和数量级.为了消除数值大小对于分析结果的影响,需进行去量纲与数量级处理.因此,为了保证实验结果的可靠性,多特征融合前需对各个特征数据进行标准化处理.采用Min-Max标准化处理

(13)

式中:min为各特征数据中的最小值;max为各特征数据中的最大值.

多特征融合采用首尾相接,即串联的方式,把提取得到的3个特征进行组合,形成融合特征.

3 基于BP神经网络的乐器声品质评价模型

3.1 建模基本思想

乐器声品质评价方法的研究最终目标是替代实现人的主观感受,尽可能取代主观评价,实现人工智能化.运用人工神经网络(ANN)具有模仿人类大脑行为特征的功能,采用BP神经网络进行建模分析,构建了基于BP神经网络的乐器声品质评价模型,其基本思想如图8所示.建立具有主观评价的乐音信号库,信号库中包含待训练的样本、测试样本以及验证样本.提取乐音信号的时域、频域和倒频域3种域中比较具有代表性、更贴近人耳感知的特征(CC,CQT和MFCC),作为特征参数进入评价模型学习与训练,得出最优预测评价结果.

图8 建模基本思想框图

3.2 BP神经网络

BP神经网络是运用最广的神经网络之一,具有很好的非线性映射能力以及自学习能力,主要运用于函数逼近、模式识别、数据压缩和数据预测等方面.BP神经网络是由Rumelhart与McCelland为首的科学家小组提出的多层前馈神经网络,它是一种机器学习方法,能够对训练样本特性产生特定的记忆,并对测试样本进行预测.采用误差反向传播(Back Propagation)算法进行有监督的学习,根据预测误差不断调整网络权值和阈值,从而使网络预测输出与期望输出达到一致.BP神经网络由输入层、隐含层和输出层构成,隐含层包含单层和多层.

3.3 乐器声品质评价模型

根据上述建模思想的分析,构建乐器声品质评价模型的结构如图9所示.输入层神经元个数根据输入特征维数而定,根据经验以及多次试验确定最优隐层层数及其各层神经元个数,预测评价结果作为BP神经网络的输出.

图9 BP神经网络评价模型结构

4 实验与结果

4.1 实验仿真

初步实验,采用融合特征(MFCC+CQT+CC)作为特征参数输入网络进行学习和训练.实验中,将主观评价结果作为期望值监督网络学习与训练;在144组样本中,110组作为训练样本,24组作为测试样本,10组作为验证样本.根据样本和网络结构特点,隐层传递函数均采用logsig,输出层传递函数采用purelin,网络训练函数采用trainlm,学习算法采用Levenberg-Marquardt算法.通过多次试验对比,调整网络参数,得到最优网络参数配置.

为了进一步验证采用融合特征(MFCC+CQT+CC)作为特征参数输入到BP神经网络是最佳的特征融合方式,进行了对比实验,采用单一特征和不同组合特征以及改变样本数进行探究实验.

4.2 结果分析

初步实验中,得到的结果如图10所示.从图10 中可知,预测输出值与期望输出值非常相近,有个别样本预测不是很理想,但总体上预测效果很好.测试样本的平均准确率为99.68%,验证样本的平均准确率也达到了99.49%.

图10 BP神经网络预测输出与误差曲线

进一步探究实验获得的结果如表2 和图11所示.

图11 不同训练样本数的平均准确率曲线

从表2 和图11 可知,平均准确率随着训练样本数的增加呈现上升趋势,且样本数达到50组以后,组合特征(MFCC+CQT+CC)的预测效果都强于其他几种特征组合;从整体上看,单一特征MFCC以及它的组合特征(MFCC+CC)预测效果不佳.

5 结束语

通过建立具有主观评价的乐音信号库作为实验对象,提取乐音信号的CC,CQT和MFCC特征,作为特征参数输入到基于BP神经网路的乐器声品质评价系统.单一特征MFCC和CQT以及其他4种组合特征分别进行实验.实验结果表明:融合特征(MFCC+CQT+CC)获得的预测评价效果最好,最大程度地表征了琵琶声品质特征;该乐器声品质评价方法可行.虽然取得了比较好的结果,但是该研究方法的普适性还有待于进一步研究与探讨.

猜你喜欢
乐音频域主观
大型起重船在规则波中的频域响应分析
“美好生活”从主观愿望到执政理念的历史性提升
如何区分乐音和噪声
加一点儿主观感受的调料
作文成功之路·作文交响乐——学生展现心灵乐音的舞台
频域稀疏毫米波人体安检成像处理和快速成像稀疏阵列设计
网络控制系统有限频域故障检测和容错控制
用心聆听学会区分
基于改进Radon-Wigner变换的目标和拖曳式诱饵频域分离
主观评述构式“很+x”认知研究