基于音频特征的乐器分类研究

2018-09-04 09:37胡耀文龙华孙俊周涛邵玉斌

软件导刊 2018年6期

胡耀文龙华孙俊周涛邵玉斌

摘要：针对现有乐器分类研究中存在的使用特征量过多、分类准确率有待提高等问题，提出了一种特征量少、准确度高的乐器分类方法。基于Relief算法的主成分特征提取方法，计算出各特征量的权重，设计3层的神经网络分类器。根据所提算法和分类器，使用8项音频特征与传统的24项MFCC特征，分别对中西方9种乐器进行了分类实验，并分别使用权重最高的4、5、6项特征进行分类实验。结果表明，所提出的音频特征相比于传统MFCC特征对乐器分类的平均准确率更高，达到94.84%，且特征量更少，说明基于Relief算法的主成分特征提取方法能有效减小低相关性特征对分类准确率的影响。

关键词：乐器分类；音频特征；MFCC；Relief算法；特征提取

DOI：10.11907/rjdk.172983

中图分类号：TP301

文献标识码：A 文章編号：1672-7800（2018）006-0017-05

Abstract：To solve the problems in musical instrument classification studies like using too many features，lowclassification accuracy，etc，we proposed a musical instrument classification method with less features and high accuracy.We calculate the weight of each characteristics using the principal component feature extraction method based on Relief algorithm，and design three-layer neural network classifier.According to the proposed algorithm and classifier，we conduct the classification experiment between eight features proposed in this paper and traditionally twenty-four MFCC features，which include nine musical instruments consist of Chinese and western musical instrument，and accomplish the classification experiment by using the fourth，fifth and sixth characteristics with highest weight respectively.Results show that features proposed in this paper is fewer than MFCC features，and can get higher average accuracy which reached 94.84%.We can draw a conclusion that the principal component feature extraction method based on Relief algorithm can reduce the influence of low correlation characteristics on classification accuracy effectively.

Key Words：musical instrument classification； audio feature； MFCC； Relief algorithm； feature extraction

0 引言

乐器自动分类是音频检索的重要组成部分，如何使用计算机分析和检索多媒体数据中大量的音频数据成为研究热点。Zhu Liu 等 [1]通过对特征空间的簇间和簇内距离分析，确定了包括幅值标准差、基因周期、能量比等12项特征的有效特征集，通过神经网络分类器实现对5种电视节目的分类。JD Deng等 [2]将基于特征分析的经验学习用于古典乐器识别，使用机器学习技术对提取的特征集进行选择和评估，使用选出的17项特征将乐器分为铜管乐器、木管乐器、弦乐器、钢琴4类，平均准确率达到96.5%。Xueyuan Zhang等 [3]从频谱中提取音高、音色及信号的非谐部分，提出了基于谱波分解的音频特征集，使用主成分分析法（PCA）对特征向量进行删减，对包括男声、女声、鸟叫声等13种音频进行分类测试，平均准确率达到了84.1%。Mangal Joshi和Sharmila Nadgir[4]提取了音频信号中的时域、频域、倒谱域和小波域中的不同特征，将印度乐器分为弦乐器、铜管乐器、打击乐器、木管乐器、键盘共5大类。张奇、苏洪根[5]以乐器的MFCC系数及其一阶导数为声学特征，提出了一种基于支持向量机的乐器识别方法，对大提琴、长笛、小号等6种乐器的平均识别准确率达到96.7%。田莎莎等 [6]在MFCC参数的基础上，提出了BMFCC特征参数，通过大量实验表明MFCC特征参数各个分量对音频的表征能力是不同的。陈卓[7]在Eeka平台上使用由不同维度MFCC特征参数构成的特征集，对古筝、琵琶、钢琴等乐器进行了分类实验，结果表明，基于随机森林的分类器最优识别率可达到95.7%。郅逍遥等 [8]提出了一种基于相空间和柔性神经树的新的乐器分类方法，对圆号、钢琴、喇叭、长笛的分类平均正确率大于86%。华斌等 [9]对经典MFCC系数进行了分析，提出了基于熵值法加权的MFCC系数，提高了音频检索的识别率。

这些研究中使用的特征量大多为30个以上，即使对特征量进行了删减，删减后的特征量也超过16个[2]，无疑增加了分类复杂度和处理时间；参与分类的乐器大多是国外乐器，如欧美乐器[5]、马来西亚乐器[10]、巴基斯坦乐器[11]，对中国乐器的分类研究较少[7-8]，分类类别较少，分类准确率也有待提高；大多数研究仅注重了不同特征量搭配对分类结果的影响，忽视了各特征量自身对分类结果的影响程度。

本文提出8项特征量，结合神经网络分类器完成了对9种乐器的分类，还使用基于Relief算法的主成分特征提取方法，将特征量进一步减少到6项，平均分类准确率达到94.84%。

1 特征提取

特征提取是将原始输入数据转化为数字表示的特征集的过程，其目的是从原始的大量数据中提取出有代表性的信息，用少量特征数据替代原始数据完成目标任务[10]。通常使用的特征量包括频域特征和时域特征，文献[2-4]都表明频域特征与时域特征的结合使用对提高音频分类准确率至关重要。本文从已有研究中选取部分基本且重要的时域和频域特征，与能熵比、倒谱等能够反映音频深层信息的特征共同组成新的特征集。本文使用的特征集包括表1中的前8项特征，另有包含24项特征的MFCC特征集用于对比试验。

设信号第i帧中第n个点的幅值为u-i（n），分帧后的总帧数为f-n，分帧的帧长为L，第m个音频段的信号幅值序列为x-m，延迟量为k。各特征量详细描述如下：

（1）短时平均幅度U-i，也是一帧语音信号能量大小的表征，它与短时能量的区别在于计算时不会因采样值大小取二次方而造成较大差异。

其中，f是以Hz为单位的实际频率。MFCC（Mel-scale Frequency Cepstral Coefficients，即梅尔倒谱系数）是在Mel标度频率域提取出来的倒谱参数。MFCC参数分析是基于人的听觉机理，即依据人的听觉实验结果分析语音的频谱。下面分别对8个特征和传统的MFCC 24项参数进行乐器分类实验。

2 分类器设计与主成分特征提取

2.1 分类器构建

本文使用MATLAB设计3层BP（Backward Propagation）神经网络分类器[12]，如图1所示。BP算法是一种监督式的机器学习算法，在建立预测模型时，利用监督式学习建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断调整预测模型，直到模型的预测结果达到一个预期的准确率。预测模型确立后，使用测试数据对其进行检验。

2.2 主成分特征提取

为了分析各特征对乐器分类的相关程度，减少相关度低的特征量对分类准确率的影响，本文使用Relief算法[13]计算分类器中各项特征所占的权重，具体如下：①从训练集D中随机选择一个样本R；②从与R同类的样本集中找到R的最近邻样本H，从与R不同类的样本集中找到R的最近邻样本M；③求权重：若某个特征在R和H间的距离小于R和M间的距离，则该特征对分类是有益的，增加该特征权值，反之，则该特征对分类是有害的，降低其权值，如式（14）所示。各特征权值在所有特征总权值中所占比重即为各特征的权重，如式（15）所示。

其中，W为特征权值向量，W-0为特征权值向量的初始值，本文设为零向量，diff（R，H）表示R和H各特征向量的距离，diff（R，M）表示R和M各特征向量的距离，w-i表示各特征权重的向量。特征权重越大，表示该特征的分类性能越好，反之越差。

3 实验设置

3.1 音频数据集建立

数据集是设计和改进分类系统的关键之一，不同的作者获取和处理音频数据的方法不尽相同，但大多是基于使用音频段长度、分帧长度、音频格式、音频种类、采样率和滤波技术等方面的不同。文献[14]从采样率为44.1kHz的6种乐器音频中提取300个音频段，每个音频段长度为20s。文献[15]从音频中提取出5286个样本用于29种西方管弦乐器分类，使用汉明窗，固定帧移为帧长的25%时，分别对帧长为20ms和40ms时的分帧进行测试。文献[16]将音频段长度设为0.1s～10s，使用汉明窗，帧长为256，帧移为帧长的50%。文献[10]采样率为22.1kHz，对帧长为256和1024的分帧进行测试。文献[11]将音频段长度设为10s，每种音频样本数为120个，采样率为16kHz。这些实验使用的各种参数表明，目前对如何确定用于建立数据集的最优参数没有基准可循[10]。

对180min的音频样本进行特征提取，音频文件均统一为WAV格式，采样率为8 000Hz，位数为16位，音频段长度均为4s，分帧使用海宁窗，帧长200，帧移80，乐器种类及其提取出的样本个数如表2所示。

3.2 全特征实验

首先，根据本文所提8项特征组成的特征集1和由24项MFCC特征组成的特征集2，分别划分出训练数据1、2和测试数据1、2；然后，将训练数据1、2分别输入设计好的三层神经网络分类器进行训练；最后，将测试数据1、2分别输入由训练数据1、2训练好的分类器中，得到分类结果。

为了分析不同训练数据和测试数据对实验结果的影响，对每种分类器分别使用训练数据和测试数据数量比例（训测比）为1∶1、1∶2、2∶1的数据集进行实验。

3.3 主成分特征实验

基于Relief算法的主成分特征提取方法，计算出本文所提特征集中各特征量的权重，使用权重最大的4、5、6个特征量，按照特征集1的实验方法分别进行分类实验。

4 分类结果分析

分类器的分类结果通过平均准确率P进行对比：

不同训测比下的分类器分类结果见图2、图3、图4。

从图2、图3、图4可以看出，本文提出的8项特征分类性能比传统的24项MFCC特征更稳定。使用MFCC特征分类时，在不同训测比试验中均出现无法正确分类的情况，如图2中GT-SKS（吉他-萨克斯）、GT-SN（吉他-唢呐）、WB-PP（乌巴-琵琶）分類的平均准确率只有50%。

本文提出的特征集与MFCC特征集在各训测比下分类平均准确率如表3所示。在训测比为1∶1和1∶2时，本文提出的特征准确率更高，而在训测比为2∶1时，表现比MFCC特征集稍差，这可能是由于本文所提的特征集存在与分类相关性较小的特征项，影响了分类准确率。因此，基于Relief算法的主成分特征提取进行实验，对提取的权重最大的4、5、6个特征量重新进行分类实验。

不同分类实验中各特征量所占权重的部分值见表4，实验结果见图5。可见，基于Relief算法的主成分特征提取能有效减少较小相关性特征项对分类准确率的影响。本文提出的特征集比MFCC特征集使用的特征量更少，且对文中9种乐器的分类准确率更高，达到94.84%。

5 结语

针对过去乐器分类研究使用特征量过多、复杂度高、分类准确率较低的问题，提出了一种特征量少、准确率高的乐器分类方法。将提取的8项特征量和传统24项MFCC特征量分别输入神经网络分类器进行试验，对包括中国乐器和西方乐器的9种乐器的分类结果表明，在训测比为1∶1和1∶2时，本文提出的特征准确率更高，分别为93.87%和92.75%，而在训测比为2∶1时，MFCC特征集表现较好，为94.14%。使用基于Relief算法的主成分特征提取方法，对从8项特征中提取出的权重最高的4、5、6项特征分别进行分类实验，结果表明，使用权重最高的6项特征进行分类的平均准确率比使用8项特征时有所提高，达到了94.84%，说明本文提出的基于Relief算法的主成分特征提取方法能够有效降低权重较小的特征量对分类准确率的影响。

参考文献：

[1] LIU Z，WANG Y， CHEN T.Audio feature extraction and analysis for scene segmentation and classification[J].Kluwer Academic Publishers.1998，20（1-2）：61-79.

[2] DENG J D，IMMERMACHER C S，CRANEFIELD S.A study on feature analysis for musical instrument classification[J].IEEE Transactions on Systems，Man and Cyberntics，2008，38（2）：429-439.

[3] ZHANG X Y， SU Z， LIN P， et al. An audio feature extraction scheme based on spectral decomposition[C].International Conference on Audio，Language and Image Processing，2014：730-733.

[4] JOSHI M，NADGIR S. Extraction of feature vectors for analysis of musical instruments[J].International Conference on Advances in Electronics， Computers and Communications，2015，25（27）：1-6.

[5] 张奇，苏洪根.基于支持向量机的乐器识别方法[J].计算机工程与应用，2004，40（18）：99-101.

[6] 田莎莎，唐菀，佘纬.改进MFCC参数在非特定人语音识别系统中的研究[J].科技通报，2013，29（3）：139-142.

[7] 陈卓.基于多种分类器的乐器识别[D].昆明：云南大学，2014：31-43.

[8] 郅逍遥，李临生，郭哲喆，等.基于相空间和柔性神经树的乐器分类[J].计算机工程与应用，2015，32（2）：159-162.

[9] 华斌，张丽超，赵富强.基于加权MFCC的音频检索[J].计算机工程与应用，2015，51（8）：200-204.

[10] SENAN N，IBRAHIM R，MOHD N NAWI，et al.Feature Extraction for traditional malay musical instruments classification system[C].2009 International Conference of Soft Computing and Pattern Recognition.2009：454-459.

[11] LASHARI S，IBRAHIM R，SENAN N.Soft set theory for automatic classification of traditional pakistani musical instruments sounds[C]. 2012 International Conference on Computer and Information Science，2012：94-99.

[12] 胡耀文，孙俊，方芳，等.基于BP神经网络的接收信号强度的检测方法[J].云南大学学报，2017，39（4）：534-538.

[13] 黄莉莉，汤进，孙登第，等.基于多标签ReliefF的特征选择算法[J].计算机应用，2012，32（10）：2888-2890.

[14] BENETOS E，KOTTI M，KOTROPOULUS C.Musical Instrument Classification using non-negative matrix factorization algorithms and subset feature selection[C].IEEE International Conference on Acoustics， Speech and Signal Processing.2006.

[15] ERONEN A.Comparison of features for musical instrument recognition[C].IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics，2002：19-22.

[16] LIU M，WAN C.Feature selection for automatic classification of musical instrument sounds[C].ACM/IEEE-CS Joint Conference on Digital Libraries，2001：247-248.

（責任编辑：杜能钢）