基于MFCC和神经网络的声音分类和声音管理

2018-11-14 04:47:04
福建质量管理 2018年20期
关键词:音频频谱滤波器

(重庆工商大学电子商务及供应链系统重庆市重点实验室 重庆 400067)

一、引言

声音的分类和管理是声音信号处理的一个基本问题。声音中富含了多种信息,有效利用了这些信息可以帮助人类实现很多人类自身无法完成的问题,比如在地震带区识别动物的异常声音可以起到辅助地震警报的作用。由此可见,分析自然环境声音识别对我们的生活有着巨大的作用。

在声音分类中,首先得提取声音特征。有很多特征可以代表音频信号,其中最常用的语音特征就是Mel频率倒谱系数。Mel频率是基于人耳听觉特性提出来的,具有良好的识别性能[1],因此本文用Mel频率倒谱系数表示声音特征。

本文利用基于MFCC和神经网络的方法实现对自然声音识别。神经网络是一种模仿生物神经网络的结构和功能的数学模型或计算模型,有效地解决了传统机器学习模型的大数据和多分类问题,且有很好的预测和分类精度.正是鉴于神经网络的种种优点,本文尝试利用神经网络模型解决自然环境声音的识别问题[2]。

二、特征提取

(一)预处理

首先本文将所获取到的自然环境音频文件转换成音频信号数据。其次,多声道转为单声道,所有的音频信号都重采样到16KHZ。所有音频文件的时间长度都切割为为2s 。

(二)Mel 频率倒谱系数(MFCCs)特征提取

(1)预加重 将语音信号通过一个高通滤波器

(2)分帧 将自然环境音频信号划分成一系列连续的帧,这里我们加汉宁窗分帧,每帧包含 N=256个样本,相邻帧有128个样本重叠,每帧时间为16ms。

(3)加窗 将每一帧乘汉明窗。

(4)快速傅里叶变换 对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱。

(5)将FFT频谱通过一组20个mel滤波器就可以转换为mel频谱。Mel滤波器组一般是一组mel刻度的三角形滤波器组.

(6)计算每个滤波器组输出的对数能量,并将每个滤波器的对数能量带入离散余弦变换,即可得到12 阶的倒谱系数。将每帧的12个M FCC 参数作为矩阵的一列,按顺序组成的矩阵就是 M FCC 特征矩阵[3,4]。

三、BP神经网络

BP神经网络算法包括信号的前向传播和误差的反向传播两个过程。前向传播时,输入信号X通过隐藏层节点作用于输出节点,经过非线性变换,产生输出信号Y,若实际输出与期望输出不相符,则二者的误差进入反向传播过程。反向传播是将输出误差e通过隐藏层向输入层逐层反向传播,并将误差分摊给各层所有单元,以从各层获得的误差作为调整各单元权值和阈值的依据。通过调整层与层之间的连接权重和阈值,使误差沿梯度方向下降,经过反复学习训练,确定与最小误差相对应的各层权值和阈值,训练停止。此时经过训练的神经网络即能对类似样本的输入信息,自行处理输出误差最小的经过非线形转换的信息[5]。

四、仿真实验与结果分析

先提取每个训练音频样本的特征并创建特征向量,每个音频样本被切分为249帧,每帧包含 256个样本,相邻帧有128个样本重叠,每帧时间为16ms。然后将音频的特征参数输入神经网络进行模型训练,最后提取测试样本的特征向量并通过神经网络得到识别结果。这里的神经网络包含输入层,隐藏层,输出层共3层,输入层的神经元是12,隐含层的神经元个数是10,输出层神经元是5。隐藏层的激活函数是matlab中自带的tansig函数,输出层的激活函数是matlab中自带的softmax函数。最大迭代次数为1000。为做对比,我们将同样的特征向量在SVM上进行试验,SVM 分类器使用径向基核函数。表1是具体的分类情况。

表1 具体的分类结果

从上面的实验结果可以看出,对于声音的分类,神经网络模型的效果远远大于SVM的模型的效果,因此我们可以考虑用基于MFCC和神经网络模型的方法对声音分类。

五、结束语

本文提出了一种基于MFCC和神经网络模型对声音进行分类和管理的方法。实验证明了MFCC 能很好地描述声音信号,且证明了基于MFCC特征空间建立神经网络模型对声音的分类可取得很好的效果。我们可以将这套声音识别模型用于很多领域,比如在森林、原野等地使用自动监听和识别物种声音对濒临灭绝的动物进行侦察,有利于我们及时发现它们并采取相应的保护措施。下一步我们要研究的是将这个声音分类模型用于更多种类的声音识别,并提高识别准确率,从而使我们可以更好地管理声音中的信息,进而为人类服务。

猜你喜欢
音频频谱滤波器
一种用于深空探测的Chirp变换频谱分析仪设计与实现
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
一种基于稀疏度估计的自适应压缩频谱感知算法
测控技术(2018年7期)2018-12-09 08:58:22
基于Daubechies(dbN)的飞行器音频特征提取
电子制作(2018年19期)2018-11-14 02:37:08
开关电源EMI滤波器的应用方法探讨
电子制作(2018年16期)2018-09-26 03:26:50
音频分析仪中低失真音频信号的发生方法
电子制作(2017年9期)2017-04-17 03:00:46
基于Canny振荡抑制准则的改进匹配滤波器
基于TMS320C6678的SAR方位向预滤波器的并行实现
Pro Tools音频剪辑及修正
人间(2015年8期)2016-01-09 13:12:42