面向语种识别的声学特征提取改进研究

2024-06-29 02:43周大春邵玉斌张昊阁杜庆治
关键词:特征提取

周大春 邵玉斌 张昊阁 杜庆治

摘要: 在进行语种识别研究时,使用的声学特征矩阵维度往往很高,为了解决语种识别中声学特征维度过高的问题,本文提出一种声学特征提取过程改进方法. 对一些常用的声学特征进行统计特性分析,再结合其提取流程及部分文献论证,通过计算特征各维在帧上的均值,再对其进行向量归一化消除量纲的影响得到改进后的特征,实现了将传统特征矩阵优化为一维特征向量. 最后,根据改进后特征的特性,在2 个不同的数据集下,选取BP 神经网络和支持向量机作为基线系统进行语种识别实验. 实验结果表明,对于目前常用的5 种声学特征,所提改进方法相比于传统做法,在降低了99. 8% 的数据量情况下,数据集1 在2 种模型下仍能取得95. 6% 的平均识别率,数据集2 在2 种模型下仍能取得90. 2% 的平均识别率. 此外,由于所提方法降低了大部分的计算量,使得算法能够更适应硬件设施相对较弱的嵌入式环境,扩大了算法的使用场景.

关键词: 语种识别; 声学特征; 统计特性; 特征提取

中图分类号: TN912. 3 文献标志码: A DOI: 10. 19907/j. 0490-6756. 2024. 033004

1 引言

语种识别(Language Identification,LID)是计算机自动判别输入语音所属语言种类的一项技术[1]. 作为语音识别技术的前端,语种识别在广播监听、机器自动翻译、信息检索等领域扮演着重要角色. 基于声学层特征的语种识别方法作为主流的语种识别方法之一,具有特征提取过程简单、训练时长较短及易于扩展学习等优势. 目前,常用的声学特征主要有对数梅尔滤波器尺度(log-FilterBank,FBank)特征[2]、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)特征[3]、伽马通滤波器倒谱系数(Gammatone Filter CepstralCoefficients,GFCC)特征[4]、感知线性预测(PerceptualLinear Prediction,PLP)系数特征[5]及滑动差分倒谱(Shifted Delta Cepstra,SDC)特征[6]等.

声学特征虽然容易提取,但提取得到的特征往往是一个矩阵,维度很高. 在进行训练识别时,将整个特征矩阵作为输入,无形中加重了计算机的负载,也增加了模型训练的时长. 为了解决这个问题,部分研究学者提出了特征选择及特征提取两类降维技术. 其中,特征提取类的主成分分析[7](Principal Component Analysis,PCA)法及线性判别分析[8](Linear Discriminant Analysis,LDA)法是目前最常用的2 个降维方法. Albadr 等[9]基于标准差计算和PCA 对MFCC 特征进行降维,并以优化极限学习机[10]作为分类器对两个语言数据集进行训练识别,在保证准确率分别高达91% 的情况下,最终实现了只需几秒钟就可以识别语言. 刘晶等[11]对提取的S-GFCC 特征进行PCA,提取出对识别任务贡献率大的前几维特征,并融合每个有声段的Teager 能量算子倒谱参数形成新的组合特征,最终在噪声环境取得了不错的语种识别效果.此外,Rachmad 等[12]还表明Fisher 线性判别分析也是一种广泛用于模式识别的线性降维方法.

大多数学者提出的语种识别方法都以语音的帧为单位,将语音每一帧所对应的特征或者其他信息提取出来,再将其送入到后端网络进行训练与识别,这样做会使得语音特征数据量过大,并且目前很多语种识别采用的特征均适用于语音识别. 但语种识别不同于语音识别,语种识别不需要将语音的每一句话都识别出来,不用了解某句话具体的含义,仅需要根据部分特征,将待测语音的所属语种正确识别出来即可,故不需要类似语音识别特征矩阵的大数据量即可达到识别出语种的目的. 目前常见的方法虽然都在一定程度上压缩了声学特征数据的量级,但这些方法都是基于特征矩阵的特征向量、协方差矩阵等理论进行的,并没有考虑到声学特征本身的统计特性. 因此,本文提出一种声学特征提取改进方法,从声学特征本身的统计特性出发,对常用的声学特征提取过程进行改进,在特征提取的过程中达到对特征维度的压缩,并在2 个不同的数据集及二者的混合数据集下,分别采用BP 神经网络和支持向量机(SupportVector Machine,SVM)对压缩后特征进行语种识别分类. 实验结果表明,本文所提方法大大降低了声学特征的维度,应用到分类系统中也能获得较高的识别率.

2 声学特征提取改进

2. 1 常用声学特征的提取

引言中已指出常见的一些声学特征,其中姜洪臣等[13]指出SDC 特征是基于MFCC 等特征的改进特征配置,因此本文不加以考虑. PLP 特征是一种基于听觉模型的特征,其参数是一组来自全极点预测多项式模型的系数. 该特征参数最大的特点是从临界频带分析、等响度曲线预加重、信号强度-听觉响度变换三个层次来模拟人耳听觉感知,其详细提取流程可参考文献[14],此处不再赘述. 本文参考FBank 特征,令未进行DCT 前的GFCC 特征为对数Gammatone 滤波器尺度(GammatoneFilter Bank,GBank)特征,主要介绍前三个常用声学特征及GBank 的提取过程,具体归纳如图1 所示.

图1 中,FBank、MFCC、GBank 和GFCC 特征的提取过程都包含预加重、分帧加窗、快速傅里叶变换、求谱线能量等步骤. 其中,预加重的是为了提升语音信号中的高频分量以减少后序处理中高频分量的损失,而分帧加窗的目的则是为了使分析的信号近似平稳信号,并尽量减少频谱泄露,快速傅里叶变换及求谱线能量则是为了从频域分析语音的特征,且人耳对频率也比较敏感. 不同的是,MFCC 及FBank 特征提取过程中使用的是Mel滤波器组,这是一些重叠的三角滤波器组,而GBank 特征及GFCC 提取过程使用的是Gammatone滤波器,这是一组用来模拟人耳耳蜗频率分解特点的滤波器组,相邻两个滤波器之间也有重叠,但其幅度响应波形并不是简单的三角形. 取对数是为了模拟人耳对声音的听觉感知,使特征具有更强的鲁棒性. 而离散傅里叶变换则是为了去除特征之间的相关性以适应许多分类统计模型.FBank 特征相较于MFCC 特征只是缺少最后的离散傅里叶变换,保留了特征之间的相关性,因此多适用于深度学习,GBank 特征也同理.

猜你喜欢
特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
一种基于LBP 特征提取和稀疏表示的肝病识别算法
基于DSP的直线特征提取算法
基于改进WLD的纹理特征提取方法
噪声环境下滚动轴承故障特征提取
浅析零件图像的特征提取和识别方法
基于CATIA的橡皮囊成形零件的特征提取
基于MED和循环域解调的多故障特征提取