复杂背景下声纹识别系统的研究方法综述

2013-04-23 05:16中南林业科技大学计算机与信息工程学院房安栋刘军万

电子世界 2013年3期

中南林业科技大学计算机与信息工程学院房安栋刘军万

1.引言

说话人声纹识别可以看作是语音识别的一种。它和语音识别一样，都是通过对所收到的语音信号进行处理，提取相应的特征或建立相应的模型，然后据此作出判断。而区别在于它并不注意语言信号中的语义内容，而是希望从语音信号中提取出人的特征。从这点上说，说话人声纹识别是企求挖掘出包含在语音信号中的个性因数，而语音识别是企求从不同人的词语信号中寻找相同因素。在处理方法上，说话人声纹识别力图强调不同人之间的差别，而语音识别则力图对不同人说话的差别加以归一化。世界范围内，声纹识别技术正广泛应用于诸多领域。截止到去年年初，声纹识别产品的市场占有率为15.8%，仅次于指纹识别和掌形识别。

现有文献中用于说话人识别的特征许多是建立在短时频谱基础上。它们主要有Mel频率倒谱系数（MFCC），LPC倒谱系数，差值倒谱等。在声纹识别技术中，目前研究最多的方法有：模板匹配法、概率模型法和人工神经网络法。Soong等人将矢量量化技术用于与文本无关的说话人是被系统。Rosenberg等人利用子词单元构成的隐马尔科夫模型(HMM)，建立了一个说话人确认系统。Delesby等人利用径向基函数神经网络方法进行说话人识别[1]。我国的北京大学以迟惠生为领导的说话人识别研究团体、清华大学以杨行峻为领导的研究团体以及中国科学院声学所和东南大学也在这个方面取得了非常优秀的科研成果.从国内外文献看来，有的着重距离测度，但是大多数向几种方法如HMM、GMM和ANN混合的方向发展。

2.声纹识别的基本原理及相关算法

2.1 基本原理

声纹识别的基本原理如图1所示，主要包括两个阶段，即训练和识别阶段。

训练阶段，系统的每个使用者说出若干训练语句，系统据此建立每个使用者的模板或模型参数。识别阶段，由待识人说的语音经特征提取后与系统训练时产生的模板或模型参数进行比较。在主说话人的辨认中，取与测试音匹配距离最小的说话人模型所对应的说话人作为识别结果；在说话人确认中，则通过判断测试音与所声称的说话人的模型的匹配距离是否小于一定闭值做出判断。

2.2 语音信号的预处理

在语音信号特征提取之前，首先要进行的一个环节就是对输入语音信号的预处理，主要包括预滤波、预加重、加窗分帧以及语音端点检测等过程。本文就以涉及到的预滤波进行描述，预滤波在本文中是通过小波滤波器组来实现。预滤波器必须是一个带通滤波器，其上、下截止频率分别是对于绝大多数语音处理中，采样率

图1 声纹识别系统一般原理图（虚线内为可选部分）

2.3 声纹特征提取

2.3.1 概述

提取说话人特征就是把原来语音中的冗余信息去掉，找到我们关注的语音特征信息，是一个减小数据量的过程。从说话人语音信号中提取的特征参数应满足以下准则：对外部条件具有鲁棒性（如：说话人的健康状况和情绪，方言和别人模仿等）；能够长期地保持稳定；易于从语音信号中进行提取；与其他特征不相关。

2.3.2 典型声纹特征参数提取算法

声纹特征参数主要有以下几种：基音周期、短时过零率、线性预测（LPC)、线性预测倒谱系数（LPCC)、Mel频率倒谱系数(MFCC)、以及经过噪声谱减或者信道谱减的去噪倒谱系数等，每一种特征参数都有其相应的提取算法。在声纹特征提取这一点，本文将采用基音周期和Mel频率倒谱混合的参数作为特征参数。

2.3.2.1 线性预测（LPC）方法

语音线性预测的基本思想是：利用过去的样值对新样值进行预测，然后将样值的实际值与其预测值相减得到一个误差信号，显然误差信号的动态范围远小于原始语音信号的动态范围，对误差信号进行量化编码而达到最小，可以确定唯一的一组线性预测系数。目前主流算法有Durbin递推算法、Levinson递推算法、舒尔（schur）算法和个性算法[2][3]。由于LPC分析是基于全极点模型的假设，所以它对于声道响应含有零点的清音和浊音和鼻音描述不确切。

2.3.2.2 线性预测倒谱系数（LPCC）

倒谱特征是用于说话人个性特征和说话识别人识别的最有效的特征之一。语音信号是声道频率特性和激励源信号源两者共同卷积的结果，后者对于某帧而言常带有一定的随机性，而说话人的个性特征很大程度上取决于说话人的发音声道，因此要将此二者进行有效的分离，可以通过对信号做适当的同态滤波，将相卷积的两个部分分离。滤波的关键是先将卷积处理化为乘积，然后做对数处理，使之化为可分离的相加成分。线性预测倒谱系数可由LPC特征进行推导，基于LPC系数分析得倒谱存在一种非常简单有效的递推求解方法。LPCC参数比较彻底地去掉了语音产生过程中的激励信息，主要反映声道特性，只需要十几个倒谱系数能比较好的描述语音的共振特性，计算量小，其缺点是对辅音的描述能力较差，抗噪声性能也较弱。

2.3.2.3 梅尔倒谱系数（MFCC）

MFCC着眼于人耳的听觉感知机理。因为听到的声音的高低与声音的频率的并不成线性正比关系，Mel频率的尺度更符合人耳的听觉特性。用Mel滤波器组对语音信号进行滤波和加权，使语音信号更加接近于人耳听觉感知系统特性，MFCC特征成为目前说话人识别和语音识别中最为广泛的特征参数。根据倒谱计算过程，MFCC计算过程可以简单地描为如下四个步骤：

（1）对语音信号进行短时傅里叶变换，得到各个帧的频谱。

（2）在Mel频率的轴上配置L个通道的三角滤波器组，L的个数由信号的救治频定。每一个三角滤波器中心频率c（l）在MEL频率轴上等间隔分配。设o（l）、h（l）分别是第L个三角滤波器的下限、中心和上限频率，则相邻三角形滤波器的下限、中心和上限频率有如下关系成立：

C(l)=h（l-1）=o（l+1）

根据语音信号个幅度谱Xn（k）求每个三角形滤波器的输出：

对所有的滤波器输出做对数运算，再一步做出离散余弦变换（DCT）即可得到MFCC：

2.3.2.4 基因周期系数

基音是指发浊音时声带振动引起的周期性，而基音周期是指声带振动频率的倒数，基音可以分为时域、频域以及综合利用信号时域频率特性等三种提取模式，时域包括利用语音信号的采样点计算信号的波峰、波谷和过零率等，典型的方法是Gold和Rabiner提出的并行处理方式；频域的方法主要是计算信号的自相关函数、功率谱和最大似然函数等，其精度要高于时域方法，典型的方法是有中央消波自相关法、平均幅度差分函数法和倒谱法等。本文章选用倒谱法进行基因周期的提取。

1)倒谱法原理

语音信号是激励源与声道相应相卷积的结果，而“倒谱特征”则是利用了对语音信号进行适当的同态滤波后，可将激励信号与声道信号加以分离的原理。倒谱中维数较低的分量对应于语音信号的声道分量，倒谱中维数较高的分量对应于语音信号的音源激励信号。因此，利用语音信号倒谱可将它们分离，彼此基本上互不干扰，并可以避免声道分量受到随机变化的音源激励分量的干扰。

2)倒谱法算法

语音是s（n）是由声门脉冲e（n）经过声道响应v(n)滤波而得。即：

则三者的倒谱满足以下等式：

l=1，2，…，L

其中：

图2 倒谱基音检测算法

可见，倒谱域中基音信息与声道信息可认为相对分离的。采取简单的倒谱法可以分离并恢复e（n）和v（n），根据激励e（n）及倒谱的特征可以求出基音周期。然而，反应基音信息的倒谱峰在含过渡音和噪语音中将会变得不清晰甚至完全消失。原因主要是因为过渡音中周期激励信号能量降低和类噪激励信号干扰或含噪语音中的噪声干扰所致。这里可以采用一个简单的方法，就是在倒谱分析中，直接将傅里叶变换之前的(IFT)频域信号(由原始作FT逆变换再取对数后得到)的高频分量置零。可以实现类似于低通滤波器的处理，滤去噪音和激励源中的高频分量，减少了噪声干扰。图2是一种改进的倒谱基音检测的算法框图。

2.4 声纹识别技术

2.4.1 概述

声纹识别的基本原理是为了每个说话人建立一个能够描述这一说话人特征的模型，以其作为这一说话人的个性特征。在目前的话音特征与说话人个性特征还未很好的从语音特征中得到分离情况下，为每个说话者建立的说话人模型实际上是说话人的语音特征得模型。为对说话人个性特征描述的一致起见，构造一个通用的模型，常将每个说话人的模型结构取得相同，不同的只是模型中的参数，通过用训练语音对模型进训练得到。

2.4.2 典型的声纹识别算法

目前说话人识别模型主要有DTW（动态时间规划），VQ（矢量量化），GMM（高斯混合模型），HMM（隐马尔科夫模型），NN（神经元网络），SVM（支持向量机）等。本文用到GMM（高斯混合模型），所以后面会对其算法进行了详细的描述。

2.4.2.1 动态时间规划（DTW）

说话人信息既有稳定因素（发声器官的结构和发声习惯），也有时变因素（语速、语调、重音和韵律）。将模式识别与参考模板进行时间对比，按照某种距离测定得出两模板间的相似程度。常用方法是基于最近邻原则的动态时间规划DTW，但DTW只对孤立词识别性能较好，并且高度依赖于定时，目前应用不广。

2.4.2.2 矢量量化方法（VQ）

矢量量化是一种极其重要的信号压缩方法，它广泛应用于语音编码、语音识别与合成、说话人识别、图像压缩等领域，基于非参数模型的VQ的方法是目前自动话说人识别的主要方法之一。完成VQ说话人识别系统有两个步骤：（1）利用说话人的训练语音，建立参考模型码本。（2）对待识别说话者的语音的每一帧和码本之间进行匹配。由于VQ码本保存了说话人个性特征，这样我们就可以利用VQ法进行说话人识别。在VQ法中模型匹配不依赖于参数的时间顺序，因此匹配过程中无需采用DTW技术；而且这种方法比应用DTW方法的参考模型储量小，即码本码字小。

用矢量量化方法建立识别模型，既可以大大减少数据存储量，又可以避开困难语音分段问题和时间规整问题。但是每个说话人的码本只是描述了这一说话人的语音特征在特征空间中的聚类中心的统计分布情况。在训练阶段为了充分反映说话人的个性特征要求训练语音足够长；在识别时为了使测试语音的特征矢量在特征空间中的分布能够与相应的说话人码本相吻合，所以同样要求有足够长的测试语音，在测试语音很短的情况下，这种方法的识别率将会急剧下降。

2.4.2.3 隐马尔科夫模型

HMM模型是马尔科夫链的推广，隐马尔科夫模型是一种基于转移概率和传输概率的随机模型。它把语音看成由可观察到的符号序列组成的随机过程，符号序列则是发声系统序列的输出。在HMM中，观察到的事件与状态通过一组概率分布相联系，是一个双重随机过程，其中一个是Markov链，他它描述了状态之间的转移；另一个随机过程描述状态和观察值之间的统计响应关系。HMM模型的状态是隐含的，可以观察到的的是状态产生的观察值，因此称为隐马尔科夫模型（HMM）。HMM模型同样广泛用于与文本相关的说话人识别中，并且比传统的方法有着更好的性能。HMM不需要时间规整，可节约判决时计算时间和存储量，在目前被广泛应用。缺点是训练时计算量大。

2.4.2.4 基于支持向量机（SVM）的方法

SVM是Vapnik提出的一种基于结构风险最小化二元分类器，通过非线性变换将原始集合映射到高维空间，转化为某个高维中的线性问题，寻找最优分类面，具有很好的泛化和分类能力，在手写/文字识别、文本分类和人脸识别等模式领域中取到成功的应用[4]。SVM实际上是一种辨别模式，一般情况下它只能辨别两类数据，因此需要正反两类数据进行训练。因此SVM要在说话人识别中应用，必须要解决多类分类问题。解决说话人识别的多分类问题的主要有三种形式[4]：

1)为每个人建立一个SVM，训练数据由目标说话人和背景说话人的语音分别构成“+”、“-”数。

2)为每一对说话人建立一个SVM，由N个人则建立N*（N-1）/2个SVM。

3)决策树分类：决策树上每个节点将多个说话人分为两个子集，或者是一个说话人（叶节点）。

2.4.2.5 高斯混合模型（GMM）

在说话人识别中，不同说话人的差异只要表现在其短时语音的差异，而这又可以用每个说话人的短时谱特征矢量所具有的额概率密度函数来衡量，我们可以用高斯混合模型来表示这一概率密度函数。典型单峰高斯说话人模型代表了一个以均值矢量和协方差矩阵表示的说话人特征分布，而矢量量化模型代表了说话人特征模板的离散分布。通过高斯混合模型的离散组合，每个高斯函数用其均值和协方差矩阵表示，得到高斯混合模型（GMM）[5][6]。它直接对语音中的说话人得个人特好征的统计分布进行描述，已成为当今与文本无关的说话人识别的主流技术，也是目前说话人识别的研究热点。由于GMM只有一个状态，在GMM参数中只包含语音的声纹特征信息，不包含语音随时间变化的状态信息。

说话人识别的目的是找到说话人模型λ，对于给定的参数模型集Λ={λ1，……，λ n}和测试向量序列X={x1，……，xr}有最大的后验概率P（λ|X）。通常用似然P（X|λ）代替P（λ|X），这样就不需要知道初始概率P（λ）；另一简化假设是，向量序列X是独立同分布随机变量，这样P（X|λ）表达式如下：

完整的混合高斯模型由参数均值向量，协方差矩阵和混合权重组成。

在识别系统中，每个说话人都由一个GMM表示，定义为参考模型λ这样就可以通过（2.12）式计算测试向量序列X的每个似然函数P（X|λi）最大，即判定为说话人。基于GMM的说话人识别方法是目前最成熟的和最有效的方法。

3.结束语

本课题讨论一种复杂背景下的声纹识别系统的设计与实现。预处理阶段，提出一种利用正交小波滤波器组来对信号进行预滤波的方法，对语音信号的每个频率去噪，然后重构出语音信号；特征提取阶段，提出一种基音周期和MFCC两种特征参数相组合的特征提取方式提取说话人语音特征，致力于解决基音周期系数在区别清音和低电平的浊音较困难及MFCC参数抗噪性不佳的问题；声纹识别阶段，利用GMM来训练和识别特定人声纹。

[1]Glembek,O.,Burget,L.,Dehak,N.,Brummer,N.,Ke nny.Comparison of scoring methods used in speaker recongnition with joint factor analysis.In Proc.ICASSP,2009.

[2]D.Avci.An expert system for speaker identification using adaptive wavelet sure entropy.Expert Systems with Applications,2009,36:6295-6300.

[3]Dehak,R.,Dehak,N.,Kenny,P.,Dummouchel,Ker nel Combination for SVM Speaker Verification[J].In Odyssey Speaker and Language Recongnition Workshop 2008,2008.

[4]Kajarekar.Phone-based cepstral polynomial SVM system for speakerrecognition[J].Proceedings of Interspeech,2008.

[5]Azzam Sleit,Sami Serhan,and Loai Nemir.A histogram based speaker identification technique.International Conference on ICADIWT,2008,pp.384-388.

[6]David A.van Leeuwen,SRE-tools,a software package for calculating performance metrics for NIST speaker recognition evaluations.http://sretools.goolepages.com/.2008.