陈晨 韩纪庆
摘 要:作为语音处理领域的主要技术之一,说话人识别以确认说话人身份为目标,在移动交互、身份验证、音频监控等领域有着广泛的应用前景。经过数十年的发展,说话人识别技术已经能够取得优秀的识别性能。本文将对说话人识别方法的研究现状进行总结与分析,介绍目前主流的说话人识别技术。
关键词:说话人识别;特征提取;说话人模型
中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2015)05-
An Overview of Speaker Recognition
CHEN Chen, HAN Jiqing
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: As one of the main technology of speech processing, speaker recognition aiming at speaker distinguishing, has a broad application prospect in the field of mobile interaction, authentication, audio monitor, and so on. After decades of development, speaker recognition has achieved a high accuracy. This paper will carry on the summary and analysis of speaker recognition, and introduces the current mainstream technology of speaker recognition.
Keywords: Speaker Recognition; Feature Extraction; Speaker Modeling
0 引 言
语音是人类之间交流情感与认知的重要信息载体,是在生活与工作中最基本、最自然的交流方式。随着信息技术的发展,使得通过分析语音信号中的个人特征来识别说话人成为可能。说话人识别技术因其良好的准确性、经济性和可扩展性,拥有着广阔的发展空间[1],且已经作为一项重要的多媒体数据分析技术,应用在事务访问控制、身份验证、语音数据管理和音频监控等众多研究领域[2]。
对于说话人识别技术的研究,一直是计算机领域的热门话题。其研究历史可以追溯到第二次世界大战后期。在随后的几十年中,说话人技术快速发展,典型的研究成果有基于模式匹配和统计方差分析的说话人识别方法[3]、基于线性预测分析与倒谱分析的说话人识别方法[4],人工神经网络(Artificial neural network,ANN)[5]、动态时间规整(Dynamic time warping,DTW)技术[6]以及矢量量化(Vector quantization,VQ)技术[7]。但随着精确度更高的概率模型的提出,上述方法逐渐推出了使用。具有代表性的概率模型是隐含马尔科夫模型(Hidden Markov model,HMM)[8],由于HMM对说话人语音信号有较强的鲁棒性,能够同时把统计参数全部集成在一个统一的框架中,用状态转移规律刻画稳定段之间的变化过程,统计声学特征和时间上的变动,因此在说话人识别中得到广泛的应用。20世纪90年代,单状态的HMM即获提出,也就是高斯混合模型(Gaussian mixture model,GMM)[9],随后则将通用背景模型(Universal background model,UBM)[10]引入到GMM中形成的GMM-UBM系统,由于其优异的识别性能、简单灵活的模型结构和初中的鲁棒性,成为文本无关的说话人识别系统领域里发挥开创性引领作用的重要研究称。
目前,说话人识别技术已经取得了巨大的进步,在科技发展的带动下,以说话人识别技术为载体的电子科技产品日益增加,但是在拓展说话人识别技术应用范围的同时,也使其面对了更多变更复杂的噪声干扰问题,这就对说话人识别技术提出了更加严苛的要求和更为严峻的挑战。其中信道畸变所引起的干扰即是噪声干扰的主要来源。在GMM-UBM的基础上,以解决信道畸变问题的联合因子(Joint factor analysis,FA)[11]与i-vector[12]方法则相继获得提出,也已成为目前说话人识别领域中最为先进的技术之一。
本文将介绍说话人识别的基本原理,从特征提取和说话人模型两个方面,综合近年说话人识别领域的主要研究情况进行总结与评价。
1说话人识别基本框架
说话人识别的基本任务是通过分析语音信号中包含的说话人个性信息来识别待识别说话人的身份,其基本原理如图1所示。主要包括两个阶段,即训练阶段与识别阶段。具体地,训练阶段根据说话人集合中每个说话人的训练语料,经特征提取后,建立各个说话人的模型;识别阶段就是在待识别说话人的语音经特征提取后,将其与系统训练的模型进行匹配。
图1 说话人识别系统原理图
Fig. 1 Schematic diagram of speaker recognition system
2 特征提取
由于在时域上语音信号的波形变化相当快速、不易观察,因此一般都会在频域上来实施观察。在频域上,语音信号的频谱随着时间缓慢变化,因此通常可以假设在一较短时间中,其语音信号的特性是稳定的。特征提取是一个去除原来语音数据中的冗余信息,减小数据量的过程。常用的说话人特征有线性预测倒谱系数(Linear predictive cepstral coefficient,LPCC)[13]和梅尔倒谱系数(Mel-frequency cepstral coefficients,MFCC)[14]。其数学实现原理则如下所示。
2.1 线性预测系数
LPCC模拟声道效应,将声门激励信号与声道冲击相应分离开,采用线性预测原理,将一个语音信号用过去的若干个采样的线性组合来表示。在时域上,语音信号s(n)的预测值为:
(1)
其中, 为线性预测系数。预测误差为:
(2)
预测系数 可以通过最小化预测误差来求得。最后根据递推求解方法求得LPCC参数:
(3)
2.2 梅尔倒谱系数
MFCC融入了人耳的听觉特性,把能量、基音频率、共振峰值等参数作为描述语音特征的参数,将人耳的听觉感知特性和语音的产生机制相结合。实验证明在语音识别中MFCC参数的性能是目前比较优秀的,所以也相应具有最为广泛的应用。Mel频率与Hz频率的对应关系可以用下式近似表示:
(4)
其中, 为Hz频率,B为Mel频率。
在提取过程中,MFCC首先对语音进行预处理,预处理包括预加重、分帧和加窗三个部分;然后对预处理后的语音做快速傅里叶变化(Fast Fourier transform,FFT),再用Mel滤波器组滤波并对其取对数,最后做离散余弦变换求倒谱(Discrete consine transform,DCT),去除各维信号之间的相关性,从而将信号映射到低维空间。在提取MFCC的基础上,还可求取其一阶、二阶差分,共同组成Mel倒谱特征。
3 说话人模型
3.1 GMM-UBM模型
通用背景模型(Universal Background Model,UBM)的本质也是一个高斯混合模型(Gaussian Mixture Model,GMM),其目的是为了避免由于实验室环境下训练数据不足导致的过拟合。UBM是经过大量语音训练得到的,因而能够反映说话人的平均特征分布。UBM模型的训练是一个参数估计的过程,即用大量的背景说话人在最大似然准则(Maximum Likelihood,ML)下采用期望最大化算法(Expectation Maximization,EM)训练得到一个与说话人无关、通道无关的高斯混合模型。高斯混合模型是由多个高斯概率分布函数的加权和构成的,其分布函数的维度与声学特征的维度一致,每个高斯概率分布函数的权重、均值和方差均由先验数据学习得到。GMM函数的描述形式如下:
(5)
其中, , 和 分别表示第c个高斯分量的权重、均值和方差。
设经前端处理后得到的MFCC特征向量为:X(x1,..., xt,...,xT),则GMM的参数更新过程如下:
(6)
其中, 为每个xt在高斯分量c上的隐含类别的概率。
GMM是每个说话人在UBM上采用最大后验(Maximum a posteriori,MAP)自适应得到的。由于在自适应目标说话人的GMM时,权重和方差对于识别性能并未获得显著提高,所以一般只更新均值,更新公式如下:
(7)
在GMM-UBM说话人识别的测试阶段,将说话人产生特征矢量序列的似然值作为最终的得分,若得分大于阈值则接受说话人,反之则拒绝。
3.2 联合因子分析模型
目前GMM-UBM已经成为说话人识别技术的标准模型,如果把这个模型扩展成为具有不同说话人之间差异的说话人模型和相同说话人之间信道差异的信道模型这两个联合模型,即为联合因子分析(Joint factor analysis,JFA)模型。JFA假设每个说话人可以用一个与说话人和信道相关的GMM均值超矢量M来表示,并且可以分解为说话人超矢量s和信道超矢量c和的形式:
(8)
其中,s与c各自独立且服从高斯分布,s描述了说话人之间的差异,c描述了信道之间的差异。说话人超矢量s与信道超矢量c分别可以由隐含变量表示而成:
(9)
其中,m为UBM均值超矢量;V为说话人本征音矩阵(CF×Rv),Rv(100≤R≤400)为本征音空间因子;y为Rv×1维说话人因子;D为CF×CF对角残差矩阵;z为CF×1维高斯分布随机向量。U为本征信道矩阵(CF×Ru),Ru(10≤R≤200)为本征信道因子数;x为Ru×1维信道因子。
分别估计本征音空间矩阵V、本征信道矩阵U和残差空间矩阵D,通过计算相关因子的后验均值与后验相关矩阵,求出相关因子y,x和z,根据式(8)与(9)得到说话人的GMM均值超矢量作为说话人模型。最后通过对数似然比的方法对说话人进行判决。
在估计本征信道矩阵U时,需要将各种信道条件下的数据混合起来进行训练,对于语音数据的需求很苛刻,同时计算量也非常庞大。
3.3 i-vector模型
以JFA为基础,Dehak和Kenny提出了一种更为简化的基于因子分析(Factor analysis,FA)的说话人识别方法,称为i-vector模型。其中,i是身份(Identity)的缩写,故i-vector相当于说话人的身份标识。i-vector和JFA一样,也是一种基于统计特性的语音特征,衍生于GMM均值超矢量[15],但却弥补了JFA对于语音数据依赖性大的缺点。
i-vector模型不像JFA一样将均值超矢量空间划分两部分,而是用一个总变化空间(Total variability space)进行了代替。在这个总变化空间中,包含了说话人的语音信息以及信道信息。假设每个说话人可以用一个与说话人和信道相关的GMM均值超矢量M来表示,其中M是由所有的C个GMM均值矢量按照先后顺序串联在一起得到的。对于一段给定的语音,GMM均值超矢量M定义如下:
(10)
其中,m为UBM均值超矢量,T为总变化空间矩阵(CF×R),F为MFCC特征向量的维数,w为i-vector。w是一个R维的特征向量(400≤R≤600),并且服从标准高斯分布 ;GMM均值超矢量M服从高斯分布 。
设说话人的一组特征序列为X(x1,...,xt,...,xT),对每一个时刻t,特征矢量xt相对每个高斯分量c的状态占有率为:
(11)
式中, 为语音xt在UBM的第c个高斯分量上的后验概率。
利用 可以求出每个说话人的权值和均值矢量对应的Baum–Welch统计量:
(12)
定义为 一阶中心统计量:
(13)
对每个说话人,令 ,w的后验分布服从高斯分布 [16],其中 为从 拼接而来的CF×1维的超矢量,N(X)为以Nc为对角块的CF×CF维对角矩阵。w的后验均值用期望的形式可以表示为:
(14)
由于总变化空间中,同时含说话人信息与信道信息,所以需要对上述过程中提取的初始i-vector做信道补偿。信道补偿技术有线性判别分析(Linear discriminant analysis,LDA)和类内协方差规整(Within-Class covariance cormalization,WCCN)[12]等。
在i-vector说话人识别的测试阶段,把测试说话人与目标说话人的i-vector的余弦距离作为得分,若得分大于阈值则接受说话人,反之则拒绝。
4 结束语
经过数十年的发展,说话人识别技术已经取得了巨大的成就,然而信道畸变对于说话人技术性能的提升仍然有着很大的影响,所以在说话人识别技术中,加强对信道畸变产生的噪声的处理,则有着重要的意义与价值。本文综合上述问题,从说话人识别技术的基本框架出发,介绍了特征提取与说话人模型的基本方法与理论,并对说话人识别方法的研究现状进行总结与分析,介绍了目前主流的说话人识别技术,为从事说话人识别的研究者提供有益借鉴与参考。
参考文献:
[1] BOVES L W J. Commercial applications of speaker verification: overview and critical success factors[J]. International Journal of Speech Technology, 1998,3(2): 150-159.
[2] REYNOLDS D A. An overview of automatic speaker recognition technology[J]. ICASSP, 2002, 4(4):4072-4075.
[3] KERSTA L G. Voiceprint identification[J]. The Journal of the Acoustical Society of America, 1962, 34(5): 725-725.
[4] MAKHOUL J. Linear prediction: a tutorial review[J]. Proceeding of the IEEE, 1975, 63(4):561-580.
[5] SAKOE H, CHIBA S. Dynamic programming algorithm optimization for spoken word recognition[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1978, 26(2):43-49.
[6] WAIBEL A. Modular construction of time-delay neural networks for speech recognition[J]. Neural Computation, 1989, 1(1):39-46.
[7] SOONG F, ROSENBERG A, RABINER L. A vector quantization approach to speaker recognition[C]// International Conference on Acoustics, Speech, and Signal Processing, Tampa: IEEE, 1985:387-390.
[8] RABINER L R. A tutorial on hidden Markov models and selected applications in speech recognition[J]. Proceedings of the IEEE, 1989, 77(2):257-286.
[9] ROSE R, REYNOLDS R A. Text independent speaker identification using automatic acoustic segmentation[C]// International Conference on Acoustics, Speech, and Signal Processing 1990, Albuquerque: IEEE, 1990: 293-296.
[10] REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models[J]. Digital signal processing, 2000, 10(1-3):19-41.
[11] KENNY P, BOULIANNE G, OUELLET P. Joint factor analysis versus eigenchannels in speaker recognition[J]. IEEE Transactions on Audio Speech & Language Processing, 2007, 15(4):1435-1447.
[12] DEHAK N, KENNY P J, DEHAK R. Front-end factor analysis for speaker verification[J]. Audio Speech & Language Processing IEEE Transactions on, 2011, 19(4):788-798.
[13] MAKHOUL J. Linear Prediction: A Tutorial Review[J]. Proceeding of the IEEE, 1975, 63(4):561-580.
[14] KUMAR N, ANDREOU A G. Heteroscedastic Discriminant Analysis and Reduced Rank HMMs for Improved Speech Recognition[J]. Speech Communication, 1980, 26(4):357-366.
[15] CAMPBELL W M, STURIM D E, REYNOLDS D A. SVM based speaker verification using a GMM supervector kernel and NAP variability compensation[C]// International Conference on Acoustics, Speech, and Signal Processing 2006, Albuquerque: IEEE, 2006:97-100.
[16] KENNY P, BOULIANNE G, DUMOUCHEL P. Eigenvoice modeling with sparse training data[J]. Speech & Audio Processing IEEE Transactions on, 2005, 13(3):345-354.