说话人识别研究现状

2017-09-08 21:01王煜

数字技术与应用 2017年6期

王煜

摘要：说话人识别技术在我们日常生活中已经得到了广泛的应用，说话人识别作为当前最热门的生物特征识别技术之一，在远程认证等领域有着独特的优势，受到了越来越多的关注。本文从说话人识别的特征提取和说话人建模两部分展开，对说话人识别的研究现状和技术进展进行了阐述。

关键词：说话人识别；特征提取；说话人建模

中图分类号：TP391.41 文献标识码：A 文章编号：1007-9416（2017）06-0059-03

1 概述

说话人识别技术是一种探索人类身份的一种生物识别技术，每个人说话时使用的发音器官例如口腔、舌头、牙齿、声带、喉咙和鼻腔等不管在形态还是在尺寸上或多或少都会有所差异，因而导致了每个说话人的发音也各不相同[1]。

按照不同的分类角度分类，说话人识别大致分为以下几类。

从实际应用的范围角度分，可以分为说话人辨认和说话人确认。前者是指判定待测试语音属于目标说话人模型集合中的哪一个人，是一个多元判别的问题；而说话人确认是确定待测试语音是否来自其所声称的说话人，是一个二元判决的问题。对于说话人辨认来说，由测试来自不同说话人的范围，说话人的辨认又可以开集识别和闭集识别[2]。

从待识别语音对应的文本角度分类，说话人识别可以分为文本无关、文本相关和文本提示三类。文本无关是指说话人识别系统对说话对应的文本是开放的，即不做内容要求，在训练和识别时说话人可以随意录制语音内容只需达到一定的长度即可；文本相关是指说话人识别系统会要求说话人必须按照指定的文本进行发音录制；而对于文本提示型说话人识别系统，是结合之前两者的优点，系统需要从说话人训练文本库随机提取一些字或词汇组合后提示说话人按照该文本进行发音录制，由于其实现简单、安全性高，成为目前说话人识别技术的一大热点。

2 说话人识别的研究现状

从说话人识别的发展来看，二十世纪七十年代DTW和VQ技术的出现对当时识别性能有了较大提升，而八十年代应用到说话人识别中去的人工神经网络、隐马尔可夫模型和MFCC一直沿用至今并且一直被优化改进。到九十年代GMM以及GMM-UBM以其简单灵活、鲁棒性强的特点，在说话人识别中被广为使用，到现在也是这个领域最重要的建模技术之一，与此同时，SVM的建模技术也被引入说话人识别中。进入二十一世纪后，联合因子分析技术（JFA）和扰动属性干扰算法（NAP）的提出使得说话人识别在复杂背景条件下也能取得较好的效果。另外，得分规整技术ZNORM、TNORM等的运用也使得说话人识别系统性能有了较大程度的提高。由JFA建模思想得到启示，Najim Dehak等人提出了基于总体变化因子向量（identity vector，i-vector）的说话人建模方法，这是该研究领域的前沿主流技术。

说话人识别是一个模式识别问题，其框架主要包括两个阶段，训练阶段和识别阶段。训练阶段是系统对说话人收集足够的语音数据，基于数据对不同说话人的语音特征进行提取，再根据这些提取的特征训练得到对应的说话人模型，最后将所有的模型整合成系统所需的模型库。识别阶段是系统对说话人传入的语音数据进行识别时，系统对传入数据进行与训练阶段相同的特征提取，并对提取到的特征与模型库中的特征进行对比，进行相似性计算得出模型相似性分数，最终根据得分来判断说话人属于哪个模型得出说话人是谁的结论。

关于说话人识别的技术的现状主要可以从以下两部分进行讨论：特征提取和说话人建模。

2.1 特征提取

特征提取是减小语音数据量和排除冗余信息的一个过程，常用的说话人特征有线性预测倒谱系数（LPCC）和梅尔倒谱系数（MFCC）。

2.1.1 线性预测倒谱系数

LPCC是模拟声道的效应，把声道冲击和声门激励分离开来，并利用线性预测原理，将一个语音信号用过去若干个采样的线性组合来表示。LPCC一般与其他特征参数进行组合研究，很少单独出现。

2.1.2 梅尔倒谱系数

MFCC是基于听觉系统的临界带效应，在Mel标度频率域提取的一种倒谱参数，其充分利用了人耳的感知特性使得该特征具有较好的鲁棒性。

近年来，学者们在MFCC的基础上又提出了一些改进的参数来提高识别率，例如：△MFCC、DMFCC、MFSC和FMFCC等。其中一阶差分系数△MFCC以其能够拟合人发声和人耳听觉的动态特性的优点，和MFCC结合后能得到很好的应用和识别效果[3]。另外，还有学者提出了将MFCC与LPC特征得分归一化后融合计算的方法，这种方法对于患有感冒的说话人辨认性能有较好的提升[4]。

对于MFCC参数的改进，还可以一方面在传统算法上加入端点检测，去除与說话人语音特征无关的静音段[5]。另一方面用高斯滤波器组代替三角滤波器组进行频率到Mel频率的转换，从而提高识别准确率。

此外还有一种方法，对传统的提取MFCC过程中计算FFT这一步骤进行频谱重构，对频谱进行噪声补偿重建，使之具有很好的抗噪性，逼近纯净语音的频谱，这种方法在低信噪比的环境下取得了很好的效果[6]。

另外，研究者们为提高说话人识别系统的性能，提出了许多以降低特征维数和计算复杂度为目的的对特征进行变换的方法，其中主要的有：独立量分析法（ICA）、主成分分析法（PCA）和线性判别分析法（LDA）。其中，ICA能更好的去除噪声，ICA在提取MFCC时将代替DCT对信号求取频谱，得到的特征参数对非高斯噪声信号的识别效果更好；而PCA的降维效果更好同时也能保证说话人识别性能，是降低计算复杂度的方法；最后LDA计算得到的特征是比PCA得到的更具有噪声鲁棒性而得到应用的[7]。

2.2 说话人建模

目前较为普遍使用的是非参数模型、参数模型、人工神经网络模型和支持向量机。endprint

2.2.1 非参数模型

非参数模型是指说话人模型是由说话人的语音特征经过某种运算直接得到的，典型的非参数模型包括动态时间规整法（DTW）、矢量量化法（VQ）和模板匹配方法。

（1）动态时间规整法：考虑到说话人信息具有时变因素，可以把识别模板与参考模板进行时间对比，依据某种距离的测度求出两个模板之间的相似度，现在对DTW的使用已经不多。

（2）矢量量化法：从说话人的语音信号中提取到的特征，通常是多维矢量的时间序列。矢量量化模型就是从这些矢量中筛选出少数代表性的矢量而构建的模型。寻找代表矢量是一个矢量聚类问题，能通过聚类等算法进行实现。常用的矢量量化法有k-means群分法和学习向量量化法。

2.2.2 参数模型

说话人识别中常用的参数模型有：隐马尔可夫模型、高斯模型和高斯混合模型等。

（1）隐马尔可夫模型：最早被CMU和IBM在语音识别中进行运用，是使用描述状态间的转移来描述特征变化过程的一种模型。当利用隐马尔可夫模型进行识别时，需要为每个说话人都建立语音发声模型，一般在与文本无关的说话人识别中会使用各态历经型隐马尔可夫模型，而与文本相关的会使用从左到右型。

对于说话人识别关于HMM的研究，有学者将其与MFCC结合起来，结合新的时频分析工具分数傅立叶变换（FRFT），表征语音信号的特征，并利用可分性测度验证了特征参数的有效性进行仿真识别得到了良好的效果[8]。

还有就是对HMM算法进行了优化，采用遗传算法与LBG算法相结合的方法生成码本，这种优化在文本相关说话人身份认证方面的效率有所提高[9]。

虽然HMM一般不需要进行时间规整，优点是可以节约对判决的时间和空间开销，缺点是在训练时的计算量比较大。所以近5年来对隐马尔可夫模型在说话人识别领域的研究热度有所下降，这也能可能是HMM退出前沿历史舞台的征兆。

（2）高斯混合模型：高斯混合模型是一种统计模型，它能够较好的描述参数空间中训练数据的特性及其空间分布，它也可以表示成多个高斯概率密度函数加权和的形式。

在近年的研究中，有学者运用多个核函数的线性组合构造多核空間，在多核空间上设计了基于支持向量机的说话人分类器，实现短语音说话人识别。算法中结合了GMM，并以GMM超向量作为说话人的最终特征参数进行仿真实验[10]。在短语音和两种噪声环境中，这种基于多核SVM-GMM的短语音说话人识别算法较SVM-GMM算法能得到更好的识别性能和鲁棒性。

还有学者从对传统GMM模型的参数初始化方法进行改进，提出分裂法与K均值聚类相结合的新方法，这种方法对系统的平均识别率也有一定的提高[11]。

高斯混合模型目前仍然在说话人识别系统中较为常用，不过目前相比之下更为常用的是一种通用背景模型UBM，其本质也是一个GMM其目的是为了避免由于实验室环境下训练数据不足导致的过拟合。目前对GMM-UBM的改进也是层出不穷，例如有学者将其与SVM结合，在突出说话人特征的同时降低了受信道的影响，结合后的方法互补其不足，在NIST评测中比两种方法各自形成的系统的识别率有明显提升。又如还有学者在说话人自适应技术的基础上，提出了GMM-UBM模型的连续自适应算法，解决了因说话人自身声学特征的变化导致识别率下降的问题[12]。

（3）i-vector模型：以JFA为基础，Dehak和Kenny提出了一种更为简化的基于因子分析（FA）的说话人识别方法，称为i-vector模型。在近几年中，i-vector模型以其良好的性能成为说话人识别领域的热门，尽管是目前最前沿的说话人建模方法，但是它仍有着不足之处，目前最新的研究有：

有学者提出了基于i-vector局部加权线性判别分析的说话人识别方法（LWLDA），用来解决i-vector不能保证样本在待识别语音近邻区域内具有最佳的分离度导致的识别率下降的问题。还有学者为了进一步提高识别率，提出了一种鉴别性i-vector局部距离保持映射（DIVLDPP）的流形学习算法，该算法以i-vector间的Euclid距离作为度量准则可以明显提高目前i-vector说话人识别系统的性能。也有学者对i-vector说话人识别系统提出一种采用语音增强模块进行前端预处理的方法，以提高系统对于环境噪声的鲁棒性。此外还有专家专门研究探讨了基于i-vector的说话人识别系统中训练时长、男女比例和高斯混合度对系统识别性能的影响，得出i-vector说话人识别算法的最佳参数，为以后的基于i-vector说话人识别算法研究提供数据依据。另外也有专家将i-vector后接SVM并对比了该系统在十种不同核函数下的识别性能，在NIST组织的2010年电话信道-电话信道说话人识别核心评测数据库上的测试取得了非常好的识别效果。

从以上可以我们可以看到，近年对i-vector方法进行优化增强的研究非常多，并且也取得了非常好的研究成果。但有一点值得提出的是，在众多研究当中很少有提及与i-vector实际说话人识别系统开发的相关研究，从开发应用的角度来讲，这方面确实还可能存在空白或是进一步研究探讨的空间。

2.3 人工神经网络模型

人工神经网络模型（ANN）的方法，可以在某种程度上模拟人脑神经元的功能，是一种分布式并行处理结构的网络模型，就有很强的自我组织和自我学习能力。人工神经网络模型在文本无关的说话人识别中的使用通常有两种形式：一种是前向神经网络，另一种是多层前向神经网络。

近年来学者们对神经网络的研究不断深入，使得在说话人识别领域的神经网络方法开始革新，目前已经有不少学者进行了对深度神经网络在说话人识别中的应用进行了研究，例如有专家在说话人确认系统中提出一种基于深度神经网络的信道自适应方法，来解决复杂信道环境下的干扰问题。同时，目前神经网络方法中最热门的卷积神经网络（CNN）在其他领域诸如图像处理、语音识别等都取得了极好的效果，然而在说话人识别中使用CNN进行研究的几乎还是一片空白，因此CNN在说话人识别今后的研究中还有很大空间。endprint

2.4 支持向量机

支持向量机（SVM）的方法是Vapnik提出的，目的是改善传统神经网络理论学习较弱的情况，SVM是一种泛化能力比较好的分类器，不管在国内还是在国外的识别领域一直到受到广泛的关注。在近年的研究中，SVM通常与其他识别方法相结合使用，比较常见的是SVM与GMM-UBM结合使用，还有SVM与矢量量化模型结合使用，采用多种识别模式相结合是为了改善单一模式的缺点、克服单一识别模式的不足之处，同时还可以提高识别率。

3 结语

如今，说话人识别的研究问题主要集中在语音中的信息與说话人的个人特征的区分、怎样能更好的表示说话人个性的特征参数、怎样更有效的利用特征参数之间和识别模型之间的互补性，以及如何加强对信道畸变产生的噪声进行处理等等。可以说说话人识别领域还依然存在着很大的发展空间，相关算法模型依然还可以进一步改进，说话人识别也将会在未来实际问题的应用中有更广阔的前景。

参考文献

[1]郑方，李蓝天，张慧，等.声纹识别技术及其应用现状[J].信息安全研究，2016， 2（1）：44-57.

[2]Campbell J P. Speaker recognition： a tutorial. Proceedings of the IEEE，1997，85（9）：1437-1462.

[3]郭春霞.说话人识别算法的研究[J].西安邮电大学学报，2010，15（5）：104-106.

[4]单燕燕.基于LPC和MFCC得分融合的说话人辨认[J].计算机技术与发展，2016（1）：39-42， 47.

[5]王萌，王福龙.基于端点检测和高斯滤波器组的MFCC说话人识别[J].计算机系统应用，2016（10）：218-224.

[6]胡政权，曾毓敏，宗原，等.说话人识别中MFCC参数提取的改进[J].计算机工程与应用，2014，v.50；No.806（7）：221-224.

[7]杨迪，戚银城，刘明军，等.说话人识别综述[J].电子科技，2012，v.25；No.273（6）：166-169.

[8]张永亮，张先庭，鲁宇明.基于FMFCC和HMM的说话人识别[J].计算机仿真，2010，27（5）：352-354.

[9]徐惠红.优化的HMM算法在文本相关的说话人识别中的研究[J].微型机与应用，2010，29（2）：69-70.

[10]林琳，陈虹，陈建，等.基于多核SVM-GMM的短语音说话人识别[J].吉林大学学报（工学版），2013，v.43；No.166（2）： 237-242.

[11]蒋晔，唐振民.GMM文本无关的说话人识别系统研究[J].计算机工程与应用，2010，46（11）：179-182.

[12]张正平，张丽娜，贺松.基于GMM-UBM说话人模型的连续自适应算法研究[J].通信电源技术，2016，33（2）：81-83.endprint