说话人识别综述

2017-10-20 11:37甄倩倩张庭亮

科技资讯 2017年25期

甄倩倩+张庭亮

DOI：10.16661/j.cnki.1672-3791.2017.25.241

摘要：生物识别，是通过生物信息来识别人身份的技术，说话人识别是一种通过人的声音来识别人身份的技术。说话人识别是生物识别领域的重要研究课题之一。本文首先介绍说话人识别的背景和研究意义；其次介绍目前在说话人特征提取方面所采用的方法；再次介绍说话人识别方面所采用的方法研究；最后分析说话人识别的研究困难和未来发展趋势。

关键词：生物识别说话人识别特征提取

中图分类号：TP391 文献标识码：A 文章编号：1672-3791（2017）09（a）-0241-03

Abstract： Speaker recognition is one of the important research topics in the field of biometrics， which is a way of recognizing human identity through the voice of the people. Firstly， it introduces the background and significance of speaker recognition. Secondly， it introduces the present research situation of feature extraction and speaker recognition. Finally， it analyzes the research difficulties and future development trend of speaker recognition.

Key Words： Biological Recognition； Speaker Recognition； Feature Extraction

生物特征识别技术是一种采用人的生理或行为进行识别身份的技术。基于生物特征识别技术的身份认证是社会高度信息化和经济全球化的需求，是政府和商业领域必不可少的重要技术[1]。目前常见的生物识别技术有虹膜识别、指纹识别、掌纹识别、步态识别、说话人识别等。说话人识别作为生物识别中的一种，目前也引起了学者的广泛关注。说话人识别（Speaker Recognition）又称话者识别或声纹识别（Voiceprint Recognition），是由计算机利用语音波形中所包含的反映特定说话人生理和行为特征的语音特征参数来自动确定或鉴别说话人身份的技术[2]。说话人识别的根本依据是：每个人都有自己独特的声道和发音特征，使得自己的话声是唯一的。对说话人识别的研究源于20世纪30、40年代，近些年该课题引起了生物识别研究者的广泛关注。目前，随着科学的发展，学者的青睐，已经取得了一系列研究成果。在国内，通过中国知网搜索说话人识别，从2000年至今，相关文献2553篇。目前说话人识别可以应用在密码锁[3]、司法鉴定[4]等中。

1 说话人识别过程

通过对前人工作的总结，说话人识别的过程包含语音信息的预处理、特征提取与现有语音库进行比对最终识别出说话人，具体流程见图1所示。

2 说话人识别综述

本文从预处理、特征提取和说话人模型3个方面对说话人识别算法进行分析。

2.1 预处理

说话人语音预处理是说话人识别系统的重要环节，预处理包括预加重、端点检测、分帧加窗处理以及对带有噪声的说话人语音的语音增强处理[5]。除了常规的预处理之外，卷积神经网络可以应用在说话人语音信号的预处理中，例如中，胡青等[6]采用卷积神经网络的卷积和降采样两种操作对语音信号进行预处理。

2.2 特征提取

2.2.1 MFCC（Mel频率倒谱系数，Mel Frequeucy Cepstrum Coefficient）

Mel频率倒谱系数是说话人特征提取中最长用的系数。例如，文献[7-9]在特征提取方面均采用MFCC提取说话人特征。但MFCC容易受噪声的影响，噪声环境下的识别率较低。

2.2.2 HHT（希尔波特黄变换Hilbert–Huang Transform）倒谱系数

文献[10]中采用HHT倒谱系数来刻画动态语音特征，该方法虽然识别精度提高，但是却以牺牲识别时间为代价。

2.2.3 DNN（深度神经网络，Deep Neural Network）

文献[11]中为了提取说话人语音信息，提出了一种基于深度神经网络的说话人识别方法，该方法能够解决语音信号这种弱信息极易受噪声等的影响的问题。通过在RSR2015数据库数据上实验，实验结果表明该方法在特征提取方面，优于MFCC等传统特征提取方法，系统的错误率也有所降低。

2.2.4 融合特征提取

除了以上所述的单一的特征提取方法，还有一些融合特征提取方法。例如，文献[12]在特征提取方面针对噪声环境中说话人识别性能较差的不足，结合小波变换的优点，提出了将小波变换技术与传统的特征参数提取方式相结合的方法，利用加权特征组合，能够达到抗噪的目的。文献[13]中为了提高在噪音环境下说话人识别系统的识别率，通过对MFCC参数提取过程进行改进，用小波包变换代替快速傅里叶变换和Mel滤波器组，获得了新参数new MFCC，然后将信号的频谱重心与new MFCC结合成新的特征参数进行提取。文献[14]中，将MFCC和LPCC进行结合作为说话人识别的特征。文獻[15]中提出了一种基于 Fisher准则的梅尔频率倒谱系数（MFCC）、线性预测梅尔倒谱系数（LPMFCC）、Teager能量算子倒谱参数（TEOCC）相混合的特征参数提取方法。endprint

2.3 说话人模型

2.3.1 GMM（高斯混合模型，Gaussian Mixture Model）

高斯混合模型是说话人识别中最常使用的一种模型，很多说话人相关的文献中都采用该方法以及在此基础上所衍生出来的自适应高斯混合模型以及一些其他的改进算法。例如文献[5，8，9]在设计说话人识别系统时，均采用高斯混合模型作为识别模型。文献[16]中提出了一种基于高斯混合模型的自适应说话人识别算法，该算法识别在不降低识别率的情况下，识别速度提高了4倍。文献[17]提出一种混合数可变的自适应高斯混合模型并将其应用于说话人识别，识别率有所提高。文献[18]中提出了一种基于GMM托肯配比相似度校正得分的说话人识别算法，识别性能有了大幅提高。文献[19]中在传统GMM的基础上，对模型参数初始化进行改动，采用分类法与K-mean聚类进行结合。

2.3.2 VQ（矢量量化，Vector Quantization）

文献[20-21]均采用VQ作为说话人识别模型。除了VQ单独使用外，还有一些文献中将其与其他的识别模型结合。例如，文献[7]将VQ与DTW动态时间调整模型结合。文献[22]将其与HMM隐马尔可夫相结合，进行说话人识别。文献[23]将其与人工神经网络ANN相结合。

2.3.3 DTW（动态时间调整模型，Dynamic Time Warping）

文献[24]设计了一种基于DTW的说话人识别系统。文献[25]中，宋大杰将改进的DTW作为模式匹配的算法。文献[26]研究了基于动态时间规正（DTW）和图论方法的语音识别和说话人识别的特征子集选择问题，提出了基于DTW距离的有向图方法（DTWDAG）。文献[7]通过动态时间规整模型进行伪装程度鉴定，再利用矢量量化模型进行说话人识别，从而设计了DTW与VQ相结合的电子伪装语音说话人识别系统。

2.3.4 SVM（支持向量机，Support Vector Machine）

支持向量机一是在高维空间使用线性函数假设空间的学习系统，它由一个来自最优化理论的学习算法训练，该算法实现了一个由统计学习理论导出的学习偏置[27]。文献[28]在支持向量机的基础上，结合高斯混合模型，提出基于一类SVM-GMM的短语音说话人识别算法，提高了短语音数据条件下系统的识别性能；引入多核映射，提出基于多核SVM-GMM的短语音说话人识别算法。文献[29]针对传统支持向量机算法时空复杂度较高的不足，提出了一种基于交叉验证KNN的支持向量预选取算法。文献[30]中，翟玉杰提出了一种基于GMM和SVM的说话人识别算法。相对于以往的算法，识别率有了大幅提高，但是通过进一步研究发现其识别率进一步提高受到信道因素影响较为严重。为了弥补GMM-SVM说话人识别的这一缺点，在GMM-SVM的说话人识别方法的基础上应用了因子分析技术模型级信道补偿算法，识别效率上超过了传统的GMM-SVM方法，具有更好的信道鲁棒性。将GMM与SVM两者结合能够解决GMM在语音数据较小时不能区分数据间的差异性及SVM在处理大量数据时识别率下降的问题[31]。

2.3.5 其他

文献[32]针对BP神经网络收敛速度慢、容易陷入局部极小的缺陷，将遗传算法全局寻优的特点与BP神经网络相结合，利用遗传算法对神经网络的权值和阈值进行优化，构成一个GABP神经网络，有效地解决了BP神经网络容易陷入局部最优的问题。文献[33]将深度神经网络与隐马尔可夫模型结合，提出了一种二者融合的自适应方法。文献[34]以及文献[35]均将深度神经网络应用在说话人识别中。

3 结论

说话人识别是语音识别的范畴，但其不关心说话的内容，更关心的是说话人的身份。经过几十年的发展，说话人识别技术相对来说已比较成熟，但识别时容易受环境的干扰，造成噪声环境中，识别错误率高等问题，所以目前说话人识别在环境影响方面还有一些待解决的技术问题。

参考文献

[1] 郑方，艾斯卡尔·肉孜，王仁宇，等.生物特征识别技术综述[J].信息安全研究，2016，2（1）：12-26.

[2] 蒋晔，唐振民.GMM文本无关的说话人识别系统研究[J].计算机工程与应用，2010，46（11）：179-182.

[3] 张涛涛.语音声纹密码验证技术研究[D].中国科学技术大学，2016.

[4] 杨阳.声纹识别技术及其在司法鉴定中的应用[D].厦门大学，2007.

[5] 陈强.基于GMM的说话人识别系统研究与实现[D].武汉理工大学，2010.

[6] 胡青，刘本永.基于卷积神经网络的说话人识别算法[J].计算机应用，2016，36（S1）：79-81.

[7] 李燕萍，陶定元，林乐.基于DTW模型补偿的伪装语音说话人识别研究[J].计算机技术与发展，2017，27（1）：93-96.

[8] 吴慧玲，杜成东，毛鹤.基于GMM的说话人识别算法的研究与应用[J].现代计算机：普及版，2014（14）：31-35.

[9] 刘冰，滕广超，林嘉宇.基于GMM的说话人识别系统设计与实现[J].微处理机，2014（3）：63-65.

[10] 杜晓青，于凤芹.基于HHT倒谱系数的说话人识别算法[J].计算机工程与应用，2014，50（3）：198-202.

[11] 张涛涛，陈丽萍，蒋兵，等.采用深度神经网络的说话人特征提取方法[J].小型微型计算机系统，2017，38（1）：142-146.

[12] 檀蕊蓮，柏鹏，李哲，等.基于小波变换的说话人识别技术[J].空军工程大学学报：自然科学版，2013，14（1）：85-89.endprint

[13] 胡峰松，王磊.一种基于小波包分析的说话人识别算法[J].小型微型计算机系统，2014，35（7）：1610-1614.

[14] 于明，袁玉倩，董浩，等.一种基于MFCC和LPCC的文本相关说话人识别方法[J].计算机应用，2006，26（4）：883-885.

[15] 谢小娟，曾以成，熊冰峰.说话人识别中基于Fisher比的特征组合方法[J].计算机应用，2016，36（5）：1421-1425.

[16] 陈觉之，张贵荣，周宇欢.基于GMM模型的自适应说话人识别研究[J].计算机与现代化，2013（7）：91-93.

[17] 王韵琪.自适应高斯混合模型及说话人识别应用[D].苏州大学，2014.

[18] 杨莹春，邓立才.基于GMM托肯配比相似度校正得分的说话人识别[J].清华大学学报：自然科学版，2017（1）：28-32.

[19] 蒋晔，唐振民.GMM文本无关的说话人识别系统研究[J].计算机工程与应用，2010，46（11）：179-182.

[20] 张玉娇.基于矢量量化（VQ）的说话人识别的研究[D].南京理工大学，2015.

[21] 涂佩佩.基于矢量量化的说话人识别的研究[D].安徽大学，2016.

[22] 赵峰，于洋.基于VQ和HMM的双层声纹识别算法[J].桂林电子科技大学学报，2017（1）：83-84.

[23] 杨彦.基于矢量量化（VQ）和人工神经网络（ANN）的说话人识别的研究[D].东南大学，2006.

[24] 张飞云，张鹏，高建生.噪声环境中基于DTW的说话人识别[J].许昌学院学报，2011，30（5）：68-72.

[25] 宋大杰.基于DTW的说话人识别及其在DSP上的实现[D].东华理工大学，2012.

[26] 刘敬伟，徐美芝，郑忠国，等.基于DTW的语音识别和说話人识别的特征选择[J].模式识别与人工智能，2005， 18（1）：50-54.

[27] 雷震春.支持向量机在说话人识别中的应用研究[D].浙江大学，2006.

[28] 金焕梅.基于支持向量机的短语音说话人识别[D].吉林大学，2012.

[29] 陈雪芳，杨继臣.交叉验证KNN支持向量预选取算法在说话人识别上的应用[J].科学技术与工程， 2013，13（20）：5839-5842.

[30] 翟玉杰.基于GMM-SVM说话人识别的信道算法研究[D].吉林大学，2015.

[31] 赵立辉，毛竹，霍春宝，等.基于GMM-SVM的说话人识别系统研究[J].工矿自动化，2014，40（5）：49-53.

[32] 兰胜坤.遗传算法优化BP神经网络的说话人识别系统[J].自然科学版，2013，27（10）：91-95.

[33] 薛少飞.DNN-HMM语音识别声学模型的说话人自适应[D].中国科学技术大学，2015.

[34] 耿国胜.基于深度学习的说话人识别技术研究[D].大连理工大学，2014.

[35] HAZRAT ALI.基于深度学习模型的说话人识别算法研究[D].北京科技大学，2015.endprint