朱宇轩
(西华大学,四川 成都 610039)
浅谈说话人识别方法
朱宇轩
(西华大学,四川 成都 610039)
摘要:信息技术的发展使得生物识别技术越来越成熟,并在人们的生活中具有重要的作用。生物识别技术,就是提取人体固有的生理特征和行为特征,利用计算机等高科技方法进行识别。生物识别技术主要包括指纹识别、人脸识别、虹膜识别、还有本文要介绍的语音识别中的说话人识别,也叫做声纹识别。
关键词:信息技术;生物识别
1引言
1945年,Bell实验室的L.G.Kesta目视语谱图匹配,提出了声纹的概念。与传统的身份识别方法相比,生物识别技术更加方便,它不容易丢失、遗忘或者被盗。目前这些技术广泛应用与许多领域中,如军事领域、信息服务领域、安保环卫领域、公安司法领域等。
一个说话人识别系统如图1所示,它主要分为两个阶段:训练阶段和识别阶段。训练阶段需要使用者的若干训练语音片段。提取这些语音片段的特征参数以作为标准对系统进行训练学习,建立模板或模型参数参考集。在识别阶段时,截取待识别者的语音片段,对其进行特征参数的提取,然后参照建立的模板或模型参数参考集进行比较,根据一定的相似准则进行判定。
2说话人识别分类
说话人识别任务根据识别方式的不同,可以分为三类:
说话人确认(Speaker Verification,ASV):判断一段未知语音是否来自于一个特定人的语音片段,只需输出“是”或“否”,是一个二元问题。
说话人鉴别(Speaker Identification,ASI):判断一段未知语音是来自于N个模型中的哪一个人所说的语音片段,多选一问题。
说话人探测跟踪(Speaker Segmentation and Clustering,SSC):指对一段包含多个说话人的语音,正确标注在这段语音中说话人切换的时刻。在说话人鉴别系统中,可进一步分为开集(open-set)的说话人鉴别和闭集(closed-set)说话人鉴别两种。闭集说话人鉴别指系统具有这样的先验知识:测试的说话人肯定是在训练集中出现过的;反之,所测试的说话人没有在训练集中出现过的则为开集说话人鉴别。开集的说话人鉴别和说话人确认通常都通过一个阈值来判断被测试的说话人是不是在训练集中。
3说话人识别模型的分类
(1)模式匹配法:模板匹配法的要点是,在训练过程中从说话人发出的训练语句中提取相应的特征矢量,这些特征矢量能够充分描写各个说话人的个性特征。这些特征矢量称为各个说话人的模板。在测试阶段,按同样的方法在说话人的测试语音里面提取测试模板,根据与相应的参考模板相比较得到匹配程度也就是模板之间的距离来做出判断。
动态时间规整模型(Dynamic Time Warping,DTW)
矢量量化(Vector Quantization,VQ)模型矢量量化技术是最早是用于聚类分析的数据压缩编码技术。它不直接在时域上进行预处理,而是对倒谱参数进行聚类,把每个人的特定文本训练成码本,识别的时候根据类别失真度进行判别,算法复杂度不高,且识别精度并不低。目前主要使用方法是作为其他方法的一种初值处理方法。
(2)概率统计方法: 说话人的语音信息在较短时间内可看作是平稳信息,通过对稳态特性的统计分析,根据特征参数的概率分布建立模型,然后可利用均值、方差等统计量和概率密度函数进行分类判决,适合于文本无关的说话人识别。
①隐马尔可夫模型(Hidden Markov Models,HMM)方法隐马尔可夫模型是一种基于转移概率和输出概率所建立的随机模型,可以描述语音随时间变换的情况。最初的应用是从Forward、Backward算法的得分中进行判别,目前也有用HMM进行LVCSR后从音素层面上进行建模判别的,比如建立基于每个音素的GMM模型。HMM对噪声的鲁棒性较低,训练时计算量较大。
②高斯混合模型(Gaussian Mixture Model,GMM)方法高斯模型实际上是一种单状态的HMM,通过用多个高斯分布的线性组合来近似多维矢量的连续概率分布,有效地刻画了说话人的特征,在与文本无关的说话人识别中效果比较好。
参考文献:
[1]吴朝晖,杨莹春.说话人识别模型与方法[M].北京:电子工业出版社,1995.
[2]邓英,欧贵文.基于 HMM 的性别识别[J].计算机工程与应用,40(15): 74-75.
作者简介:朱宇轩,男,汉族,四川南充,工人,大学本科,西华大学,研究方向:电子、计算机。
中图分类号:TP18
文献标志码:A
文章编号:1671-1602(2016)10-0019-01