LPC及F0参数组合基于GMM电话语音说话人识别

2011-06-28 06:27达瓦吾守尔斯拉木匂坂芳典
中文信息学报 2011年4期
关键词:基频声学区间

伊·达瓦,吾守尔·斯拉木,匂坂 芳典

(1. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830014;2. 新疆多语种技术重点实验室,新疆 乌鲁木齐 830014;3. 早稻田大学 大学院国际情报通信研究科, 日本,东京,169-0051)

1 引言

据科学家分析、人类说话的声音能够表现出一个人的生理、情绪、感情、健康程度、受教育状况、居住以及所处的社会环境等许多关联的物理现象,跟一个人的遗传因子(DNA)有密切关系且千差万别。为此在科学上常常用声音的声学参数来标记、观察、辨别一个人的生理特征以及身份。这种技术称为声纹技术,目前,尤其是公共安全领域应用很广泛[1-3]。

语音是信息最重要的载体,随着手机、互联网等方便好用的通讯产业的高速发展,利用电话—互联网等通讯手段的犯罪时有发生,且有逐年上升的趋势。比方说电话诈骗,通过电话、网络终端的非法交易,利用电话的政治煽动事件等直接危害人民群众的正常生活工作甚至威胁着国家和地区的安定。因此语音技术在国家、地区及公共安全领域有着重大的应用价值。

说话人识别技术与语音识别技术不同。在语音识别中重点关注语音内容(说的什么话)以及人听觉等提取相关信息的特征参数。常用MFCC参数,而说话人识别中应重点考虑说话人本身特征,即表现声道和音调相关的特征参数,不必考虑说什么内容的话或者什么词句,说哪种语言等内容信息。

为实现说话人的自动判别或者识别分类,技术上在语音信号流中提取声学参数生成发话人的数理模型。常用方法有矢量量化VQ (Vector Quantization);ANN (Acoustic Network Neural);HMM (Hideen Markov Model);GMM (Gaussian Mixture Model) 技术及它们的混合技术等。

SRS技术,近年来一直是在计算机通信领域的热门研究课题之一。目前说话人自动识别系统(SRS)主要依据于语音中所包含的说话人特定的声学特征来自动辨认—识别一个人的身份。可以实现生物人证、语音识别及合成技术。在国内外,安全要害部门的出入注册、侦听嫌疑人通话、出入境管理及敏感内容的监控等方面已得到了广泛地应用,而且需求也很大。

原先,由于基于HMM的方法对含噪音的语音信号处理有较强的鲁棒性,为此常也在说话人识别中引用。比如,在文献[4-7]中通过连续语音 CHMM (Continuous CHMM) 的方法实现了较好的说话人识别系统。但是,基于HMM的方法对上下文无关时间序列的建模能力有限,需要事先自动转写语音流内容。

另外,上述各方法均利用声道频谱的倒谱系数LPC (Linear Prediction Coding), Mel-倒谱及LPC-倒谱参数作为特征量构建识别模型。声道频谱含丰富的语言学成分(如音素等),因此,用这种方法建模对于语音识别(语音转换为文字)技术带来较高的识别性能。尤其是基于GMM的方法对上下文无关数据有较好的声学特征分类能力,近来在SRS系统开发中得到了广泛的应用[8-9]。

基于GMM的SRS系统,对于无噪音环境下收录的巨量的话音,通过单一信道建模并在闭合集实验(close test 训练模型数据和测试数据相同)条件下一般给出较高的实验结果。可是,SRS系统的性能在开放集数据(open test 训练和测试数据不同)条件下常常会大幅度地下降。这是由于不同环境下的语音信号流变动大系统难以适应而引起的。比如带噪音的电话线路,发话周围噪音,使用话筒特性等将引起语音特征量的变化。因此近来不少研究关注试图提取发话人个人声道相关参数建模的研究[10-11]。另外采取其他一些技术措施来改善系统性能的研究尝试也不少,如CMN (Cepstral Mean Normalization 频倒谱归一化处理)法等[12]。

为了增强并提高发话人声学特征提取精度和质量,本文讨论自动切分有声区间(voiced part “声道信号”)语音流提取纯LPC倒谱以及LPC倒谱增加基频(f0, “声源信号”)参数建模方案,试图改善SRS系统的识别性能。

2 系统分析

2.1 高斯混合分布模型GMM

高斯混合分布模型GMM法是目前在说话人识别技术中常用来建模的有效方法之一。基于GMM准则说话人识别方法GMM模型构建原理如图1所示。

图1 为说话人GMM模型的表现形式图

实施识别时的数理模型可表示为式(1)和(2)。比较HMM法,GMM不依赖于语音的音素(文本)信息,因此,可以利用多种形式的发话语音流进行建模。

2.2 语音信号传输特性分析

SRS系统的性能受很多外加因素的影响而性能恶化,例如,环境噪音、受话机传输特性、录音条件及信道中出现说话人自身的生理特征(比如,方言、说话方式、情绪及心理等)以及语种等。图2表示电话信道特性构造。

图2 电话语音环境模型

传输到受话筒的语音是个包含多种附加噪音的混合信号。比如在图2中,假设无杂音语音信号表示为SDi(ω;n),电话线路传输特性为H(ω)时,传输到受话话筒的语音信号Oi(ω;n)的表示形式为式(3),即

在式(3)中,ω表示信号传输频率,n为特征量序列号,而i为说话人数。可见由于H(ω)的客观存在,会使受话筒信号产生失真。另外考虑到个人声道特性SDFi(ω;n),发话环境杂音Nenv(ω;n)及回线杂音Ncn(ω,n)等因素时,实际传输到受话筒上的语音信号的数理模型应表现为式(4)的形式。

因此,在设计建立一个实时的说话人识别系统时,如何从这样一个复杂的含噪音的信号中提取原有的语音信号是电话语音识别的最大的问题。也是本研究拟去解决的关键性问题。除此之另外,应用系统还要考虑以下的技术课题。

① 系统需要定期修改训练数据-刷新声纹模型

由于话者的发音特征随着季节,本人的情绪以及周围环境等因素的改变而随时变化。这就是声源的可变性问题。为了适应发音的时差变动,系统需要定期刷新原先的录音数据-使得说话人模型吸收时差变化。

② 父子(兄弟姐妹等家族)声音难以区分

目前在声学研究中目前没有一个有效可靠的方法来区分父子或者兄弟姐妹等家族语音的发音。在建立面向安全—监控管理系统中有必要采取声学以外的有效措施对家族发话语音所对应身份的辨认验证。

2.3 LPC倒谱的计算

SRS系统利用声谱提取声学特征量。尤其是LPC频谱更好地反映语言学声学特征并有较好的鲁棒性,因此常常用来做语音信号的特征参数抽出。其递归计算式为:

其中cn为LPC倒谱系数,αi为通过Levinson Durbin算法获得的线性预测系数,而n表示LPC倒谱系数的大小。本次试验中对频谱的每帧抽出16维LPC-倒谱系数构建声学特征量。

2.4 LPC倒谱系数与基频结合

声音频率(在语音声学中指声带的基频,常记作为f0),反映一个人说话时的声带振动时的声源特性的本质。要增强并提高SRS系统精度有必要考虑与说话人个人声道特征相关的声学特征参数,即基频参数。为此,本研究关注在语音流的有声区间提取频谱LPC倒谱系数及基频参数并合并的方式增强GMM模型的精度,从而达到提高说话人识别精度的目的。其训练用特征量为式(6)所示。这样总的声学特征参数维数增加到17阶。即16阶LPC倒频系数和一维基频系数logF0(因为logF0近似于正规分布)。

2.5 基线目标系统

一般说话人识别系统由图3所示三部分技术环节构成。首先是声学参数抽出部分,即通过某种方式从一定量的语音数据中抽出一定大小和格式的声学参数,即特征参数或者特征量;其次是,说话人分类建模过程,即通过特征量的统计学习及自适应方法建立各说话人声学模型,最后为决定算法部分,用来取出识别结果。其中特征量为式(6)给出的混合参数,GMM用来创建说话人模型。

图3 基线提案系统

2.6 抽出有声区间的方法

由于只有语音流中的有声区间才有可能反映出说话人的声学特征,因此完整地抽出语音流中的有声区间是个很重要的技术问题。如图4所示,一段发话中如果含有元音就会出现音高或者基频(F0),因此我们可以利用基频曲线通过自相关线性预测编码法自动切分语音流中的有声区间。

图4 基于基频F0的语音串有声无声区间的切分举例

3 实验

3.1 实验数据

本次试实验训练库采用项目组自行采集的实际电话信道维吾尔语对话语音库[13],发话人数为50人(男30,女20),16KHz采样,16bit量化。每人发话时间长度约为10~60s。测试数据为实际电话信道另行采集的数据(与文本无关),格式与训练数据相同。

对每个说话人训练1个1 024个分量的GMM,在GMM混合元M=16。GMM采用最大似然(Maximum Likelihood, ML)准则,训练采用K均值法初始化模型,然后用Baum-Welch算法迭代16次。对于每个发话人每段语音,分别在每个GMM上计算MLLR,然后拼接形成超矢量。

为了便于比较分析,本次实验用整个语音区间切分数据;人工切分有声区间数据;自动切分有声区间数据以及自动切分有声区间数据增加基频logF0等四种数据分别在闭集测试和开放集测试上进行。实验结果如表1所示。

表1 说话人识别试验结果(M=16)

3.2 实验结果分析

从表1实验结果可以看到,仅利用LPC倒频系数时比起人工切分整个区间和人工切分有声区间,自动切分有声区间时的识别率在闭集及开放集两种测试情况下降较多(闭集为93.31%,而开放集为76.97%)。但是通过本研究提案方法(LPC倒谱增加基频参数logF0并进行自动切分有声区间)的识别精度比起LPC倒谱系数自动切分语音数据时有明显的提高,即闭集测试为99.18%, 改善5.87%, 而开放集为80.29%,改善3.32%。提案方法开放集测试结果较接近与人工切分结果。

4 结论

通过本次实验我们可以确认利用语音串的有声区间数据比较利用语音区间的整个区间识别精度有明显提高。这是由于语音信号中的无声数据段会引起GMM的误匹配。

LPC-倒谱为实验数据再增加声源相关的基频参数会使开放集说话人识别系统达到较好的识别精度,接近实际使用要求。

今后要进一步研究反映说话人个人声学特征相关参数的提取方法,以改善系统的开放集应用性能。

[1] 白井 克彦. 音声言语处理的潮流 [M]. 东京: CORONA PUBLISHING CO.LTD, 出版社, 2010.3

[2] A Solomonoff, A. Mielke, and al. Clustering speakers by their voice [C]//Proc. ICASSP. UAS: ICASSP, 1998: 757-760.

[3] 张利鹏,王琳琳,徐明星. 多发音方式下说话人识别研究 [C]//第十届全国人机语音通讯学术会议暨国际语音语言处理研讨会论文集. 北京: 清华大学出版社, 2009: 22-23.

[4] S..Furui. Speaker dependent feature extraction, recognition and processing techniques [J]. Speech Communication, 1991.10(5-6):505-520.

[5] T.Matsui and S.Furui. Comparison of text independent speaker recognition methods using VQ-distortion and discrete/ continuous HMMs [C]//Proc. ICASSP. California: ICASSP, 1992: 157-160.

[6] D.A. Reynolds. Speaker Identification and verification using Gaussian mixture speaker model [J]. Speech Communication, 1995, 17(1-2): 91-108.

[7] B.Tseng, F.Soong and A. Rosenberg. Continuous probabilistic acoustic map for speaker recognition [C]//Proc. ICASSP. California: ICASSP, 1992: 161-164.

[8] Kenichi YOSHIDA, et, al. Speaker Recognition Using Multi-SNR Subband GMM under Noisy Environments [R]. IEICE Technical Report. DSP2000-97, IEICE, 2000.

[9] Minghui Liu and Zhongwei Huang. Evaluation of GMM- based Features for SVM Speaker Verification [C]//Proc. of the 7thWorld Congress on Intelligent Control and Automation. China: Chongqing, 2008: 5027-5030.

[10] Hirokazu Itahashi, et,al. Explaining A Discriminate Model Construct red By SVM in Text Categorization [C]//Proc. of the 22ndAnnual Conference of the Japanese Society for Artificial Intelligence. Kyushu: ACJSAI, 2008: 1-4.

[11] 李娜,崔连延,李兰兰. 一种加权矢量量化说话人识别技术 [J]. 电脑知识与技术, 2008, (35): 2228-2229.

[12] 王永琦,邓琛,李世超,等. 噪音环境中基于GMM汉语说话人识别 [J]. 人工智能, 2005, 25(11-2):177-179.

[13] 吾守尔·斯拉木, 那斯尔江·吐尔逊. 维吾尔语语音语料库的设计研究[C]//北京, 国家语言资源与应用语言学高峰论坛, 2007.

猜你喜欢
基频声学区间
你学会“区间测速”了吗
语音同一认定中音段长度对基频分析的影响
基于时域的基频感知语音分离方法∗
桥面铺装层对中小跨径桥梁基频影响分析
爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70
全球经济将继续处于低速增长区间
Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”
Acoustical Treatment Primer:Absorption谈谈声学处理中的“吸声”(二)
Acoustical Treatment Primer:Absorption 谈谈声学处理中的“吸声”
45000kHz基频晶体滤波器