达瓦伊德木草,木合亚提尼亚孜别克,吾守尔斯拉木
(1.新疆维吾尔自治区多语种技术重点实验室,新疆乌鲁木齐830046;2.新疆大学信息科学与工程学院,新疆乌鲁木齐830046)
据科学家分析,人类说话的声音能够反映一个人的生理、情绪、感情、健康程度、受教育程度、居住以及所处的社会环境等诸多相关联的特征,并且人类说话的声音还跟遗传因子(DNA)有关.因此,科学上不仅常常用有声语言的声学参数来观察、辨别一个人的身份,而且还可以利用声音或者话语方式操作计算机,实现高效率地通信.目前,利用声音的应用系统开发很广泛,比如:声纹判别、口语翻译手机、手写或者印刷物自动发音的语音合成、利用声源震动信息的医疗诊断、自然灾害预测及公共安全电话-网络语音监控等新技术[1∼3].
新疆不仅是多语种地区,而且面向中亚、欧洲,还是重点开发的贸易口岸地区,由此基于多语言信息处理的通信应用研究显得迫在眉睫,并贯穿到许多领域.本文在近年来语音工程技术研究成果基础上进行扩展性应用研究.例如:在医院门诊室安置一个血压计般大小的民-汉语言会话翻译装置可方便各民族百姓看病,省事、省时又省钱;在电话-网络通话终端设置语音监控装置保障地区的稳定安全;通过多语言语音查询导向系统提高旅游业服务质量等.
自然言语交际及话语传递和接收过程中,存在巨大可变性,但是人类却能非常鲁棒性地理解言语交际.研究如何将言语声学特性的可变性与言语知觉的不变性融合,是当前人机接口技术走向应用被关注的问题.这在语音接口技术研究中,如何高效地抽取有声语言的声学特征建模是一个高难度研究任务.先行相关研究靠海量级的语音语料探索建模规律,而且侧重于英语、汉语等大语言[4,5].近年来,新疆维吾尔自治区多语种技术重点实验室以维吾尔语、哈萨克语、柯尔克孜语及蒙古语等少数民族语言为研究对象,在语料缺乏、多复杂环境的情况下,更好的融合先行技术,挑战语音技术的应用研究.
说话人识别实际上是模式匹配问题.其基本原理是将待识别目标说话人模型特征与预先训练好的模板进行匹配,根据匹配距离或最大概率似然度判断目标说话人是库中哪一位或者判断是否为被申明的说话人[6].
本文构造的基于概率统计GMM模型文本无关(Open set)说话人识别系统如图1所示,其工作原理如下:1.首先对录制的n个连续声源进行切分、端点检测、分类、(Seg/ADC/VAD)等预处理,然后对有声话语按发话人编码,排序生成语音文件.wav(i=1,2···,U;k=1,2,···,M),作训练数据[7,8].其中k为发话人数,i为第k个人话语U(Utterance).2.对话语Si.wav,每隔20∼40ms(毫秒)间隔乘短时间Hamming帧系数,进行声谱到频谱分析,生成10∼50维特征向量.然后,把分析帧左移8∼20ms,继续上述分析,直到全话语分析完毕.最后获得每人话语时间序列特征向量X=(x1,x2,···,xT)(简称特征量).3.对于各目标人特征量,通过EM Training(Expectation maximization)学习,生成N个目标人GMMs模型(λ1,λ2,···,λk,···,λN),即说话人声学样本(称为目标人声纹登录).建模方法除了高斯混合GMMs(Gaussian Mixture Model)方法之外,还有量化距离码本(codebook)法、SVM(Support vector machine)方法、i−vector方法等[9].可以根据需求及规模选用.4.在识别阶段,如图1所示GMMs方法中,利用待测话语特征量与说话人样本λk进行最大似然度(maximum likelihood rate ML)匹配,计算得分,选取最接近样本λi作为识别结果.
图1 基于GMM说话人识别系统训练和测试构造原理
GMM模型利用多维概率密度函数对语音信号进行建模.由一个密度为M的高斯分量密度的和给出,即
其中为第j个话者话语,在t帧抽取出的特征量,为高斯混合参数,即每个话者GMM模型,gi表示每个高斯分量的权重系数,为均值向量,而Σi是对角协方差矩阵.利用EM算法可以估计式(1)中高斯混合模型参数λj.由最大后验概率给出的最终识别结果简化为:
为便于计算,将上式(3)用对数似然度表示,即:
SVM(即支持向量机)算法用于解决二分类问题,然而对于有N个目标人的说话人识别系统,就要利用SVM方法解决多类分类问题.一般先对N个目标人话语进行训练并分类,目标识别人数越多,在求解过程中的变量就越多,计算量就越大,而系统的实时实用性较低.目前,多数说话人识别的研究将一个多类分类问题转换为多个二分类问题讨论,通过组合多个二分类支持向量机实现多类分类[10].这种方法主要有两种:一对一(one-against-one)组合算法和一对多OAA(one-against-all)组合算法,其中OAA SVM算法易于实现.下面用图2和图3介绍OAA SVM算法基本思路.
图2 SVM法训练OAA SVM模型
图3 SVM法未知话者的识别过程
①训练阶段(见图2):将训练集中每个话者话语作为一类,例如:将话者j(j=1,2···,N)的语音信号特征量X作为class 0输入,而剩余N-1话者话语全作为class 1输入,经过SVM二分类器训练生成说话者j的OAA SVM模型Sj().最终训练出N个OAA SVM模型.
②测试阶段(见图3):对待测未知的话语,提取语音信号特征向量,依次输入到N个OAA SVM模型中做二类分类.最后统计待测语音各帧特征量被分配到最多的类,则将此类作为最后识别结果.
语音识别技术可以把话筒输入的话语转换为文本输出(speech-to-text),如果具备高精度语音识别器,那么将来操作手机或计算机直接用话筒即可,不再用键盘不用文字知识.连续语音识别器CSR(Continuous speech recognition)由:上述第2章介绍的预处理阶段,此外还包括声学模型AM(Acoustic model),语言模型P(W)以及识别单元(Decoding)组成(见图4).各单元的工作原理如下:
①训练阶段:
从N个话者录制的语音数据中,提取话语特征量;再利用这些语音特征量参数,训练音素或词单元的声学模型AM(Acoustic Model),保存到模板库中.
针对识别语言收集整理大量的文本数据,利用统计学习训练词与词的连接关系得到N-gram语言模型P(W),保存到模板库中.
②识别阶段:
对待识别语音信号进行声学分析得到语音特征量生成测试数据,再与参考模板AM和P(W)匹配计算,利用Bayes判别准则,将匹配分数最高的参考模板,作为Decoding识别结果W∗[11∼13](见式5).其中,W=(w1,w2,···,wN)为长度为N的词序列,F=(x1,x2,···,xT)为声学特征量,而P(W|F)是后验概率.
图4 连续语音识别原
不同民族的人用自己的语言交谈,不通过第三个人翻译,而直接利用计算机翻译的过程叫做语音翻译S2S(speech to speech).目前不少研究机构研发了多语种-多功能语音翻译应用软件,并投入市场试用.如:日本国际电气通信基础技术研究所ATR(Advanced Technology Research)及NICT(National Institute of Information and Communication Technology)研发的手提式旅游-商务多语言(日-中,中-英或其他语言)双向翻译终端机;通过网络交换方式,实现远距离会话翻译的手机;东芝中国研发中心开发的中-英双向语音翻译系统;Google开发的网上语音翻译系统等[14].图5及图6分别显示本文作者在日本NICT参与并研发的多语言双向口语翻译终端机及演示图.本系统对旅游(特定任务)会话的实时翻译正确率可达86%左右,已满足一般应用需求.
本文探讨医疗卫生会话翻译系统的基本原理如图7所示.系统除了通过上述的语音信号的预处理,声学分析特征提取之外,还包含连续语音识别CSR,机器翻译(Machine Translation)及语音合成(Synthesize)等技术环节.该系统综合应用了上述多领域相关技术.系统工作原理叙述如下:
(1)语音识别过程:假如,一名民族患者(一位维吾尔族大叔),对着翻译器话筒说一段“/doctor,kozambir narsini yahxi kornayd/”,这段语音经过系统自动分析后,输入到连续语音识别单元(Speech Recognition),经识别器识别输出为维吾尔语文字串“doctor,kozam bir narsini yahxi kornayd”.
(2)机器翻译过程:机器翻译单元(Translation)对语音识别器的输出结果进行维-汉文的自动翻译,将输出一段“医生,我的眼睛看不见”的汉语文本.
(3)语音合成过程:对于机器翻译输出的文本“医生,我的眼睛看不见”,语音合成单元将实施文本转换语音的任务,使得医生将听到“/医生我的眼睛看不见/”一段语音.由此系统实现了语音对语音的翻译.由于本系统能够实现双向翻译,即医生说的话反过来患者也能用自己的语言收听,从而完成医-患者会话翻译.
图5 NICT开发的语音翻译终端
图6 汉-英语音翻译终端演示(NICT)
图7 本研究提案医院门诊用语音翻译系统结构图
考虑到待识别人数多,系统实用环境噪音复杂等因素,本课题致力于提高开集说话人性能研究,提出(如图8所示)一种新的开集说话人识别方法,即基于GMM-UBM-SVM混合模型识别方法.本系统充分发挥两种分类方法GMM和SVM各自优势,即GMM模型能较好地描述类别内部的相似性,而SVM模型有优秀的分类能力.系统工作原理如下:首先对待测话语进行确认测试,系统自动确认待测话语是否来自内集话者.系统预先计算待测话语特征向量与GMM-UBM分类模型相似度并计算得分.若相似度得分大于预先阈值δ,则接受待测话语为内集话语(否则作为外集话语拒绝判别),并进一步计算GMM模型λi的最大似然度ˆj,计算得分,若得分大于预先阈值η,则判断待测话语就是内集话者中第j个话者.否则,若得分小于η,系统将实施SVM分类法,即选出小于η所对应GMM模型若干均值向量(一般选取1∼3个),输入到SVM进行OAA SVM模型训练,并继续对当前测试话语进行再次分类,选取待测话语特征向量中被分去最多向量的类作为最后判别结果输出.
实验数据:本文使用PC机,在普通实验室录制了100个说话人语音数据,每个话者任意说1∼2 min话,话语的录制频率设置为44.1KHz.对于录制的数据设置16KHz采样频率,16bit位进行量化处理.对长时间录制语音流实施基于基频F0的自动切分,端点检测,提取有声语音段,并通过人工编辑加工生成实验语音数据.每个切分话语长设为10∼30 s,并用waveform格式保存到语音训练集中.本次说话人识别实验中选用共60名话者,将其中50名话者话语作为训练集,剩余的10名话者话语作为集外话者.
图8 GMM-UBM-SVM混合模型说话人识别系统结构图
本实验提取的特征参数采用12维mel-到谱系数的MFCC和其一阶差分和一维能量参数共25维特征向量.GMM混合数设定128,SVM内核参数为RBF.为了便于比较,本次试验中也给出了GMM,GMMUBM常用测试结果.实验结果如图9和表1所示.
图9 3个话语训练数据在不同混合参数的说话人识别率
表1 5名话者说10个不同长度话语时的说话人识别结果
实验结果分析:图9显示用不同混合参数训练数据时获得的识别结果,可以看出随着混合参数的增加GMM方法识别率下降.GMM方法在混合参数为32时得到最好识别结果99.31%.这表明混合数的急剧增加会引起GMM识别结果大幅度衰退.GMM-UBM及GMM-SVM方法虽然在混合参数较小时识别率较低,但随着混合参数增大识别率会快速上升.而GMM-SVM方法在混合参数趋于256时可达100%的识别率.表1给出了5名话者训练模型的实验结果,时长不同的10段话语,且话语长控制在约10 s.从表中显示结果看到,GMM-UBM和GMM-SVM均用UBM方法适应学习建模,识别结果几乎接近,但与GMM-UBM方法相比,GMM-SVM方法的识别结果高于GMM-UBM约3%左右.GMM-SVM方法显示,即使语音信号时长较短,仍具备良好分类性能,明显优于其它方法.
语音翻译系统结构及工作原理在前面已介绍.下面以维-汉语音翻译实验介绍系统各单元实验过程及测试结果.
实验数据:本次试验中使用由64名(男性32人,女性32人)维吾尔族说话人自由会话的短语作为语音语料.语料在PC机上采用单声道录制并保存为.wav文件,语料总时长约为4.0 h(小时).采样率为16 kHz,16 bit,帧宽为10 ms.语音特征量为12维的Mel-倒谱系数(MFCC)及∆MFCC加1维对数能量,共25维向量.话语文件.wav用表2所示33个声学单元转写标注并生成拉丁字母.txt文本文件.其中sil为语音起止符.
表2 维吾尔语语音标注声学单元(共33)
建声学模型:考虑到语料大小以及话语区间标注的精确度,本研究采用种子(seed)模型引导大语料,构建声学模型方法.具体做法如下:
从语音语料中选择10个话者500个话语(男性5人,女性5人),用表2中声学单元进行人工准确地标注音素生成.lab文件;
利用HTK toolkit对以上语料(包括.wav文件和标注的.lab文件)进行声学模型训练,产生高精度的种子模型;
对剩余的语音语料(共54个话者语音.wav和.txt文本),利用viterbi alignment算法参照种子模型进行自动切分,并对每个切出音素,按前后2个音素的组合产生学习用数据,再利用学习用数据在HTK toolkit上训练新的声学模型.实现过程如下:学习数据的生成→topology学习→label学习→连接学习.如此,得到的声学模型为三音子(triphone)HMMnet格式声学模型;
用新的声学模型替换第1次样本seed模型,重复上述训练过程,生成最终的33个HMMnet格式声模(AM).
建语言模型:一般对容量为V的文本训练集训练N-gram语言模型时,要产生VN个N-gram参量,参量总数随着N的增大急剧增大.为此,本文研讨基于词类(class N-gram)的语言模型.对于长度为V的词串W=w1,w2,···,wi,具体做法如下:
将每个词作为一个类初始化;
对每个词或类指定能反映词与词之间连接关系的向量ν(x);
把向量ν(x)分别记作后行向量νt(x)和先行向量νf(x),如下所示:
其中,pt(wi|x)和pf(wi|x)分别表示从某个词或者类到后行一个词和前行一个词2-gram概率值.
通过式(8)把合并损失最小的2个类合并为一个:
其中,cnew为合并后的类;cold为合并前的类;D(νc,νw)为向量νc和νw的欧氏距离平方.在本次试验中利用表3数据,以及选用词频为200以上的词构建6万词词典,并用palmkit工具生成2-gram及3-gram统计语言模型.
利用上述方法生成的声学模型和语言模型,引用Julius[15]识别器实现语音识别.为便于比较实验结果,本文给出了语音数据在不经过人工标注切分和经过人工标注切分两种情况下的实验结果.对于200个上下文无关,一般话筒输入话语和公用电话输入话语通过3-gram语言模型进行识别的结果如图10所示.
实验结果表明,在同等数据的3-gram语言模型条件下,通过少量语料的人工切分标注来生成种子声学模型再引导大语音建模方法的识别率为72.5%,明显优于无人工标注(识别率为68.3%),识别率提高了4.2个百分点.同时也发现实时电话输入语音识别的结果低于一般话筒输入的识别结果.这可能因为电话语音噪音大,信号特性复杂难以获得高精度特征参数而引起.
表3 用于统计模型的维吾尔语文文本集
图10 3-gram模型连续语音识别结果
本次实验采用了统计机器翻译SMT(Statistical machine translation)技术.从本研究设计制造的民-汉医疗卫生用语多文本对齐语料[16]中选用维-汉,蒙-汉各30K短语对齐文本语料,统计生成双语翻译模型,对目标语言(汉语),单独训练N-gram统计语言模型.本次实验引用了Moses v 0.91版本翻译软件[17].表4中给出了用BLEU(Bilingual Evaluation Understudy)[18]值自动评测的翻译实验结果.在测试阶段,另外生成510对测试文本,并对每个短语又设定14个参考翻译短句.由于实验数据处于初建阶段,本文只报告维-汉和蒙-汉单向翻译结果.
表4 机器翻译自动测试实验结果
本文讨论基于隐马尔可夫模型(HMMs)的语音合成方法.首先利用一名汉语普通话者朗读时长约为1 h的医疗卫生用语短句文本.
其次,对于录制话语采用16kHz采样频率,25-ms Hamming窗口进行预处理,每隔5-ms帧长,抽取出语音基音F0和到谱参数.抽出基音参数logF0值和变化率参数构成基音F0特征向量.由25维倒谱系数,过零系数,变化率参数组成倒谱特征向量.然后用自然语言处理工具对录制话语进行声学单元标注,确立话语中词和句子的发音位置信息.声学单元的训练用5-状态left-to-right HMMs进行,每个HMM对应话语中的各声学单元.最后,合并标注文本,基音及到谱特征向量,训练HMMs模型.
本次合成实验引用HTS(HMM-based speech synthesis system)工具中的合成声码器,实现mel-对数谱近似(Mel Log Spectrum Approximation,MLSA)合成声码器.
通过人工听力评估语音合成试验结果.在本次试验中系统对测试输入话语,经机器翻译及语音合成输出其结果.通过观察发现,合成实验结果较接近原始录音语音.但是对于不同话语的输入,系统输出语音的精确度有明显差距.这主要可能是:连续语音识别单元识别精度不高,误识别字符串得不到准确的翻译,从而影响了语音合成效果;并且用于语音合成训练的语料有限,使HMMs模型及合成参数特征提取精度不够高,也可能是原因之一.
本文介绍了语音工程技术在民族语言文字处理方面的应用研究情况.对于说话人识别问题提出了GMMUBM-SVM混合技术的识别方案.试图充分发挥GMM及SVM两种算法各自强项提高系统鲁棒性.从本次实验可确认,GMM-SVM组合识别方法对于短暂语音信号有较好鲁棒性,识别率好于常用GMM-UBM方法(约高3%).针对语音翻译技术的工程应用,本文提出在医疗卫生领域使用民-汉语言会话翻译系统.对于缺乏语料的民族语言,本文提取高精度声学模型,采取了少语料人工标注生成语音环境精密的seed声摸,再用之引导大语音语料训练声模.实验结果得出结论,与无人工标注语音-文本对齐语料直接训练声摸情况相比,有人工标注的方式性能要好.该实验证明语音环境的准确掌握对于缺乏语料的民语实现连续语音识别确有较大帮助.最后还尝试了语音翻译技术实用系统的构造及测试,并达到预期目的.
由于语音技术在少数民族地区的研究开发工作刚刚起步,收集准备的试验数据及技术方法有限,本文仅仅讨论了一些简单的应用结果.今后将加大建立能够全面覆盖民语自然语音、语言知识网络的语料库系统,并结合具体语言结构建立多语言语音学知识系统,从而进一步提高应用系统的性能.