维吾尔语语音检索技术研究

2014-02-27 06:33张力文努尔麦麦提尤鲁瓦斯吾守尔斯拉木
中文信息学报 2014年5期
关键词:检索系统维吾尔语检索

张力文,努尔麦麦提·尤鲁瓦斯,吾守尔·斯拉木

(新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046)

1 引言

语音检索[1]运用大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition)的技术将语音数据转换为文本[2],并根据识别结果建立索引,检索系统根据用户输入的包含关键词的查询请求(Query),在文本中搜索与之对应的文件,最后返回相关的语音段。

目前大多数语音检索系统都是基于语音识别技术,其中有剑桥大学的Video Mail Retrieval Using Voice[3],随着语音识别解码技术的不断发展,基于音素或音节网格的语音检索技术也成为语音研究领域中的热点之一,具有代表性的系统有Google推出的Google Voice Local Search[4]。90年代初我国也开始对语音检索领域进行深入研究,其中中科院完成了查询词为语音的汉语语音文件检索任务[5],哈尔滨工业大学基于关键词检出技术提出了一种基于音节网格的语音检索技术[6]。

维吾尔语语音识别研究工作开始于20 世纪90 年代初。1994 年,吾守尔·斯拉木采用独特的音节训练词识别方法和词汇扩充方法等技术,研制出联想式特定人维吾尔语音识别系统,其识别率达到95%[7]。2012年中国科学院新疆理化所对维吾尔语广播新闻连续语音信号进行敏感词检索[8],该文献的工作是对语音文件中的敏感词汇进行检索。与该文献有所不同的是,本文所研究的维吾尔语语音检索系统目标是针对用户的输入信息快速对语音文件进行检索与定位。

本文所做的工作主要包括: (1)采用大词汇量连续语音识别技术将维吾尔语语音数据转换为文本数据;(2)将多候选的识别结果词图(lattice)转换为对应的混淆网络(CN);(3)根据混淆网络建立索引,完成对维吾尔语语音检索系统的搭建;最后在实验部分对该系统进行评测并对评测结果进行分析。

2 系统框架设计

本文所介绍的维吾尔语语音检索系统以大词汇量维吾尔语语音识别作为前端处理,以词作为识别单元,其识别结果是词或音节的词图(Lattice)多候选结构,识别结果词图再通过聚类算法转换为混淆网络(CN)[9-10]。为了提高检索的速率,根据混淆网络建立倒排索引并将索引存储在文本文件中。检索时系统对用户输入的维吾尔语查询短语用空格进行分词和预处理,将其转换成可以被检索系统接受的形式,之后利用索引实现检索。最后采用置信度[11-12]评测的方法对结果进行确认和验证,输出包含所要查询的词语的语音文件,整个语音检索的设计框架如图1所示:

图1 维吾尔语语音检索系统设计框架

3 维吾尔语语音检索系统关键问题

3.1 维吾尔语大词汇量连续语音识别

维吾尔语LVCSR系统[13]与其他语言LVCSR系统一样,实质上都属于同一种模式识别,一般情况下系统的主要任务是根据给定的一段语音序列在HMM状态空间中找到最优的状态序列,从而找出使这段语音所代表的最有可能的词序列即首选(1-Best)识别结果。而在语音检索任务中,检索系统一般需要识别结果对正确文本有较高的覆盖率以减小检索结果的漏报率,因此在解码过程中,本文利用HTK[14]工具集中的HDecode模块生成多候选(N-Best)的词图(Lattice)识别结果。

3.1.1 声学模型

维语与汉语相似,发音都是以音节为单位,但是维语的音节数量非常大,其中常用的就有3 000多个,同时每个音节之间相互独立没有共享的内容,因此使用音节作为声学建模单元是不理想的。而维吾尔语中音素仅有34个(包括sil和sp),非常适合作为声学模型的建模单元,同时考虑到上下文的因素,因此采用上下文相关的三音素作为建模单元。这样在理论上就会有38 355个三音素模型,然而实际在训练集中只出现了12 395个模型,而且不同的三音素模型平均有391个训练样本,因而会导致有些模型不能得到充分训练或某些模型根本没有被训练。为了解决这个问题,本文采用基于最大似然决策树的状态共享策略,并且根据维吾尔语语音特征(如元音、辅音、塞音、擦音、塞擦音等)设计了156个问题集给决策树在决策分类过程中提供依据[13,15]。

在建立声学模型之前,本文对训练语音数据提取39维MFCC特征(帧长25ms,帧移10ms),其中包括每一帧数据的12维倒谱系数和能量及其一阶和二阶差分倒谱,并使用倒谱均值方差归一化方法进行降噪处理。得到MFCC特征之后便可采用上面所描述的基于上下文的三音素HMM模型进行声学建模,模型训练过程中先利用HTK[14]工具对其进行MLE训练,最后再利用MLLR和MAP自适应方法对模型进行自适应优化。

3.1.2 语言模型

本文采用基于统计方法的语言模型,在语言模型生成之前先做训练数据的准备,每个文本文件中的每一句是以结尾,每个词用空格分开。由于一般训练语料中很难包含所有可能的词序列组合,因此本文采用正向生成的二元模型和逆向生成的三元模型来解决模型的稀疏问题,其中正向模型依赖于它左侧的上下文,而逆向模型依赖于它右侧的上下文。语言模型利用SRILM[16]工具训练。

3.2 词图(lattice)转换为混淆网络

由于在面向大型的语音音频文件时,词图是一种非线性的图形结构,因此在语音检索的过程中,用词图作为索引就使得索引所占的存储空间较大;同时由于词图包含的每一个候选结果都是基于其后验概率尽可能大这一原则而得来的,这就不能保证识别结果中每个词的错误率最小。然而由Mangu[9]提出的混淆网络存储格式从词错误率最小的角度出发对词图进行了优化,使得识别结果词图从原来的对整个待选句子的决策变成了对多个候选词的决策,从而使得识别结果的存储空间也相对减小了许多。因此本文将识别结果的存储格式由词图转换为混淆网络,混淆网络形式的识别结果如图2所示。

图2 混淆网络形式的识别结果

本文使用Mangu、Brill等人提出的聚类算法(Clustering Algorithm)将词图转化为混淆网络,算法大致有如下几个步骤[9-10]:

(1) lattice中的弧上都包含了一些得分,采用前-后向算法计算每条弧的后验概率;

(2) 对后验概率小于事先设定阈值的弧进行裁减;

(3) 对相同词的弧进行合并,合并前将每条弧上的后验概率进行求和,得到合并弧的后验概率;

(4) 对在同一时间间隔内相互竞争且拥有相同语音性质的互不相同的词进行聚类,最终形成混淆网络。

对后验概率较低的弧进行裁减是为了更好地将相互竞争的词对齐,同时可以提高系统的检索速率。然而如果裁减阈值设定得过高,就很有可能会裁减掉正确的词,从而降低召回率,这一点将会在后面的实验中得到验证。

3.3 倒排索引

要达到快速检索语音文件的目的,需要对多候选识别结果建立索引。文本检索的相关研究表明,使用倒排索引结构可以有效地提升检索速度,在文本检索中倒排索引的索引项是词(汉语中还有可能是字,本文针对维吾尔语自身特点采用词作为索引项),每个词对应一系列的包含文档ID以及该词在文档中的位置信息的索引记录。但是由于语音识别结果与文本不同,识别结果中的每个词还包含时间信息和相应的得分,因此语音索引记录中除了包括索引项所在的所有文档编号以外,还包含了起始时间、终止时间以及一些相应的得分信息。基于以上描述,本文所采用的倒排索引结构如图3所示。

图3 维吾尔语语音检索倒排索引结构图

图3表示了三个维吾尔语词“语音”、“检索”、“系统”(图中从上到下的顺序)的倒排索引结构,其中DocID,TS,TE,SCORE分别表示索引项所在文档编号、起始时间、终止时间和相应得分,在维吾尔语语音关键词检索中,当用户输入所要查询短语之后,系统会根据空格进行分词并删除停用词之后再查找查询词所在的文本文件和其对应的语音段。

3.4 置信度的计算

在目前的研究中,基本是以弧的后验概率作为置信度[11-12]的衡量标准。假设我们的查询词Query的音节串为l1l2...lk,后验概率记为P(Q|O),计算公式如式(1)所示。

P(Q|O)=P((l1l2...lk)|O)=P(A(l1l2...lk)|O)

(1)

其中A(l1l2...lk)代表包含音节串l1l2...lk所有的路径的集合,式(1)具体推导过程见文献[11-12]。

3.5 相关度的计算

在计算相关度之前先将语音文档D分成若干个语音片段(Segment)S1,S2,S3...SI,当用户输入查询短语Query(简写为Q)时,查询短语通过分词并删除停用词等处理以后,被分成若干个Word,分别记作W1,W2...WJ,经过3.4节中对置信度的计算,能够计算出查询词在各个语音段发生的后验概率P(Wj|Si)(1≤j≤J,1≤i≤I),最后便可得到查询短语Q和语音文档D的相关度计算公式,见式(2)。

(2)

式(2)计算出查询词所发生的频率,在索引过程中依据SIM(D,Q)值来排序文档,因此可以看出查询词出现的频率越高,查询词与语音文档间的相关度就越大。

3.6 维吾尔语语音检索中的特殊问题

早期的语音检索研究主要针对英语而进行。随着语音检索技术的发展,针对一些其他语言(如汉语、阿拉伯语等)的语音检索技术也被越来越多的人所重视。与英语和汉语相比,维吾尔语有其自身特点,而这些特点也影响到了维吾尔语语音检索系统的设计与实现。

维吾尔语属于阿尔泰语系突厥语族,是黏着性语言,同一词干利用丰富的词缀可产生超大词汇量。因此要建立覆盖维吾尔语中所有单词的发音词典有一定的难度,而且当单词作为语音识别单元时,识别系统中会产生较多的未登录词(Out Of Vocabulary,OOV),因而影响识别性能。那么在检索系统遇到无法识别的词时,检索结果就会出现较多的错误。目前OOV问题的主要解决方法就是对查询短语中的未登录词进行词干和词缀的切分[17]。然而维语词缀包含较多信息,该方法会造成信息缺失,因此对于维吾尔语OOV问题还需更进一步的探索和研究。

4 实验及结果分析

4.1 实验配置

4.1.1 训练数据描述

实验中声学模型训练集采用的是16khz采样频率,16bit 量化精度,单声道,用PC在办公室环境下录制。训练语料包含356 个人(189女,167男)发声的128 小时的49 548条语句。频谱特征观察矢量为每帧39 维向量,包扩12 阶MFCC,归一化对数能量,及其一阶、二阶差分。

实验中语言模型训练集共采用1 335 000个句子和590 000个不重复单词的维吾尔语文本语料库,内容包含新闻、杂志、政府公文、各种理工科书籍等,同时对语料库中的句子以单词为单位进行反向处理,选取60 000个高频单词作为识别发音词典和语言模型建模的基础单词列表,采用SRILM[16]语言模型训练工具分别建立了基于单词的正向2-gram和反向3-gram语言模型。

4.1.2 测试数据描述

识别阶段的测试语音库包含10个说话人(5男,5女)发声的2小时约1 000个语句的wav文件,测试集对语言模型的平均OOV率为14.8%。在检索阶段,本文分别对20个维吾尔语关键词进行检索,其中20个关键词中有两个为集外词。

4.2 实验结果分析

4.2.1 系统性能评价

语音检索系统的性能评价分为语音识别模块性能的评价和语音检索模块性能的评价: 语音识别模块的性能采用单词正确率进行评价,在4.1.2节所介绍的测试集上,该模块的单词正确率为82.1%;语音检索的性能评价准则采用接收机工作特性(Receiver Operating Characteristics: ROC)曲线。ROC曲线以虚警率为横轴,召回率为纵轴,绘制在改变阈值θ时检索系统的工作特性。在3.2节词图转换为混淆网络过程中,阈值θ用于控制词图弧的裁减,当词图弧的置信度低于阈值θ时,就对该弧进行裁减,则该弧将不参与混淆网络的转换,即不参与建立索引。

4.2.2 实验结果及分析

如表1所示为20个关键词在不同裁减阈值θ下的召回率和虚警率,并根据表中结果给出召回率和虚警率的ROC曲线,如图4所示:

表1 不同阈值下系统的虚警率和召回率

从表1结果和图4的ROC关系曲线可以看出当阈值θ增大时,相应的召回率和虚警率就会随之降低,这是由于当阈值增大时识别结果词图的弧相应裁减量就会增多,因而识别结果对正确文本的覆盖率就会降低,自然检索结果的数量就会减少,最终就有可能会导致召回率和虚警率降低。而在现实应用当中,检索系统的召回率越高越好,而相应的虚警率越低越好,因此如何根据不同的需求来选择阈值的大小,使二者达到一个比较好的平衡是一个值得考虑的问题。

图4 虚警率与召回率关系曲线(ROC)

5 结论与展望

本文研究并搭建了基于大词汇量维吾尔语连续语音识别技术的语音检索系统,该系统以维吾尔语连续语音识别系统作为识别模块,将识别结果以词图格式输出并转化为混淆网络,最后根据混淆网络生成索引,用户在使用时输入查询串,系统先对查询串进行分词,然后根据分词结果定位所要搜索的语音文件。经过评测,发现该系统在识别正确率为82.1%的情况下,当虚警率为13.5%和8.5%时,召回率分别为97.0%和79.1%,但是由于测试数据和查询关键词数量较少,该评测数据仅仅只能提供一个参考,在具体应用过程中还需要另外讨论。除此之外,目前建立的维吾尔语语音和文本语料库规模还是比较小,而且没有统一、共享的评测数据,无法对研究结果进行客观的评价,也无法与其他系统进行对比实验,因此需要加快评测数据的建立和共享。

该维吾尔语语音检索系统是新疆多语种信息处理重点实验室研发的第一个语音检索系统,为实验室后期的研发奠定了基础,但仍有许多可以改进的地方,如:

(1) 训练语料库的扩展,可以收集各种各样的语料,覆盖更广的语音现象和更广的领域;

(2) 对维吾尔语连续语音识别模块的声学模型和语言模型进一步优化以提高识别正确率(例如利用深度神经网络的方法进行优化);

(3) 将维吾尔语音的韵律特征与词图进行融合,充分运用维吾尔语语言的特点,提高维吾尔语语音检索的性能;

(4) 对集外词的问题要进一步深入研究;

(5) 优化维吾尔语语音检索系统,界面更加友好,在视觉效果上尽可能适应用户需求,尽可能满足用户的需求。

[1] A Hauptmann,H Wactlar.Indexing and Search of Multimodal Information[A].Proceedings of IEEE International Conference of Acoustics Speech and Signal Processing,Munich,Germany,1997[C]: 195-198.

[2] 郑铁然,韩记庆,李海洋.基于词片的语言模型及在汉语语音检索中的应用[J].通信学报,2009,30(3): 84-88.

[3] G J.E Jones,J.T.Foote,K Sparck Jones et al.Video mail retrieval:the Effect of Word Spotting Accuracy on Precision[A].International Conference on Acoustics,Speech,and Signal Processing 1995[C].ICASSP’95,1995,1(1):309-312P.

[4] GOOG-411[DB/OL],http://en.wikipedia.org/wiki/GOOG-411, 2008,12.

[5] Hsin-min Wang.Mandarin Spoken Document Retrieval Based on Syllable Lattice Matching[J].Pattem Recognition Letters.2000: 615-624P.

[6] 郑铁然,韩纪庆.基于音节Lattice的汉语语音检索技术及其索引去冗余方法[J].声学学报,2008,33(6): 526-533.

[7] 那斯尔江·吐尔逊,吾守尔·斯拉木.基于隐马尔可夫模型的维吾尔语连续语音识别系统[J].计算机应用,2009,29(7): 2009-2011.

[8] 木合塔尔·沙地克,李 晓,布合力齐姑丽·瓦斯力.维吾尔语广播新闻连续语音敏感词检索系统[J].计算机系统应用,2012,21(3): 29-35.

[9] L. Mangu, E. Brill, A. Stolcke. Finding Consensus in Speech Recognition: Word Error Minimization and Other Applications of Confusion Networks[J]. Computer Speech And Language,2000,14:373-400.

[10] Ville T.Turunen,Mikko Kurimo.Indexing Confusion Network for Morph-based Spoken document Retrieval[A],Proceedings of the SIGIR[C]//2007: 631-638.

[11] F K Soong,W K Lo, S Nakamura.Generalized Word Posterior Probablity(GWPP) for Measuring Reliability of Recognized Words[A].Proceeding of the SWIM2004,2004:127-128.

[12] F Wessel,R Schluter,K Macherey et al.Confidence Maesures for Large Vocabulary Continuous Speech Recognition[A].IEEE Transactions on Speech and Audio Processing,2001,9(3):288-298.

[13] 努尔麦麦提·尤鲁瓦斯,吾守尔·斯拉木.面向大词汇量的维吾尔语连续语音识别研究[J].计算机工程与应用,2013,49(9): 115-119.

[14] Young S.The HTK book[EB/OL].[2012-03-031].http://htk.eng.cam.ac.uk/.

[15] 陶梅,吾守尔·斯拉木,那斯尔江·吐尔逊.基于HTK的维吾尔语连续语音声学建模[J].中文信息学报,2008,22(5): 56-59.

[16] Andreas Stolcke.SRILM—AN EXTENSIBLE LANGUAGE MODELING TOOLKIT.Speech Technology and Research Laboratory,SRI International, Menlo Park, CA, U.S.A.[EB/OL].[2004-07].http://www.speech.sri.com.

[17] 米成刚,王磊,杨雅婷,等.维汉机器翻译未登录词识别研究[J].计算机应用研究,2013,4,30(4): 1112-1115.

猜你喜欢
检索系统维吾尔语检索
浅析图书馆检索系统的应用
浅析维吾尔语表可能语气词
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
基于行车调度指挥的高危作业智能检索系统研究
世界地质公园地图检索系统开发与应用
维吾尔语助动词及其用法
浅议专利检索质量的提升
统计与规则相结合的维吾尔语人名识别方法
基于深度学习的维吾尔语名词短语指代消解