语音关键词检测中置信测度方法研究综述

2014-04-29 00:44:03李海洋韩纪庆郑贵滨郑铁然

智能计算机与应用 2014年2期

李海洋　韩纪庆　郑贵滨　郑铁然

摘要：语音关键词检测是指在语音文档中寻找并定位特定的词的技术，输入所需查询的关键词通常是以文本的形式给出。作为语音文档分析等技术的核心部分，语音关键词检测始终是语音处理领域研究的热点。置信测度计算是关键词检测技术的重要组成部分，它对确认正确检出的关键词及拒绝误识都起到决定性作用，置信测度的优劣对检测系统性能有着直接的影响。本文介绍并总结了语音关键词检中测置信测度方法的研究工作，提供了详尽的参考文献。

关键词：语音关键词检测；置信测度；词表外词

中图分类号：TP391 文献标识码：A 文章编号：2095-2163（2014）02-

An Overview of Confidence Measure for Spoken Term Detection

LI Haiyang， HAN Jiqing， ZHENG Guibin， ZHENG Tieran

（School of Computer Science and Technology， Harbin Institute of Technology， Harbin 150001， China）

Abstract： Spoken term detection （STD） is the task which aims to locate all occurrences of terms queried by a user in large audio archives， and the terms are usually in the format of text. STD is one of the key components for spoken document analysis， and STD is always a focus in the field of speech processing. Confidence measure is a crucial part of STD， and it plays an important role in rejecting false alarms. The merit of confidence measure can affect the performance of STD directly. This paper introduces and summarizes the research work of confidence measure for STD， and provides with plenty of references.

Key words： Spoken Term Detection； Confidence Measure； Out-of-vocabulary Term

0引言

近年来，语音识别领域取得了很多成果，但真正要完成一个能够处理自然语言、同时又不受环境和领域限制的语音识别系统，就现有的技术水平来说是非常困难的。从人类感知的角度来讲，要听懂一段话，并不一定要听懂每个字和词。大多数情况下，只要听懂一些关键的词，比如句子中的实词，根据这些关键词部分就可以推断出该段话的语义。这种词的检测技术只关注用户所关心的信息，对其他部分和句子中的语法不作过多的要求。从说话者的角度来讲，对关键部分的发音通常是完整的和吐字清晰的。因此，从目标语音中检测词比识别整个句子的发音要相对容易。所以在人机交互过程中，语音关键词检测技术比连续语音识别更具有实用价值。上述这些领域都依赖于某种能对相关词准确检测的技术，这种技术就是语音关键词检测技术。

语音关键词检测（spoken term detection，简称STD）是指在语音文档中寻找并定位特定的词的技术，输入所需查询的关键词通常是以文本的形式给出[1]。语音关键词检测技术作为语音文档分析等技术的核心部分，始终是语音处理领域研究的热点。

由于语音关键词检测结果中不可避免地存在着大量误报，即某些被检测出的候选不是真正的关键词，因而采用有效的置信测度技术对结果进行确认以拒绝误报就显得尤为重要。

候选的置信测度是衡量候选可信程度的手段，有效的置信测度应能在检出正确的关键词时其值尽可能高，而在误识时其值尽可能低。理想情况下，全部正确检出关键词的置信测度应该高于所有误识的置信测度。

语音关键词置信测度有着非常广泛的应用前景，具体表现在：

（1）置信测度计算是关键词检测技术的重要组成部分，对确认正确检出的关键词及拒绝误识都起到决定性作用，置信测度的优劣对检测系能有着直接的影响；

（2）置信测度在语音文档信息检索领域中扮演重要的角色，可以用于计算文档与关键词的近似程度；

（3）置信测度在语音文档主题检测及分类中也起着重要作用，有效的置信测度可以使得对语音文档中词频估计更为准确，从而整体提升主题检测及分类的性能。

综上所述，开展对关键词检测中置信测度的研究不仅具有重要的理论与应用意义，而且具有深远的社会效益和经济效益。

1关键词检测中置信测度方法的研究工作

通常将关键词检测按照功能分为词表内（in-vocabulary，INV）词检测和词表外（out-of-vocabulary，OOV）词检测两个部分。这是由于利用传统的大词表连续语音识别（large vocabulary continuous speech recognition，LVCSR）的关键词检测系统很难解决词表外词检测的问题。这里的词表就是LVCSR所用的词表。因此，处理词表内词的方法与处理词表外词方法着明显不同。基于不同的语音识别结果表示形式，可以对不同的词进行检测。具体检测的操作是在由目标语音文档识别结果所建立的索引中，根据用户给出的关键词进行匹配。匹配操作分为两种：完全匹配和模糊匹配（soft match）。完全匹配是指在索引中找到的对应内容，可精确地匹配用户查询词，即不允许任何匹配错误。模糊匹配是指在索引中找到的对应内容，模糊地匹配于用户查询词，即允许一定限度上的匹配错误。对词表内词的检测，通常利用基于词级识别索引进行完全匹配而实现。对词表外词的检测，通常利用基于子词级的索引进行模糊匹配完成。接下来，本文将按照词表内词与词表外词两个方面，对置信测度的研究现状进行阐述。

2词表内词置信测度

对于词表内词的检测主要使用基于词的索引和完全匹配策略，以此来计算词级的置信测度。这类置信度不仅在关键词检测中起到重要作用，在语音识别后处理中也有广泛应用[2]。本文尽管主要研究的是关键词检测中置信测度，但本节依然参考了一定数量的语音识别中的置信测度的研究。基于完全匹配的置信测度大体可以分为6类，即基于特征的置信测度、基于后验概率（或归一化）的置信测度、基于假设检验的置信测度、基于区分性训练的置信测度、基于上下文背景及候选间关系的置信测度、基于特征融合的置信测度等。各种分类之间并不是相互独立的，即一种置信测度方法可以按其特点归属于多个类之中。

2.1基于特征的置信测度

基于特征的置信测度将语音识别Viterbi解码过程中所产生信息作为置信测度依据。这些特征包括声学似然比[3-4]、音素片段的匹配得分[5]、语言模型信息[5，6]、语言学特征（对元音、附音的统计）[7]、状态驻留时间长度[8，9]等。Chase比较了各种从Viterbi解码过程中获得的特征，包括N-best列表的内容、语言模型得分、词发音、训练语料中的词频[10]。Kemp与Schaaf使用各种来自Lattice的信息计算置信测度，比如边的概率和候选密度（某一个位置同一个关键词候选的个数）[11]。针对Lattice中关键词候选相互交叠的情况，除了考虑候选密度，Wang利用贝叶斯和证据理论将同一个关键词所对应的相交叠候选进行置信测度的合并[12]，性能较单独的候选置信测度有明显提高。尽管针对置信测度已经提出很多种特征，但这类方法也只是从候选自身特征的角度来度量候选的可靠程度。单独使用这种特征，性能提高的程度非常有限。

2.2基于后验概率的置信测度

根据贝叶斯决策理论，基于后验概率的决策可以给出最小化的风险。因此，后验概率是一种理想的关键词检测置信测度。根据贝叶斯理论将后验概率分解为一个比值，即候选似然值与一切可能出现的候选似然值之和的比值。这种处理也相当于候选似然值的一种归一化，而归一化过程可以通过背景模型、N-best结果、Lattice来实现。

Rose和Paul[13]以及James[14]都是通过建立并训练显式的背景模型来计算后验概率。除显式的建立背景模型之外，用所有活动状态似然值之和也可以归一化帧级别的似然值[15-16]。Weintraub针对基于LVCSR的关键词检测，提出了一种基于N-best的置信测度。该方法将所有候选的声学模型得分进行了累加，并用于归一化操作[17]。Rueber也通过实验证明利用N-best归一化得到的置信测度与检测的正确性有一定的关系[18]。

随着Lattice的广泛使用，基于N-best的置信测度也被Wessel等研究者扩展为面向Lattice的置信测度[19]。这种置信测度称为基于Lattice后验概率（lattice based posterior probability，LBPP）的置信测度。LBPP可以表示为一个比值，分子是通过候选所表示有向边的全部路径得分之和，分母为Lattice中所有路径得分之和。每条路径中既考虑声学模型得分，也考虑语言模型得分。基于LBPP的置信测度比基于N-best的置信测度性能更好[19]。基于LBPP的置信测度已经广泛应用于语音关键词检测之中[20]。通常。基于LBPP的置信测度只使用简单的n元文法（n-gram）语言模型，而没有考虑相隔距离较远的候选间置信测度的关系。

2.3基于假设检验的置信测度

另外一条计算置信测度的途径是假设检验，将置信测度问题作为一个假设检验问题进行处理。将判断正确命中与误识映射到检验原假设“检测结果是关键词”或备择假设“检测结果不是关键词”之中。一般这种假设检验通过设置原假设和备择假设间似然比所满足的阈值来完成。因此，这类方法也称为基于似然比的置信测度方法。常见的情况是利用背景模型[21]或反词模型[22]作备择模型。通过上述分析可知，以上方法依赖于原始声学模型或备择模型，声学模型的质量会影响到这类特征的性能。

2.4基于区分性训练的置信测度

基于区分性的置信测度是把判断某关键词候选是命中还是误识当成一个二值分类问题。

其中，是前面提到的某些置信测度信息作为分类特征。第一种方法是利用贝叶斯框架为正确检测结果和误识所对应置信测度的分布各自构建分类条件密度函数[23，24，3]。这种方法需要对置信测度的条件概率分布进行建模，因此这是一种产生式（generative）方法，所带来的性能改进很有限。

除此之外，可以直接使用区分性模型来直接对候选的分类后验概率进行估计。多种分类器可用于对候选的分类，包括：人工神经网络[25]、决策树[11]、支持向量机（support vector machine，SVM）[26]、Boosting分类器[27]、多层感知机（multiple-layer perceptron，MLP）[28]等。使用分类模型的方法比基于分类条件密度函数的方法在性能上有了一定提高，但也需要一定数量的数据训练分类器。

另外，也可以使用区分性准则进行参数训练。Kamppari[29]和Ma[28]等人分别利用线性区分性准则训练参数，用以计算置信测度。Abdou[30]和Liang[31]等学者通过对音素级似然比线性加权的策略计算词级置信测度，即不同音素用不同的系数进行加权。参数训练则采用最小分类错误（minimum classifier error，MCE）准则来完成。这种方法获得了比音素级置信测度取均值更好的效果。然而，该方法所用的训练准则MCE与传统关键词检测的评价准则还是有一定区别。因此用其完成参数训练，没有直接达到最优化的效果。为此，Wallace等人以品质因数（figure-of-merit，FOM）作为优化准则[32]训练参数，来计算关键词候选的置信测度。作为常用的评价标准，FOM可以用来描述关键词检测的性能。但该标准也只是在ROC曲线上抽取若干个特殊点，利用特殊点的性能估计整体ROC曲线的情况。因此，以FOM作优化准则也只是对优化目标的一种近似的度量。

2.5基于上下文背景及候选间关系的置信测度

近十年来，上下文信息已经广泛用于语音识别和语音关键词检测的研究中，并且对语音识别和语音关键词检测的性能提高发挥了积极的促进作用[33-37]。本文中上下文背景可定义为：在同一语句的识别结果中与当前候选关键词相对应的其他候选关键词组成的集合。基于上下文一致性的置信测度方法核心思想为：当某个候选关键词与其上下文背景的语义表现不一致时，该候选关键词很可能是误识。为了对这种一致程度做以数学评估，通常使用背景一致度（context consistency）。

背景一致度可以由词与词之间语义相似度（measure of semantic similarity）的计算而获得，且可将其作为一种高级的语言学信息[33，34，37]。语义相似度可以抽取语句中词与词之间的共同出现的关系。传统的n元文法语言模型一般只考虑相邻距离较近的词间的关系，而语义相似度则可以考虑相邻距离更长的词间的关系。这种语义相似度通常由基于潜在语义分析（latent semantic analysis，LSA）[33]或点互信息（pointwise mutual information，PMI）[34，37]等方法计算得到。

对于某个候选词w而言，其上下文背景中的每一个词称为词w的背景词。通常候选词w的上下文背景一致性由w与其上下文背景词间的语义相似度的均值得到。该方法假设背景词在语音识别结果中的发生是确定的事件。然而，这样的假设是不正确的。因为语音识别结果中某个词的出现实际上是不确定的[38]。因此，在计算置信测度时有必要考虑上下文背景的不确定性。在文献[36]中，关键词候选所对应的上下文背景特征向量即用在了背景一致度的计算过程中。在考虑到上下文不确定性的前提下，由基于支持向量机或余弦相似度的方法计算背景一致度。然而，这种方法需要大量详细标注的语料，包括特别抽取和标注的含有关键词或不含有关键词的语音片段，用于为每一个词选择特征向量或者训练模型。

利用同一个词对应候选间的相关程度也可以计算置信测度。一种方法是基于伪相关实例及反馈的置信测度[39，40]。首先根据某种置信测度，将若干最可能是正确检测的候选作为伪相关实例，将若干最可能是误识的候选作为伪无关实例。之后为每一个候选计算其与伪相关实例和伪无关实例的相关度，相关度可以由声学相似度或语言学相似度给出。根据相关度和反馈机制，对每一个候选进行重新打分。另一种方法是基于图和随机游走的置信测度方法[40]。根据候选间相关度构造有向图，利用随机游走所获得的概率为候选重新打分。实验证明这两种方法都是有效的，但目前却只是应用于词表内词的置信测度计算当中。

2.6基于特征融合的置信测度

在利用分类模型计算置信测度过程中，当使用特征多于一种时，可以看做是一种特征融合的方法。除以上提到的融合方法之外，基于线性融合[42]、一般化线性模型（generalised liner model，GLM）[43]、最大熵模型（maximum entropy model）[44]、边缘化的联合错误估计（marginalization of jointly estimated error cause probabilities）[45]、多重线性回归（multiple linear regression）[7]、条件随机场（conditional random fields）[46-47]等方法也应用在置信度融合之中。实验证明，使用多个特征较相较于使用单一特征会带来性能改善。

3词表外词搜索策略及置信测度

词表外词的问题已然成为关键词检测任务的研究热点之一，通常的解决方法是使用模糊匹配。语音识别任务中，词表外词比例较低，通常在1%至2%左右，其错误识别不会影响整体识别性能。但在语音关键词检测或语音检索任务中，由于用户更倾向于搜索不常见的词或新生的词，用户给出的关键词中词表外词的比例很高。有统计显示，文档中词表外词的比例约为1.5%，而用户查询词中词表外词的比例高达12%[48]。

关键词检测系统对于词表外词的召回率较低。这是由于词表外词无法准确地标注在训练语言模型的语料中，也无法正常训练相关的语言模型。因此，语言模型使Viterbi解码产生词表外词候选结果的可能性变小。英语关键词检测中，如果直接基于LVCSR结果建立索引，会相应导致词表外词无法被检测。在处理英语的词表外词过程中，可将词表外词表示为与该词发音相近的词表内词或子词序列[49]。另外，由于英语词表外词的读音多是未知的，通常建立发音模型（letter-to-sound，L2S）对其发音进行描述[49，50]，由此也可以处理英语中部分由错误发音导致的词表外词漏检问题[51]。词表外词的问题对汉语关键词检测性能的影响也是十分明显的，通常其召回率较词表内词要低至少20%以上。

3.1基于子词的搜索

对于词表外词的问题，一种解决方案是使用基于子词的索引进行检测，将查询词表示为子词序列的形式进行搜索。子词包括音素[52，53]、音节[54]、词片[55]等。与英语不同，汉语词表外词可以通过基于子词的方法来处理。汉语是基于汉字的，每个汉字对应一个音节，音节可以直接用作汉语的子词基元。因此，可以为关键词检测建立基于音节的索引结构。如果用户给出的关键词中包含词表外词，可将其表示成对应汉字的音节序列的形式。对词表外词的检测、其后转化为在基于音节的索引中搜索音节序列的过程，由此即可完成对词表外词的检测。然而，在Viterbi解码过程中，子词序列相对词要经历更多的剪枝操作，这就使得在识别结果中出现词表外词对应音节序列的可能性大大减小[56，57]。这样，如果在搜索子词串的过程中只使用完全匹配，尽管理论上能够使汉语词表外词得到检测，但召回率较词表内词却要低很多。

3.2模糊匹配

在词表外词检测过程中，基于模糊匹配的方法可用以处理识别器产生的识别错误对召回率的影响。该方法基本思想是在搜索过程中允许关键词与目标语音对应识别结果间存在一定程度的不匹配。基于模糊匹配的搜索可以通过序列动态规划算法实现[56，58，59]。对于序列动态规划算法，子词Lattice[56，58]和后缀数组（suffix array）[59]等索引结构已经应用于搜索过程中。但是，序列动态规划算法在关键词检测的在线阶段执行，且比较费时，从而导致在线搜索时间较长。为了减少搜索时间，可以直接在离线阶段使用模糊匹配策略进行索引的扩展[54]。索引的扩展是将与索引中内容易混淆的片段也加入到索引当中。文献[54]中，识别结果将扩展为一个基于n元文法数组且考虑距离度量的索引结构，包括替代、插入、删除等不匹配的情况都会加入到索引之中，成为索引的一部分。在线过程只要在已扩展的索引中对查询词进行完全匹配即可。但是，这种索引扩展方法使索引规模变大，因而需要更多的存储空间。另一方面，索引扩展很难应用在基于Lattice等识别结果的索引当中。关键词扩展是另一种利用模糊匹配解决词表外词问题的方法，该方法在离线阶段对关键词而不是索引进行扩展[49，50]。关键词扩展的基本思想，是为关键词制定多种搜索模式，这样识别器产生的错误即能够显式地得以呈现。关键词扩展还会将哪些与所需要查询的词发音相似的词或子词序列也加入到查询请求中。搜索阶段，在索引中通过完全匹配搜索扩展后的关键词即可实现词表外词的检测。该方法对索引并无过多的要求，一般关键词检测所用索引即可满足要求。这些英语中查询词扩展方法很难使用在汉语、日语等以音节为基元的语言中。因为在汉语的语音识别中音节的插入、删除错误会经常发生，传统方法很难将这些错误考虑进来。

在模糊匹配的过程中，为了度量子词间的不匹配程度，通常在进行搜索和扩展之前给出子词间的不匹配惩罚。一个简单的方法是利用子词串间的编辑距离，惩罚的权值由经验给出[56，60]，不匹配程度通过累计要查询的关键词与目标词之间三种错误（替代、插入、删除错误）的代价获得。一般由经验给出各种错误代价根据，往往是不平滑的，即对不同音节相应错误的惩罚是一样的，没有区分性。同时也很难按经验给出合适的对应不同音节和不同错误的惩罚权值。另一种估计不匹配惩罚的方法是基于语音识别错误统计的方法。该法是用三种错误对应错误率作为不匹配惩罚[58，61，62]。但是，该方法需要大量语音识别结果以及对应标注语料，用来统计不同音节的错误率。第三种方法利用子词声学模型间的距离或差异程度来衡量不匹配惩罚[63，64]。基于模型间差异的方法很难对插入或删除错误产生的不匹配进行惩罚估计，对于不同长度的隐马尔科夫模型（hidden Markov model，HMM）间的距离或差异也仍未见有效的方法进行度量。

3.3词表外词检测的置信测度

由于词表外词检测的问题很难通过完全匹配来完成，2.2节中介绍的方法基本不能用于对词表外词的候选进行置信测度的计算。对于模糊匹配，其置信测度一般根据模糊匹配过程中不匹配程度来计算[54，56，64]。但这种置信测度只能间接地度量候选的可信程度，即不匹配程度只能度量识别结果与关键词间的相关程度，不能直接度量候选片段与关键词间的相关程度。

4结束语

目前，语音关键词检测领域的研究已经引起了越来越多的关注，而置信测度方法是其中的重要研究内容。对此，国内外研究者已经展开了细致与深入的研究。本文归纳并总结了关键词检测置信测度方法，希望借此能推动置信测度方法的进一步深入研究。

参考文献：

[1] National Institute of Standards and Technology （NIST）. The spoken term detection （STD） 2006 evaluation plan[J]. http：//www.nist.gov/speech/tests/std， 2006. 10 edition.

[2] J IANG H. Confidence measures for speech recognition： a survey[J]. Speech Communication， 2005， 45（4）：455–470.

[3] COX S， ROSE R. Confidence measures for the SWITCHBOARD database[C]//ICASSP. Atlanta， Georgia， USA： IEEE， 1996， 1：511–514.

[4] BERGEN Z， WARD W. A senone based confidence measure for speech recognition[C]//Proc. Eurospeech. Rhodes， Greece： ISCA， 1997：819–822.

[5] MANOS A， ZUE V. A segment-based wordspotter using phonetic filler models[C]//Proc. of ICASSP. Munich， Bavaria， Germany： IEEE， 1997， 2：899–902.

[6] UHRIK C， WARD W. Confidence metrics based on N-gram language model backoff behaviors[C]//Proc. Eurospeech. Rhodes， Greece： ISCA， 1997：2771–2774.

[7] TEJEDOR J， TOLEDANO D T， BAUTISTA M， et al. Augmented set of features for confidence estimation in spoken term detection[C]//Proc. of Interspeech. Chiba， Japan： ISCA， 2010：701–704.

[8] GORONZY S， MARASEK K， HAAG A， et al. Phone duration based confidence measures for embedded applications[C]//Proc. ICSLP. Beijing， China： ISCA， 2000， 4：500–503.

[9] SCANZIO S， LAFACE P， COLIBRO D， et al. Word confidence using duration models[C]//Proc. Interspeech. Brighton， United Kingdom： ISCA， 2009：1207–1210.

[10] CHASE L. Word and acoustic confidence annotation for large vocabulary speech recognition[C]//Proc. of Eurospeech. Rhodes， Greece： ISCA， 1997：815–818.

[11] KEMP T， SCHAAF T. Estimating confidence using Word lattices[C]//Proc. Eurospeech. Rhodes， Greece： ISCA， 1997：827–830.

[12]WANG D， EVANS N， TRONCY R， et al. Handling overlaps in spoken term detection[C]//Proc. of ICASSP. Prague， Czech Republic： IEEE， 2011：5656–5659.

[13]ROSE R C， PAUL D B. A hidden Markov model based keyword recognition system[C]//Proc. of ICASSP. Albuquerque， NM， USA： IEEE， 1990， 1：129–132.

[14] JAMES D A. A system for unrestricted topic retrieval from radio news broadcasts[C]//Proc. of ICASSP. Atlanta， Georgia， USA： IEEE， 1996， 1：279–282.

[15] ROHLICEK J R， RUSSELL W， ROUKOS S， et al. Continuous hidden Markov modelingfor speaker-independent word spotting[C]//Proc. of ICASSP. Glasgow， UK： IEEE，1989， 1：627–630.

[16] JEANRENAUD P， NG K， SIU M， et al. Phonetic-based word spotter： various configurations and application to event spotting[C]//Proc. of Eurospeech. Berlin， Germany： IEEE， 1993，1：1057–1060.

[17] WEINTRAUB M. LVCSR log-likelihood ratio scoring for keyword spotting[C]//Proc. of ICASSP. Detroit， Michigan， USA： IEEE， 1995， 1：297–300.

[18] RUEBER B. Obtaining confidence measures from sentence probabilities[C]//Proc. of Eurospeech. Rhodes， Greece： ISCA， 1997：739–742.

[19] WESSEL F， SCHLUTER R， MACHEREY K， et al. Confidence measures for large vocabulary continuous speech recognition[J]. IEEE Transaction on Speech and Audio Processing， 2001， 9（3）：288–298.

[20] SZOKE I， SCHWARZ P， MATEJKA P， et al. Comparison of keyword spotting approaches for informal continuous speech[C]//Proc. of Interspeech. Lisbon， Portugal： ISCA，2005：633–636.

[21] TAN B T， GU Y， THOMAS T. Word level confidence measures using N-best sub hypotheses likelihood ratio[C]//Proc. of Interspeech. Aalborg， Denmark： ISCA， 2001：2565–2568.

[22] GISH H， NG K， ROHLICEK J R. Secondary processing using speech segments for an HMM word spotting system[C]//Proc. of ICSLP. Banff， Canada： ISCA， 1992：17– 20.

[23] YOUNG S R. Detecting misrecognitions and out-of-vocabulary words[C]//Proc. of ICASSP. Adelaide， SA， Australia： IEEE， 1994， 2：21–24.

[24] JEANRENAUD P， SIU M， GISH H. Large vocabulary word scoring as a basis for transcription generation[C]//Proc. of Eurospeech. Madrid， Spain： ISCA， 1995：2149–2152.

[25] WEINTRAUB M， BEAUFAYS F， RIVLIN Z， et al. Neural-network Based Measures of Confidence for Word Recognition[C]//Proc. of ICASSP. Munich， Bavaria， Germany： IEEE， 1997， 2：887–890.

[26] SUDOH K， TSUKADA H， ISOZAKI H. Discriminative named entity recognition of speech data using speech recognition confidence[C]//Proc. of ICSLP. Pittsburgh， USA： ISCA， 2006：1153–1156.

[27] MORENO P， LOGAN B， RAJ B. A Boosting approach for confidence scoring[C]//Proc. of Eurospeech. Aalborg， Denmark： ISCA， 2001：2109–2112.

[28] MA C， LEE C H. A study on Word detector design and knowledge based pruning and rescoring[C]//Proc. of Interspeech. Antwerp， Belgium： ISCA， 2007， 3：1473–1476.

[29] KAMPPARI S O， HAZEN T J. Word and phone level acoustic confidence scoring[C]//Proc. of ICASSP. Istanbul， Turkey： IEEE， 2000， 3：1799–1802.

[30] ABDOU S， SCORDILIS M. Beam search pruning in speech recognition using a posterior probability-based confidence measure[J]. Speech Communication， 2004， 42：409–428.

[31] LIANG J， MENG M， WANG X， et al. An improved Mandarin keyword spotting system using MCE and context-enhanced verification[C]//Proc. of ICASSP. Toulouse， France： IEEE， 2006， 1：1145–1148.

[32] WALLACE R， VOGT R， BAKER B， et al. Optimising figure of merit for phonetic spoken term detection[C]//Proc. of ICASSP. Dallas， USA： IEEE， 2010：5298–5301.

[33] COX S， DASMAHAPATRA S. High-level approaches to confidence estimation in speech recognition[J]. IEEE Transactions on Speech and Audio Processing， 2002， 10（7）：406–417.

[34] GUO G， HUANG C， JIANG H， et al. A comparative study on various confidence measures in large vocabulary speech recognition[C]//Proc. of ICASSP. Montreal， Quebec， Canada： IEEE， 2004：9–12.

[35] SCHNEIDER D， MERTENS T， LARSON M， et al. Contextual verification for open vocabulary spoken Term Detection[C]//Proc. of Interspeech. Makuhari， Chiba， Japan： ISCA， 2010：697–700.

[36]LEE H Y， TU T W， CHEN C P， et al. Improved spoken term detection using support vector machines based on lattice context consistency[C]//Proc. of ICASSP. Prague， Czech Republic： IEEE， 2011：5648–5651.

[37] ASAMI T， NOMOTO N， KOBASHIKAWA S， et al. Spoken document confidence estimation using contextual coherence[C]//Proc. of Interspeech. Florence， Italy： ISCA， 2011：1961–1964.

[38] CHELBA C， HAZEN T J， SARACLAR M. Retrieval and browsing of spoken content[J]. IEEE Signal Processing Magazine， 2008， 25（3）：39–49.

[39] LEE H Y， CHEN C P， LEE L S. Integrating recognition and retrieval With relevance feedback for spoken term detection[J]. IEEE Transactions on Audio， Speech and Language Processing， 2012， 20（7）：2095–2110.

[40] LEE H Y， LEE L S. Enhanced spoken term detection using Support Vector Machines and weighted pseudo examples[J]. IEEE Transactions on Audio， Speech and Language Processing， 2013， 21（6）：1272–1284.

[41] CHEN Y N， CHEN C P， LEE H Y， et al. Improved spoken term detection with graph-based re-ranking in feature space[C]//Proc. of ICASSP. Prague， Czech Republic： IEEE， 2011：5644–5647.

[42] MA Z， WANG X， XU B. Fusing multiple confidence measures for Chinese spoken term detection[C]//Proc. of Interspeech. Florence， Italy： ISCA， 2011：1925–1928.

[43] GILLICK L， ITO Y， YOUNG J. A probabilistic approach to confidence estimation and evaluation[C]//Proc. of ICASSP. Munich， Bavaria， Germany： IEEE， 1997， 2：879–882.

[44] YU D， WANG S， LI J， et al. Word confidence calibration using a Maximum Entropy Model with constraints on confidence and Word distributions[C]//Proc. of ICASSP. Dallas， USA： IEEE， 2010：4446–4448.

[45] OGAWA A， NAKAMURA A. A novel confidence measure based on marginalization of jointly estimated error cause probabilities[C]//Proc. of Interspeech. Chiba， Japan： ISCA， 2010：242–245.

[46] OU Z， LUO H. CRF-based confidence measures of recognized candidates for lattice based audio indexing[C]//Proc. of ICASSP. Kyoto， Japan： IEEE， 2012：4933–4936.

[47] SEIGEL M， WOODLAND P， GALES M. A confidence-based approach for improving keyword hypothesis scores[C]//Proc. of ICASSP. Vancouver， Canada： IEEE， 2013：8565–8569.

[48] LOGAN B， MORENO P， THONG JMV， et al. An experimental study of an Audio indexing system for the Web[C]//Proc. of ICSLP. Beijing， China： ISCA， 2000：676–679.

[49] LOGAN B， THONG J V， MORENO P J. Approaches to reduce the effects of OOV queries on indexed spoken audio[J]. IEEE Transactions on Multimedia， 2005， 7（5）：899–906.

[50] CAN D， COOPER E， SETHY A， et al. Effect of pronunciations on OOV queries in spoken term detection[C]//Proc. of ICASSP. Taipei， Taiwan： IEEE， 2009：3957–3960.

[51] WANG D， KING S， FRANKEL J. Stochastic pronunciation modeling for out-of-vocabulary spoken term detection[J]. IEEE Transactions on Audio， Speech， and Language Processing， 2011， 19（4）：688–698.

[52] DHARANIPRAGADA S， ROUKOS S. A multistage algorithm for spotting new words in speech[J]. IEEE Transactions on Speech Audio Processing， 2002， 10（8）：542–550.

[53] QIN L， SUN M， RUDNICKY A. OOV detection and recovery using hybrid models with different fragments[C]//Proc. of Interspeech. Florence， Italy： ISCA， 2011：1913–1916.

[54] IWAMI K， FUJII Y， YAMAMOTO K， et al. Efficient out-of-vocabulary term detectionby N-gram array indices with distance from a syllable lattice[C]//Proc. of ICASSP. Prague， Czech Republic： IEEE， 2011：5664–5667.

[55] SEIDE F， YU P， MA C， et al. Vocabulary-independent Search in Spontaneous Speech[C]//Proc. of ICASSP. Montreal， Quebec， Canada： IEEE， 2004， 1：253–256.

[56] THAMBIRATNAM K， SRIDHARAN S. Dynamic match phone-lattice searches For very fast and accurate unrestricted vocabulary keyword spotting[C]//Proc. of ICASSP. Philadelphia， Pennsylvania， USA： IEEE， 2005， 1：465–468.

[57] 孟莎，刘加. 汉语语音检索的集外词问题与两阶段检索方法[J]. 中文信息学报， 2009， 23（6）：91–97.

[58] AUDHKHASI K， VERMA A. Keyword search using modified minimum edit distance measure[C]//Proc. of ICASSP. Honolulu， Hawaii， USA： IEEE， 2007， 4：929–932.

[59] KATSURADA K， TESHIMA S， NITTA T. Fast keyword detection using suffix array[C]//Proc. of Interspeech. Brighton， United Kingdom： ISCA， 2009：2147–2150.

[60] MAMOU J， MASS Y， RAMABHADRAN B， et al. Combination of multiple speech transcription methods for vocabulary independent search[C]//Workshop Search in Spontaneous Conversational Speech （SIGIR-SSCS）. Singapore： ACM， 2008.

[61] CHAUDHARI U， KUO H K J， KINGSBURY B. Discriminative graph training for ultrafast low-footprint speech indexing[C]//Proc. of Interspeech. Brisbane， Australia： ISCA， 2008：2175–2178.

[62] WALLACE R， VOGT R， SRIDHARAN S. Spoken term detection using fast phonetic decoding[ C]//Proc. of ICASSP. Taipei， Taiwan： IEEE， 2009：4881–4884.

[63] ITOH Y， T. OTAKE K I， KOJIMA K， et al. Two-stage vocabulary-free spoken document retrieval-subword identification and re-recognition of the identified sections[C]//Proc. of ICSLP. Pittsburgh， Pennsylvania： ISCA， 2006：1161–1164.

[64] IWATA K， SHINODA K， FURUI S. Robust spoken term detection using combination of phone-based and word-based recognition[C]//Proc. of Interspeech. Brisbane， Australia： ISCA， 2008：2195–2198.