上下文无关文法在孤立词识别中的应用

2011-10-25 08:02李玉萍
太原城市职业技术学院学报 2011年5期
关键词:乔姆斯基文法字符串

李玉萍

(商丘师范学院,河南 商丘476000)

上下文无关文法在孤立词识别中的应用

李玉萍

(商丘师范学院,河南 商丘476000)

在孤立词识别的过程中引入了非递归上下文无关文法。针对语音识别中的多个变量问题需要进行多次训练,根据样本中表达特征的字符串集在训练模式中为每个孤立词构造一个上下无关文法。在识别的过程中,对输入的字符串进行分析,符合该文法输出该字符串,并说明该字符串符合该文法。

上下文无关文法;孤立词;识别

语音识别是一门结合了计算机技术和计算机语言学等多种学科的交叉学科。孤立词识别是语音识别的一种,语音识别模型如图1所示。孤立词识别系统对人的发声间隔中的词进行单独识别的一个系统,同时语音识别也是一种模式识别的实例。孤立词识别系统通常由特征抽取和识别器两部分组成。特征抽取把语音信号转换成字符串符号;识别器考察该字符串是否在词汇表,如果在则输出,不在输出错误信号。传统的识别方法大都是建立在模式识别的基础上,本文引入上下文无关文法对识别器进行构造,并对输入串进行识别。

一、相关定义

定义1:设G=(VN,VT,P,S)为一文法,其中VN为非终结符号,VT为终结符,P为文法的产生式集合,若P中的每个产生式α→β均满足:α是一非终结符,β∈(VN UVT)*,则此文法称为2型的或上下文无关文法。

定义2:任何非空,并且不含ε的上下文无关文法G,如果G中所有的产生式的形式为下列两个形式之一:

(1)A-->BC

(2)A-->a

其中,A,B,C∈VN,a∈VT,

那么,我们称这种形式的文法G为乔姆斯基范式文法或者乔姆斯基范式 (Chomsky Normal Form),简记为:CNF。

二、上下文无关文法的应用

上下文无关文法(CFG)是这样的一种文法:它所定义的语法范畴(或语法单位)完全独立于这种范畴可能出现的环境。其特点是在对非终结符进行替换时不需要联系上下文,并且可以替换成空串。上下文无关文法的识别问题,就是对给定的一个上下文无关文法G,和一个串α(α∈VT*),确定是否存在推导:S=>*α的问题。在上下文无关文法中,乔姆斯基范式是经常使用的特殊文法。并且所有的上下文无关文法都可以转换成乔姆斯基范式。

在孤立词识别系统中,假设特征抽取出的符号是有限数量的,每个孤立词产生的字符串长度也是有限的。在设计识别器时可以分成两部分工作,如图2所示,首先构造能够生成样本符号串的上下文无关文法,这个过程可以看成一个编码过程;然后利用该文法模型对任意输入的字符串进行分析识别,看是否符合该文法,该过程可以看成一个解码过程。

在文法构造的过程中,词汇中的每个单词声音由特征抽取转换成符号串,该符号串由识别器自动生成上下文无关文法,通常该文法在构造的过程中采用乔姆斯基范式的形式,存储到计算机中供以后使用。经过多次训练,反复重写,为样本字符串集构造相应的上下文无关文法,每个模型可以描述相似的字符串。具体的构造算法:首先为第一个字符串构造文法G1,该文法目前只能生成该字符串,然后对其他的字符串进行考察,如果能够被识别,则考察其他字符串,不能识别则生成G2,依次对样本中的所有字符串进行考察,直到文法规则不再扩大为止。构造好的上下文无关文法模型对以后的输入串进行识别分析,从而判断该输入串是否符合该文法,符合则输出,不符合则拒绝。

三、基于上下文无关文法的孤立词识别算法

在识别过程中,被输入的字符串采用上下文无关文法识别字符串的算法进行识别,常用的分析方法有自上而下分析法、自下而上分析法、CYK算法等。由于语音信息具有噪音信息,转换成的字符串符号针对该文法具有二义性,因此我们采用三层分析方式。第一层对输入的字符串进行分析,如果只能采用一个文法,则输出该字符串,如果不能采用第二层分析,第二层采用近似匹配的原则对可以由两个以上的文法所能识别的字符串进行分析,采用最优的文法。第三层对采用近似匹配策略仍有多个文法可以生成该字符串,采用随机算法进行分析,从而选取最合适的文法进行输入串识别,然后输出。

上下文无关文法为孤立词识别提供了一个非常好的分类和描述方法。用上下文无关文法规则来表达样本字符串代替直接存储样本字符串,从而节省了大量的存储空间,提高了访问效率,对语音识别技术的发展提供一个很好的模型,上下文无关文法在孤立词识别中的应用具有重要的理论和实践意义。

[1]吴哲辉,吴振寰.形式语言与自动机[M].北京:北京机械工业出版社,2007:40-42.

[2]陈火旺,刘春林,谭庆平等.程序设计编译原理[M].北京:国防工业出版社,2003:51-53.

H02

A

1673-0046(2011)05-0174-01

猜你喜欢
乔姆斯基文法字符串
基于文本挖掘的语词典研究
中国石油大学胜利学院文法与经济管理学院简介
西夏文铜镜的真言文法与四臂观音像研究
教授读过的书有什么不同
Similarity measurement method of high-dimensional data based on normalized net lattice subspace①
Teaching methods in a Chinese Classroom
A nearest neighbor search algorithm of high-dimensional data based on sequential NPsim matrix①
教授读过的书有什么不同
最简单的排序算法(续)
一种新的基于对称性的字符串相似性处理算法