白俊贤,米 川
(河北科技大学研究生学院,河北 石家庄050000)
汉语普通话是以字为单位的。从声学角度看,汉语中一个字就对应一个音节。因此,音节是汉语语音识别中最自然的识别单元。目前,随着汉语语音识别技术向大词汇量连续语音识别的方向不断发展,音节作为识别单元已不再能满足要求。这是因为当词汇量增大时,不可能要求在进行语音数据训练中每个音节出现很多次重复。因此,必须选取比音节更小的单元(音素)作为训练和识别的基本语音识别单元。
当前的汉语声韵母分割方法主要有:基于多特征参数(如能量、过零率、基频轮廓、倒谱系数等)的分割方法、基于小波的分割方法及基于语音自动识别技术的分割方法等。这些方法在非连续语音中分割正确率很高,但在连续语音中由于协同发音的影响分割正确率大幅度降低,而且易受噪声的影响。所以本文采用基于声母分割和段间距离分割相结合的方法,将音节划分成声母和韵母,然后对声母和韵母分别进行特征提取,再识别出相应的声母和韵母。这种识别方法能使识别单元大大减少,从而使运算量和存储量减少,提高了识别率和识别速度。
22个辅音可以分为六个类别:擦音、塞音、塞擦音、边音、鼻音、零声母。通过各类声母的时域及频域特征,对这六类声母进行重新分类,同类的含有相似特征,可以用相同方法进行处理,对于不同类型声母的特点,适当选择时域频域的特征进行判断。对声母进行处理分类如下:
(1)擦音+送气音+塞擦音:f、h、s、sh、x、r、p、t、k、ch、c、j、q、zh、z。这类声母最明显的特征是持续时间较长,类似噪声。如图1所示,其能量集中于高频部分,可以进行低通滤波,去除高频部分,声母的高频部分能量变得很小,整个声母的能量就会变得很小,进入韵母段能量显著增大,可以判断短时能量显著增大的位置为声韵母分割点。
图1 擦音+送气音+塞擦音的时域波形
(2)不送气+零声母:b、d、g、a、e、o、i、u。图2中,这类声母的重要特点是持续时间短,能量曲线中可能有两种情况,一是声母韵母能量相差不大,可以直接去除前面若干帧;另一种是短时能量在声母部分有一个明显的下降沿,可以根据这个特点判断分割点。
图2 不送气+零声母的时域波形
(3)鼻音+边音:m、n、l。鼻音和边音是浊辅音,具有准周期特性。图3(a)中,可以看出边音也有周期性,与鼻音不同的是声母后面有一个无周期的语音带。图3(b)和(c)中,可以看出鼻音也有较强的周期性,但是能量集中于中低频,可以区别于其他浊辅音。
图3 鼻音+边音的时域波形
进行声母韵母划分的具体步骤如下:
(1)对输入信号求短时能量曲线E1;
(2)对输入语音信号进行低通滤波,求滤波后信号的短时能量曲线E2,并对每一帧除以E1曲线中对应的值;
(3)若E1中起始部分的值远小于中后面的值,且E2的起始部分若干帧的值也远小于曲线中后面的值,如果是,则可以判断声母可能是擦音、送气音或者塞擦音,取E2中能量显著增大的位置为韵母起始位置;如果不满足,则进行下面的检测;
(4)若E1中起始部分的值远小于中后面的值,且E2中起始部分若干帧的值大于曲线中后面的值,则判断该语音的声母为鼻音,取E1曲线能量显著增大的位置音节分割点。如果不满足,则进行下面的检测;
(5)如果在E1中,起始部分与后部差距不大,则判断塞音或零声母,在此情况下,可以认为前五帧为声母部分,之后为韵母。
(6)若以上都不满足,则判为边音L。周期性变化的位置为分割点。
基于声韵母差异而得出的声韵母分割算法依据的原理是:在同一音素内,语音帧的特征矢量具有很大的相似性,而在不同音素内,语音帧的特征矢量具有相异性。利用这一特性,通过计算语音片段之间的距离,可以将声母和韵母这种具有不同特性的语音段分割开来。
两个语音片段在特征参数空间上的总体差异称为这两个语音片段的段间距离。由于语音特征矢量一般按确定长度的时间帧进行计算,所以在进行段间距离计算时,可以取确定数目的连续语音帧构成语音片段。计算段间距离所采用的规则和方法称为段间距离测度。
设A、B分别表示同一语音信号的两个片段,分别包含m和n两个语音帧。语音段A、B内各帧的特征矢量分别为Xi和Xj。计算Xi和Xj的欧氏距离d。
欧氏距离计算方法:
求欧氏距离d的平均值D,D综合的反映了语音段之间的总体差异。段间距离越小,它的特征越相似,属于同一因素。段间距离越大,越不相似,不属于同一因素。两个语音片段之间可以认为是音素的分割点,可将声韵母划分开。
在本系统中,实验数据采用16 kHz采样率,16 bit编码进行录制。数据内容是150个汉语音节,包括了所有声母和韵母。由人工检查声韵母分割效果,所以只选取了若干个结果进行效果分析,如表1和图4所示。
表1 声韵母分割实验结果
从表1中数据可以看出,两种方法效果都是不错的。但两种方法有不同的特点:声母类型方法需要计算较多的参数,通过条件一步一步判断声母所属类型。对于清音和零声母处理效果好。对于浊辅音容易判断错误;段间距离方法直接用MFCC系数进行运算,减少了额外的计算开销。
图4 音节的分割
结合两种方法的效果分析,可以先对语音信号进行声母类型判断,再计算段间距离进行分割。对于塞音、塞擦音、零声母、不送气等清音用第一种方法可以判断分界点,对于鼻音边音等浊音用第二种方法进行分割。这样就利用了两种算法的优点,进而得到了更满意的分割效果。
[1] 韩纪庆,冯 涛,郑贵滨,马冀平.音频信息处理技术[M].北京:清华大学出版社,2007.
[2] 韩纪庆,张 磊,郑铁然.语音信号处理[M].北京:清华大学出版社.2005.
[3] 王 宁,万旺根,于小清.汉语语音因素分割的一种新方法[J].上海大学学报(自然科学版),2002,08(02):33-35.