藏语语音时域参数提取关键技术研究

2018-05-07 05:45卓嘎姜军董志诚
电脑知识与技术 2018年8期
关键词:特征参数

卓嘎 姜军 董志诚

摘要:语音特征参数是语音信号分析的重要参数依据,藏语语音特征参数的精确度直接影响藏语语音合成、语音识别及语音压缩等处理的效果。介绍了藏语时域语音信号处理过程中的语音特征参数及其提取关键技术:包括短时平均能量,短时平均幅度,短时过零率,短时自相关函数和端点检测等算法.分析了语音的时域特征参数在藏语语音分析中的实际应用。

关键词:藏语语音;特征参数;短时平均能量;短时平均过零率;自相关函数

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2018)08-0186-03

1引言

语音特征参数的选择和提取是语音识别前端处理的最后一个环节,是语音信号处理的前提和基础,对语音合成、语音识别效果起着至关重要的作用。只有分析出语音信号本质的参数,才有可能利用这些参数进行高效的语音通信、语音合成和藏语语音识别等处理。语音信号中包含了大量的信息,如,男声和女声;说话者的各种情绪信息、如,高兴或者疲劳;还有各种语种信息如汉语、英语、藏语等。语音参数提取的目的是从夹杂着各种信息的语音信号中准确地提取真正代表该语音特征的有用信号,去除其他冗余信息以提高语音识别的精度。在实际的应用中,可以根据不同的用途进行语音的时域和频率的特征参数提取。

我国语音处理技术发展和进步推动了56个民族语言的信息化进程。藏语语音识别技术的研究起步虽然较晚,但是近年来在政策的扶持和研究人员的刻苦钻研下取得了显著的成绩。藏语语音识别技术研究的初期主要是一些对经典理论算法的验证性研究。这些研究方式与英、汉语音的参数提取方式基本类似,将语音信号看作短时平稳信号进行采样、量化、预加重、分帧、加窗及端点检测,然后根据一些经典算法进行短时能量、短时平均幅度短时过零率、短时自相关函数、短時平均幅度差函数等语音时域特征参数的提取。

2藏语语音时域特征参数提取关键技术

语音信号的时域分析是在语音信号随时间变化过程中提取信号的能量、幅度等特征信息进行分析。典型的时域语音特征参数有:短时平均能量、短时平均幅度、短时平均过零率、短时自相关系数。提取的关键技术包括采样、量化、预加重、分帧和加窗、短时能量、短时幅度、短时过零和端点检测等关键环节,藏语语音时域特征参数提取流程如图1所示。

2.1采样、量化和预加重

在进行语音的时域参数特征提取之前,需要通过采样量化编码和预处理将原始录音的模拟语音信号转换成数字信号。根据采样定理,必须保证语音的采样频率为信号最高频率的两倍以上,一般取3-5倍。量化过程是将时间离散化的语音信号进行幅度离散化,语音信号一般在300~3400Hz的频率范围内,采样率一般为8KHZ,量化精度16比特。语音在8kHz左右的高频端会按照6dB衰减,为了提升语音的高频部分,用高通数字滤波器进行滤波处理,使语音信号的频谱变得平坦,从而提高信噪比并去除口唇辐射的影响,这个过程也叫预加重过程,在接收端通过去加重恢复原始语音信号。

2.2分帧和加窗

语音信号虽然是一种典型的非平稳信号,但由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度缓慢得多,因此可以假定语音信号为短时平稳的,即在10~20ms这样的时间段内,其频谱特征和某些物理特征参量可近似的看做是不变的。这样,就可以采用平稳过程的分析处理方法来处理了。将每个短时的语音称为一个分析帧。一般帧长取10~30ms。采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。

2.3短时平均能量

语音的短时平均能量定义如公式(1)所示,En表示语音信号在时域上能量的变化量。在实际的分析中,由于进行了分帧加窗的截取,因此用公式(1)来表示语音的短时平均能量。通过分析语音的短时平均能量值的大小,可以进行语音的清音浊音和爆破音的区别,浊音的平均能量较高于清音的平均能量。在噪声环境下,可用于区分语音的有声段和无声段。此外,还可用于声母韵母的分解和连字的切分。

2.4短时平均幅度

语音信号随时间振动的幅值变化如公式(2)所示Mn是每帧短时幅度值,能较好地反映清音的幅度变化,公式(1)中x信号的平方计算对高频信号非常敏感,可以用短时平均幅度或者短时对数能量来替代信号的短时能量。语音的短时平均幅度差函数可用于语音的浊音基音检测,定义方式如公式(3),Fn(k)是语音原信号与移k位后的幅值差,在差值中通过计算最大类似性来确定基音周期,这种算法也叫短时自相关函数法。

2.5短时平均过零率

语音的短时平均过零数定义如公式(4),时域信号幅度通过横轴(零值)情况叫做过零。每秒钟通过零值的次数叫做过零率。对于语音的离散信号相邻信号幅值的符号发生变化就叫过零,单位时间内的过零次数叫做平均过零次数。在实际的语音信号分析中,浊音信号的能量频率较低,其过零率较低;而清音信号的能量频率较高,过零率也相对高,因此可以利用语音的短时平均过零率来大致区分藏语语音信号中的清音和浊音。

2.6端点检测

在连续语音信号中,清音和浊音有交错的区域,这种情况下单独的平均过零率或者平均短时能量参数不能精确地区分清音和浊音,因此,在实际的语音信号分析中,在提取上述语音参数之前,会先进行端点检测处理,其目的是比较准确地提取有效的语音段,然后进行各种语音特征参数分析。在时域语音信号分析中,通常采用双门限端点检测算法,该算法结合语音的短时均能量和短时平均过零率分别设定两个门限参数,通过门限值的范围确定语音信号的清音和浊音、有声段和无声段。

3结束语

时域语音信号的特征参数比较直观、具有明确的物理意义,参数提取比较简单。在实际的语音分析和实验中,可以单独进行上述的特征参数分析,也可以通过组合参数进行综合分析和应用,比如语音的端点检测就是利用语音的短时平均过零率和短时平均能量参数设计出两个门限参数,从而得到相对准确的有效语音段。在语音信号分析过程中还需要考虑噪声干扰问题,安静环境下的语音信噪比较高,提取的语音特征参数也比较精准,但是,如果环境噪声比较大,在低信噪比下如何较准确地提取语音特征参数就要求我们进一步改进和完善特征参数提取算法。

猜你喜欢
特征参数
边界条件含有特征参数的四阶微分算子的自伴性和特征值的依赖性
R290空调器制冷剂泄漏判断特征参数选取与分析
故障诊断中信号特征参数择取方法
基于特征参数化的木工CAD/CAM系统
冕洞特征参数与地磁暴强度及发生时间统计
融合LPCC和MFCC的支持向量机OSAHS鼾声识别
基于交通特征参数预测的高速公路新型车检器布设方案研究
基于PSO-VMD的齿轮特征参数提取方法研究
基于视频的车辆特征参数算法研究
基于数字图像处理的粗集料二维形态特征参数分析