罗海涛
(广东外语外贸大学信息学院,广东 广州 510420)
数字语音处理是采用计算机对语音信号进行处理。数字语音处理涉及到语音、语言学、认知科学、数字信号处理等诸多领域,是一门跨学科的新兴技术。随着集成电路技术、计算机技术、数字信号处理技术的发展,语音信号处理广泛应用于语音识别、语音合成、语音编码等方面。
用数字化的方法对语音进行传送、存储、识别、合成、增强和编码,已成为整个数字化社会中最重要、最基本的组成部分。数字电话通信、窄带语音通信、语言学习机、声控打字机、自动翻译机、智能机器人、计算机语音智能终端,以及许多军事上的应用等,都要用到信号处理技术,而随着集成电路和微电子技术的发展,语音信号处理系统已逐步实用化。
本文采用滤波的方法,设计一个滤波器,对语音信号进行处理。处理的语音是经过采样和量化后的wav格式的音频文件,这种格式的音频文件广泛应用在各种数字音频文件的存储。wav格式是微软公司开发的一种声音文件格式,具有RIFF(Resource Interchange File Format)格式。RIFF 格式的wav 文件由若干个块(Chunk)组成,按先后顺序为RIFF WAVE Chunk、Format Chunk、Fact Chunk(可选)和Data Chunk。每个块的格式都固定且相似,一般一块的第一部分是该块的ID,作为标识;第二部分是该块的大小;第三部分略有差异。wav格式文件的压缩率比较低,比较容易进行读取,以及进一步的处理。
滤波器在语音信号的共振峰估计、语谱图等方面有着重要的作用。在语音信号的频谱中,低频分量往往包含了语音信号的重要特征。这些特征是语音信号处理、识别,以及说话人识别、语谱图形成等重要依据。获得语音信号的低频分量有着很大的实用价值。本文在Visual C++环境下设计滤波器,再用设计的滤波器对语音采样数据进行滤波,以期在后面的工作中用于语谱图的形成。
按照时域单位抽样响应h(n)来分类,滤波器有两种,分别是FIR (Finite Impulse Response)滤波器和IIR (Infinite Impulse Response)滤波器。FIR 滤波器在时域是有限长的,其系统函数H(z)可表示为:
如果用时域冲击响应h(n)来表示,则可表示为:
其系统函数H(z)的极点全部位于z=0 处。从结构上看,FIR 滤波器没有从输出到输入的反馈,即FIR 滤波器属于非递归型。
IIR滤波器在时域是无限长的,其系统函数H(z)可表示为:
H(z)在有限z 平面(0<|z|<+∞)上存在极点。从结构上看,IIR 滤波器有从输出到输入的反馈,即IIR 滤波器属于递归型。
两者相比较,实现同样的幅频特性时,IIR 滤波器的阶数可以少得多。但IIR 滤波器的相位是非线性的,这限制了IIR滤波器的应用。而FIR滤波器可以实现线性相位,同时,由于其单位抽样响应是有限长的,因而这种系统一定是稳定的。另外,FIR 滤波器的滤波可以采用FFT 算法来实现,极大地提高了其运算和处理的效率。因而,FIR滤波器得到了广泛的应用。
考虑到FIR 滤波器可以实现线性相位,本文采用频率抽样法设计一个FIR 低通滤波器,对语音采样数据进行滤波。频率抽样法就是在离散的频域有:
对滤波器的每一个频域点()的幅度和相位进行设计,再利用离散傅里叶反变换,得到滤波器的时域单位抽样响应()。或者直接应用频域响应进行滤波,再把频域滤波结果利用离散傅里叶反变换得到时域结果。
设计的滤波器的截止频率取30Hz,而语音信号的采样频率为44100Hz,这样可以得到滤波器的数字截止频率
为了提高阻带最小衰减,使阻带最小衰减δ≥40dB,从通带到阻带之间增加一个过渡带点,设定过渡带宽Δω=ω/4=0.00034π,滤波器应具有第一类线性相位。
确定过渡带抽样点数=1,可以满足阻带最小衰减δ≥40dB的条件。
构造频率响应函数H(eω)
上述构造的滤波器的相位为:
频域抽样求(),先计算通带宽度k
k实际上是通带对应的频域抽样点数,再取一点过渡带的值为0.38,则有
上述结果其实是根据FIR 滤波器的特性得到的。FIR滤波器在频域是共轭对称的,即有:
进一步,当取奇数时,有如下结论:
这样就有了式⑻的结论。根据该结论可以进一步得到:
=H,=H,即有=1,而=,…,=,故有:H=1,=0,1,…,8,11751,…,11758。
由此得低通滤波器完整的频率抽样响应为:
根据其频率响应,可以画出滤波器的幅频特性如图1所示:
图1 低通滤波器的幅度Hk与离散频率关系图
虽然对()求离散傅里叶反变换,可以求得时域单位抽样响应(),但是,实际上本文直接在频域应用()对语音信号采样数据滤波,为下一步处理做准备。
本文在Visual C++环境下编程实现,对几个英文单词的音频文件数据进行低通滤波,为后面的工作做准备。
前面述及的低通滤波器的时域波形()如图2所示。
图2 低通滤波器时域波形图
英文单词“important”的波形如图3所示。
图3 “important”的原始音频波形图
用低通滤波器滤波的结果如图4所示。
图4 “important”低通滤波后的波形图
对比图3 和图4 可以清楚地看出,低通滤波后,原来语音的波形所包含的高频分量全部被过滤,只剩下低频部分,图4中波形变化频率明显很低。
英文单词“dictionary”的波形如图5所示。
图5 “dictionary”的原始音频波形图
用低通滤波器滤波的结果如图6所示。
图6 “dictionary”低通滤波后的波形图
对比图5 和图6 可以清楚地看出,低通滤波后,原来语音的波形所包含的高频分量全部被过滤,只剩下低频部分,图6中波形变化频率明显很低。
其他语音滤波结果没有一一展示。
本文是在Visual C++环境下,设计低通滤波器,对语音信号进行低通滤波,生成滤波语音的时域和频域波形。数字滤波器在数字信号处理领域有着广泛的应用,数字滤波器有两种,分别是FIR 滤波器和IIR滤波器,其中FIR 滤波器由于具有线性相位特征而得到广泛应用。本文采用频域抽样法设计了一个低通滤波器,得到了滤波器的频域抽样值,并直接在频域对语音采样数据进行滤波,得到频域滤波结果,再通过傅里叶反变换转换为时域波形,为后面的进一步处理做准备。