杨素素
(南京航空航天大学金城学院,江苏南京,210000)
由于每个人发出的语音中带有各自语音信号特征,因此语音信号同其他信号一样具有频率、周期、能量等特征参数[1]。姚文冰指出:短时间内语音信号通过自回归(AR)模型由均值为零的高斯白噪声e(n)通过激励线性时不变系统A(Z)产生,线性时不变系统传输函数最小,通过高阶积累量能够有效减少背景噪声影像,而应用高阶谱分析技术能够有效提高语音编码中的抗噪声能力[2]。为能够直观清楚的辨别拥有共同特征参数的不同说话者的语音,通过AR参数模型双谱估计计算语音信号双谱,利用高阶累积量抑制高斯噪声,使得语音信息特征研究更趋于直观,提高语音辨别效果。
两式中x*(n)是x(n)的共轭复数,通过Hilbert变换得到复数信号后,当3ω由1ω、2ω二次相位耦合后3ω=1ω+2ω,x(t)为耦合信号,此时定义①中三阶累积量及对角切片均为0,定义②中三阶累积量及对角切片分别为:
通过上式可知①中双谱运算过程及对角切片不含耦合信息成分,②中包含全部谐波分量且双谱运算中保留所有谐波分量,(1.5)中仅含有谐波分量1ω、2ω,对角切片中仅含有谐波分量1ω、2ω。
在Labview环境中进行声卡编程,自由设定声卡参数,并通过Labview图形化编程优势实现传统仪器模块效果。语音信号输入后通过信号调理电路,对信号进行放大、滤波、隔离及线性化处理正确识别声卡,再通过PC机声卡线路输入或麦克风输入形成信号输入端口,将所获取模拟语音信号通过A/D转换后输入计算机,经过Labview程序处理并保存。通过计算机声卡特性将其设置为44.1kHz采样频率、双通道、16位采样比特数、手动采集,确保数据采样过程中干扰程度最小,实时波形稳定。语音数据采集过程中要保证环境相对安静,外部嘈杂声音较小,参与实验的人员以语速稳定、心情平稳、缓慢的形式录制固定数字的一段话,在Labview程序中设置好保存路径后将语音录制文件保存为WAV形式[3]。Labview程序数据分析包能够提供多种语音信号处理程序,包块信号调理、波形测量、信号监测等,常用滤波器形式也比较多样,因此在使用过程中只需输入对应指标参数即可[4]。
在实数域内对不同性别语音信号双谱运算及对角切片结果进行分析,对比两组男女生语音信号双谱图可发现,男生双谱图的谱峰分布比较广泛,但女生的分布比较集中。但整体对角切片图变化特征不够明显。
图1分别对对应的复数域内根据公式①进行重新分析,图1中1.1(a)谱峰多且比较尖细,对角切片中主峰位置在200Hz处,而1.1(b)中主峰比较粗大,双谱运算图中下部峰也比较粗,对应的对角切片主峰位置在175Hz处。图1.2(a)中出现三个比较高的峰谱,对应的对角切片主峰位置在168Hz处,图1.2(b)中主峰只有一个且比较尖细,对应的对角切片主峰位置在160Hz处,从图1中可以看出经过公式①的运算处理后,不同性别语音信号的双谱运算结果及对角切片结果更加清晰简洁,能够分别出不同声音信号的特征,区分声音。
图1 复数域内根据公式①处理后的双谱及对角切片谱
图2分别对对应的复数域内根据公式②进行重新分析,图2.1(a)中出现三个比较高的峰谱,双谱运算图中三个峰谱均比较粗,对应的对角切片主峰位置在 165Hz处,图 2.1(b)中主峰只有一个,较粗,下部峰较粗,对应的对角切片有两个比较高的峰谱,其中主峰位置在165Hz处,两位男生语音信号对角切片主峰位置虽然很接近,但其余下部峰有明显区别。2.2(a)谱峰多、尖细且比较集中,对角切片中主峰位置约在165Hz 处,2.2(b)中主峰共有三个,尖细且集中,双谱运算图中下部峰基本为零,对应的对角切片主峰位置在125Hz处。从图2中可以看出经过公式②的运算处理后,对角切片图谱的区别比较明显,且双谱图较未处理过的更为集中,亦能够分辨声音信号特征。
图2 复数域内根据公式②处理后的双谱及对角切片谱
以上分析中可以看出每个人的语音信号双谱图与性别、语言、音色等有一定相关性,不同之处越多,双谱图及对角切片图的变化越明显。由于三阶累积量的定义方式有所区别,但不同的定义方式下处理后的双谱图及对角切片图均能够区别语音信号特征比较相近的信息,使谱图更加准确、清晰。
语音信号双谱图之所以有很大区别,其原因在于不同因素影响下双谱图差别比较明显,影响因素越多,差别越大。通过双谱图能够有效区分不同语音信号特征的人,提升语音信号辨别准确水平,同时双谱图分析对语音因素变化十分敏感,可有效处理信号变化,是语音信号辨别的一种行之有效的手段。