基于数字信号处理实现VOX技术

2012-10-20 06:59薛豪杰毛英磊毛凯赟
舰船科学技术 2012年1期
关键词:门限幅度信噪比

曾 光,薛豪杰,毛英磊,毛凯赟

(上海船舶设备研究所,上海 201108)

0 引言

VOX(Voice-Operated Transmit)也叫VAS(Voice-Activated Switch)或 VOS(Voice-Operated Switch),广泛运用于对讲机、潜水系统、战斗机飞行员通信、坦克指挥通信等方面,以方便那些需要双手完成任务的情况。传统的对讲机通信方式是PTT(Push to Talk),每次通信时都要进行手动按键。这样通信时势必影响双手的工作。而应用VOX技术就可无需手动按键,释放双手进行工作,带来诸多方便。例如,潜水员水下作业时,就不太方便在工作的同时操作PTT开关。在很多情况下他们的双手已经被其他任务占用。因此,发展性能可靠的“Hand-free”通信系统在很多情况下是极其需要的[1]。

在移动通信中,VOX和噪声消除技术的组合能大大延长电池寿命,这提供了低功耗设计的一种可能途径。

VOX的关键技术即为如何在包含噪声的信号中对有声/无声(语音/噪声)进行判别。本文应用语音信号数字处理技术上的语音信号端点识别技术,提出一种稳定简单的方法实现VOX功能,并将其应用于研发的水下通信系统中。

1 原理及实现

语音和噪声的主要区别在它们的能量上。如果把一段语音通信过程,分为无话音的噪声段和包含话音的语音段,则语音段的能量比噪声段的大。语音段的能量是噪声段能量叠加语音声波能量的和。如果环境噪声和系统输入噪声比较小,那么只要计算输入信号的短时能量或短时平均幅度就能把语音段和噪声背景区分开。而当环境噪声和系统输入噪声较大时,则需对信号过零率进行判断处理。应用语音信号的短时能量和短时过零率相结合的方法,使系统简单、易于实现并保证有较高的精确度,稳定性。

应用短时分析技术,将语音流分段进行处理。每一段称为1帧,其中帧长为10~30 ms,常见20 ms。帧移为0~1/2帧,帧与帧之间平滑过渡。如图1所示。设定语音波形的时域信号为S(n),为了减小语音帧的截断效应,通常需加窗处理。经过加窗分帧处理后得到第n帧语音信号如式(1)所示,其中N为1帧帧长,M为帧间重叠长度,即帧移。

图1 语音流的帧图形Fig.1 The frame map of voice stream

式中:n=0,T,2T…;N为帧长;T为帧移长度;W(n)为汉明窗表达式,即

因为汉明窗的主瓣最宽,旁瓣高度最低,可以有效克服泄露现象,具有更平滑的低通特性。第n帧语音信号Sn(m)的短时能量用En表示,由下式计算:

En是1个度量语音信号幅度值变化的函数,但有个缺陷,因其在计算时用的是信号的平方,所以对高电平非常敏感。因此本设计采用1个度量语音信号幅度值变化的函数,即短时平均幅度Mn来代替。它与短时能量的区别在于信号的小取样值和大取样值不会因取平方而造成较大差异[4]。第n帧的语音信号的短时平均幅度为:

短时过零率表示1帧语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最常用的一种。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的符号改变称为过零。过零率就是样本改变符号次数。

语音信号Sn(m)的短时过零率

一般情况下,采集语音信号的最初短时段为无语音段,仅有均匀分布的噪声信号。因此可以用最初的几帧信号(一般为10~20帧)来计算过零率阈值ZT及能量阈值ET。并以此为基础判断信号是否为有声/无声。本次设计使用最初10帧样值计算短时幅度平均值作为阈值[2]。

因为语音信号中的浊音短时平均能量的值要比清音短时平均能量值大很多,且能量集中于低频段内且过零率较低。而清音信号的频段较高,能量较低类似于噪声。若采集信号的计算值相比于初始噪声采样计算的阈值较大且过零率比阈值的低[5],可认为该信号含有浊音,判断其为语音信号。

图2 系统原理图Fig.2 System principle map

2 仿真结果分析

根据上述原理,录取一段语音信号进行仿真。语音信号为“船舶研究所”,采样频率为Fs=8 000 Hz。如图3~图5所示,对语音信号加入高斯白噪声。在不同信噪仿真下,以20 ms为1帧数据,1/2帧进行平滑过渡处理[6]。

从图3到图5的仿真结果可以看出,在信噪比较大的情况(20 dB)下,短时过门限率和平均幅度能明显检测出语音信号的起始点。但随着环境噪声增大,传输距离加长,信噪比降低。短时平均幅度的检测性能不如短时过门限率有效。仿真测试中的漏判概率和信噪比如图6所示。在实际应用中,结合不同的过门限系数,使用短时过门限率结合短时平均幅度进行语音识别检测。

图6 信噪比与漏判概率关系Fig.6 The relation between SNR and misdetection rate

3 结语

本文介绍了传统的语音信号检测方法。结合实际应用,提出一种检测方法。在不同噪声的情况下对检测效果进行分析比较。仿真表明短时过门限率有很好的语音识别效果。以此为基础,应用短时过门限率配合短时平均幅度改进语音检测方法。

[1]张天琪,李伟,林孝康,刘林.基于数字信号处理的嗓音控制开关(VOX)算法研究[J].应用声学,2005,24(3):157-163.ZHANG Tian-qi,LI Wei,LIN Xiao-kang,LIU Lin.Study on a voice-operated transmit(VOX)algorithm based on digital signal processing[J].Applied Acoustics,2005,24(3):157-163.

[2]张志霞,韩慧莲,薛宏伟.语音信号端点检测方法研究[J].太原科技,2008,(10):58-59.ZHANG Zhi-xia,HAN Hui-lian,XUE Hong-wei.Research on the endpoint detection methods of speech signals[J].TAIYUAN SCI-TECH,2008,(10):58-59.

[3]沈宏余,李英.语音端点检测方法的研究[J].科学技术与工程,2008,8(15):4396-4397.SHEN Hong-yu,LIYing.Studyon speech endpoint detection method[J].Science Technology and Engineering,2008,8(15):4396-4397.

[4]王炳锡,屈丹.实用语音识别[M].北京:国防工业出版社,2005.

[5]刘庆升,徐宵鹏,黄文浩.一种语音端点检测的研究[J].计算机工程,2003,29(3):120-121.LIU Qing-sheng,XU Xiao-peng,HUANG Wen-hao.Research on a speech endpoint detection method[J].Computer Engineering,2003,29(3):120-121.

[6]赵红怡,张常年.数字信号处理及其 MATLAB实现[M].北京:化学工业出版社,2002.

猜你喜欢
门限幅度信噪比
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
基于规则的HEV逻辑门限控制策略
单次止损幅度对组合盈亏的影响
随机失效门限下指数退化轨道模型的分析与应用
VoLTE感知智能优化
基于深度学习的无人机数据链信噪比估计算法
基于Neyman-Pearson准则的自适应门限干扰抑制算法*
微波超宽带高速数控幅度调节器研制
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
不同信噪比下的被动相控阵雷达比幅测角方法研究