基于话音频谱分析的综合静噪设计*

2018-03-21 00:56:14陈良良牛吉凌

通信技术 2018年3期

罗宇，陈良良，牛吉凌

（中国电子科技集团公司第三十研究所，四川成都 610041）

0 引言

话音静噪是指，在话音通信模式下，当接收端解调出的信号为噪声或SINAD（信号-噪声及失真比）很低时，静噪处理电路能自动关断话音通路，使用户能够有一个舒适的接听效果。这项功能在很多通信场合十分重要，因为调频接收机中大多采用鉴频器接替，而鉴频器输出噪声的功率谱是随着输出频率的增加而成平方级地增大[1]。如果在话音通信时对输出噪声处理不好，就会出现话音时断时续或噪音大而刺耳的现象，影响通信的效果[2]。

常用的静噪方式有噪声静噪、载波检测静噪和导频静噪。

噪声静噪是指，当接收机在无有效RF信号输入时，解调输出幅度较大的白噪声，而当RF信号增强时，由于鉴频方式的特点，使噪声电平降低，直到几乎消失。利用这一特性，可选择合适的窄带滤波器来检测噪声电平。噪声电平高于某一门限值，就关闭音频电路；否则，打开音频电路放出声音。这种方式的电路调试较困难，静噪开启电平和回滞深度较难折衷，容易出现静噪门不能正常打开和关闭的现象，通用性较差。

载波检测静噪是利用FM接收机中鉴频器前限幅电路的电流与输入信号强度的对数在相当大的范围内成正比的原理。通过检测此电流，即可得出输入信号的强度，从而进行静噪控制。但是，这种静噪方式通常只适用于传统模拟FM接收机，因为数字化接收机在系统设计上已发生了很大变革，不再采用传统的模拟接收IC，因此较难获得输入信号强度信号。此外，在强干扰条件下，这种静噪方式很容易将噪声误判为话音，增大了虚警概率[3]。

导频静噪方式是根据话音频率范围为300～3 400 Hz，因此发送端在对话音信号进行调制前，在话音信号频率低端（300 Hz以下）加入单音（称为导频音），然后送去调制发射，而接收端解调后检测这一单音进行静噪控制[4]。导频静噪算法是通信电台较为通用的静噪方式，但在DSP实现中，由于采样速率远大于导频，在设计导频滤波器时的通常带宽要求很小，难以设计出较高性能的滤波器，无法保证静噪可靠性。

针对上述静噪方式存在的问题，提出了一种基于话音频谱特性来实现静噪的方法。普通话音信号的频率在300 Hz到3 400 Hz，且低频段的能量比高频段能量高，而这2个频段内的噪声能量却是相当的。因此，利用话音信号的这一频谱特性，可以检测接收信号是话音还是噪声，以此确定是否开启静噪功能。

1 静噪方案实现与样本仿真

图1 话音频谱分析检测原理

1.1 原理图

本文提出的是基于话音频谱特性来实现静噪的方法，实现原理如图1所示。

1.2 信号样本采集

截取了一段10 s长的未加噪声的话音信号，并消除话音停顿时的噪声信号后，对其进行仿真分析。

截取的话音信号时域波形如图2所示。

消除背景噪声信号后的话音信号时域波形如图3所示。

图2 截取的话音信号时域波形

图3 消除背景噪声后的话音信号时域波形

对图3所示的话音信号加上一定信噪比的高斯噪声后进行N点FFT变换，N分别取64、128和256。将连续Q次N点FFT变换后低频段的能量与高频段的能量的比值的平均值记为delta。将计算得到的所有delta与设定的判决门限Th比较，超过门限的次数与总的delta个数的比值记为Pv，而Pv可以近似看作是检测到话音信号的概率。

1.3 参数N和Q的选择

设定话音信号的采样频率为9.6 kHz。为了不影响通话效果，设定话音检测时间为80 ms，共768个采样点，其中N为每次检测采样点数，Q为检测次数，N×Q=768。设定信噪比为10 dB，对话音信号检测进行仿真，结果如表1所示。

表1 不同N、Q取值下的Pv仿真结果

仿真结果表明，在N取256、Q取3的情况下，可以获得较大的Pv，即在此种情况下，能检测出话音的概率最大。

分析在300 Hz到3 400 Hz频段内，高斯白噪声信号连续Q次N点FFT变换后低频段的能量与高频段的能量的比值的平均值超过门限Th的概率Pn。设高斯白噪声的能量为1 dBW，对高斯白噪声检测进行仿真，结果如表2所示。

表2 不同N、Q取值下的Pn仿真结果

仿真结果表明，在N取256、Pn取3的情况下，可以获得较小的Pn，即在此种情况下的虚警概率最小。

因此，综合以上仿真结果，当话音通道关闭时，即在处于静噪的状态下，对输入采样信号进行256点FFT变换，连续3次检测的delta平均值超过判决门限，则开启话音通道。

当话音通道开启时，如果输入的信号一直为噪声，则应启动静噪功能，关闭话音通道。此时，为了尽可能减小虚警概率，应连续检测出多次delta的平均值小于门限值。为了确定连续检测的次数，在N取256、噪声能量为1 dBW的情况下进行仿真，结果如表3所示。

表3 不同Q取值下的Pn仿真结果

仿真结果表明，Q值越大，超过同一判决门限的概率越小，即能检测出输入信号为噪声的概率越大。考虑到响应时间不能太长，在检测噪声时，Q值选取为50，响应时间约为1.4 s。

1.4 参数Th的选择

确定N和Q的取值的基础上，根据仿真确定判决门限Th如何选择。在输入为如图3所示的话音信号下，N取256、Q取3，则仿真结果如表4所示。

表4 Q取256、Q取3时的检测仿真结果

判决门限的选择需要兼顾检出概率Pv和虚警概率Pn，且可以由用户选择设置。

2 方案仿真结论

通过仿真，可以得到如下结果：

（1）如果设判决门限为1.3，N取256、Q取3、信噪比为10 dB时，能正确检测出话音的概率为0.982 143，漏警概率为0.017 857；输入高斯白噪声的能量为1 dBW时，虚警概率为0.021 505。可见，虚警概率和漏警概率均偏高。

（2）如果设判决门限为1.6，N取256、Q取3、信噪比为10 dB时，能正确检测出话音的概率为0.892 857，漏警概率为0.107 143；输入高斯白噪声的能量为1 dBW时，虚警概率接近为0。可见，漏警概率偏高。

从上述结果可以看出，利用话音频谱特性的检测算法以及单一门限的判决，存在虚警和漏警概率偏高的问题，需进一步改进和优化。

3 方案优化改进

由于只采用话音带内高低频能量比较结果作为判决依据来控制是否启动静噪功能存在漏警概率和虚警概率高的问题，因此需要改进和优化。于是，根据话音信号和噪声信号存在的差别，增加频带内外平均能量比较检测和时域过零点数统计比较两条辅助检测措施，即将联合使用3种检测措施，进一步降低漏警和虚警的概率。

通过上述论述可以看到，课内实践、校内实训、校外实习应该相互促进，紧密结合，使各部分的实践内容依次递进，相互衔接。因此校内实训基地的建设尤为重要，它起到一个衔接和纽带的作用，把学生在校内所学的知识技能和将来要到企业进行的实践锻炼结合起来，起到一个加强和促进的作用。针对我们旅游专业的学生，旅游业的快速发展，跨国旅游人数不断增多，对旅游外语专门人才的需求不断增加，这就要求学生既要掌握旅游服务的相关知识和技能，又要具有扎实的外语功底、尤其是外语沟通、交流能力。而实践实习无疑对这种沟通能力的培养提供了机会。

3.1 带内外平均能量比较

将300～3 400 Hz的频带称为带内，将3 400～4 800 Hz的频带称为带外。当有话音信号输入时，带内的平均能量比带外的平均能量高，而没有话语信号输入时，两者的平均能量是相当的。

采用图3所示的信号样本，统计帧长N取256，连续统计帧数Q取3，仿真得到10 dB信噪比条件下，连续Q帧统计比值的平均值超过门限Th的概率Pv。在同样的仿真条件下，对输入纯高斯白噪声检测进行仿真，设定噪声的能量为1 dBW，仿真得到连续Q帧统计比值的平均值低于门限Th的概率Pn。仿真结果如表5所示。

表5 带外平均能量比较检测仿真结果

仿真结果表明，当门限Th取20时，输入纯噪声信号连续Q帧带内与带外平均能量比值的平均值超过门限的概率Pn接近于0，即虚警概率接近于0。而此时输入10 dB的带噪话音信号连续Q帧带内与带外平均能量比值的平均值超过门限的概率Pv为0.976 744，漏警概率为0.023 256。5级门限可选为16、17、18、19 和 20。

3.2 时域过零点统计比较

在时域，通常在相同时间内，噪声信号的过零点数比话音信号的过零点数大。因此，通过检测一段时间内输入信号的过零点数也能区别噪声和话音信号。同样，采用图3所示的信号样本，统计帧长N取256，连续统计帧数Q取3，仿真得到10 dB信噪比条件下，连续Q帧统计过零点数的平均值不超过门限Th的概率Pv。在同样的仿真条件下，对输入纯高斯白噪声检测进行仿真，设定噪声的能量为1 dBW，仿真得到统计过零点数的平均值低于门限Th的概率Pn。仿真结果如表6所示。

表6 时域过零点统计比较检测仿真结果

仿真结果表明，当门限Th取108时，输入纯噪声信号连续Q帧过零点数的平均值不超过门限的概率Pn接近于0。而此时输入10 dB的带噪话音信号连续Q帧过零点数的平均值不超过门限的概率Pv为0.930 233，漏警概率为0.069 8。5级门限可选为105、106、107、108和109。

3.3 联合检测

（1）首先对信号进行高低频段能量比较检测，如果高低频段能量比大于高门限，则判定为话音，话音通道开启；如果小于低门限，则判定为噪声，话音通道关闭；如果高低频段能量比在高低门限之间，则进入步骤（2）继续判断。

（2）对信号进行带内外平均能量比较检测，如果内外平均能量比大于高门限，则判定为话音，话音通道开启；如果小于低门限，则判定为噪声，话音通道关闭；如果带内外平均能量比在高低门限之间，则进入步骤（3）继续判断。

（3）对信号进行时域过零点数比较检测，如果过零点数小于门限，则判定为话音，话音通道开启；如果大于门限，则判定为噪声，关闭话音通道。

4 3种检测方法的综合检测仿真

将3种检测方法的判决结果进行综合，截取一段有明显间隔的话音信号，在信噪比为0 dB、5 dB和10 dB的条件下进行检测仿真。其中，高低频段能量比较检测的高门限设为1.9，低门限设为1.1；带内外频段能量比较检测的高门限设为20，低门限设为15；过零点数比较检测的门限设为108，N取256，Q取3。检测结果如图5、图6和图7所示。

图4 三种检测算法联合判决流程

图5 SNR=0 dB时3种算法综合检测结果

图6 SNR=5 dB时3种算法综合检测结果

图7 SNR=10 dB时3种算法综合检测结果

图5 、图6和图7的仿真检测结果表明，即便在信噪比较低的条件下（0 dB），仍能正确检测话音，且没有出现虚警现象。

在同样的参数条件下，对输入纯高斯白噪声检测进行仿真，设定噪声的能量为1 dBW，仿真结果如图8所示。

图8 输入纯噪声信号时3种算法综合检测结果

从图8的仿真结果可以看出，在持续输入1 000 s长的噪声信号过程中，没有出现虚警现象。为了观察更长时间内是否会出现虚警，将1 000 s长的噪声信号循环仿真了500次（共5×10e9个点），仍然没有发现有虚警现象出现，而循环仿真1 000次（共1×10e10个点）出现虚警的概率为6.912 4e-007。

将Q设为50，观察在输入纯噪声时是否有虚警出现，仿真结果如图9所示。从图9中可以看出，Q取50时没有出现虚警现象。

图9 Q取50时输入纯噪声信号时3种算法综合检测结果

5 结语

利用话音频谱特性实现静噪，再结合带内外平均能量比较、时域过零点统计比较两项辅助判决机制，使3种检测方法有效结合，显著提高了静噪的话音检出成功率，大大降低了虚警、漏警概率。下一步将继续在噪声样本分析、话音频谱特性、带内话音降噪技术等方面开展研究，进一步提高性能。

[1] 曹志刚,钱亚生.现代通信原理[M].北京:清华大学出版社,1997.CAO Zhi-gang,QIAN Ya-sheng.Modern Communication Principles[M].Beijing:Tsinghua University Press,1997.

[2] 李燕斌.一种有效的话音静噪综合处理方法及其应用[J].电讯技术,2012,52(01):54-57.LI Yan-bin.An Effective Integrated Processing Method for Quieting Tone and Its Application[J].Telecommunication Engineering,2012,52(01):54-57.

[3] 郑炜.数字化接收机中静噪算法分析及DSP实现[J].信息技术,2010(06):87-89.ZHENG Wei.Analyse and Using DSP for Algorithms of Noise Squelch in Digital Receiver[J].Information Technology,2010(06):87-89.

[4] 徐以涛,王金龙.一种基于滑动DFT算法的FM静噪检测器[J].信号处理,2005,21(03):319-321.XU Yi-tao,WANG Jin-long.A FM-Noise Squelch Detector by Sliding DFT Algorithm[J].Signal Processing,2005,21(03):319-321.