董红松,刘振宇,马辉栋,闫静
(山西农业大学 信息科学与工程学院,山西 太谷 030801)
语音增强在去除猪咳嗽噪声中的应用研究
董红松,刘振宇*,马辉栋,闫静
(山西农业大学 信息科学与工程学院,山西 太谷 030801)
[目的]猪的咳嗽声音可用来评价猪的健康状况,然而在实际环境中,猪场中常装有风扇使得提取到的猪咳嗽声音信号受到低频风扇噪声的干扰。为了滤除低频噪声,提出了基于猪咳嗽声音信号的增强方法。[方法]结合猪咳嗽声音信号的特点,借鉴语音增强方法对含噪猪咳嗽声音信号进行去噪处理。首先,分别采集猪咳嗽声音信号和风扇噪声信号,利用MATLAB(2016a)对两种信号分别进行分析处理,得到其时频域特性。其次,采用基于离散余弦变换(DCT)的增强算法对含噪猪咳嗽声音信号进行处理,同时对基于经验模态分解(EMD)和小波包变换(WPT)的增强方法和DCT的增强算法在去除风扇噪声的效果进行比较。[结果]理论分析与仿真表明,在-5~5 dB的信噪比环境中,基于DCT的增强方法无论是在低信噪比还是非平稳噪声环境下,均比基于EMD和WPT的增强方法得到更高的增强信噪比信号。[结论]说明基于DCT的增强方法具有更好的去噪效果,可以更好的分离出猪咳嗽声音信号和风扇噪声信号。
语音增强; 低频噪声; 猪咳嗽; 信噪比
动物之间同人类一样,也使用声音进行交流[1],声音既可以用来传递信息,又可以对动物产生影响。比如翅膀的震动、咳嗽的声音[2]等都可以用来反映动物需求信息或者健康状况,并可以作为评价动物福利状态的方法之一[3]。噪声作为常见声音信号,也可以对动物的生长产生重要影响[4]。目前,研究人员已经开始对鸡[5]、猪[6]等家畜及大象[7]、蛙类[8]等动物的声音信号进行研究,通过对动物声音信号进行去噪、识别来评估其健康状况。其中,马辉栋等[9]以猪为研究对象,提取猪咳嗽声音,利用语音端点检测技术[10~12]对声音信号进行分析,为猪咳嗽类疾病的诊断提供有效判断。龚昌超等[13]以兔为研究对象,分析了低频噪声对兔子内脏与器官的影响。周晓敏等[14]以鸟类为研究对象,对鸟叫声进行降噪处理,进而对鸟声音进行识别。龚永杰等[15]研究了基于矢量量化的猪咳嗽声识别,以梅尔频率倒谱系数为参数,对猪咳嗽声进行识别。然而前人提取的声音数据是在干扰小的环境获得的。实际猪舍中,常存在风扇噪音或其它噪音,这使得猪咳嗽声音信号失真,进而对猪咳嗽声音识别产生影响。为了得到纯净的声音信号,采取增强方法对带噪信号进行降噪处理,目前在噪声环境不复杂的情况下,一些降噪方法如基于经验模态分解(EMD)的算法[16]和小波包变换(WPT)算法[17]等都取得了较好的降噪效果,但当信噪比较低或者非平稳噪声环境且对实时性要求较高的情况下,上述方法由于计算量较大均无法取得较好的去噪效果。现实中,猪舍常常伴有风扇噪声,采集的猪咳嗽声音信号信噪比较低,而且风扇噪声也是一种非平稳噪声,因此,有必要增强目标信号。
本文以猪为研究对象,采取一种基于离散余弦变换(DCT)的增强方法对带噪猪咳嗽声音信号进行增强,既可以去除风扇噪声,又可以得到纯净的猪咳嗽声音信号,为后期猪咳嗽声音识别提供基础。
在低信噪比及非平稳噪声环境中,现有基于EMD算法和WPT算法的增强方法由于其计算量较大,无法满足实时性的要求,而基于DCT的增强方法,声音信号的N点DCT只需要N2次乘法和N(N-1)次加法,相对于前者,运算量较小,且基于DCT算法的实时性较好,适合于实时性要求较高的应用环境。具体方法如图1所示。
基于DCT的语音增强包括:
(1)对含有噪声的猪咳嗽声音进行抽样、加窗、分帧等预处理;
(2)对经过分帧的带噪信号进行离散余弦变换得到yk;
(3)用Teager能量算子(TEO)对yk进行处理得到tk;
(4)用窗函数对tk进行平滑处理得到Sk;
(5)由平滑系数构造自适应阈值λk;
(6)经过阈值函数处理得到增强后的声音信号。
图1 基于DCT的语音增强流程图Fig.1 Speech enhancement based on DCT
1.1 声音信号预处理
动物的声音信号是一种非平稳的、时变的随机过程。一般假定在10~30 ms时间段声音信号是短时且平稳的,某些物理特征和频谱特性可近似地看作不变,即信号是平稳的。本文将声音信号分成20~30 ms为一帧,为了使得到的声音信号的频谱图有合适的频率分辨率,选择分辨率高、频谱泄露少的海明窗对猪咳嗽声音信号进行分帧处理。
其函数为:
(1)
其中,n为离散时间采样点,N为窗长。
1.2 离散余弦变换
离散余弦变换(DCT)有较好的能量集中特性,用DCT对带噪声音信号进行处理,可以抑制噪声,保留猪咳嗽声音的DCT系数。Yk,Xk,Dk分别是含有噪声的声音信号、纯净猪咳嗽声音信号和噪声的离散余弦变换。
(2)
(3)
(4)
其中,0≤n≤N-1,0≤k≤N-1,信号的N点DCT可由公式(2)得出,对应的系数可由公式(4)得出。
1.3 Teager能量算子
用Teager能量算子(TEO)对DCT系数进行处理,可以进一步提高声音信号和噪声之间的区分度。离散时域TEO如下:
Ψd[y(n)]=y2(n)-y(n-1)y(n+1)
(5)
对DCT系数进行离散TEO运算得到一系列TEO系数:
Tk=Ψd[Yk]
(6)
采用海明窗对TEO系数进行平滑处理:
Sk=Tk*Hk
(7)
(8)
1.4 噪声估计和自适应阈值
采取DCT处理含噪猪咳嗽声音,对信号进行N点离散余弦变换后,在后N/2点余弦系数上估计噪声大小。因无需考虑噪声的类型和分布,直接利用变换后的N/2点估计噪声,实时性更强。噪声偏差为:
(9)
其中,var表示方差。
阈值取Donoho阈值,即:
(10)
其中N代表信号长度。
(11)
理想状态下,对于信号的声音部分,阈值应该接近于0,对于噪声,阈值取最大值。当信噪比不同时,阈值是自适应的,这样才能最有效的去除噪声而且保留语音,自适应阈值如下:
(12)
1.5 阈值函数去噪
较好的阈值函数去噪后所得的重构声音信号应尽量逼近原始信号而且重构信号的信噪比增益应较高。经典的硬阈值函数虽然被广泛应用,但其自身存在一些缺点,比如会出现伪Gibbs现象、重构所得的声音信号可能产生振荡、在某些点产生间断;软阈值法虽然连续性较好,但可能会造成边缘模糊等失真现象,有较大的偏差,直接影响重构信号和真实信号的逼近程度。因此,本文采用一种模平方处理方法,能克服上述缺点。这种模平方处理方法:
(13)
其中,Yk表示信号的DCT变换,λk是自适应阈值。
2.1 声音数据采集
声音数据采集于山西农业大学牧站猪舍,用JNN Q16高清降噪录音笔(采样率192 kbps)采集3个纯净猪咳嗽声音和风扇噪声样本,如表1所示。
2.2 声音信号的分析
猪咳嗽的声音类似人的咳嗽,是一个非平稳信号,通过对猪咳嗽声音的识别,为猪咳嗽疾病诊断提供有效判断。语谱图可以反映声音信号的动态频谱特性,在声音信号分析中有重要意义。图2~图4分别表示猪咳嗽声音、刮风噪声、风扇噪声三种信号的时域图及相应语谱图。从图2可以看出,纯净猪咳嗽声音信号的频率大部分处于5 000 Hz以下。由图3、4可以看出,刮风噪声、风扇噪声频率大部分处于1 000 Hz以下,与猪咳嗽声音频率范围相差比较大。
表1 猪咳嗽样本信息表Table 1 Sample information of the pig cough sound
图2 猪咳嗽声音时域图和语谱图Fig.2 Time-domain chart and the spectrum of the pig cough sound
图3 刮风噪声时域图和语谱图Fig.3 Time-domain chart and the spectrum of the wind noise
图4 风扇噪声和语谱图Fig.4 Time-domain chart and the spectrum of fan noise
2.3 试验结果
设x(n)是纯净的猪咳嗽声音信号,d(n)为风扇噪声信号,采样频率为8 kHz,在Matlab(2016a)平台对-5~5 dB信噪比的带噪猪咳嗽声音信号进行仿真,利用add noise函数生成叠加任意噪声数据的带噪声音信号。猪咳嗽声音信号在-5 dB的风扇噪声污染下,本文算法和基于WPT算法、基于EMD算法的性能比较如图5所示。
图5 风扇噪声背景下多种增强算法性能比较Fig.5 Variety of enhancement methods under Fan noise
在风扇噪声背景环境下,针对猪咳嗽声音信号,本文算法与基于WPT的算法以及基于EMD的算法在不同信噪比下的仿真结果如表2所示。
表2表明,针对猪咳嗽声音信号本文方法在信噪比较高时,3种方法输出的信噪比差别不大,都在12.5 dB左右,但在信噪比低至-5 dB时,本文方法的性能比后两种算法有显著提高。在信噪比-5 dB的风扇噪声背景下,本文算法的输出信噪比相对后两种方法均有提高,较EMD算法提高1.48 dB,较WPT算法提高1.07 dB,说明本文算法在低信噪环境下相比后两种算法有更好的去噪效果。
表2 风扇噪声背景环境下各算法输出信噪比Table 2 The output SNR under fan noise
图6表示纯净猪咳嗽声音信号、刮风噪声信号以及-5 dB的带噪咳嗽声音信号时域图。图7表示基于DCT的增强方法、基于WPT和基于EMD的增强方法对-5 dB的带噪咳嗽声音进行去噪后的增强效果对比图,从图7可以看出本文方法比后两种方法均取得了较好的去噪效果,本文方法对猪咳嗽声音信号进行了较好的保留,对噪声进行了去除,尤其是细节部分,保留了类似低频噪声的低频声音部分,证明本文算法的阈值对噪声具有自适应性。
图6 猪咳嗽声音信号、刮风噪声、-5 dB带噪声音信号Fig.6 Time-domain chart of pig cough sound、wind noise and both of that(-5 dB)
图7 三种方法处理后的增强声音信号Fig.7 Three kinds of enhancement methods under wind noise
图8 猪咳嗽声音信号、风扇噪声、-5 dB带噪声音信号Fig.8 Time-domain chart of pig cough sound、fan noise and both of that (-5 dB)
图9 三种方法处理后的增强声音信号Fig.9 Three kinds of enhancement methods under fan noise
图8表示猪咳嗽声音信号、低频风扇噪声信号以及-5 dB的带噪猪咳嗽声音信号。图9表示三种方法对-5 dB的带噪声音进行去噪后的增强效果对比图。从图9可以看出,对于风扇噪声,本文方法相比后两种方法也取得了较好的去噪效果,这依然是由于纯净猪咳嗽信号的频率大部分处于5 000 Hz以下。无论是自然的刮风噪声信号还是猪舍内的风扇噪声信号,其频率大部分在1 000 Hz以下,在被噪声污染时均可以被去除,可以达到较好的去噪效果。
本文以MATLAB(2016a)软件为平台,对猪咳嗽声音和刮风噪声及低频风扇噪声进行了分析,得到如下结论:
(1)由于纯净的猪咳嗽声音和噪声在频率上具有较大差异,可以采取增强方法对噪声进行去除。
(2)本文的增强方法相比基于WPT和EMD的增强方法,在不同信噪比环境下,均有较高的输出信噪比,说明本文方法有更好的去噪效果。
(3)先对猪咳嗽声音信号进行DCT处理,增强了声音信号的聚集能力,然后进行TEO运算,增强了这种能量聚集特性,最后构造的自适应阈值可以根据信噪比自适应地对噪声进行去除。
对带噪的动物声音进行增强后,可以进一步对动物声音进行识别,去噪为声音识别提供了研究基础。然而,实际环境中,存在比较复杂的不同种类的非平稳噪声,比如在猪舍中,存在有猪喂养系统噪声等,这使得提取纯净猪声音信号变得更难,本研究中对带噪声音信号的去除工作只是检测猪咳嗽声的前期基础,在实际畜舍中应用还需后续进一步的研究。
[1]Kojima S,Doupe A J.Social performance reveals unexpected vocal competency in young song birds[J].Proceedings of the National Academy of Sciences of the United States of America,2011,108(4):1687-1692.
[2]Ferrari S,Silva M,Guarino M,et al.Cough sound analysis to identify respiratory infection in pigs[J].Computers and Electronics in Agriculture,2008,64(2):318-325.
[3]Manteuffel G,Puppe B,Schön P C.Vocalization of farm animals as a measure of welfare[J].Applied Animal Behavior Science,2004,88(2):163-182.
[4]李超英,赵文阁,亓新华.温度、湿度、饲养密度、噪音对实验动物福利的影响[J].河南科技学院学报(自然科学版),2006,34(3):24-25.
[5]余礼根,滕光辉,李保明,等.蛋鸡发声音频数据库的构建与应用[J].农业工程学报,2012,28(24):150-156.
[6]Sara F,Mitchell S,Marcella G,et al.Cough sound analysis to identify respiratory infection in pigs[J]. Computers & Electronics in Agriculture,2008,64(2):318-325.
[7]Soltis J,Leong K,Savage A.African elephant vocal communication II: rumble variation reflects the individual identity and emotional state of caller[J].Animal Behavior,2005,70(3):589-599.
[8]Wycherley J,Doran S,Beebee TJC.Male advertisement call characters as phylogeographical indicators in European water frogs[J].Biological Journal of the Linnean Society,2002,77(3):355-365.
[9]马辉栋,刘振宇.语音端点检测算法在猪咳嗽检测中的应用研究[J].山西农业大学学报(自然科学报),2016,36(6):445-449.
[10]路青起,白燕燕.基于双门限两级判决的语音端点检测方法[J].电子科技,2012,25(1):13-15,19.
[11]罗雅琴,吴小培,吕钊,等.滑动窗累积量的递推估计算法及其在语音端点检测中的应用[J].声学学报,2015,40(5):730-738.
[12]薛胜尧.基于改进型双门限语音端点检测算法的研究[J].电子设计工程,2015(4):78-81.
[13]龚昌超,曾新吾.低频强声对动物及其行为效应的研究[J].中国应用生理学杂志,2008,24(4):492-493,503.
[14]周晓敏,李应.基于Radon和平移不变性小波变换的鸟类声音识别[J].计算机应用,2014,34(5):1391-1396,1417.
[15]龚永杰,黎煊,高云,等.基于矢量量化的猪咳嗽声识别[J].华中农业大学学报,2017,36(3):119-124.
[16]王宏志,高源龙,周明月.基于EMD的语音信号压缩感知算法[J].南京邮电大学学报(自然科学版),2016,36(4):22-27.
[17]孟慧,梅铁民,朱向荣.一种小波包变换的声纹参数提取方法研究[J].沈阳理工大学学报,2015,34(6):77-82.
Applicationofspeechenhancementinnoise-reductionfromcoughingpigs
DongHongsong,LiuZhenyu*,MaHuidong,YanJing
(CollegeofInformationScienceandEngineering,ShanxiAgriculturalUniversity,Taigu030801,China)
[Objective]Pig cough sound, which can be used to evaluate the health of pigs. However, the pig farms often equipped with fan which makes the sound extracted from pigs interfered by low frequency fan noise.[Methods]In order to filter out low frequency noise, sound signal of pig enhancementmethod was proposed. According to the characteristics of the sound signal, speech enhancement to reduce noise level gave reference to sound signal polluted by fan noise. First, we collected pure cough sound and fan noise, using MATLAB version 2016 to analyze two kinds of signals to obtain the time and frequency domain features. Secondly, using the enhancementmethod based on DCT to deal with sound signal polluted with noise, and then compared with the EMD and WPTmethod in removing the fan noise.[Result]Theoretical analysis and simulation result showed that the proposedmethod had a higher output SNR compared with existing enhancementmethod such as WPT and EMD when the input SNR ranging from -5 to 5dB and under the non-stationary noise.[Conclusion]Illustrate that the proposedmethod has better de-noising effect, which can better separate sound signal from fan noise.
Speech enhancement, Low frequency noise, Pig cough, SNR
2017-05-08
2017-06-24
董红松(1989-),男(汉),山西长治人,助教,硕士,研究方向:语音增强
*通信作者:刘振宇,副教授,硕士生导师,Tel:13593101646; E-mail:lzysyb@126.com
国家高技术研究发展计划(863计划)资助项目(2013AA102306); 国家自然科学基金资助项目(31371527)
TN912.35; S858.28
A
1671-8151(2017)11-0831-06
(编辑:李晓斌)