王勇 孟华 陈正武 魏春华 刘垒
摘 要:直升机辐射的声信号在空气中衰减速度慢、传播距离远,是直升机目标识别的主要依据.受人类听觉系统优异的声音信号识别能力的启发,提出了基于人耳听觉感知特性的Gammatone倒谱系数(Gammatone Cepstral Coefficients,GTCC)特征提取方法用于直升机声信号的识别. 通过仿真实验,详细研究了参数设置对识别系统性能的影响,以及识别算法在噪声环境下的鲁棒性、对各种分类器的普遍适用性和相对其他特征提取方法的优越性,对实验结果给出了合理的解释. 实验结果表明,所提出的方法能够根据声信号有效地辨识直升机的类别,具有很好的抗噪声干扰能力,有一定的应用前景. 不同参数设置对识别性能的影响程度不同,其中窗函数长度、Gammatone倒谱系数特征数量和低频声信号对识别率的影响较大,而高频声信号对目标识别的影响较小.
关键词:声信号;识别;直升机;Gammatone滤波器;倒谱系数
中图分类号:TP391.4;V275.1 文献标志码:A
Recognition of Helicopter Acoustic Signal Based
on Gammatone Cepstral Coefficients
WANG Yong1?,MENG Hua2,CHEN Zhengwu1,WEI Chunhua1,LIU Lei1
(1. Key Laboratory of Aerodynamic Noise Control,China Aerodynamics Research
and Development Center,Mianyang 621000,China;
2. School of Mathematics,Southwest Jiaotong University,Chengdu 611756,China)
Abstract:The acoustic signal radiated by the helicopter has a slow attenuation speed and a long propagation distance in the air, which is the main basis for recognition of helicopter target. Inspired by the excellent sound signal recognition ability of the human auditory system, an auditory perceptual feature extraction method based on Gammatone cepstral coefficients(GTCC) is proposed to classify helicopter acoustic signal. Through the simulation experiments,the influence of parameter settings on the recognition performance, the robustness of the proposed method in noisy environments, the universal applicability to various classifiers, and the superiority to other helicopter acoustic signal feature extraction methods were studied in detail. Reasonable explanations of the observed experimental results were also given in this paper. The results show that the proposed method can effectively identify the type of helicopter according to the acoustic signal, and has good anti-interference ability to noise, which has certain application prospects. It is also shown that different parameter settings have different effects on the recognition performance, where the length of window function, the number of Gammatone cepstral coefficient features and the low-frequency acoustic signal have a great influence on the recognition accuracy, while high-frequency acoustic signal has little influence on the recognition.
Key words:acoustic signal;recognition;helicopter;Gammatone filter;cepstral coefficient
直升機具有独特的高机动、低空或超低空飞行能力,不易被雷达、红外等探测识别手段发现. 但直升机辐射的噪声,特别是其旋翼产生的强中低频噪声,在空气中的衰减速率慢、传播距离远,极易被地面人员感知,也极易被专用的噪声预警系统探测和识别.
直升机声信号的识别与一般模式识别过程一样,通常包含特征提取和分类识别两个阶段. 特征提取的主要目的是通过变换或映射的方法,在大幅度降低数据维数的同时提取出能反映待识别对象本质的最有效或最具代表的个性特征,减轻分类器负担和识别系统的设计难度. 在前期的研究中,自相关分析[1]、参数化谱估计[2]、小波和小波包分析[3]等各种方法都被用于直升机声信号的特征提取,但是这些特征提取方法并未考虑人耳的听觉处理特性. 众所周知,人类的听觉系统具有十分优异的声音信号识别能力,在复杂噪声环境下可靠、便捷地辨识对象的能力. 因此,近年来,融入人耳听觉感知特性的声信号特征提取方法吸引了众多研究者的兴趣[4-5].
Gammatone倒谱系数特征提取方法采用一组相互交叠、中心频率呈对数均匀分布的带通Gammatone滤波器对人耳基底膜的冲激响应和幅频特性等进行仿真,可以模拟人耳听觉的动态、非线性响应过程以及频谱分析和频率选择特性[6],是一种重要的听觉感知特征提取方法,已被广泛应用于说话人识别[7]和水下目标识别[8]中. 本文将Gammatone倒谱系数特征提取方法应用于直升机声信号的识别,详细研究了参数设置对识别系统的性能影响,以及识别算法在噪声环境下的鲁棒性、对各种分类器的普遍适用性和相对其他特征提取方法的优越性,对实验结果给出了合理的解释. 仿真实验结果表明:本文提出的Gammatone倒谱系数特征提取方法能够根据声信号有效地辨识直升机的类别,具有很好的抗噪声干扰能力;窗函数长度、Gammatone倒谱系数特征数量和低频声信号分量对识别率的影响较大,高频声信号分量对目标识别的影响较小.
1 基于Gammatone倒谱系数的声信号识别
方法
1.1 Gammatone滤波器
人类听觉的生理学研究表明,听觉感知系统中的耳蜗基底膜的振动响应与受刺激的声音信号的频率有关;基底膜具有的这种频率分解功能是人耳进行声信号处理的关键环节. Gammatone听觉模型采用一组相互交叠的带通Gammatone滤波器组[9]模拟耳蜗基底膜的频率分解功能,以提取声音信号的个性特征.
Gammatone滤波器由Aertsen等[10]提出,该滤波器的连续冲激响应为:
gi(t) = a tn-1 ecos(2π fi t + ?i),1≤i≤N (1)
式中:a为滤波器的振幅因子;t≥0为时间;n=4是模拟人耳听觉的滤波器阶数;?i为相位因子,通常设为?i = 0;fi为第i个滤波器对应的中心频率;bi= 1.019BER(fi)是第i个滤波器的带宽,由它决定冲激响应的衰减速度. BER(f)为等效矩形带宽(Equivalent Rectangular Bandwidth,ERB),它与频率f的关系为[11]:
BER(f)=lg(0.004 37f+1) (2)
N≥2为滤波器个数,由整个滤波器组的频率覆盖范围[ flow, fhigh]決定.
N = ceil(BER(fhigh) - BER(flow)) (3)
式中:flow和fhigh分别为频率下界和上界;ceil是向上取整函数.
Gammatone滤波器组中,滤波器的中心频率在ERB域上呈等间隔分布. 因此,在由滤波器组的频率覆盖范围[ flow,fhigh]确定滤波器个数N后,有
BER(fi) = BER(flow)+(i-1)×
,1≤i≤N (4)
据此,可以利用式(2)反算出第i个滤波器对应的中心频率fi .
图1给出了频率覆盖范围为10~12 800 Hz的Gammatone滤波器组(从第3个滤波器开始,每间隔2个滤波器显示1个Gammatone滤波器)的频率响应示意图及其每个滤波器对应的中心频率和ERB尺度值.从图1可以看出,Gammatone滤波器是一个在中心频率位置具有最大幅度的带通滤波器,滤波器组在ERB尺度上等间距分布,而在频率域上呈非线性分布,实现了对人耳听觉模型处理声音信号的非线性响应过程的模拟. 由图1(a)可知,低频段的滤波器数量多、带宽窄,而高频段的滤波器数量少但带宽随之变大. 这种特性使得经过Gammatone滤波器组处理后的直升机声信号在低频段有较高的频率分辨率而高频段的频率分辨率则较低,很好地模拟了人耳对中低频声信号更敏感的频谱分析能力. 此外,每个滤波器中心频率两侧的边沿较陡而拖尾较长,使得Gammatone滤波器在具有较为尖锐的频率选择能力的同时能避免滤波器交界处的共振峰结构破坏.
1.2 Gammatone倒谱系数特征提取与声信号识别
基于Gammatone倒谱系数特征提取的直升机声信号识别,采用Gammatone滤波器提取声信号的听觉感知特征,随后送入分类器进行分类识别得到直升机的类别信息,其流程如图2所示.
具体过程如下:
1)分帧和加窗. 根据直升机声信号的短时平稳特性,把输入的声信号分成长度为L的若干帧,帧移通常设为50%以使帧与帧之间平稳过渡,避免相邻两帧间的声信号变化过大.
为了抑制信号分析过程中的“频谱泄漏”,对直升机的时域声信号增加窗函数,通常选择hanning窗:
w(n)=0.51-cos2
π,0≤n≤L-1 (5)
2)FFT变换. 对加窗后的直升机声信号进行快速傅里叶变换(Fast Fourier Transform,FFT),将数据从时域转换到频域,进而取绝对值得到声信号的离散能量谱.
3)Gammatone滤波器组滤波. 在指定的频率覆盖范围[ flow,fhigh]内,用Gammatone滤波器组对频谱进行滤波处理,得到声信号在不同频率分量上的特征.
4)对数压缩. 对每个Gammatone滤波器的输出进行对数压缩,滤除乘性噪声,得到一组对数能量谱.
5)DCT变换. 对上述能量谱进行离散余弦变换(Discrete Cosine Transform,DCT),去除噪声和特征分量之间的相关性,得到Gammatone倒谱系数.
6)分类器识别. 将训练集和测试集上的Gammatone倒谱系数沿频率方向取均值得到Gammatone倒谱系数特征;然后,将训练集的前M维Gammatone倒谱系数特征送入分类器进行训练,并利用训练好的分类器对测试集的前M维Gammatone倒谱系数特征进行分类识别得到直升机的类别信息.
2 实验结果与分析
2.1 数据与设置
本文实验采用的直升机声信号数据库包含低背景噪声环境下采集的3类直升机在10种不同工况时辐射的声音信号,采样率为25. 6 kHz,采样时间为10 s. 将数据库中的声信号每隔0.5 s截取1 s时间段的数据组成共597段长度为25 600 的声信号数据集,进而将每一类中的75%数据作为训练集,剩下的25%数据作为测试集. 因此,训练集和测试集的样本数分别为448和149.
为研究本文提出的声信号识别方法在噪声背景下的鲁棒性,对原始干净数据加入不同信噪比(Signal-to-Noise Ratio,SNR)的高斯白噪声,信噪比分别为0 dB、±5 dB、±10 dB、±20 dB和±40 dB. 图3给出了不同信噪比下的声信号频谱. 从图中可以看出,直升机声信号的能量主要集中在1 000 Hz以下的低频段,且在桨叶通过频率及其谐波频率附近存在明显的尖峰. 随着信噪比的降低,低频段的能量不再明显高于高频段的能量,同时桨叶通过频率及其谐波频率附近的尖峰逐渐消失;信噪比为-40 dB时,已经没有明显的频谱尖峰.
由于本文重点关注声信号的特征提取,如无特别说明,则采用简单的最近邻(Nearest Neighbor,NN)分类器.
2.2 结果与分析
从1.2节的算法描述中可以看出,基于Gammatone倒谱系数特征提取的直升机声信号识别方法包含4个参数:窗函数长度L、频率范围[ flow,fhigh]和特征向量数M. 下面逐一考察它们的设置对识别结果的影响,在考察某一参数的影响时,其他参数采用默认设置.
图4给出了不同窗函数长度下的识别准确率结果. 从图中可以看出,窗函数的长度并不是越大越好,而是有个合适的中间值,这说明在直升机声信号识别中,加窗后的数据帧不仅需要包含足够的有用信息,还需要满足短时平稳条件. 此外,从图中还可以看出,本文提出的声信号识别方法具有很好的抗干扰能力,即使信噪比为0 dB时仍具有较好的识别准确率. 只有当信噪比进一步降低,有效信号逐渐淹没于噪声后,所提出方法的识别率才开始逐渐降低.
图5给出了不同频率范围的上界fhigh和下界flow 设置下的识别准确率结果. 从图中可以看出,尽管频率上界的变化范围更大,但其不同设置对识别率的影响却并不大,识别率对频率下界更敏感. 这与直升机声信号辐射中低频能量大、衰减慢、传播远的固有特性是相符的,也印证了直升机声目标识别的有效信息主要聚集于低频段.
图6给出了不同特征向量数时的识别准确率结果. 从图中可以看出,随着特征向量数的增加,识别准确率呈增加的趋势;只在信噪比极低为-40 dB时,识别准确率随特征向量数的增加在30%左右波动. 同时可以看出,当特征向量数较少时,新特征向量的加入能明显提升识别准确率;而当特征向量数足够多时,新特征向量的加入对识别准确率的提升并不明显. 存在这种现象的原因在于:一方面,从图1(b)中可以看出,前几个特征向量对应的Gammatone滤波器的中心频率较低,而后续特征向量对应的Gammatone滤波器的中心频率逐渐增大. 此外,图5已经表明低频分量对直升机声信号的识别非常重要,而高频分量则帮助较小. 再加上特征向量越多提供的有效信息也越足,这些因素相互作用使得识别准确率随特征向量数目的增加先迅速提升再缓慢增加. 另一方面,从图3(b)中可以看出,信噪比极低时,有用的低频声信号已淹没于噪声之中,因此更多特征向量的加入并不会提升识别性能.
由于本文的重点是基于Gammatone倒谱系数的特征提取及其在直升机声信号识别中的应用,前述仿真研究中均采用最近邻(Nearest Neighbor,NN)分类器进行分类判决. 为验证所提出的Gammatone倒谱系数特征提取对于各种分类器的普遍适用性,图7给出了本文提出的特征提取方法在不同分类器下的识别准确率. 除了最近邻分类器外,还对比了4种分类器[12]:二元决策树(Binary Decision Tree,BDT)分类器、线性判别分析(Linear Discriminant Analysis,LDA)分类器、线性支撑向量机(Linear Support Vector Machine,LSVM;其中采用“一对一”分类策略的简记为LSVM1,采用“一对多”分类策略的简记为LSVM2)分类器. 从图中可以看出,不同分类器下的识别准确率基本一致,只在信噪比为负值时存在一定的差异. 当信噪比为-5~-20 dB时,二元决策树的分类结果略差;而当信噪比为-5~-40 dB时,采用“一对一”分类策略的LSVM1的分类结果略优.
为对比本文提出的Gammatone倒谱系数(Gammatone Cepstral Coefficients,GTCC)特征提取方法与其他相关的声音信号特征提取方法的性能,仿真实验中还考察了几种文献报道中采用的典型的直升机声信号特征提取方法,包括:自相关系数(Auto-correlation Coefficients,AC)[1]、自回归(Auto Regressive,AR)模型參数(与文献[2]一致,采用前40个AR参数作为特征)、小波变换(Wavelet Transform,WT)能量特征(与文献[3]一致,采用db5小波进行10层小波分解)以及另一种基于听觉感知特性的Mel频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征[4],图8给出了相应的识别准确率结果. 从图中可以看出,本文提出的GTCC特征提取方法优于其他方法,特别是在信噪比分别为-10 dB和-20 dB时,其识别准确率最多比其他方法高10.7%和48.3%,具有很好的抗噪声干扰能力;当信噪比大于0 dB时各种方法的识别准确率基本一致,而当信噪比极低为-40 dB时,各种方法的识别准确率均不高.
3 结 论
本文提出了基于Gammatone倒谱系数特征提取的直升机声信号识别方法. 通过仿真实验,详细研究了4个参数的设置对识别系统性能的影响,以及识别算法在噪声环境下的鲁棒性、对各种分类器的普遍适用性和相对其他特征提取方法的优越性,并对实验结果给出了合理的解释. 仿真实验结果表明:本文提出的直升机声信号识别方法能够根据声信号有效地辨识直升机的类别,且具有很好的抗噪声干扰能力,有一定的应用前景. 参数影响分析表明:窗函数长度、Gammatone倒谱系数特征数量和低频声信号分量对识别准确率的影响较大,而高频声信号分量对目标识别的影响较小.
参考文献
[1] 衡丽,熊淑华. 直升机声信号的特征分析[J]. 西南科技大学学报,2010,25(1):56—59.
HENG L,XIONG S H. Feature analysis of helicopter acoustical signals[J]. Journal of Southwest University of Science and Technology,2010,25(1):56—59. (In Chinese)
[2] 陈虎虎,钟方平,许学忠,等. 基于支持向量机的低空飞行目标声识别[J]. 系统工程与电子技术,2005,27(1):46—48.
CHEN H H,ZHONG F P,XU X Z,et al. Acoustic recognition of low-altitude flight targets by SVM[J]. Systems Engineering and Electronics,2005,27(1):46—48. (In Chinese)
[3] 李京華,张聪颖,倪宁. 基于参数优化的支持向量机战场多目标声识别[J]. 探测与控制学报,2010,32(1):1—5.
LI J H,ZHANG C Y,NI N. Multi-target acoustic identification in battlefield based on SVM of parameter optimization[J]. Journal of Detection & Control,2010,32(1):1—5. (In Chinese)
[4] 刘辉,杨俊安,许学忠. 基于MFCC参数和HMM的低空目标声识别方法研究[J]. 弹箭与制导学报,2007,27(5):217—219.
LIU H,YANG J A,XU X Z. A novel low altitude passive acoustic target identify approach research based on MFCC and HMM[J]. Journal of Projectiles,Rockets,Missiles and Guidance,2007,27(5):217—219. (In Chinese)
[5] LYON R F,KATSIAMIS A G,DRAKAKIS E M. History and future of auditory filter models[C]//Proceedings of 2010 IEEE International Symposium on Circuits and Systems. Paris,France:IEEE,2010:3809—3812.
[6] 陈世雄,宫琴,金慧君. 用Gammatone滤波器组仿真人耳基底膜的特性[J]. 清华大学学报(自然科学版),2008,48(6):1044—1048.
CHEN S X,GONG Q,JIN H J. Gammatone filter bank to simulate the characteristics of the human basilar membrane[J]. Journal of Tsinghua University (Science and Technology),2008,48(6):1044 —1048. (In Chinese)
[7] 茅正冲,王正创,王丹. 基于Gammatone滤波器组的说话人识别算法研究[J]. 计算机工程与应用,2015,51(1):200—203.
MAO Z C,WANG Z C,WANG D. Speaker recognition algorithm based on Gammatone filter bank[J]. Computer Engineering and Applications,2015,51(1):200—203. (In Chinese)
[8] 程锦盛. 基于深度学习方法的水下目标识别技术研究[D]. 北京:中国舰船研究院,2018.
CHENG J S. Underwater target recognition technology base on deep learning[D]. Beijing:China Ship Research and Development Academy,2018. (In Chinese)
[9] PATTERSON R D,ROBINSON K,HOLDSWORTH J,et al. Complex sounds and auditory images[C]//Auditory Physiology and Perception,Proceedings of the 9th International Symposium on Hearing. Pergamon:Oxford,1992:429—446.
[10] AERTSEN A M H J,JOHANNESMA P I M,HERMES D J. Spectro-temporal receptive fields of auditory neurons in the grassfrog[J]. Biological Cybernetics,1980,38(4):235—248.
[11] GLASBERG B R,MOORE B C J. Derivation of auditory filter shapes from notched-noise data[J]. Hearing Research,1990,47(1/2):103—138.
[12] 周志华. 机器学习[M]. 北京:清华大学出版社,2016:53—146.
ZHOU Z H. Machine learning[M]. Beijing:Tsinghua University Press,2016:53—146. (In Chinese)