王书海 石俊峰
摘 要:近年来随着传感器技术不断发展和语音信号定向处理技术的不断研究,应用在这种领域的技术以及应用也在逐渐进入人们的视野,比如语音定位、语音跟踪系统等,更是被广泛的应用于军用和民用领域,比如会议说话人的定位以及在战地勘探方面等,这都为语音信号处理等领域的技术发展提供了极大的推动。所以,研究探索技术的工程实践应用这方面的技术,对推动语音信号等处理理论发展和相关技术的成果,有着非常重大的意义。文章着重介绍了语音定向的相关算法与研究,主要探究了延时估计。延时估计是利用麦克风阵列解决宽带语音的信号的技术之关键,更是通过麦克风阵列进行声音源定向方法中最常用的一种。
关键词:麦克风阵列;TDOA;声源定向
中图分类号:TN912.3 文献标志码:A 文章编号:2095-2945(2018)23-0013-02
Abstract: In recent years, with the continuous development of sensor technology and the continuous research of directional processing technology of speech signal, the technology and application applied in this field are gradually entering people's field of vision, such as speech localization, speech tracking system and so on. It is widely used in military and civilian fields, such as conference speaker positioning and field exploration, which provide a great impetus to the development of speech signal processing and other fields. Therefore, it is of great significance to study and explore the technology of engineering practice and application of this technology to promote the development of speech signal processing theory and related technology. This paper focuses on the related algorithms and research of speech orientation, and mainly explores the delay estimation. Delay estimation is the key technology to solve the broadband speech signal using microphone array, and it is also one of the most commonly used methods of sound source orientation through microphone array.
Keywords: microphone array; TDOA; sound source orientation
目标定向技术拥有广泛的应用领域,主要是利用雷达技术或者声呐完成目标的定向,但是由于雷达和声呐的工作原理是主动发出电磁波或者声波,这就极大可能的会暴露自身,这本身就会对系统的隐蔽性和安全性造成很大的威胁。因此,目标定向系统需要不断的去研究,目标定向技术逐渐成为研究目标。然而对于声源定向,这一在目标定向中的重要的分支,它的原理和声呐和雷达等有明显的差别:声源定向技术是通过声源主动地发信号,麦克风阵列去接受目标发来的信号去做处理,这也就为定向本身的隐蔽性和安全性有了极大的提升,由于它自身并不产生电磁波或者声波,这成了研究相关领域的重要技术目标。语音信号,不但是非平稳的信号,而且是宽带信号。因此,语音信号这种宽带信号的处理要比处理传统的窄带信号困难了很多倍。那么为了更好地处理语音信号,必须得先把语音信号分解成传统的信号,即平稳的窄带信号。对前期语音信号的处理主要包括以下几个步骤:欲加重、加窗、分帧、欲滤波、分频处理等。而对声音处理的前期和十分重要的一部分就是要对声音源信号确立好它的基本模型,确定好的模型携带了省心信号距离麦克风阵列的距离信息以及角度信息,因此,最重要的一步就是能够用非常合理的空间模型,对声音信号处理,这样才能更好、更准确的对声音信号进行分析。
麦克风阵列的性能主要是和所采用的阵元数量、几何的形状、阵元之间距离以及所用麦克风的类型。其中影响最重要的就是阵列的形状,这个因素对定向的性能相当重要。窄带信号的几何模型一般可以分为一维均匀线性阵列和二维均匀圆形阵列。应用最为广泛是线性阵列的结构简单,主要是适用于分扇区域的测向系统,是因为它缺陷于有定向的盲区,而圆形的阵列就恰好避免了前者的这一缺点,它处理也较前者更加容易。
由于声音源位置和麦克风阵列的距离不同,可以将空间接收模型分为近场和远场模型两种不同的模型。一般情况下,根据下式来区分远场、近场的:
其中,用L来表示麦克风阵列的整个长度,用?姿来表示声源信号的最小波长。用r来表示声源目标和麦克风阵列之间的距离。
一般情况下,声源信号一般的波长一般是在17mm~17m之间,频率则是在20Hz~20KHz之间的自然信号,但是在实际工作中,一般通過取声源信号的波长一般分布是在20cm左右,频率一般是分布在1700Hz左右。根据式(1)可以知道,假如用8个麦克风组成阵列的均匀阵列,当阵元的间距是10cm,就可以计算出,如果r>6.4m时,就可以当作是远场模型,不过这单单是一维均匀线阵,假如是取半径为0.5m的均匀圆型矩形阵,矩阵元之间的距离是10cm的时候,根据上式1就可以计算出,如果r?叟100m时,那么空间模型才会是远场模型,这样麦克风数量也就增多了,将会需要至少32个麦克风阵列组成的均匀圆阵结构。因此,对于麦克风考虑不同的拓扑结构来分析,近场和远场的区分由于不同的拓扑结构之间导致的差别是很大的。
远场的模型最为典型的例子就是传统的天线阵列,就假如是双麦克风的模型时,当声源的距离到达麦克风的距离大于2L2/?姿min时,我们先假定认为此时的麦克风阵列模型是远场模型。其中,L的阵元间距,?姿min是声波的最小波长。在理想的情况下考虑,声波发出的声音信号为平面波前。麦克风阵元也可以理想缩小为点。
如图 1 中所示,声波前的法线与阵列连线之间成θ 角,而且每个麦克风所接受到的信号会比参考的麦克风相比有一个延迟或者超前。两麦克风间距为d,第二个麦克风所接受的信号由于平面波前的传播路径,相对于参考麦克风多出一个d·cos?兹的距离,从而造成的延时。因此,两麦克风间的时间差为?子12=d·cos?兹/c,此处的c代表空气中的声速。如果θ范围在0°和180°之间而且?子12已知,就可以求出θ的值。因此,估计角度θ即等价于估计时间差?子12。
当然对于近场模型而言,远场的模型的平面波前將会被球面波前所取代。如图2所示,将第一个麦克风作为参考。用θn表示声源到麦克风n的倾角,用rn表示声源到麦克风n的距离,n=1,2,3。
在真实的环境中,一个可用的系统,间距d是可以很简单的测量出来的,那么再将?子12和?子13已知,那么也可以很轻易的将未知参数θ1,r1,r2和r3等计算出来,再根据正弦定理,就可以计算出θ2和θ3的估计值。所以,获取了时延的信息,所有与声源位置相关的信息都可以通过三角函数的知识计算出来。
但是不论麦克风阵列是处于近场还是远场模型,最先做的工作就是要获取阵元之间的TDOA的估计。在理想情况下是非常容易解决的,一旦在实际应用中获取阵元之间的TDOA的估计,信号源通常会受到环境噪声中以及混响的影响,获取TDOA估计是一个很困难的问题。
在理想情况下,由于有噪声的影响,两个麦克风组成的阵列接收信号的模型如下:
x1(t)=s(t)+n1(t)x2(t)=?琢s(t+D)+n2(t)
上式中,x1(t)和x2(t)分别代表两个麦克风收到的信号, s(t)为声源信号,D为延时,?琢是幅度衰减因子,n1(t)和n2(t)用来表示环境中的加行噪声,并且他们本身互不相关且与s(t)不相关。
在实际情况中,两个麦克风m1和m2的间距为D,分别接收到的信号xi(t)(i=1,2)可以表示为:
其中符号“*”为卷积算子,ni(t)为干扰部分,niI(t)表示第i个传声器的环境噪声,niR(t)表示第i个传声器的多径反射噪声,hi(t)=R12()cij(j)是由IMAGE模型定义的房间脉冲响应函数,cij(i=1,2,j=0,1,…∞)为多径反射的衰减因子,由于声源信号直接传播到传声器所经过的路径最短,并且多径反射的衰减因子与声源信号传播的距离平方成反比,因此对于所有的j>0,有τij>τ,cij<=α(1,2)。
时延估计完成后就可以得到两个麦克风之间的时延τ,就可以进行声源定向过程了。
参考文献:
[1]M_ Brandstein and D.editors. Microphone Arrays: Signal Processing Techniques and Applications. Digital Signal Processing. Springer-Verlag, Berlin, 2001.
[2]Loftus J, Smart N P. Secure outsourced computation. Lecture Notes in Computer Science, vol 6737,2010, Berlin: Springer, 2010:1-20.