程 飞,陈建峰,马 驰,常跃跃
(西北工业大学航海学院,陕西西安 710072)
目前,公共场所使用的监控装置主要由视频监控设备组成,绝大多数不具有声音采集与监控功能。在多个视场频繁切换的过程中,值班人员容易产生疲劳,难以辨认存在安全隐患的地点。同时,单纯的视频监控受到光线、视角等因素的限制,无法有效地对环境进行全天候的实时监控,在许多情况下监控不全面,贻误救援时机。
由于在一定的环境中,声音往往是反映人类行为的重要特征[1,2],比如:敲门声、爆炸声、脚步声等各种环境声音。因此,对声音事件进行有效地探测和识别,可以有助于分析人类的行为。目前,环境声音识别技术的研究已开展多年,国际上为此设立每年一度的声音事件识别竞赛CLEAR[3,4],对其进行应用研究越来越受到重视。一些国家已经进行了相关的应用尝试。2006年,荷兰警方在街道安置麦克风和摄像机联合安防,通过计算机进行监测并预警。2007年,新加坡资讯信息研究所研制犯人在狱室内的行为监测系统,通过声音监控狱室内的活动情况,避免斗殴等恶性事件的发生,获得成功应用。
人们在声音事件识别方面取得了一定的进展,初步建立了用于声音事件识别的数据库,确定了声音事件识别系统的评估方法。但在实际生活中,对环境声音识别技术的应用尚不普及。而且对于单节点传感器而言,无法对大范围的环境进行监测,只能有选择地针对特定的范围进行检测。在多声源存在时,容易发生干扰和误判,无法有效判断声音来源。
本文提出一种基于统计的分布式声音事件监测系统,该系统通过传感器节点的分布式布防,感知监控区域的声音信息。采用基于统计的检测方法,并联合摄像机进行视频确认,以满足实际的监控需求。
如图1所示,一个分布式声音事件监测系统由基站、中继和多个分布式传感器节点构成。
图1 系统结构框图Fig 1 Block diagram of system structure
基站主要由PC机和监控软件组成。根据情况,基站和中继之间可通过无线或有线网络传输声音特征信息、视频信息和控制命令。基站将接收到的声音特征信息进行显示、存储、分析和识别等相应处理,为异常声音事件的判定提供依据。
中继主要由无线射频模块、数据处理模块、网络通信模块和电源组成。中继处附带有网络摄像机、转台及控制模块,可控制摄像机360°全方位转动,监控异常情况。
传感器节点主要由声音传感器、放大电路、单片机、无线射频模块、电源构成,具体组成框图见图2。
图2 传感器节点系统组成框图Fig 2 Composition block diagram of sensor node system
传感器节点首先将环境声音转换为电信号,然后经过放大滤波、MSP430单片机A/D采样,最终将特征提取的数据通过无线射频模块发送到中继。
传感器节点按照一定的地理位置布防,节点位置精确已知。为了满足节点的机动性,将其设为较低的发射功率以降低功耗。这时通信距离仅数百米。为此,专门设置中继(Sink node)来将节点的数据传送到数公里外的基站(base station)。
系统工作方式:系统初始化完成后,启动传感器节点。基站通过中继向传感器节点发出工作命令,传感器节点开始监控周围环境,分析采集数据,提取特征,并通过中继将特征值传给基站。基站处建立节点信息数据库,同时计算并更新节点处的环境背景门限。基站通过一系列的规则判定是否有异常声音事件出现。当判断出有异常情况时,控制摄像机转向相应节点部署区域进行观察,同时向基站返回视频图像信息。
除了语音识别技术外,对环境声音的分类和识别技术的工程应用尚不普及。一些略有相关的应用包括:利用语音进行话者识别[5]、情绪鉴别[6]、利用机械振动进行故障诊断[7]等。
在利用语音进行人的情绪鉴别时,通过对语音信号中若干与情绪有关特征的分析、对比,建立起各种情绪语音的特征库,利用相应的判决准则和分类器对语音情绪分类。
在计算机辅助机械故障诊断时,通过对特定机械振动的声音或振动信号进行采集、时域频域处理后,与正常情况下的结果进行对比,通过建模、统计等方法进行判定。
以上技术虽涉及对不同声音的分类识别,不过其均有明确的声源,便于聚类,能够形成较为集中的类别和模型。然而环境声音种类繁多,复杂多样,来源广泛,模型难以建立,没有一个完整、确定的集合,上述方法难以胜任。
为此,本文拟从环境中直接训练模型,通过对其代表性特征,如短时能量和短时过零率等特征进行统计,形成判别“正常”与“异常”的准则,而不直接去分辨究竟是什么类型的声音,以此来进行异常事件监测。然后,当发现某些声音被检测出异常后,通知摄像头转向事发地点进一步确认。当然,也可利用以往的方法对其进行精细地分类识别,以判断其严重性。
模型建立框图如图3。
图3 模型建立框图Fig 3 Block diagram of model set up
2.1.1 预处理
预处理包括了信号的放大、滤波、采集,在必要时再进行数字滤波,对于环境声音,需要在以下几部分重点考虑:
1)动态范围:由于声音事件的动态范围较大,需要既能探测到微弱的声音,如脚步声等,也能获取巨大的声响,如爆炸声等。因此,在设计声音前置放大电路时需要选取合理参数的传感器。
2)采样频率:由于环境声音频带较宽,因此,为确保信息能比较完整地采集下来,采样频率应不低于16 kHz。
3)A/D精度:16位以上的A/D可以获得比较良好的效果。
2.1.2 特征提取
在绝大多数识别问题中,选取适当的特征对最终的识别效果影响很大。目前,常用的各种声音信号的统计特征有短时能量、短时过零率、短时自相关、线性预测编码(LPC)、线性预测倒谱系数(LPCC)、对数频率能量系数(LFPC)、子带能量、Mel倒谱系数(MFCC)、语音持续时间、小波变换(WT)、共振频率等。
一般来讲,对于特定的场所,其声音的统计规律是有一定的周期性的。例如:一个办公室的声音变化情况通常来讲会按天发生周期变化。当然,周末和节假日会有些特殊处理。对声音的某些特征进行统计分析,就希望对各统计周期中相同时段的信号进行处理,从而找到其分布规律。
一般假设声音信号在较短的时间内是平稳的。通常称这个较短的时间为帧,在语音处理中,一般取帧长为10~30 ms。统计特征直接从数据中获取,分析其统计特性。本文以声音信号的短时平均能量为例,其定义如下:
经过处理的声音信号为一组离散值{x[1],x[2],…,x[n]},定义以m为帧长的第k帧声音信号的短时能量E(k)为
2.1.3 特征分析和规律统计
将一个传感器节点置于待监测环境中,从每天相同时刻开始,采集相同时长的声音信息,得到每天的数据样本。
通过上述方法得到D天同一时刻第k帧的数据样本,带入式(1)中计算短时能量得到E1(k),E2(k),…,ED(k)。
对采集的样本的短时能量做概率统计得到如图4所示。图中发现,声音样本的短时能量主要集中在相对较小的范围内,而且短时能量的动态范围较大,难以统计其分布。
图4 短时能量概率分布图Fig 4 Short-term energy probability distribution
为此,将短时能量取自然对数后作为特征值δ来减小其动态范围
对特征值设置合理的间隔,统计间隔内特征值出现的概率,求出特征值的均值μ和标准差σ。归一化处理后相应的概率密度分布和相应正态分布如图5所示。
从图5中可以看出:实际的概率密度近似趋近于正态分布,因此,在应用和计算中可认为特征值的概率密度函数满足正态分布
图5 归一化特征值概率密度Fig 5 Probability density of normalized characteristic value
其中,μ和σ分别为特征值的均值和标准差。
对于实际的系统而言,要确定声音事件正常与否的概率比较困难,因此,可以在一定的虚警门限的条件下检测概率最大为准则[8],即采用Neyman-Person准则。根据检测系统性能的要求,指定一个虚警概率的允许值(如PF=ε),使得检测概率PD达到最大
根据正态分布的特点,得到
式中 δ0为检测门限。
实际生活中,一个突发的声音事件大约在2~5 s。因此,将所需处理的声音数据以5 s为间隔进行等分后,每5 s帧处理后计算特征值,得到该5 s特征值的方差σ2和均值μ,带入式(5)求得相应的检测门限。
实验首先要采集背景声音,节点数据采样设定单通道输入,采样频率16 kHz,采样位数16位,虚警概率PF=0.05,帧长50 ms。在实验室环境下,无外界声音干扰时,采集到相同时段的多段时长10 min的数据。
实验首先求得各段数据的检测门限,然后求检测门限的平均值,得到整个10 min的门限如图6所示。
图6 门限值分布图Fig 6 Threshold value distribution
图6中得到了10 min时段的门限,由图可知,该门限值处于一个比较稳定的范围。以此门限为标准,通过门限检测来判断相应时刻下异常声音事件的发生。
这里实验验证该门限检测的准确性:实验条件为上述实验室条件,通过传感器节点采集到400段时长10 min的声音数据,其中,200段数据人为地加入一些例如敲击或者开门等声音事件。对于无声音事件的数据希望尽可能地降低其虚警概率,而对于有声音事件发生的数据则希望提高其检测概率。上述实验数据的识别情况见表1。
表1 特征值门限检测识别结果Tab 1 Identification results of characteristic value threshold detection
实验结果表明:对于有声音事件发生的情况采用上述方法可到较高的检测率;无声音事件发生时,得到的虚警概率接近理论值。因此,采用该方法可有效判定声音事件的发生。
但在实际应用中,由于外部环境并不是固定不变的。在相对比较安静,噪声背景比较平稳的情况下,门限检测可以达到较好的检测效果。而对一些背景变化较大的地方,使用自适应算法[9]可有效提高门限稳定性和系统的可靠性,这将是下一步研究的重点。
本文提出了一种基于统计的分布式声音事件监测系统的实现方案,详细介绍了整个系统的硬件组成和检测方法,系统通过分布式传感器节点有效收集监控区域信息,对所收集到的声音信息进行特征提取,统计其分布规律,采用Neyman-Pearson准则得到相应的环境门限值,为基站进一步数据处理和信息融合提供了重要保障。
[1] 刘波霞,陈建峰.基于特征分析的环境声音事件识别算法[J].计算机工程,2011,37(22):261-263.
[2] 李舜酩,李香莲.振动信号的现代分析技术与应用[M].北京:国防工业出版社,2008.
[3] Temko A,Malkin R,Zieger C,et al.CLEAR evaluation of acoustic event detection and classification systems[C]∥Proc of the 1st International Evaluation Conference on Classification of Events,Activities and Relationships,Heidelberg,Germany:Springer-Verlag,2007:311-322.
[4] Heittola T,Klapuri A.TUT acoustic event detection system[C]∥Proc of the 2nd International Evaluation Conference on Classification of Events,Activities and Relationships,Heidelberg,Germany:Springer-Verlag,2008:364-370.
[5] 周 萍,唐李珍.基于信息融合的短语音说话人识别方法研究[J].计算机工程,2011,37(2):169-171.
[6] 罗宪华,杨大利,徐明星.面向非特定人的语音情感识别特征研究[J].北京信息科技大学学报:自然科学版,2011,26(2):72-76.
[7] 常西畅.机械设备噪声故障诊断的新进展[C]∥2002年全国振动工程及应用学术会议论文集,上海,2002:347-349.
[8] 梁 红,张效民.信号检测与估值[M].西安:西北工业大学出版社,2011.
[9] 朱 莉.连续语音关键词识别系统中自适应技术的研究[D].哈尔滨:哈尔滨工业大学,2006.