一种基于统计的分布式声音监测系统研究

2013-10-22 07:25陈建峰常跃跃

传感器与微系统 2013年7期

程飞，陈建峰，马驰，常跃跃

（西北工业大学航海学院，陕西西安 710072）

0 引言

目前，公共场所使用的监控装置主要由视频监控设备组成，绝大多数不具有声音采集与监控功能。在多个视场频繁切换的过程中，值班人员容易产生疲劳，难以辨认存在安全隐患的地点。同时，单纯的视频监控受到光线、视角等因素的限制，无法有效地对环境进行全天候的实时监控，在许多情况下监控不全面，贻误救援时机。

由于在一定的环境中，声音往往是反映人类行为的重要特征［1，2］，比如:敲门声、爆炸声、脚步声等各种环境声音。因此，对声音事件进行有效地探测和识别，可以有助于分析人类的行为。目前，环境声音识别技术的研究已开展多年，国际上为此设立每年一度的声音事件识别竞赛CLEAR［3，4］，对其进行应用研究越来越受到重视。一些国家已经进行了相关的应用尝试。2006年，荷兰警方在街道安置麦克风和摄像机联合安防，通过计算机进行监测并预警。2007年，新加坡资讯信息研究所研制犯人在狱室内的行为监测系统，通过声音监控狱室内的活动情况，避免斗殴等恶性事件的发生，获得成功应用。

人们在声音事件识别方面取得了一定的进展，初步建立了用于声音事件识别的数据库，确定了声音事件识别系统的评估方法。但在实际生活中，对环境声音识别技术的应用尚不普及。而且对于单节点传感器而言，无法对大范围的环境进行监测，只能有选择地针对特定的范围进行检测。在多声源存在时，容易发生干扰和误判，无法有效判断声音来源。

本文提出一种基于统计的分布式声音事件监测系统，该系统通过传感器节点的分布式布防，感知监控区域的声音信息。采用基于统计的检测方法，并联合摄像机进行视频确认，以满足实际的监控需求。

1 系统组成与工作方式

如图1所示，一个分布式声音事件监测系统由基站、中继和多个分布式传感器节点构成。

图1 系统结构框图Fig 1 Block diagram of system structure

基站主要由PC机和监控软件组成。根据情况，基站和中继之间可通过无线或有线网络传输声音特征信息、视频信息和控制命令。基站将接收到的声音特征信息进行显示、存储、分析和识别等相应处理，为异常声音事件的判定提供依据。

中继主要由无线射频模块、数据处理模块、网络通信模块和电源组成。中继处附带有网络摄像机、转台及控制模块，可控制摄像机360°全方位转动，监控异常情况。

传感器节点主要由声音传感器、放大电路、单片机、无线射频模块、电源构成，具体组成框图见图2。

图2 传感器节点系统组成框图Fig 2 Composition block diagram of sensor node system

传感器节点首先将环境声音转换为电信号，然后经过放大滤波、MSP430单片机A/D采样，最终将特征提取的数据通过无线射频模块发送到中继。

传感器节点按照一定的地理位置布防，节点位置精确已知。为了满足节点的机动性，将其设为较低的发射功率以降低功耗。这时通信距离仅数百米。为此，专门设置中继（Sink node）来将节点的数据传送到数公里外的基站（base station）。

系统工作方式:系统初始化完成后，启动传感器节点。基站通过中继向传感器节点发出工作命令，传感器节点开始监控周围环境，分析采集数据，提取特征，并通过中继将特征值传给基站。基站处建立节点信息数据库，同时计算并更新节点处的环境背景门限。基站通过一系列的规则判定是否有异常声音事件出现。当判断出有异常情况时，控制摄像机转向相应节点部署区域进行观察，同时向基站返回视频图像信息。

2 基于统计的声音事件检测方法

除了语音识别技术外，对环境声音的分类和识别技术的工程应用尚不普及。一些略有相关的应用包括:利用语音进行话者识别［5］、情绪鉴别［6］、利用机械振动进行故障诊断［7］等。

在利用语音进行人的情绪鉴别时，通过对语音信号中若干与情绪有关特征的分析、对比，建立起各种情绪语音的特征库，利用相应的判决准则和分类器对语音情绪分类。

在计算机辅助机械故障诊断时，通过对特定机械振动的声音或振动信号进行采集、时域频域处理后，与正常情况下的结果进行对比，通过建模、统计等方法进行判定。

以上技术虽涉及对不同声音的分类识别，不过其均有明确的声源，便于聚类，能够形成较为集中的类别和模型。然而环境声音种类繁多，复杂多样，来源广泛，模型难以建立，没有一个完整、确定的集合，上述方法难以胜任。

为此，本文拟从环境中直接训练模型，通过对其代表性特征，如短时能量和短时过零率等特征进行统计，形成判别“正常”与“异常”的准则，而不直接去分辨究竟是什么类型的声音，以此来进行异常事件监测。然后，当发现某些声音被检测出异常后，通知摄像头转向事发地点进一步确认。当然，也可利用以往的方法对其进行精细地分类识别，以判断其严重性。

2．1 模型的建立

模型建立框图如图3。

图3 模型建立框图Fig 3 Block diagram of model set up

2．1．1 预处理

预处理包括了信号的放大、滤波、采集，在必要时再进行数字滤波，对于环境声音，需要在以下几部分重点考虑:

1）动态范围:由于声音事件的动态范围较大，需要既能探测到微弱的声音，如脚步声等，也能获取巨大的声响，如爆炸声等。因此，在设计声音前置放大电路时需要选取合理参数的传感器。

2）采样频率:由于环境声音频带较宽，因此，为确保信息能比较完整地采集下来，采样频率应不低于16 kHz。

3）A/D精度:16位以上的A/D可以获得比较良好的效果。

2．1．2 特征提取

在绝大多数识别问题中，选取适当的特征对最终的识别效果影响很大。目前，常用的各种声音信号的统计特征有短时能量、短时过零率、短时自相关、线性预测编码（LPC）、线性预测倒谱系数（LPCC）、对数频率能量系数（LFPC）、子带能量、Mel倒谱系数（MFCC）、语音持续时间、小波变换（WT）、共振频率等。

一般来讲，对于特定的场所，其声音的统计规律是有一定的周期性的。例如:一个办公室的声音变化情况通常来讲会按天发生周期变化。当然，周末和节假日会有些特殊处理。对声音的某些特征进行统计分析，就希望对各统计周期中相同时段的信号进行处理，从而找到其分布规律。

一般假设声音信号在较短的时间内是平稳的。通常称这个较短的时间为帧，在语音处理中，一般取帧长为10～30 ms。统计特征直接从数据中获取，分析其统计特性。本文以声音信号的短时平均能量为例，其定义如下:

经过处理的声音信号为一组离散值{x［1］，x［2］，…，x［n］}，定义以m为帧长的第k帧声音信号的短时能量E（k）为

2．1．3 特征分析和规律统计

将一个传感器节点置于待监测环境中，从每天相同时刻开始，采集相同时长的声音信息，得到每天的数据样本。

通过上述方法得到D天同一时刻第k帧的数据样本，带入式（1）中计算短时能量得到E1（k），E2（k），…，ED（k）。

对采集的样本的短时能量做概率统计得到如图4所示。图中发现，声音样本的短时能量主要集中在相对较小的范围内，而且短时能量的动态范围较大，难以统计其分布。

图4 短时能量概率分布图Fig 4 Short-term energy probability distribution

为此，将短时能量取自然对数后作为特征值δ来减小其动态范围

对特征值设置合理的间隔，统计间隔内特征值出现的概率，求出特征值的均值μ和标准差σ。归一化处理后相应的概率密度分布和相应正态分布如图5所示。

从图5中可以看出:实际的概率密度近似趋近于正态分布，因此，在应用和计算中可认为特征值的概率密度函数满足正态分布

图5 归一化特征值概率密度Fig 5 Probability density of normalized characteristic value

其中，μ和σ分别为特征值的均值和标准差。

2．2 门限设定

对于实际的系统而言，要确定声音事件正常与否的概率比较困难，因此，可以在一定的虚警门限的条件下检测概率最大为准则［8］，即采用Neyman-Person准则。根据检测系统性能的要求，指定一个虚警概率的允许值（如PF=ε），使得检测概率PD达到最大

根据正态分布的特点，得到

式中 δ0为检测门限。

3 实验处理

实际生活中，一个突发的声音事件大约在2～5 s。因此，将所需处理的声音数据以5 s为间隔进行等分后，每5 s帧处理后计算特征值，得到该5 s特征值的方差σ2和均值μ，带入式（5）求得相应的检测门限。

实验首先要采集背景声音，节点数据采样设定单通道输入，采样频率16 kHz，采样位数16位，虚警概率PF=0．05，帧长50 ms。在实验室环境下，无外界声音干扰时，采集到相同时段的多段时长10 min的数据。

实验首先求得各段数据的检测门限，然后求检测门限的平均值，得到整个10 min的门限如图6所示。

图6 门限值分布图Fig 6 Threshold value distribution

图6中得到了10 min时段的门限，由图可知，该门限值处于一个比较稳定的范围。以此门限为标准，通过门限检测来判断相应时刻下异常声音事件的发生。

这里实验验证该门限检测的准确性:实验条件为上述实验室条件，通过传感器节点采集到400段时长10 min的声音数据，其中，200段数据人为地加入一些例如敲击或者开门等声音事件。对于无声音事件的数据希望尽可能地降低其虚警概率，而对于有声音事件发生的数据则希望提高其检测概率。上述实验数据的识别情况见表1。

表1 特征值门限检测识别结果Tab 1 Identification results of characteristic value threshold detection

实验结果表明:对于有声音事件发生的情况采用上述方法可到较高的检测率;无声音事件发生时，得到的虚警概率接近理论值。因此，采用该方法可有效判定声音事件的发生。

但在实际应用中，由于外部环境并不是固定不变的。在相对比较安静，噪声背景比较平稳的情况下，门限检测可以达到较好的检测效果。而对一些背景变化较大的地方，使用自适应算法［9］可有效提高门限稳定性和系统的可靠性，这将是下一步研究的重点。

4 结束语

本文提出了一种基于统计的分布式声音事件监测系统的实现方案，详细介绍了整个系统的硬件组成和检测方法，系统通过分布式传感器节点有效收集监控区域信息，对所收集到的声音信息进行特征提取，统计其分布规律，采用Neyman-Pearson准则得到相应的环境门限值，为基站进一步数据处理和信息融合提供了重要保障。

［1］刘波霞，陈建峰．基于特征分析的环境声音事件识别算法［J］．计算机工程，2011，37（22）:261-263．

［2］李舜酩，李香莲．振动信号的现代分析技术与应用［M］．北京:国防工业出版社，2008．

［3］ Temko A，Malkin R，Zieger C，et al．CLEAR evaluation of acoustic event detection and classification systems［C］∥Proc of the 1st International Evaluation Conference on Classification of Events，Activities and Relationships，Heidelberg，Germany:Springer-Verlag，2007:311-322．

［4］ Heittola T，Klapuri A．TUT acoustic event detection system［C］∥Proc of the 2nd International Evaluation Conference on Classification of Events，Activities and Relationships，Heidelberg，Germany:Springer-Verlag，2008:364-370．

［5］周萍，唐李珍．基于信息融合的短语音说话人识别方法研究［J］．计算机工程，2011，37（2）:169-171．

［6］罗宪华，杨大利，徐明星．面向非特定人的语音情感识别特征研究［J］．北京信息科技大学学报:自然科学版，2011，26（2）:72-76．

［7］常西畅．机械设备噪声故障诊断的新进展［C］∥2002年全国振动工程及应用学术会议论文集，上海，2002:347-349．

［8］梁红，张效民．信号检测与估值［M］．西安:西北工业大学出版社，2011．

［9］朱莉．连续语音关键词识别系统中自适应技术的研究［D］．哈尔滨:哈尔滨工业大学，2006．