基于多尺度时长音频特征的暴力音频事件检测

2014-04-29 13:29:02徐战苍李海峰
智能计算机与应用 2014年5期
关键词:支持向量机

徐战苍 李海峰

摘要:暴力镜头检测是近年来的研究热点之一。早期的暴力镜头检测主要依赖视频特征,由于音频信息具有良好的稳定性和在不同文化和人群之间的一致性,现在人们越来越多地关注音频信息的使用。本文研究使用音频特征对电影镜头中的暴力音频事件进行检测。本文提出了一种基于多尺度时长的特征提取方法。提取了除MFCC、LPC、能量等短时特征以外,还提取了能量均值方差、子带能量均值和方差、帧间差分等长时特征。暴力镜头中出现较多且具有代表性的音频事件有爆炸、尖叫、枪击3种。本文以电影的镜头为识别单位,使用支持向量机分类算法实现了一个检测系统。通过在15部好莱坞电影上的实验,表明本文基于多尺度时长的音频特征在暴力音频事件检测工作中,能够取得较好的结果。

关键词:暴力镜头检测;多尺度时长特征;音频事件检测;支持向量机

中图分类号: TP391 文献标识码: A 文章编号:2095-2163(2014)04-

Violent audio event detection based on multi-scale audio features

XU Zhancang,LI Haifeng

( School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)

Abstract: Violence detection is one of the hot research topic in recent years. Early work mainly depends on the video characteristic, considering the audio information has good stability and consistency between different cultures and people, people are now more and more attention to the use of audio information. This paper studies using audio features to detect violent audio event in the movie. So this paper presents a multi-scale feature extraction method. The extracted features besides MFCC, LPC, short term energy also extracted the long term feature, such as the mean and variance of energy and sub-band energy, difference between frames. The audio events appeared frequently in violence scenes are explosions, screams, gunshots. Therefore, using support vector machine classification algorithm, the paper implements a detection system, to detect the violent audio event in the movie scenes. Through experiments on 15 Hollywood movies, experiments results show that the multi-scale audio features can achieve good results in the violent audio event detection work.

Key words: Violence Detection; Multi-scale Audio Features; Audio Event Detection; Support Vector Machine (SVM)

0引言

音视频中暴力与色情内容的自动分析与检测已然成为近年来研究工作的新鲜热点之一,而倍受各方关注。尤其在网络发达的今天,包含过多儿童不宜观看内容的音视频,如果只是依靠人工审核,即使耗费大量的人力及财力也难以即时发现不良信息。本文即针对电影中所包含的音频暴力片段进行研究,提出了基于音频长短时特征与统计特征相融合的组合量特征,由此而实现了一种基于音频的长短时特征与统计特征融合的暴力内容自动分析系统。

对于什么是暴力,一直没有给出过权威的定义。目前以MediaEval竞赛为标准的暴力定义[1]是:“身体暴力或事故导致的人体伤害或疼痛。”鉴于视频数据的直观、特征可分性强等优势,前期暴力检测工作的重点多是关注于视频数据的分析,Chen等就使用了平均运动强度等特征检测了打斗、流血等暴力镜头,平均识别率达到了85%[2]。Zhang、Chen等则使用了基于内容的HOF特征进行打斗场景的识别,也取得了86%的识别结果[3]。而基于暴力场景中经常采用特定音频事件来渲染气氛的特点分析,因而即进一步展开了对基于音频特征暴力场景识别的有关分析与研究。其中,由于能量熵可以反映短时间内的能量突变,Jeho和Ahmed就将其作为运动强度、火焰特征、流血特征等视频特征的辅助性能来完成基于事件的视频摘要提取工作[4]。为此,Theodoros等即使用了能量、过零率等八种音频特征对固定长度的音频段进行了暴力与非暴力的分类[5],并且取得了90.5%的识别结果。时下大多数工作也只尝试对一种或少量几种暴力音频事件进行了检测。例如,Huang等使用能量和基频特征对尖叫事件进行的检测,最终取得了86%的识别结果[6]。Pikrakis等更使用了MFCC、能量熵、基频等的统计特征进行了枪击的检测,相应地取得了90.6%的识别结果[7]。Penet又使用MFCC、能量等特征,对枪击和爆炸产生的音响进行了识别,分别取得了80%和72%的识别结果[8]。

在电影暴力内容的分析工作中,基本单位多为镜头,但每个镜头的持续时间却有所不同。因此,除了镜头内的短时音频特征,同时更要提取短时音频特征的长时统计特征,如此才能进一步体现镜头内特征的变化。与其相应地,本文即提出一种基于音频多尺度时长特征的暴力镜头中音频事件的自动分析与检测技术。

本文的主要结构安排如下:第一部分为基于长时特征以及统计特征的音频特征提取,对暴力音频事件音频特征进行分析与提取;第二部分即对实验结果进行分析;最后进行总结以及给出对下一步工作的展望。

1 多尺度时长下暴力音频特征的定义与提取方法

电影中的声音对电影信息表达起着至关重要的作用,尤其是在暴力镜头中,声音的作用更是突出。若要对音频事件进行有效的识别,就需要选择合适的特征。大多数音频场景分析通常采用短时特征,且特征所对应的音频信号单元也多为定长[9-11],如MFCC、短时过零率、LPC等特征都是研究过程的常见选择。

而电影中的镜头构成场景的声学事件多为不定长的音频片段。并且,由于音频事件差异性较大,使其持续的时长与特征也有本质不同。例如爆炸声和尖叫声、枪击声在子带能量、频谱质心和过零率等特征上均呈现不同的分布。本文中的长时特征,即为体现出特征在一段时间内的变化,可通过计算相应的统计信息而得到,具体来说包括了子带能量的均值和方差、音频能量的均值和方差、帧间的一阶以及二阶差分等。

1.1定时长短时音频特征的提取

定时长短时特征,即通过对音频信息进行预处理、分帧之后提取的每帧的特征,包括MFCC、基频、LPC、能量熵等。现在将各个特征的提取方式依次给出,具体内容如下:

(1) MFCC是将人耳听觉感知特性和语音的产生机制相结合而来,因此将更加接近人们的听觉认知习惯,已经广泛用于音频信息分析。在此,可划分26个mel频带,mel系数选取12,这样本文共提取12维MFCC特征。

(2) 基频体现的是声音的知觉特性,并且这种知觉特性在人们听闻和理解不同的声响中发挥着重要的作用。对于暴力声音,如:尖叫、枪击等来说,其音高均不相同,因此可以采用音高特征作为本文音频事件的识别特征。

(3) LPC是根据理想的声道模型计算得到的,为此根据爆炸、枪击和尖叫所发出声音的通道也是不同的,可应用LPC及其倒谱系数LPCC特征来共同确定暴力音频的声源性质。

(4) 能量熵。能量熵是一帧信号中的能量变化程度。通过将每帧音频信号分为固定长度的K个大小相同的子窗口,而对于每个子窗口i均要计算其经过标准化的能量 ,标准化过程就是将每个子窗口的能量除以整帧信号的能量,具体计算如公式(1)所示。

(1)

本文中,K=5,即每个子窗口长度为5ms,在这个时间内的信号可定义为是稳定的。

1.2变时长音频特征的提取

由于音频事件差异性较大,且持续的时长与特征多有本质不同,只是单纯提取短时特征即会造成大量信息丢失。因此本文工作中给出了根据暴力音频持续的时间差异,分析获得不同时间长度内的统计特征,包括能量谱质心和频谱质心特征、子带能量的均值和方差、音频能量的均值和方差、帧间的一阶及二阶差分等。下面将注意分列其对应的计算模型,详情如下。

(1) 能量谱质心和频谱质心特征

频谱质心是功率谱分布的重心位置,能够作为度量音频亮度的近似指标,并且不同暴力音频场景(尖叫、爆炸、枪击)会有不同音频亮度。因此频谱质心即是一种检测音频事件的有效特征。同时,不同音频事件的音频信号频谱在其频谱质心周围的分布情况也是不同的。本文计算信号在经过傅里叶变换后将统计前256个频带的 ,也就是频谱质心和能量谱质心计算如公式(2)所示。

(2)

相应地,当μ=1时,计算可得频谱质心,当μ=2时,计算得到的则是能量谱质心。

在本文中,还将计算语音信号频谱在其频谱质心周围的的分布情况的频谱散度(Spectral Spread, SS),其计算可见公式(3)。

(3)

(2) 归一化子带能量的均值和方差

子带的能量可以反映信号的不同声学特性。不失一般性,本文应用数据的采样率为8kHz。在此采样率下,划分了十六个频率子带,分别为[0-500 Hz], [500-1 000Hz], . . . , [7 500-8 000Hz],统计计算不同暴力音频事件在每个子带能量的均值和方差,再将相同子带上的能量取均值并归一化,使得各子带上的能量累加和为1,从而得到能量在不同子带上的分布。

(3) 能量均值和方差

在不同的电影中,整体的能量可能偏大或偏小。因此,为了能够使相应的识别效果具有一定的鲁棒性,即提取了一个镜头内音频能量的均值和方差。

(4) 帧间差分

通过帧间差分提取一个镜头内的特征的差异程度,体现镜头内的一个长时的变化,本文则采用HTK中计算差分的方法,对文中提取的特征计算其一阶差分和二阶差分。其中,一阶差分的具体计算公式如下:

(4)

式中, 表示当前帧, 取2。

得到一帧信号的一阶差分后,在一阶差分的基础上再进行一重差分,就得到信号的二阶差分 ,其计算公式可表述如下。

(5)

综上所述,本文中所提取特征及维数则如表1所示。

2 实验结果及分析

MediaEval 2012 Workshop[1]是目前公开的、较权威的暴力检测竞赛,该竞赛所使用的视频数据主要选自Hollywood电影。本文即采用MediaEval 2012 Workshop所提供的数据库,具体可称作VSD(Video Scenes Dataset)。

数据的预处理,主要对音频信号进行预加重,并加汉明窗。本文中数据采用帧长为25ms,帧移10ms。本文所使用数据库中包含的电影名称以及每个电影中包含特定暴力音频事件的镜头数目统计如表2所示。对于每一种音频事件皆选取4/5的镜头特征作为训练,剩余的1/5作为测试集。

表 2 各部电影中包含特定音频事件的镜头个数

Tab.2 The number of shots in movies

总镜头数 爆炸镜头个数 枪击镜头个数 尖叫镜头个数

26108 923 947 1044

评测指标采用经典AED(Audio Event Detect)中获得广泛采用的评价指标,也就是Precision、Recall、F1,其计算即如公式(6)所示。

(6)

其中, 表示Precision和Recall之间的平衡因子,本文中 =1。

本文主要设计三组实验,分别针对三种暴力音频事件和正常音频场景的识别、三种暴力音频事件之间的识别以及三种暴力音频事件和正常音频的四类问题。其中分类器采用的则是SVM[12]。

实验一:针对三种暴力音频事件和非暴力音频的识别,即爆炸和非爆炸,枪击和非枪击,尖叫和非尖叫。其中设定了5折实验,而且分别使用短时特征以及长短时特征的结合来进行实验,具体识别结果如表3、表4所示。

通过表3,表4可以看出,仅仅使用短时特征虽然能够取得较好的结果,但如果能够加入长时特征,整体的识别结果仍会得到更为显著的提升。同时,由上述实验结果也可以看出,Precision普遍较低。这以结果则与选取数据库中的暴力镜头和非暴力镜头的数量差距直接相关。

实验二:主要针对三种暴力音频事件的两两组合间的识别,以此来验证本文所提取的特征在不同暴力音频事件上的各自识别效果。此处,只是选取爆炸、枪击和尖叫的镜头进行实验。同样,本实验也是使用短时特征以及长短时特征的结合而设定了两组实验,实验结果则如表5、表6所示。

通过表5和表6可以看出,整体来说爆炸和枪击对尖叫的区分效果较好,但爆炸和枪击二者的区分却要差上一些。这可能是由二者的特性所导致,毕竟二者在发声上有较大的近似。只是进一步地,通过加入长时特征,就可以将三种暴力音频事件实现有效的区分。

实验三:四类识别。实验数据包括三种暴力音频事件镜头的特征,以及所有不包含三种音频事件镜头的特征。共四类数据。与上述实验一样,采用了5折验证,并且使用了短时特征以及长短时特征进行实验,实验结果分别如表7、表8所示。

由表7和表8可知,在进行多类的识别时,加入长时特征,也可以提高实验的识别效果。总体来说,对于当前所使用的数据库,加以客观条件所限,本文取得的结果已是较为理想。而且,对于处理不定长的音频段,利用长短时特征的融合,亦可以有效地提高相应的识别效果。

3 结束语

现阶段对于电影中的暴力检测研究仍属稀少,而且已有研究基本都采用视频数据进行对暴力镜头的检测。使用音频进行检测仍尚属罕见,尤其是暴力电影中的音频事件(爆炸、枪击、尖叫等)检测。本文使用上文中所介绍的音频特征同时对爆炸、枪击、尖叫等三种具有代表性的暴力音频事件进行了检测。取得了较好的结果:最高的为爆炸,达到了93.3%;最低的为尖叫,也达到了81%。总体来讲,本文提取的特征是有效的,而且能够产生较好的识别结果。大部分的暴力音频检测在较短的音频段进行和实现,而对电影中以镜头为检测粒度的工作及文献还较少见到,因此,对于一个镜头中的音频特征的提取和使用则是后续需要进一步深度研究的工作内容之一。与此同时,在后续的工作中还要考虑使用其他的分类算法,以在更大程度上提高研究的识别结果。另一方面,暴力音频事件的检测更是对电影中暴力镜头检测工作的一部分。因此,未来应该可以与视频特征相结合进行暴力镜头检测。

参考文献:

[1] DEMARTY C H, PENET C, GRAVIER G, et al. The MediaEval 2012 Affect Task: Violent Scenes Detection in Hollywood Movies. MediaEval 2012 Workshop, Pisa,Italy, October 4–5 2012.

[2] CHEN L H, HSU H W, WANG L Y, et al. Violence detection in movies[C]//Computer Graphics, Imaging and Visualization (CGIV), 2011 Eighth International Conference on. IEEE, 2011: 119-124.

[3]CHEN Y, ZHANG L, LIN B, et al. Fighting detection based on optical flow context histogram[C]//Innovations in Bio-inspired Computing and Applications (IBICA), 2011 Second International Conference on. IEEE, 2011: 95-98.

[4] NAM J, TEWFIK A H. Event-driven video abstraction and visualization[J]. Multimedia Tools Appl, 2002, 16(1-2):55–77.

[5] GIANNAKOPOULOS T, KOSMOPOULOS D, ANDREASARISTIDOU, et al.Violence content classification using audio features[C]//SETN, 2006:502–507.

[6] HUANG Weimin, et al. Scream detection for home applications[C]//Industrial Electronics and Applications (ICIEA), 2010 the 5th IEEE Conference on. IEEE, 2010.

[7] PIKRAKIS, AGGELOS, GIANNAKOPOULOS T, et al. "Gunshot detection in audio streams from movies by means of dynamic programming and bayesian networks[C]//Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on. IEEE, 2008.

[8] PENET, C?DRIC, et al. Audio event detection in movies using multiple audio words and contextual Bayesian networks[C]// Content-Based Multimedia Indexing (CBMI), 2013 11th International Workshop on. IEEE, 2013.

[9] CHENG W, CHU W, WU J. Semantic context detection based on hierarchical audio models[C]// Proceedings of the 5th ACM SIGMM international Workshop on Multimedia in-formation Retrieval, 2003:109–115.

[10] NAM J, ALGHONIEMY M, TEWFIK A H.Audio-visual content-based violent scene charac-terization[C]//IEEE International Conference on Image Processing, 1998:353–357.

[11]TEMKO A, NADEU C, BIEL J I. Acoustic event detection: SVM-based system and evaluation setup in CLEAR07[M]. Multimodal Technologies for Perception of Humans. Springer Berlin Heidelberg, 2008: 354-363.

[12] CHANG C-C, LIN C-J, LIBSVM : a library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2:27:1--27:27, 2011. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
中国水运(2016年11期)2017-01-04 12:26:47
基于SVM的烟草销售量预测
软件导刊(2016年11期)2016-12-22 21:52:38
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
价值工程(2016年32期)2016-12-20 20:36:43
基于熵技术的公共事业费最优组合预测
价值工程(2016年29期)2016-11-14 00:13:35
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究
考试周刊(2016年53期)2016-07-15 09:08:21