申海娟,王翾
(中国传媒大学 广播电视数字化教育部工程研究中心,北京 100024)
基于数字音频指纹的广播广告检测方法研究
申海娟,王翾
(中国传媒大学 广播电视数字化教育部工程研究中心,北京 100024)
音频信息的检索是多媒体检索技术中的一个重要方面,本文基于数字音频指纹的快速检索算法提出了一种广告检测技术,该算法将音频流分块提取数字音频指纹,然后在广告音频指纹库中粗检索,检索过程中同时得到相似广告的时间偏移及广告长度信息,进而进行完整匹配,实现了广告信息快速完整检索。为了消除音频指纹检索受采样率误差的影响,精细匹配时提出了分割匹配的方法。实验证明,该方法具有检索速度快、受采样率误差影响小的特点。
音频指纹;广告检测;采样率误差
随着广播技术、互联网技术的发展,多媒体信息传播渠道快速扩张,每时每刻增长的海量多媒体内容对多媒体信息内容监管带来巨大压力。利用计算机进行音频内容识别匹配,对关键内容进行预警为内容监管提供了一个可行的技术。
根据音频片段从海量音频数据库中快速找到与其相对应的音频信息,即音频识别,音频识别算法的研究是一个具有挑战性的研究课题。音频识别可以将任意格式的一段未知音频文件,转化为数字音频指纹后,可以在数据库中搜索并进行完整匹配,从而得到对应的元数据,实现从海量音频信息中得到对应音频的相关信息。由于音频指纹可能受到各种影响而产生一定程度的失真,并且音频数据是海量的,所以如何提高被提取指纹的鲁棒性和不同音频文件的指纹之间的可区别性是研究的重点。
本文提出了数字音频指纹的提取和检索方法,进行相关实验,验证在广播电台广告内容快速定位和检索工作中的可行性。实验证明,以此算法为基础可以实现互联网和广播音频内容自动监管,大大降低了监管人员的工作压力。
音频指纹是音频对象简短的摘要。音频指纹识别时,只须在两个相似的音频对象之间建立一种知觉平等的有效的机制,无需通过比较相对较大的音频对象本身,而是通过比较相关的指纹。因此,数字音频指纹必须具备以下性质:
(1)感知相关性。指纹中应尽可能多地包含感知相关的数据,尽可能清除感知不相关的数据,减少匹配计算复杂度和数据库容量。
(2)高效性。以相对较小的数字音频指纹实现高效的音频检索。
(3)鲁棒性。相似的音频应具有相似的数字音频指纹,并且应该有较强的抗干扰能力,音频文件可能会存在变调、MP3 与GSM 等有损压缩、由于剪切或错位引起的失真、噪声(传输噪声或加背景噪声)等。
(4)区分性。是指不同音频之间的数字音频指纹应该具有较大的差异性,不同版本相同内容的音频之间的指纹应该只存在微弱的差异性。
(5)准确性。正确识别的概率,在一定外界干扰存在下实现正确检索的比例。
3.1音频识别和检索
一个音频识别和检索系统主要包括两个模块,数字音频指纹提取模块和识别模块,图1为音频识别系统结构图。
图1 音频识别系统结构图
3.2音频指纹的提取算法
数字音频指纹是音频识别的重要部分,是决定整个音频识别系统正确率的关键因素,数字音频指纹的提取包括音频特征的选定和音频特征的数字化。音频的特征分为时域特征、频域特征和时频域特征。
时域特征提取包括短时平均能量、短时平均幅度、短时平均过零率。短时平均能量反应的是音频信号的强度,适用于静音信号的识别和检测。短时平均幅度,用于计算加权的信号绝对值之和来代替平方和,也只使用于静音的检测。短时平均过零率是指单位时间内信号值通过零值的平均次数,它说明了平均信号频率.当离散的时间信号相邻的两个取样具有不同的符号时,便出现“过零”现象.对于窄带信号,平均过零率可以比较精确的反映其特征,而在宽带情况下比较粗略,所以都不适用于语音广播电台的广告检测。
频域特征,是指音频文件在频率域的特征。J Herre[1]使用 SFM(频谱平滑度)作为特征,区分性和鲁棒性比较良好。Jin S. Seo[2]中使用一阶归一化频域子带矩作为特征,该特征虽然均衡化、噪声、电话通道过滤等具有较好抗干扰能力,但对回声及线性速度变化等鲁棒性不能满足需求。Papaodysseus[3]提出用频谱子带的频谱峰值作为特征,只有在音频文件轻微失真时才能取得良好的识别率及实时性。
时频域特征,是指时域与频域相结合的特征,对特征的描述不仅包含时域参数,而且包含频域参数,时域与频域的结合能更精确更简练的描述一段音频文件,是一种比较理想的音频特征。Shazam娱乐公司的音乐识别系统[4]采用谱峰对作为音频指纹,提高了指纹的相关性。
3.3音频指纹的检索方法
如何快速并高效地从海量数据库中进行指纹检索是基于数字音频指纹检索系统的一个重要问题,然而对音频指纹进行暴力搜索(brute-force)是不可行的。目前的音频指纹搜索算法主要分四个大类[5],如下所示:
(1)离线距离预计算
当查询音频未进入系统时,计算所有数据库中指纹与查询音频间的距离是不可能的,但可以预先对数据库中的音频指纹间的距离进行预先计算并构建一种可以提高查询指纹的检索速度的结构。Kimura[6]将数据库中的指纹预先进行分类,查询音频与距离最优的类优先匹配。
(2)文件索引式搜索
文件索引式搜索方法是一种非常有效的检索方法。Kurth[7]将音频指纹(二进制值)用码本的形式建立索引。Haitsma[8]在假设查询指纹不失真的情况下将数据库中所有歌曲中的指纹与一个查询表相关联,得到较高的效率,但当假设不成立时,效率会明显下降,此方法限制了指纹错误率,将导致虚警率升高。
(3)侯选指纹过滤
用某种较简单的相似性度量对大量不可能的侯选指纹进行快速过滤,显然增加了过滤后指纹计算量。
(4) 相似性判断[9]
保存目前相似度最高的侯选者,直到没有更高的相似度出现时就终止当前的相似性计算。
电台广播作为一种传统的大众媒体,主要以声音的形式传达给听众,所以只能通过声音的特征对电台广播内容进行实时监管,这也就要求监管方法具有高效性。对电台广播的监管主要是为了确保广播广告能够准时准确的播出,也就是广告的检测。广播广告检测流程图如图2所示。
图2 广播广告检测流程图
4.1广播广告检测算法的提出
本文提到的广告检测算法主要借鉴shazam娱乐公司的音乐识别算法,其采取时频域特征作为数字音频指纹,文献[4]中利用半重叠窗对每首歌曲做512点的FFT,从时域到频域,在时频域中提取每帧中的峰,选取峰的阈值曲线是动态变化的,阈值曲线变化依据前一帧峰值出现的位置,每一个目标峰都用其邻近峰的时间和频率关系描述自己,这些峰即是描点(目标点),阈值曲线的动态变化,以及峰值的描述都提高了音频特征的相关性。从而提高音乐识别系统的鲁棒性。
文献[4]采用倒排哈希索引算法,用hash值描述峰值,哈希值包括自身频率(F)、与相邻峰频率差(DF)和相领峰的时间差(DT)。用哈希值在哈希列表中查询,哈希列表的列为哈希值,用歌曲序列描叙哈希列表的行,行列对应处对应在对应歌曲中此峰距离对应歌曲开始点的时间偏移量。将时间偏移量最小,对应匹配点最多的音乐返回给用户。此查询算法的查询速度较快,查询准确率较高。
shazam音乐识别是一种用未知音乐的部分去检索音乐整体的算法,未知音乐是一个单独的时长较短的音频片段,每首歌曲前3秒的节奏就能确定整首歌曲,也就是说,歌曲之间有较大的差异性。基于音频指纹的广播电台广告检测是指对待检的广播电台节目音频流进行检测以匹配候选的广告音频。虽然广告音频都是一个单独的音频文件,但由于广播节目是音频流文件、包含的节目众多,且由于广告直接的差异性较小,不能用其中的部分去检索整体。因此需要提出一种改进的识别算法。本文提出一种先用部分进行粗匹配,然后进行整体匹配的算法进行广告检测。
广播中的广告时长大约在10s~30s之间,借鉴文献[4]的音乐识别方法用部分去检索整体,同时为了提高检测速度,提高检索的效率,每次取10s长的音频块,去粗配。二次匹配时,根据时间偏移在广播文件中截取与广告库中相似样本等长的音频数据,并进行分割匹配,分割后每段重复第一次匹配,段段匹配才能精确的表示广播文件中有样本文件。输出匹配的广告信息和广告位置信息。
4.2抗采样率误差的音频匹配方法
广播文件在传输或者编解码等过程中可能存在采样率误差,研究分析发现,采样率误差的存在改变来了音频文件的时频谱,采样率误差的存在将干扰音频指纹的提取结果,进而可能会干扰音频的匹配结果。这种影响有时间和频率上的累加性,即时间较长块的时频谱上的后续时间上的谱峰变化是显然的,对于较短的时间块或者较长时间块的前序部分无明显变化,由于指纹提取方法特点以及后续哈希编码过程,使这些无明显变化的频谱在检索结果中无影响。所以在整体匹配过程中我们提出了分割半重叠匹配的方法。
分割时的最小音频块长5秒,重叠半个音频块,几乎完全消除了采样率误差对广告时频谱的影响,从而消除了提取的音频指纹的误差,此方法可以区分存在采样率误差小于1%且广告内容差异3秒以内的广告文件。
本实验所采用的广告样本文件和电台广播文件都由广播电台提供,原文件的采样率为11025HZ,单声道,文件格式为.wav文件,程序语言为MATLAB语言。
首先验证本文提到的音频指纹检索方法的鲁棒性,在要监测的广告条目中叠加白噪声,信噪比为20dB,抗噪声能力实验仿真结果如图3所示,图中上部为叠加了高斯白噪声的音频频谱图,下部分为音频库中对应的音频频谱图。由仿真实验发现,在信噪比20dB时,算法匹配音频信息的能力没有改变,可以准确地检索到音频。
图3 抗噪声性能结果
改变待检索的广播广告的采样率,使其偏离原采样率1%以内,分别对两条时长30秒的广告进行同样的快速傅里叶变换后得到的频谱如图4所示。图中横轴为时间(单位为秒),纵轴为频率(单位为赫兹),我们可以从图中注意到22秒以前的的指纹无明显的不同,但其后指纹存在很大的差异。
(a)原始音频的时频谱
(b)存在50hz采样率误差的时频谱 图4 时频对比图
(a)原方法的匹配点数分布图
(b)本文提出算法的匹配点数分布图) 图5 匹配点数对比图
如图5所示,可以明显的发现,原方法仅仅只匹配上前10秒的音频指纹,而本文提出的分割重叠方法使匹配点数大量增多,从而提高检测准确性。
本文基于音频指纹的检索算法,利用音频指纹的特征,结合广播自身特点和存在的噪声类型,对已有的音乐识别算法进行改进,实现广播广告的检测的实时性和高效性。本算法不仅提高了检索速度和检索准确性,并且很好的解决了音频广告因为传输或者编解码过程中引起的微小采样率误差的影响。但本算法是以牺牲程序复杂度来换取抗采样率误差,如何简化程序复杂度是以后需要研究的重点。
[1]J Herre,E Allamanche,O Hellumth.Robust matching of audio Signal Using Spectral Flatmess Features[J].IEEE Workshop Applications Signal Processing Audio Acoustic,2001,127-130.
[2]J S Seo,M Jin,S Lee,D Jang,S Lee,C D Yoo. Audio fingerprinting based on normalized spectral subband moments[J]. IEEE Signal Process,2006,13(4),209-212.
[3]C Papaodysseus,G Roussopoulos,D Fragoulis,T Panagopoulos,C Alexiou.A New Approach to the Automatic Recognition of Musical Recordings[J]. Audio Eng Soc,2001,49(1/2):23-35.
[4]A L-C Wang. An industrial-strength audio search algorithm[C]. In Proceedings of the Fourth International Conference on Music Information Retrieval,2003:26-30.
[5]曾柏森. 基于内容的音频检索研究[D].西南交通大学,2009.
[6]A Kimura,K Kashino,T Kurozumi,H Murase. Very Quick Audio Searching:Introducing Global Pruning to the Time-Series Active Search[J]. IEEE International Conference on Acoustics,Speech,and Signal Proceedings,2001,3(3):1429-1432.
[7]Kurth F,Ribbrock A,Clausen M.Identification of highly distorted audio material for querying large scale databases[C]. In Proc AES 112th Int Conv,Munich,Germany.
[8]J Haitsma,T Kalker. An Efficient Database Search Strategy for Audio Fingerprinting[J].IEEE Workshop on Multimedia Signal Processing,2002:178-181.
[9]K Kashino,T Kurozumi,H Murase. A Quick Search Method for Audio and Video Signals Based on Histogram Pruning[J]. IEEE Transactions on Multimedia,2003,5(3):348-357.
(责任编辑:马玉凤)
The Study of Radio Advertising Detection Method Basedon Digital Audio Fingerprint
SHEN Hai-juan,WANG Xuan
(ECDAV,Communication University of China,Beijing 10024)
Audio information retrieval is an important aspect of multimedia retrieval technique,this article is based on the digital audio fingerprint of fast retrieval algorithm proposed an advertising detection technology,the algorithm will be partitioned to extract audio stream digital audio fingerprint,then coarse retrieval in audio fingerprint advertising,at the same time get similar advertising in the process of retrieval time migration length and advertising information,and then conduct a complete match,to realize the fast complete advertising information retrieval. In order to eliminate the audio fingerprint retrieval affected by the error of sampling rate,fine matching segmentation matching method is proposed. Experiments show that this method has fast retrieval,the sampling rate has the characteristics of small error.
fingerprint;advertising detection;sampling rate error
2016-06-16
申海娟(1990 -),女(汉族),河北邯郸人,中国传媒大学硕士生.E-mail:hjshen0903@126.com
TP312
A
1673-4793(2016)04-0015-05