华北理工大学 李 爽 刘 盈
基于内容的音频检索关键技术分析
华北理工大学 李 爽 刘 盈
在我国社会经济发展的过程中,网络技术及多媒体技术也在不断的发展,网络信息资源不断的增加,信息检索技术也有了相应的创新及改革,人们已经不满足传统基于文本的检索,而是要求能够对音频、图像及视频等媒体进行快速检索,在此背景下就产生了基于内容的音频检索技术。基于内容的音频检索技术主要是在音频中将语义线索直接提取出来,从而能够根据语义线索实现检索,将检索的过程和媒体语义相互连接,有效提高检错工作的有效性及适应性。基于内容的音频检索技术目前被广泛应用到各个领域中,比如数字图书馆、远程教育、新闻节目检错、环境监测及广告娱乐节目的编辑和制作。基于此,本文就以广告检索为背景,研究基于内容的音频检索关键技术。
内容;音频检索;关键技术
人们一直使用最多的检索方式为文本信息检索,其不管是理论、技术还是实际使用,目前都较为完善及成熟。所在现代信息化的社会中,人们尝试着将目标投向了更加广阔的空间中,那就是多媒体检索,音频信息检索占据重要的比重,受到了现代人们的广泛关注。之前对于音频信息检索使用的都是人工标注的方式,也就是使用文本实现音频、视频及图像等媒体的标注,其能够概述多媒体语义信息。此种方式在某种背景下是可行的,但是在多媒体信息数量不断提高的背景下,人工标注的方式不仅提高了人工成本,并且浪费了人力资源,降低了工作效率,也无法满足人们的需求。并且由于人工标注存在主观的歧义性,导致检索结果失真[1-2]。本文所研究的基于内容的音频检索为全新的检索技术,其能够结合音频语义信息及检索过程,在短时间从大量的音频中检索出自己所需求的内容。此种检索方式是通过音频数据自身的特点作为检索的条件,从而能够有效提高检索结果的准确性及客观性。所以,基于内容的音频检索技术算法要通过计算机完成,从而实现低成本及高效率的目的。
音频信号具有多种信息,人们在不同场合中的感兴趣信息也是不同的。对于声音来说,判断语音要通过提取人类语音信号的特点实现。为了能够满足音频管理及检索的需求,就要提取音频底层特征表示,音频特征的提取主要使用数字信号处理技术,一般其分为时域、频域及时频三种分析方式[3],以下分别介绍特征音频特征的提取:
假如连续音频信号x通过采样之后得到k各采样点,在提取音频时域特征过程中,拜师每个采样点都具有此时间段音频信号中的全部信息,那么直接通过采样点实现音频特征的提取,不需要对其进行处理。使用此种方法,将采样点序列作为二维数轴,将横坐标作为时间,纵坐标作为采样点值。本节通过音频中短时平均能量时域特征进行说明。
短时平均能量指的是在短时间内音频窗口中采样点信号的平均能量,假如短时帧大小表示为N,x(n)表示采样之后的离散音频信号,那么在m个短时帧的短时平均能量可以通过下式进行计算:
E(m)=(1/n)(x(n)w(n-m))2
其中x(n)表示长度N,也就是N个采样点的窗函数。
短时平均能量能够将离散时间音频信号充分的表示出现,能够将其特点表示为以下:
首先,短时平均能量能够对纯语音信号中的浊音及清音清楚的区分,因为清音中的短时平均能量比浊音小;
另外,在音频信号信噪比较高的时候,短时平均能量能够将其中的静音部分有效区分;
最后,短时平均能量能够在时间变化过程中,将音频周期及节奏等属性充分的表现出来,短时平均能量能够直接在静音检测中使用,如果音频中的某帧平均能量比预先设置的阈值低,那么表示此帧为静音,否则不是静音。如果音频中静音帧数目较多,表示此音频为静音音频[3-4]。
音频理论表示,每个音频信号都包括不同时间、能量幅度及频率的声波,人们是由于人耳对音频信号进行感受。音频是不同频率在不同时间中的不同能量构成的,每个时间的采样信号都只表示一部分内容,音频信号中的其他信息要通过频域信息得到。将原始的音频信号时域转换为频域,可以通过傅里叶变换实现,之后将音频信号通过不同幅度及频率谐波表示,提取谐波中的特征系数。音频信号频域特征包括多种,比如频率中心、Mel频率倒谱及带宽等。传统的音频数据是一种时空信号,具有较大的分辨率,并且能够通过时空中的相关性实现数据压缩。傅里叶变换能够将时空域中的音频信号映射到频率域中,从而满足人们的听觉特征,并且还能够通过信号实现频率域冗余的数据压缩[5]。
频率中心表示频谱的分布,其在压缩域中是绝对频谱平衡频率,可以通过下式进行计算:
带宽表示频率中心及频谱成分两者的平方差能量权重的平均值平方根,通过下式进行计算:
在处理信号过程中,传统傅立叶分析在分析平衡性消耗及确定性的时候具有重要的作用,但是在现实生活中部分信号的时变性较长,比如在某段时间中具有周期信号特点,但是在某段时间中却具有噪声特点。对于此种时变较为剧烈的音频信号,只是在频谱空间中实现傅里叶分析具有较强的局限性,那么就要实现信号的时频分析。由于傅里叶变换不具有时空定位信息,所以就提出了短时傅里叶变换,从而实现时频分析,但是窗口的大小是不变的,那么之后就提出了具有可变窗口自适应时频分析,小波变换,其被广泛应用到信号时频过程中。
小波分析是现代发展的视频分析技术,其存在多分辨分析的作用,被称为数学显微镜,和三角级数、幂级数及傅里叶级数相同,小波分析是使用简单的函数能够表示任何函数[6],比如三角级数通过下式表示:
被表示的全部函数为函数空间,但是函数族就是函数空间基底,在函数展开式中系数就是此函数在函数空间的坐标,对应函数空间的点,这就如同函数从传统域到全新域中,比如讲三角级数的时空域函数变为频率域中。
不同框架和模型的音频信息算法检索都是不同的,本节对隐马尔可夫模型算法进行了分析。隐马尔可夫模型是马尔科夫模型的扩充,被广泛应用到计算机语言学方面,并且也在音频识别方面使用,还具有较大的成果。但是隐马尔可夫模型在音频检索方面使用具有较大的问题,首先是估算问题,其次是解码问题,最后是学习问题。将这三种问题换一种说法就是向前-向后算法、Viterbi算法和Baum-welch算法,这三种算法有效解决了隐马尔可夫模型中的三个问题[7-8]。比如向前-向后算法:
向前-向后算法的主要目的就是计算观察值序列和模型的,加入观察值序列为0=O1,O2,...,OT,模型为λ=(π,A,B),通过模型计算得到O的概率P(O∣λ),概率通过以下得到:
λ的给定得到S概率为:
所以得到的概率为:
通过上式可以看出来,以上运算量较大,如果在音频检索重视使用是不能够被接受的,那么向前-向后算法就被提出,其定义为:
以此可以看出来,有效降低了算法的计算量,使用VC程序实现计算结果,详见图1:
图1 向前算法的计算结果
传统音乐检索使用的都是文件标注方式,但是在语音处理技术不断发展的过程中,人们开始逐渐使用语音及音频的方式实现音频检索,此方面是基于内容的音频检索技术发展最具前景的研究方面。本节以音频检索案例说明音频检索算法的使用。
音频检索指的是从检索数据源中寻找和指定检索内容相同的音频信息,其主要是通过一般是声学特性实现分析和检索,除了音乐文件,其还能够实现雨声、飞机声及鸟叫声的检索,其包括了多种语音形式[9]。音频检索案例中的SoundSpotter系统具有一定的参考价值,其检索示意图为:
图2 SoundSpotter检索示意图
图2中是将MFCC特点为基础,对比五种检索方式:第一种为通过MFCC特征实现直接轨迹匹配;第二种为MFCC通过映射实现轨迹匹配;第三种为直接使用DTW及MFCC特征实现匹配;第四种为使用功能MFCC通过聚类实现的直方图匹配。但是轨迹匹配是在检索目标向量序列和长度相同输入特征向量序列中实现计算,两者的相似度数值为两序列向量的均值。第一种和第三种的检索率最高。
图3为动态直方图检索的过程:
图3 动态直方图检索的过程
首先,将特征向量从参考信号及输入信号中进行提取,分别得到参考特征向量技术输入特征向量;其次,将特征向量使用直方窗从输入特征向量序列及特征向量序列中进行提取,之后生成输入直方图及参考直方图,其长度和参考信号时长一样。因为直方窗不能够表示音频时序,那么可以实现字窗的划分,使用相同序列等长并且相邻的字窗表示。另外对输入直方图及参考直方图的相似度进行计算,如果相似度比阈值高,那么表示两者的位置相互匹配。之后使直方窗位置向前移动,重复以上过程。
将音频信号通过二阶时域滤波器,假如j个滤波器的输出表示为yj(k),频带j的短时能量表示为:
M为短时帧的长度,i表示帧的序号。
某帧信号的频带能量特征通过向量可以使用下式表示:
E(i)=(e1(i),e2(i),...,en(i))
如果将频带能量值域分为不同的区间,每个区间都和一个直方相互对应,之后统计频带能量的直方比率,从而得到直方图。在动态检索过程中,最简单的方法就是将音频帧作为单位,直方图在音频流中缓慢的超前移动,其子窗也逐渐的超前移动,每次移动都具有一个直方图,并且计算相似度。因为直方图交集相似度在相邻移动区间中的相似性导致移动过程中能够实现动态移动步长的改变,从而能够减少移动的次数,降低计算量,提高检索的速度[10]。图4为使用直方图算法的动态检索。
图4 使用直方图算法的动态检索
在音频检索过程中,不可避免会出现造成干扰,所以就要对其进行特殊处理,使用基于响度主分量模糊直方图的音频检索对其进行处理。平均入耳的曲线表现了响度不同的纯音频率及声压等级的联系,那么k次滤波的声压级SPL、响度级LL及衰减量C的关系为:
那么k次谐波响度表示为:
K次谐波归一化响度为:
通过上式可以看出来,归一化响度能够有效避免音量调节的问题,降低了计算过程。音频真谐波的响度值大部分都不大,较大的响度值只占据了小部分,一般响度主分量指的就是比平均水平高的信度分量,在计算直方图过程中,响度主分量的比例较小,所以极易被淡化,其值及分布能够充分表现出音频特点,所以只是使用响度主分量,能够有效提高直方图性能。在直方图计算过程中只重视非静音数据,频率分量包括强度主分量集合及其他谐波,两者在元素响度平均值中具有较大的差异。使用归一化响度音频特征检索过程中,不仅能够使检索结果更加接近人类的听觉特点,还能够有效提高抗干扰能力,提高鲁棒性[11]。
现代音频信息检索还处于理论算法研究及初步使用阶段,在全面进入到人们生活之前还要对其更加深入的研究。本文对于基于内容的音频检索技术进行了分析,使用此些技术能够有效减少数据的计算量,提高实时性能。在音频检索今后的工作中,还要创新出更多的技术,比如音乐自动标注及分析等,以此有效提高音频检索的能力及有效性。
[1]李恒峰,李国辉.基于内容的音频检索与分类[J].计算机工程与应用, 2000,36(7):54-56.
[2]苏启院.基于内容的音乐检索关键技术研究[D].华南理工大学,2011.
[3]俞鹏飞.基于内容的音频检索系统关键技术及其实现[D].复旦大学,2013.
[4]张新彩.基于内容的音乐检索技术研究与实现[D].西北大学,2009.
[5]杨会云.基于HMM-SVM的音频分类与检索索算法研究[D].重庆邮电大学, 2010.
[6]杨波.基于内容的多音音乐检索系统设计[D].武汉理工大学,2012.
[7]邓慧丽,何华.音频数据检索专利技术综述[J].科技创新与应用,2016(25):72.
[8]周姣.基于内容的音频信息检索技术[J].大科技,2017(8).
[9]王公友.基于内容的音频分析与场景识别[D].南京大学,2013.
[10]张建华,汪鑫.基于内容音频检索综述[J].商情,2012(2):215-217.
[11]尹文慧.基于哼唱内容的音乐检索技术研究[D].天津财经大学,2013.
课题项目:河北省高等学校科学技术研究项目《基于内容的音频检索关键技术研究及应用》(编号Z2015102)。