一种基于PCA-BP神经网络的示例优选方法

2013-07-19 08:43章宗标
计算机工程与应用 2013年19期
关键词:鲁棒性示例信噪比

章宗标

浙江树人大学现代教育技术中心,杭州 310015

一种基于PCA-BP神经网络的示例优选方法

章宗标

浙江树人大学现代教育技术中心,杭州 310015

1 引言

随着网络技术、多媒体技术的迅猛发展,多媒体数据的信息量呈现出规模巨大,增长快速,质量参差不齐的特点,如何快速准确地找到感兴趣的内容,为人们在娱乐、教育等方面提供更好的服务是一个研究热点。在多媒体检索中,音频检索就成为了一个既迫切又具有挑战性的研究课题[1],得到了广泛关注。

目前音频检索可以分为两大类:一类是基于认知的,需要理解和抽象音频的具体内容,对数据源中的语义信息进行识别和标注构建索引,例如利用语音识别实现对目标词汇、说话人的检索[2],利用自动音乐标注技术识别乐曲的旋律和节拍等信息[3];另一类是基于感知的,不需要理解和识别音频的具体内容,通常采用音频例子的方式提交查询输入,即示例检索(Query by Example,QBE)。其基本原理就是比较音频例子与目标文件的特征相似程度来判断检索结果[4-6],检索方法主要有基于距离的方法、基于直方图的方法和两者相结合的算法等[7]。

通常,示例检索大多将查询示例作为一个整体进行直接检索,随着示例长度的增加,特征数据量更是呈几何级增长,致使计算代价大,检索时间长,噪声鲁棒性差,严重影响检索性能。考虑到音频文件被“污染”的情况下,抗噪能力强即信号鲁棒性高的示例比抗噪能力弱鲁棒性低的检出率高,基于此,如果能从大数据的示例中优选出对噪声具有较好鲁棒性的部分作为查询,可以充分发挥人在音频内容理解和系统在数据质量评估两方面的优势,确保示例在内容合适的同时具有较高的数据质量,有利于提高检索的召回率,而且示例优选后的数据量小,能减少用户从客户端上传示例到检索服务器的网络传输代价[8-10]。

目前,从整体上看,国内外关于示例检索的研究主要集中在检索的理论模型和实用算法上,与示例相关的研究很少,但在检索系统的实际应用中,有非常重要的意义。为此,本文提出一种基于主成分分析(Principal Component Analysis,PCA)和BP神经网络(Back Propagation Neural Network,BPNN)的示例优选方法(PCA-BPNN)。首先以信号的噪声鲁棒性评分为依据构建数据集合,使用PCA方法得到片段级特征,实现数据降维,减少BPNN输入变量,加快BPNN预测速度并提高预测精度;利用BPNN对保留成分进行建模预测,实现示例优选。实验结果表明,经过PCA筛选的输入变量用于BPNN运行时间大大减少,预测精度明显提高,通过示例鲁棒性预测分值的高低来进行示例优选是完全可行的。

2 PCA-BPNN模型

2.1 建模基本思想

音频示例优选是指从一段目标音频文件中选取最优片段作为查询示例,该示例在检索数据即使存在噪声的情况下也能获得较高的检出率。在进行示例优选时,认为原始信号受到噪声的干扰越小,即加噪信号和原始信号的变化越小,则信号的噪声鲁棒性越好。基于此,为了更准确地反映信号的鲁棒性,构建了基于PCA-BPNN鲁棒性预测模型,其基本思想如图1所示。首先通过实验测试,根据不同信噪比下加噪信号和原始信号的相似度作为鲁棒性打分,将打分较高的数据作为正例集合,打分较低的作为反例集合,采用PCA方法构造片段级特征,然后利用正反例集合来进行BPNN的学习与训练,建立鲁棒性预测模型,最后以预测模型的打分为依据,从中选取最优的一段作为示例优选结果,保证了内容代表性和系统召回率。

图1 PCA-BPNN模型基本思想

2.2 数据集合的获取

根据噪声鲁棒性分析,令示例添加不同分贝的高斯白噪声,然后分别提取原始信号和加噪信号的MFCC特征参数,计算原始信号与加噪信号的对应位置帧相似度。将不同信噪比的加噪信号的帧相似度均值作为该帧与原始信号的相似度,最后以相似度作为鲁棒性打分依据来建立数据集合,其中打分较高的数据作为正例集合,打分较低的数据作为反例集合;相似度度量采用欧式距离。

欧式距离的计算公式:

Xi与Yi分别表示两个做欧式距离比较的向量维数值,计算得到的欧式距离数值越小,说明该帧数据在加噪之后受到的影响越小,噪声鲁棒性越好。

2.3 主成分分析

根据PCA方法的基本原理[11-13],具有大变化方向的数据比有小变化方向的数据携带更多信息,因而只要寻找具有最大方差可称之为主轴的方向来表征原始数据,就可以在最小均方意义下将高维数据投影到低维空间,这样原来多维的问题就可以得到大大的简化。

其主要算法步骤如下:

(1)利用协方差矩阵度量X中存在的冗余信息,即特征之间的相关性,X的协方差矩阵Σ为:

(3)对所有的超矢量采用式(2)进行降维处理,得到段级特征。

2.4 PCA-BPNN模型

BP神经网络即反向传播神经网络,是一种适用于非线性模式识别和分类评价问题的人工神经网络,利用它来解决实际问题不需要构建数学模型,而是利用输入和输出数据通过迭代校验来寻找最优解[14-15]。因此,PCA与BPNN之间存在着互补关系,在示例的鲁棒性预测中,能够充分发挥各自的优势。

根据上述建模思想的分析,构建PCA-BPNN示例鲁棒性预测模型的结构如图2所示。首先利用PCA构造片段级的特征,把选择得到的片段特征作为BPNN的输入变量,然后根据经验和多次测试来确定BPNN的隐层神经元个数,最后计算出鲁棒性预测值作为BPNN的输出。

图2 PCA-BPNN示例鲁棒性预测模型

其中Xi=(ai1,ai2,…,aiG)表示第i段示例片段特征向量组成的超矢量集,其中ai为帧级特征;Zi=(ai1,ai2,…,aiP)表示经过PCA处理后第i段示例片段的超矢量集;Yi表示第i段示例片段的鲁棒性估计值。

3 实验仿真

3.1 PCA-BPNN预测模型训练

本文选择50组中央电视台的广告为实验数据,其中40组作为训练集,用于调整模型参数,提高预测精度;10组作为测试集,用于评价准确率。模型的训练和检测准确率采用交叉检验的方法进行验证。每组实验数据均包含12段独立且内容完整的广告,1段包含此12段广告数据的大数据音频,12段广告数据在此段大数据中各自出现很多次,且彼此之间的次数无关。对包含了12段广告数据的大数据音频进行噪声处理,分别添加0 dB、5 dB、10 dB、15 dB以及20 dB的高斯白噪声。

在示例特征提取阶段,本文提取了37维特征向量,包括13维段层次的基本特征,12维的MFCC特征值和12维的一阶差分MFCC特征值。

主要训练步骤如下:

(1)计算加噪信号和原始信号每帧特征向量距离,将得到的向量距离按由小到大进行排序归为正例集合,反之归为反例集合。

(2)将集合进行PCA处理,根据主成分的个数和归一化后的特征分别确定BPNN输入神经元的个数和输入值,将输入神经元个数设为100。

(3)将输出神经元个数设为1,隐层神经元的个数则由输入和输出神经元的个数通过测试确定。根据迭代次数和训练时间,当隐层神经元个数为35时,训练误差最小,网络结构也最为合理。

(4)根据样本和网络结构特点确定隐层和输出层的传递函数分别为tansig和logsig,网络训练函数采用trainlm,网络学习算法采用Levenberg-Marquardt算法,训练次数为10 000,训练目标位0.001,学习速率为0.36。

通过实验,PCA-BPNN预测模型的实验训练数据如表1所示。

表1 PCA-BPNN预测模型的实验训练数据

3.2 PCA-BPNN预测模型测试

本文在不考虑噪声影响以及信噪比为20 dB、15 dB、10 dB、5 dB、0 dB的情况下,对基于PCA-BPNN音频示例检索的性能进行测试,不同的信噪比通过加白噪声的方式获得。以PCA-BPNN预测模型的打分为依据,从每个广告中选取8个抗噪能力评分不同的示例,分别在原始数据和添加了不同信噪比噪声的音频数据中进行检索。统计各个示例的检出次数,如表2、表3和表4所示;计算各个示例检出率,即各个示例在不同信噪比文件中检出率的算术平均,如图3、图4和图5所示。通过对比检出率来判断示例优选方法是否有效。

表2 广告1的示例检出情况

表3 广告2的示例检出情况

表4 广告3的示例检出情况

图3 广告1的示例检出率

表2、表3、表4和图3、图4、图5是3个广告片段的不同抗噪能力评分的示例检出情况及检出率,在其他广告中的实验也获得类似的结果。从中可以看出,示例抗噪能力评分不同,对应的示例检出率也不同,并且评分高的示例比评分低的示例有更高的检出率,特别是优选示例的检出率明显高于随机选取的示例。因此,以PCA-BPNN预测模型的鲁棒性打分为依据,从中选取最优的一段作为示例优化结果,这种方法是可行的。

图4 广告2的示例检出率

图5 广告3的示例检出率

表5 不同组合的BPNN识别效果

3.3 结果分析

为了验证本文提出模型的优劣性,进行了以下实验:

(1)对比各模型的BP神经网络参数,对比数据如表5所示。

结果表明,基于所有特征参数的BPNN模型输入变量有480个,而基于PCA-BPNN模型减少到100个,大大降低了BPNN模型输入变量数,在预测过程中,BPNN模型用时2分30秒,而PCA-BPNN模型则只用时1分,预测速度显著提高。从预测的效果来看,基于所有因子的BPNN模型的预测精度比PCA-BPNN模型要差。

因此,PCA-BPNN模型无论是在BP网络的构造、识别率、训练时间强度以及误差控制等方面均优于BPNN模型,能更好地保证曲线的高度聚敛。

(2)分别在不考虑噪声影响以及信噪比为20 dB、15 dB、10 dB、5 dB、0 dB的情况下,对检索性能的算法进行测试,不同的信噪比通过添加白噪声的方式获得。不同模型在不同信噪比情况下的平均检出率,如表6所示。

表6 不同模型在不同信噪比情况下的平均检出率(%)

结果表明,在无噪声环境下,BPNN模型和PCA-BPNN模型的检出率基本相等,而随着噪声的增加,BPNN模型检出率下降较快,PCA-BPNN模型下降较为平缓,因此,PCA-BPNN模型具有较强的抗噪性能,鲁棒性更好。

(3)对比PCA-BPNN模型的段级特征和帧级特征的平均检出率,其中段长分别为L={1,2,…,8},段移分别为G={1,2,…,8},实验结果如表7所示。

由表7可见,当段长固定时,随着段移的增加,检出率逐渐降低;当段移固定时,随着段长的增加,检出率也逐渐降低;当段长、段移均为1时,等效为直接用PCA方法对帧级特征进行变换,该特征具有较高的检出率。结合表7的结果,兼顾检出率和检出速度,选取段长为6,段移为4时,段级特征的模型具有较高性能。

表7 段长和段移的实验结果(%)

4 结束语

以中央电视台的广告为实验数据,进行验证性的测试和分析。实验结果表明:PCA-BPNN模型在音频示例检索中是高效而准确的。将PCA数据分析方法与非线性BPNN模型进行有机结合,充分利用PCA与BPNN模型的优势,并应用到音频示例检索中,属于全新的研究内容;而从PCA-BPNN模型理论自身所具备的特性,这一应用是完全可行的,在实证研究中所取得的结果也充分说明了这一结论。虽取得了较精确的结果,但其是否具有偶然性还有待于进一步研究与探讨。

[1]Foote J.An overview of audio information retrieval[J].Multimedia Systems,1999,7(1):2-10.

[2]Chen B,Chen Y T.Extractive spoken document summarization for information retrieval[J].Pattern Recognition Letters,2008,29(3):426-437.

[3]Fujihara H,Goto M,Kitahara T,et al.A modeling of singing voice robust to accompaniment sounds and its application to singer identification and vocal-timbre-similarity-based music information retrieval[J].IEEE Transactions on Audio,Speech and Language Processing,2010,18(3):638-648.

[4]张卫强,刘加.网络音频数据库检索技术[J].通信学报,2007,28(12):152-155.

[5]Smith G,Murase H,Kashino K.Quick audio retrieval using active search[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.New York,USA:IEEE Press,1998:3777-3780.

[6]Kashino K,Kurozumi T,Murase H.A quick search method for audio and video signals based on histogram pruning[J].IEEE Transactions on Multimedia,2003,5(3):348-357.

[7]杨继臣,王伟凝.一种基于随机段的固定音频检索方法[J].计算机应用,2010,1(1):230-232.

[8]Kim K M,Kim S Y,Jeon J K,et al.Quick audio retrieval using multiple feature vectors[J].IEEE Trans on Consumer Electronics,2006,52(1):200-205.

[9]江星华,李应.基于LPCMCC的音频数据检索方法[J].计算机工程,2009(11):246-247.

[10]Hanna P,Robine M.Query by tapping system based on alignment algorithm[C]//Proceeding of the IEEE International Conference on Acoustics,Speech,and Signal Processing,2009.

[11]许新征,丁世飞,史忠植,等.煤与瓦斯突出的PCA-BP神经网络预测模型研究[J].计算机工程与应用,2011,47(28):219-222.

[12]蔡则苏,祝丁丁,何健.基于PCA特征提取和距离哈希K近邻分类的人脸表情识别[J].智能计算机与应用,2012,1(2):1-4.

[13]蔡红,陈荣耀.基于PCA-BP神经网络的股票价格预测研究[J].计算机仿真,2011,28(3):365-368.

[14]Shi Zelin,Kang Jiao,Sun Rui.BPNN-based method for lens distortioncorrectionoflarge-fieldimaging[J].Opticsand Precision Engineering,2005,13(3):348-353.

[15]廖凯华,徐绍辉,吴吉春,等.一种基于PCA和ANN的土壤水力性质估计方法[J].水利学报,2012,43(3):333-338.

ZHANG Zongbiao

Modern Education Technology Center,Zhejiang Shuren University,Hangzhou 310015,China

This paper proposes the example preferred method based on Principal Component Analysis(PCA)and BP Neural Network(BPNN)to solve computational cost,long retrieval time and poor noise robustness by the amount of example data in audio sample retrieval study.The paper builds the segment level features by principal component analysis,eliminates redundant data,and reduces the input variables,then models and predicts reserved ingredients by the BPNN.It tests the experimental data by the PCA-BPNN model confirmatory.Finally,experimental results show that the method can select optimization example from an audio accurately and efficiently.

Principal Component Analysis(PCA);Back Propagation Neural Network(BPNN);optimum selection of audio sample;multimedia;audio retrieval

在音频示例检索的研究中,针对示例数据量大而导致计算代价大、检索时间长和噪声鲁棒性差等问题,提出了一种基于主成分分析(PCA)和BP神经网络(BPNN)的示例优选方法。以信号鲁棒性评分为依据构建数据集合,使用主成分分析得到段级特征,消除数据冗余,减少输入变量,最后利用BPNN对保留成分进行建模预测。用PCA-BPNN模型对实验数据进行了验证性测试和分析,结果表明,该方法可以准确而高效地从一段音频中选取鲁棒性好的示例。

主成分分析;BP神经网络;示例优选;多媒体;音频检索

A

TN912.3;TP391

10.3778/j.issn.1002-8331.1212-0179

ZHANG Zongbiao.Optimum selection method of audio sample based on PCA and BP Neural Network.Computer Engineering and Applications,2013,49(19):108-111.

浙江省教育厅项目(No.Y201122220)。

章宗标(1983—),男,实验师,研究方向:多媒体技术,计算机应用。E-mail:answern@163.com

2012-12-14

2013-04-26

1002-8331(2013)19-0108-04

CNKI出版日期:2013-05-21http://www.cnki.net/kcms/detail/11.2127.TP.20130521.1030.014.html

猜你喜欢
鲁棒性示例信噪比
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
荒漠绿洲区潜在生态网络增边优化鲁棒性分析
2019年高考上海卷作文示例
常见单位符号大小写混淆示例
基于深度学习的无人机数据链信噪比估计算法
基于确定性指标的弦支结构鲁棒性评价
常见单位符号大小写混淆示例
“全等三角形”错解示例
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
基于非支配解集的多模式装备项目群调度鲁棒性优化