基于SVM的录音设备分类研究

2016-10-11 09:15杜状状高冲红童茜雯
无线电通信技术 2016年5期
关键词:录音音频向量

丛 韫,杜状状,高冲红,童茜雯,郑 义,仲 倩

(南京工程学院 通信工程学院,江苏 南京 211167)



基于SVM的录音设备分类研究

丛韫,杜状状,高冲红,童茜雯,郑义,仲倩

(南京工程学院 通信工程学院,江苏 南京 211167)

为解决音频取证中私录音频由何种录音设备所录的问题,针对不同设备所采用的压缩算法不同,就会导致录音信号中蕴含着区别于其他录音设备的个性特征,本文从压缩算法出发,提出了一种基于SVM对录音设备的分类方法。首先获取不同录音格式的音频,然后针对音频分别用MATLAB对其求改进MFCC倒谱参数,接着选定测试集和训练集,使用交叉验证方法得到倒谱数据的最佳参数,之后用训练集对SVM进行训练,再用得到的模型来预测测试集的分类标签。通过仿真与实验,结果表明,该方法能够较好的区分不同压缩算法下的音频特性,平均识别率达97%。

音频取证;压缩算法;改进MFCC;SVM;交叉验证

0 引言

随着数字媒体技术在日常生活中的使用和普及,国内外音频证据在法庭证据、案件调查中出现的次数越来越多,所占比重也越来越大。录音的来源往往是首先会关注的问题,尤其是录音文件由何种录音设备录制,这是录音文件具有合法性的前提。由于录音设备种类繁多,而且在录制过程中易受到环境和说话人特征的影响,国际上对录音设备识别的研究还较少。在国外,Kraetzer、Bucholz等人和Garcia-Romera以及Espy-Wilson、Malik、Cemal对这方面展开了研究,国内南京大学声学所、司法部司法鉴定科学技术研究所也对此展开了研究。以上这些研究,并未从算法出发分析录音设备的内在特征。本文从压缩算法出发,提出了一种基于SVM的录音设备分类方法,在解决音频取证中对录音设备的识别研究提供了方向,值得进一步深入探索。

1 特征提取方法

音频信号采用改进MFCC进行分析处理,具体步骤如图1所示。对信号进行预处理,分帧、加窗,一般设一段语音存在X中,X长为N,采样频率Fs,帧长L,后一帧对前一帧位移量S,则将长为N的语音信号进行分帧,如式(1)所示:

Fn=(N-L)/S+1,

(1)

式中,x(m)为语音信号,w(m)为单位冲击响应,n为整数。

加窗实际上就是乘以一个窗函数,窗函数如式(2)所示,在分帧时会有一定程度的帧移,加窗是为了增强连续性,然后进行FFT快速傅里叶变换,得到每帧信号的频谱。式(2)求平方,得到每帧信号的功率谱:

(2)

图1 提取改进MFCC的方案

根据每个通道的截止频率截取Mel频率尺度对Mel滤波器组进行归一化,然后对Mel组进行归一化,并对Mel滤波器组的输出数据进行归一化。将Mel滤波器组的输出数据变换到对数域,再作离散余弦变换得到MFCC参数,结果如式(3)所示。式中N为三角滤波器个数,Xk为第K个滤波器的输出,Ci即为所求的MFCC参数,P为其阶数。

(3)

2 分类方法

2.1支持向量机基本原理

支持向量机的主要思想是建立一个分类超平面作为决策平面,使得正例与反例之间的隔离边缘被最大化。支持向量机的理论基础是统计学习理论,更精确地说,支持向量机是结构风险最小化的近似实现。这个原理基于这样的事实:学习机器在测试数据上的误差率(即泛化误差率)以训练误差率和一个依赖于VC维数(Vapnik-Chervonenkis dimension)的项的和为界,在可分模式情况下,支持向量机对于前一项的值为零,并且使第二项最小化。因此,尽管它不利用问题的领域内部问题,但在模式分类问题上支持向量机能提供好的泛化性能,这个属性是支撑向量机特有的。

支持向量机经历了从二维分类到多维分类的发展过程,多维分类原理十分复杂,但是原理与二维分类原理相似,因此可以用线性可分的情况进行说明,基本思想如图2所示。假设图中有两类样本,分别用实心点和空心点表示;H代表将两类样本最大程度间隔开的分类线;H1、H2分别为过各类中离分类线最近的样本,且平行于分类线的直线,它们之间的间隔叫做分类间隔。所谓最优分类线,就是要求分类线不但能将两类正确分开,而且使分类间隔最大。引申到高维度分类问题中,能够以最大间隔、最大限度分离两类样本的超平面就是最优超平面。

图2 分类平面示意图

支持向量机的体系结构如图3所示,其中x(i)为支持向量,x为输入空间抽取的向量,K为核函数,其种类主要有:① 线性核函数(Linear):K(x,xi)=xTxi;② 多项式核函数(Polynomial):K(x,xi)=(γxTxi+r)p,γ>0;③ 径向基核函数(Radial basis function):K(x,xi)=exp(-γ||x-xi||2),γ>0;④ S形函数(sigmoid):K(x,xi)=tanh(γxTxi+r)d。

图3 支持向量机的体系结构

2.2SVM模型构造

SVM模型建立首先需要从原始数据里把训练集和测试集提取出来,进行一定的预处理,之后用训练集对SVM进行训练,再用得到的模型来预测测试集的分类标签,算法流程图如图4所示。

图4 模型总体流程

2.2.1选定测试集和训练集

本文选取总样本数的4/5作为训练样本集,数据预处理后通过多次训练求得支持向量并构造SVM模型,其余1/5作为测试样本集,通过代入SVM模型检验对测试样本的分类正确率,即模型的泛化能力。

2.2.2数据预处理

样本数据中包含的先验信息会对分类器的性能测试结果与测试数据的实验效果产生直接的影响,因此有必要对数据进行归一化处理,采用的归一化映射如下:

式中,x,y∈Rn,xmin=min(x),xmax=max(x),归一化的效果是原始数据被规整到[0,1]范围内,即yi∈[0,1],i=1,2.……n,这种归一化方式称为[0,1]区间归一化。

2.2.3交叉验证寻求最优参数

本文用SVM做分类预测时需要用到惩罚系数c和径向基核函数参数g,采用LIBSVM3.20工具包使用交叉验证的方法寻求最优参数,以得到比较理想的预测分类正确率。交叉验证是用来验证分类器性能的一种统计分析方法,基本思想是在某种意义下将原始数据进行分组,一部分作为训练集,另一部分作为验证集。其方法是首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以得到的分类准确率作为评价分类器的性能指标。采用交叉验证的思想,可以有效地避免过学习和欠学习状态的发生,最终对于测试集合的预测得到较理想的正确率。

3 测试方案

3.1数据采集

本实验收集了10种不同的语音,手机设备和具体录音格式如下:华为:m4a;oppo:wav、mp3和amr;三星:amr和m4a;魅族:mp3;小米:mp3;vivo:3gpp;联想:ogg;每个手机设备录一段音频,每段音频60s左右。

3.2实验结果与分析

对于改进MFCC的提取方案如图1所示,具体表达式如式(3)所示。下面以小米手机为例展开说明,将小米手机录的语音信号导入到PC端通过matlab进行处理,进行分帧、加窗,帧长为400ms,帧移为260ms,窗函数采用汉宁窗,提取500组24维的改进MFCC特征参数,图5为提取的MFCC倒谱图。

在提取的5 000个样本中,其中1~500属于第1类(类别标签为1),501~1000为第2类(类别标签为2),1001~1500为第3类(类别标签为3),以此类推,4501~5000为第10类,现将每个类别分为2组,重新组合数据,一部分作为训练集,一部分作为测试集。通过交叉检验的方法获得最佳参数为c=2.2974,g=4,参数选择结果图如图6所示,x轴表示c取以2为底的对数后的值,y轴表示g取以2为底的对数后的值,等高线表示取相应的c和g后对应的CV方法的准确率。3D视图如图7所示。

图5 小米手机倒谱图

图6 参数选择结果图(等高线图)

图7 参数选择结果图(3D视图)

运用上文选择的最优化参数对测试样本进行预测,即选用c=2.297 4,g=4,基于训练样本数据train_data提取相应的标签train_data_labels建立模型svmtrain,系统的输出结果如下所示:

optimization finished,#iter=192

nu=0.033 472

obj=-12.648 015,rho=-0.445 306,

nSV=52,nBSV=10,

Total nSV=2 012,

Accuracy=96.9% (969/1 000) (classfication)。

接着对测试样本进行预测,得到的分类正确率为97%,分类结果如图8所示,即1 000个样本中有31个样本识别错误,因此基于SVM的录音设备分类方法具有较高的准确率,能够准确地识别出对应录音格式的手机设备。

图8 测试集的分类结果图

4 结束语

为解决音频取证中私录音频由何种录音设备所录的问题,针对不同设备所采用的压缩算法不同,就会导致录音信号中蕴含着区别于其他录音设备的个性特征,本文从压缩算法出发介绍了一种基于SVM对录音设备的分类方法,使用交叉验证的方法获得样本数据最优参数,并给出了提取语音信号特征参数改进MFCC和构建SVM模型进行训练分类的具体流程,实验测试过程中,该方法在准确性方面满足一定的要求。综合来看,本文的方法具有较好的参考价值。

[1]Vapnik V.Statistical Learning Theory[M].New York:Wiley,1998.

[2]Cortes C,Vapnik V.Support-Vector network[J].Machine Learning,1995,20:273-297.

[3]Boser B,Guyon I,Vapnik V.ATraining Algorithm for Optional Margin Classifiers[C]//ACM press:In Proceeding of the Fifth Annual Workshop on Computerional Learning Theory,1992:144-152.

[4]Hsu C W,Lin C J.AComparsion of Methods for Multi-class Support Vector Machines[J].IEEE Transactions on Neural Network ,2002,13(2):415-425.

[5]Lin C J.Formulations ofSupport Vector Machines:a Note from an Optimization Point of View[J].Neu-ral Computation,2001,13(2):307-317.

[6]张庆,刘丙杰.基于PSO和分组训练的SVM参数快速优化方法[J].科学技术与工程,2008,8(16):4613-4616.

[7]杨杰,郑 宁,刘 董,等.基于遗传算法的SVM带权特征和模型参数优化[J].计算机仿真,2008,25(9):113-118.

[8]张小艳,李 强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345.

[9]范昕炜,杜数新,吴铁军.粗SVM分类方法及其在污水处理过程中的应用[J].控制与决策,2004,19(5):573-576.

[10]陈光英,张千里,李 星.基于SVM分类机的入侵检测系统[J].通信学报,2002,23(5):51-56.

[11]雷英杰,张善文,李续武,等.MATLAB工具箱及应用[M].西安:西安电子科技大学出版社,2005.

[12]张雪英.数字信号处理与MATLAB仿真[M].北京:电子工业出版社,2010.

Recording Equipment Classification Study Based on SVM

CONG Yun,DU Zhuang-zhuang,GAO Chong-hong,TONG Qian-wen,ZHENG Yi,ZHONG Qian

(School of Communication Engineering,Nanjing Institute of Technology,Nanjing Jiangsu 211167,China)

To solve the problem of which kind of recording equipment is used for private audio recorded in audio forensic,the article presents a classification method for recording equipment based on SVM embarking from the compression algorithm,which is based on the fact that the recorded signals from different devices with different compression algorithms contain personality characteristics different from other recording devices.Audios in different format are collected at first.Then its improved MFCCs are extracted respectively by MATLAB and testing and training sets are selected.Then Cross Validation method is used to get the optimal parameters of cepstrum data.The SVM is trained with the training set and the classification label of the testing set is predicted with the model obtained.The simulation and test results show that the method can distinguish audio features among different compression algorithms better,and the average recognition rate is 97%.

audio forensic;compression algorithm;improved MFCC;SVM;Cross Validation

10.3969/j.issn.1003-3114.2016.05.17

引用格式:丛韫,杜状状,高冲红,等.基于SVM的录音设备分类研究[J].无线电通信技术,2016,42(5):68-70,84.

2016-05-09

江苏省大学生创新创业训练项目(201511276004z)

丛韫(1995—),女,本科,主要研究方向:信号与信息处理。仲倩(1995—),女,本科,主要研究方向:信号与信息处理。

TN912.3

A

1003-3114(2016)05-68-3

猜你喜欢
录音音频向量
向量的分解
聚焦“向量与三角”创新题
Funny Phonics
funny phonics
Listen and Choose
Listen and Color
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
音频分析仪中低失真音频信号的发生方法
向量垂直在解析几何中的应用