基于免疫遗传优化支持向量机的普米语孤立词语谱图分类

2019-01-22 11:55董华珍潘文林王翠和丽华杨建香解学琴
关键词:适应度语音向量

董华珍,潘文林,2,王翠,和丽华,杨建香,解学琴

(1.云南民族大学 数学与计算机科学学院,云南 昆明 650500)(2.云南民族大学 云南省高校物联网应用技术重点实验室,云南 昆明 650500)

普米族主要分布在云南省的兰坪、宁蒗、永胜、丽江等县和迪庆藏族自治州的中甸、维西和德钦等县,约22 000人;四川省木里、盐源以及九龙等县,约有25 000人;近年来由于受汉族文化和“大杂居小聚居”民族居住状况的影响,标准普米语语音逐年受到各类语言的严重侵蚀,保护和传承普米族语言文化已迫在眉睫[1].以云南省兰坪县河西区箐花公社录制的普米语孤立词为研究对象,借助语谱图研究其特征,最终实现普米语孤立词分类.

1 语音识别相关研究工作

目前,语音识别的方法可以归结基于语音信号和基于语谱图2种.

1) 基于语音信号的方法.语音信号是一种非线性随机并存在混沌的机制,就目前而言处理这种机制的模型主要语音信号的线性模型和非线性模型两种.线性模型的理论基础是确定性线性系统理,而非线性模型则视语音信号为一些调幅—调频信号的叠加,其核心是瞬时频率.在此之前本团队基于语音信号的普米语语音识别,已取得了一些成果[2-4].

2) 基于语谱图的方法.语谱图被称为“可视化的语音”,二维平面上水平方向是时间轴,垂直方向是频率轴,坐标点值为语音数据能量,采用二维平面表达三维信息,颜色的深浅反映了语音能量值的大小.由于语谱图的可视性较强,人们借助语谱图完成了一系列的语音处理工作.潘凌云等[5]凭借语谱图,利用自适应阈值技术寻找每个音素段的边缘,实现了音素的分割.宋洋[6]提取语谱图的边界特征和二值特征作为语谱特征,通过构造BP神经网络实现维吾尔语音素分类.唐闺臣等[7]通过提取语谱图中的Hu不变矩特征、纹理特征和部分语谱特征,基于SVM实现了对语音情感的分类.向建军等[8]将语谱图的频域图矩阵进行投影后的值作为特征值,并利用SVM实现2字汉语词汇语音识别.Steinber等[9]通过将语谱图进行小波变换,对语谱图边缘进行分割,实现了语音的识别.Ajmera等[10]利用Radon变换(RT)和离散余弦变换(DCT)从语谱图中提取有效的声学特征,实现与文本无关的说话人识别.Y Li[11]借助语谱图提取LBP向量,利用动态时间调整(DTW)算法实现LBP向量的最佳匹配,实现了说话人识别.Sain[12]通过提取语谱图的数据驱动特征,使用标准方差来定义语谱图的特征,实现了语音分类,且鲁棒性较高.

普米语孤立词语谱图分类属于模式识别领域[13].目前,常用模式识别算法主要有:神经网络(ANN)[14]、k-近邻分类器(KNNC)[15]、支持向量机(SVM)等.神经网络(ANN)、k-近邻分类器(KNNC)进行模型训练时需要大量训练样本.此外,神经网络(ANN)是基于经验风险最小化,面临“过学习的风险”问题.SVM是建立在统计学理论的VC维理论的结构风险最小化准则基础之上,有很强的学习能力和泛化能力;针对有限小样本情况,SVM可以得到现有信息下的最优分类模式;算法最终转换为一个凸2次规划问题,可以得到全局最优解[16].

各个独立核的惩罚参数c和核函数参数g的确定将直接影响到SVM的分类效果.目前,各种不同的现代智能优化方法被广泛应用于模式识别的参数优化当中,例如粒子群算法(PSO)[17]、遗传算法(GA)[18]和模拟退火算法(SA)[19]等.这些算法在实际应用中有着各自的优缺点:PSO算法逼近最优解速度快,但在处理复杂的多峰搜索问题时,局部寻优能力较差;GA算法具有良好的并行搜索能力,但由于存在染色体的趋同效应产生早熟现象;SA算法有较强的串行搜索能力,但收敛速度慢.免疫遗传算法(IGA)[20]是在GA的基础上发展起来的,它在保留GA随机全局并行搜索优点的同时,避免了GA中早熟现象的不利影响.

为了提高支持向量机的分类精度以及泛化能力,本文在对支持向量机中核函数性能进行分析的基础上,实现基于免疫遗传优化支持向量机的普米语孤立词语谱图分类.

2 支持向量机(SVM)

C-SVM是比较常见的二分类支持向量机模型,接下来将对C-SVM以及核函数进行详细介绍.

2.1 二分类支持向量机(C-SVM)

1) 设已知一个训练集:

T={(xi,yi),…,(xl,yl)}∈(X×Y)l.

(1)

其中,xi∈Rn,yi∈{-1,1},xi(i=1,…,l)是特征向量,yi是类别标签,yi对应第i个输入的特征向量xi.

2) 选取适当的参数C和核函数K(xi,xj),并构造如下最优模型:

(2)

2.2 核函数

SVM中通过引入核函数,可以有效避免高维内积运算.在支持向量机中,常用核函数主要包括以下4种:

1)线性核函数:K(X,Y)=K(X,Y);

2)多项式核函数:K(X,Y)=(X·Y+c)d;c为常数,d为多项式阶数;

3)高斯径向基核函数:K(X,Y)=exp(-γ‖X-Y‖2), ‖X-Y‖是X-Y的2阶范数,c为常数;

4)两层感知器核函数:K(X,Y)=tan(ν(X,Y)-c),c为衰减参数,ν是刻度.

3 基于免疫遗传优化支持向量机的语谱图分类

由于每个孤立词语音信号音频的不同,因此,每张语谱图中频率的情况也就不同.为此,需要对每张语谱图进行预处理:将语谱图转化为二值图像,采用迭代最优阀值法截取图像中包含特征的最大区域,并将区域转化为16×16大小的图片.最终,语谱图频域的位置像素点灰度值为1,其他位置灰度值为0.本文将提取普米语孤立词语谱图的二值特征,每张语谱图的特征是16×16维.

首先将原始数据分为训练集和测试集,由于对语谱图进行标准化处理,所以无需对数据进行归一化处理,之后利用训练样本对SVM模型进行训练,由得到的模型可以预测测试集对应的分类标签,基于支持向量机的普米语语谱图分类流程如图1所示.

3.1 选定训练集和测试集

从语料库中挑选普米语孤立词80个,每个孤立词读5遍,总计得到400条普米语孤立词语音.并将这400条语音经过傅里叶变换生成语谱图.从这400张语谱图中随机选择320张作为训练集,80张作为测试集.提取每张语谱图的二值特征,得到用以描述每个孤立词语谱图的一个16×16矩阵.

3.2 核函数的比较

对于相同的测试集,4种核函数的预测分类准确率如图1所示.

表1 4种核函数的预测分类准确率

实验结果表明,采用径向基函数作为SVM的核函数,预测分类准确率最高.

3.3 网格法选择最优参数

在上述核函数的对比实验中,SVM中的c(惩罚参数)和g(核函数参数)是凭测试经验给定的,因此,需要对参数进行优化.在使用SVM进行分类时,一般是使用网格法对参数c和g进行优化,图2为SVM的分类结果.x轴表示log2(c)的值,y轴表示log2(g)的值,等高线为取相应的log2(c)和log2(g)值后,与之对应的分类准确率.图2从实验结果图可以得出,当log2(c)的范围缩小到[2,4],log2(g)的范围缩小到[-4,-3]时,在上述粗略选择的基础上再利用SVMcgForClass(Libsvm中的函数,可对参数进行优化)选择更好的参数.最终,网格法优化分类准确率为89%,此时c=5.278,g=0.062 5.

3.4 免疫遗传算法寻找最优参数

在采用网格优化参数的过程中只能找到局部最优参数.由于免疫遗传算法在遗传算法中加入了免疫算子,能有效避免未成熟收敛问题.随机全局并行搜索的特点,又保留种群中高适应度的抗体,因此免疫遗传算法被用于该模型参数的全局寻优在免疫遗传支持向量机(SVM)中,利用IGA优化惩罚参数c和核函数参数g.首先以c和g构造抗体初始向量:X=[c,g],为了使SVM的实际输出与期望输出之间的误差平方和达到最小,定义SVM训练样本分类准确率E(xi)作为适应度函数f(xi),且f(xi)=E(xi).其中,f(xi)为第i个抗体的适应度,E(xi)表示第i个抗体对应的支持向量机的交叉验证的分类平均正确率.IGA-SVM具体步骤如下,流程图如图3所示.

1)确定抗原、抗体、最大迭代次数及种群浓度阈值;

2)计算当前抗体群的浓度及每个抗体的适应度,对当前种群中抗体的适应度由高到低进行排序,选出适应度最高的抗体并保留;

3)若抗体群的抗体数目大于种群规模,则去除适应度较低的抗体,以维系抗体群规模不变,否则继续下一步;

4)若抗体群的浓度小于或等于阈值,则将保存的抗体替换适应度最小的抗体并转入下一步;否则对当前抗体群中的适应度相同的抗体进行免疫接种,并随机产生种群规模的40%的个体加入到当前抗体群中;

5)计算当前抗体群中的每一个抗体的适应度;

6)根据抗体的适应度算出相应的选择概率,接着进行选择、复制操作;

7)对抗体群进行相应的交叉、变异操作;

8)若满足满足终止条件,则停止程序;不满足,则返回(2),继续执行.

基于IGA-SVM的普米语孤立词语谱图分类准确率如图4所示,从图4可以看当c=4.594 8和g=0.062 5时,分类准确率可以达到91%.

4 结语

本文选用普米语孤立词为研究对象, 采用径向基函数做了2组对比实验.基于网格法,得到了最优参数c=5.278,g=0.062 5,分类准确率为89%; 基于IGA-SVM,得到最优参数c=4.594 8,g=0.062 5分类准确率为91%.因此,免疫遗传算法是普米语孤立词语谱图分类最有效的方法.

猜你喜欢
适应度语音向量
改进的自适应复制、交叉和突变遗传算法
向量的分解
聚焦“向量与三角”创新题
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
一种基于改进适应度的多机器人协作策略
向量垂直在解析几何中的应用
基于空调导风板成型工艺的Kriging模型适应度研究