相关向量机基函数和超参的协同优化

2016-06-08 06:06张名芳郭应时程文冬
计算机应用与软件 2016年5期
关键词:对模型向量概率

张名芳 付 锐,2 郭应时 程文冬

1(长安大学汽车学院 陕西 西安 710064)2(长安大学汽车运输安全保障技术交通行业重点实验室 陕西 西安 710064)



相关向量机基函数和超参的协同优化

张名芳1付锐1,2郭应时1程文冬1

1(长安大学汽车学院陕西 西安 710064)2(长安大学汽车运输安全保障技术交通行业重点实验室陕西 西安 710064)

摘要针对传统相关向量机在训练误差、权值矩阵的稀疏性以及对数边缘似然函数零逼近之间存在冲突,提出利用受试者工作特征曲线对相关向量机参数和核函数进行协同优化。依据模型分类准确率确定合适的核函数;引入模型在5%误判率下的分类准确率,对超参边际似然函数进行改进;为保证权值矩阵稀疏最大化,通过边际似然函数阈值选取最佳相关向量组合,运用交叉验证算法以及各交叉模型的ROC曲线,对相关向量机超参进行最优估计。此外,利用车辆横摆角速度对优化模型进行测试,结果表明:所提算法训练耗时略长,但测试时间明显短于传统估计算法,且模型的分类能力得到大幅提升。

关键词相关向量机基函数超参协同优化ROC曲线

0引言

相关向量机(RVM)在支持向量机的基础上引入贝叶斯概率理论,不仅能够获得二值输出,且能够得到相应的概率值。相关向量机通过基函数确定输入输出之间的关系,而权值分布和超参决定模型泛化能力。由于相关向量机的训练测试时间会随着样本数目增多而增加,且样本数目增加后,模型的基函数和超参数目也相应的增加,致使模型的复杂度增加。为降低模型的复杂度和缩减训练耗时,詹环等[1]提出小波相关向量机,将具有良好局部特性和多尺度特性的小波作为相关向量机的基函数,小波函数的近似正交特性使模型能够快速收敛,且模型比经典的相关向量机具有更好的鲁棒性。丁二锐等[2]提出一种回归型约简多分辨率相关向量机,为提高模型的测试精度,在传统稀疏贝叶斯回归算法基础上,引入小波核和尺度核构造完备基,并对大规模的数据集进行主成分分析,约简输入集,缩短模型的训练测试耗时,并对训练集进行分层采样。文献[3]提出利用粒子群优化算法对相关向量机参数进行优化。Tipping针对相关向量机处理大样本数据集计算量多大问题,提出一种快速边缘似然估计算法。Zhong等[4]考虑到RVM处理大样本问题时需要很大开销,提出解决相关向量机处理大样本数据速度过缓的快速算法。杨树仁等分别对相关向量机的算法原理研究现状进行论述,从中提炼出相关向量机亟需解决的关键技术[5]。上述算法对于特定样本表现出一定的优越性,对于规律性不强且数据复杂度较高的问题,仅仅依赖于核函数参数的优化以及缩减模型训练集是很难达到预期识别精度的。为此,本文提出利用受试者工作特征曲线(ROC曲线)对相关向量机的基函数和超参进行协同优化。依据模型的分类准确率确定合适的基函数,并采用ROC曲线对所选基函数的带宽和模型的超参进行优化,使模型的测试能力大幅提升。

1RVM的输出方程和概率方程

tn=y(xn;w)+ξn

(1)

其中,w为权重,y(x;w)为RVM模型的输出:

y(xn;w)ΣNi=wik(xn,xi)+w0

(2)

其中,k(x,xi)为核函数,ξn为满足高斯分布的随机噪声:

ξn~N(0,σ2)

(3)

其数学期望为0,方差为σ2,是未知量,通过对模型的训练来确定σ2。根据式(1)和式(3)即可得到:

P(tn|w,σ2)=N(y(xi,wi),σ2)

(4)

在确定w和σ2时,若直接使用最大似然法,结果是w中大部分元素不为零,其稀疏特性较差,从而导致过学习。为避免此种情况,对w加上先决条件,w是随机分布在0附近的正态分布,即:

(5)

其中,αi为假定超参,于是通过式(5)可以将对w的求解转化为对α的求解,当α趋近与无穷大时,w趋于零。RVM的求解步骤分以下四步进行:

① 选择核函数;

② 初始化α和α2;

③ 迭代求解最优权重分布;

④ 预测新数据。

(6)

其中,目标集t=(t1,t2,…,tN),权重w=(w0,w1,…,wN),基函数矩阵为:

φ=(φ(x1),…,φ(xN))T

φ(xi)=[1,k(xi,x1),…,k(xi,xN)]

假定权重的先验概率满足高斯分布,式(5)为权重的先验分布。依据贝叶斯概率公式即可得到目标集的边缘分布:

p(t/α,σ2)=∫p(t/w,σ2)p(w/α)dw

(7)

其中p(t/α,σ2)=N(0,C),高斯分布的协方差为:

C=σ2I+φA-1φTA=diag(α0,…,αN)

(8)

权重w的后验概率分布为:

(9)

则权重与超参的混合表达式为:

(10)

其中,Σ=(φTBφ+A)-1,u=ΣφTBt,B=σ-2I,I为单位矩阵,相关向量机超参的边缘似然可表示为:

(11)

利用EM算法可以对隐含变量权重和核函数带宽进行迭代更新,迭代公式如下:

(12)

(13)

对于αi趋近于无穷大的相关核函数可以剔除掉,进而获得稀疏化权重矩阵。

2ROC曲线

相关向量机作为学习机器,其回归估计和分类能力直接决定了模型的适用范围,单纯依赖于基函数和超参单一优化,无法获得最佳分类器。为此,本文选用ROC曲线对相关向量机的核函数和超参进行协同优化。ROC曲线(receiver operator characteristic curve)[9,10],可以很直观地表示出分类器的性能。ROC曲线也叫受试者工作特征曲线,ROC曲线是根据一系列不同的二分类分界值或决定阈(分界值或决定域指的是值域范围内任一元素值),以真阳性率(灵敏度)为纵坐标,假阳性率(特异度)为横坐标绘制的曲线。ROC曲线评价方法适用的范围更广,该方法简单、直观,通过图示可观察分析分类器的准确性,并可用肉眼作出判断。研究人员依据相关专业知识,权衡漏判与误判的影响,选择一更佳截断点作为判断的参考值,ROC曲线能提供不同试验之间在共同标尺下的直观比较。曲线越接近左上角表明其诊断价值越大,利于不同指标间的比较。一般地,用ROC曲线下方的面积AUC的大小作为衡量分类器性能好坏的标志,AUC值一般介于0.5~1.0之间。AUC值越大,表明该分类器的性能越优良,反之,则性能较差。

3RVM的核函数和超参的协同优化

常见的核函数主要包括:线性核函数k(xi,xj)=(xi·xj);多项式k(xi,xj)=(s(xi·xj)+c)d,线性核函数可以看作多项式核函数的一种特殊情况;径向基函数k(xi,xj)=exp(-‖xi-xj‖2/2σ2);Sigmoid函数k(xi,xj)=tanh(s(xi,xj)+c),其中s,c为参数。此处通过分析不同核函数下模型回归估计准确率来确定最佳的核函数。由于核函数的类型决定核参数个数,且参数越多计算量越大。表1给出了不同核函数对车辆横摆角速度的估计准确率。

表1 不同核函数对应的模型准确率

从表1中可以看出,核函数对模型的分类准确率影响不大,而核参数对模型性能有重要影响。而取高斯核函数的模型其性能优于其他核函数,为此,选取高斯核函数作为模型的核函数。此处的高斯核函数与期望输出中高斯噪声所表达的意义不同。传统的相关向量机在处理数据时,核函数的参数取的是定值,而对于高斯核函数而言,函数的带宽对模型的性能影响较大。为此,选用遗传算法对核函数的参数进行优化,最终确定的带宽为0.5648。

相关向量机超参估计是通过式(12)和式(13)实现的。设模型在5%误判率下模型的命中概率p5%,对边缘似然函数进行改进,为保证模型快速收敛,引入常数ε,构造的边缘似然函数如下:

(14)

对于非相关向量所对应的超参αi不仅要使边缘似然函数趋近于0,且也要保证模型在5%误判率的情况下具有较高的命中概率。这样处理后,一定程度提高了模型的泛化能力,而使相关向量的个数有所增加,权值矩阵的稀疏特性受到影响。实际上,在所增加的相关向量中,大部分相关向量所对应的边缘似然函数和命中概率较为接近,在权衡权值矩阵的稀疏性和模型的命中概率基础上,通过设定边缘似然函数阈值,剔除部分相关向量使权重矩阵稀疏最大化。将试验过程中采集的车辆横摆角速度作为测试样本,对模型的性能进行测试,图1给出了模型超参优化前后对横摆角速度的估计结果。

图1 横摆角速度估计

从图1中可以看出,优化后模型对波动性较大的横摆角速度逼近效果更佳。 表2给出了优化前后模型训练测试的迭代次数,耗时和相关向量个数对比。为消除模型对测试样本的先验知识,在训练过程中,采用交叉验证算法优化估计模型参数,确定相应参数后,在利用测试样本对模型进行测试。

表2 优化前后模型对比

从表2的数据可以看出优化后模型的训练耗时、迭代次数以及相关向量个数略高于优化前模型。而在测试过程中优化后模型有更优异的表现,且无论在训练还是测试时,优化后模型的命中概率都高于优化前模型,且优化后模型的逼近效果更佳。图2为优化前后模型的ROC曲线比较。

图2 ROC曲线比较

从图2可以看出,优化后模型在任何误判率的情况下都比优化前模型的命中概率高。这也表明,优化后模型的分类能力优于优化前模型。

4结语

相关向量机核类型和核参数对模型性能产生一定影响。为获取泛化能力更强的相关向量机模型,本文利用ROC曲线对核函数以及超参进行协同优化。依据不同核函数下模型的分类准确率确定合适的核函数,并利用遗传算法对核参数进行优化。此外,在对传统相关向量机模型分析的基础上,对超参的边际似然函数进行改进。将5%误判率下模型的命中概率作为权值矩阵稀疏化的必要条件,权衡相关向量个数和命中概率,确定相应的边际似然函数阈值。通过阈值对部分相关向量进行取舍,进而保证权值矩阵稀疏最大化。最后,利用波动性较大的车辆横摆角速度对模型的性能进行测试。实验结果表明:优化后模型的训练耗时、迭代次数以及相关向量个数略高于优化前模型。而在测试过程中,优化后模型的表现优于优化前模型,且在整个误判率阶段,优化后模型始终具有更高的命中概率。

参考文献

[1] 詹环,王雪亭.小波相关向量机[J].五邑大学学报:自然科学版,2008,22(1):58-62.

[2] 丁二锐,曾平,丁阳,等.一种新的回归型约简多分辨率相关向量机[J].控制与决策,2008,23(1):65-70.

[3] 吴良海.基于粒子群优化相关向量机的无线传感器故障检测[J].制造业自动化,2010,32(11):31-35.

[4] Zhong M.A variational method for learning sparse Bayesian regression[J].Neurcomputing,2006,69(S16-18):2351-2355.

[5] 杨树仁,沈洪远.基于相关向量机的机器学习算法研究与应用[J].计算技术与自动化,2010,29(1):43-47.

[6] Tzikas D,Likas A,Galatsano N.Large scale multi-kernel RVM for object detection[M].Advances in Artifical Intelligence,Springer Berlin Heidelberg,2006.

[7] Camps G,Martnez M,ojo L,et al.Nonlinear system identification with composite relevance vector machines[J].IEEE Signal Processing Letters,2007(14):279-298.

[8] 李娜.贝叶斯分类器的应用[J].北京工业职业技术学院学报,2008,7(2):7-10.

[9] Morris B,Trivedi A.Lane change intent prediction for driver assistance:on-road design and evaluation[C]//IEEE Intelligent Vehicles Symposium (IV) Baden-Baden,Germany,June 5-9,2011:895-901.

[10] Rafael T,Miguel A,Izquierdo Z.IMM-Based lane-change prediction in highways with low-cost GPS/INS[C]//Multisenor Fusion and Integration for Intelligent System,2006 IEEE International Conference on,2006:433-438.

COLLABORATIVE OPTIMISATION OF BASE FUNCTION OF RELEVANCE VECTOR MACHINE AND SUPER PARAMETERS

Zhang Mingfang1Fu Rui1,2Guo Yingshi1Chen Wendong1

1(SchoolofAutomobile,Chang’anUniversity,Xi’an710064,Shaanxi,China)2(KeyLaboratoryofAutomotiveTransportationSafetyTechnology,MinistryofTransport,Chang’anUniversity,Xi’an710064,Shaanxi,China)

AbstractTraditional relevance vector machine has the conflict among training error, sparseness of weight matrix and zero-approaching of log marginal likelihood function. To solve this problem, in this paper we present to utilise receiver operation curve to carry out collaborative optimisation on parameters of relevance vector machine and kernel function. According to the accuracy rate of model classification we determine proper kernel function. By introducing the classification accuracy rate of model at 5 percent false positive rate we improve the marginal likelihood function of super parameters. In order to ensure the maximisation of weight matrix sparseness, we choose the optimal relevance vectors combination through the threshold of marginal likelihood function. The cross-validation algorithm and the receiver operation curves of all cross models are used to estimate the optimal super parameters of relevance vector machine. Moreover, we use vehicle yaw angular velocity to test the optimised model, results show that the training time of the proposed algorithm is a little bit longer, but the test time is obviously shorter than traditional estimation algorithm, and the classification performance of the optimised model is improved dramatically.

KeywordsRelevance vector machineKernel functionSuper parametersCollaborative optimisationReceiver operation curve

收稿日期:2014-10-16。国家自然科学基金项目(61374196,5117 8053);教育部长江学者和创新团队发展计划项目(IRT1286)。张名芳,博士生,主研领域:车辆主动安全技术。付锐,教授。郭应时,教授。程文冬,博士生。

中图分类号TP3

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.05.060

猜你喜欢
对模型向量概率
第6讲 “统计与概率”复习精讲
向量的分解
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
聚焦“向量与三角”创新题
光源对模型贴图的影响——3种人造光源在三维数字化采集中的应用
向量垂直在解析几何中的应用
蒙医开窍补肾针刺法对模型大鼠胸腺、脾脏指数的影响
蒙医催熟疗法对模型大鼠炎症因子影响的实验研究