基于KMM匹配的参数迁移学习算法*

2011-03-06 03:00:08张汗灵汤隆慧
关键词:实例领域装置

张汗灵,汤隆慧,周 敏

(1.湖南大学信息科学与工程学院,湖南长沙 410082;2.国家安全生产监督管理总局,北京 100713)

基于KMM匹配的参数迁移学习算法*

张汗灵1†,汤隆慧1,周 敏2

(1.湖南大学信息科学与工程学院,湖南长沙 410082;2.国家安全生产监督管理总局,北京 100713)

当训练数据和测试数据来自不同的领域或任务以至于训练数据和测试数据的分布不相同时,需要进行知识的迁移.本文提出一种基于实例KMM匹配的参数迁移学习方法.利用KMM算法估计每个源领域实例的权重,再利用得到的权重,把这些实例应用到基于参数的迁移学习方法中.把该迁移学习算法应用到无线网络定位问题中时,该方法的定位准确度要高于单独从实例或是从参数出发的迁移学习方法.

迁移;实例;权重;参数

数据挖掘和机器学习技术已经应用于许多知识工程技术领域[1].但是,大多数机器学习技术都存在一个相同的假设,那就是训练数据和测试数据服从相同的分布.当这些分布发生变化的时候,统计模型需要重新收集训练数据来重建,但是重新收集这些训练数据或重建这个模型的花费是比较昂贵的.我们希望能够设计出一种算法以减少重新收集训练数据所花费的开销,在这种情况下,不同任务或领域间的知识迁移或迁移学习就显得十分重要了.

迁移学习按照迁移的对象不同可以分为4类:第1类,基于实例的迁移学习算法[2-3];第2类,基于特征表征的迁移学习算法[4-5];第3类,基于参数的迁移学习算法[6-7];第4类,基于关联知识的迁移学习算法[8].这些迁移学习算法各有利弊:基于实例的迁移学习算法,迁移效果较为明显,但是它只能对非常相似的数据进行迁移;基于特征的迁移学习算法,效果不是很明显,但是它可以从很不相似的数据中迁移知识;基于模型参数的迁移学习方法是传统机器学习方法比较自然的扩展,但是这种方法是一种比较被动的方法.事实上,基于实例的迁移学习方法一般发生于模型训练之前,而基于模型参数的迁移学习方法刚好是在模型训练阶段,基于此,提出一种基于实例匹配KMM的参数迁移方法,在参数迁移方法的模型训练之前先对实例进行权重的重新估计,在模型训练阶段再采用基于参数的迁移方法,从而不仅能利用源领域数据还能利用模型训练阶段因为参数而共享的信息.一般来说,如果能更多地利用两个领域的共享信息,就能得到更好的迁移学习效果,本文提出的这种迁移学习方法,在重新估计实例的权重的同时,也从它的模型参数出发进行迁移.

1 参数迁移算法

参数迁移一般假设相关联任务的模型共享一些参数,它们都是在多任务学习框架下设计的,可以很容易地被修改成迁移学习.在多任务学习中,源数据和目标数据的损失函数的权重是一样的;相反,迁移学习中,不同领域的损失函数的权重是不一样的,为了目标领域能达到更好的性能,一般为目标领域分配更大的权重.Law rence和Platt[9]提出了一个高效的算法M T-IVM,它基于高斯过程解决多任务学习问题.M T-IVM[10]通过共享相同的GP优先在多任务学习中学习高斯过程的参数.

Evgeniou和Pontil[7]为多任务学习借鉴了分层贝叶斯的思想并把它应用到SVM s中.假设在SVM s中每项任务的参数ω可以被分成两部分,一部分是任务间共有的,另外一个是每个任务特有的,这种方法是对传统学习方法的自然扩展.因此,在本文的迁移学习框架中采用这种基于参数的迁移方法.

式中:S表示源任务;T表示目标任务;wS和w T分别为源任务和目标任务学习中SVM s的参数;w0为共有的参数;vS和vT分别为源任务和目标任务特有的参数.假定每个任务t的超平面f t=w t◦x, SVM s扩充到多任务学习中可以表示为式(3):

2 KMM算法

通过最小化期望风险来学习模型优化参数θ*.

式中:Θ为θ的取值范围;l(x,y,θ)为取决于参数θ的损失函数,由于估计概率分布P是一个很难的问题,因此选择最小化经验风险来代替:

式中:n为训练数据的大小.

在直推式迁移学习环境下,通过最小化期望风险来学习一个优化模型

但是由于在目标领域没有被标记的数据在训练时可以被观察到,因此需要从源领域数据学习一个模型来代替.如果P(DS)=P(DT),则可以简单地通过求解式(7)的优化问题来学习模型用于目标领域.

通过为每一个具有相应权重PT(xTI,yTi)/ PS(xSi,ySi)的实例(xSi,ySi)增加惩罚值,可以为目标领域学到一个精确的模型.更进一步地,既然P(YT|XT)=P(YS|XS),这样P(DS)和P(DT)之间的差异由P(XS)和P(XT)引起,并且PT(xTi, yTi)/PS(xSi,ySi=P(xSi/P xTi).如果可以为每个实例估计P(xSi)/P(xTi),则可以解决直推式迁移学习问题.Zadrozny[11]通过构造简单的分类问题来分别估计P(xSi)和P(xTi).

本文采用Huang等人提出的核均值匹配算法(KMM),通过在核希尔伯特空间(RKHS)匹配源领域和目标领域的平均值来直接学习P(xSi)/P(xTi). KMM可以表示为式(9)的二次规划优化问题.

式中:K S,S和K T,T分别为源领域数据和目标领域数据的核矩阵,

xi∈XS∪XT,xTj∈XT.可以证明βi= P(xSi)/P(xTi)[3].采用KMM的优点是它可以避免P(xSi)和P(xTi)的密度估计,当数据集很小的时候密度估计是很难的.

3 基于KMM的参数迁移算法

3.1 参数迁移回归

在软边缘支持向量回归框架下,基于参数迁移的学习问题为式(10):

3.2 风险估计

KMM的风险估计通过两点来说明,一是对于期望风险l(x,θ):=Ey|x l(x,y,θ),利用系数βi得到一个低偏差的风险估计;二是随机变量∑iβi l(xi,yi,θ)集中于∑iβi l(xi,θ)附近.

不等式右边具有上限Cε.

假设l(x,y,θ)也可以通过〈Φ(x,y),Θ〉来表示,其中‖Θ‖≤C,‖Φ(x,y)‖≤R.与M:= m2/‖β‖2,则可以得到式(16):

式(17)表明:最小化重新估计权重后的训练样本集的经验风险将以很大概率就是最小化测试样本集上的期望风险的上限.由于核均值匹配KMM产生的风险存在一个上限,并且基于参数迁移的支持向量回归问题通过上面的推导可以看出它最终还是一个普通的支持向量回归问题,而支持向量回归本身就是基于经验风险最小化原则的,它的经验风险能够趋向其期望风险.从而在本文的迁移学习过程中,风险函数也能够存在一个上界.

4 实验及仿真结果

在室内无线局域网定位问题中[12],它的目标是基于以前收集到的无线局域网数据来检测用户的当前位置.一个大规模的环境里校准无线局域网数据建立定位模型是费用非常昂贵的,因为用户需要在每一个定位处标记大量的无线网络数据,而一段时间或一种装置训练好的模型将会引起另外一段时间或另外一种装置的定位估计性能的下降.为了减少重新校准的精力,希望能够把一段时间训练好的模型用于另外一段时间,或一个移动装置训练好的模型用于另外一个装置.

在实验中,将本文的迁移学习方法应用到这种无线局域网定位问题中,当对于两种不同的装置获得的定位标记数据,需要利用A装置的标记数据来帮助B装置所获得的数据的标记,这可以看成是两个任务的学习或是不同领域之间的迁移学习问题.由于两个设备不一样,因此两者所获得的数据分布是不一样的.这些数据是从64 m×50 m区域107个位置得到的训练测试数据,在每个位置每个设备获得20个样本.对于每个设备,随机地把数据一半用于训练,一半用于测试,实验的效果用平均错误距离来衡量.

首先,在求β时,在核分类或回归中,要用到一个高斯核函数,-‖xi-xj‖2/σ,σ取9,其他参数.图1和图2为X轴和Y轴上的平均错误距离与B装置的训练数据量多少的关系,图中纵坐标单位为m,实线表示的是本文的迁移学习方法(KMM regularized),虚线为基于参数的迁移学习方法(regularized),点划线为基于实例的迁移学习方法KMM.从图中可以看出,当只用到B装置的很少一部分数据即取全部数据的10%时,用本文的迁移学习方法得到的X轴和Y轴上的平均错误比原来两种迁移学习方法都要小很多,随着B装置的训练样本的增大,3种迁移学习方法的效果渐渐相差不大,当B装置的样本达到30%时,这3种迁移学习方法的结果都达到趋向最好的效果.可见,本文的迁移学习方法相对于原来单独的迁移学习方法能取得更好的迁移效果,特别是当目标领域的样本数比较少时,效果更明显.

图1 X轴的平均错误距离Fig.1 The average error distance of X-axis

图2 Y轴的平均错误距离Fig.2 The average error distance o f Y-axis

但是当B装置的样本超过30%时,本文的迁移学习方法与原来的单独迁移学习方法的效果相差不大,这是因为当B装置的样本数量达到一定程度时,即使不通过迁移学习仅仅利用B装置的这些已标记样本也能获得较好的学习效果.这时,迁移也就没必要了.

另外,本实验是在512M内存的机器上采用MATLAB进行仿真实验.经过10次运行,本文的迁移学习方法的平均时间消耗为800 s左右,基于实例的迁移学习KMM方法的平均消耗时间为680 s左右,而基于参数的迁移学习方法所消耗的平均时间为1 800 s左右.因此,本文的算法在提高了学习性能的情况下并没有付出相对过多的时间代价.

5 结 论

本文提出了一种基于实例匹配KMM的参数迁移学习方法,该方法能够在模型训练之前利用源领域实例来迁移知识,同时在模型训练阶段利用参数来迁移共享的信息,从而能够比较充分地利用两个领域或是两个任务之间的共同信息.通过对无线局域网定位实验可以看出,本文的迁移学习方法的定位准确度要明显高于单独从实例或是从参数出发的迁移学习方法,尤其是当目标领域数据特别少时.

在以后的工作中,可以把这种方法应用到像文本分类,网页自动分类以及图像识别等领域中.

[1] PAN S J,YANG Q.A su rvey on transfer learning[J].IEEE T ransactions on Know ledge and Data Engineering,2010,22 (10):1345-1359.

[2] DA IW,YANG Q,XUE G,et al.Boosting for transfer learning[C]//Proceedings of the 24 th International Conference on Machine Learning,Oregon:ACM,2007:193-200.

[3] HUANG J,SMOLA A,GRETTON A,eta l.Correcting sample selection bias by unlabeled data[C]//Proceedings of the 19th Annual Conference on Neu ral Information Processing Systems,San Jose,CA,DS:ACM,2007:1133-1138.

[4] DA IW,XUEG,YANG Q,eta l.Co-clustering based classification for out-of-domaindocumen ts[C]//Proceedings of the 13th ACM SIGKDD International Conference on Know ledge Discovery and Data M ining,California:ACM,2007:210-219.

[5] ARGYRIOU A,EVGENIOU T,PON TILM.M u lti-task feature learning[C]//Proceedingsof the 19th Annual Conference on Neu ral Information Processing Systems,Vancouver, British Columbia,Canada,M IT Press,2007:41-48.

[6] SCHWA IGHOFER A,TRESP V,YU K.Learning gaussian p rocesskernels via hierarchical bayes[C]//Proceedings of the 17th Annual Conference on Neural Information Processing Systems.Cambridge,M A:M IT Press,2005:1209-1216.

[7] EVGENIOU T,PONTIL M.Regularized multi-task learning [C]//Proceedings of the 10th ACM SIGKDD International Conference on Know ledge Discovery and Data M ining,Seattle,W ashington:ACM,2004:109-117.

[8] M IHALKOVA L,MOONEY R J.T ransfer learning by mapping w ithm inimal targetdata[C]//Proceedingsof theAAA I-2008 Wo rkshop on Transfer Learning for Complex Tasks, Chicago,Illinois:AAA I,2008:31-36.

[9] LAWRENCE N D,PLATT JC.Learning to learn with the informative vectorm achine[C]//P roceedingsof the 21st International Conference on Machine Learning.Banff,A lberta: ACM,2004:512-519.

[10]BONILLA E,CHA I K M,WILLIAMSC.Multi-task gaussian process prediction[C]//Proceedings of the 20th Annual Conference on Neu ral Information Processing Sy stems.Cambridge,MA:M IT Press,2008:153-160.

[11]ZADROZNY B.Learning and evaluating classifiersunder sample selection bias[C]//Proceedings of the 21st International Conference on Machine Learning,A lberta:ACM,2004:903-910.

[12]ZHEN VW,PAN S J,YANG Q,etal.T ransferringmu ltidevice localization models using latent mu lti-task learning [C]//Proceedingsof the 23rd AAA IConference on A rtificial Intelligence,Chicago,Illinois:AAAI,2008:1427-1432.

KMM-based Learning A lgorithm for Parameter Transfer

ZHANG Han-ling1†,TANG Long-hui1,ZHOU M in2

(1.College of Computer and Communication,H unan Univ,Changsha,H unan 410082,China; 2.State Adim inistration o f Work Safety,Beijing 100713,China)

A majorassumption in many machine learning algorithm s is that the training dataand testing data have the same distribution.However,inmany real-world app lications,this assumptionmay nothold. T ransfer learning add resses this p rob lem and utilizes plenty of labeded data in a source domain to so lve related but differentproblem s in a targetdomain.This paper proposed a parameter-transfer learningmethod based on KMM(KernelMean M atching)algorithm.First,we weighed each source instance using KMM and then applied the rew eighted instances to the learningm ethod based on parameters.We app lied this method to the localization of w ireless network.Experiment results have dem onstrated that the proposed method outperform s themethods based on instances or param eters,especially when the target training data are relatively few.

transfer;instance;weighing;parameters

TP18

A

1674-2974(2011)04-0072-05 *

2010-08-18

国家林业公益性行业科研专项经费资助项目(201104090);长沙科技计划项目(K 1003046-11)

张汗灵(1968-),男,湖南邵阳人,湖南大学副教授

†通讯联系人,E-mail:zhang_hl2002@hotmail.com

猜你喜欢
实例领域装置
领域·对峙
青年生活(2019年23期)2019-09-10 12:55:43
SBS装置VOCs排放控制探讨
轰趴装置指南
Coco薇(2017年10期)2017-10-12 19:43:59
一种新型消除PT二次回路压降的装置与应用
干熄焦装入装置的改进
新疆钢铁(2016年3期)2016-02-28 19:18:55
新常态下推动多层次多领域依法治理初探
完形填空Ⅱ
完形填空Ⅰ
肯定与质疑:“慕课”在基础教育领域的应用
3D 打印:先进制造领域的必争之地
杭州科技(2013年5期)2013-03-11 16:40:59