网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20150317.1025.002.html
一种新颖的领域自适应概率密度估计器
许敏1,2,俞林2
(1.江南大学 数字媒体学院,江苏 无锡 214122; 2. 无锡职业技术学院 物联网技术学院,江苏 无锡 214121)
摘要:传统概率密度估计法建立好密度估计模型后,无法将源域知识传递给相关目标域密度估计模型。提出用无偏置v-SVR的回归函数来表示传统概率密度估计法获得密度估计信息,并说明无偏置v-SVR等价于中心约束最小包含球及概率密度回归函数可由中心约束最小包含球中心点表示。在上述理论基础上提出中心点知识传递领域自适应概率密度估计法,用于解决因目标域信息不足而无法建立概率密度函数的场景。实验表明,此种领域自适应方法进行领域间知识传递的同时,还能达到源域隐私保护的目的。
关键词:概率密度函数;无偏置v-SVR;中心约束最小包含球;核心集;领域自适应
DOI:10.3969/j.issn.1673-4785.201312041
中图分类号:TP391.4 文献标志码:A
收稿日期:2013-12-20. 网络出版日期:2015-03-17.
基金项目:江苏省高校自然科学研究资助项目(13KJB520001);江苏省高校哲学社会科学基金资助项目(2012SJB880077);江苏省研究生创新工程资助项目(CXZZ12-0759).
作者简介:
中文引用格式:许敏,俞林. 一种新颖的领域自适应概率密度估计器[J]. 智能系统学报, 2015, 10(2): 221-226.
英文引用格式:XU Min, YU Lin. A probability density estimator for domain adaptation[J]. CAAI Transactions on Intelligent Systems, 2015, 10(2): 221-226.
A probability density estimator for domain adaptation
XU Min1,2, YU Lin2
(1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. School of Internet of Things Technology, Wuxi Institute of Technology, Wuxi 214121, China)
Abstract:This paper proposes that the density information received from the traditional probability density estimation method can be represented by no bias v-SVRregression function. It addresses the problem that after the source domain's probability density estimation model is established using the traditional probability density estimation method its source domain knowledge can not be transferred to the relevant target domain's density estimation model. In this paper, no bias v-SVR is equivalent to the center-constrained minimum enclosing ball (CC-MEB) and the probability density regression function is constrained by CC-MEB's center point is described. On the basis of the above theory, an adaptive probability density evaluation method for transferring knowledge through the center point was put forward to solve the problem that an accurate probability density estimation model can not be established because of the lack of information of the target domain. The experiments showed that this adaptive method can reach the goals of knowledge transfer between domains and privacy protection in the source domain.
Keywords:probability density estimation; no bias v-SVR; center-constrained minimum enclosing ball(CC-MEB); core set; domain adaptation
通信作者:许敏. E-mail:xum@wxit.edu.cn.
概率密度估计常见的做法是根据所得数据建立概率密度函数(probability density function, PDF),在机器学习和模式识别中具有非常重要的作用[1],如聚类分析[2]等。通常概率密度估计法分参数估计和非参数估计2类。因真实数据概率密度分布不可知,故非参数核密度估计法(kernel density estimation, KDE)[3]是采用较广泛的方法。因KDE需要所有样本参与计算且需存储所有数据,故压缩集概率密度估计器[4]和快速压缩集概率密度估计器[5]被提出以解决存储空间和运行效率问题。上述传统的概率密度估计法效果显著但均未考虑领域间自适应学习的问题。在实际应用中存在这样的场景,已有源域数据集数据量大、密度估计精确;但相关目标域数据集由于隐私保护或数据遗失等原因只获得少量数据,这些数据是目标域真实信息但却不足以建立目标域PDF。如何既保证目标域已知数据对建立目标域PDF的作用,又能利用源域知识对目标域信息不足部分加以弥补是本文研究的重点。
1DADE模型
1.1DADE模型理论依据
领域自适应概率密度估计器的应用前提是存在两相关领域,两域通过传统密度估计法,如Parzen窗法获得概率密度估计值,形成(x,y)对。其中,x是输入向量,y是概率密度估计值。源域(x,y)对足以构建概率密度函数,而出于隐私保护或数据遗失等原因,一些高度机密的数据无法获得,所得少量目标域(x,y)信息精确,但不足以构建目标域概率密度函数。
传统密度估计法本身不能进行领域间知识传递,本文的贡献在于使用无偏置v-SVR回归函数表示概率密度函数,这样做的优势在于:
1)无偏置v-SVR等价于CC-MEB的特性,可使用核心集[6-8]代替源域所有数据建立概率密度函数,提高密度估计效率;
2)密度回归函数f(x)可由CC-MEB中心点表示,提出中心点知识传递模型[9],实现相似领域间领域自适应概率密度器的建立,若使用源域核心集代替所有源域样本表示源域中心点,还可起到源域隐私保护的目的。
1.2DADE模型架构
设训练集T={(x1,y1),…,(xl,yl)},其中输入向量xi∈Rn,输出向量yi∈Y=R为概率密度估计值,i=1,2,…,l。本文用无偏置支持向量回归函数y=wTφ(x)建立概率密度估计函数,与传统v-SVR相比,没有b项,文章下面部分介绍无偏置v-SVR。
1.2.1无偏置v-SVR
无偏置v-SVR试图寻找Rn上的一个实值函数g(x),以便使用y=g(x)来推断任一输入x所对应的输出值y。通常训练集在输入空间线性不可分,故引入映射函数φ(x)将xi映射到高维空间φ(xi)中。 无偏置v-SVR原始优化问题如下:
(1)
式中:(*)表示向量有*号和无*号2种情况。为导出原始问题(1)的对偶问题,引入拉格朗日函数:
(2)
为了使式(2)最小化,对L关于向量w和变量ε、ξi(*)求偏导数,得
(3)
(4)
(5)
将式(3) 、(4)带入式(2),可得对偶优化问题:
(6)
最终所得回归函数:
(7)
1.2.2无偏置v-SVR与CC-MEB
1)CC-MEB
(8)
(9)
使用最优解β,可得到半径R、中心点c的值:
(10)
因为βT1=1,任意实数η加入公式,不会影响β的取值。原对偶形式改为
(11)
文献[6]指出,任意满足式(11)的QP问题均能看作CC-MEB问题,可运用核心集快速算法求解。把整个数据集合S的求解转化成对S的一个子集Q的求解,可得到一个精确有效的近似解,其中Q被称为核心集。具体方法参见文献[6]。
2) 无偏置v-SVR与CC-MEB间关系
(12)
(13)
式(13)为无偏置v-SVR的QP形式,与式(11)相比较,求Δ的值:
(14)
式中:实数η足够大,以使Δ≥0。式就可以写成
(15)
按式(15)求解,球心c可按下面公式计算:
(16)
式(3)中的w就可简化为w=λc。故
(17)
由式(17)可获得以下两结论:
1)无偏置v-SVR等价于CC-MEB,故可用核心集技术进行快速求解;
2)概率密度回归曲线可由其二次规划形式等价的CC-MEB的中心点表示。
1.2.3DADE模型
从1.2.2节分析可知,无偏置v-SVR等价于CC-MEB,概率密度函数由CC-MEB中心点表示。在此理论基础上,本文提出通过学习源域中心点将源域知识传递给目标域,构造学习源域知识且与目标域无偏置v-SVR等价的CC-MEB,此CC-MEB的中心点可用于目标域概率密度函数的建立。
学习源域中心点的CC-MEB原始问题如下:
(18)
引入拉格朗日乘子变量,在约束条件下构造式(18)的拉格朗日函数:
(19)
由最优化理论可知,式(19)在鞍点处取极值,在鞍点处L关于变量c和R的偏微分:
(20)
将(20)代入(19),该问题的对偶形式为:
(21)
(22)
2实验与分析
2.1实验设置
本文实验将本文所提算法与如下3个方面的回归函数进行性能对比:1)直接使用源域数据构建概率密度回归函数; 2)直接使用包含少量信息的目标域数据构建概率密度回归函数;3)使用源域、目标域数据共同构建概率密度回归函数。从而来体现本文所提算法的优势。
实验环境为:IntelCore2 2.40GHzCPU, 2.39GHz、1.94GBRAM,WindowsXPSP3,MATLAB7.1。
2.2实验结果与分析
为了利用源域知识弥补当前场景下信息过少造成受训系统泛化能力下降之缺陷,模拟数据集的构造需遵循以下原则:1)源域和目标域之间既有很大相似性,又存在区别;2)已知的目标域数据集(x,y)是精确的,但由于样本过少,不能构建出概率密度估计回归函数。
为了表征上述原则,首先生成样本数较多且能精确表示概率密度分布均值为0、方差为1的源域数据集,需指出的是文章1.2.2节说明无偏置v-SVR与CC-MEB等价且概率密度函数可由CC-MEB中心点组成,若源域有数据隐私保护的需要,还可通过核心集技术,求得源域数据集的核心集,由少量核心集元素表示源域CC-MEB的中心点,进行迁移学习。另一方面,为了表示目标域与源域相近但不同,目标域设置时对均值、方差进行漂移,分均值、方差、均值方差均漂移3种情况,如表1所示。
表1 数据源描述
由于隐私保护等原因,目标域获得信息量少且精确,但不足以构建目标域概率密度函数。图1(a)虚线显示了均值为0、方差为1.1时目标域真实概率密度分布图,图1(b)显示了此种情况下目标域自适应学习效果图。图2将本文所提算法与另外3种训练方法进行比较。
(a) 源域、目标域概率密度分布图
(b)自适应学习效果图 图1 均值为0、方差为1.1自适应学习效果图 Fig.1 Charts of adaptive learning on the data set with mean 0, variance 1.1
(a)源域性能
(b)目标域性能
(c)源域目标域合并性能
(d)自适应学习性能 图2 原始图像和退化仿真图像 Fig.2 Performance comparison charts of different algorithms
表2列出了设置目标域不同均值方差后各算法的性能。
表2 不同算法性能比较
生成均值为0、方差为1源域样本10000个,如图1(a)所示,实线表示源域概率密度函数曲线,使用核心集技术获得源域的核心集由13个空心圆表示,源域知识只需知道模型参数和这13个样本点即可获得。虚线表示均值为0、方差为1.1的目标域真实概率密度函数曲线。由图1(a)可以看出,源域、目标域分布近似但不相同。图1(a)中5实点表示目标域已知信息,为了体现数据隐私保护的目的,文中实验选取的5个样本均在[-1,1]之外。点划线表示由这5个点获得的目标域概率密度函数曲线。由图可知,虽然已知信息精确,但信息过少不能反映目标域真实概率密度分布。图1(b)显示了不同μ值自适应学习效果图,随着μ值的增大,目标域概率密度曲线向目标域真实分布靠拢。此种自适应学习的优势在于,既可保证目标域已知信息精确表示,又可通过源域知识对未知信息进行自适应学习,极大提高目标域概率密度估计性能。
根据表2和图 2,可给出如下的观察:
1) 从表2可知,本文提出的DA-PDF算法充分利用目标域已知信息的同时,学习了源域知识,较之于两域各自训练、合并训练所得概率密度估计函数具有更好的性能。
2) 对图2(a)可知,若直接使用源域概率密度估计函数对现有测试集进行密度估计,效果不理想,其原因在于目标域与源域密度分布已发生变化(源域方差为1,目标域方差为1.1),这种变化导致若继续使用源域模型进行预测,其预测性能不好,无法达到与目标域实际情况逼近的效果。
3) 对图2(b)可知,由于在当前场景下采集的数据数量较少,虽然这些数据真实可靠,但对于构建整个概率密度估计函数信息量过少,故密度估计性能低下。
4) 对图2(c)可知,使用源域数据与目标域数据结合后生成的概率密度估计函数,其性能提升不明显。原因在于源域数据较之目标域收集到的数据,数据量大,因此在模型训练时,其所占的比重也大,故得到的概率密度估计函数最终更偏向于源域数据所得模型。合并训练另一缺点是需要源域所有数据参与模型的建立,但一些高度机密的历史数据通常难以获取,若源域有数据隐私保护的需要,此种方法则无法实现。
5) 从图2(d)可知:本文方法较之图2(a)有更好的逼近效果;与图2(b)相比,可利用源域知识较好地弥补目标域信息不足的缺陷;与图2(c)相比,不仅逼近程度有明显改进,且本文方法只需要历史知识(历史模型参数)以及目标域数据,并不需要源域数据作为训练数据,因而在隐私保护方面也体现了较大优势。
3结束语
本文采用无偏置v-SVR对已知概率密度(x,y)对进行概率密度函数建模,并证明无偏置v-SVR等价于CC-MEB且概率密度回归函数可由CC-MEB中心点表示,以此为前提,提出中心点领域自适应学习的概率密度估计函数建模思想,解决多领域相关联且某一领域信息较少无法构建概率密度函数的问题。本文所提方法不需要大量源域数据的支持,仅是继承历史知识(源域中心点),且允许当前领域信息较少,不但能够根据历史知识进行当前领域的信息补偿,又能对源域数据进行隐私保护,这些特性是传统概率密度估计方法所不具备的。通过合成数据的仿真实验表明本文方法较之于传统方法具有更好的适应性。
参考文献:
[1]VAPNIKVN.Statisticallearningtheory[M].NewYork:JohnWileyandSons, 1998: 35-41.
[2]吉根林, 姚瑶. 一种分布式隐私保护的密度聚类算法[J].智能系统学报, 2009, 4(2):137-141.
JIGenlin,YAOYao.Density-basedprivacypreservingdistributedclusteringalgorithm[J].CAAITransactionsonIntelligentSystems, 2009, 4(2):137-141.
[3]PARZENE.Onestimationofaprobabilitydensityfunctionandmode[J].TheAnnalsofMathematicalStatistics, 1962, 33(3): 1065-1076.
[4]GIROLAMIM,HEC.Probabilitydensityestimationfromoptimallycondenseddatasamples[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2003, 25 (10): 1253-1264.
[5]DENGZH,CHUNGFL,WANGST.FRSDE:Fastreducedsetdensityestimatorusingminimalenclosingballapproximation[J].PatternRecognition, 2008, 41(4):1363- 1372.
[6]TSANGIW,KWOKJT,ZURADAJM.Generalizedcorevectormachines[J].IEEETransactionsonNeuralNetworks, 2006, 17(5): 1126-1140.
[7]TSANGIW,KWOKJT,CHEUNGPM.Corevectormachines:fastSVMtrainingonverylargedatasets[J].JournalofMachineLearningResearch, 2005(6): 363-392.
[8]CHUCS,TSANGIW,KWOKJK.Scalingupsupportvectordatadescriptionbyusingcore-sets[C]//IEEEInternationalJointConferenceonNeuralNetworks.Budapest,Hungary: 2004: 425-430.
[9]许敏,王士同. 基于最小包含球的大数据集域自适应快速算法[J]. 模式识别与人工智能, 2013, 26(2): 159-168.
XUMin,WANGShitong.Afastlearningalgorithmbasedonminimumenclosingballforlargedomainadaptation[J].PatternRecognitionandArtificialIntelligence, 2013, 26(2): 159-168.
许敏:女,1980年生,讲师,博士,主要研究方向为模式识别、人工智能。