葛瑞泉 林强
摘要:域自适应算法及其优化是迁移学习中的研究热點之一,在图像识别、图像分类、语义分割等领域有着广泛的应用并且取得了较好的效果。本文对当前的域自适应算法研究进行总结,并从深度学习方法和非深度学习方法揭示了域自适应的一般方法和原理。非深度学习方法主要包括迁移成分分析,深度学习方法包括采用非对抗的非对称三体训练以及使用对抗网络的多域对抗域适应方法。
关键词:域自适应;深度学习;语义分割;源域;目标域
当今采用机器学习或者深度学习方法从海量数据提取有用信息已经成为主流。域自适算法利用已有的带标签原始数据集训练一个模型,并且将训练好的模型用于不带标签的目标数据集的标注工作。域自适应依据不同的假设有不同的方法。基于特征迁移的观点认为发生域漂移的问题在于源数据集和目标数据集的分布不一致,可以通过一系列算法对齐它们的分布实现迁移学习。本文以特征迁移的观点从非深度学习方法和深度学习两个方面对当下域自适应方法进行阐述。
一、非深度学习的域自适应方法
在深度学习成为主流之前,非深度学习方法一直是域自适应研究方向的主力军。其中较早提出的迁移成分分析方法及其改进算法适配联合分布方法是非深度学习域自适应方法中的经典算法。
迁移成分分析方法 缩小了源数据集与目标数据集特征分布的距离。该方法通过将数据投影到学习的传输子空间来缩小域之间的差异,在找到子空间之后使用任意方法进行后续的分类、回归或聚类。
迁移成分分析方法将源域和目标域的数据通过核函数映射到一个高维的再生核希尔伯特空间,迁移成分分析算法通过找到一种特征映射使得源域与目标域的特征分布近似,通过最小化最大平均差异,拉近这两个特征分布的距离,在最小化平均差异的过程中求得该映射关系。
在迁移成分分析算法中认为源域跟目标域的概率分布并不一致,而联合分布适配方法进一步认为源域跟目标域的条件概率分布也不一致。联合分布适配方法通过寻找一种矩阵变换,使得经过变换后的源域与目标域的边缘概率分布尽可能接近的同时保证它们的条件概率分布也尽可能接近。
二、深度学习方法
深度学习方法已经逐渐取代了传统的非深度学习方法,成为图像识别、语义分割、迁移学习等领域的主流核心框架。本文主要按照其是否采用对抗方法将其分为对抗学习和非对抗学习。
(一)非对抗方法
在生成式对抗网络兴起之前,人们通常使用非对抗的方法解决域适应问题。最著名的是利用三个分类器按照少数服从多数的原则为无标签的目标域数据生成伪标签。无监督域自适应的非对称三体训练 就是基于这样理念的一个算法。
首先使用源域上的数据训练两个分类器。将目标域的数据输入到网络中,由这两个分类器给目标域的数据打上标签。只有当这两个分类器的预测结果一致并且至少一个分类器的预测结果大于设定的阈值时,认为该标签是准确的。对所有图片都用这两个分类器分好类,可以得到置信度比较高的的带有伪标签的数据集。然后把这些带标签的数据集输入第三个分类器中,用带伪标签的数据集训练一个分类器。
(二)对抗方法
利用对抗网络解决域适应问题也成为研究热点。这里介绍经典的利用对抗学习的多域对抗域适应方法。
在该方法之前,人们尝试将源域和目标域的特征对齐,多域对抗域适应方法通过对每个类别都设定一个类判别器,实现更细粒度的类别信息匹配。因为提取到的特征不完全与所有类别信息都有关联,这些类判别器的输入就从特征变成了把特征输入判别器得到该类别的预测概率和特征的乘积,相当于对特征进行了一个加权。只提取到与该类别有用的特征信息,这样使得原有的对抗学习框架的精度提升了一个档次。
三、结语
本文从非深度学习以及深度学习两大方向分别介绍了域适应算法的主流方向。深度学习的发展在不断更迭,深度学习的框架也在域适应方向上不断有新的变化,诸如残差网络等深度学习框架正不断被发掘并应用于域自适应方向,这使得在不同数据集的域自适应精度不断提升。
参考文献:
[1] S.J.Pan,Tsang I W,Kwok J T,et al.Domain adaptation via transfer component analysis[J].IEEE Transactions on Neural Networks,2011,22(2):199-210.
[2] Long M,Wang J,Ding G,et al.Transfer feature learning with joint distribution adaptation[C]//Proceedings of the IEEE International Conference on Computer Vision.2013:2200-2207.