不确定性视角下的弱监督学习

2022-11-13 12:39周欣蕾王熙照
关键词:范式不确定性建模

周欣蕾,王熙照

(深圳大学 计算机与软件学院, 广东 深圳 518060)

弱监督学习适用于存在大量未标注或低质量标注样本场景下的机器学习。众所周知,有监督学习范式下的学习模型需要大量的高质量带标记训练样本以保证泛化性能。然而,高质量的带标记训练样本通常需要具备领域专业知识的人员花费大量的时间进行手动标注。并且当学习任务发生变化时,标注的粒度要求相异,如对同一张图像进行分类和分割时,需要分别对整张图像进行类别标注和针对图像中各个类别区域的像素进行区分,这是不同粒度级别的标注工作。因此,能够结合极其有限的高质量带标签样本与大量未标注或低质量标注的样本进行高效训练的弱监督学习范式,更符合当下大数据时代的特点,能够更有效地利用海量数据,是未来研究的发展趋势。

本文依据样本标签的状态讨论3类弱监督学习。第1类为不完全监督学习,可以指缺失明确标签且仅以概率分布的形式给出标注信息的样例层面监督信息的不完全;也包括数据集中仅有少量已标注样本而存在大量样本缺失标签信息这类数据集层面监督信息的不完全。第2类为不准确监督学习,指数据集中样本标签存在误差,即有一定比例的标注错误。第3类为不确切监督学习,指数据集中样例仅以0或1标注的候选标签集的形式给出。3类弱监督学习范式都仅有少量知识描述当前整体数据分布的情况,因此,从不确定性视角来看, 弱监督学习是样本监督信息具有不确定性场景下的机器学习建模方式。 本文将结合分类任务中弱监督学习的特点, 讨论由于事物类属划分的不分明(模糊)而引起的判断上的不确定性, 并以分类熵、 模糊集和不可指定性为例, 讨论弱监督场景下的不确定性建模, 以量化各类弱监督学习范式下的监督信息强度, 而随机性不在本文的讨论范畴之内。 同时, 归整了以不确定性建模为核心的各类弱监督学习方法, 强调了不确定性建模在弱监督学习中的重要性。 从弱监督学习的问题描述和具体的弱监督学习方法两个层面阐明弱监督学习范式与不确定性之间存在的紧密关联。

1 不确定性

在决策论中“不确定性”用于表达没有足够知识来描述目前的情况或估计将来的结果[1]。然而,机器学习是基于无法准确代表整体数据集的部分抽样来实现机器智能化的过程。因此,利用任何一种算法和模型去实现这个学习过程,都会存在不确定性。不仅如此,大数据环境下,数据的表示形式多种多样、特征维度和类别数目暴增,出现样本的独立性假设被破坏、数据缺失、大量数据带有噪声、数据分布不平衡,从而呈现长尾分布、模型的超参数量和解空间巨大等问题,更增加了机器学习建模过程的不确定性,从而严重影响传统学习算法的有效性[2]。在数学上还没有不确定性的一般性定义,没有一个适用于任何情况的通用公式,通常在特定的背景下考虑建模不确定性。常见的不确定性量化方法有香农熵、分类熵、模糊集、不可指定性和粗糙集等,在以往工作中对此进行了详细介绍[3]。而基于贝叶斯推断理论和集成是深度学习中不确定性定性量化的主要方法[4-5]。在实际应用中,区分并量化不同种类的不确定性对模型性能的提升有重要意义[6]。

通常机器学习系统建模过程中不确定性的描述有:偶然不确定性、认知不确定性和超出分布的不确定性[7]。本节将在训练和测试数据集包含关系的统一描述框架下分析各类不确定性的来源,并对不确定性的类别进行说明。假设有全集U,存在一个分布未知的真子集S,并称集合S中的样本为分布内(in-distribution)的样本,S在U中的补集US中的样本为分布外(out-of-distribution)的样本。为了拟合集合S的分布,通过采样的方式得到真子集合S′,将其作为训练集输入机器学习模型Md,并配以优化策略进行训练。利用训练好的模型Mdw对测试样本集T的测试结果来评估Mdw对集合S分布的拟合程度。

基于上述描述,机器学习系统建模过程中不确定性的来源和相应分类如下。

1) 收集数据集S′的过程中,样本各属性值的测量和类别标注都存在不确定性。这种不确定性通常被称为偶然不确定性,是由于收集数据时不可避免的随机性和不可预测的变化引起的,且无法因收集更多的数据而消除[8]。例如测量重力加速度时,仪器的精准度不够和气流扰动等原因都会造成结果存在不可避免的偏差。根据出现误差的是属性还是标注信息可分为数据属性不确定性和标签不确定性。

2) 一般来说,抽样数据集S′为集合S的真子集,即训练数据包含的信息量不足。因此,会导致系统因缺乏目标数据集合S的知识(或数据)而引起不确定性,这通常被称为认知不确定性。这种不确定性描述的是系统的认知状态,体现在模型Md的选择、优化策略的制定以及超参数的设定等,而不是潜在的随机现象[8]。因此,又被称为模型(系统)的不确定性,它可以通过收集缺乏区域样本信息增强系统预测能力,从而减少这种不确定性。

3) 当测试集合T为US的子集,则测试样本被称为分布外的样本。然而,基于分布内的样本训练得到的系统对于这类超出分布的数据通常是无效的[9]。因此,我们根据测试样本与目标数据集S的相对位置,将认知不确定性细分出一类称为超出分布的不确定性。文献[10]已经充分证明,以不确定性的形式感知到本系统预测能力之外的样本即超出分布的样本非常有必要。

2 弱监督信息的不确定性表示与量化

弱监督学习场景下标签信息的大部分缺失或不完全可信导致当前训练数据集仅有少量知识来描述数据真实的整体分布或用于将来的预测。从监督信息具有不确定性的角度来看,弱监督学习是监督信号的不确定性形式化后的训练和推理范式。Ghahramani在2016年NIPS的研讨会上也曾提到,不确定性的概率表示对于依赖于有限数据或存在缺失和噪声的数据进行建模的机器学习过程是至关重要的[11]。程圣军提出了一个分析弱监督样本的统一框架[12],但缺乏对各类弱监督信息不确定性的定量分析。本节基于标签向量的形式对各类弱监督学习范式进行统一描述,并讨论各类弱监督信息的不确定性量化方法以建模弱监督学习的不确定性。

2.1 弱监督学习的形式化描述

考虑一个k分类问题,给定包含N个样例的弱监督数据集D,如表1所示。

表1 分类任务数据集

用标签向量μi=(μi1,μi2,…,μij,…,μik)的形式表示第i个样例的监督信息,该数据集整体的监督信息可以表示为矩阵C,

(1)

其中,μij(1≤i≤N,1≤j≤k)∈[0,1]。根据监督信息矩阵C的不同特点,可以将弱监督学习大致分为不完全监督、不准确监督和不确切监督3类。

1) 不完全监督

当训练数据集中仅有少量样例具有准确标签,而剩余的大量样例都缺失标注信息,则称该场景下的弱监督学习范式为数据集层面的不完全监督,其形式化表示为

且b≪N,有

μi=(μi1,μi2,…,μij,…,μik)=

(2)

2) 不准确监督

当训练数据集对于所有样例都标定了唯一的所属类别,同时指出当前数据集的标注存在一定的误差(噪声率),则称该场景下的弱监督学习范式为不准确监督,其形式化表示为

∀μi∈C,∃j0,使得

(3)

3) 不确切监督

当训练数据集对于所有样例都标定了一组候选标签集合,则称该场景下的弱监督学习范式为不确切监督,其形式化表示为

2.2 弱监督信息的不确定性量化

(4)

(5)

由式(5)可知,当各类别所属概率值相等时,监督信息的分类熵达到最大,此时的监督信息不确定性最大;当有且仅有类别j*的概率μij*=1时,类别分布的纯度达到最大,监督信息的分类熵最小,即监督信息的不确定性最小。

(1-μij)log(1-μij))。

(6)

(7)

(8)

3 弱监督学习中的不确定性建模与分析

本节主要介绍基于不确定性建模的各类弱监督学习方法,对于想要全面了解弱监督学习方法的读者来说,本节所提到的方法可能覆盖面不够广,我们建议有需求的读者参考文献[17-20]。

3.1 监督信息不完全

数据层面的监督信息不完全使得样例缺乏唯一指定的类标信息,但可以借助给定的类别可能性分布进行有效推断。一项经典的相关工作是1995年Yuan等人提出的模糊决策树[16],他们将不可指定性引入决策树的建模中,提出了一种基于模糊证据最小化类别不可指定性的启发式模糊决策树归纳方法。基于不可指定性估计与各属性相关的分类不确定性,选择平均分类不确定性最小的属性作为决策节点。假设有n个属性,第k个属性的平均分类不确定性(不可指定性)定义为

(9)

(10)

Gk0=min1≤k≤nGk。

(11)

对于数据集层面的监督信息不完全,即存在大量未标记样例的弱监督学习问题,主要有主动学习和半监督学习两类策略[21],这两类策略的区别在于主动学习假定存在一个专家标注者能够提供未标记样例的真实标签,而半监督学习是由训练的分类器代替人(专家)给定(伪)标签。具体来说,半监督学习是学习器结合少量标记样例和大量未标记样例进行自主学习以实现目标数据有效预测的一种智能化策略。为了建立未标记样例和目标数据之间的联系,半监督学习方法通常假定数据内部结构保持不变,相似的样例拥有相似的输出并聚集在相近位置。具体来说,基于聚类假设的半监督学习方法侧重于考虑数据的整体特性,假定同一集群的数据样例具有相同输出,且决策边界处于样例分布稀疏的区域,利用无标记数据对学习到的数据分布边界进行调整从而逼近真实分布;流形假设则偏向于强调决策函数的局部平滑性,假定相似数据分布在一个流形结构上,且临近的样例拥有相似的输出值,以无标记样例作为扩充标记样例分布局部特性的有效信息,从而提升决策函数的拟合能力[17]。

早在1997年Pedrycz等人便将不确定性建模引入半监督学习的具体解决方法中[22],对模糊聚类方法进行改进和调整,使其有效适用于弱监督学习场景。随后,Bouchachia等人则通过扩展目标函数建模类别和集群之间的关系,进一步强化了基于模糊聚类的弱监督学习方法[23]。2016年Ashfaq等人基于模糊集量化未标记样例伪标签的不确定性F(V)[24],

(1-μi)log((1-μi)))。

(12)

(13)

且文中证明

因此,条件熵Hemp(Y|X,Z;Ln)的结果仅受未标记样例影响,它可以作为未标记样例的先验信息嵌入任何基于最大后验估计的半监督概率分类模型,以增强分类器输出对于未标记样例的置信度。

(14)

(15)

(16)

其中:H和W是图像的高和宽;I(·)是指数函数;Sx是图像x的最终分割结果。通过对比伪标签和设定阈值t筛选置信度高的像素点,计算预测结果和伪标签的平方差。当然,LUG只是文中全卷积网络目标函数中的一部分,其他具体细节请参考原文[28]。Xia等人提出不确定性感知的多视图协同训练[29],通过空间变换探索3D数据的多个视角来引入视图差异,基于贝叶斯推断理论在模型中添加dropout,并将未标记样例多次输入模型,以估计每个视图模块的认知不确定性,并将置信度分数作为每个视图模块预测的权值。最终未标记样例的伪标签将基于不确定性加权融合不同视图的输出。Vashishth等人提出的ConfGCN将不确定性的评估引入基于图卷积神经网络的半监督学习中[30],这一方法以伪标签均值和方差作为模型参数进行优化,提供了置信度的衡量方式以确定邻域聚合过程中一个节点对另一个节点的影响,从而获得了更加稳定的预测结果。有学者则关注到图的结构不确定性对最终预测的不确定性影响很大,提出了一种基于图高斯过程的不确定性感知方法(UaGGP),利用预测不确定性和标签平滑正则项共同指导学习过程[31]。

主动学习是另一种监督信息不完全场景下的机器学习范式,其主要思想是借助专家寻求最优的查询策略,通过最小化人工查询次数实现模型性能增益的最大化。基于不确定性建模的查询策略是主动学习中最简单常用的一类方法[32]。这类查询策略的核心是挑选最不确定该如何标记的样例交给专家进行标注,以最大化信息收益。

大多基于不确定性建模的查询策略通过计算模型输出的信息熵选择熵较大的未标记样例作为待标记数据[33-34],或选择伪标记向量μi={μi1,μi2,…,μij,…,μik}中最大概率值分量μi*=argmax(μij)最小的样例x*进行标注[35],即x*=argmini=1,2,…,n(μi*)。文献[36-37]则假定伪标记向量μi={μi1,μi2,…,μij,…,μik}表示每个类别的相应隶属度值,并基于Margin进行样例挑选,即隶属度最大μi1和第2大μi2的差值,

x*=arg mini=1,2,…,n(μi1-μi2)。

(17)

μi1和μi2之间的差值小则意味着当前伪标签的模糊性很大以至于基本无法区分该样例。另一查询策略则基于已有的标签数据训练出一个委员会集合,并以最小化版本空间为原则挑选未标记样例,量化委员会集合中各成员的分歧有基于投票熵[19]和基于平均KL散度[38]的方法。Liu等人则基于深度信息网络将样例的多样性和不确定性分别嵌入网络结构的无监督和监督微调阶段,综合考虑样例的不确定性和多样性进行优化[39]。Ash等人则提出利用多元梯度嵌入进行批量主动学习(BADGE),同时,基于样例多样性和预测不确定性之间的权衡进行优化,消除了在批处理中选择许多相同的不确定实例的失效模式,并且不需要任何超参数[40]。除此之外,结合决策理论[41]、基于信息理论的贝叶斯主动学习[42]、贝叶斯图卷积神经网络[43]等都是基于不确定性建模以增强主动学习性能的有效方法。

3.2 监督信息不准确

在实际应用中由于标注工作量大或标注者的主观性等原因,很容易造成标注信息存在误差(噪声率),标签带噪学习(learning with label noise)则是处理数据集监督信息不准确的有效方法。文献[44]指出使用标签带噪的样例进行学习的关键在于准确、直接地表征数据中标签噪声的不确定性。针对标签带噪场景设计的算法核心是构建一个噪音感知模型,当前主要存在两种类型的解决方法:基于噪音标签构建特殊的模型结构或训练方法,以及使用更加鲁棒的损失函数使网络本身具有更强的抗噪性[45]。

Pc(xi)=1-0.5*e(-r(xi)/2)。

(18)

交叉熵能够反映同一个随机变量上两个不同概率分布的差异程度,在机器学习中常被用做损失函数,衡量给定真实概率分布条件下预测概率分布的偏差。在标签带噪场景下,给定的真实概率分布本身便存在一定误差,设计更鲁棒的损失函数[20,48-51]以构建一个能够容忍标签噪声的神经网络成为当前一类主流的方法。有许多研究工作则基于交叉熵损失函数作出适应性的调整,以提升模型的抗噪能力[48-49]。如Zhang等人基于标签存在噪声的场景下平均绝对误差(MAE) 损失函数的鲁棒性更强、交叉熵 (CE) 损失函数的拟合能力更强的结论,提出广义交叉熵(GCE)损失函数[48]:

(19)

(20)

(21)

(22)

(23)

3.3 监督信息不确切

如2.1节所定义,称基于候选标签集合μi=(μi1,μi2,…,μij,…,μik),μij∈{0, 1}表示的训练数据集是监督信息不确切的,其中,所有的候选标签都记为1,但真正的标签是候选标签的真子集,因此,候选标签中存在伪标记。这类弱监督问题的关键难点在于训练数据类标签的不可指定性[53],显示了不确定性量化在这类问题解决方法中的重要性。针对这种每个对象可同时获得多个语义标记,但其中仅有一个标记反应了对象真实语义的弱监督学习场景,研究者们提出了偏标记学习的概念[54]。

θ*=arg minθ{-∑i∑yp(y|xi)

(24)

(25)

(26)

H(f(xi;θ))=-f(xi;θ)Tlogf(xi;θ)。

(27)

同时,将约束f(xi)≤yi+ε,∀i∈[m]作为铰链损失项加入目标函数中,

α[f(xi;θ)-yi-ε]++βΩ(θ))。

(28)

其中:m为样例个数,[m]:={1,2,…,m};[·]+=max(·,0);ε>0是一个非常小的常数值;定义Ω(f)=‖θ‖2控制模型参数的复杂性;λ,β为超参。

4 结语

本文从弱监督学习的问题描述和具体解决方法两个层面阐明弱监督学习范式与不确定性之间存在关联。以分类熵、模糊集和不可指定性为例,讨论弱监督场景下的不确定性建模以量化监督信息强度。其次,归整了各类弱监督学习场景下基于不确定性建模进行优化的具体解决方法,其中,许多研究成果证明了不确定性建模对于解决弱监督学习具体问题的有效性。现有弱监督学习方法集中于利用信息熵、交叉熵、模糊集等不确定性的度量方法,结合贝叶斯推断理论或集成的方式进行不确定性建模的相关研究逐步增多,将更具一般性的证据理论等不确性建模方式引入弱监督学习场景也可能成为一种趋势。结合不确定性分析理论的弱监督学习还有非常广阔的探索空间,例如,如何建模各类弱监督学习范式中不同来源的不确定性,以提升整体性能;如何结合问题的特性与弱监督信息强度的分析,选择最适用的不确定性建模方法,都是值得探究的问题。

猜你喜欢
范式不确定性建模
法律的两种不确定性
随机不确定性影响下某航炮发射动力学仿真
法治范式的沟通主义进路
——简评《中国法治的范式研究:沟通主义法范式及其实现》(郭金平)
物理建模在教与学实践中的应用
以写促读:构建群文阅读教学范式
在经历中发现在探究中建模
思维建模在连续型随机变量中的应用
求距求值方程建模
中国传统哲学研究中的认知范式转移
管窥西方“诗辩”发展史的四次范式转换