黄收友,伍自浩
(湖北师范大学 数学与统计学院,湖北 黄石 435002)
其中H是假设空间,L(yi,f(xi))为损失函数,在统计学习理论中,通常选择平方损失函数,则有
fz是未知真实函数的逼近。经验目标函数fz的泛化误差可以表示为
ε(f)=EL(Y,f(X))
同样选择平方损失函数,我们可以得到
其中ρ是X×Y上的未知概率分布。fz的泛化能力通常运用过度泛化误差来刻画,过度泛化误差可以表示为
ε(fz)-ε(fφ)
其中fφ是可测函数空间φ上的最小泛化误差,即
备注1 在温和条件下,fφ将很好地逼近未知的真实函数,如果假设空间φ足够大,则过度泛化误差将任意小,在统计学习理论中,通常选用连续空间的紧子集。
显然,仅有过度泛化误差不足以刻画问题,我们不妨假设可加线性模型[1]如下
Y=f*(X)+ε
其中ε为噪声,且当满足E(ε|x)=0时,可加线性模型中的未知真实函数就是条件均值函数,换句话说,f*(X)=E(Y|X).
在统计学习理论框架中,回归问题已被广泛研究[2]。在学习过程中,通常需要面对面风险损失,尤其是经验风险。为了取得更好的学习率,常常为考虑经验风险最小化[3,4]。而进行经验风险最小化过程中,又很容易出现过拟合现象,为更好刻画误差,通常会结合正则化的方法来处理问题,这也是我们常说的结构风险最小化[5]。
然而,在处理现实问题中,常常遇到异常值点或离异值点,会成为研究中的棘手问题,为此不得不采用稳健估计的方法,目前已经有许多这方面的研究[6~10]。
在本文中,我们定义稳健最小经验风险函数为
其中σ是正尺度参数,损失函数为
类似的,我们可以得到
ε(f)=EL(y,f(x);y′,f(x′))
其中(x,y)∈,(x′,y′)∈.
在这一部分中,我们将阐述过度泛化误差与预测误差间的关系,并证得一个比较定理,有效地刻画了学习问题中泛化能力与预测能力,以及它们间的上界。
假设1 存在一个常数α>0, 使得下述不等式成立
E|Y|1+α<+∞
(1)
备注2 需要特别指出的是:在统计学习理论框架下,常见的矩估计条件至少是二阶或者更高阶的,即:E|Y|q<+∞,其中q≥2,本文将该条件弱化到1+α阶。接下来,我们将阐述稳健经验风险最小化的泛化能力与其预测能力之间的关系,也就是本文主要结论。
定理1 设f*∶τ→是条件均值函数f*(X)=E(Y|X),以M为界。假设矩条件(1)成立,若σ>1,对于任何可测量的函数f*∶τ→以及‖f‖∞≤M,则有
(2)
其中,对于任何正数α,θα的取值为
θα=min{α,2}
且常数CH,α为
CH,α=8M[(M+1)E|Y|1+α+12M3]
证明 对于任何σ>1,不失一般性,假设两个事件ⅠY和ⅡY如下:
ⅠY={y-y′∶|y-y′|≥σ}
以及
ⅡY={y-y′∶|y-y′|<σ}
注意到
从而可得
由于Pr(ⅠY)可以通过运用马尔可夫不等式求得有界,即
(3)
进而可得
另一方面
(4)
结合Holder不等式和不等式(3),则有
从而可得
(5)
接下来,我们将刻画第二部分的界,即
为此,我们不妨设
Fσ(s)=Lσ(s)-s2
从而上式可表示为
一方面,运用均值定理,则有
Fσ((y-y′)-(f(x)-f(x′)))-Fσ((y-y′)-(f*(x)-f*(x′)))
另一方面,根据定义可知
进而利用均值定理,可得
从而可得
(6)
结合(4),(5)和(6),我们可得
其中θα=min{2,α}且CH,α=8M[(M+1)E|Y|1+α+12M3]
本文研究了最小风险的误差估计。不仅将矩估计条件弱化到1+α阶,而且刻画了过度泛化误差与预测误差间的关系,运用比较定理阐明了它们间的上界,并为进一步研究学习率提供必要的理论准备。