我们上一次介绍了
Hoeffding 不等式,结论是对任意固定的 hypothesis
h∈H,我们有
P(Eout(h)−Ein(h)>ϵ)≤e−2Nϵ2
但是正如教授在课上讲的一样,仅仅在一个固定的 hypothesis
上做出这样的保证并不足以构成“学习”,最多只是“验证”。为了保证我们的学习算法从
H
中选中任何一个
h
都是可行的,我们需要得到这样形式的结论:
P(h∈Hsup(Eout(h)−Ein(h))>ϵ)≤something
换句话说,我们希望得到的界对于所有
h∈H
能够一致成立。所以接下来我们就来尝试得到这样的结论。具体来讲,本文中我们将会介绍一种叫做
Symmetrization 的技术。方便起见,我们记
Z=X×Y,并记
z=(x,y)。于是,给定的
N
个训练数据也记为
{zi}i=1N。此外,我们简单地将
Eout
记为
E,而
Ein
记为
EN(因为它依赖于
N
个训练数据嘛)。
接下来我们假设除了
{zi}i=1N
之外还有另一组数据
{zi∗}i=1N,也是
IID 地从
PXY
中采样得到的。这组数据通常称作 ghost
sample,它仅在理论分析中出现,并不是说我们在实际学习中需要额外的一份数据。
为什么要引入 ghost sample
呢?为了回答这个问题,我们先定义一些辅助的符号,首先,给定了 loss 函数
ℓ
之后,我们可以定义一个 Loss Class,它是一个集合,其元素和
Hypothesis Space
H
里的元素一一对应:
F={fh∣h∈H}
这里每个
fh:Z→R+
是这样定义的一个函数:
fh(z)=ℓ(h,z)
看着有点像同意反复,其实就是这么回事。由于
F
和
H
的元素一一对应,所以在
H
里学习也可以等价地认为是在
F
里学习。接下来我们定义
F
到
{zi}i=1N
上的投影为:
F(z1,…,zN)={(f(z1),…,f(zN)∣f∈F}
它是由一些
N
维向量所构成的集合。接下来到两件事情:第一,由于我们使用的是 binary
loss,因此所有
f
实际上只取
0
和
1
两个值,所以
F(z1,…,zN)
这个由
N
维 binary vector 所组成的集合的元素个数是有限的,最多不超过
2N
个——不论原来的集合
F
是否有限;第二,这个有限的集合完全决定了任意
f∈F
的 in-sample
error,因为
EN(f)=N1i=1∑Nf(zi)
我之前在大数定理军团中曾经介绍过一种简单的利用
Union Bound 将上一次讲的 Hoeffiding
不等式推广到一致成立的方法,但是那种方法只对有限的
F
适用,对于无限的
F,我们将会得到一个
≤∞
这样的毫无意义的结果。然而这里似乎看到了一个好兆头:F
里的元素的 error 将由一个有限的集合来完全决定,不论原来的集合
F
是有限还是无限。不过显然还有一个问题就是这里我们只能刻画 in-sample
error,而 out-of-sample error 则不只是依赖于有限的
N
个数据点,而需要在所有
z∈Z
上求值。于是 Symmetrization 就出场了。
1
引理 1(Symmetrization). 对任意的
ϵ>0,且
Nϵ2≥2,我们有
P(f∈Fsup(E(f)−EN(f))>ϵ)≤2P(f∈Fsup(EN∗(f)−EN(f))>2ϵ)
这里
EN∗
是定义在 ghost sample
{z1∗,…,zN∗}
上的 in-sample error。
这样一来,不等式的右边就可以用两个有限的集合
F(z1,…,zN)
和
F(z1∗,…,zN∗)
来进行刻画了,从而避开了无限集的问题。而 ghost sample
的引入也正是为了这个目的。至于究竟如何来进行刻画并得到最终的一致
Hoeffding 界,我们将在下一次进行介绍,本文余下来的部分将用来证明引理
(lem:
1),不感兴趣的同学可以直接跳过。
简单起见,我们假设不等式左边的上确界可以达到,并在
fN∈F
处达到。注意
fN
是依赖于
EN
的定义的,因此依赖于
{zi}i=1N。注意到
=≤1{E(fN)−EN(fN)>ϵ}1{E(fN)−EN∗(fN)<ϵ/2}1{(E(fN)−EN(fN)>ϵ)∧(E(fN)−EN∗(fN)<ϵ/2)}1{EN∗(fN)−EN(fN)>ϵ/2}(1)
在不等式两边先对 ghost sample 求期望,得到
≤1{E(fN)−EN(fN)>ϵ}P(E(fN)−EN∗(fN)<ϵ/2)P(EN∗(fN)−EN(fN)>ϵ/2)(2)
我们看红色的部分,由 Chebyshev’s
Inequality,我们有
P(E(fN)−EN∗(fN)≥ϵ/2)≤Nϵ24var(fN)
再次注意到
fN
只取值
0
和
1,因此
var(fN)≤1/4,所以
⇒P(E(fN)−EN∗(fN)≥ϵ/2)≤Nϵ211−Nϵ21≤P(E(fN)−EN∗(fN)<ϵ/2)
再注意到引理中有
Nϵ2≥2
这个奇怪的条件,所以
1−Nϵ21≥1/2,带入
(eq:
2) 的红色部分,得到:
211{E(fN)−EN(fN)>ϵ}≤P(EN∗(fN)−EN(fN)>ϵ/2)
最后两边同时再对真正的 training sample 求期望,即得到:
P(f∈Fsup(E(f)−EN(f)))=P(E(fN)−EN(fN)>ϵ)≤2P(EN∗(fN)−EN(fN)>ϵ/2)≤2P(f∈Fsup(EN∗(f)−EN(f))>2ϵ)
这样一来,引理就得证了。
如果基于 Disqus 的评论系统无法加载,可以使用下面基于 Github 的评论系统(需要使用 Github 账号登陆)。