argminf(x)+∥x∥p
经验风险最小化 + 正则化项 = 结构风险最小化
训练时,希望经验风险最小化,还希望结构风险也小,加上正则项,则可以tradeoff。
范数(norm)
范数是具有“长度”概念的函数。向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离。
向量的范数定义:向量的范数是一个函数∥x∥,满足
非负性∥x∥>0
齐次性∥cx∥=∥c∥∥x∥
三角不等式∥x+y∥<∥x∥+∥y∥
Lp范数:∥x∥为x向量各个元素绝对值p次方和的1/p次方,∥x∥p=(∑iN∣xi∣p)p1
等价于优化:(∑iN∣xi∣p)<rp,以2维及2范数举例,这相当于一个圆。这就是Lp球的。
向量範數
先验分布
从贝叶斯角度看,正则化可以理解为对模型加了先验。(正则化可以从其他角度去理解吗?)
lr估计是采用maximum likelihood估计,加了先验就变成了 MAP了。
β^=argβmaxp(β∣D)=argβmaxp(D)p(D∣β)p(β)≈argβmaxp(D∣β)p(β) 看到这里,会不会又扯到共轭先验。 先记下来,以后梳理下 “共轭先验正则化”。
另外,为毛不直接MAP?,然后用变分贝叶斯
https://www.zhihu.com/question/31464378/answer/52068253 贝叶斯(bayesian)防止过拟合的确切机理?边缘化(marginalizing)的真实作用是什么?
为了将置信区间confidence intervals 和 预测prediction联系起来,加入先验。但是比较困难,有MCMC和variational inference等近似方法。
假设先验为高斯分布:
p(β)=c∏i<d∏Norm(0,σi2)(βc,i)=σi2π1exp(−2σi2βc,i2)err=−logp(D∣β)p(β)=−logp(D∣β)−logp(β)=−logp(D∣β)−cβ2 假设先验为拉普拉斯分布:
p(β)=c∏i<d∏Laplace(0,σi2)(βc,i)=2σi2exp(−2σi∣βc,i∣)err=−logp(D∣β)p(β)=−logp(D∣β)−logp(β)=−logp(D∣β)−c∣βc,i∣ 这就是L1范数约束的形式。
先验分布还有其他形式,见 《 Lazy sparse stochastic gradient descent for regularized multinomial logistic regression》
正则化符合奥卡姆剃刀原理(Occam's razor):在所有可能选择的模型中,能够很好地解释已知数据且十分简单的模型才是最好的模型。从贝叶斯估计的角度来看,就是正则化项对应于模型的先验概率,复杂的模型具有较小的先验概率,而简答的模型具有较大的先验概率。
简化后的L1正则形式:
N1n=1∑Nlog(1+exp(−ynWTXn))+λ∥W∥1 训练求解
L1-ADMM
N1n=1∑Nlog(1+exp(−ynWTXn))+λ∥W∥1⇔N1n=1∑Nlog(1+exp(−ynWTXn))+λ∥Z∥1s.t.W=Z 并行化
Online Learning
a bayesian view
拿之前数据的后验,作为先验,递归下去:p(θ∣D1:k)∝p(Dk∣θ)p(θ∣D1:k−1)
返回一个后验而不是一个点估计,有明显的好处。这可以在线适应超参,这也很重要,因为无法在线做交叉验证。
出处:MLaPP page266 8.5.5 节
参考佳文
详解并行逻辑回归
史上最全面的正则化技术总结与分析