Machine Learning
  • Introduction
  • man
  • Linear model
    • Linear Regression
    • Generalized Linear Models
    • Nonlinear regression
  • bayes
    • bayesian network
    • Variational Bayesian inference
    • Gaussian Process Regression
  • Logistic Regression
    • L1 regularization
    • L2 regularization
    • softmax
    • Overflow and Underflow
  • SVM
    • C-SVM
    • C-SVM求解
  • EM
    • GMM
  • Maximum Entropy
    • IIS
  • HMM
    • viterbi algorithm
  • CRF
  • Random Forest
    • bagging
    • random forest
  • boosting
    • catboost
    • gradient boosting
    • Newton Boosting
    • online boosting
    • gcForest
    • Mixture models
    • XGBoost
    • lightGBM
    • SecureBoost
  • LDA
  • rank
    • RankNet
    • LambdaRank
    • SimRank
  • Factorization Machine
    • Field-aware Factorization Machine
    • xdeepFM
  • Clustering
    • BIRCH
    • Deep Embedding Clustering
  • Kalman filtering
  • word2vec
  • 关联规则挖掘
  • MATH-Mathematical Analysis
    • measure
  • MATH-probability
    • Variational Inference
    • Dirichlet分布
    • Gibbs Sampling
    • Maximum entropy probability distribution
    • Conjugate prior
    • Gaussian Process
    • Markov process
    • Poisson process
    • measure
    • Gumbel
  • MATH-Linear Algebra
    • SVD
    • SVD-推荐
    • PCA
    • Linear Discriminant Analysis
    • Nonnegative Matrix Factorization
  • MATH-Convex optimization
    • 梯度下降
    • 随机梯度下降
    • 牛顿法
    • L-BFGS
    • 最速下降法
    • 坐标下降法
    • OWL-QN
    • 对偶问题
    • 障碍函数法
    • 原对偶内点法
    • ISTA
    • ADMM
    • SAG
  • MATH-碎碎念
    • cost function
    • Learning Theory
    • sampling
    • Entropy
    • variational inference
    • basis function
    • Diffie–Hellman key exchange
    • wavelet transform
    • 图
    • Portfolio
    • 凯利公式
  • ML碎碎念
    • 特征
    • test
    • TF-IDF
    • population stability index
    • Shapley Values
  • 课件
    • xgboost算法演进
  • Time Series
  • PID
  • graph
    • SimRank
    • community detection
    • FRAUDAR
    • Anti-Trust Rank
    • Struc2Vec
    • graph theory
    • GNN
  • Anomaly Detection
    • Isolation Forest
    • Time Series
  • Dimensionality Reduction
    • Deep Embedded Clustering
  • Federated Learning
  • automl
  • Look-alike
  • KNN
  • causal inference
Powered by GitBook
On this page
  • 先验分布
  • 训练求解
  • Online Learning
  • 参考佳文

Was this helpful?

  1. Logistic Regression

L1 regularization

PreviousLogistic RegressionNextL2 regularization

Last updated 5 years ago

Was this helpful?

arg⁡minf(x)+∥x∥p\arg min f(x) + {\lVert x \rVert}_pargminf(x)+∥x∥p​

经验风险最小化 + 正则化项 = 结构风险最小化

训练时,希望经验风险最小化,还希望结构风险也小,加上正则项,则可以tradeoff。

范数(norm)

范数是具有“长度”概念的函数。向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离。

向量的范数定义:向量的范数是一个函数∥x∥\lVert x \rVert∥x∥,满足

  1. 非负性∥x∥>0\lVert x \rVert \gt 0∥x∥>0

  2. 齐次性∥cx∥=∥c∥∥x∥\lVert cx \rVert = \|c\| \lVert x \rVert∥cx∥=∥c∥∥x∥

  3. 三角不等式∥x+y∥<∥x∥+∥y∥\lVert x+y \rVert \lt \lVert x \rVert + \lVert y \rVert∥x+y∥<∥x∥+∥y∥

Lp范数:∥x∥\lVert x \rVert∥x∥为x向量各个元素绝对值p次方和的1/p次方,∥x∥p=(∑iN∣xi∣p)1p{\lVert x \rVert}_p=(\sum_i^N |x_i|^p) ^ {\frac {1} {p}}∥x∥p​=(∑iN​∣xi​∣p)p1​

等价于优化:(∑iN∣xi∣p)<rp(\sum_i^N |x_i|^p) \lt r^p(∑iN​∣xi​∣p)<rp,以2维及2范数举例,这相当于一个圆。这就是Lp球的。

先验分布

从贝叶斯角度看,正则化可以理解为对模型加了先验。(正则化可以从其他角度去理解吗?) lr估计是采用maximum likelihood估计,加了先验就变成了 MAP了。

β^=arg⁡max⁡βp(β∣D)=arg⁡max⁡βp(D∣β)p(β)p(D)≈arg⁡max⁡βp(D∣β)p(β)\begin{align} \hat \beta &= \arg \max_{\beta} p(\beta | D) \\ &= \arg \max_{\beta} \frac {p(D|\beta)p(\beta)}{p(D)} \\ &\approx \arg \max_{\beta} p(D|\beta)p(\beta) \\ \end{align}β^​​=argβmax​p(β∣D)=argβmax​p(D)p(D∣β)p(β)​≈argβmax​p(D∣β)p(β)​​

看到这里,会不会又扯到共轭先验。 先记下来,以后梳理下 “共轭先验正则化”。 另外,为毛不直接MAP?,然后用变分贝叶斯

为了将置信区间confidence intervals 和 预测prediction联系起来,加入先验。但是比较困难,有MCMC和variational inference等近似方法。

假设先验为高斯分布:

p(β)=∏c∏i<dNorm(0,σi2)(βc,i)=1σi2πexp⁡(−βc,i22σi2)err=−log⁡p(D∣β)p(β)=−log⁡p(D∣β)−log⁡p(β)=−log⁡p(D∣β)−cβ2p(\beta) = \prod_{c} \prod_{i \lt d} Norm(0,\sigma_i^2)(\beta_{c,i}) \\ = \frac {1}{\sigma_i \sqrt{2\pi}} \exp(- \frac {\beta_{c,i}^2}{2 \sigma_i^2}) \\ err = - \log p(D|\beta)p(\beta) = - \log p(D|\beta) - \log p(\beta) = - \log p(D|\beta) - c \beta^2p(β)=c∏​i<d∏​Norm(0,σi2​)(βc,i​)=σi​2π​1​exp(−2σi2​βc,i2​​)err=−logp(D∣β)p(β)=−logp(D∣β)−logp(β)=−logp(D∣β)−cβ2

假设先验为拉普拉斯分布:

p(β)=∏c∏i<dLaplace(0,σi2)(βc,i)=22σiexp⁡(−2∣βc,i∣σi)err=−log⁡p(D∣β)p(β)=−log⁡p(D∣β)−log⁡p(β)=−log⁡p(D∣β)−c∣βc,i∣p(\beta) = \prod_{c} \prod_{i \lt d} Laplace(0,\sigma_i^2)(\beta_{c,i}) \\ = \frac {\sqrt{2}}{2 \sigma_i } \exp(- \sqrt{2} \frac {\left | \beta_{c,i} \right |}{\sigma_i}) \\ err = - \log p(D|\beta)p(\beta) = - \log p(D|\beta) - \log p(\beta) = - \log p(D|\beta) - c {\left | \beta_{c,i} \right | }p(β)=c∏​i<d∏​Laplace(0,σi2​)(βc,i​)=2σi​2​​exp(−2​σi​∣βc,i​∣​)err=−logp(D∣β)p(β)=−logp(D∣β)−logp(β)=−logp(D∣β)−c∣βc,i​∣

这就是L1范数约束的形式。

先验分布还有其他形式,见 《 Lazy sparse stochastic gradient descent for regularized multinomial logistic regression》

正则化符合奥卡姆剃刀原理(Occam's razor):在所有可能选择的模型中,能够很好地解释已知数据且十分简单的模型才是最好的模型。从贝叶斯估计的角度来看,就是正则化项对应于模型的先验概率,复杂的模型具有较小的先验概率,而简答的模型具有较大的先验概率。

简化后的L1正则形式:

1N∑n=1Nlog⁡(1+exp⁡(−ynWTXn))+λ∥W∥1\frac {1} {N} \sum_{n=1}^N \log (1+\exp(-y_n W^T X_n)) + \lambda \left \| W \right \|_1N1​n=1∑N​log(1+exp(−yn​WTXn​))+λ∥W∥1​

训练求解

L1-ADMM

1N∑n=1Nlog⁡(1+exp⁡(−ynWTXn))+λ∥W∥1⇔1N∑n=1Nlog⁡(1+exp⁡(−ynWTXn))+λ∥Z∥1s.t.W=Z\frac {1} {N} \sum_{n=1}^N \log (1+\exp(-y_n W^T X_n)) + \lambda \left \| W \right \|_1 \\ \Leftrightarrow \\ \frac {1} {N} \sum_{n=1}^N \log (1+\exp(-y_n W^T X_n)) + \lambda \left \| Z \right \|_1 \qquad s.t. \quad W=ZN1​n=1∑N​log(1+exp(−yn​WTXn​))+λ∥W∥1​⇔N1​n=1∑N​log(1+exp(−yn​WTXn​))+λ∥Z∥1​s.t.W=Z

并行化

Online Learning

a bayesian view

拿之前数据的后验,作为先验,递归下去:p(θ∣D1:k)∝p(Dk∣θ)p(θ∣D1:k−1)p(\theta|D_{1:k}) \propto p(D_k|\theta)p(\theta|D_{1:k-1})p(θ∣D1:k​)∝p(Dk​∣θ)p(θ∣D1:k−1​)

  1. 返回一个后验而不是一个点估计,有明显的好处。这可以在线适应超参,这也很重要,因为无法在线做交叉验证。

  2. 比SGD快得多。

出处:MLaPP page266 8.5.5 节

参考佳文

贝叶斯(bayesian)防止过拟合的确切机理?边缘化(marginalizing)的真实作用是什么?

额,还真有bayesian logistic regression这说法。MLaPP page 254。

这就是L2范数约束的形式。

batch learning

向量範數
https://www.zhihu.com/question/31464378/answer/52068253
详解并行逻辑回归
史上最全面的正则化技术总结与分析