Machine Learning
  • Introduction
  • man
  • Linear model
    • Linear Regression
    • Generalized Linear Models
    • Nonlinear regression
  • bayes
    • bayesian network
    • Variational Bayesian inference
    • Gaussian Process Regression
  • Logistic Regression
    • L1 regularization
    • L2 regularization
    • softmax
    • Overflow and Underflow
  • SVM
    • C-SVM
    • C-SVM求解
  • EM
    • GMM
  • Maximum Entropy
    • IIS
  • HMM
    • viterbi algorithm
  • CRF
  • Random Forest
    • bagging
    • random forest
  • boosting
    • catboost
    • gradient boosting
    • Newton Boosting
    • online boosting
    • gcForest
    • Mixture models
    • XGBoost
    • lightGBM
    • SecureBoost
  • LDA
  • rank
    • RankNet
    • LambdaRank
    • SimRank
  • Factorization Machine
    • Field-aware Factorization Machine
    • xdeepFM
  • Clustering
    • BIRCH
    • Deep Embedding Clustering
  • Kalman filtering
  • word2vec
  • 关联规则挖掘
  • MATH-Mathematical Analysis
    • measure
  • MATH-probability
    • Variational Inference
    • Dirichlet分布
    • Gibbs Sampling
    • Maximum entropy probability distribution
    • Conjugate prior
    • Gaussian Process
    • Markov process
    • Poisson process
    • measure
    • Gumbel
  • MATH-Linear Algebra
    • SVD
    • SVD-推荐
    • PCA
    • Linear Discriminant Analysis
    • Nonnegative Matrix Factorization
  • MATH-Convex optimization
    • 梯度下降
    • 随机梯度下降
    • 牛顿法
    • L-BFGS
    • 最速下降法
    • 坐标下降法
    • OWL-QN
    • 对偶问题
    • 障碍函数法
    • 原对偶内点法
    • ISTA
    • ADMM
    • SAG
  • MATH-碎碎念
    • cost function
    • Learning Theory
    • sampling
    • Entropy
    • variational inference
    • basis function
    • Diffie–Hellman key exchange
    • wavelet transform
    • 图
    • Portfolio
    • 凯利公式
  • ML碎碎念
    • 特征
    • test
    • TF-IDF
    • population stability index
    • Shapley Values
  • 课件
    • xgboost算法演进
  • Time Series
  • PID
  • graph
    • SimRank
    • community detection
    • FRAUDAR
    • Anti-Trust Rank
    • Struc2Vec
    • graph theory
    • GNN
  • Anomaly Detection
    • Isolation Forest
    • Time Series
  • Dimensionality Reduction
    • Deep Embedded Clustering
  • Federated Learning
  • automl
  • Look-alike
  • KNN
  • causal inference
Powered by GitBook
On this page
  • nesterov momentum
  • Adam
  • SGD调参
  • L1 Stochastic Gradient Descent
  • 参考佳文

Was this helpful?

  1. MATH-Convex optimization

随机梯度下降

Previous梯度下降Next牛顿法

Last updated 5 years ago

Was this helpful?

迭代中存在的各种问题:

  • 学习率太大

  • 学习率过早调小

  • 不同参数学习率不同

  • SGD容易卡在鞍点

于是乎SGD很多改进版本出现了。

注意该链接中最后一个Saddle Point可视图,这个常遇到。

nesterov momentum

如何理解momentum: 原始的是沿着当前点的负梯度走,这个方向仅仅是当前点看上去下降最快的。之前的负梯度是站在之前点上看上去下降最快的方向。可否揉合一点之前的方向,形成的新方向岂不是更有大局观一点!so, the momentum!

Adam

SGD调参

GSA算法的核心原理非常简单:在迭代的每一步对单个样本的损失函数做线搜索。具体来说,我们对逻辑回归和softmax回归的交叉熵损失函数,推导出了一套仅用当前样本点的梯度信息来计算精确线搜索步长的近似公式。我们把利用这套近似公式得到的步长做时间平均来计算当前迭代步的学习率。这样做有两方面的好处:基于精确线搜索得到的步长包含了当前迭代点到全局极小的距离信息——接近收敛时步长比较小,反之则更大,因而保证收敛速度;另一方面平均策略使算法对离群点更鲁棒,损失下降曲线不至剧烈抖动,为算法带来了额外的稳定性。

L1 Stochastic Gradient Descent

以及MLAPP第13章 spare Linear modle,专门讲了 L1问题的各种求解,包括FISTA等。

参考佳文

Imgur网友通过可视化方法,对比了SGD, momentum, Nesterov, AdaGrad, AdaDelta, RMSProp等优化算法在Long Valley, Beale's Function及Saddle Point情况下的性质:

理解为: momentum :合并当前点的梯度和 之前几步梯度的累加(因为很多步以前的变成了 γm\gamma^mγm,影响非常小) Nesterov momentum:当前点,再向当前累加的梯度冲出一段 ,到达新的点后求梯度, 再加上之前几步的梯度累加。

这个应该更好点吧

比对各种算法的速度和并行化。

《Fast Asynchronous Parallel Stochastic Gradient Decent》快速并行随机梯度下降 《Stochastic Gradient Descent Tricks》 和

NIPS 2016 异步SGD

Visualizing Optimization Algos
Greedy Step Averaging: A parameter-free stochastic optimization method
轻量级大规模机器学习算法库Fregata开源:快速,无需调参
Stochastic Gradient Descent
Incorporating Nesterov Momentum into Adam
Neural Networks for Machine Learning
BRML/climin
rmsprop
Optimization techniques comparison in Julia: SGD, Momentum, Adagrad, Adadelta, Adam
https://www.zhihu.com/question/49567256/answer/116858150
线性收敛的随机优化算法 之 SAG、SVRG
Accelerating Stochastic Gradient Descent using Predictive Variance Reduction
深度解读最流行的优化算法:梯度下降
各种优化方法总结比较(sgd/momentum/Nesterov/adagrad/adadelta)
An overview of gradient descent optimization algorithms
深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)
CS231n Convolutional Neural Networks for Visual Recognition
Adam: A Method for Stochastic Optimization