Machine Learning
  • Introduction
  • man
  • Linear model
    • Linear Regression
    • Generalized Linear Models
    • Nonlinear regression
  • bayes
    • bayesian network
    • Variational Bayesian inference
    • Gaussian Process Regression
  • Logistic Regression
    • L1 regularization
    • L2 regularization
    • softmax
    • Overflow and Underflow
  • SVM
    • C-SVM
    • C-SVM求解
  • EM
    • GMM
  • Maximum Entropy
    • IIS
  • HMM
    • viterbi algorithm
  • CRF
  • Random Forest
    • bagging
    • random forest
  • boosting
    • catboost
    • gradient boosting
    • Newton Boosting
    • online boosting
    • gcForest
    • Mixture models
    • XGBoost
    • lightGBM
    • SecureBoost
  • LDA
  • rank
    • RankNet
    • LambdaRank
    • SimRank
  • Factorization Machine
    • Field-aware Factorization Machine
    • xdeepFM
  • Clustering
    • BIRCH
    • Deep Embedding Clustering
  • Kalman filtering
  • word2vec
  • 关联规则挖掘
  • MATH-Mathematical Analysis
    • measure
  • MATH-probability
    • Variational Inference
    • Dirichlet分布
    • Gibbs Sampling
    • Maximum entropy probability distribution
    • Conjugate prior
    • Gaussian Process
    • Markov process
    • Poisson process
    • measure
    • Gumbel
  • MATH-Linear Algebra
    • SVD
    • SVD-推荐
    • PCA
    • Linear Discriminant Analysis
    • Nonnegative Matrix Factorization
  • MATH-Convex optimization
    • 梯度下降
    • 随机梯度下降
    • 牛顿法
    • L-BFGS
    • 最速下降法
    • 坐标下降法
    • OWL-QN
    • 对偶问题
    • 障碍函数法
    • 原对偶内点法
    • ISTA
    • ADMM
    • SAG
  • MATH-碎碎念
    • cost function
    • Learning Theory
    • sampling
    • Entropy
    • variational inference
    • basis function
    • Diffie–Hellman key exchange
    • wavelet transform
    • 图
    • Portfolio
    • 凯利公式
  • ML碎碎念
    • 特征
    • test
    • TF-IDF
    • population stability index
    • Shapley Values
  • 课件
    • xgboost算法演进
  • Time Series
  • PID
  • graph
    • SimRank
    • community detection
    • FRAUDAR
    • Anti-Trust Rank
    • Struc2Vec
    • graph theory
    • GNN
  • Anomaly Detection
    • Isolation Forest
    • Time Series
  • Dimensionality Reduction
    • Deep Embedded Clustering
  • Federated Learning
  • automl
  • Look-alike
  • KNN
  • causal inference
Powered by GitBook
On this page
  • 梯度下降
  • 对偶理论
  • ista AMDD
  • 参考佳文

Was this helpful?

MATH-Convex optimization

PreviousNonnegative Matrix FactorizationNext梯度下降

Last updated 5 years ago

Was this helpful?

知识点计划分为三大块:

梯度下降

梯度下降,随机梯度(动量更新), 精确直线搜索与非精确直线搜索, (脑洞大开版:非精确直线搜索时,第一步若就符合下降条件,可以试着增大步长或减少步长,看是否下降的更厉害。因为想要的是这步迭代使整个函数下降最大) 最速下降法,坐标下降法, (脑洞大开版:在最速下降法与坐标下降法之间折中,每次下降取top k个下降最大的方向进行下降) 牛顿法,拟牛顿法

对偶理论

拉格朗日函数,强对偶与kkt, 然后障碍函数法与原对偶内点法

svm原问题与对偶问题 用梯度下降等迭代求解的速度是不一样的,是否其他的一些算法在对偶空间中求解速度也会快很多。

ista AMDD

坐标下降法与分块坐标下降法与ADMM,

ista 这种带l1正则的, 与OWLQN算法。

非凸优化

参考佳文

拉格朗日对偶性
如果有最优解,为什么单纯形最终一定会达到最优解
非凸优化基石:Lipschitz Condition
从Nesterov的角度看:我们为什么要研究凸优化?
为什么要对特征进行缩放(归一化)
An overview of gradient descent optimization algorithms
机遇与挑战:用强化学习自动搜索优化算法
掌握机器学习数学基础之优化[1]
机器学习概念篇:一文详解凸函数和凸优化,干货满满
直观理解对偶理论:单纯形法的视角