Machine Learning
  • Introduction
  • man
  • Linear model
    • Linear Regression
    • Generalized Linear Models
    • Nonlinear regression
  • bayes
    • bayesian network
    • Variational Bayesian inference
    • Gaussian Process Regression
  • Logistic Regression
    • L1 regularization
    • L2 regularization
    • softmax
    • Overflow and Underflow
  • SVM
    • C-SVM
    • C-SVM求解
  • EM
    • GMM
  • Maximum Entropy
    • IIS
  • HMM
    • viterbi algorithm
  • CRF
  • Random Forest
    • bagging
    • random forest
  • boosting
    • catboost
    • gradient boosting
    • Newton Boosting
    • online boosting
    • gcForest
    • Mixture models
    • XGBoost
    • lightGBM
    • SecureBoost
  • LDA
  • rank
    • RankNet
    • LambdaRank
    • SimRank
  • Factorization Machine
    • Field-aware Factorization Machine
    • xdeepFM
  • Clustering
    • BIRCH
    • Deep Embedding Clustering
  • Kalman filtering
  • word2vec
  • 关联规则挖掘
  • MATH-Mathematical Analysis
    • measure
  • MATH-probability
    • Variational Inference
    • Dirichlet分布
    • Gibbs Sampling
    • Maximum entropy probability distribution
    • Conjugate prior
    • Gaussian Process
    • Markov process
    • Poisson process
    • measure
    • Gumbel
  • MATH-Linear Algebra
    • SVD
    • SVD-推荐
    • PCA
    • Linear Discriminant Analysis
    • Nonnegative Matrix Factorization
  • MATH-Convex optimization
    • 梯度下降
    • 随机梯度下降
    • 牛顿法
    • L-BFGS
    • 最速下降法
    • 坐标下降法
    • OWL-QN
    • 对偶问题
    • 障碍函数法
    • 原对偶内点法
    • ISTA
    • ADMM
    • SAG
  • MATH-碎碎念
    • cost function
    • Learning Theory
    • sampling
    • Entropy
    • variational inference
    • basis function
    • Diffie–Hellman key exchange
    • wavelet transform
    • 图
    • Portfolio
    • 凯利公式
  • ML碎碎念
    • 特征
    • test
    • TF-IDF
    • population stability index
    • Shapley Values
  • 课件
    • xgboost算法演进
  • Time Series
  • PID
  • graph
    • SimRank
    • community detection
    • FRAUDAR
    • Anti-Trust Rank
    • Struc2Vec
    • graph theory
    • GNN
  • Anomaly Detection
    • Isolation Forest
    • Time Series
  • Dimensionality Reduction
    • Deep Embedded Clustering
  • Federated Learning
  • automl
  • Look-alike
  • KNN
  • causal inference
Powered by GitBook
On this page
  • 牛顿法
  • 阻尼牛顿法
  • 拟牛顿法下降
  • 参考佳文

Was this helpful?

  1. MATH-Convex optimization

牛顿法

牛顿法

牛顿下降方向: dir=(∇2L(w))−1(−∇L(w))dir = (\nabla^2 L(w))^{-1}(-\nabla L(w))dir=(∇2L(w))−1(−∇L(w))

牛顿下降方向原因:

∇L(w+d)=0∇L(w+d)≈∇L(w)+d∇2L(w)=0d=(∇2L(w))−1(−∇L(w))\nabla L(w+d) = 0 \\ \nabla L(w+d) \approx \nabla L(w) + d \nabla^2 L(w)= 0 \\ d = (\nabla^2 L(w))^{-1}(-\nabla L(w))∇L(w+d)=0∇L(w+d)≈∇L(w)+d∇2L(w)=0d=(∇2L(w))−1(−∇L(w))

缺点:Hessian逆矩阵计算复杂,所以高维数据复杂度不可接受。 注意,Hessian逆矩阵不一定正定,所以不一定是下降方向。

一般步长为1,所以每步下降量:σ(x)=(∇f(x)T∇2f(x)−1∇f(x))12\sigma(x) = (\nabla f(x)^T \nabla^2 f(x)^{-1} \nabla f(x) )^{\frac 12}σ(x)=(∇f(x)T∇2f(x)−1∇f(x))21​ 。所以停止条件可以为(注意与负梯度下降中的停止条件):σ(x)≤ϵ\sigma(x) \le \epsilonσ(x)≤ϵ 。

阻尼牛顿法

固定步长的牛顿法,目标函数不一定得到改善。所以使用直线搜索来修正。 X(k+1)=X(k)+tkdkX^{(k+1)} = X^{(k)} + t_k d^{k}X(k+1)=X(k)+tk​dk

梯度法下降和牛顿法下降各有优点和缺点,有没有组合了有点避免了缺点方法?拟牛顿法!

拟牛顿法下降

寻找Hessian矩阵或逆矩阵的代替品,Hessian阵应该近似满足: ∇f(xk+1)−∇f(xk)=Hk(xk+1−xk)\nabla f(x_{k+1}) - \nabla f(x_k) = H_k(x_{k+1} - x_k)∇f(xk+1​)−∇f(xk​)=Hk​(xk+1​−xk​)

拟牛顿法的切线方程条件: 记yk=∇f(xk+1)−∇f(xk),sk=xk+1−xky_k = \nabla f(x_{k+1}) - \nabla f(x_k) , s_k = x_{k+1} - x_kyk​=∇f(xk+1​)−∇f(xk​),sk​=xk+1​−xk​ ,择有: Hk−1yk=skH_k^{-1} y_k = s_kHk−1​yk​=sk​

替代矩阵 为正定矩阵的充分条件: skTyk>0s_k^{T} y_k \gt 0skT​yk​>0 1. 此条件,凸函数成立,非凸函数不一定成立。 2. 如果wolfe条件满足,则上式也成立。 证明:∇fk+1Tsk≥c2∇fkTsk skTyk>(c2−1)∇fkTsk>0\nabla f_{k+1}^{T} s_k \ge c_2 \nabla f_k^T s_k \ s_k^{T} y_k \gt (c_2-1) \nabla f_k^T s_k \gt 0∇fk+1T​sk​≥c2​∇fkT​sk​ skT​yk​>(c2​−1)∇fkT​sk​>0

替代矩阵产生的原则:

  • 迭代产生

  • 满足切线方程和对称条件

  • 同时尽可能和上一步的替代矩阵相似

产生的解法有 DFP和BFGS等

参考佳文

Previous随机梯度下降NextL-BFGS

Last updated 5 years ago

Was this helpful?

最优化问题中,牛顿法为什么比梯度下降法求解需要的迭代次数更少?