牛顿法
牛顿下降方向:
dir=(∇2L(w))−1(−∇L(w))
牛顿下降方向原因:
∇L(w+d)=0∇L(w+d)≈∇L(w)+d∇2L(w)=0d=(∇2L(w))−1(−∇L(w)) 缺点:Hessian逆矩阵计算复杂,所以高维数据复杂度不可接受。
注意,Hessian逆矩阵不一定正定,所以不一定是下降方向。
一般步长为1,所以每步下降量:σ(x)=(∇f(x)T∇2f(x)−1∇f(x))21 。所以停止条件可以为(注意与负梯度下降中的停止条件):σ(x)≤ϵ 。
阻尼牛顿法
固定步长的牛顿法,目标函数不一定得到改善。所以使用直线搜索来修正。
X(k+1)=X(k)+tkdk
梯度法下降和牛顿法下降各有优点和缺点,有没有组合了有点避免了缺点方法?拟牛顿法!
拟牛顿法下降
寻找Hessian矩阵或逆矩阵的代替品,Hessian阵应该近似满足:
∇f(xk+1)−∇f(xk)=Hk(xk+1−xk)
拟牛顿法的切线方程条件:
记yk=∇f(xk+1)−∇f(xk),sk=xk+1−xk ,择有:
Hk−1yk=sk
替代矩阵 为正定矩阵的充分条件:
skTyk>0
1. 此条件,凸函数成立,非凸函数不一定成立。
2. 如果wolfe条件满足,则上式也成立。
证明:∇fk+1Tsk≥c2∇fkTsk skTyk>(c2−1)∇fkTsk>0
替代矩阵产生的原则:
产生的解法有 DFP和BFGS等
参考佳文
最优化问题中,牛顿法为什么比梯度下降法求解需要的迭代次数更少?