最速下降法
梯度下降每步所求:
argdmin{∇f(xk)Tds.t.∣∣d∣∣=1}=−argdmax{∣∇f(xk)Td∣s.t.∣∣d∣∣=1}
范数定义不同,方向不同,例如对于L1范数:
dk=−sign(∂xi∂f(x))eii=argjmax∣∂xi∂f(x)∣
验证是下降方向:
∇f(xk)=0∇f(xk)Tdk<∇f(xk)T∣∣∇f(xk)∣∣−∇f(xk)=−∣∣∇f(xk)∣∣<0
证明:
∣a⋅b∣=∣a1b1+…+anbn∣≤∣a1b1∣+…+∣anbn∣≤∣ak∣∗(∣b1∣+…+∣bn∣)=∣∣a∣∣∞∣∣b∣∣1∣∣a∣∣∞=max∣ai∣∣∇f(xk)Td∣<∣∣∇f(xk)∣∣∗∣∣d∣∣1
算法过程


最速下降法直观上就是沿着变换最快的坐标下降。所以接下来引出坐标下降法及分块坐标下降法。
https://zhuanlan.zhihu.com/p/23799012 无聊的最速下降法推导
Last updated