梯度下降每步所求:
范数定义不同,方向不同,例如对于L1范数:
最速下降法直观上就是沿着变换最快的坐标下降。所以接下来引出坐标下降法及分块坐标下降法。
Last updated 4 years ago
Was this helpful?
无聊的最速下降法推导