Machine Learning

Ctrlk

MATH-Convex optimization

知识点计划分为三大块：

梯度下降

梯度下降，随机梯度（动量更新），精确直线搜索与非精确直线搜索，（脑洞大开版：非精确直线搜索时，第一步若就符合下降条件，可以试着增大步长或减少步长，看是否下降的更厉害。因为想要的是这步迭代使整个函数下降最大）最速下降法，坐标下降法，（脑洞大开版：在最速下降法与坐标下降法之间折中，每次下降取top k个下降最大的方向进行下降）牛顿法，拟牛顿法

对偶理论

拉格朗日函数，强对偶与kkt，然后障碍函数法与原对偶内点法

svm原问题与对偶问题用梯度下降等迭代求解的速度是不一样的，是否其他的一些算法在对偶空间中求解速度也会快很多。

ista AMDD

坐标下降法与分块坐标下降法与ADMM，

ista 这种带l1正则的，与OWLQN算法。

拉格朗日对偶性如果有最优解，为什么单纯形最终一定会达到最优解

非凸优化

非凸优化基石：Lipschitz Condition

从Nesterov的角度看：我们为什么要研究凸优化？

为什么要对特征进行缩放(归一化)

参考佳文

An overview of gradient descent optimization algorithms

机遇与挑战：用强化学习自动搜索优化算法

掌握机器学习数学基础之优化[1]

机器学习概念篇：一文详解凸函数和凸优化，干货满满

直观理解对偶理论：单纯形法的视角

PreviousNonnegative Matrix Factorization Next梯度下降

Last updated 5 years ago

Was this helpful?