知识点计划分为三大块:
梯度下降,随机梯度(动量更新), 精确直线搜索与非精确直线搜索, (脑洞大开版:非精确直线搜索时,第一步若就符合下降条件,可以试着增大步长或减少步长,看是否下降的更厉害。因为想要的是这步迭代使整个函数下降最大) 最速下降法,坐标下降法, (脑洞大开版:在最速下降法与坐标下降法之间折中,每次下降取top k个下降最大的方向进行下降) 牛顿法,拟牛顿法
拉格朗日函数,强对偶与kkt, 然后障碍函数法与原对偶内点法
svm原问题与对偶问题 用梯度下降等迭代求解的速度是不一样的,是否其他的一些算法在对偶空间中求解速度也会快很多。
坐标下降法与分块坐标下降法与ADMM,
ista 这种带l1正则的, 与OWLQN算法。
拉格朗日对偶性arrow-up-right 如果有最优解,为什么单纯形最终一定会达到最优解arrow-up-right
非凸优化
非凸优化基石:Lipschitz Conditionarrow-up-right
从Nesterov的角度看:我们为什么要研究凸优化?arrow-up-right
为什么要对特征进行缩放(归一化)arrow-up-right
An overview of gradient descent optimization algorithmsarrow-up-right
机遇与挑战:用强化学习自动搜索优化算法arrow-up-right
掌握机器学习数学基础之优化[1]arrow-up-right
机器学习概念篇:一文详解凸函数和凸优化,干货满满arrow-up-right
直观理解对偶理论:单纯形法的视角arrow-up-right
Last updated 5 years ago