MATH-Convex optimization

知识点计划分为三大块:

梯度下降

梯度下降,随机梯度(动量更新), 精确直线搜索与非精确直线搜索, (脑洞大开版:非精确直线搜索时,第一步若就符合下降条件,可以试着增大步长或减少步长,看是否下降的更厉害。因为想要的是这步迭代使整个函数下降最大) 最速下降法,坐标下降法, (脑洞大开版:在最速下降法与坐标下降法之间折中,每次下降取top k个下降最大的方向进行下降) 牛顿法,拟牛顿法

对偶理论

拉格朗日函数,强对偶与kkt, 然后障碍函数法与原对偶内点法

svm原问题与对偶问题 用梯度下降等迭代求解的速度是不一样的,是否其他的一些算法在对偶空间中求解速度也会快很多。

ista AMDD

坐标下降法与分块坐标下降法与ADMM,

ista 这种带l1正则的, 与OWLQN算法。

拉格朗日对偶性 如果有最优解,为什么单纯形最终一定会达到最优解

非凸优化

非凸优化基石:Lipschitz Condition

从Nesterov的角度看:我们为什么要研究凸优化?

为什么要对特征进行缩放(归一化)

参考佳文

An overview of gradient descent optimization algorithms

机遇与挑战:用强化学习自动搜索优化算法

掌握机器学习数学基础之优化[1]

机器学习概念篇:一文详解凸函数和凸优化,干货满满

直观理解对偶理论:单纯形法的视角

Last updated