# MATH-Convex optimization

知识点计划分为三大块：

## 梯度下降

梯度下降，随机梯度（动量更新），\
精确直线搜索与非精确直线搜索，\
（脑洞大开版：非精确直线搜索时，第一步若就符合下降条件，可以试着增大步长或减少步长，看是否下降的更厉害。因为想要的是这步迭代使整个函数下降最大）\
最速下降法，坐标下降法，\
（脑洞大开版：在最速下降法与坐标下降法之间折中，每次下降取top k个下降最大的方向进行下降）\
牛顿法，拟牛顿法

## 对偶理论

拉格朗日函数，强对偶与kkt，\
然后障碍函数法与原对偶内点法

svm原问题与对偶问题 用梯度下降等迭代求解的速度是不一样的，是否其他的一些算法在对偶空间中求解速度也会快很多。

## ista AMDD

坐标下降法与分块坐标下降法与ADMM，

ista 这种带l1正则的， 与OWLQN算法。

[拉格朗日对偶性](http://www.hankcs.com/ml/lagrange-duality.html)\
[如果有最优解，为什么单纯形最终一定会达到最优解](https://www.zhihu.com/question/32166706)

非凸优化

[非凸优化基石：Lipschitz Condition](https://zhuanlan.zhihu.com/p/27554191)

[从Nesterov的角度看：我们为什么要研究凸优化？](https://zhuanlan.zhihu.com/p/27435669)

[为什么要对特征进行缩放(归一化)](https://zhuanlan.zhihu.com/p/25234554)

## 参考佳文

[An overview of gradient descent optimization algorithms](http://sebastianruder.com/optimizing-gradient-descent/)

[机遇与挑战：用强化学习自动搜索优化算法](https://mp.weixin.qq.com/s/nYOOwVoijl1p4V0A7yaI3w)

[掌握机器学习数学基础之优化\[1\]](https://zhuanlan.zhihu.com/p/30383127)

[机器学习概念篇：一文详解凸函数和凸优化，干货满满](https://zhuanlan.zhihu.com/p/51127402)

[直观理解对偶理论：单纯形法的视角](https://zhuanlan.zhihu.com/p/61336821)
