DQN
https://zhuanlan.zhihu.com/sharerl 1. 首先Bellman方程 2. 策略迭代Policy Iteration求解 3. Value Iteration 价值迭代求解 4. Q-Learning
浅述:从 Minimax 到 AlphaZero,完全信息博弈之路(2)
GMIS 2017 | NIPS最佳论文作者之一吴翼:价值迭代网络
独家对话NIPS 2016最佳论文作者:如何打造新型强化学习观
策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO
DeepMind ICML 2017论文: 超越传统强化学习的价值分布方法
Neural Fictitious Self Play——从博弈论到深度强化学习
三十分钟理解博弈论“纳什均衡” -- Nash Equilibrium 深度强化学习初探 DQN 从入门到放弃 第一篇:DQN与增强学习 强化学习系列之一:马尔科夫决策过程 强化学习系列之一:马尔科夫决策过程 Python code for Reinforcement Learning: An Introduction Reinforcement_Learning_Blog A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)
深度强化学习导引 AlphaGo作者又一力作,攻克德州扑克 【David Silver强化学习公开课之一】强化学习入门
https://zhuanlan.zhihu.com/p/24761972 吴恩达对于增强学习的形象论述(上)
Last updated