DQN

DQN 从入门到放弃4 动态规划与Q-Learning

https://zhuanlan.zhihu.com/sharerl 1. 首先Bellman方程 2. 策略迭代Policy Iteration求解 3. Value Iteration 价值迭代求解 4. Q-Learning

浅述:从 Minimax 到 AlphaZero,完全信息博弈之路(2)

GMIS 2017 | NIPS最佳论文作者之一吴翼:价值迭代网络

独家对话NIPS 2016最佳论文作者:如何打造新型强化学习观

策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

荐译一篇通俗易懂的策略梯度方法讲解

DeepMind ICML 2017论文: 超越传统强化学习的价值分布方法

Neural Fictitious Self Play——从博弈论到深度强化学习

三十分钟理解博弈论“纳什均衡” -- Nash Equilibrium 深度强化学习初探 DQN 从入门到放弃 第一篇:DQN与增强学习 强化学习系列之一:马尔科夫决策过程 强化学习系列之一:马尔科夫决策过程 Python code for Reinforcement Learning: An Introduction Reinforcement_Learning_Blog A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)

深度强化学习导引 AlphaGo作者又一力作,攻克德州扑克 【David Silver强化学习公开课之一】强化学习入门

https://zhuanlan.zhihu.com/p/24761972 吴恩达对于增强学习的形象论述(上)

吴恩达对于增强学习的形象论述(下)

增强学习的解释——学习基于长期回报的行为

深度增强学习【1】走向通用人工智能之路

深度增强学习【2】从多臂赌博机问题到蒙特卡洛树搜索

「模仿学习」的确强大,但你知道它和「强化学习」的关系吗?

从Q学习到DDPG,一文简述多种强化学习算法

DeepMind SR论文:非对称博弈的对称分解

Role of RL in Text Generation by GAN(强化学习在生成对抗网络文本生成中扮演的角色)