DQN

DQN 从入门到放弃4 动态规划与Q-Learning

https://zhuanlan.zhihu.com/sharerl 1. 首先Bellman方程 2. 策略迭代Policy Iteration求解 3. Value Iteration 价值迭代求解 4. Q-Learning

浅述：从 Minimax 到 AlphaZero，完全信息博弈之路（2）

GMIS 2017 | NIPS最佳论文作者之一吴翼：价值迭代网络

独家对话NIPS 2016最佳论文作者：如何打造新型强化学习观

策略梯度下降过时了，OpenAI 拿出一种新的策略优化算法PPO

荐译一篇通俗易懂的策略梯度方法讲解

DeepMind ICML 2017论文：超越传统强化学习的价值分布方法

Neural Fictitious Self Play——从博弈论到深度强化学习

三十分钟理解博弈论“纳什均衡” -- Nash Equilibrium 深度强化学习初探 DQN 从入门到放弃第一篇：DQN与增强学习强化学习系列之一:马尔科夫决策过程强化学习系列之一:马尔科夫决策过程 Python code for Reinforcement Learning: An Introduction Reinforcement_Learning_Blog A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)

深度强化学习导引 AlphaGo作者又一力作，攻克德州扑克【David Silver强化学习公开课之一】强化学习入门

https://zhuanlan.zhihu.com/p/24761972 吴恩达对于增强学习的形象论述（上）

吴恩达对于增强学习的形象论述（下）

增强学习的解释——学习基于长期回报的行为

深度增强学习【1】走向通用人工智能之路

深度增强学习【2】从多臂赌博机问题到蒙特卡洛树搜索

「模仿学习」的确强大，但你知道它和「强化学习」的关系吗？

从Q学习到DDPG，一文简述多种强化学习算法

DeepMind SR论文：非对称博弈的对称分解

Role of RL in Text Generation by GAN(强化学习在生成对抗网络文本生成中扮演的角色)

PreviousTransformer Nextnothing

Last updated 5 years ago