deeplearning
  • Introduction
  • 神经网络
    • 激励函数
    • 反向传播
  • Auto Encoder
    • Denoising Autoencoder
    • Variational Autoencoder
    • Wasserstein AE
  • CNN
    • Convolution
    • pooling
  • RBM
  • RBF
  • RNN
    • LSTM
    • practice
    • Transformer
  • DQN
    • nothing
    • Combinatorial Optimization
  • GAN
  • kownledge graphs
  • Genetic Algorithm
  • Meta Learning
  • Transformer
Powered by GitBook
On this page

Was this helpful?

DQN

PreviousTransformerNextnothing

Last updated 5 years ago

Was this helpful?

1. 首先Bellman方程 2. 策略迭代Policy Iteration求解 3. Value Iteration 价值迭代求解 4. Q-Learning

吴恩达对于增强学习的形象论述(上)

DQN 从入门到放弃4 动态规划与Q-Learning
https://zhuanlan.zhihu.com/sharerl
浅述:从 Minimax 到 AlphaZero,完全信息博弈之路(2)
GMIS 2017 | NIPS最佳论文作者之一吴翼:价值迭代网络
独家对话NIPS 2016最佳论文作者:如何打造新型强化学习观
策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO
荐译一篇通俗易懂的策略梯度方法讲解
DeepMind ICML 2017论文: 超越传统强化学习的价值分布方法
Neural Fictitious Self Play——从博弈论到深度强化学习
三十分钟理解博弈论“纳什均衡” -- Nash Equilibrium
深度强化学习初探
DQN 从入门到放弃 第一篇:DQN与增强学习
强化学习系列之一:马尔科夫决策过程
强化学习系列之一:马尔科夫决策过程
Python code for Reinforcement Learning: An Introduction
Reinforcement_Learning_Blog
A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)
深度强化学习导引
AlphaGo作者又一力作,攻克德州扑克
【David Silver强化学习公开课之一】强化学习入门
https://zhuanlan.zhihu.com/p/24761972
吴恩达对于增强学习的形象论述(下)
增强学习的解释——学习基于长期回报的行为
深度增强学习【1】走向通用人工智能之路
深度增强学习【2】从多臂赌博机问题到蒙特卡洛树搜索
「模仿学习」的确强大,但你知道它和「强化学习」的关系吗?
从Q学习到DDPG,一文简述多种强化学习算法
DeepMind SR论文:非对称博弈的对称分解
Role of RL in Text Generation by GAN(强化学习在生成对抗网络文本生成中扮演的角色)