nothing

R是一个当前状态的奖励,是当前状态转移后的t+1时刻奖励的期望的函数。

上面公式的理解:

或这么理解:

https://zhuanlan.zhihu.com/p/35134789

状态转移概率:

状态奖励:

状态值函数:

蒙特卡洛方法: https://zhuanlan.zhihu.com/p/33387269

蒙特卡洛方法要等到事件结束,最后的奖励Gt出来后,才进行值函数更新。

时间差分: https://zhuanlan.zhihu.com/p/36254714

利用e-greedy策略的Q值更新,在线时间差分控制

利用最大的Q值更新,离线时间差分控制

https://zhuanlan.zhihu.com/p/33426502

多步时间差分:https://zhuanlan.zhihu.com/p/37340768

https://zhuanlan.zhihu.com/p/36390206

这样子,整个系统中有两个网络:策略网络和V值网络。(在DQN中我们是用网络拟合Q值函数,这里只不过换成了V值函数。相似的,V值网络的目标函数同样是TD-error)这就是我们大名鼎鼎的Actor Critic 算法了:Actor ——策略网络,Critic ——V值网络。

流程如下:

  1. 运行策略生成样本

  2. 利用样本估计V值函数(更新V值网络)

  3. 计算优势函数A

  4. 根据优势函数A计算梯度(更新策略网络)

为了高效的利用sample出来的数据,可以对数据进行importance sampling:

https://zhuanlan.zhihu.com/p/39624504

https://zhuanlan.zhihu.com/p/38185553

https://github.com/google/dopamine

Last updated