DQN | sylvia

传统强化学习的局限性，无法很好的解决状态空间或者动作空间很大的实际问题
举例：小车使用相机进行导航，动作为向左，向前，向右，3种

100 x 100的灰度图片，状态数：

$256^{10000}如果使用q-learning，q(s,a)的个数为3\times256^{10000}$

以现在的存储与计算能力，不可能完成

能不能根据现在的状态来估计Q(s,a)的值？

1547649673355

假设近似器参数为w,注意有些公式给的是θ，两者是一个意思

回归器的选择:

深度Q网络(Deep Q-Network,DQN):

Q-learning(离策略（Off-policy）TD控制):

Q learning学习目标：

Q函数近似的学习目标:

θ可以是任何回归器的参数，如果特指深度神经网络，那么我们也称之为深度Q网络

深度Q网络(Deep Q-Network,dqn)
1、如何通过神经网络进行近似
端到端的形式
输入：状态或者观测
输出：Q值
２、与监督学习的异同？

不用人工标注,神经网络生成

１、数据怎么来？
使用当下策略生成。
2.、有没有问题？
相邻两次的更新使用的样本是是相关的
Q（s1,a1）=0.9, 估计成了1.0, s2与s1很相似
Q(s2,a1) = 0.05+1*0.99=1.04，s3与s2很相似
……
3 、在训练时，打散训练样本的顺序

定义一个replay buffer，RB, 记录下前N次的rollouts
在训练的时候，随机采样，进行训练

DQN with experience replay ：