DQN

DQN的背景

传统强化学习的局限性,无法很好的解决状态空间或者动作空间很大的实际问题
举例:小车使用相机进行导航,动作为向左,向前,向右,3种

100 x 100的灰度图片,状态数:

以现在的存储与计算能力,不可能完成

  • 首先解决状态空间很大的问题

能不能根据现在的状态来估计Q(s,a)的值?

1547649673355

价值函数估计

假设近似器参数为w,注意有些公式给的是θ,两者是一个意思

回归器的选择:

  • 特征线性组合

  • 神经网络

  • 决策树

  • 最近邻

  • 傅里叶/小波基

DQN VS Q_learning

深度Q网络(Deep Q-Network,DQN):

Q-learning(离策略(Off-policy)TD控制):

Q learning学习目标:

Q函数近似的学习目标:

θ可以是任何回归器的参数,如果特指深度神经网络,那么我们也称之为深度Q网络

深度Q网络(Deep Q-Network,dqn)
1、如何通过神经网络进行近似
端到端的形式
输入:状态或者观测
输出:Q值
2、与监督学习的异同?

不用人工标注,神经网络生成

目标值

1、数据怎么来?
使用当下策略生成。
2.、有没有问题?
相邻两次的更新使用的样本是是相关的
Q(s1,a1)=0.9, 估计成了1.0, s2与s1很相似
Q(s2,a1) = 0.05+1*0.99=1.04,s3与s2很相似
……
3 、在训练时,打散训练样本的顺序

经验回放

定义一个replay buffer,RB, 记录下前N次的rollouts
在训练的时候,随机采样,进行训练

DQN with experience replay :

------ 本文结束 🎉🎉 谢谢观看 ------
0%