蒙特卡洛方法

如何在没有模型的情况下评估一个策略？

如何计算Ｖ（ｓ）和Ｑ（ｓ）？

通过采样的方式

如何得到数据？

首次访问蒙特卡洛预测（评估）：

Every-Visit Monte-Carlo Policy Evaluation:

Incremental Mean:

Incremental Monte-Carlo Updates

在预测完成当前策略下的V和Q之后，我们需要对当下的策略进行改进
可以采用完全贪婪的策略提升吗？

s4->s3; s3->s2;s2->s2;s2->s1;
s4->s3; s3->s2;s2->s1;

V(s)，Q(s,a)
0,1,1,1,0,0,0
Q(s2,a=左)= Q(s3,a=左)= Q(s4,a=左)=1，Q(s4,a=右)=0
一直向左走？

目的： Exploration（探索）与Exploitation（利用）

ε∈(0,1)，随着时间的推移逐渐减小直至0

产生一个(0,1)的随机数m

如果ε>m
采取随机策略，例如一共4个动作，那么选每一个动作的概率都是 0.25
如果ε<m
采取贪婪策略，计算当前网络所有输出值Q(St,a)，选择使得Q(St,a)最大的那个at值作为下一步的动作

On-pokicy first-visit 蒙特卡洛方法：

一个特定的回合内，其生成的轨迹概率：

轨迹：

重要性采样比率：

使用重要性采样的蒙特卡洛方法：