PG和TD3

TD3

TD3 = Twin Delayed DDPG:三点改进:

改进1

Twin:有两个Q值预测网络,使用输出Q值较小的那个用作计算TD error的目标值;

Double DQN:

Double q learning(Q值来自于神经网络):

Clipped Double Q-learning algorithm:

改进2

Delayed:更新策略的频率要小于更新Q值,即训练actor网络的次数要小于训练critic网络;

在值网络估计不准确的情况下(TD error很大),更新策略会引发

在更新critic网络d次之后再更新actor网络

改进3

目标策略平滑:
Idea:相似的动作在同一个状态下的Q值也相似

Trick:

过程

效果

TD3 vs DDPG 参数设计

PG

一个特定的回合内,其生成的轨迹概率
轨迹:

概率:

重要性采样比率:

梯度公式:

*

带入求导:

又:

所以:

所以:

过程

蒙特卡洛估计方差太大,见下图:
使用神经网络来估计Q值

从上图看出负的噪声影响很大,怎么办呢?

可以增加一个b值补偿

推导:

方差公式和梯度公式:

梯度公式带入方差公式:

求导:

所以:

------ 本文结束 🎉🎉 谢谢观看 ------
0%