PG3 & IRL

发表于 2019-01-20 | 分类于强化学习 |

字数统计: 492 | 阅读时长 ≈ 1

参考资料

Reinforcement Learning: An Introduction
http://incompleteideas.net/book/the-book-2nd.html
Dave Silver强化学习课程
http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

ＰＧ

AC

ＰＰＯ

近端策略优化（Proximal Policy Optimization，PPO)

https://spinningup.openai.com/en/latest/algorithms/ppo.html

PPO的优点：

VGP:在线采样，在线更新，采样完成的数据用来更新一次，因为更新过一次之后，策略就发生了改变（策略评估只能使用当下的策略生成数据），样本利用率低，效率低。
PPO:在线采样，离线更新，采样完后的数据可以用来多次更新网络，样本利用率高，效率高。
如何用之前的策略生成的数据评估当下的策略，重要性采样！

重要性采样

因为：

所以期望：

方差：

可见：

重要性采样（提高数据利用率）+约束策略变化幅度（减少方差）：

PPO:

TRPO:

PPO-Clip

当优势值为正：

当优势值为负：

ＩＴ

正向强化学习中，所有的agent都是从头学习，其劣势有：
1：需要由专家给出合理的奖励函数，很难对复杂的动作给出一个合适的奖励动作，例如飞机特技表演。
2：比较耗时，需要训练成百上千个回合，并且有很多情况下，真实环境不具备这样的训练条件（不安全，价格昂贵），例如手术机器人学习动手术。
怎么办？
由专家进行演示，让学习者进行模仿
模仿学习（Imitation Learning）：

1：直接法：直接学习策略
监督式学习：行为克隆 Behavior Cloning
2：间接法：学习奖励机制
逆向强化学习（Inverse reinforcement learning）

直接法

监督式学习：行为克隆+Data Augmentation

间接法

学习奖励机制。

逆向强化学习IRL,从专家轨迹中推测专家这样做的动机。

Max-margin 分类器（SVM）

http://www.andrew.cmu.edu/course/10-703/slides/Lecture_Imitation_supervised-Nov-5-2018.pdf

Apprenticeship Learning学徒学习

------ 本文结束 🎉🎉 谢谢观看 ------

0%