针对强化学习初学者,PARL提供了入门课程,展示最基础的5个强化学习算法代码示例(注意:本课程示例均基于静态图框架编写)。
- 一、强化学习(RL)初印象
- RL概述、入门路线
- 实践:环境搭建(lesson1 的代码提供了格子环境世界的渲染封装)
- 二、基于表格型方法求解RL
- MDP、状态价值、Q表格
- 实践: Sarsa、Q-learning
- 三、基于神经网络方法求解RL
- 函数逼近方法
- 实践:DQN
- 四、基于策略梯度求解RL
- 策略近似、策略梯度
- 实践:Policy Gradient
- 五、连续动作空间上求解RL
- 实战:DDPG
- Python 3.6/3.7
- paddlepaddle==1.6.3
- parl==1.3.1 或者 parl==1.4
- gym
进入每个示例对应的代码文件夹中,运行
python train.py