stable_baseline3

2023-11-18 RL 评论

Stable Baseline3

环境还是从gym里面来

参数	描述	例子
policy	选择网络类型	MlpPolicy，CnnPolicy，MultiInputPolicy
env	gym中的环境
learning_rate	学习率	默认为0.0003
n_steps	每次更新环境运行的步骤数	默认为2048
batch_size	batch的大小	默认为64
n_epochs	优化loss的epoch数	默认为10
gamma	折扣系数	默认为0.99
verbose	详细程度	0：无；1：训练信息；2：调试

用于训练模型

参数	描述	例子
total_timesteps	要训练的环境步数
tb_log_name	TensorBoard日志运行的名称
callback	在每一步调用的回调，可以用来创建checkpoint或者进行log

该类对env进行包装，从而完成环境的向量化，如果存在多个env需要使用，那么直接把它们放进DummyVecEnv中，那么在后续训练的时候，向量化的多个环境便会在同一个线程或者进程中被使用，从而提高采样和训练的效率

本文链接： http://whosejam.github.io/2023/11/18/stable-baseline3/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！