stable_baseline3

Stable Baseline3

环境还是从gym里面来

常见参数

参数 描述 例子
policy 选择网络类型 MlpPolicy,CnnPolicy,MultiInputPolicy
env gym中的环境
learning_rate 学习率 默认为0.0003
n_steps 每次更新环境运行的步骤数 默认为2048
batch_size batch的大小 默认为64
n_epochs 优化loss的epoch数 默认为10
gamma 折扣系数 默认为0.99
verbose 详细程度 0:无;1:训练信息;2:调试

learn

用于训练模型

参数 描述 例子
total_timesteps 要训练的环境步数
tb_log_name TensorBoard日志运行的名称
callback 在每一步调用的回调,可以用来创建checkpoint或者进行log

DummyVecEnv

该类对env进行包装,从而完成环境的向量化,如果存在多个env需要使用,那么直接把它们放进DummyVecEnv中,那么在后续训练的时候,向量化的多个环境便会在同一个线程或者进程中被使用,从而提高采样和训练的效率