Stable Baseline3
环境还是从gym里面来
常见参数
参数 | 描述 | 例子 |
---|---|---|
policy | 选择网络类型 | MlpPolicy,CnnPolicy,MultiInputPolicy |
env | gym中的环境 | |
learning_rate | 学习率 | 默认为0.0003 |
n_steps | 每次更新环境运行的步骤数 | 默认为2048 |
batch_size | batch的大小 | 默认为64 |
n_epochs | 优化loss的epoch数 | 默认为10 |
gamma | 折扣系数 | 默认为0.99 |
verbose | 详细程度 | 0:无;1:训练信息;2:调试 |
learn
用于训练模型
参数 | 描述 | 例子 |
---|---|---|
total_timesteps | 要训练的环境步数 | |
tb_log_name | TensorBoard日志运行的名称 | |
callback | 在每一步调用的回调,可以用来创建checkpoint或者进行log |
DummyVecEnv
该类对env进行包装,从而完成环境的向量化,如果存在多个env需要使用,那么直接把它们放进DummyVecEnv中,那么在后续训练的时候,向量化的多个环境便会在同一个线程或者进程中被使用,从而提高采样和训练的效率