A2C 2023-11-20 RL 评论 A2C 全称为优势动作评价算法(Advantage Actor-Critic) A2C使用优势函数代替Critic网络中的原始回报,可以作为衡量选取动作值和所有动作平均值的指标 优势函数 考察的两个行动,有: 则根据的定义,其衡量了某一个动作的价值,与“平均动作”的价值的高低 如果优势函数大于,则说明该动作比平均动作好 如果优势函数小于,则说明该动作不如平均动作