A2C

A2C

全称为优势动作评价算法(Advantage Actor-Critic)

A2C使用优势函数代替Critic网络中的原始回报,可以作为衡量选取动作值所有动作平均值的指标

优势函数

考察的两个行动,有: 则根据的定义,其衡量了某一个动作的价值,与“平均动作”的价值的高低

  • 如果优势函数大于,则说明该动作比平均动作好
  • 如果优势函数小于,则说明该动作不如平均动作