环境
State
可以将n天的价格,交易量数据组合成某一天的state,也可以用收益率或者其他因子组合,作为某一天的state,如果想定义有限个state,可以定义为appreciated/hold_value/depreciated这样三类
Action
可以定义为buy/sell两种,也可以定义为buy/sell/hold三种,或者定义为一个(-1,1)之间的连续的数,-1和1分别代表all out 和hold all两个极端
Reward
可以定义为新旧总资产价值之间的差,或者变化率,也可以将buy时的reward定义为0,sell时的定义为买卖价差
操作
比较简单的应用逻辑是,对单个股票某一时间段进行择时,如果需要页可以再这个基础上进行一些调整,对某个股票池的股票进行分析,调整为一个选股策略
