对于转换状态的reward奖励,如果是终结状态,则使用最终的结果作为reward奖励;如果是中间状态,使用之前的reward奖励+Q价值网络预估结果作为最终的奖励。
京公网安备 11010502049817号