吉林大学学报(信息科学版) ›› 2021, Vol. 39 ›› Issue (2): 192-199.
摘要: 针对 SAC(Soft Actor Critic)算法中所有样本都以等概率随机采样, 造成训练速度慢, 训练过程不稳定的缺点, 提出了 PER(Prioritized Experience Replay)-SAC 算法。 通过将优先级经验采样引入 SAC 算法, 使网络优先训练值估计函数误差较大和策略表现不好的样本, 从而提高了Agent 训练过程的稳定性与收敛速度。 实验结果表明, 在多个环境及优化算法下, PER-SAC 算法在训练速度及稳定性上相比于 SAC 算法均有明显提升。
中图分类号: