吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (2): 318-325.
海 日1 , 张兴亮2 , 姜 源1 , 杨永健1
HAI Ri 1 , ZHANG Xingliang 2 , JIANG Yuan 1 , YANG Yongjian 1
摘要: 为解决由于固定温度 SAC(Soft Actor Critic)算法中存在的 Q 函数高估可能会导致算法陷入局部最优的 问题, 通过深入分析提出了一个稳定且受限的 SAC 算法( SCSAC: Stable Constrained Soft Actor Critic)。 该算法 通过改进最大熵目标函数修复固定温度 SAC 算法中的 Q 函数高估问题, 同时增强算法在测试过程中稳定性的 效果。 最后, 在 4 个 OpenAI Gym Mujoco 环境下对 SCSAC 算法进行了验证, 实验结果表明, 稳定且受限的 SAC 算法相比固定温度 SAC 算法可以有效减小 Q 函数高估出现的次数并能在测试中获得更加稳定的结果。
中图分类号: