吉林大学学报(信息科学版) ›› 2023, Vol. 41 ›› Issue (3): 437-443.
张会珍, 王 强
ZHANG Huizhen, WANG Qiang
摘要: 在深度强化学习算法中, 近端策略优化算法 PPO( Proximal Policy Optimization) 在许多实验任务中表现优异, 但具有自适应 KL(Kullback-Leibler) 散度的 KL-PPO 由于其不对称性而影响了 KL-PPO 策略更新效率,为此, 提出了一种基于相关熵诱导度量的近端策略优化算法 CIM-PPO (Correntropy Induced Metric-PPO)。 该算法具有对称性更适合表征新旧策略的差异, 能准确地进行策略更新, 进而改善不对称性带来的影响。 通过OpenAI gym 实验测试表明, 相比于主流近端策略优化算法 Clip-PPO 和 KL-PPO 算法均能获得高于 50% 以上的奖励, 收敛速度在不同环境均有 500 ~ 1 100 回合左右的加快, 同时也具有良好的鲁棒性。
中图分类号: