吉林大学学报(理学版) ›› 2025, Vol. 63 ›› Issue (3): 885-0894.
刘全1,2, 刘晓松2, 吴光军2, 刘禹含3
LIU Quan1,2, LIU Xiaosong2, WU Guangjun2, LIU Yuhan3
摘要: 针对深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题, 提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering, MDDPG-PK-Means)算法. 在训练过程中, 对每一时间步下的状态进行动作选择时, 根据k-means算法判别结果辅佐行动者网络的决策, 同时随训练时间步的增加, 逐渐增加k-means算法类簇中心的个数. 将MDDPG-PK-Means算法应用于MuJoCo仿真平台上, 实验结果表明, 与DDPG等算法相比, MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果.
中图分类号: