吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (4): 588-599.
王思琪1, 关巍1, 佟敏2, 赵盛烨3
WANG Siqi1 , GUAN Wei1 , TONG Min2 , ZHAO Shengye3
摘要:
为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG: Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient) 算法。 该算法在训练阶段, 通过大量试验训练出最佳策略, 并在实验阶段直接使用训练出的最佳策略得到最佳编队路径。仿真实验将 4 艘相同的“百川号冶无人船作为实验对象。 实验结果表明, 基于 ATMADDPG 算法的队形保持策略能实现稳定的多无人船编队导航, 并在一定程度上满足队形保持的要求。相较于多智能体深度确定性策略梯度(MADDPG: Multi-Agent Depth Deterministic Policy Gradient)算法, 所提出的 ATMADDPG 算法在收敛速度、 队形保持能力和对环境变化的适应性等方面表现出更优越的性能, 综合导航效率可提高约 80% , 具有较大的应用潜力。
中图分类号: