吉林大学学报(理学版) ›› 2025, Vol. 63 ›› Issue (6): 1713-1722.
张伟1, 李玉俊1, 谢雯雯2, 许耘嘉1, 孙庚2
ZHANG Wei1, LI Yujun1, XIE Wenwen2, XU Yunjia1, SUN Geng2
摘要: 针对传统柔性演员-评论家算法在探索能力和复杂环境中状态表征不足的问题, 提出一种改进的柔性演员-评论家算法. 首先, 该算法通过引入优先经验回放机制, 利用时序差分误差对经验样本进行动态优先级评估, 从而提高关键经验的利用率, 进而提升学习效率; 其次, 该算法将生成式Transformer架构集成到演员网络中以增强对状态特征的动态捕捉能力, 从而显著提升其在复杂优化任务中的性能; 最后, 在高校后勤人员动态调度优化问题上进行应用实验. 实验结果表明, 与原始柔性演员评论家算法及经典深度Q网络算法相比, 改进的柔性演员-评论家算法在人力需求动态拟合方面误差更小, 从而有效验证了其在实际应用中的优势和实用性.
中图分类号: