吉林大学学报(理学版) ›› 2025, Vol. 63 ›› Issue (4): 1105-1116.
杨皓1, 张池军1,2, 张辛未3
YANG Hao1, ZHANG Chijun1,2, ZHANG Xinwei3
摘要: 针对自然灾害应急物资分配的问题, 提出一种基于动态Boltzmann Softmax(DBS)和动态探索率(DER)的Q-learning算法(dynamic Boltzmann Softmax and dynamic exploration rate based-Q-learning, DBSDER-QL). 首先, 采用动态Boltzmann Softmax策略, 通过动态调整动作价值的权重, 促进算法的稳定收敛, 解决了最大运算符的过度贪婪问题. 其次, 采用动态探索率策略提高算法的收敛性和稳定性, 解决了固定探索率Q-learning算法在训练后期无法完全收敛到最优策略的问题. 最后, 通过消融实验验证了DBS和DER策略的有效性. 与动态规划算法、 贪心算法及传统Q-learning算法进行对比的实验结果表明, DBSDER-QL算法在总成本和计算效率方面均明显优于传统方法, 展现了更高的适用性和有效性.
中图分类号: