吉林大学学报(理学版) ›› 2025, Vol. 63 ›› Issue (1): 83-0090.
郝嘉宁1,2, 姚永伟3, 叶育鑫1,4
HAO Jianing1,2, YAO Yongwei3, YE Yuxin1,4
摘要: 针对安全强化学习实现过程中, 基于屏蔽的实现方式可能受制于没有合适的备用策略可供使用, 导致判断出危险也不能阻止系统离开安全状态, 结合知识的实现方式虽然能通过提取概念特征, 用结构化的知识对指定状态给予安全指导, 但有时知识蕴含的指导可能并不是最优的策略, 甚至可能不如智能体探索习得策略的问题, 提出一个本体指导下的安全强化学习最优化策略, 实现风险识别规避、动作生成最优化. 基于该理论设计和实现了一个在无人机避障场景下的仿真系统, 并使用5种不同的强化学习算法进行效果验证. 实验结果表明, 基于本体指导的安全强化学习最优化策略能在屏蔽风险动作的基础上, 实现智能体备用策略选取, 比传统强化学习方法性能更优.
中图分类号: