吉林大学学报(信息科学版) ›› 2025, Vol. 43 ›› Issue (5): 965-977.
刘朋友,于 镝,陈启丽,张昌文
LIU Pengyou, YU Di, CHEN Qili, ZHANG Changwen
摘要: 针对自动驾驶多城市场景决策的灾难性遗忘问题,提出基于持续强化学习的自动驾驶决策框架。 该方案 以IMPALA(Importance Weighted Actor-Learner Architecture)算法为基础架构, 首先融合共同注意力感知模块, 通过跨场景特征交互提取重要环境表征;然后搭建自激活神经集成架构,实现知识模块的自主激活;进而采用回放机制,结合场景特征和历史轨迹经验回放缓解旧知识的遗忘问题。 其中采用离策略行为克隆和在策略学习共同维持决策算法的可塑性和稳定性。 根据不同自动驾驶场景任务需要确定是否使用旧模块或生成新模块, 并通过融合模块解决占用内存过高的问题。 针对两组多城市场景进行消融实验和对比实验,通过对比路径完成率以及累积奖励验证方法的性能。 实验结果表明,在第1组顺序场景任务中的平均完成率达到85% 左右, 在第2种顺序场景中的平均完成率达到81.93%。 该方案能有效缓解多城市场景持续决策中的灾难性遗忘问题,并且取得更好的平稳驾驶性能。
中图分类号: