摘要: 为解决 Q 学习算法易陷入局部最优解问题, 改进了传统贪婪策略, 提出了一种分段渐近搜索策略。该策略通过动态调整策略参数, 使 Q 学习算法在学习过程中实现探索鄄学习鄄利用 3 个阶段的渐近跳转。 同时将该搜索策略应用于 Q 学习算法中, 使改进的 Q 学习算法能更快速地逼近全局最优解。 将改进算法应用于机械臂轨迹规划中, 其仿真结果表明, 该算法能稳定地引导机械臂沿最优轨迹快速到达目标位置。
中图分类号:
赵 辉,刘雅喆 . 改进的 Q 学习算法在轨迹规划中的应用[J]. 吉林大学学报(信息科学版), 2016, 34(5): 697-702.
ZHAO Hui,LIU Yazhe . Improved Algorithm of Q鄄Learning for Trajectory Planning[J]. Journal of Jilin University(Information Science Ed, 2016, 34(5): 697-702.