吉林大学学报(工学版)

• • 上一篇    下一篇

基于分层强化学习的多移动机器人避障算法

祖丽楠,田彦涛,梅昊   

  1. 吉林大学 通信工程学院,长春 130022
  • 收稿日期:2005-08-14 修回日期:2006-05-11 出版日期:2006-09-15 发布日期:2006-09-15
  • 通讯作者: 田彦涛

Obstacle avoidance of multi mobile robots based
on hierarchical reinforcement learning

Zu Li-nan,Tian Yan-tao,Mei Hao

  

  1. College of Communication Engineering, Jilin University, Changchun 130022, China
  • Received:2005-08-14 Revised:2006-05-11 Online:2006-09-15 Published:2006-09-15
  • Contact: Tian Yan-tao

摘要: 介绍了一种基于分层思想的强化学习方法,即将机器人的复杂行为分解为一系列简单的行为进行离线独立学习,并分别设计了每个层次的结构、参数及函数。这种学习方法能够减小状态空间并简化强化函数的设计,从而提高了学习的速率以及学习结果的准确性,并使学习过程实现了决策的逐步求精。最后以多机器人避障为任务模型,将避障问题分解为躲避静态和动态障碍物以及向目标点靠近3个子行为分别进行学习,实现了机器人的自适应行为融合,并利用仿真实验对其有效性进行了验证。

关键词: 自动控制技术, 避障, 强化学习, Q-学习, 分层学习

Abstract: A reinforcement learning algorithm based on the idea of partition layer was proposed that decomposing the complicated problem into a series of simple portions to be learned independently. The structures, parameters and functions of every level were designed. This learning algorithm could reduce the status space and predigest the design of reinforcement functions so as to improve the learning speed and the veracity of learning results. Also, it could realize the accuracy of the learning process step by step. Finally, the method was used for adaptive action fusion of mobile robot in an "obstacle avoidance" task by decomposing it into avoiding static and dynamic obstacle and closing to object actions. And its efficiency was shown by simulation results.

Key words: automatic control technology, obstacle avoidance

中图分类号: 

  • TP24
[1] 顾万里,王萍,胡云峰,蔡硕,陈虹. 具有H性能的轮式移动机器人非线性控制器设计[J]. 吉林大学学报(工学版), 2018, 48(6): 1811-1819.
[2] 李战东,陶建国,罗阳,孙浩,丁亮,邓宗全. 核电水池推力附着机器人系统设计[J]. 吉林大学学报(工学版), 2018, 48(6): 1820-1826.
[3] 赵爽,沈继红,张刘,赵晗,陈柯帆. 微细电火花加工表面粗糙度快速高斯评定[J]. 吉林大学学报(工学版), 2018, 48(6): 1838-1843.
[4] 王德军, 魏薇郦, 鲍亚新. 考虑侧风干扰的电子稳定控制系统执行器故障诊断[J]. 吉林大学学报(工学版), 2018, 48(5): 1548-1555.
[5] 闫冬梅, 钟辉, 任丽莉, 王若琳, 李红梅. 具有区间时变时滞的线性系统稳定性分析[J]. 吉林大学学报(工学版), 2018, 48(5): 1556-1562.
[6] 张茹斌, 占礼葵, 彭伟, 孙少明, 刘骏富, 任雷. 心肺功能评估训练系统的恒功率控制[J]. 吉林大学学报(工学版), 2018, 48(4): 1184-1190.
[7] 董惠娟, 于震, 樊继壮. 基于激光测振仪的非轴对称超声驻波声场的识别[J]. 吉林大学学报(工学版), 2018, 48(4): 1191-1198.
[8] 田彦涛, 张宇, 王晓玉, 陈华. 基于平方根无迹卡尔曼滤波算法的电动汽车质心侧偏角估计[J]. 吉林大学学报(工学版), 2018, 48(3): 845-852.
[9] 张士涛, 张葆, 李贤涛, 王正玺, 田大鹏. 基于零相差轨迹控制方法提升快速反射镜性能[J]. 吉林大学学报(工学版), 2018, 48(3): 853-858.
[10] 王林, 王洪光, 宋屹峰, 潘新安, 张宏志. 输电线路悬垂绝缘子清扫机器人行为规划[J]. 吉林大学学报(工学版), 2018, 48(2): 518-525.
[11] 胡云峰, 王长勇, 于树友, 孙鹏远, 陈虹. 缸内直喷汽油机共轨系统结构参数优化[J]. 吉林大学学报(工学版), 2018, 48(1): 236-244.
[12] 朱枫, 张葆, 李贤涛, 王正玺, 张士涛. 基于强跟踪卡尔曼滤波的陀螺信号处理[J]. 吉林大学学报(工学版), 2017, 47(6): 1868-1875.
[13] 晋超琼, 张葆, 李贤涛, 申帅, 朱枫. 基于扰动观测器的光电稳定平台摩擦补偿策略[J]. 吉林大学学报(工学版), 2017, 47(6): 1876-1885.
[14] 冯建鑫. 具有测量时滞的不确定系统的递推鲁棒滤波[J]. 吉林大学学报(工学版), 2017, 47(5): 1561-1567.
[15] 许金凯, 王煜天, 张世忠. 驱动冗余重型并联机构的动力学性能[J]. 吉林大学学报(工学版), 2017, 47(4): 1138-1143.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!