吉林大学学报(工学版)

• • 上一篇    下一篇

基于线性平均的强化学习函数估计算法

陶隽源1,孙金玮1,李德胜2   

  1. 1.哈尔滨工业大学 电气工程及自动化学院, 哈尔滨 150001; 2.北京工业大学 机械工程与应用电子技术学院,北京 100022
  • 收稿日期:2007-06-12 修回日期:1900-01-01 出版日期:2008-11-01 发布日期:2008-11-01
  • 通讯作者: 陶隽源

Reinforcement learning function approximation algorithm based on linear average

TAO Jun-yuan1,SUN Jin-wei1,LI De-sheng2

  

  1. 1.School of Electrical Engineering and Automation, Harbin Institute of Technology, Harbin 150001, China;2.School of Mechanical Engineering & Applied Electronic Technology, Beijing University of Technology, Beijing 100022, China
  • Received:2007-06-12 Revised:1900-01-01 Online:2008-11-01 Published:2008-11-01

摘要:

提出了一种基于最小线性平均的强化学习算法,用于解决连续空间下强化学习函数估计的非收敛性问题。该算法基于梯度下降法,根据压缩映射原理,通过采用线性平均法作为值函数估计的性能衡量标准,把值函数估计的迭代过程转化为一个收敛于不动点的过程。该算法利用强化学习算法的标准问题Mountain Car问题进行了验证,仿真结果验证了算法是有效的和可行的,并且可以快速收敛到稳定值。

关键词: 自动控制技术, 强化学习, 线性平均, 函数估计, 梯度下降法

Abstract:

A reinforcement learning algorithm based on linear average is proposed, which is used to solve nonconvergent problems of reinforcement learning function approximation in continuous state space. According to contraction theory, this algorithm is based on gradient descent method, which adopts linear average as performance evaluation of value function. So the iterative process of value function becomes a convergent process to a fixed value. A standard reinforcement learning problem, Mountain Car Problem, is used to verify the performance of the algorithm. Results show the effectiveness, feasibility and quick convergence of the algorithm.

Key words: automatic control technology, reinforcement learning, linear averages, function approximation, gradient descent method

中图分类号: 

  • TP13
[1] 顾万里,王萍,胡云峰,蔡硕,陈虹. 具有H性能的轮式移动机器人非线性控制器设计[J]. 吉林大学学报(工学版), 2018, 48(6): 1811-1819.
[2] 李战东,陶建国,罗阳,孙浩,丁亮,邓宗全. 核电水池推力附着机器人系统设计[J]. 吉林大学学报(工学版), 2018, 48(6): 1820-1826.
[3] 赵爽,沈继红,张刘,赵晗,陈柯帆. 微细电火花加工表面粗糙度快速高斯评定[J]. 吉林大学学报(工学版), 2018, 48(6): 1838-1843.
[4] 王德军, 魏薇郦, 鲍亚新. 考虑侧风干扰的电子稳定控制系统执行器故障诊断[J]. 吉林大学学报(工学版), 2018, 48(5): 1548-1555.
[5] 闫冬梅, 钟辉, 任丽莉, 王若琳, 李红梅. 具有区间时变时滞的线性系统稳定性分析[J]. 吉林大学学报(工学版), 2018, 48(5): 1556-1562.
[6] 张茹斌, 占礼葵, 彭伟, 孙少明, 刘骏富, 任雷. 心肺功能评估训练系统的恒功率控制[J]. 吉林大学学报(工学版), 2018, 48(4): 1184-1190.
[7] 董惠娟, 于震, 樊继壮. 基于激光测振仪的非轴对称超声驻波声场的识别[J]. 吉林大学学报(工学版), 2018, 48(4): 1191-1198.
[8] 田彦涛, 张宇, 王晓玉, 陈华. 基于平方根无迹卡尔曼滤波算法的电动汽车质心侧偏角估计[J]. 吉林大学学报(工学版), 2018, 48(3): 845-852.
[9] 张士涛, 张葆, 李贤涛, 王正玺, 田大鹏. 基于零相差轨迹控制方法提升快速反射镜性能[J]. 吉林大学学报(工学版), 2018, 48(3): 853-858.
[10] 王林, 王洪光, 宋屹峰, 潘新安, 张宏志. 输电线路悬垂绝缘子清扫机器人行为规划[J]. 吉林大学学报(工学版), 2018, 48(2): 518-525.
[11] 胡云峰, 王长勇, 于树友, 孙鹏远, 陈虹. 缸内直喷汽油机共轨系统结构参数优化[J]. 吉林大学学报(工学版), 2018, 48(1): 236-244.
[12] 朱枫, 张葆, 李贤涛, 王正玺, 张士涛. 基于强跟踪卡尔曼滤波的陀螺信号处理[J]. 吉林大学学报(工学版), 2017, 47(6): 1868-1875.
[13] 晋超琼, 张葆, 李贤涛, 申帅, 朱枫. 基于扰动观测器的光电稳定平台摩擦补偿策略[J]. 吉林大学学报(工学版), 2017, 47(6): 1876-1885.
[14] 冯建鑫. 具有测量时滞的不确定系统的递推鲁棒滤波[J]. 吉林大学学报(工学版), 2017, 47(5): 1561-1567.
[15] 许金凯, 王煜天, 张世忠. 驱动冗余重型并联机构的动力学性能[J]. 吉林大学学报(工学版), 2017, 47(4): 1138-1143.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!