基于动态延迟策略更新的TD3 算法

吉林大学学报(信息科学版) ›› 2020, Vol. 38 ›› Issue (4): 474-481.

基于动态延迟策略更新的TD3 算法

康朝海，孙超，荣垂霆，刘鹏云

东北石油大学电气信息工程学院，黑龙江大庆163318

收稿日期:2020-01-17 出版日期:2020-07-24 发布日期:2020-08-13
作者简介:康朝海( 1976— ) ，男，黑龙江望奎人，东北石油大学副教授，硕士生导师，主要从事智能算法与智能控制研究，( Tel)86-459-6503373( E-mail) kangchaohai@126． com。
基金资助:
黑龙江省自然科学基金资助项目( E2018004)

TD3 Algorithm with Dynamic Delayed Policy Update

KANG Chaohai，SUN Chao，ＲONG Chuiting，LIU Pengyun

School of Electrical Engineering and Information，Northeast Petroleum University，Daqing 163318，China

Received:2020-01-17 Online:2020-07-24 Published:2020-08-13

摘要/Abstract

摘要： 在深度强化学习领域中，为进一步减少双延迟深度确定性策略梯度TD3( Twin Delayed Deep Deterministic
Policy Gradients) 中价值过估计对策略估计的影响，加快模型学习的效率，提出一种基于动态延迟策略更新的双
延迟深度确定性策略梯度( DD-TD3: Twin Delayed Deep Deterministic Policy Gradients with Dynamic Delayed Policy
Update) 。在DD-TD3 方法中，通过Critic 网络的最新Loss 值与其指数加权移动平均值的动态差异指导Actor 网
络的延迟更新步长。实验结果表明，与原始TD3 算法在2 000 步获得较高的奖励值相比，DD-TD3 方法可在约
1 000步内学习到最优控制策略，并且获得更高的奖励值，从而提高寻找最优策略的效率。

关键词: 深度强化学习, TD3 算法, 动态延迟策略更新

Abstract: In the field of deep reinforcement learning， in order to further reduce the impact of value
overestimation on policy estimation in TD3 ( Twin Delayed Deep Deterministic Policy Gradients) and accelerate
the efficiency of model learning，a DD-TD3 ( Twin Delayed Deep Deterministic Policy Gradients with Dynamic
Delayed Policy Update) is proposed． The delay update step size of the actor network is guided by the dynamic
difference between the latest loss of the critic network and its exponential weighted moving average． Experimental
results show that compared to the original TD3 algorithm that obtain high reward value in the 2 000 steps，the
DD-TD3 method can learn the optimal control strategy in about 1 000 steps and obtain a higher reward value，
thereby the efficiency of finding the optimal strategy is improved．

Key words: deep reinforcement learning, twin delayed deep deterministic policy gradients ( TD3) , dynamic delayed policy update

中图分类号:

TP273

康朝海, 孙超, 荣垂霆, 刘鹏云. 基于动态延迟策略更新的TD3 算法[J]. 吉林大学学报(信息科学版), 2020, 38(4): 474-481.

KANG Chaohai, SUN Chao, ＲONG Chuiting, LIU Pengyun. TD3 Algorithm with Dynamic Delayed Policy Update[J]. Journal of Jilin University (Information Science Edition), 2020, 38(4): 474-481.

[1]	周淑辉, 王增辉, 黄东岩. 基于 Flex 传感器的免耕播种机播深智能调节系统[J]. 吉林大学学报(信息科学版), 2020, 38(5): 555-562.
[2]	邵克勇, 卜瑞漩, 周莉园, 徐紫辉, 张轶. 不同维分数阶系统的无源同步控制[J]. 吉林大学学报(信息科学版), 2020, 38(4): 394-401.
[3]	林夏, 林宝军, 刘迎春, 白涛, 武国强, 王正凯 . 北斗卫星整网集中式自主定轨算法研究[J]. 吉林大学学报(信息科学版), 2020, 38(4): 428-432.
[4]	姚冬冬, 马林, 陶鹏飞, 于丽梅, 吴丛, 孔彩华. 冰雪条件下高速公路可变限速方法[J]. 吉林大学学报(信息科学版), 2020, 38(3): 258-265.
[5]	赵航, 岳晓峰, 方博, 袁晓磊, 马国元, 郭宋吾铭. 基于PSO-GA-BP神经网络的视觉伺服控制系统[J]. 吉林大学学报(信息科学版), 2020, 38(2): 172-178.
[6]	张利巍, 高胜, 陈昆, 常玉连. 用于导管架全遍历检测的ＲOV 路径规划[J]. 吉林大学学报(信息科学版), 2019, 37(5): 482-489.
[7]	董娜, 冯宇, 吴爱国, 韩学烁. 无模型预测控制及在溴化锂机组控制中的应用[J]. 吉林大学学报(信息科学版), 2019, 37(4): 372-381.
[8]	车晓男, 石要武, 王士谦, 李旭晨. α 噪声背景下谐波恢复方法研究[J]. 吉林大学学报(信息科学版), 2019, 37(3): 223-229.
[9]	黄健飞, 马彦. 基于跟随领航者的车辆自适应编队控制[J]. 吉林大学学报(信息科学版), 2019, 37(3): 253-259.
[10]	车玉涵, 刘富, 康冰. 基于云台相机的四旋翼无人机跟踪控制系统[J]. 吉林大学学报(信息科学版), 2019, 37(3): 278-285.
[11]	李艳辉, 薄鹏. T-S 模糊切换系统的非脆弱鲁棒H_∞控制#br#[J]. 吉林大学学报(信息科学版), 2019, 37(3): 286-291.
[12]	黄振葵, 申雯竹, 杜巧玲, 杨婷婷, 严馨禹, 吴东睿. 基于遍历算法的巡航清漂船控制系统[J]. 吉林大学学报(信息科学版), 2019, 37(2): 208-215.
[13]	李艳辉, 曹毅茗. 分布时滞网络控制系统的非脆弱L2 -L∞控制#br#[J]. 吉林大学学报(信息科学版), 2019, 37(1): 25-31.
[14]	隋振，徐峰，苏振东. 基于遗传算法的凸轮升程误差修正[J]. 吉林大学学报(信息科学版), 2018, 36(3): 277-282.
[15]	胡冬雪，张宗达，王睿，杨罕. 基于新型模糊 PID 算法的恒温控制系统研究[J]. 吉林大学学报(信息科学版), 2018, 36(3): 312-317.