吉林大学学报(工学版) ›› 2022, Vol. 52 ›› Issue (11): 2718-2727.doi: 10.13229/j.cnki.jdxbgxb20210412

• 通信与控制工程 • 上一篇    

一种多感知多约束奖励机制的驾驶策略学习方法

王忠立(),王浩,申艳,蔡伯根   

  1. 北京交通大学 电子信息工程学院,北京 100044
  • 收稿日期:2021-05-10 出版日期:2022-11-01 发布日期:2022-11-16
  • 作者简介:王忠立(1969-),男,教授,博士.研究方向:机器视觉,智能机器人,机器学习,智能交通系统.E-mail: zlwang@bjtu.edu.cn
  • 基金资助:
    科技创新2030重大项目(2022ZD0205000);国家科学自然基金面上项目(61573057)

A driving decision⁃making approach based on multi⁃sensing and multi⁃constraints reward function

Zhong-li WANG(),Hao WANG,Yan SHEN,Bai-gen CAI   

  1. School of Electronic of Information Engineering,Beijing Jiaotong University,Beijing 100044,China
  • Received:2021-05-10 Online:2022-11-01 Published:2022-11-16

摘要:

针对交通场景的复杂性和多变性,深度学习算法和深度强化学习方法适应性较差的问题,本文提出一种基于多感知输入多约束奖励函数的深度强化学习方法。方法的输入包括前视图像和激光雷达数据和鸟瞰图信息,多种输入信息经过编码网络得到潜在空间表示,经过重构后作为驾驶策略学习的输入,并在奖励函数的设计中综合考虑了横纵向误差、航向、平稳性、速度等多种约束,从而有效提高了场景的适应能力和策略学习的收敛速度。在仿真环境CARLA下搭建了典型的交通场景对方法的性能进行了仿真验证,并对多约束奖励机制进行了分析对比。结果表明:本文方法能实现车辆在多场景下的驾驶决策,性能明显优于同类SOTA方法。

关键词: 车辆工程, 深度强化学习, 驾驶策略, 多奖励函数

Abstract:

Due to the complicated and volatile traffic scenes, deep learning-based approaches and most of the deep reinforcement learning approaches cannot satisfy the requirements of real applications. To address these issues, a reinforcement learning-based approach based on multi-sensing and multi-constraint reward function under SAC framework(MSMC-SAC) is proposed. The inputs of the method include front images and LiDAR data, as well as the bird's-eye view information generated from the perception results. The multiple information input is coded by an encoding network to obtain the representation in latent space, and the reconstructed information is used as the input for reinforcement learning module, and a reward function considering various constraints such as transverse-longitudinal error, heading, smoothness, and driving speed is designed. The performance of the proposed method in some typical traffic scenarios is simulated and verified with CARLA. The multi-constraint reward mechanism is analyzed. The simulation results show that the presented approach can generate the driving policies in many traffic scenarios, and the performance is outperformed against the existing SOTA methods.

Key words: vehicle engineering, deep reinforcement learning, driving policy, multi-reward function

中图分类号: 

  • U469.79

图1

鸟瞰图表示"

图2

系统结构框图"

图3

基于矢量场引导的车辆位姿误差定义"

图4

负指数误差函数图"

图5

训练用的交通地图"

图6

不同交通场景下的原始输入数据(从左到右依次为前视图像、雷达图像、鸟瞰图)"

图7

对应于图6中的输入数据重建后的结果"

图8

仅使用传感器原始数据时的各算法奖励"

表1

仅使用原始数据算法的均值方差"

回报曲线算法回报均值回报标准差
MSMC-SAC420.688.7
DDPG55.857.5
DQN187.5146.1
TD3361.3123.9

图9

原始数据与鸟瞰图输入下算法回报曲线"

表2

原始数据与鸟瞰图输入下算法回报数据"

回报曲线算法回报均值回报标准差
MSMC-SAC462.2127.2
DDPG283.1156.6
DQN163.7137.1
TD3332.3128.0

图10

DQN算法在弯道时的仿真结果"

图11

DDPG仿真结果"

图12

TD3仿真结果"

图13

本文方法在不同场景下的仿真结果"

图14

约束项rey和rh的影响分析"

表3

在缺少rey或rh奖励下算法回报数据"

回报曲线算法回报均值回报标准差
MSMC-SAC462.2127.2
No_rey MSMC-SAC288.1113.1
No_rh MSMC-SAC103.8100.3
1 杨顺, 蒋渊德, 吴坚, 等. 基于多类型传感数据的自动驾驶深度强化学习方法[J]. 吉林大学学报: 工学版, 2019, 49(4): 1026-1033.
Yang Shun, Jiang Yuan⁃de, Wu Jian, et al. Autonomous driving policy learning based on deep reinforcement learning and multi⁃type sensor data[J]. Journal of Jilin University(Engineering and Technology Edition), 2019, 49(4): 1026-1033.
2 Silver D, Bagnell J A, Stentz A. Learning from demonstration for autonomous navigation in complex unstructured terrain[J]. The International Journal of Robotics Research, 2010, 29(12): 1565-1592.
3 Lange S, Riedmiller M, Voigtländer A. Autonomous reinforcement learning on raw visual input data in a real world application[C]∥The 2012 International Joint Conference on Neural Networks, Brisbane, Australia, 2012: 1-8.
4 Yu A, Palefsky-Smith R, Bedi R. Deep reinforcement learning for simulated autonomous vehicle control[J/OL]. [2020-08-04].
5 Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J/OL]. [2021-09-09].
6 Haarnoja T, Zhou A, Abbeel P, et al. Soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor[J/OL]. [2018-01-04].
7 Bansal M, Krizhevsky A, Ogale A. Chauffeurnet: learning to drive by imitating the best and synthesizing the worst[J/OL]. [2020-12-07]. .48550/arXiv.1812.03079
8 Kingma D P, Welling M. Auto-encoding variational bayes[J/OL]. [2020-12-20]. 50/arXiv.1312.6114
9 Woo J, Yu C, Kim N. Deep reinforcement learning-based controller for path following of an unmanned surface vehicle[J]. Ocean Engineering, 2019, 183: 155-166.
10 Dosovitskiy A, Ros G, Codevilla F, et al. CARLA: an open urban driving simulator[J/OL]. [2020-11-10].
11 Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement learning[J/OL]. [2022-10-31].
[1] 王克勇,鲍大同,周苏. 基于数据驱动的车用燃料电池故障在线自适应诊断算法[J]. 吉林大学学报(工学版), 2022, 52(9): 2107-2118.
[2] 曹起铭,闵海涛,孙维毅,于远彬,蒋俊宇. 质子交换膜燃料电池低温启动水热平衡特性[J]. 吉林大学学报(工学版), 2022, 52(9): 2139-2146.
[3] 隗海林,王泽钊,张家祯,刘洋. 基于Avl-Cruise的燃料电池汽车传动比及能量管理策略[J]. 吉林大学学报(工学版), 2022, 52(9): 2119-2129.
[4] 刘岩,丁天威,王宇鹏,都京,赵洪辉. 基于自适应控制的燃料电池发动机热管理策略[J]. 吉林大学学报(工学版), 2022, 52(9): 2168-2174.
[5] 李丞,景浩,胡广地,刘晓东,冯彪. 适用于质子交换膜燃料电池系统的高阶滑模观测器[J]. 吉林大学学报(工学版), 2022, 52(9): 2203-2212.
[6] 张佩,王志伟,杜常清,颜伏伍,卢炽华. 车用质子交换膜燃料电池空气系统过氧比控制方法[J]. 吉林大学学报(工学版), 2022, 52(9): 1996-2003.
[7] 池训逞,侯中军,魏伟,夏增刚,庄琳琳,郭荣. 基于模型的质子交换膜燃料电池系统阳极气体浓度估计技术综述[J]. 吉林大学学报(工学版), 2022, 52(9): 1957-1970.
[8] 裴尧旺,陈凤祥,胡哲,翟双,裴冯来,张卫东,焦杰然. 基于自适应LQR控制的质子交换膜燃料电池热管理系统温度控制[J]. 吉林大学学报(工学版), 2022, 52(9): 2014-2024.
[9] 胡广地,景浩,李丞,冯彪,刘晓东. 基于高阶燃料电池模型的多目标滑模控制[J]. 吉林大学学报(工学版), 2022, 52(9): 2182-2191.
[10] 陈凤祥,伍琪,李元松,莫天德,李煜,黄李平,苏建红,张卫东. 2.5吨燃料电池混合动力叉车匹配、仿真及优化[J]. 吉林大学学报(工学版), 2022, 52(9): 2044-2054.
[11] 武小花,余忠伟,朱张玲,高新梅. 燃料电池公交车模糊能量管理策略[J]. 吉林大学学报(工学版), 2022, 52(9): 2077-2084.
[12] 高青,王浩东,刘玉彬,金石,陈宇. 动力电池应急冷却喷射模式实验分析[J]. 吉林大学学报(工学版), 2022, 52(8): 1733-1740.
[13] 王奎洋,何仁. 基于支持向量机的制动意图识别方法[J]. 吉林大学学报(工学版), 2022, 52(8): 1770-1776.
[14] 王骏骋,吕林峰,李剑敏,任洁雨. 分布驱动电动汽车电液复合制动最优滑模ABS控制[J]. 吉林大学学报(工学版), 2022, 52(8): 1751-1758.
[15] 刘汉武,雷雨龙,阴晓峰,付尧,李兴忠. 增程式电动汽车增程器多点控制策略优化[J]. 吉林大学学报(工学版), 2022, 52(8): 1741-1750.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!