轮式移动机器人的双强化学习自适应模糊控制
叶锦华, 李迪, 叶峰
华南理工大学 机械与汽车工程学院,广州 510641

叶锦华(1982),男,博士研究生.研究方向:机器人技术.E-mail:jinhuayea@gmail.com

摘要

针对包含执行器动力学模型的三阶不确定非完整轮式移动机器人系统,提出了一种基于反演设计和双强化学习自适应模糊系统的轨迹跟踪控制方法。该控制方法对运动学控制器采用分流控制技术,防止系统运行初期的速度跳变。对本体动力学和执行器动力学分别使用强化学习自适应模糊控制,优化补偿常规方法难以解决的系统未知参数和非参数不确定性,并利用鲁棒项来消除未知外部扰动和模糊控制逼近误差对系统的影响,提高了系统的控制性能。Lyapunov理论证明:控制系统是稳定且最终有界收敛的,仿真结果表明了该方法的有效性。

关键词: 自动控制技术; 轮式移动机器人; 轨迹跟踪; 自适应模糊控制; 强化学习; 分流模型; 非完整系统
中图分类号:TP24 文献标志码:A 文章编号:1671-5497(2014)03-0742-08
Dual reinforcement learning adaptive fuzzy control of wheeled mobile robot
YE Jin-hua, LI Di, YE Feng
School of Mechanical and Automotive Engineering, South China University of Technology, Guangzhou 510641, China
Abstract

A trajectory tracking method is proposed for three-order uncertain nonholonomic mobile robot with actuator dynamic model. This method is based on the backstepping technique and dual reinforcement learning adaptive fuzzy logic system. The shunting control technique is used to prevent the velocity jump at the beginning of system for the motion controller. The reinforcement learning adaptive fuzzy logic control is employed for both body dynamics and actuator dynamics, such that the unknown system uncertainties of parameters and non-parameters can be compensated optimally. Moreover, in order to enhance the control performance, the robust compensators are applied to eliminate the impact of unknown external disturbance and approximation error of fuzzy system. The stability and ultimately bounded convergence of the control system are proven by Lyapunov theory. The validity of this method is verified by the simulation results.

Keyword: automatic control technology; wheeled mobile robot; trajectory tracking; adaptive fuzzy control; reinforcement learning; shunting model; nonholonomic system
0 引言

非完整轮式移动机器人(NWMR)作为典型的非完整系统,其控制问题一直受到广泛关注。由于不满足Brockett的必要条件[ 1],常规光滑时不变控制方法不再适用,加上其本身是一个MIMO耦合的非线性系统,因此,对此类系统的控制变得特别困难。实际系统不可避免地存在模型不确定性,并受到未知外部扰动的影响,此时如何保证NWMR仍然能够进行精确的轨迹跟踪,国内外学者对此提出了诸多解决方法,主要有鲁棒控制[ 2, 3]、自适应控制[ 4, 5]和智能控制[ 6, 7]等方法。其中,鲁棒控制往往需要知道系统不确定的上界,自适应控制则更适用于固定或慢时变的结构参数不确定性,具备逼近未知不确定性函数能力的智能控制尽管解决了上述不足,然而对于具有高度不确定因素的系统,控制效果有限。此外,现有的NWMR轨迹跟踪控制方法中,尽管已经考虑了系统动力学对系统的影响,却较少考虑执行器动力学对系统的影响,这在高速、高精的应用场合中,将导致系统跟踪控制性能下降,而控制器输出直接为执行器控制量,更符合实际情况。另外,由系统运行初期初始误差较大而引起的速度跳变将导致很大的控制量,这对于受到机构和执行器限制的实际系统是难以实现的。

为了解决上述问题,本文综合考虑了NWMR的运动学、本体动力学和执行器动力学几方面,结合反演设计技术,提出了一种双强化学习自适应模糊控制(RLAFC)方法,解决了系统包含复杂未知不确定因素的NWMR轨迹跟踪控制问题,并通过鲁棒项来消除系统扰动和模糊控制逼近误差的影响,还利用基于仿生神经动力学的分流控制技术[ 8],解决了系统运行初期的速度跳变问题。RLAFC[ 9]不仅具备自适应模糊控制优化逼近任意不确定函数的能力,还利用强化学习方法对自适应参数向量进行进一步优化,加快了RLAFC的收敛速度,并使得控制系统能够适应未知模型信息少或未知参数大范围变化等传统方法难以消除的不确定性,解决了常规智能控制的不足,提高了系统的适应性和鲁棒性。

1 模型分析

研究对象为如图1所示的(2,0)型[ 10]NWMR,两轮间的距离为2b,轮子半径为r,质心o c为两轮轴线的中心,NWMR整车质量为m,绕通过o c点轴线的转动惯量为I。

图1 NWMR结构示意图Fig.1 Schematic diagram of NWMR

定义质心o c点在全局坐标系xoy下的位姿为: q=[ x, y, θ]T则根据理想非完整约束条件,其运动学模型为[ 11]:

=vcos θ, =vsin θ, =w(1)

式中: v NWMR的前进速度; w NWMR的转动角速度。

使用拉格朗日乘子法,可建立 NWMR oc输出的动力学模型为[ 11]:

= U= Ψ1+ = τ(2)

式中: τ=[τvw ]T NWMR的前进驱动力矩和转动驱动力矩; U=[ v, w]T,标称值矩阵 取:

= , =

Ψ1 CU= Fs为本体动力学系统的有界未知非线性不确定项, Δ M和Δ C为模型误差; 为有界未知力矩扰动项;连续函数 Fs为表面摩擦综合项。

文中假设NWMR两轮采用特性相同的独立直流电机驱动,则NWMR执行器动力学模型为[ 12]:

(3)

式中:N为电机输出端到轮子的减速比;kt为电机力矩常数; L R分别为电机电感和内阻; ke为反电动势常数; i为电机的励磁电流; 为有界的未知电压扰动项;矩阵 B为:

B= ,

u=[ur,ul ]T为两轮驱动电机的控制电压输入; φ=[φrl ]T为两轮转速,满足:

φ= JU= U(4)

根据式(3)(4)可知控制力矩 τ与控制电压 u的动态关系式为:

= τ= U= Ψ2+ = u(5)

式中: Ψ2 τ U为执行器动力学系统的有界未知非线性不确定项,Δ 、Δ 和Δ 表示电机模型误差;令 , , 表示 L R k ke的标称值,则有:

= B -1/( ), = B -1/( ), = N J

2 控制器设计和稳定性分析

为了降低设计复杂度,文中结合反演设计思想,对系统的运动学(式(1)),本体动力学(式(2))和执行器动力学(式(3))3个子系统分别进行控制器设计。反演设计方法将复杂的非线性系统分解成不超过系统阶数的子系统,然后与普适性强的 Lyapunov理论结合,为每个子系统设计辅助控制器,前一个子系统的辅助控制器作为控制目标集成到下一个子系统的控制器中去,并在最后一步完成总体控制器的设计。文中控制器设计分3个步骤进行。

(1)设计运动学辅助控制器 Uc

定义时变参考轨迹位姿: qr= ,满足:

=vrcos θr, =vrsin θr, =wr(6)

式中: vr wr为期望参考速度值。

定义 NWMR的轨迹跟踪误差为:

ec== (7)

则轨迹跟踪误差动态方程为:

= = (8)

运动学轨迹跟踪是设计一个合理的辅助速度控制器 Uc= 来消除误差 ec,基于文献[8]提出的神经动力学分流控制方法设计运动学控制器为:

Uc=(9)

式中: k y >0, k θ >0,有界 vs为与引起速度跳变变量相关的辅助信号,其动态更新表达式为:

=-Avs=( B1 -vs) g1( e x)=( B2 +vs) g2( e x) (10)

式中: A vs的无源衰减率; B1 B2分别为 vc的设计上界和下界值;上界门限线性函数 g1( e x)和下界门限线性函数 g2( e x)分别设计为:

(11)

通过门限线性函数的切换,基于式(10)由系统误差 e x引起的速度跳变将被限制在[ -B2, B1]内。定义速度跟踪误差 e U= = Uc= U,将式(9)代入式(8)有:

= (12)

(2)设计本体动力学辅助控制器 τc

第(2)步的设计目标是以 Uc为参考输入,设计辅助力矩控制器 τc= ,来消除误差 e U,取 τc为:

τc= kp e U+ 1(13)

式中: kp=diag( κp, κp), κp为正的常数;设计鲁棒补偿项 γ1为:

γ1=(14)

式中:ϑ1为正的常数;自适应模糊补偿项 Θ1的估计, Θ1的表达式为:

Θ1( U, , Uc, )= Ψ1+ = Uc= e v (15)

式中: e v= ;文中采用单点模糊化,乘积推理机,中心平均加权解模糊化及高斯隶属度函数所构成的多输入单输出模糊逻辑系统[ 13],高斯隶属度函数使得模糊系统具有全局逼近的性质,则 Θ1的最优估计可表示为:

Θ1= ξ τ+ ω1(16)

式中: ω1为模糊系统的逼近误差; ξ τ为模糊基向量; 为未知参数的最优参数向量。

用估计值 替代真值 Θ1得到:

= ξ τ (17)

为了获得接近最优的参数向量,文中参数向量通过强化学习自适应方法进行更新,更新律为:

= Γ τ ξ τ τ Γ τ e U(18)

=- Γ τc e U ξ τ τ Γ τc e U(19)

式中: Γ τ=diag( ν τ, ν τ); Γ τc=diag( ν τc, ν τc); ν τ ν τc η τ为正的常数;强化学习信号 r τ取:

r τ= e U+‖ e U ξ τ (20)

定义力矩跟踪误差 e T= = τc= τ,并将式(13)代入式(2)有:

+ e U= - kp e U+ γ1+ ρ1+ e T- ev(21)

式中: = Θ1- ; ρ1= ω1+

(3)设计执行器控制器 u

以第(2)步力矩控制输出 τc为参考输入,第(3)步是设计电压控制输入 u,来消除误差 e T,进一步考虑实际执行器存在饱和问题,取 u为:

u= k I D I+ k v D v+ - γ2(22)

式中: k I=diag( κ I, κ I); k v=diag( κ v, κ v);

D I= ; D v= ,

滤波跟踪误差 ψ= 定义为:

=-α βψ= βe T (23)

β=diag( κ ψ, κ ψ); λ δ α κ I κ v κ ψ为正的常数;符号th(·)等价于饱和函数tanh(·)。设计鲁棒补偿项 γ2为:

γ2=(24)

式中:ϑ2为正的常数。

与第(2)步设计相似,利用自适应模糊估计值 替代其真值 Θ2, Θ2分别为:

Θ2( τ, , τc, τc, U)= = τc= U= Ψ2+ e T (25)

= ξ u (26)

取参数向量估计 (i=1,2)的强化学习自适应律为:

= Γ u ξ u u Γ u e T(27)

=- Γ uc e T ξ u u Γ uc e T(28)

r u= e T+‖ e T ξ u (29)

式中: Γ u=diag( ν u); Γ uc=diag( ν uc, ν uc); ν u ν uc η u为正的常数。

将式(22)代入式(5)有:

+ e T= Θ2- k I D I- k v D v+ γ2+ ρ2- e U (30)

式中: Θ2= Θ2- ; ρ2= = ω2

根据上述设计步骤,有如下定理成立:

定理1 给定系统(1),(2),(5),选择运动学控制器(9)、本体动力学控制器(13)、执行器动力学控制器(22),分流模型(10)和参数强化学习自适应律(18) ~(20)、(27) ~(29),则闭环控制系统可实现最终有界稳定轨迹跟踪。

证明 选择如下总体 Lyapunov函数

L=L1 +L2 +L3(31)

式中:

L1= ( = )=(1=cos e θ) / k y= /(2 B1) (32)

L2= e U+ tr{ Φ τ}+ tr{ } (33)

L3= e T+ tr{ Φ u}+ tr{ }+ k I Λ -1 + k v β -1 Δ -1 (34)

式中: Λ=diag( λ); Δ=diag( δ);符号lch(·)与符号ln(cosh(·))等价。令 B1 =B2 =B,对 L1求导,并将式(9)(10)(12)代入求导后的 L1可得:

=- vrsin2 e θ=[ -A-g1( e x) -g2( e x)] /B+ e v=V1+ e v (35)

对于NWMR本体动力学系统有如下性质:

性质1 =2 为斜对称阵,即存在 x∈R2 ×1使得 xT( =2 ) x=0成立。

将式(18) ~(21)代入求导后的 L2,并结合性质1有:

= ( =2 ) e U+ -tr{ }-tr{ }≤- kp e U+ ( γ11)= e v+ e T+F1(36)

式中:

F1=‖ e U‖tr{= ξ τ( ξ τ)T τ + ξ τ( ξ τ)T τ } (37)

定义: D1=- k I D I- k v D v;

D2=2 k I Λ -1 +2 k v β -1 Δ -1 ;

V2 ψT k v

将式(27) ~(30)代入求导后的 L3,得到:

=- e T+ D1+ ( γ2+ ρ2)- e U+ Θ2-tr{ }-tr{ }+ D2 -V2= e T+ ( γ22)= e U+F2(38)

式中:

F2=‖ e T‖tr{= ξ u( ξ u)T u + ξ u( ξ u)T u } (39)

为了方便下一步分析,进行如下假设:

假设1 ‖ ρ1‖≤ Ξ1,‖ ρ2‖≤ Ξ2, Ξ1 >0, Ξ2 >0。

将式(14)(24)(35)(36)(38)代入求导后的式(31),再结合假设1,当取 ϑ i Ξ i, i=1,2,有:

= = = =V1= e v- kp e U+ ( γ11)= e v+ eT -V2= eT= ( γ22)= e U+F1+F2≤V1- kp e U- V2= e T+‖ e U‖(-ϑ11)+‖ e T‖(-ϑ22)+F1+F2 V1min( k p) τ e U‖F3-V2- λmin( ) u e T‖F4(40)

式中:λmin( kp)、 λmin( )分别表示矩阵 kp的最小特征值; F3 F4具体表达式见文献[ 9]。根据文献[ 8]可知,当 vr >0, V1≤0。显然 V2≥0,因此当‖ e U‖和‖ e T‖满足:‖ e U‖>ητ F3min( kp),‖ e T‖>ητ F4min( )或 ‖ e T2/(η uF4),或者‖ Φ u‖、‖ ‖、‖ Φτ‖和‖ ‖满足特定条件时(见文献[ 9],此时有 F3 <0, F4 <0),则 <0,即闭环控制系统是稳定的且最终收敛于一个有界范围。定理1证明完毕。

注1 通过增大 λmin( kp), e U可收敛于任意小值,而当‖ e T2/(η uF4)时,增大 k v(相当于增大V2)可以扩大系统稳定领域的范围。

注2 文中控制器采用质心输出,而非轮子输出,并用强化学习自适应模糊系统逼近包含了系统本体动力学和执行器动力学结构参数矩阵的不确定项,这使得文中控制器可适用于同类型(如(2,1)型[ 10])的其他非完整轮式移动机器人系统的轨迹跟踪控制。

3 仿真试验

通过 Matlab软件来验证文中方法的可行性,移动机器人本体的物理参数为: =32 kg, =18 .625 kg· m2,b=0 .6 m,r=0 .04 m

执行器的物理参数为:N=21, =0 .203 H, =5 .41 Ω, =0 .191 N· m/A, =0 .02 V

本体动力学不确定项为: Ψ1=(10sin( t-8) +e -t,10cos( t-8)=2 e -t)。

电机动力学的不确定项为: Ψ2=(sin(2 t)=2cos( t-2),2sin( t-2)=cos(3 t)),

扰动项 分别取[=8,8]和[=1,1]间的随机数。

运动学控制器参数取: k y=8, k θ=10, A=2, B=4。本体动力学控制器参数取: κ p=80, ϑ1=25。电机动力学控制器参数取: κ I=0 .6, κ v=2, α=6; κ ψ=8, λ=10, δ=10, ϑ2=10。

模糊系统、逻辑系统使用如下模糊推理规则:

R l:如果 X j,则 Y C l

式中: j为模糊系统输入变量个数; l为模糊规则数,为了减少计算量,提高系统的实时性,文中每个变量使用3个与模糊规则相对应的高斯隶属度函数, RLAFC的参数为: ν τ=28, ν τc=20, ν u=6, ν uc=4, η τ u=1。

首先进行圆轨迹跟踪试验,轨迹参数为: Ur=[2π/5,π/5]T, qr(0)=[6,4, π/2]T, NWMR的初始参数为: q(0)=[5,3, π/3]T, U(0)=[0,0]T,在关闭 RLAFC和仅开启本体动力学 RLAFC的情况下进行轨迹跟踪控制,仿真结果如图2所示,可见执行器动力学不确定性对系统有着不可忽略的影响,实际应用应给予考虑。应用文中双 RLAFC控制器的轨迹跟踪仿真结果如图3 ~图8所示。从图3可以看出:控制器同时消除了本体动力学、执行器动力学不确定性和外部扰动的影响,保证NWMR精确地跟踪参考轨迹。图4~图6表明3个子系统的跟踪误差都收敛于有界范围,达到了反演控制的目标。图7描述了执行器控制输入的变化情况,可见通过饱和约束使得控制量处于合理范围,而由于使用分流控制技术,图8所示的NWMR移动速度变化初期过渡平稳,未发生跳变现象。

图2 圆弧轨迹跟踪对比结果Fig.2 Comparing results of circle trajectory tracking

图3 基于文中控制器的圆弧轨迹跟踪Fig.3 Circle trajectory tracking using proposed controller

图4 圆弧轨迹跟踪位姿误差Fig.4 Pose errors of circle trajectory tracking

图5 圆弧轨迹跟踪的速度误差Fig.5 Velocity errors of circle trajectory tracking

图6 圆弧轨迹跟踪的力矩误差Fig.6 Torque errors of circle trajectory tracking

图7 圆弧轨迹跟踪的控制电压输入Fig.7 Control voltage inputs of circle trajectory tracking

图8 NWMR的速度变化情况Fig.8 Moving velocity of NWMR

再进行分段直线轨迹跟踪,轨迹参数取: Ur=[1 .414,0]T, qr(0)=[0,0, π/4]T,第2段和第3段直线参数为: θr | t=8 s=0, θr | t=16 s =-π/4, NWMR的初始位姿为: q(0)=[1,2, π/3]T,试验结果如图9图10所示。从图9可以看出对于分段直线,在过渡处误差明显加大,但控制器使得系统跟踪误差迅速减小, NWMR很快重新实现对参考轨迹的渐进跟踪,跟踪效果良好。而尽管过渡处的控制输入变化较为剧烈,如图10所示,其幅度依然处在合理范围内。

图9 分段直线轨迹跟踪Fig.9 Piecewise line trajectory tracking

图10 分段直线轨迹跟踪的控制电压输入Fig.10 Control voltage inputs of piecewise line trajectory tracking

最后进行多个初始位姿的8字形轨迹跟踪,轨迹参数: xr=sin( t/3), yr=sin( t/6), qr(0)=[0,0,0 .4634]T, NWMR初始位姿分别为: q1=[0.5,-0.2,π/4]T, q2=[-0.5,0.2,π]T, q3=[0,0,π/2]T,跟踪情况如图11所示,结果表明了文中控制器具有半全局性,且对于变曲率复杂曲线也具有良好的控制效果。

图11 8字型轨迹跟踪仿真结果Fig.11 Simulation results of 8-shaped trajectory tracking

4 结束语

NWMR的执行器动力学对控制器性能有着不可忽略的影响,当考虑执行器动力学时,NWMR为三阶系统,加大了控制器的设计难度,而通过反演设计有效地降低了控制系统的设计复杂度,文中提出的带鲁棒项的双RLAFC,提高了系统的收敛效率,并保证了NWMR在本体动力学系统和执行器动力学系统同时存在复杂不确定性和未知外界扰动时能够实现精确的轨迹跟踪。控制器结合基于仿生神经动力学的分流控制技术使得系统能在较大初始偏差时不发生常规控制器的速度跳变。对圆弧轨迹、分段直线轨迹和多个初始位姿的8字型曲线的仿真试验结果表明:文中控制策略使得系统是最终有界收敛的,并可以有效地消除系统复杂不确定性的影响,抑制外部扰动,提高NWMR的轨迹跟踪效果。

The authors have declared that no competing interests exist.

参考文献
[1] Brockett R W. Asymptotic Stability and Feedback Stabilization[M]. Boston: Birkhauser, 1983. [本文引用:1]
[2] Chaw D. Sliding-mode tracking control of nonholonomic wheeled mobile robots in polar coordinates[J]. IEEE Transactions on Control Systems Technology, 2004, 12(4): 637-644. [本文引用:1] [JCR: 2.0]
[3] Chen Hong, Ma Miao-miao, Wang Hu, et al. Moving horizon H tracking control of wheeled mobile robots with actuator saturation[J]. IEEE Transactions on Control Systems Technology, 2009, 17(2): 449-457. [本文引用:1] [JCR: 2.0]
[4] Yoo S J. Adaptive tracking control for a class of wheeled mobile robots with unknown skidding and slipping[J]. IET Control Theory and Applications, 2010, 4(10): 2109-2119. [本文引用:1] [JCR: 1.717]
[5] Cao Zheng-cai, Zhao Ying-tao, Wu Qi-di. Adaptive trajectory tracking control for a nonholonomic mobile robot[J]. Chinese Journal of Mechanical Engineering, 2011, 24(3): 1-7. [本文引用:1] [CJCR: 1.505]
[6] Jang J O. Adaptive neuro-fuzzy network control for a nobile robot[J]. Journal of Intelligent and Robotic Systems, 2011, 62(3-4): 567-586. [本文引用:1] [JCR: 0.827]
[7] Chaw D. Fuzzy adaptive tracking control of wheeled mobile robots with state-dependent kinematic and dynamic disturbances[J]. IEEE Transactions on Fuzzy Systems, 2012, 20(3): 587-593. [本文引用:1] [JCR: 5.484]
[8] Yang S X, Zhu A, Yuan G F, et al. A bioinspired neuro dynamics-based approach to tracking control of mobile robots[J]. IEEE Transactions on Industrial Electronics, 2012, 59(8): 3211-3220. [本文引用:2] [JCR: 5.165]
[9] Lin Chuan-kai. A reinforcement learning adaptive fuzzy controller for robots[J]. Fuzzy Sets and Systems, 2003, 137(3): 339-352. [本文引用:3] [JCR: 1.749]
[10] Campion G, Bastin G, D'Andrea-Novel B. Structural properties and classification of kinematic and dynamic models of wheel mobile robots[J]. IEEE Transactions on Robots and Automation, 1996, 12(1): 47-62. [本文引用:2] [JCR: 2.126]
[11] 李艳东, 王宗义, 朱玲, . 基于递归模糊神经网络的移动机器人滑模控制[J]. 吉林大学学报: 工学版, 2011, 41(6): 1731-1737.
Li Yan-dong, Wang Zong-yi, Zhu Ling, et al. Sliding mode control of mobile robots based on recurrent fuzzy-neural network[J]. Journall of Jilin University (Engineering and Technology Edition), 2011, 41(6): 1731-1737. [本文引用:2] [CJCR: 0.701]
[12] Park B S, Yoo S J, Park J B, et al. Adaptive output-feedback control for trajectory tracking of electrically driven nonholonomic mobile robots[J]. IET Control Theory and Applications, 2010, 5(6): 830-838. [本文引用:1] [JCR: 1.717]
[13] Dax T, Kar I N. Design and implementation of an adaptive fuzzy logic-based controller for wheeled mobile robots[J]. IEEE Transactions on Control Systems Technology, 2006, 14(3): 501-510. [本文引用:1] [JCR: 2.0]