动态约束下可重构模块机器人分散强化学习最优控制
董博1, 刘克平2, 李元春2
1.吉林大学 控制科学与工程系, 长春 130022
2.长春工业大学 控制工程系, 长春 130012
通信作者:李元春(1962-),男,教授,博士生导师.研究方向:智能机械与机器人控制.E-mail:liyc@mail.ccut.edu.cn

作者简介:董博(1986-),男,博士研究生.研究方向:智能机械与机器人控制.E-mail:bodong09@mails.jlu.edu.cn

摘要

基于ction-critic-identifier(ACI)与RBF神经网络,提出了一种外界动态约束下的可重构模块机器人分散强化学习最优控制方法,解决了存在强耦合不确定性的模块机器人系统的连续时间非线性最优控制问题。文中将机器人动力学模型描述为一个交联子系统的集合,基于连续时间MDPs性能指标,结合ACI与RBF神经网络,对子系统最优值函数,最优控制策略及总体不确定项进行辨识,使系统满足HJB方程下的最优条件,从而使可重构模块机器人子系统渐进跟踪期望轨迹,跟踪误差收敛且有界。采用Lyapunov理论对系统稳定性进行证明,数值仿真验证了所提出的分散控制策略的有效性。

关键词: 自动控制技术; 可重构模块机器人; 强化学习; 非线性最优控制; 分散控制
中图分类号:TP273 文献标志码:A 文章编号:1671-5497(2014)05-1375-10
Decentralized reinforcement learning optimal control for time varying constrained reconfigurable modular robot
DONG Bo1, LIU Ke-ping2, LI Yuan-chun2
1.Department of Control Science and Engineering,Jilin University,Changchun 130022,China
2.Department of Control Engineering,Changchun University of Technology,Changchun 130012,China
Abstract

Based on Action-Critic-Identifier (ACI) and Radial Basis Function (RBF) neural network, a novel decentralized reinforcement learning optimal control method for time varying constrained reconfigurable modular robot is presented. The continuous time nonlinear optimal control problem of strongly coupled uncertainty robotic system is solved. The dynamics of the robot is described as a synthesis of interconnected subsystems. As a precondition to the continuous-time MDPs performance indicators, the optimal value function, optimal control policy and global uncertainty of the subsystems are estimated combing with ACI and RBF network. The optimal conditions of HJB equation with regard to the subsystem are satisfied, so that the reconfigurable modular robot system can track the desired trajectory in a short time and the estimation error can converge to zero in finite time. The stability of the system is confirmed by Lyapunov theory. Simulations are performed to illustrate the effectiveness of the proposed decentralized control scheme.

Keyword: automatic control technology; reconfigurable modular robot; reinforcement learning; nonlinear optimal control; decentralized control
0 引言

可重构模块机器人是一类具有标准接口与模块可以根据不同的任务需求对自身构形进行重新组合与配置的机器人。根据模块设计的概念及子系统分散控制理论,可重构模块机器人可以在不同的外界环境与约束下根据不同的任务需要来改变自身构形,且不需要重新设计控制器。此外,可重构模块机器人的模块关节还包括了通讯、驱动、控制、传动等单元,使重构后的机器人对新的工作环境具有更好的适应性。

许多学者对可重构模块机器人的动力学与控制方法进行了研究。文献[1]提出了一种基于VGSTA-ESO的可重构模块机器人分散自抗扰控制方法,文中设计了一种高精度VGSTA-ESO,用来对子系统模型非线性项与子系统交联项进行辨识,从而实现关节轨迹跟踪控制。基于计算力矩法,文献[2]提出了一种基于速度观测模型的可重构机械臂模糊RBF神经网络补偿控制方法,通过Lyapunov函数对神经网络权值、隶属度函数中心与宽度进行更新,并证明补偿控制算法一致有界。文献[3]提出了一种可重构模块机器人分散自适应模糊滑模控制方法,采用模糊逻辑系统估计子系统未知动力学模型,并通过带有自适应结构的滑模控制器补偿交联项及模糊估计误差。文献[4]提出了一种基于观测器的可重构模块机器人自适应模糊控制器,采用自适应模糊系统对子系统未知动力学模型进行辨识,并通过状态估计的方式来重构子系统交联项。

近年来,可重构模块机器人系统的最优控制问题成为机器人控制领域研究的热点与难点之一,而强化学习算法自诞生之日起就被认为是解决此类问题最有效的方法。强化学习是一种从环境到行为映射的学习方法,其目的是将环境中的报酬与评价信号最大化。与监督学习相比,强化学习不需要预知各种状态下的导师信号,而是在与环境的交互过程中学习,由于其具有在非线性模型不确定性条件下的自适应优化能力,因而在解决复杂模型的优化策略与最优控制等问题方面有着独特的优势[ 5, 6, 7, 8]

本文基于马尔可夫决策过程(Markov decision processes,MDPs)连续时间性能指标,将ACI与RBF神经网络相结合,在外界动态约束下提出一种可重构模块机器人分散强化学习最优控制策略,解决了存在强耦合不确定性的模块机器人的连续时间非线性最优控制问题。采用ACI对系统Hamilton jacobi bellman(HJB)方程进行辨识,其中critic网络可以辨识系统最优值函数,action网络用来辨识系统最优控制策略,最后通过identifier网络对系统模型非线性项与子系统交联项进行辨识,并利用RBF神经网络对ACI网络权值进行更新,使系统满足HJB方程下的最优条件,以此来满足机器人子系统对期望轨迹的跟踪要求。

1 问题描述

可重构模块机器人末端所受外部动态约束为:

Φ(q,t)=0(1)

式中: qRn为可重构模块机器人的关节变量;函数 Φ:RnRm,m为外部限制条件维数。

在动态约束下, n自由度的可重构模块机器人动力学方程可以描述为:

M(q)q··+C(q,q·)q·+G(q)+F(q,q·)=u+JΦT(q,t)f2

式中: M(q)Rn×n为惯性矩阵; C(q,q·)q·Rn为哥氏力和离心力项; G(q)Rn为重力项; F(q,q·)Rn为摩擦项; uRn为关节力矩向量; JΦT(q,t)f为模块机器人末端接触力, JΦ(q,t)为雅克比矩阵, f为与之对应的拉格朗日乘子。

在对自由空间运行的模块机器人引入 m个约束后,由于约束(1)的限制,系统失去了m个自由度,因此,机器人的自由度由n变为n-m,即仅需n-m个独立关节变量即可完全描述系统的受限运动。

定义关节变量表示形式如下:

q=q1q2,q1Rn-m,q2Rm3

将式(3)代入式(1)可得:

Φ(q1,Ω(q,t),t)=0

其中, q2=Ω(q1,t),式(3)可用独立变量 q1完全描述:

q=q1Ω(q1,t)4

对式(4)求导可得:

q求二阶导数可得:

q··=Tθ··+T·θ·+H·6

将式(5)(6)代入式(2)可得:

M(q)Tθ··+T·θ·+H·+C(q,q·)Tθ·+H·+G(q)+F(q,q·)=u+JΦT(q,t)f7

定义 E=I(n-m)×(n-m)0m×(n-m)Rn×(n-m),由此可得: θ=q10=Eq1因此,式(2)可以分解为如下形式:

j=1nMij(q)[(TEq··1)j+(T·Eq·1)j+H·j]+G-i(q)-fi+j=1nCij(q,q·)[(TEq·1)j+Hj]+Fi(qi,q·i)=ui8

式中: (TEq··1)j(T·Eq·1)j(TEq·1)jHj分别为 (TEq··1)(T·Eq·1)(TEq·1)H的第j个分量; G-i(q)Fi(qi,q·i)分别为向量 G(q)F(q,q·)的第i个分量; fi为第i个关节所受的外界约束力; Mij(q)Cij(q,q·)分别为矩阵 M(q)C(q,q·)的第ij个分量。

子系统动力学模型可以改写为:

Mi(qi)q··i+Ci(qi,q·i)q·i+Gi(qi)+Fi(qi,q·i)+Zi(q,q·,q··)-fi=ui9式中:Zi(q,q·,q··)=j=1,jinMij(q)TEq··1j+T·Eq·1j+H·j+Mii(q)TEq··1i+T·Eq·1i+H·i-Mi(qi)q··i+j=1,jinCij(q,q·)TEq·1j+Hj+Cii(q,q·)TEq·1j+Hj-Ci(qi,q·i)q·i+G-i(q)-Gi(qi)10

xi=[xi1,xi2]T=[qi,q·i]T,i=1,,n,式(9)所示的外界动态约束下的可重构模块机器人子系统动力学模型可以转换成如下状态空间的形式:

Si:x·i1=xi2x·i2=-f(xi,ui)-hi(q,q·,q··)yi=xi111

式中: xi为子系统状态向量; yi为子系统输出向量; f(xi,ui)为子系统模型非线性项; hi(q,q·,q··)为子系统交联项。

f(xi,ui)hi(q,q·,q··)可以表示为:

f(xi,ui)=Mi-1(qi)[Ci(qi,q·i)q·i+Gi(qi)+  Fi(qi,q·i)-fi-uihi(q,q·,q··)=Mi-1(qi)Zi(q,q·,q··)12

本文基于MDPs连续时间性能指标,针对外界动态约束下的可重构模块机器人子系统动力学方程建立HJB方程,结合ACI与RBF神经网络分别对HJB方程中的最优值函数、最优控制策略及子系统非线性项进行辨识,并设计权值更新率对网络权值进行更新,从而得出满足HJB方程的相应最优解,以此来满足动态约束下可重构模块机器人子系统关节轨迹跟踪要求。

2 基于ACI的分散强化学习最优控制

假设1 期望轨迹 yid,y·id,y··id,输入增益矩阵 bi(xi)有界且已知。则式(11)可以变形为如下的状态方程:

Si:x·i1=xi2x·i2=-F(xi,ui)+hi(q,q·,q··)+bi(xi)uiyi=xi113

式中: F(xi,ui)=f(xi,ui)+bi(xi)ui

假设2 子系统交联项 hiq,q·,q··有界,且满足:

hiq,q·,q··δi0+j=1nδijsij14

式中: δi0>0为未知常数; δijsij0为未知光滑Lipschitz函数。

定义一类马尔可夫决策过程为一个五元组: <XARPJ>;xi,xjX;aA。其中, X为环境状态集; A为状态有限连续行为集; Rija=E{rt+Δt|xt=xi,at=a,xt+Δt=xj}为报酬函数,即状态 xi时agent采用行为 a转移到状态 xj时的瞬时报酬; Pija=Pr{xt+Δt=xj|xt=xi,at=a}为状态转移函数,即状态 xi时agent采用行为 a转移到状态 xj时的转移概率; J为策略优化的性能指标,记为: Jx(t)=trx(τ),u(x),其中 t<τ<,uU为控制策略。对于式(13)中连续时间带有非线性函数的系统状态,其最优值函数可以定义为:

Vi*xi(t)=minuitri(xi(τ),ui(xi))15

式中: ri(xi,ui)为当前状态下的报酬函数[ 6]

ri(xi,ui)=xiTQxi+uiTRui=Qr(xi)+uiTRui16

式中: Qr(xi)连续可导且正定; R为正定对称矩阵。

若采用式(15)中的最优值函数 Vi*(xi)(以下均按此表示最优值函数),则可以给出关于子系统(13)、最优值函数 Vi*(xi)控制策略 ui的Hamiltonian-jacobi-bellman(HJB)方程[ 9]:

HJBi(xi,ui,Vi*)=minui[ri(xi,ui)+Vi*-F(xi,ui)-hi(q,q·,q··)+bi(xi)ui]=minuiri(xi,ui)+Vi*Fui(xi,ui)17

引理1[ 10] 对于给定式(13)的可重构模块机器人子系统,若要保证式(17)中的HJB方程的极值相对于 uiU具有平稳点,其最优值函数及最优控制策略必须要满足如下条件:

若上述条件满足,则可以得出下列结论:

(1)采用有界控制策略 ui可以保证HJB方程达到局部最小值,且满足控制输入端所施加的约束。

(2)系统Hessian矩阵正定,所采用的控制策略 ui(·):t0,tf,uiU可使式(17)全局最小。

(3)如果最优控制策略存在,那么它是唯一的。

若报酬函数光滑,且采用最优控制策略 ui*,则式(17)的HJB方程满足如下等式:

HJBi*(xi,ui*,Vi*)=minui*[ri(xi,ui*)+Vi*Fui(xi,ui*)]=0(18)

其中,最优控制策略可以表示为:

由式(18)(19)可知,若最优值函数 Vi*(xi)已知且连续可导, Vi*(0)=0,最优控制策略 ui*(xi)系统不确定项 Fui(xi,ui)已知,则式(18)所示的HJB方程成立且可解。然而,实际情况当中, Vi*(xi)并非处处可导,且最优控制策略 ui*(xi)与系统不确定项 Fui(xi,ui)未知,因此,采用一般方法求解HJB方程显然是不可行的。为了解决上述问题,本文采用ACI方法,结合RBF神经网络来对HJB方程中的最优值函数,最优控制策略及系统不确定项进行辨识,ACI的结构框图如图1所示。其中,采用action网络来辨识系统最优控制策略 ui*(xi),记为 u^i(xi);采用critic网络辨识最优值函数 Vi*(xi)记为 V^i(xi);

图1 action-critic-identifier结构框图Fig.1 Architecture of action-critic-identifier

采用鲁棒神经网络identifier辨识系统不确定部分 Fui(xi,ui),记为 F^u^i(xi,u^i),辨识后的HJB方程可表示为:

HJ^Bi*(xi,u^i,V^i)=minuiri(xi,u^i)+V^iF^u^i(xi,u^i)20

HJB方程的辨识误差为:

δhi=HJ^Bi*(xi,u^i,V^i)-HJBi*(xi,ui*,Vi*)(21)

对于一类经典RBF神经网络[ 11]可以表示为:

N(x)=W*TS(x)+ε(x)(22)

式中: W*为理想神经网络权值; ε(x)为逼近误差,在节点数量足够、节点中心及中心宽度构建合理的情况下,RBF神经网络可以逼近任意的连续函数。

最优值函数与最优控制策略可以分别表示为:

Vi*(xi)=WiTSi(xi)+εic(xi)(23)ui*(xi)=-12R-1biT(xi)S·i(xi)TWi+ε·ia(xi)24

式中: Si(xi)为光滑神经网络基函数; WiRn为未知理想神经网络权值。

采用critic网络和action网络分别对 Vi*(xi)ui*(xi)进行估计:

V^i(xi)=WicTSi(xi)(25)u^i(xi)=-12R-1biT(xi)S·i(xi)TW^ia26

式中: W^ic(t)W^ia(t)分别为critic网络和action网络的权值,权值估计误差为:

W~ic(t)=Wi-W^ic(t)(27)W~ia(t)=Wi-W^ia(t)(28)

critic网络权值可按如下LS更新率进行更新:

W^·ic=-ηcΓω1+υωTΓωδhi29

式中: ηcυ为正常数增益; ωRn为critic网络的回归向量; ΓRn×n为对称估计增益矩阵。

action网络的权值可采用如下的梯度更新率进行更新[ 8]:

式中:proj(·)为投影算子; ηa1ηa2为正增益。

在对 V^i(xi)u^i(xi)进行估计后,结合RBF神经网络,带有控制策略的子系统非线性不确定项 Fui(xi,ui)可以表示为:

Fu^i(xi,u^i)=x·i2=WiFTκ(ΛiFTxi2)+εiF(xi2)+bi(xi)u^i31

式中: u^iui的估计值; κ·为神经网络基函数; WiFΛiF为未知理想神经网络权值。

为了解决非线性项对子系统的影响,设计一类鲁棒神经网络identifier对 Fu^i(xi,u^i)进行辨识,可以表示为:

F^u^i(x^i,u^i)=x^·i2=W^TiFκ^iF+bi(xi)u^i+μ32

式中: κ^iF为identifier网络基函数的估计值; μRn为误差反馈项,记为[ 12]:

μ=kxi2(t)-kxi2(0)+ϑ33ϑ·=(+γ)x~i2+β1sat(x~i2)(34)

式中: k,α,γ,β1为正常数控制增益; sat·为饱和函数。

identifier网络的状态估计误差为:

F~ui(xi,ui)=x~·i2=WiFTκiF-W^TiFκ^iF+εiF(xi2)-μ35

W^iFΛ^iF可以按照下式进行更新:

W^·iF=proj(ΓiWFκ^·iFΛ^TiFx^·i2x~Ti2)(36)Λ^·iF=proj(ΓiΛFx^·i2x~Ti2W^TiFκ^·iF)(37)

式中: ΓiWFΓiΛF为增益矩阵。

定义滤波辨识误差:

eir=x~·i2+αx~i238

对式(38)求导可得:

e·ir=x··i2-x^··i2+αx~·i2=WiFTκ·iFΛiFTx·i2-WiFTκ^iF-W^TiFκ^·iFΛ^TiFx^i2+ε·iF(xi2)-W^TiFκ^·iFΛ^TiFx^·i2-γx~i2-β1sat(x~i2)-keir+αx~·i239

对式(39)中的 W^TiFκ^·iFΛ^TiFx^·i2项进行分解可得:

W^TiFκ^·iFΛ^TiFx^·i2=12κ^·iFx^·i2(ΛiFT-Λ~TiF)(WiFT-W~TiF)+(WiFT-W~TiF)(Λ~TiF-ΛiFT)]=12κ^·iFx^·i2W~TiF(ΛiFT-Λ~TiF)+(WiFT-W~TiF)Λ~TiF-12κ^·iFx^·i2WiFT(ΛiFT-Λ~TiF)+(WiFT-W~TiF)ΛiFT=12WiFTκ^·iFΛ^TiFx~·i2+12W^TiFκ^·iFΛiFTx~·i2-12WiFTκ^·iFΛ^TiFx·i2-12W^TiFκ^·iFΛiFTx·i2+12W~TiFκ^·iFΛ^TiFx^·i2+12W^TiFκ^·iFΛ~TiFx^·i240

由此,式(39)可以化简为:

e·ir=PF1+PF2+PF3-keir-γx~i2-β1sat(x~i2)(41)

其中, W~TiF=WiFT-W^iFT;Λ~TiF=ΛiFT-Λ^TiF

PF1=12WiFTκ^·iFΛ^TiFx~·i2+12W^TiFκ^·iFΛiFTx~·i2-W^TiFκ^·iFΛ^TiFx^i2+αx~·i2-W^TiFκ^iF42PF2=-12WiFTκ^·iFΛ^TiFx·i2-12W^TiFκ^·iFΛiFTx·i2+WiFTκ·iFΛiFTx·i2+ε·iF(xi2)(43)PF3=12W~TiFκ^·iFΛ^TiFx^·i2+12W^TiFκ^·iFΛ~TiFx^·i244

由假设1及式(36)(37)(38)可知, PF1PF2PF3存在上界,表示为:

PF1λ1Ei(x~Ti2,eTir)Ei(x~Ti2,eTir)PF2ζ1PF3ζ245

由式(42)(43)(44)可知:

P·F2+P·F3ζ3+ζ4λ2Ei(x~Ti2,eTir))Ei(x~Ti2,eTir),Ei(x~Ti2,eTir)=x~Ti2eTirTR2×n,λ1(·)λ2·为全局可逆的增函数, ζi(i=1,2,3,4)为可计算的正常数。

定理 对于外界动态约束下的可重构模块机器人子系统动力学模型(9)及状态方程(13),若采用式(25)(26)(32)所示的critic网络、action网络及identifier网络分别对子系统的最优值函数 Vi*(xi)最优控制策略 ui*(xi)及系统不确定项 Fui(xi,ui)进行辨识,且采用式(29)(30)(36)(37)所示的更新率对网络权值进行更新,即可得到满足式(20)的HJB方程相应的最优解,使得外界动态约束下的可重构模块机器人子系统闭环稳定,且辨识误差收敛有界,各关节变量渐进跟踪期望轨迹,跟踪误差有界收敛。

证明 定义Lyapunov函数:

U1(d)ViL(xi2,eir)U2(d)U1(d)=12min(1,γ)d2U2(d)=max(1,γ)d249

对式(46)求导:

式中: K·为Filipov集合[ 13]

V·iL(xi2,eir)可进一步变形为:

将式(42)(43)(44)代入(51),可得:

由此可知,对任意正常数c,则 为一个一致连续且上界存在的负定函数。其中,上界 表示为:

D=d(t)|U2(d)<λ-12kminξ)54

因此,根据Lyapunov稳定性理论可知,系统是稳定的。

3 仿真实例

为了验证所提出的基于ACI的分散强化学习最优控制方法的有效性并考查误差的收敛情况,本文采用两组不同的二自由度受外界动态约束的可重构模块机器人构形来进行仿真。其中,构形实例如图2所示。

图2 动态约束下可重构模块机器人仿真图Fig.2 Configuration A and B for varying constrained robot

为了便于对上述构形实例进行分析,将上述构形转化为如图3所示的解析图。其中,外界动态约束可以定义为一类绕确定自由度旋转的长柱,构形A与构形B的约束方程如下:

ΦA(q,t)=L1cosq1+L2cosq2-L3+L4cotα(t)ΦB(q,t)=L1+L2cosq2-L3+L4cotα(t)

图3 解析图Fig.3 The analytic chart

式中: α(t)表示外界约束与x轴的夹角,α(t)=0.75π+0.2sint2

构形A与构形B的关节角初值定义为 q1(0)=2,q2(0)=2,关节初速度为零,构形A与构形B的动力学模型表示为:

MA(q)=0.36cos(q2)+0.60660.18cos(q2)+0.12330.18cos(q2)+0.12330.1233MB(q)=0.17-0.1166cos2(q2)-0.06cos(q2)-0.06cos(q2)0.1233

CA(q,q·)=-0.36sin(q2)q·2-0.18sin(q2)q·20.18sin(q2)(q·1-q·2)0.18sin(q2)q·1CB(q,q·)=0.1166sin(2q2)q·20.06sin(q2)q·20.06sin(q2)q·20

GA(q)=-5.88sin(q1+q2)-17.64sin(q1)-5.88sin(q1+q2)GB(q)=0-5.88cos(q2)

FA(q,q·)=q·1+10sin(3q1)+2sgn(q·1)1.2q·2+5sin(2q2)+sgn(q·2)FB(q,q·)=01.5q·2+sin(q2)+1.2sgn(q·2)

构形A的期望轨迹如下:

y1d=0.5cost+0.2sin3ty2d=Ω(y1d,t)=arcsinL1sin(α(t)-y1d)-L3sin(α(t))L2+α(t)

构形B的期望轨迹如下:

y1d=0y2d=Ω(y1d,t)=arcsinL1sin(α(t))-L3sin(α(t))L2+α(t)

其中,构形B由于外界动态约束的限制,关节1变量为零。ACI中所定义的参数如下: k=800,α=300,υ=0.005,ηa1=10,ηa2=50,ηc=20,β1=0.2,β2=2,γ=0.5

为了证实所采用的方法可以应用在不同的构形当中,并验证基于ACI的分散强化学习最优控制方法对子系统期望轨迹的跟踪性能,文中分别采用标准RBF神经网络控制方法与基于ACI的分散强化学习最优控制方法进行对比仿真。图4图5为采用RBF神经网络补偿系统模型非线性项与子系统交联时的关节跟踪曲线及误差曲线。图6图7为采用ACI对系统HJB方程中最优值函数、最优控制策略及模型非线性项进行辨识时关节的跟踪曲线及误差曲线。图8为采用ACI的末端轨迹跟踪曲线。通过仿真图可以看出:采用标准RBF神经网络对期望轨迹进行跟踪时,关节子系统跟踪速度较慢,且跟踪误差较大;而采用基于ACI与强化学习的分散最优控制策略后,关节子系统可以在0.2 s内跟踪期望轨迹,且跟踪误差小于±0.05。由此可知,基于ACI与强化学习的分散最优控制策略可以应用于不同构形的受外界动态约束的可重构模块机器人,且在不同构形中均可使子系统关节变量在极短的时间内跟踪期望轨迹,误差收敛且波动范围极小。

图4 采用RBF神经网络的轨迹跟踪曲线Fig.4 Trajectory tracking curve with RBF

图5 采用RBF神经网络的跟踪误差曲线Fig.5 Tracking error curve with RBF

图6 采用ACI强化学习的轨迹跟踪曲线Fig.6 Trajectory tracking curve with ACI

图7 采用ACI强化学习的跟踪误差曲线Fig.7 Tracking error curve with ACI

图8 采用ACI强化学习的末端轨迹Fig.8 Tip trajectory curve with ACI

4 结束语

结合ACI和RBF神经网络,提出了一种外界动态约束下的可重构模块机器人分散强化学习最优控制方法,解决了存在强耦合不确定性的可重构模块机器人系统的连续时间非线性最优控制问题。首先,建立了存在外界动态约束下的可重构模块机器人动力学模型,并将其划分为交联子系统的集合。其次,以马尔可夫决策过程性能指标为基础,针对子系统状态方程定义最优值函数与最优控制策略的观念表达式,将模型非线性项与子系统交联项划分为一类总体不确定项,并设计子系统HJB方程。之后,采用ACI对HJB方程中相应的最优函数进行辨识,其中action网络用来辨识子系统最优控制策略,critic网络对子系统最优值函数进行辨识,再通过identifier网络对子系统总体非线性不确定项进行估计,从而使子系统满足HJB方程下的最优化条件,使可重构模块机器人子系统渐进跟踪期望轨迹,且跟踪误差有界收敛。通过Lyapunov理论,对所提出的分散强化学习最优控制策略进行稳定性证明。最后,通过对两组不同构形的可重构模块机器人进行数值仿真,进一步验证了所提出的分散控制策略的有效性。

The authors have declared that no competing interests exist.

参考文献
[1] Li Yuan-chun, Dong Bo. Decentralized ADRC control for reconfigurable manipulators based on VGSTA-ESO of sliding mode[J]. Information-an International Interdisciplinary Journal, 2012, 15(6): 2453-2465. [本文引用:1] [JCR: 0.358]
[2] 李英, 朱明超, 李元春. 基于速度观测模型的可重构机械臂补偿控制[J]. 控制理论与应用, 2008, 25(5): 891-897.
Li Ying, Zhu Ming-chao, Li Yuan-chun. Velocity observer based compensator for motion control of a reconfigurable manipulator[J]. Control Theory & Applications, 2008, 25(5): 891-897. [本文引用:1] [JCR: 1.717]
[3] 朱明超, 李元春. 可重构机械臂分散自适应模糊滑模控制[J]. 吉林大学学报: 工学版, 2009, 39(1): 170-176.
Zhu Ming-chao, Li Yuan-chun. Decentralized adaptive sliding mode control for reconfigurable manipulators using fuzzy logic[J]. Journal of Jilin University(Engineering and Technology Edition), 2009, 39(1): 170-176. [本文引用:1] [CJCR: 0.701]
[4] 朱明超, 李英, 李元春. 基于观测器的可重构机械臂分散自适应模糊控制[J]. 控制与决策, 2009, 24(3): 429-434.
Zhu Ming-chao, Li Ying, Li Yuan-chun. Observer-based decentralized adaptive fuzzy control for reconfigurable manipulator[J]. Control and Decision, 2009, 24(3): 429-434. [本文引用:1] [CJCR: 0.907]
[5] Xu Yan-kai, Cao Xi-ren. Lebesgue-sampling-based optimal control problems with time aggregation[J]. IEEE Transactions on Automatic Control, 2011, 56(5): 1097-1109. [本文引用:1] [JCR: 2.718]
[6] Lewis F L, Vrabie D. Reinforcement learning and adaptive dynamic programming for feedback control[J]. IEEE Circuits and Systems Magzine, 2009, 9(3): 32-50. [本文引用:2]
[7] Xu Xin, He Han-gen, Hu De-wen. Efficient reinforcement learning using recursive least-squares methods[J]. Journal of Artificial Intelligence Research, 2002, 16: 259-292. [本文引用:1] [JCR: 1.056]
[8] Lewis F L, Liu De-rong. Reinforcement Learning and Approximate Dynamic Programming for Feedback Control[M]. New York: Wiley-IEEE Press, 2012. [本文引用:2]
[9] Lewis F L, Syrmos V L. Optimal Control[M]. New York: John Wiley & Sons, Inc, 1995. [本文引用:1] [JCR: 1.062]
[10] Sassano M, Astolfi A. Dynamic approximate solutions of the HJ inequality and of the HJB equation for input-affine nonlinear systems[J]. IEEE Transactions on Automatic Control, 2012, 57(10): 2490-2503. [本文引用:1] [JCR: 2.718]
[11] 吴玉香, 王聪. 基于确定学习的机器人任务空间自适应神经网络控制[J]. 自动化学报, 2013, 39(6): 806-815.
Wu Yu-xiang, Wang Cong. Deterministic learning based adaptive network control of robot in task space[J]. Acta Automatica Sinica, 2013, 39(6): 806-815. [本文引用:1] [CJCR: 0.572]
[12] Patre P M, MacKunis W, Kaiser K, et al. Asymptotic tracking for uncertain dynamic systems via a multilayer neural network feedforward and RISE feedback control structure[J]. IEEE Transactions on Automatic Control, 2008, 53(9): 2180-2185. [本文引用:1] [JCR: 2.718]
[13] Paden B, Sastry S. Calculus for computing Filippov's differential inclusion with application to the variable structure control of robot manipulators[J]. IEEE Transactions on Circuits Systems, 1987, 3(1): 73-82. [本文引用:1]