基于强化学习补偿器的水下航行器姿态控制系统及方法

未命名 07-22 阅读:58 评论:0

with system uncertainties and external disturbances[j].nonlinear dynamics,2017,88(1):465

476.
[0011]
[4]qi x,cai z-j.three-dimensional formation control based on filter backstepping method for multiple underactuated underwater vehicles[j].robotica,2017,35(8):1690.
[0012]
[5]makavita c d,nguyen h d,ranmuthugala d,et al.composite model reference adaptive control for an unmanned underwater vehicle[j].underwater technology,2015,33(2):81

93.
[0013]
[6]ellenrieder k d.dynamic surface control of trajectory tracking marine vehicles with actuator magnitude and rate limits[j].automatica,2019,105:433

442.
[0014]
自主式无人水下航行器(automatic underwater vehicle,auv)的动力学模型是一个多输入多输出、欠驱动强耦合的非线性系统,同时工作环境复杂多变,因此,对其姿态进行高精度控制是一个挑战。
[0015]
现有的水下航行器一般具有原配的经典控制器,这些控制器往往有足够的稳定裕度,能够在大部分条件下维持系统的稳定,然而由于缺乏自适应功能,原配控制器在环境发生变化或者系统参数发生摄动时容易出现明显的性能下降。


技术实现要素:

[0016]
本发明的目的在于通过训练好的强化学习补偿器抵抗不确定扰动、提升水下航行器的最终性能,以克服水下航行器的原配控制器的自适应性能或控制性能不能满足任务需求的缺点,从而提供一种基于强化学习补偿器的水下航行器姿态控制系统及方法。
[0017]
本发明拟结合原配控制器和强化学习,将强化学习作为补偿器叠加到原配控制器的输出上,通过原配控制器保证训练过程的稳定性,通过强化学习实现环境或者系统参数变化时的自适应性能,保证水下航行器的控制在各种场景下均能维持高性能。
[0018]
现有水下航行器的原配控制器一般有较好的鲁棒性,可以维持系统的稳定,但是,当系统模型出现摄动或者工作环境改变可能出现明显的性能下降;强化学习补偿器可以通过历史经验的学习,渐进地提升控制精度,自适应变化的环境和系统模型的摄动,但是无法保证训练过程的稳定性。
[0019]
为解决上述技术问题,本发明的技术方案提供一种基于强化学习补偿器的水下航行器姿态控制系统,所述控制系统包括基础控制器和强化学习补偿器;所述基础控制器,用于计算对水下航行器的基础控制量;所述强化学习补偿器,用于计算对水下航行器的补偿控制量;所述控制系统将所述补偿控制量与所述基础控制量叠加,用于完成对水下航行器姿态的控制。
[0020]
作为上述技术方案的一种改进,所述强化学习补偿器包括:动作网络单元、奖励惩罚单元、评价网络单元和经验池;
[0021]
所述动作网络单元,用于计算当前状态下所述强化学习补偿器对水下航行器的补偿控制量;所述奖励惩罚单元,用于根据当前状态和所述动作网络单元计算得到的补偿控制量计算水下航行器的当前瞬时性能指标,所述性能指标是状态误差和控制量消耗;所述
经验池,用于对水下航行器的当前状态、所述动作网络单元计算得到的补偿控制量和所述奖励惩罚单元计算得到的性能指标进行周期性采样,形成历史经验数据;所述评价网络单元,经所述经验池中的历史经验数据训练得到,用于对当前状态下水下航行器动作的优劣进行评估,其实质是预测水下航行器在当前状态和当前动作的条件下未来一段时间的综合误差,并根据评估结果指导所述动作网络单元调整计算补偿控制量过程中所使用的参数。
[0022]
本发明提供一种基于强化学习补偿器的水下航行器姿态控制方法,所述方法将强化学习作为补偿器与基础控制器结合,在基础控制器保证水下航行器稳定性的同时,通过对强化学习补偿器进行训练得到历史经验数据并进行保存,实现提升对水下航行器的控制精度,保证水下航行器的自适应性能。
[0023]
所述强化学习补偿器的训练在基础控制器的基础上进行,所述训练过程包括以下步骤:
[0024]
初始化神经网络;
[0025]
控制系统读取系统状态,并计算状态误差;
[0026]
基础控制器计算基础控制量,强化学习补偿器计算补偿控制量;
[0027]
控制系统计算总控制量;
[0028]
奖励惩罚单元根据水下航行器的当前状态和补偿控制量计算瞬时性能指标;
[0029]
水下航行器的当前状态、补偿控制量和性能指标保存在经验池中形成历史经验数据;
[0030]
评价网络单元在经验池的指导下对水下航行器的动作进行评估;
[0031]
评价网络单元对动作网络单元进行参数指导并调整;
[0032]
控制系统更新神经网络权值,重置水下航行器状态,进行下一次训练。
[0033]
作为上述方法的一种改进,在所述强化学习补偿器训练过程中可以对水下航行器的训练环境进行障碍设置,使强化学习补偿控制器计算得到带噪声的补偿控制量,以丰富所述经验池保存的历史数据。
[0034]
水下航行器的动力学模型:水下航行器的动力学模型:水下航行器的动力学模型:其中,x是水下航行器的系统状态,主要包含三维空间中的位置(p
x
,py,pz)、速度(v
x
,vy,vz)、姿态和角速度信息(ω
x
,ωy,ωz);g(x)是可建模的非线性函数,f(x)是已知的系统模型,u(t)是控制信号,包含水平舵角δe,垂直舵角δr和差分舵角δd,即u(t)=[δe(t),δr(t),δd(t)]
t
;d(x,t)包含不确定的系统模型和外部干扰。假设期望的系统状态为xr,则系统误差为:e
x
=x-xr,当前水下航行器已经存在一个能够使原系统稳定当性能无法满足需求的根据系统误差求基础控制量ub(t)的基础控制器μb(e
x
)。
[0035]
作为上述方法的又一种改进,本发明会叠加可以求解一个能够使长期性能指标最优的补偿控制量us(t)的强化学习补偿器μs(e
x
),强化学习补偿器μs(e
x
)与基础控制器μb(e
x
)并联存在,因此最终的控制器形式为:μ(e
x
)=μb(e
x
)+μs(e
x
),则所述强化学习补偿器μs(e
x
)与基础控制器μb(e
x
)结合后对水下航行器的总控制量u(t)的表达式为:u(t)=ub(t)+us(t),其中,t为连续的任意时刻,u(t)=μ(e
x
),ub(t)=μb(e
x
),us(t)=μs(e
x
),ub(t)为水下航行器原配的基础控制器计算的基础控制量。
[0036]
作为上述方法的再一种改进,所述奖励惩罚单元根据当前状态和补偿控制量计算瞬时的性能指标,主要用于指导评价网络的训练;所述奖励惩罚单元改进了传统的二次型奖励函数,采用绝对值的基本形式,根据当前状态和补偿控制量计算得到性能指标r(t),同时在零点附近设置了死区以减小平衡点附近的震荡和增加平衡点邻域状态的吸引力,具体表达式为:表达式为:er(x)=max(0.00174,x)-0.00174,其中,k1、k2、k3、k4、k5、k6是需要调整的权重系数,表征对不同状态误差的重视程度,θr(t)、ψr(t)是t时刻的期望目标姿态,θ(t)、ψ(t)是t时刻的水下航行器姿态,δe(t)是t时刻的水平舵角,δr(t)是t时刻的垂直舵角,δd(t)是t时刻的差分舵角,x是自变量,以此来加速强化学习的训练过程。
[0037]
作为上述方法的还一种改进,所述经验池采用off-policy的算法对水下航行器的当前状态x(t
k-1
)和x(tk)、性能指标r(tk)及补偿控制量us(tk)进行处理,其中,tk是离散的周期性采样时刻,t
k-1
是tk的前一个采样时刻,并进行保存形成历史经验数据,统一用于评价网络和动作网络的训练。
[0038]
作为上述方法的进一步改进,所述评价网络单元是一个能够评价在t时刻的状态下x(t)进行动作us(t)的优劣的函数,是长期性能指标函数的函数逼近;所述评价网络单元采用全连接层的神经网络结构实现,前向计算公式为:采用全连接层的神经网络结构实现,前向计算公式为:其中,是长期性能指标函数v(t)的函数逼近;ωc是评价网络单元的神经网络权值,hc(
·
)是评价网络单元的非线性激活函数,xr是期望的系统状态,x(t)是t时刻的系统状态,us(t)是t时刻的补偿控制量;所述评价网络采用时序差分的方式进行训练,其误差表达式为:其中γ是折扣因子,一般取0.95左右;所述长期性能指标函数v(t)的表达式为:e
x
(t)=x(t)-xr(t),其中,e
x
(t)为t时刻的系统误差,xr(t)为t时刻期望的系统状态。
[0039]
作为上述方法的更一种改进,所述动作网络单元功能与传统控制器类似,能够根据当前系统误差e
x
(t)求解水下航行器的补偿控制量us(t),所述动作网络单元采用全连接层的神经网络结构实现,前向计算公式为:层的神经网络结构实现,前向计算公式为:其中,us(t)为t时刻的补偿控制量,μs(
·
)是动作网络单元的函数逼近,x(t)是t时刻的系统状态,xr是期望的系统状态,ωa是动作网络单元的神经网络权值,ha(
·
)是动作网络单元的非线性激活函数;所述动作网络单元采用确定性策略梯度的方式训练,其误差表达式为:其中uc(t)为性能指标的期望目标,期望目标为0,即uc(t)=0。
[0040]
本发明针对的受控对象有以下特点:
[0041]
(1)长条形的水下航行器;
[0042]
(2)控制系统为一类六自由度的、多输入多输出、欠驱动的非线性系统;
[0043]
(3)通过单推进器提供推力、通过舵板调整姿态;
[0044]
(4)航速设计在10-60节范围的;
[0045]
本发明主要针对的水下航行器具有原配基础控制器,但原配控制器的自适应性能或控制性能无法满足任务需求的水下航行器进行改进设计,通过经验数据的训练逐步提升控制性能。
[0046]
本发明提出了一个基于强化学习补偿器的水下航行器姿态控制系统及方法,通过对历史经验数据的学习,实现在户外航行过程中抵抗未建模的不确定扰动和逐步提升姿态控制性能。本发明的主要特点有:(1)融合经典控制器和强化学习补偿器,通过经典控制器保障强化学习补偿器在训练过程中的系统稳定,通过训练好的强化学习补偿器抵抗不确定扰动和提升最终性能;(2)改进了传统的二次型的强化学习奖励函数,提升了训练速度和最终控制性能。
[0047]
本发明所述基于强化学习补偿器的水下航行器姿态控制系统及方法的优点在于,结合原配基础控制器和强化学习,将强化学习作为补偿器叠加到原配基础控制器的输出上,通过原配基础控制器保证训练过程的稳定性,通过强化学习补偿器实现水下航行器在环境或者系统参数变化时的自适应性能,保证水下航行器的控制在各种场景下均能维持高性能。具体表现为:
[0048]
1.本发明通过结合原配控制器和强化学习补偿器,弥补彼此的缺点。原配控制器一般有较好的鲁棒性,可以维持系统的稳定,但是当系统模型出现摄动或者工作环境改变可能出现明显的性能下降;强化学习补偿器可以通过历史经验的学习,渐进地提升控制精度,自适应变化的环境和系统模型的摄动,但是无法保证训练过程的稳定性。本发明通过传统控制器保障训练过程的稳定性,通过强化学习补偿器实现训练后的高性能;
[0049]
2.本发明的水下航行器控制器不依赖精确的潜航器模型参数,通过历史经验数据自动学习控制参数,减少了对老旧潜航器改良开发时机理建模和参数辨识的成本;
[0050]
3.本发明的水下航行器控制方法可以抵抗为建模的干扰类型;
[0051]
4.本发明针对水下航行器改良了奖励函数,使用绝对值形式的奖励函数要比一般的二次型奖励函数在小误差时有更大的学习速度,能够有效提升训练速度;另外,本发明的奖励函数设置了死区,缓解了传统的奖励函数在误差较小时状态震荡的问题。
附图说明
[0052]
图1为水下航行器示意图;
[0053]
图2为本发明在训练过程中的性能得分变化示意图;
[0054]
图3为原始基础控制器(低增益pd控制器)、高增益的pd控制器、本发明设计的控制器共3种控制方法的姿态和深度控制效果对比图;
[0055]
图4为原始基础控制器(低增益pd控制器)、高增益的pd控制器、本发明设计的控制器共3种控制方法的角速度和速度控制效果对比图;
[0056]
图5为本发明所述基于强化学习补偿器的水下航行器的控制器结构示意图;
[0057]
图6为本发明所述基于强化学习补偿器的水下航行器的测试流程图;
[0058]
图7为本发明所述基于强化学习补偿器的水下航行器的训练流程图。
具体实施方式
[0059]
以下结合实施例进一步说明本发明所提供的技术方案。
[0060]
如图1所示,为本发明针对的长条形的水下航行器,该水下航行器的控制系统为一类六自由度的、多输入多输出、欠驱动的非线性系统;该水下航行器原配基础控制器通过单推进器提供推力、通过舵板调整姿态;该水下航行器的航速设计在10-60节范围的。
[0061]
现以一款533口径的高速水下航行器为例,进行相关的仿真实验,航行器的参数如下表所示:
[0062][0063][0064]
参数的具体含义见参考文献:
[0065]
guo k j,lin xb,hao c p,liu j.an improved state estimator for high-speed auv with nn[c]//2021 40th chinese control conference.2021.
[0066]
如图5所示,为本发明所述基于强化学习补偿器的水下航行器的控制器结构示意图;本发明所述控制系统包括基础控制器和强化学习补偿器;所述基础控制器,用于计算对水下航行器的基础控制量ub(t);所述强化学习补偿器,用于计算对水下航行器的补偿控制量us(t);所述控制系统将所述补偿控制量us(t)与所述基础控制量ub(t)叠加得到总控制量u(t),用于完成对水下航行器姿态的控制;所述强化学习补偿器包括:动作网络单元、奖励惩罚单元、评价网络单元和经验池。
[0067]
所述动作网络单元,用于计算当前状态x(t)下所述强化学习补偿器对水下航行器的补偿控制量us(t);所述奖励惩罚单元,用于根据当前状态x(t)和所述动作网络单元计算得到的补偿控制量us(t)计算水下航行器的当前瞬时性能指标r(t),所述性能指标r(t)的含义是状态误差和控制量消耗;所述经验池,用于对水下航行器的当前状态x(t
k-1
)和x(tk)、所述动作网络单元计算得到的补偿控制量us(tk)和所述奖励惩罚单元计算得到的性能指标r(tk)进行周期性采样,形成历史经验数据;所述评价网络单元,根据所述经验池中的历史经验数据训练得到,能够对当前状态下水下航行器动作的优劣进行评估,其实质是预测水下航行器在当前状态和当前动作的条件下未来一段时间的综合误差,并根据评估结果指导所述动作网络单元调整计算补偿控制量过程中所使用的参数。
[0068]
本发明所述基于强化学习补偿器的水下航行器姿态控制方法将强化学习作为补偿器与基础控制器结合,在基础控制器保证水下航行器稳定性的同时,通过对强化学习补偿器进行训练得到历史经验数据并进行保存,实现提升对水下航行器的控制精度,保证水下航行器的自适应性能。
[0069]
如图7所示,为本发明所述基于强化学习补偿器的训练流程图,具体包括:启动航行器,初始化评价神经网络ωc和动作神经网络ωa;重置航行器状态x0开启训练;控制系统读取系统状态xk,并计算状态误差ek=x-xk;基础控制器计算基础控制量u
b.k
=μb(ek),在训练时,对水下环境设置障碍增加训练环境难度,使得强化学习补偿器计算带噪声的补偿控制量u
s,k
=μ
s.k
(ek)+nk,其中nk是强化学习补偿器在训练过程中针对环境变化调整的增益控制量,控制系统计算总控制量μk=μ
b,k

s,k
;计算奖励函数,等待采样周期:奖励惩罚单元根据水下航行器的当前状态xk和补偿控制量u
s,k
计算性能指标rk,用于对水下航行器的下一状态x
k+1
进行指导;水下航行器的系统状态xk和x
k+1
、补偿控制量u
s,k
和性能指标rk保存在经验池中形成历史经验数据;评价网络单元在经验池的指导下对水下航行器的动作进行评估,动作网络单元在评价网络单元的指导下调整计算补偿控制量中使用的系统参数,同时系统更新评价神经网络ω
c,k+1
和动作神经网络ω
a,k+1
;至此一次完整的航行训练已经完成,此时再重置水下航行器状态,可以进行下一次训练,当训练储存的经验数据足够时,在一次训练完成系统更新评价神经网络和动作神经网络后可以结束训练。
[0070]
本发明的算法在训练过程的表现,统计了50组随机初始权值的训练过程的长期性能指标数据,如图2所示。结果表明由于神经网络的初始权值不同,本发明设计的基于强化学习补偿器的水下航行器控制方法开始运行时的性能不同,但经过一段时间的训练后,会收敛到相当的性能水平(标准差逐渐缩小)。这说明本发明的方法对于随机的神经网络初始权值具有较好的自适应性能。
[0071]
为了比较训练后的强化学习补偿器的性能提升效果,这里进行了原始基础控制器(低增益pd控制器)、高增益的pd控制器、本发明设计的控制器共3种控制器的控制效果的对比。
[0072]
如图6所示,为本发明所述基于强化学习补偿器的水下航行器姿态控制系统的测试流程图,具体为:启动航行器,评价神经网络ωc和动作神经网络ωa初始化后开始进行测试,水下航行器启动航行;控制系统读取状态信息x,并计算状态误差e
x
=x-xr;基础控制器计算基础控制量ub=μb(e
x
),强化学习补偿器计算补偿控制量us=μs(e
x
),控制系统计算总控制量u=ub+us;计算奖励函数,等待采样周期:奖励惩罚单元根据水下航行器的当前状态xk和补偿控制量us计算性能指标rk,对水下航行器的下一状态x
k+1
进行指导,同时保存在经验池中,形成周期性采样;评价网络单元评估水下航行器动作的优劣,计算得到评价网络对当前状态和动作的评价值q值(e
x
,us);动作网络根据评估结果对控制系统的参数进行微调,更新动作神经网络ωa;至此,水下航行器的一次测试已经完成,可以重新读取水下航行器状态进行下一次测试或结束航行。
[0073]
原始基础控制器(低增益pd控制器)、高增益的pd控制器、本发明设计的控制器共3种控制器的控制效果的对比图如3和图4所示。从图中可以看出大增益的pd控制器的调节时间短,但是存在严重的超调;小增益的pd控制器的超调小,但调节时间较长;而本发明设计的基于强化学习补偿器的水下航行器姿态控制器同时具有较快的调节时间和较小的超调
量。
[0074]
从上述对本发明的具体描述可以看出,本发明提升了水下航行器在环境或者系统参数变化时的自适应性能,保证了水下航行器的控制在各种场景下均能维持高性能。
[0075]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

技术特征:
1.一种基于强化学习补偿器的水下航行器姿态控制系统,其特征在于,所述控制系统包括基础控制器和强化学习补偿器;所述基础控制器,用于计算对水下航行器的基础控制量;所述强化学习补偿器,用于计算对水下航行器的补偿控制量;所述控制系统将所述补偿控制量与所述基础控制量叠加,用于完成对水下航行器姿态的控制。2.根据权利要求1所述的基于强化学习补偿器的水下航行器姿态控制系统,其特征在于,所述强化学习补偿器包括:动作网络单元、奖励惩罚单元、评价网络单元和经验池;所述动作网络单元,用于计算当前状态下所述强化学习补偿器对水下航行器的补偿控制量;所述奖励惩罚单元,用于根据当前状态和所述动作网络单元计算得到的补偿控制量计算水下航行器的当前瞬时性能指标,所述性能指标是状态误差和控制量消耗;所述经验池,用于对水下航行器的当前状态、所述动作网络单元计算得到的补偿控制量和所述奖励惩罚单元计算得到的性能指标进行周期性采样,形成历史经验数据;所述评价网络单元,经所述经验池中的历史经验数据训练得到,用于对当前状态下水下航行器动作的优劣进行评估,其实质是预测水下航行器在当前状态和当前动作的条件下未来一段时间的综合误差,并根据评估结果指导所述动作网络单元调整计算补偿控制量过程中所使用的参数。3.一种基于强化学习补偿器的水下航行器姿态控制方法,其特征在于,所述方法将强化学习作为补偿器与基础控制器结合,在基础控制器保证水下航行器稳定性的同时,通过对强化学习补偿器进行训练得到历史经验数据并进行保存,实现提升对水下航行器的控制精度,保证水下航行器的自适应性能;所述强化学习补偿器的训练在基础控制器的基础上进行,所述训练过程包括以下步骤:初始化神经网络;控制系统读取系统状态,并计算状态误差;基础控制器计算基础控制量,强化学习补偿器计算补偿控制量;控制系统计算总控制量;奖励惩罚单元根据水下航行器的当前状态和补偿控制量计算瞬时性能指标;水下航行器的当前状态、补偿控制量和性能指标保存在经验池中形成历史经验数据;评价网络单元在经验池的指导下对水下航行器的动作进行评估;评价网络单元对动作网络单元进行参数指导并调整;控制系统更新神经网络权值,重置水下航行器状态,进行下一次训练。4.根据权利要求3所述的基于强化学习补偿器的水下航行器姿态控制方法,其特征在于,在所述强化学习补偿器训练过程中可以对水下航行器的训练环境进行障碍设置,使强化学习补偿控制器计算得到带噪声的补偿控制量,以丰富所述经验池保存的历史数据。5.根据权利要求3所述的基于强化学习补偿器的水下航行器姿态控制方法,其特征在于,所述控制方法会求解一个能够使性能指标最优的补偿控制量u
s
(t),所述强化学习补偿器与基础控制器结合后对水下航行器的总控制量u(t)的表达式为:u(t)=u
b
(t)+u
s
(t),其中,t为连续的任意时刻,u
b
(t)为水下航行器原配的基础控制器计算的基础控制量。
6.根据权利要求3所述的基于强化学习补偿器的水下航行器姿态控制方法,其特征在于,所述奖励惩罚单元采用绝对值的基本形式,根据t时刻水下航行器的状态和补偿控制量计算得到性能指标r(t),具体表达式为:计算得到性能指标r(t),具体表达式为:e
r
(x)=max(0.00174,x)-0.00174,其中,k1、k2、k3、k4、k5、k6是需要调整的权重系数,表征对不同状态误差的重视程度,θ
r
(t)、ψ
r
(t)是t时刻的期望目标姿态,θ(t)、ψ(t)是t时刻的水下航行器姿态,δ
e
(t)是t时刻的水平舵角,δ
r
(t)是t时刻的垂直舵角,δ
d
(t)是t时刻的差分舵角,函数e
r
(x)是为了零点附近设置死区,x是自变量。7.根据权利要求3所述的基于强化学习补偿器的水下航行器姿态控制方法,其特征在于,所述经验池采用off-policy的算法对水下航行器的当前状态x(t
k-1
)和x(t
k
)、性能指标r(t
k
)及补偿控制量u
s
(t
k
)进行处理,其中,t
k
是离散的周期性采样时刻,t
k-1
是t
k
的前一个采样时刻,并进行保存形成历史经验数据。8.根据权利要求3所述的基于强化学习补偿器的水下航行器姿态控制方法,其特征在于,所述评价网络单元采用全连接层的神经网络结构实现,前向计算公式为:其中,是长期性能指标函数v(t)的函数逼近,ω
c
是评价网络单元的神经网络权值,h
c
(
·
)是评价网路单元的非线性激活函数,x(t)是t时刻的系统状态,x
r
为期望的系统状态,u
s
(t)是t时刻的补偿控制量;所述评价网络单元采用时序差分的方式进行训练,其误差表达式为:时序差分的方式进行训练,其误差表达式为:其中,γ是折扣因子,一般取0.95左右。9.根据权利要求8所述的基于强化学习补偿器的水下航行器姿态控制方法,其特征在于,所述长期性能指标函数v(t)的表达式为:于,所述长期性能指标函数v(t)的表达式为:e
x
(t)=x(t)-x
r
(t),其中,e
x
(t)为t时刻的系统误差,x
r
(t)为t时刻期望的系统状态。10.根据权利要求3所述的基于强化学习补偿器的水下航行器姿态控制方法,其特征在于,所述动作网络单元采用全连接层的神经网络结构实现,前向计算公式为:其中μ
s
(
·
)是动作网络单元的函数逼近,ω
a
是动作网络单元的神经网络权值,h
a
(
·
)是动作网路单元的非线性激活函数,所述动作网络单元采用确定性策略梯度的方式训练,其误差表达式为:网络单元采用确定性策略梯度的方式训练,其误差表达式为:其中,u
c
(t)为性能指标的期望目标,期望目标为0,即u
c
(t)=0。

技术总结
本发明涉及一种基于强化学习补偿器的水下航行器姿态控制系统及方法,本发明将经过训练的强化学习作为补偿器与原配控制器结合,通过原配控制器保证稳定性,通过强化学习补偿器实现水下航行器在环境或系统参数变化时的自适应性能。强化学习补偿器包括动作网络单元、奖励惩罚单元、经验池和评价网络单元;动作网络单元求解当前状态下的补偿控制量;奖励惩罚单元根据当前状态和补偿控制量计算性能指标;经验池对当前状态、补偿控制量和性能指标进行采样保存,形成历史经验数据;评价网络单元根据历史经验数据评估水下航行器动作的优劣并对动作网络单元进行训练指导。本发明在保证水下航行器稳定性的同时,保证不确定系统参数下的自适应控制性能。的自适应控制性能。的自适应控制性能。


技术研发人员:林晓波 朱晓萌 郝程鹏 侯朝焕
受保护的技术使用者:中国科学院声学研究所
技术研发日:2022.01.06
技术公布日:2023/7/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐