一种基于强化学习的集群系统协同控制方法及系统
未命名
09-10
阅读:109
评论:0

1.本文件涉及集群控制技术领域,尤其涉及一种基于强化学习的集群系统协同控制方法及系统。
背景技术:
2.生物群体行为是自然界中常见的一种现象。通过个体决策,使整个团队最终从宏观角度表现出自组织、协作、稳定性和对环境的适应性,在智能交通、编队控制、智能网格、传感器网络、机器人任务等领域,与集群系统的局部、分布式和稳定需求密切相关,因此,研究生物集群行为并将其映射到群体系统的协调和自主控制中,是具有重要的意义的。
3.现有技术中普遍研究自然界生物群体的短期群体行为,而不考虑生物群体在日常群体行为下所积累的学习经验对生物群体行为的改变,在面对突然的环境改变下对集群的行为调整不当,普遍适应性不强;且现有技术普遍具有固定的控制模型和方法,不能随着环境的变动而自主的适应和调整参数,不能满足复杂系统的控制性能要求;另外,现有技术往往需要知道准确的系统模型才能做出针对性的训练和调整,需要人为的调查和收集所应用的场合信息,训练部分智能体并记录他们的轨迹作为引导路径,花费时间做出相应的训练和调整。
技术实现要素:
4.本说明书一个或多个实施例提供了一种基于强化学习的集群系统协同控制方法,包括:
5.s1.对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件;
6.s2.根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量;
7.s3.根据所述效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型;
8.s4.基于强化学习对所述路径规划模型进行训练,用梯度下降算法实现对模型参数进行更新,获得集群系统协同控制的最优控制策略。
9.本说明书一个或多个实施例提供了一种基于强化学习的集群系统协同控制系统,包括:
10.第一模型构建模块:用于对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件;
11.数据处理模块:用于根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量;
12.第二模型构建模块:用于根据所述效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型;
13.控制策略获取模块:用于基于强化学习对所述路径规划模型进行训练,用梯度下降算法实现对模型参数进行更新,获得集群系统协同控制的最优控制策略。
14.本说明书一个或多个实施例提供了一种电子设备,包括处理器,以及被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现上述的一种基于强化学习的集群系统协同控制方法的步骤。
15.本说明书一个或多个实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现上述的一种基于强化学习的集群系统协同控制方法的步骤。
16.本发明有益效果如下:
17.本发明应用强化学习理论,采用群体学习的方式,将复杂环境下多个可能的动态威胁设计成价值网络性能指标函数,并以最小化价值网络的输出作为每个智能体的最优控制策略,实现智能体集群协同控制;本发明提出的控制策略,能够使得智能体集群对于多样环境具有更强的适应性,能满足任务执行的相关要求和标准;实现了智能体集群在复杂环境下,面对未知的动态环境,能快速获得最优控制策略,实现集群智能体避碰控制,具备高效完成高难度的搜索和跟踪任务的潜力,具有很大的应用前景。
18.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
19.为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
20.图1为本说明书一个或多个实施例提供的一种基于强化学习的集群系统协同控制方法的流程图;
21.图2为本说明书一个或多个实施例提供的一种基于强化学习的集群系统协同控制方法中智能体与动态威胁的关系示意图;
22.图3为本说明书一个或多个实施例提供的一种基于强化学习的集群系统协同控制方法中控制策略的结构示意图;
23.图4为本说明书一个或多个实施例提供的一种基于强化学习的集群系统协同控制系统的组成示意图;
24.图5为本说明书一个或多个实施例提供的一种电子设备的结构示意图。
具体实施方式
25.为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造
性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
26.方法实施例
27.根据本发明实施例,提供了一种基于强化学习的集群系统协同控制方法,图1为本说明书一个或多个实施例提供的一种基于强化学习的集群系统协同控制方法的流程图,如图1所示,根据本发明实施例的基于强化学习的集群系统协同控制方法具体包括:
28.s1.对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件。
29.所述集群系统中的智能体包括多个一般智能体、一个虚拟领导者和动态威胁。
30.对于由n个智能体组成的集群系统,假设其环境为二维空间,则对集群系统中的智能体分别建立动力学模型具体包括:
31.对所述一般智能体建立动力学模型,具体如公式1所示:
[0032][0033]
其中,pi和vi表示一般智能体i的位置和速度,ui为控制变量,fi为未知的外部干扰,t表示时间;
[0034]
对所述虚拟领导者建立动力学模型,具体如公式2所示:
[0035][0036]
其中,pr表示虚拟领导者的位置,vr为虚拟领导者的速度;
[0037]
对半径为rh的动态威胁建立动力学模型,具体如公式3所示:
[0038][0039]
其中,ph表示动态威胁的位置,vh为动态威胁的速度。
[0040]
在集群运动过程中,集群中的智能体应考虑复杂的约束,所述确定各智能体在集群系统中路径规划时的约束条件具体为:所述约束条件包括距离约束和角度约束,设某个智能体为i,则相邻的智能体为j,所述距离约束具体如公式4所示:
[0041]
||p
ri
(t)||《dr;p
ri
(t)=pr(t)-pi(t)
[0042]
||p
ij
(t)||》ds;p
ij
(t)=pi(t)-pj(t)
[0043]
||p
ih
(t)||》dh;p
ih
(t)=pi(t)-p
he
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式4;
[0044]
其中,dr表示每个智能体到虚拟领导者所期望的最大距离;ds表示两个智能体之间所期望的最小安全距离;p
he
是被检测到的最近的动态威胁位置,即检测到的动态威胁的边缘位置;dh表示智能体与动态威胁所期望的安全距离;
[0045]
除此之外,每个智能体对于动态威胁之间存在角度约束,图2为智能体与动态威胁的关系图,所述角度约束具体如公式5所示:
[0046]
θ
ih
》θsꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式5;
[0047]
其中,θs表示所期望的最小安全角;θ
ih
为智能体i与动态威胁的相对速度方向v
ih
与动态威胁边界线的夹角,用来判断智能体的运动方向是否有碰撞到威胁的趋势,具体计算方法如公式6所示:
[0048][0049]
其中,表示智能体i与动态威胁的相对位置p
ih
和相对速度v
ih
之间的夹角;v
ih
(t)=vi(t)-vh(t);θh为智能体i检测到的威胁角度范围。
[0050]
s2.根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量。
[0051]
针对未知动态环境的集群系统的智能控制方案,关键在于设计一个合适的性能指标函数用来评价控制器的价值,通过效用函数表示智能体的实时奖励,反映所设定的约束是否满足,根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量具体为:
[0052]
所述效用函数具体包括:一般智能体与虚拟领导者的跟踪任务要求u
ri
(t)、智能体之间的协同一致要求u
bi
(t)以及智能体与动态威胁的避碰要求u
hi
(t),具体如公式7所示:
[0053][0054][0055][0056]
其中:
[0057]
基于所述约束条件对应的效用函数,所述智能体的总系统模型的状态向量如下所示:
[0058][0059]
该系统模型包含了集群中的智能体、虚拟领导者和动态威胁。
[0060]
s3.根据所述效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型。
[0061]
所述性能指标函数为各所述效用函数的和,如公式8所示:
[0062][0063]
ui(j)中变量j会从时间t到无穷进行变化并求和,j=t的时候,ui(j)就等于前面的t时刻的效用函数ui(t):
[0064]
ui(t)=u
ri
(t)+u
bi
(t)+u
hi
(t)+μi(t)
t
bμi(t);
[0065]
其中,ji(t)为性能指标函数;γ为折扣因子,满足0《γ《1;b为一个方阵,满足b=b
t
》0;
[0066]
集群中的智能体是为了学习一个控制策略,使性能指标函数的最小值,因此智能体i的最优控制策略定义为:
[0067][0068]
根据所述性能指标函数进行迭代时的近似误差,基于预设的学习率范围,利用梯度下降法对性能指标函数的权值进行更新,进而对所述近似误差进行更新,得到最小性能指标函数。
[0069]
s4.基于强化学习对所述路径规划模型进行训练,用梯度下降算法实现对模型参数进行更新,获得集群系统协同控制的最优控制策略。
[0070]
基于强化学习的控制方案的结构示意图如图3所示,该控制方案由系统模型、策略网络和价值网络三个模块组成。系统模型包含了集群中的智能体、虚拟领导者和动态威胁,策略网络是输出最优控制策略的神经网络,价值网络是输出性能指标函数的神经网络。
[0071]
对于性能指标函数ji(t)可以被表示如下:
[0072][0073]
其中:y
ci
和w
ci
是理想的常数权重矩阵。δ
ci
为近似误差满足|δ
ci
|≤δ
cm
,因此性能指标函数可以近似为:
[0074][0075]
其中:其中:和是近似权重矩阵。
[0076]
对于ψ(
·
),该函数定义如下:
[0077][0078]
然后,定义了性能指标函数在第l次迭代步中的近似误差为:
[0079][0080][0081]
通过梯度下降法等证明可近似等于性能指标函数ji(t)。利用梯度下降准则,
得到权值w
ci
的更新算法为:
[0082][0083]
其中,εc是价值网络的学习率,ψc(t)是的简化表示。设置学习率满足:
[0084][0085]
结合上述公式我们可以得到:
[0086][0087][0088]
将两式相减得到:
[0089][0090]
于是进一步得到:
[0091][0092]
根据预设的学习率的范围,得到:
[0093]
|1-εcψc(t)
t
ψc(t)|《1;
[0094]
因此,当l
→
∞有:
[0095][0096]
因此,可近似性能指标函数ji(t)。
[0097]
根据数学归纳法:
[0098][0099]
近似的性能指标函数可以在相邻的智能体之间进行交换。为了使价值网络更新过程更加稳定,智能体i使用其相邻智能体的近似性能指标函数来实现协同学习。因此近似误差更新如下:
[0100][0101]
其中:β是一个正数的参数。
[0102]
通过策略网络得到最优控制策略,如公式9所示:
[0103][0104]
其中,y
ai
和w
ai
是理想的常数权重矩阵。δ
ai
为近似误差满足|δ
ai
|≤δ
am
,δ
am
是一个正数;
[0105]
根据所述控制策略进行迭代时的近似误差,基于预设的学习率范围,利用梯度下降法对所述控制策略的权值进行更新,进而对所述近似误差进行更新,得到最优控制策略。
[0106]
因此最优控制策略可以近似为:
[0107][0108]
定义了控制策略第l次迭代的近似误差为:
[0109][0110][0111]
经过梯度下降法等证明可近似最优控制策略
[0112]
利用梯度下降准则,可以得到权值w
ai
的更新算法为:
[0113][0114]
其中,εa是策略网络的学习率,ψa(t)是的简化表示;
[0115]
设置学习率满足:
[0116][0117]
结合上述公式可以得到:
[0118][0119][0120]
将两式相减得到:
[0121][0122]
于是得到:
[0123][0124]
根据预设学习率的范围,可以得到:
[0125]
|1-εaψa(t)
t
ψa(t)|《1
[0126]
因此当l
→
∞有:
[0127][0128]
证明得到可近似最优控制策略
[0129]
利用价值网络得到的性能指标函数,通过最小化价值网络的输出可以得到代理i的最优控制策略为:
[0130][0131]
根据最优性原则,需要满足如下:
[0132][0133]
从最优性的角度出发,用牛顿-拉夫逊方法可以得到近似误差:
[0134]
[0135]
本发明有益效果如下:
[0136]
本发明应用强化学习理论,采用群体学习的方式,将复杂环境下多个可能的动态威胁设计成价值网络性能指标函数,并以最小化价值网络的输出作为每个智能体的最优控制策略,实现智能体集群协同控制;本发明提出的控制策略,能够使得智能体集群对于多样环境具有更强的适应性,能满足任务执行的相关要求和标准;实现了智能体集群在复杂环境下,面对未知的动态环境,能快速获得最优控制策略,实现集群智能体避碰控制,具备高效完成高难度的搜索和跟踪任务的潜力,具有很大的应用前景。
[0137]
系统实施例
[0138]
根据本发明实施例,提供了一种基于强化学习的集群系统协同控制系统,图4为本说明书一个或多个实施例提供的一种基于强化学习的集群系统协同控制系统的组成示意图,如图4所示,根据本发明实施例的基于强化学习的集群系统协同控制系统具体包括:
[0139]
第一模型构建模块40:用于对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件;
[0140]
数据处理模块42:用于根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量;
[0141]
第二模型构建模块44:用于根据所述效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型;
[0142]
控制策略获取模块46:用于基于强化学习对所述路径规划模型进行训练,用梯度下降算法实现对模型参数进行更新,获得集群系统协同控制的最优控制策略。
[0143]
本发明实施例是与上述方法实施例对应的系统实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
[0144]
装置实施例一
[0145]
本发明实施例提供一种电子设备,如图5所示,包括:存储器50、处理器52及存储在所述存储器50上并可在所述处理器52上运行的计算机程序,所述计算机程序被所述处理器52执行时实现如下方法步骤:
[0146]
s1.对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件;
[0147]
s2.根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量;
[0148]
s3.根据所述效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型;
[0149]
s4.基于强化学习对所述路径规划模型进行训练,用梯度下降算法实现对模型参数进行更新,获得集群系统协同控制的最优控制策略。
[0150]
装置实施例二
[0151]
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,所述程序被处理器52执行时实现如下方法步骤:
[0152]
s1.对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件;
[0153]
s2.根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向
量;
[0154]
s3.根据所述效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型;
[0155]
s4.基于强化学习对所述路径规划模型进行训练,用梯度下降算法实现对模型参数进行更新,获得集群系统协同控制的最优控制策略。
[0156]
本实施例所述计算机可读存储介质包括但不限于为:rom、ram、磁盘或光盘等。
[0157]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
技术特征:
1.一种基于强化学习的集群系统协同控制方法,其特征在于,包括:s1.对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件;s2.根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量;s3.根据所述效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型;s4.基于强化学习对所述路径规划模型进行训练,用梯度下降算法实现对模型参数进行更新,获得集群系统协同控制的最优控制策略。2.根据权利要求1所述的方法,其特征在于,所述集群系统中的智能体包括多个一般智能体、一个虚拟领导者和动态威胁。3.根据权利要求2所述的方法,其特征在于,所述对集群系统中的智能体分别建立动力学模型具体包括:对所述一般智能体建立动力学模型,具体如公式1所示:其中,p
i
和v
i
表示一般智能体i的位置和速度,u
i
为控制变量,f
i
为未知的外部干扰,t表示时间;对所述虚拟领导者建立动力学模型具体如公式2所示:其中,p
r
表示虚拟领导者的位置,v
r
为虚拟领导者的速度;对半径为r
h
的动态威胁建立动力学模型,具体如公式3所示:其中,p
h
表示动态威胁的位置,v
h
为动态威胁的速度。4.根据权利要求2所述的方法,其特征在于,所述确定各智能体在集群系统中路径规划时的约束条件具体为:所述约束条件包括距离约束和角度约束,所述距离约束具体如公式4所示:||p
ri
(t)||<d
r
;p
ri
(t)=p
r
(t)-p
i
(t)||p
ij
(t)||>d
s
;p
ij
(t)=p
i
(t)-p
j
(t)||p
ih
(t)||>d
h
;p
ih
(t)=p
i
(t)-p
he
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式4;其中,d
r
表示每个智能体到虚拟领导者所期望的最大距离;d
s
表示两个智能体之间所期望的最小安全距离;p
he
是被检测到的最近的动态威胁位置,即检测到的威胁的边缘位置;d
h
表示智能体与动态威胁所期望的安全距离;所述角度约束具体如公式5所示:θ
ih
>θ
s
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式5;其中,θ
s
表示所期望的最小安全角;θ
ih
为智能体i与动态威胁的相对速度方向v
ih
与动态威胁边界线的夹角,用来判断智能体的运动方向是否有碰撞到威胁的趋势,具体计算方法如公式6所示:
其中,表示智能体i与动态威胁的相对位置p
ih
和相对速度v
ih
之间的夹角。v
ih
(t)=v
i
(t)-v
h
(t);θ
h
为智能体i检测到的威胁角度范围。5.根据权利要求2所述的方法,其特征在于,所述根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量具体为:根据所述约束条件是否满足设计效用函数,表示智能体的实时奖励,所述效用函数具体包括:一般智能体与虚拟领导者的跟踪任务要求、智能体之间的协同一致要求以及智能体与动态威胁的避碰要求,具体如公式7所示:体与动态威胁的避碰要求,具体如公式7所示:体与动态威胁的避碰要求,具体如公式7所示:其中,u
ri
(t)表示智能体与虚拟领导者的跟踪任务要求;u
bi
(t)表示智能体之间的协同一致要求;u
bi
(t)表示智能体与动态威胁的避碰要求;(t)表示智能体与动态威胁的避碰要求;(t)表示智能体与动态威胁的避碰要求;(t)表示智能体与动态威胁的避碰要求;(t)表示智能体与动态威胁的避碰要求;(t)表示智能体与动态威胁的避碰要求;基于所述约束条件对应的效用函数,所述智能体的总系统模型的状态向量如下所示:6.根据权利要求5所述的方法,其特征在于,所述根据所述效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型具体包括:所述性能指标函数为各所述效用函数的和,如公式8所示:
其中,u
i
(j)中变量j会从时间t到无穷进行变化并求和,j=t的时候,u
i
(j)就等于前面的t时刻的效用函数u
i
(t):u
i
(t)=u
ri
(t)+u
bi
(t)+u
hi
(t)+μ
i
(t)
t
bμ
i
(t);其中,j
i
(t)为性能指标函数;γ为折扣因子,满足0<γ<1;b为一个方阵,满足b=b
t
>0;根据所述性能指标函数进行迭代时的近似误差,基于预设的学习率范围,利用梯度下降法对性能指标函数的权值进行更新,进而对所述近似误差进行更新,得到最小性能指标函数。7.根据权利要求2所述的方法,其特征在于,所述基于强化学习对所述路径规划模型进行训练,用梯度下降算法实现对模型参数进行更新,获得集群系统协同控制的最优控制策略具体包括:所述控制策略如公式9所示:其中,y
ai
和w
ai
是理想的常数权重矩阵。δ
ai
为近似误差满足|δ
ai
|≤δ
am
,δ
am
是一个正数;根据所述控制策略进行迭代时的近似误差,基于预设的学习率范围,利用梯度下降法对所述控制策略的权值进行更新,进而对所述近似误差进行更新,得到最优控制策略。8.一种基于强化学习的集群系统协同控制系统,其特征在于,包括:第一模型构建模块:用于对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件;数据处理模块:用于根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量;第二模型构建模块:用于根据所述效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型;控制策略获取模块:用于基于强化学习对所述路径规划模型进行训练,用梯度下降算法实现对模型参数进行更新,获得集群系统协同控制的最优控制策略。9.一种电子设备,其特征在于,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现如权利要求1至7任一所述的一种基于强化学习的集群系统协同控制方法的步骤。10.一种存储介质,其特征在于,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现如权利要求1至7任一所述的一种基于强化学习的集群系统协同控制方法的步骤。
技术总结
本说明书实施例提供了一种基于强化学习的集群系统协同控制方法及系统,其中,方法包括:对集群系统中的智能体建立动力学模型,确定各智能体在集群系统中路径规划时的约束条件;根据约束条件设计效用函数,确定各智能体的状态向量;根据效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型;基于强化学习对路径规划模型进行训练,对模型参数进行更新,获得集群系统协同控制的最优控制策略。本发明面对未知的动态环境能够快速获得最优控制策略,实现集群智能体避碰控制,能够高效完成高难度的搜索和跟踪任务,具有很大的应用前景。具有很大的应用前景。具有很大的应用前景。
技术研发人员:蓝雪婧 陈怡任 钟嘉威 何树德 邹涛
受保护的技术使用者:广州大学
技术研发日:2023.06.20
技术公布日:2023/9/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/