多无人机博弈对抗的目标分配方法和系统

未命名 09-21 阅读:75 评论:0


1.本发明涉及无人机技术领域,具体涉及一种多无人机博弈对抗的目标分配方法和系统。


背景技术:

2.无人机能够在多种环境下自主的完成给定任务,有效降低人力成本。相较于有人机,无人机具有无人员伤亡、机动性强、重量较轻、成本较低等特点,已经成为现代空战武器装备的重要成员之一。由于单个无人机所携带武器和传感器数量及性能有限,其执行空战任务的能力受到相应的限制,而多个无人机进行有效协同可以更好的完成空战任务,因此,多无人机组成编队协同执行任务已受到了越来越多的关注,如何对无人机编队设置协同作战的目标分配是当前一大难题。
3.在对无人机编队设置协同作战的目标分配时,一般需要为每个无人机分配所要对抗的目标。现有技术中,通过构建零和矩阵博弈模型,并对零和矩阵博弈模型进行求解,从而确定出最优解,并作为决策结果。主流的求解算法有lemke-howson(lh)算法、混合整数规划(mip)算法和double oracle(do)算法。
4.然而,本技术的发明人发现现有技术在求解过程中,现有的算法不适用对较大规模的博弈矩阵进行求解,需要消耗大量的时间,导致效率较低。


技术实现要素:

5.(一)解决的技术问题
6.针对现有技术的不足,本发明提供了一种多无人机博弈对抗的目标分配方法和系统,解决了现有技术获取多无人机的目标分配时效率较低的技术问题。
7.(二)技术方案
8.为实现以上目的,本发明通过以下技术方案予以实现:
9.本发明解决其技术问题所提供的一种多无人机博弈对抗的目标分配方法,目标分配方法由计算机执行,包括以下步骤:
10.生成零和博弈矩阵模型;零和博弈矩阵模型包括多无人机编队信息、多无人机博弈信息和收益矩阵;多无人机编队信息包括第一无人机编队信息和第二无人机编队信息,多无人机博弈信息包括第一无人机编队策略集合和第二无人机编队策略集合;
11.基于零和博弈矩阵模型获取严格博弈集合;
12.基于严格博弈集合获取纳什均衡解,基于纳什均衡解选取第一无人机编队的第一初始策略和第二无人机编队的第二初始策略;
13.基于第二初始策略获取使第一无人机编队的边际回报最大的第一最优反应策略,基于第一初始策略获取使第二无人机编队的边际回报最大第二最优反应策略;
14.如果第一最优反应策略和/或第二最优反应策略不存在于严格博弈集合中,则基于第一最优反应策略和/或第二最优反应策略更新严格博弈集合,并基于更新后的严格博
弈集合重新执行基于严格博弈集合获取纳什均衡解的步骤。如果第一最优反应策略和第二最优反应策略均存在于严格博弈集合中,则将纳什均衡解确定为多无人机博弈对抗的目标分配方案。
15.优选的,收益矩阵包括:
[0016][0017]
其中,sr表示第一无人机编队策略集合,sr∈sr表示第一无人机编队的一个策略,sb表示第二无人机编队策略集合,sb∈sb表示第二无人机编队的一个策略;(sr,sb)表示第一无人机编队采取策略sr,第二无人机编队采取策略sb的策略组合;u(sr,sb)为第一无人机编队在策略组合(sr,sb)下的收益;
[0018]
u(sr,sb)=er(sr,sb)-eb(sr,sb)
[0019]er
(sr,sb)和eb(sr,sb)分别为第一无人机编队和第二无人机编队的态势优势;
[0020][0021][0022][0023]
其中:ri表示第一无人机编队中无人机i,bj表示无人机i攻击的第二无人机编队中无人机j;表示速度信度函数,表示速度优势;表示角度信度函数,表示角度优势;表示距离信度函数,表示距离优势;a表示攻击有效性,b表示攻击无效性;
[0024][0025]
其中,为证据理论融合算子;
[0026]
为无人机i对无人机j的整体态势优势信度函数;
[0027][0028]
其中,为第一无人机编队中攻击无人机j的i个无人机的总体态势优势函数;
[0029][0030][0031]
其中,表示第一无人机编队对第二无人机编队整体的态势优势信度函数;m表示第一无人机编队中无人机数量,n表示第二无人机编队中无人机数量。
[0032]
优选的,基于零和博弈矩阵模型获取严格博弈集合,包括:
[0033]
在第一无人机编队策略集合中选取p个策略,以及在第二无人机编队策略集合中选取q个策略;其中,p和q为正整数,且p≥2,q≥2。基于p个策略生成第一无人机编队的第一严格博弈集合,基于q个策略生成第二无人机编队的第二严格博弈集合。
[0034]
优选的,基于严格博弈集合获取纳什均衡解,包括:基于预设算法分别对第一严格博弈集合和第二严格博弈集合进行处理,得到第一纳什均衡解和第二纳什均衡解;第一纳
什均衡解包括p个策略的第一概率分布,第二纳什均衡解包括q个策略的第二概率分布;
[0035]
基于纳什均衡解选取第一无人机编队的第一初始策略和第二无人机编队的第二初始策略,包括:
[0036]
将第一概率分布中概率最大的策略确定为第一初始策略,将第二概率分布中概率最大的策略确定为第二初始策略。
[0037]
优选的,基于第二初始策略获取使第一无人机编队的边际回报最大的第一最优反应策略,包括:
[0038]
初始化第一无人机编队的第一无人机向量;第一无人机向量用于表征第一无人机编队中每个无人机的策略对状态,策略对状态包括指示无人机已经确定策略对的确定状态和指示无人机未确定策略对的未确定状态;初始化的第一无人机向量中,所有无人机的策略对状态为未确定状态;
[0039]
基于第一无人机向量获取第一无人机编队状态信息;第一无人机编队状态信息包括处于未确定状态的第一候选无人机和处于确定状态的第一确定无人机;
[0040]
基于第一确定无人机和第二初始策略获取第一初始收益;
[0041]
获取所有第一候选无人机对应的第一候选策略对,并基于第一确定无人机、第一候选策略对和第二初始策略获取第一目标收益;
[0042]
基于第一初始收益和第一目标收益获取第一边际回报;将最大的第一边际回报对应的第一候选无人机确定为第一目标无人机,将最大的第一边际回报对应的第一候选策略对存储至第一候选集合;
[0043]
将第一无人机向量中第一目标无人机的策略对状态更新为确定状态;
[0044]
如果更新后的第一无人机向量中存在无人机处于未确定状态,则基于更新后的第一无人机向量重新执行基于第一无人机向量获取第一无人机编队状态信息的步骤;
[0045]
如果更新后的第一无人机向量中所有无人机均处于确定状态,则将第一候选集合确定为第一最优反应策略。
[0046]
优选的,基于第一确定无人机和第二初始策略获取第一初始收益,包括:
[0047]
获取第一确定无人机对应的第一确定策略对;
[0048]
将第一确定策略对形成的策略确定为第一无人机编队的第一采取策略,将第二初始策略确定为第二无人机编队的第二采取策略;基于第一采取策略和第二采取策略获取目标策略组合;
[0049]
基于收益矩阵,获取目标策略组合下第一无人机编队的收益,并确定为第一初始收益。
[0050]
优选的,获取所有第一候选无人机对应的第一候选策略对,包括:
[0051]
基于第一无人机编队策略集合获取每个第一候选无人机对应的第一策略对。基于预设的距离条件对第一策略对进行筛选,得到每个第一候选无人机对应的若干个第一候选策略对。
[0052]
优选的,基于预设的距离条件对第一策略对进行筛选,包括:
[0053]
获取第一策略对中的第一战术和第二无人机;在第一确定无人机中获取攻击第二无人机的友方无人机;
[0054]
获取第一候选无人机执行第一战术后的第一位置以及友方无人机执行战术后的
友方位置;
[0055]
如果第一位置和任意一个友方位置的距离均大于预设距离,则将第一策略对确定为第一候选策略对。
[0056]
优选的,基于第一确定无人机、第一候选策略对和第二初始策略获取第一目标收益,包括:
[0057]
分别将每个第一候选策略对和第一确定策略对进行组合,得到每个第一候选无人机对应的若干个第一候选策略;每个第一候选策略对应一个第一候选无人机和一个第一候选策略对;
[0058]
基于第一候选策略和第二初始策略获取候选策略组合;
[0059]
基于收益矩阵,获取候选策略组合下第一无人机编队的收益,并确定为第一目标收益。
[0060]
本技术解决其技术问题所提供的一种多无人机博弈对抗的目标分配系统,包括:
[0061]
模型生成模块,被配置为生成零和博弈矩阵模型;零和博弈矩阵模型包括多无人机编队信息和多无人机博弈信息;多无人机编队信息包括第一无人机编队信息和第二无人机编队信息,多无人机博弈信息包括第一无人机编队策略集合和第二无人机编队策略集合;
[0062]
严格博弈集合获取模块,被配置为基于零和博弈矩阵模型获取严格博弈集合;
[0063]
初始策略模块,被配置为基于严格博弈集合获取纳什均衡解,基于纳什均衡解选取第一无人机编队的第一初始策略和第二无人机编队的第二初始策略;
[0064]
最优反应策略模块,被配置为基于第二初始策略获取使第一无人机编队的边际回报最大的第一最优反应策略,基于第一初始策略获取使第二无人机编队的边际回报最大第二最优反应策略;
[0065]
方案分配模块,被配置为如果第一最优反应策略和/或第二最优反应策略不存在于严格博弈集合中,则基于第一最优反应策略和/或第二最优反应策略更新严格博弈集合,并基于更新后的严格博弈集合重新执行基于严格博弈集合获取纳什均衡解的步骤;
[0066]
如果第一最优反应策略和第二最优反应策略均存在于严格博弈集合中,则将纳什均衡解确定为多无人机博弈对抗的目标分配方案。
[0067]
(三)有益效果
[0068]
本发明提供了一种多无人机博弈对抗的目标分配方法和系统。与现有技术相比,具备以下有益效果:
[0069]
本发明通过生成零和博弈矩阵模型,并基于零和博弈矩阵模型获取严格博弈集合。基于严格博弈集合获取纳什均衡解,基于纳什均衡解选取第一无人机编队的第一初始策略和第二无人机编队的第二初始策略。基于第二初始策略获取第一无人机编队的第一最优反应策略,基于第一初始策略获取第二无人机编队的第二最优反应策略。如果第一最优反应策略和/或第二最优反应策略不存在于严格博弈集合中,则更新严格博弈集合,并重新获取纳什均衡解。如果第一最优反应策略和第二最优反应策略均存在于严格博弈集合中,则将纳什均衡解确定为多无人机博弈对抗的目标分配方案。本发明通过获取每个无人机编队的最优反应策略,可以提高多无人机目标分配的效率。
附图说明
[0070]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0071]
图1为本发明实施例所提供的多无人机博弈对抗的目标分配方法的场景示意图。
具体实施方式
[0072]
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0073]
本技术实施例通过提供一种多无人机博弈对抗的目标分配方法和系统,解决了现有技术获取多无人机的目标分配的效率低的问题,提高了多无人机目标分配的效率。
[0074]
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0075]
本发明实施例提供了一种多无人机博弈对抗的目标分配方法,该方法由计算机执行,该方法包括以下步骤:
[0076]
s1、生成零和博弈矩阵模型;零和博弈矩阵模型包括多无人机编队信息和多无人机博弈信息;多无人机编队信息包括第一无人机编队信息和第二无人机编队信息,多无人机博弈信息包括第一无人机编队策略集合和第二无人机编队策略集合;
[0077]
s2、基于零和博弈矩阵模型获取严格博弈集合;
[0078]
s3、基于严格博弈集合获取纳什均衡解,基于纳什均衡解选取第一无人机编队的第一初始策略和第二无人机编队的第二初始策略;
[0079]
s4、基于第二初始策略获取使第一无人机编队的边际回报最大的第一最优反应策略,基于第一初始策略获取使第二无人机编队的边际回报最大第二最优反应策略;
[0080]
s5、如果第一最优反应策略和/或第二最优反应策略不存在于严格博弈集合中,则基于第一最优反应策略和/或第二最优反应策略更新严格博弈集合,并基于更新后的严格博弈集合重新执行基于严格博弈集合获取纳什均衡解的步骤;
[0081]
如果第一最优反应策略和第二最优反应策略均存在于严格博弈集合中,则将纳什均衡解确定为多无人机博弈对抗的目标分配方案。
[0082]
下面对各步骤进行具体分析。
[0083]
在步骤s1中,生成多无人机编队的零和博弈矩阵模型。其中,零和博弈矩阵模型包括多无人机编队信息和多无人机博弈信息;多无人机编队信息包括第一无人机编队信息和第二无人机编队信息,多无人机博弈信息包括第一无人机编队策略集合和第二无人机编队策略集合。
[0084]
具体的,考虑到双方无人机编队采取的策略分别会对对方的收益产生影响,于是将其建模为一个零和博弈矩阵模型g=(p,s,u)。该博弈模型包含无人机部分、策略部分和收益部分。
[0085]
其中,p={r,b}为多无人机编队信息,表征博弈的参与方,博弈双方包括两支多无人机编队,本技术实施例中分别用红色方和蓝色方指代。r表示红色方,本技术实施例中称为第一无人机编队。l表示蓝色方,本技术实施例中称为第二无人机编队。需要说明的是,对于第一无人机编队中的每一架无人机,统称为第一无人机;第二无人机编队中的每一架无人机,统称为第二无人机。图1为本发明实施例所提供的多无人机博弈对抗的目标分配方法的场景示意图。
[0086]
每个无人机编队中可以包括若干架无人机。红色方有m架无人机,蓝色方有n架无人机。每架无人机可采取k种战术进行攻击,同时可以攻击对方任何一架无人机。无人机在进行攻击时,可以采用策略对进行攻击,策略对指的是某架无人机攻击时采取的战术和攻击目标。
[0087]
以红色方第i架无人机为例,其策略对为(p,j),表示为其采取战术p攻击蓝色方第j架无人机。由于红色方无人机可以采取k种战术进行攻击,同时可以攻击蓝色方n架无人机的任何一架,因此每个红色方无人机可以具有k*n个策略对。同理,蓝色方无人机可以采取k种战术进行攻击,同时可以攻击红色方m架无人机的任何一架,因此每个蓝色方无人机可以具有k*m个策略对。
[0088]
需要说明的是,对于一个无人机编队来说,在执行任务时,其中每架无人机会采取一个策略对,所有无人机采取的策略对共同构成无人机编队当前的策略。随着每架无人机采取的策略对可能不同,导致无人机编队的整体策略也会不同。
[0089]
零和博弈矩阵模型中,记s=sr×
sb为多无人机博弈信息,表示双方无人机编队进行博弈的策略集合。sr表示第一无人机编队策略集合,即红色方的策略集合,sr∈sr表示红色方的一个策略。sb表示第二无人机编队策略集合,即蓝色方的策略集合,sb∈sb表示蓝色方的一个策略。
[0090]
对于红色方编队,由于m个红色方无人机分别可以具有k*n个策略对,因此红色方编队的策略数量τr为(k
·
n)m。同理,蓝色方编队的策略数量τb为(k
·
m)n。对抗双方的策略空间等于对抗双方可能采取的策略数目相乘,则该博弈的策略空间规模为|s|=τr·
τb=(k
·
n)m·
(k
·
m)n。
[0091]
在一些实施例中,对于策略集合,可以对其中无人机采取的策略进行筛选,以对第一无人机的策略进行筛选为例,包括:
[0092]
可以先确定策略中某个策略对的信息,包括其中的第一无人机,采取战术和攻击目标(第二无人机)。可以获取该策略中,攻击该相同攻击目标的其他无人机,作为友方无人机。
[0093]
根据战术可以确定出每个无人机的位置情况,此时可以检测该第一无人机和所有友方无人机的距离是否均大于预设的安全距离。若是,则说明该策略可行,可以保留。若否,则说明该策略存在风险,可以将该策略从策略集合中删除。
[0094]
零和博弈矩阵模型中,收益矩阵为:
[0095][0096]
其中,(sr,sb)表示红色方采取策略sr,蓝色方采取策略sb的策略组合;u(sr,sb)为红色方在策略组合(sr,sb)下的收益值,由红色方与蓝色方决策优势的差值计算得到,即u
(sr,sb)=er(sr,sb)-eb(sr,sb)。其中,er(sr,sb)和eb(sr,sb)分别为红色方和蓝色方决策后取得的态势优势。
[0097]
收益矩阵中还包括态势优势的计算方法。以计算第一无人机编队中的无人机为例,首先可以计算无人机的三种优势,包括:
[0098][0099][0100]
其中,表示速度优势,v0表示最佳攻击速度,v
ri
表示第一无人机编队中无人机i的速度,v
bj
表示无人机i攻击的第二无人机编队中无人机j的速度,d
ribj
表示无人机i和j之间的距离,v
max
表示无人机最大速度,d
mmax
表示无人机的武器最大射程;
[0101][0102]
其中,表示角度优势,表示相对于无人机j,无人机i的方位角,表示相对于无人机i,无人机j的方位角;
[0103][0104][0105]
其中,表示距离优势,d
rmax
表示无人机雷达最大搜索距离,d
mmax
表示无人机导弹最大攻击距离,d
ribj
表示为无人机i到无人机j的距离,表示无人机i与无人机j的初始距离,m为距离系数。
[0106]
需要说明的是,无人机的一些初始参数可以通过内置的传感器获取,例如速度、方位角、距离等参数。有一些参数则是无人机的固定参数,例如最大搜索距离、最大攻击距离等。
[0107]
无人机执行战术后,速度距离等参数可能会发生改变,此时可以通过传感器重新获取。
[0108]
空战战术动作复杂多样,复杂的战术动作可以由基础的机动动作组合而成。目前常见的机动动作有两种划分方式,依据操作方式进行划分的操作机动动作和依据战术动作理论进行划分的战术机动动作。美国nasa研究人员将机动动作划分为7类基本操纵机动,分别为:最大加速,最大减速,最大过载爬升,最大过载俯冲,最大过载左转,最大过载右转及稳定飞行。从战术效果角度,可以将7类基本动作进行初步的组合实现、归类细化,得到常用的6种基本的战术机动动作,侧转、俯冲、蛇形、桶滚、半斤斗、斤斗。通过以上2种类型的机动组合,就可以实现各种复杂的空战战术。
[0109]
无人机在同一空间位置采取不同的战术策略后将获得不同的状态,同时其空间位置发生改变,进而其相对于目标的空间优势也会有所变化。可以将速度优势、角度优势和距离优势转化为信度函数:
[0110][0111][0112][0113]
其中:
[0114]
表示速度信度函数,表示速度优势;表示角度信度函数,表示角度优势;表示距离信度函数,表示距离优势;a表示攻击有效性,b表示攻击无效性。
[0115]
在获取到无人机的信度函数后,可以进行证据理论融合,得到每个无人机对攻击目标的整体态势优势信度函数:
[0116][0117]
其中,为证据理论融合算子;
[0118]
为无人机i对无人机j的整体态势优势信度函数。
[0119]
可以再对第一无人机编队中所有无人机整体态势优势信度函数进行证据理论融合。假设第一无人机编队中有i个无人机选择攻击第二无人机编队中的无人机j,则这i个无人机对j的总体态势优势为
[0120][0121]
其中,为第一无人机编队中攻击无人机j的i个无人机的总体态势优势函数。
[0122]
也可以表示为第一无人机编队整体对第二无人机j的总体态势优势。在此基础上,可以获取第一无人机编队对每个第二无人机的总体态势优势。
[0123]
基于证据理论将第一无人机编队对每个第二无人机的总体态势优势进行融合,得到第一无人机编队整体相对于第二无人机编队整体的态势优势信度函数为:
[0124]
[0125][0126]
其中,表示第一无人机编队对第二无人机编队整体的态势优势信度函数;m表示第一无人机编队中无人机数量,n表示第二无人机编队中无人机数量。
[0127]
在一些实施例中,双方无人机编队对抗时,在同一空间位置,无人机采取不同的战术策略后,会处于不同的位置,对抗双方从而会获得不同的相对态势优势,从而也会对目标分配的结果产生影响。红方和蓝方无人机分别需根据己方和对方当前的空间态势决策下一阶段战术策略和目标分配方案,以最大化己方优势。
[0128]
在步骤s2中,基于零和博弈矩阵模型获取严格博弈集合。具体的,包括以下步骤:
[0129]
s201:在第一无人机编队策略集合中选取p个策略,以及在第二无人机编队策略集合中选取q个策略;其中,p和q为正整数,且p≥2,q≥2。具体的,可以在第一无人机编队策略集合sr中选取两个策略,在第二无人机编队策略sb中选取两个策略。
[0130]
s202:基于p个策略生成第一无人机编队的第一严格博弈集合,基于q个策略生成第二无人机编队的第二严格博弈集合。
[0131]
例如,第一严格博弈集合中可以包括在sr中选取的两个策略,第二严格博弈集合中可以包括在sb中选取的两个策略。
[0132]
在步骤s3中,基于严格博弈集合获取纳什均衡解,基于纳什均衡解选取第一无人机编队的第一初始策略和第二无人机编队的第二初始策略。具体的,包括以下步骤:
[0133]
s301:基于预设算法分别对第一严格博弈集合和第二严格博弈集合进行处理,得到第一纳什均衡解和第二纳什均衡解;第一纳什均衡解包括p个策略的第一概率分布,第二纳什均衡解包括q个策略的第二概率分布。
[0134]
预设算法可以是概率分布算法,例如lemke

howson(lh)算法,lh算法首先将博弈矩阵转化为线性不等式,然后通过坐标系将线性规划不等式表示出来,转化成对应的多面体,最后通过在均衡路径迭代规则来寻找纳什均衡。本技术实施例中也可以采用其他的概率分布算法,只要能获取每个策略的概率即可。
[0135]
需要说明的是,获取到的概率分布有两个:p个策略的第一概率分布和q个策略的第二概率分布。其中,p个策略中,每个策略会对应一个概率,并且p个策略的概率的和为1。同理,q个策略中,每个策略会对应一个概率,并且q个策略的概率的和为1。
[0136]
s302:将第一概率分布中概率最大的策略确定为第一初始策略,将第二概率分布中概率最大的策略确定为第二初始策略。
[0137]
在步骤s4中,基于第二初始策略获取使第一无人机编队的边际回报最大的第一最优反应策略,基于第一初始策略获取使第二无人机编队的边际回报最大的第二最优反应策略。
[0138]
具体的,本技术实施例通过预设的博弈算法,对获取到的初始策略分别进行处理,以得到双方无人机编队的最优反应策略。
[0139]
可以先获取第一无人机编队的第一最优反应策略,包括以下步骤:
[0140]
s401、初始化第一无人机编队的第一无人机向量。第一无人机向量用于表征第一无人机编队中每个无人机的策略对状态,策略对状态包括指示无人机已经确定策略对的确定状态和指示无人机未确定策略对的未确定状态;初始化的第一无人机向量中,所有无人
机的策略对状态为未确定状态。
[0141]
本技术实施例中,以第一无人机向量bool_r=[bi]1×m来记录第一无人机编队中的无人机是否已确定战术和估计目标,即是否已明确策略对。如果已经确定策略对,则将策略对状态设置为确定状态,可以用1表示;如果还未确定策略对,则将策略对状态设置为未确定状态,可以用0表示。
[0142]
可以生成第一无人机向量,其中包含有m个元素,每个元素对应一个第一无人机,通过将元素设置为1或0以表示无人机的策略对状态。同时可以初始化第一无人机向量,初始化下所有元素均为0,即所有无人机均未确定策略对。
[0143]
s402、基于第一无人机向量获取第一无人机编队状态信息。第一无人机编队状态信息包括处于未确定状态的第一候选无人机和处于确定状态的第一确定无人机。
[0144]
由于第一无人机向量可以表示第一无人机编队中的无人机是否已明确策略对,因此通过第一无人机向量可以确定出所有确定了策略对的第一无人机和尚未确定策略对的第一无人机。本技术实施例中将确定了策略对的第一无人机称为第一确定无人机,其策略对状态即为确定状态。同时将尚未确定策略对的第一无人机称为第一候选无人机,其策略对状态即为未确定状态。
[0145]
可以进一步获取第一候选无人机可以对应的策略对情况。
[0146]
s403、基于第一确定无人机和第二初始策略获取第一初始收益。
[0147]
对于每个第一确定无人机来说,其策略对已经确定,即确定了战术和攻击目标。在第二初始策略中,也明确了每个第二无人机的策略对情况。因此,可以确定第一确定无人机攻击的第二无人机的战术情况,从而确定出第一确定无人机的收益情况。
[0148]
在此基础上,可以确定所有第一确定无人机的策略对形成的策略,能够给第一无人机编队带来的收益,本技术实施例中称为第一初始收益。第一初始收益的计算方法包括以下步骤:
[0149]
s4031、获取第一确定无人机对应的第一确定策略对。
[0150]
第一确定无人机的策略对状态为确定状态,其对应的第一确定策略对包括第一确定无人机采用的战术的攻击目标。
[0151]
s4032、首先可以将第一确定策略对形成的策略确定为第一无人机编队的第一采取策略,将第二初始策略确定为第二无人机编队的第二采取策略。基于第一采取策略和第二采取策略获取目标策略组合,该目标策略组合即为两个无人机编队采取的策略情况。
[0152]
s4033、基于收益矩阵,获取目标策略组合下第一无人机编队的收益,并确定为第一初始收益。
[0153]
具体的,可以利用收益矩阵,计算第一无人机编队的收益,包括:
[0154]
先基于第一确定策略对和第二初始策略获取第一确定无人机的速度优势、角度优势和距离优势。将速度优势、角度优势和距离优势转化为信度函数,并分别对每个第一确定无人机的信度函数进行证据理论融合,得到第一确定无人机的整体态势优势信度函数。
[0155]
可以再对所有第一确定无人机整体态势优势信度函数进行证据理论融合,得到第一无人机编队对每个第二无人机的总体态势优势。
[0156]
第一无人机编队中所有第一确定无人机可计算得到信度函数,候选无人机则可以不予考虑,只对所有第一确定无人机的信度函数进行证据理论融合,得到第一无人机编队
的第一初始态势优势。
[0157]
根据收益矩阵,还可以基于第二初始策略获取第二无人机编队的第二态势优势。
[0158]
根据上述步骤可知每个第一无人机对其攻击目标的信度函数,从而获取第一无人机编队整体的第一初始态势优势。同理,可得第二初始策略下,每个第二无人机对其攻击目标的信度函数,从而获取第二无人机编队的第二态势优势。计算第一初始态势优势和第二态势优势的差值,得到第一初始收益。
[0159]
s404、获取所有第一候选无人机对应的第一候选策略对,并基于第一确定无人机、第一候选策略对和第二初始策略获取第一目标收益。具体的,包括以下步骤:
[0160]
s4041、基于第一无人机编队策略集合获取每个第一候选无人机对应的第一策略对。
[0161]
对于第一候选无人机,还未确定其对应的策略对,因此可以以获取最大收益为目的,依次确定每个候选无人机对应的策略对。
[0162]
s40411、首先,可以先获取每个第一候选无人机可实施的策略对,本技术实施例中称为第一候选策略对。
[0163]
可以在零和博弈矩阵模型的多无人机博弈信息中确定出第一无人机编队策略集合。第一无人机编队策略集合中包括若干个策略,每个策略都会包括各个第一无人机的策略对情况。可以根据第一无人机编队策略集合获取每个第一候选无人机对应的所有策略对,本技术实施例中称为第一策略对。
[0164]
考虑到第一无人机可以采取k种战术,并攻击n个第二无人机中的任何一架。因此每个第一无人机可以对应k*n个策略对。同理,每个第二无人机可以具有k*m个策略对。
[0165]
即每个第一候选无人机具有k*n个第一策略对。
[0166]
s40412、考虑到策略对的可行性,可以对第一策略对进行筛选。
[0167]
基于预设的距离条件对第一策略对进行筛选,得到每个第一候选无人机对应的若干个第一候选策略对。包括以下步骤:
[0168]
s404121、获取第一策略对中的第一战术和第二无人机;在第一确定无人机中获取攻击第二无人机的友方无人机。
[0169]
对于每个第一策略对来说,可以确定出第一候选无人机采取的第一战术以及其攻击的第二无人机。
[0170]
需要说明的是,第一无人机编队中可能不仅仅时第一候选无人机攻击其目标,可能存在友方无人机攻击同一个目标。可以在第一确定无人机中获取攻击相同目标的友方无人机。
[0171]
s404122、获取第一候选无人机执行第一战术后的第一位置以及友方无人机执行战术后的友方位置。
[0172]
s404123、如果第一位置和任意一个友方位置的距离均大于预设距离,则将第一策略对确定为第一候选策略对。
[0173]
在无人机执行任务后,对于每一个友方无人机来说,如果第一候选无人机和他们都处于安全距离,则认为当前第一策略对是安全的,可以实施,并确定为一个第一候选策略对。
[0174]
s4042、基于第一确定无人机、第一候选策略对和第二初始策略获取第一目标收
益。
[0175]
在确定每个第一候选无人机对应的若干个第一候选策略对后,还可以确定能够使无人机编队收益最大的第一候选策略对,以形成无人机编队策略。
[0176]
可以将第一候选策略对和第一确定无人机的策略对进行组合,以确定无人机编队的收益,包括以下步骤:
[0177]
s40421、分别将每个第一候选策略对和第一确定策略对进行组合,得到每个第一候选无人机对应的若干个第一候选策略;每个第一候选策略对应一个第一候选无人机和一个第一候选策略对。
[0178]
以双方无人机编队均有5架无人机,可采用2种战术,第一无人机编队中存在2架确定无人机为例。第一无人机编队中共有3架第一候选无人机,且假设每个第一候选无人机均有10个第一候选策略对,则共有30个第一候选策略对。2架确定无人机各对应一个第一确定策略对。可以将30个第一候选策略对分别和2个第一确定策略对进行组合,得到策略为1个第一候选策略对+2个第一确定策略对的30个组合,每个组合均为一个第一候选策略。即第一候选策略中包括一个第一候选策略对,且对应这个第一候选策略对对应的第一候选无人机。
[0179]
s40422、基于第一候选策略和第二初始策略获取候选策略组合。
[0180]
每个第一候选策略均可以作为第一无人机编队采取的策略,第二初始策略则作为第二无人机编队采取的策略。此时,可以将每个第一候选策略分别和第二初始策略进行组合,得到若干个候选策略组合。
[0181]
s40423、基于收益矩阵,获取每个候选策略组合下第一无人机编队的收益,并确定为第一目标收益。具体的,包括以下步骤:
[0182]
根据双方无人机编队的策略可以获取第一无人机编队的第一候选态势优势,具体步骤此处不再赘述。计算每个第一候选态势优势和第二态势优势的差值,得到若干个第一目标收益。
[0183]
对于每个第一候选策略对应的第一候选态势优势,均可以和第二态势优势做差,得到每个第一候选策略对应的第一目标收益。
[0184]
s405、基于第一初始收益和第一目标收益获取第一边际回报;将最大的第一边际回报对应的第一候选无人机确定为第一目标无人机,将最大的第一边际回报对应的第一候选策略对存储至第一候选集合。
[0185]
分别将所有的第一目标收益减去第一初始收益,得到每个第一候选策略对应的第一边际回报。最大的第一边际回报即代表该策略给无人机编队带来最大的收益。因此,可以确定出该最大收益对应的第一候选无人机和第一候选策略对。
[0186]
s406、将第一无人机向量中第一目标无人机的策略对状态更新为确定状态。
[0187]
s407、如果更新后的第一无人机向量中存在无人机处于未确定状态,则基于更新后的第一无人机向量重新执行基于第一无人机向量获取第一无人机编队状态信息的步骤,即跳转到步骤s402。
[0188]
如果更新后的第一无人机向量中所有无人机均处于确定状态,则将第一候选集合确定为第一最优反应策略。
[0189]
上述步骤公开了根据第二初始策略获取第一无人机编队的第一最优反应策略。参
照上述步骤,可以根据第一初始策略获取第二无人机编队的第二最优反应策略,将第一无人机信息和第二无人机信息置换即可,此处不再赘述。
[0190]
在步骤s5中,可以确定多无人机博弈对抗的目标分配方案。具体的,本技术实施例中设定为当第一最优反应策略和第二最优反应策略均存在于严格博弈集合中时,可以将纳什均衡解确定为多无人机博弈对抗的目标分配方案。
[0191]
因此可以先检测第一最优反应策略和第二最优反应策略的情况。
[0192]
具体的,如果第一最优反应策略和/或第二最优反应策略不存在于严格博弈集合中,包括严格博弈集合中只包括第一最优反应策略、只包括第二最优反应策略、既不包括第一最优反应策略也不包括第二最优反应策略,三种情况。此时,可以基于第一最优反应策略和/或第二最优反应策略更新严格博弈集合,可以将未存在于严格博弈集合中的第一最优反应策略和/或第二最优反应策略添加到严格博弈集合中。
[0193]
可以基于更新后的严格博弈集合重新执行基于严格博弈集合获取纳什均衡解的步骤,即跳转到步骤s3。
[0194]
如果第一最优反应策略和第二最优反应策略均存在于严格博弈集合中,则将纳什均衡解确定为多无人机博弈对抗的目标分配方案。
[0195]
在一些实施例中,为了减小计算量,可以先不同时获取到第一最优反应策略和第二最优反应策略,而是先获取其中一个,例如在步骤s4中先获取第一最优反应策略。
[0196]
此时,可以先判断第一最优反应策略是否存在于严格博弈集合中。若是,则可以继续获取第二最优反应策略,并执行步骤s5。
[0197]
若否,则可以将第一最优反应策略添加到严格博弈集合中,以更新严格博弈集合,并且此时不需要再获取第二最优反应策略,而是直接根据更新后的严格博弈集合执行步骤s3即可。
[0198]
本发明实施例还提供了一种多无人机博弈对抗的目标分配系统,其特征在于,系统包括:
[0199]
模型生成模块,被配置为生成零和博弈矩阵模型;零和博弈矩阵模型包括多无人机编队信息和多无人机博弈信息;多无人机编队信息包括第一无人机编队信息和第二无人机编队信息,多无人机博弈信息包括第一无人机编队策略集合和第二无人机编队策略集合;
[0200]
严格博弈集合获取模块,被配置为基于零和博弈矩阵模型获取严格博弈集合;
[0201]
初始策略模块,被配置为基于严格博弈集合获取纳什均衡解,基于纳什均衡解选取第一无人机编队的第一初始策略和第二无人机编队的第二初始策略;
[0202]
最优反应策略模块,被配置为基于第二初始策略获取使第一无人机编队的边际回报最大的第一最优反应策略,基于第一初始策略获取使第二无人机编队的边际回报最大第二最优反应策略;
[0203]
方案分配模块,被配置为如果第一最优反应策略和/或第二最优反应策略不存在于严格博弈集合中,则基于第一最优反应策略和/或第二最优反应策略更新严格博弈集合,并基于更新后的严格博弈集合重新执行基于严格博弈集合获取纳什均衡解的步骤。如果第一最优反应策略和第二最优反应策略均存在于严格博弈集合中,则将纳什均衡解确定为多无人机博弈对抗的目标分配方案。
[0204]
可理解的是,本发明实施例提供的目标分配系统与目标分配方法相对应,其有关内容的解释、举例、有益效果等部分可以参考多无人机博弈对抗的目标分配方法中的相应内容,此处不再赘述。
[0205]
综上,与现有技术相比,具备以下有益效果:
[0206]
本发明实施例通过生成零和博弈矩阵模型,并基于零和博弈矩阵模型获取严格博弈集合。基于严格博弈集合获取纳什均衡解,基于纳什均衡解选取第一无人机编队的第一初始策略和第二无人机编队的第二初始策略。基于第二初始策略获取第一无人机编队的第一最优反应策略,基于第一初始策略获取第二无人机编队的第二最优反应策略。如果第一最优反应策略和/或第二最优反应策略不存在于严格博弈集合中,则更新严格博弈集合,并重新获取纳什均衡解。如果第一最优反应策略和第二最优反应策略均存在于严格博弈集合中,则将纳什均衡解确定为多无人机博弈对抗的目标分配方案。本发明通过获取每个无人机编队的最优反应策略,提高多无人机目标分配的效率。
[0207]
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0208]
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0209]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.一种多无人机博弈对抗的目标分配方法,所述目标分配方法由计算机执行,其特征在于,包括以下步骤:生成零和博弈矩阵模型;所述零和博弈矩阵模型包括多无人机编队信息、多无人机博弈信息和收益矩阵;所述多无人机编队信息包括第一无人机编队信息和第二无人机编队信息,所述多无人机博弈信息包括第一无人机编队策略集合和第二无人机编队策略集合;基于所述零和博弈矩阵模型获取严格博弈集合;基于所述严格博弈集合获取纳什均衡解,基于所述纳什均衡解选取第一无人机编队的第一初始策略和第二无人机编队的第二初始策略;基于所述第二初始策略获取使第一无人机编队的边际回报最大的第一最优反应策略,基于所述第一初始策略获取使第二无人机编队的边际回报最大第二最优反应策略;如果所述第一最优反应策略和/或所述第二最优反应策略不存在于所述严格博弈集合中,则基于所述第一最优反应策略和/或所述第二最优反应策略更新所述严格博弈集合,并基于更新后的严格博弈集合重新执行基于所述严格博弈集合获取纳什均衡解的步骤;如果所述第一最优反应策略和所述第二最优反应策略均存在于所述严格博弈集合中,则将所述纳什均衡解确定为多无人机博弈对抗的目标分配方案。2.根据权利要求1所述的目标分配方法,其特征在于,所述收益矩阵包括:其中,s
r
表示第一无人机编队策略集合,s
r
∈s
r
表示第一无人机编队的一个策略,s
b
表示第二无人机编队策略集合,s
b
∈s
b
表示第二无人机编队的一个策略;(s
r
,s
b
)表示第一无人机编队采取策略s
r
,第二无人机编队采取策略s
b
的策略组合;u(s
r
,s
b
)为第一无人机编队在策略组合(s
r
,s
b
)下的收益;u(s
r
,s
b
)=e
r
(s
r
,s
b
)-e
b
(s
r
,s
b
)e
r
(s
r
,s
b
)和e
b
(s
r
,s
b
)分别为第一无人机编队和第二无人机编队的态势优势;)分别为第一无人机编队和第二无人机编队的态势优势;)分别为第一无人机编队和第二无人机编队的态势优势;其中:r
i
表示第一无人机编队中无人机i,b
j
表示无人机i攻击的第二无人机编队中无人机j;表示速度信度函数,表示速度优势;表示角度信度函数,表示角度优势;表示距离信度函数,表示距离优势;a表示攻击有效性,b表示攻击无效性;其中,为证据理论融合算子;
为无人机i对无人机j的整体态势优势信度函数;其中,为第一无人机编队中攻击无人机j的i个无人机的总体态势优势函数;为第一无人机编队中攻击无人机j的i个无人机的总体态势优势函数;其中,表示第一无人机编队对第二无人机编队整体的态势优势信度函数;m表示第一无人机编队中无人机数量,n表示第二无人机编队中无人机数量。3.根据权利要求1所述的目标分配方法,其特征在于,所述基于所述零和博弈矩阵模型获取严格博弈集合,包括:在所述第一无人机编队策略集合中选取p个策略,以及在所述第二无人机编队策略集合中选取q个策略;其中,p和q为正整数,且p≥2,q≥2;基于所述p个策略生成第一无人机编队的第一严格博弈集合,基于所述q个策略生成第二无人机编队的第二严格博弈集合。4.根据权利要求3所述的目标分配方法,其特征在于,所述基于所述严格博弈集合获取纳什均衡解,包括:基于预设算法分别对所述第一严格博弈集合和所述第二严格博弈集合进行处理,得到第一纳什均衡解和第二纳什均衡解;所述第一纳什均衡解包括所述p个策略的第一概率分布,所述第二纳什均衡解包括所述q个策略的第二概率分布;所述基于所述纳什均衡解选取第一无人机编队的第一初始策略和第二无人机编队的第二初始策略,包括:将所述第一概率分布中概率最大的策略确定为第一初始策略,将所述第二概率分布中概率最大的策略确定为第二初始策略。5.根据权利要求1所述的目标分配方法,其特征在于,所述基于所述第二初始策略获取使第一无人机编队的边际回报最大的第一最优反应策略,包括:初始化第一无人机编队的第一无人机向量;所述第一无人机向量用于表征第一无人机编队中每个无人机的策略对状态,所述策略对状态包括指示无人机已经确定策略对的确定状态和指示无人机未确定策略对的未确定状态;初始化的所述第一无人机向量中,所有无人机的策略对状态为未确定状态;基于所述第一无人机向量获取第一无人机编队状态信息;所述第一无人机编队状态信息包括处于未确定状态的第一候选无人机和处于确定状态的第一确定无人机;基于所述第一确定无人机和所述第二初始策略获取第一初始收益;获取所有第一候选无人机对应的第一候选策略对,并基于所述第一确定无人机、第一候选策略对和所述第二初始策略获取第一目标收益;基于所述第一初始收益和所述第一目标收益获取第一边际回报;将最大的第一边际回报对应的第一候选无人机确定为第一目标无人机,将最大的第一边际回报对应的第一候选
策略对存储至第一候选集合;将所述第一无人机向量中所述第一目标无人机的策略对状态更新为确定状态;如果更新后的第一无人机向量中存在无人机处于未确定状态,则基于更新后的第一无人机向量重新执行基于所述第一无人机向量获取第一无人机编队状态信息的步骤;如果更新后的第一无人机向量中所有无人机均处于确定状态,则将所述第一候选集合确定为第一最优反应策略。6.根据权利要求5所述的目标分配方法,其特征在于,所述基于所述第一确定无人机和所述第二初始策略获取第一初始收益,包括:获取所述第一确定无人机对应的第一确定策略对;将所述第一确定策略对形成的策略确定为第一无人机编队的第一采取策略,将所述第二初始策略确定为第二无人机编队的第二采取策略;基于所述第一采取策略和所述第二采取策略获取目标策略组合;基于所述收益矩阵,获取所述目标策略组合下第一无人机编队的收益,并确定为第一初始收益。7.根据权利要求5所述的目标分配方法,其特征在于,所述获取所有第一候选无人机对应的第一候选策略对,包括:基于所述第一无人机编队策略集合获取每个第一候选无人机对应的第一策略对;基于预设的距离条件对所述第一策略对进行筛选,得到每个第一候选无人机对应的若干个第一候选策略对。8.根据权利要求7所述的目标分配方法,其特征在于,所述基于预设的距离条件对所述第一策略对进行筛选,包括:获取所述第一策略对中的第一战术和第二无人机;在所述第一确定无人机中获取攻击第二无人机的友方无人机;获取所述第一候选无人机执行第一战术后的第一位置以及友方无人机执行战术后的友方位置;如果所述第一位置和任意一个友方位置的距离均大于预设距离,则将所述第一策略对确定为第一候选策略对。9.根据权利要求6所述的目标分配方法,其特征在于,所述基于所述第一确定无人机、第一候选策略对和所述第二初始策略获取第一目标收益,包括:分别将每个第一候选策略对和所述第一确定策略对进行组合,得到每个第一候选无人机对应的若干个第一候选策略;每个第一候选策略对应一个第一候选无人机和一个第一候选策略对;基于所述第一候选策略和所述第二初始策略获取候选策略组合;基于所述收益矩阵,获取所述候选策略组合下第一无人机编队的收益,并确定为第一目标收益。10.一种多无人机博弈对抗的目标分配系统,其特征在于,所述系统包括:模型生成模块,被配置为生成零和博弈矩阵模型;所述零和博弈矩阵模型包括多无人机编队信息和多无人机博弈信息;所述多无人机编队信息包括第一无人机编队信息和第二无人机编队信息,所述多无人机博弈信息包括第一无人机编队策略集合和第二无人机编队
策略集合;严格博弈集合获取模块,被配置为基于所述零和博弈矩阵模型获取严格博弈集合;初始策略模块,被配置为基于所述严格博弈集合获取纳什均衡解,基于所述纳什均衡解选取第一无人机编队的第一初始策略和第二无人机编队的第二初始策略;最优反应策略模块,被配置为基于所述第二初始策略获取使第一无人机编队的边际回报最大的第一最优反应策略,基于所述第一初始策略获取使第二无人机编队的边际回报最大第二最优反应策略;方案分配模块,被配置为如果所述第一最优反应策略和/或所述第二最优反应策略不存在于所述严格博弈集合中,则基于所述第一最优反应策略和/或所述第二最优反应策略更新所述严格博弈集合,并基于更新后的严格博弈集合重新执行基于所述严格博弈集合获取纳什均衡解的步骤;如果所述第一最优反应策略和所述第二最优反应策略均存在于所述严格博弈集合中,则将所述纳什均衡解确定为多无人机博弈对抗的目标分配方案。

技术总结
本发明提供一种多无人机博弈对抗的目标分配方法和系统。通过生成零和博弈矩阵模型并获取严格博弈集合。基于严格博弈集合获取纳什均衡解,基于纳什均衡解选取第一初始策略和第二初始策略。基于第二初始策略获取第一无人机编队的第一最优反应策略,基于第一初始策略获取第二无人机编队的第二最优反应策略。如果第一最优反应策略和/或第二最优反应策略不存在于严格博弈集合中,则更新严格博弈集合,并重新获取纳什均衡解。如果第一最优反应策略和第二最优反应策略均存在于严格博弈集合中,则将纳什均衡解确定为多无人机博弈对抗的目标分配方案。本发明通过获取每个无人机编队的最优反应策略,提高多无人机目标分配的效率。提高多无人机目标分配的效率。提高多无人机目标分配的效率。


技术研发人员:罗贺 王菲菲 马滢滢 王国强 丁帅 宋程 胡笑旋 王浩丞 陈宇轩 岳子轩 台建玮
受保护的技术使用者:合肥工业大学
技术研发日:2023.03.14
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐