一种基于智能规划的多智能体强化学习方法

未命名 10-08 阅读:111 评论:0


1.本发明属于智能规划和多智能体强化学习的技术领域,具体涉及一种基于智能规划的多智能体强化学习方法。


背景技术:

2.深度强化学习(deep reinforcement learning,drl)近年来取得了突破性的成果,出现了大量与之相关的算法和应用,例如:在街机游戏雅达利atari中,通过不断地训练和更新策略,深度强化学习算法最终获得了远超人类专家的得分表现;在围棋领域中,由deepmind推出的alphago和alphago zero成功击败了世界顶尖棋手李世乭和柯洁;在无人驾驶研究中,drl实现了对方向和速度的控制以及对障碍的规避。
3.最近的很多研究已经不仅仅局限于单智能体强化学习,在更为复杂的训练任务中,智能体的数量往往不止一个,智能体之间会存在合作、竞争或者混合合作竞争的关系。因此也有更多研究人员关注于多智能体场景下的深度强化学习,使得深度强化学习在多智能体即时战略对抗环境dota2和starcraft ii中取得了不错的成果。通过训练深度神经网络来学习多智能体的执行策略,将传统强化学习算法拓展到了更高维度的状态空间和动作空间中。通过设计相应的网络结构,可以在一定程度上适应各智能体之间的合作或竞争关系。
4.在更为复杂的多智能体强化学习场景下,各智能体任务之间的交叉耦合,将导致奖励函数设计复杂以及奖励值稀疏等问题;在非稳态环境下,智能体之间的策略相互影响,各智能体需要和环境进行大量交互,才能探索到有效的经验并学习到有用的策略,这使得算法的探索效率较低且训练速度较慢;若不能较好地平衡探索和利用之间的关系,盲目的经验探索也会导致强化学习陷入局部最优解。
5.智能规划是指对周围环境进行认识与分析,根据预先设定的目标,对若干可供选择的动作以及所提供的资源限制和相关约束进行推理,综合制定出实现目标的动作序列,该动作序列即称为一个规划。智能规划的主要目的是探索如何使用自动化技术解决计划和调度的问题,在大规模的状态转换系统中仅使用简洁的逻辑基础语言,即可快速实现其任务规划的目标,进而向声明性描述的系统提供程序性的行为方案,并且优化整体的性能度量。如今智能规划已经广泛应用于物流运输领域的资源调度、智能机器人的动作规划以及航空航天领域中的卫星探测任务规划等。
6.强化学习和智能规划均可用于处理顺序决策问题。强化学习通过学习策略来引导智能体获取更多的奖励,是可以不依赖于模型的,由于需要不断地和环境进行交互,所以需要大量的数据样本来支持训练,会出现训练效率较低等问题。智能规划是基于模型的,主要用于快速解决大规模状态转换系统中的最短路径问题,路径开销可以是动作的执行代价,也可以是动作执行的持续时间,最后生成的计划即为上层的有效解决方案,该方案具有较强的可解释性,且整个执行过程速度较快。因此当前有相关学者将智能规划的解作为强化学习的初始策略,解决了单智能体强化学习环境下探索效率较低的问题,但智能规划在多
智能体强化学习中的研究还比较匮乏,在更为复杂的多智能体环境中,智能体对环境的低探索效率问题仍然是一大瓶颈挑战。


技术实现要素:

7.鉴于上述,本发明的目的是提供一种基于智能规划的多智能体强化学习方法,应用在多玩家参与的即时战略对抗游戏中,为多智能体强化学习环境中各智能体的探索过程提供更有效的策略指导,从而提升算法模型的决策准确性以及训练效率。
8.为实现上述发明目的,实施例提供的一种基于智能规划的多智能体强化学习方法,包括以下步骤:
9.为多玩家参与的即时战略对抗游戏构建多智能体强化学习算法模型;
10.基于多智能体强化学习算法模型和智能规划模型的相似性,建立两者之间的模型对偶关系,基于模型对偶关系构建统一模型;
11.基于统一模型将多智能体强化学习算法模型的训练任务表示为规划任务描述;
12.将规划任务描述翻译为多值规划任务,并对多值规划任务进行编译得到多种数据结构,基于多种数据结构执行启发式搜索得到最优动作序列;
13.将最优动作序列转化为各智能体的高层目标,将高层目标与环境中的观察值拼接后输入多智能体强化学习算法模型,经过学习得到底层精密动作,环境迭代执行后产生经验元组并将其存至缓冲区中;
14.启发式搜索过程中,根据当前智能体的所处状态实时计算并更新搜索过程中的动作执行代价值。
15.优选地,为多玩家参与的即时战略对抗游戏构建多智能体强化学习算法模型,包括:将每个玩家看作一个智能体,各智能体的表现形式有多种,可以是车辆、坦克或飞机,也可以是不同种类的士兵单位等,将即时战略对抗环境看作智能体的所处环境,以形成多智能体强化学习算法模型。
16.优选地,所述基于多智能体强化学习算法模型和智能规划模型的相似性,建立两者之间的模型对偶关系,包括:
17.所述模型对偶关系包括模型定义对偶关系,基于模型定义上的各元素的对应关系,建立模型定义对偶关系;
18.所述模型对偶关系还包括模型目标对偶关系,将强化学习中最大化累计奖励值的求解目标转化为智能规划中最小化累计代价值的规划目标,以建立模型目标对偶关系。
19.优选地,所述基于模型对偶关系构建统一模型,包括:
20.通过定义各对象的状态空间以及持续执行的动作,协调各智能体之间的相互关系,通过创建代价处理器,将多智能体强化学习中的奖励值或动作状态价值转化为智能规划中的代价值,搭建起模型之间的连接桥梁,形成统一模型。
21.优选地,所述基于统一模型将多智能体强化学习算法模型的训练任务表示为规划任务描述,包括:
22.基于统一模型获得各智能体的状态信息和可执行动作集合;
23.所述规划任务描述包括域描述,在域描述中,根据强化学习环境中所涉及的智能体和非智能体的状态信息,完成对规划任务的抽象定义,包括:对象类型、谓词集合、函数集
合、动作集合;
24.所述规划任务描述还包括任务描述,在任务描述中,根据强化学习中各智能体的初始状态和一轮游戏的训练目标,构建特定领域下的具体规划问题,包括:对象实例、规划任务的初始状态、规划任务的终止状态。
25.优选地,所述将规划任务描述翻译为多值规划任务,包括:
26.在规划任务描述中,通过谓词集合和函数集合来编码规划任务,当谓词集合和函数集合关联具体对象实例后,将分别转化为布尔类型和数值类型的原子状态;
27.在多值规划任务中,使用多值状态来编码规划任务,每个多值状态取一组值,每个值对应于一个原子状态,每组取值对应的原子状态需满足互斥关系;
28.将规划任务描述翻译为多值规划任务时,使用多值状态进行编码,代替原始的谓词集合和函数集合,以缩小规划任务的状态空间,包括:对于布尔类型的谓词集合,使用一个多值状态来表示一组不可同时为真的原子状态;对于数值类型的函数集合,使用一个多值状态来表示赋值为相同数值的原子状态;当部分或所有多值状态取值后,将表示出整个规划任务的所处状态。
29.优选地,所述对多值规划任务进行编译得到多种数据结构,包括:
30.对多值规划任务进行编译得到的多种数据结构包括:域转换图、因果依赖图、后继生成器、公理评估器;
31.所述域转换图是一个有向标记图,用于表示每个多值状态取不同值之间的转换关系;
32.所述因果依赖图是一个有向无标记图,用于表示不同多值状态之间的依赖关系;
33.所述后继生成器类似于决策树,用于生成各状态下的可执行动作集合;
34.所述公理评估器可执行算术运算、比较运算、逻辑运算,用于对从函数集合转化而来的多值状态执行相关操作。
35.优选地,所述基于多种数据结构执行启发式搜索得到最优动作序列,包括:
36.在对多值规划任务执行启发式搜索时,从初始状态开始,每到达一个状态节点,通过后继生成器来查询当前状态下的一组可执行动作集合,从中可以选择任意一个动作,执行后将转换到下一状态节点,不断执行该过程,直到搜索到目标状态,最终将得到一组总代价值最小的最优动作序列。
37.优选地,所述将最优动作序列转化为各智能体的高层目标,包括:
38.对启发式搜索得到的最优动作序列进行解析,其中每个动作均包含动作名称、智能体名称以及目标名称,逐一判断各动作名称是否与高层目标定位动作相匹配,若匹配则提取动作中的智能体名称以及目标名称,进而将各个目标名称添加到特定智能体的目标集合中,只有在智能体的前一个目标实现之后,才更新它的下一个目标。
39.优选地,所述根据当前智能体的所处状态实时计算并更新搜索过程中的动作执行代价值,包括:
40.每到达一个状态节点,提取状态节点下所涉及智能体的状态信息,将状态信息作为多智能体强化学习算法模型的输入,重新计算得到各动作状态价值,利用代价处理器执行取反以及归一化处理操作,将各动作状态价值转化为启发式搜索时的动作执行代价值。
41.与现有技术相比,本发明具有的有益效果至少包括:
42.通过建立多智能体强化学习与智能规划的模型对偶关系,构建结合多智能体强化学习与智能规划的统一模型,执行规划任务定义、规划任务求解、底层精密动作执行以及代价值的动态更新操作,进而为多智能体强化学习环境中各智能体的探索过程提供更有效的策略指导,从而提升算法模型的决策准确性以及训练效率。
附图说明
43.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
44.图1是实施例提供的基于智能规划的多智能体强化学习方法的流程图;
45.图2是实施例提供的基于智能规划的多智能体强化学习方法的流程框图;
46.图3是实施例提供的强化学习底层精密动作执行的结构示意图。
具体实施方式
47.为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
48.本发明的发明构思为:针对多玩家参与的即时战略对抗游戏中由于多智能体强化学习的奖励值稀疏、环境非稳态、探索效率较低以及训练效率低,导致动作决策有待提高的技术问题,实施例提供了一种基于智能规划的多智能体强化学习方法,通过建立多智能体强化学习与智能规划的模型对偶关系,构建结合多智能体强化学习(marl)与智能规划(ai planning)的统一模型(maprl),执行规划任务定义、规划任务求解、底层精密动作执行以及代价值的动态更新操作,进而为多智能体强化学习环境中各智能体的探索过程提供更有效的策略指导,从而提升算法模型的决策准确性以及训练效率。
49.如图1和图2所示,实施例提供的基于智能规划的多智能体强化学习方法,包括以下步骤:
50.s110,为多玩家参与的即时战略对抗游戏构建多智能体强化学习算法模型。
51.实施例中,为多玩家参与的即时战略对抗游戏构建多智能体强化学习算法模型,包括:将每个玩家看作一个智能体,各智能体的表现形式有多种,可以是车辆、坦克或飞机,也可以是不同种类的士兵单位等,将即时战略对抗环境看作智能体的所处环境,以形成多智能体强化学习算法模型。
52.s120,基于多智能体强化学习算法模型和智能规划模型的相似性,建立两者之间的模型对偶关系,基于模型对偶关系构建统一模型。
53.在即时战略对抗游戏中,随机博弈是各种多智能体强化学习算法的基础,其中每个智能体的决策策略会受到自身以及其他智能体决策策略的影响。ai planning的主要目的是从环境中获取任务的初始状态,通过执行一系列可选择的动作,最终到达任务预计实现的目标状态。marl和ai planning都能为某种规划任务求解出决策方案,虽然解决问题的方法不同,但模型之间具有一定的相似性,因此建立了两者之间的模型对偶关系,将其更加
紧密的联系起来。
54.实施例中,模型对偶关系包括模型定义对偶关系和模型目标对偶关系,根据marl和ai planning之间的模型相似性,建立基于随机博弈的marl模型与ai planning模型在定义上的对偶关系和在目标上的对偶关系。
55.实施例中,针对模型定义对偶关系,基于模型定义上的各元素的对应关系,建立模型定义对偶关系。其中,基于两者元素相互对应的模型定义对偶关系可表示为:
[0056][0057]
其中:π
mgs
表示随机博弈模型,表示n》1个智能体的集合;表示所有智能体的状态空间;表示第i个智能体的动作空间;令则表示在某一状态
[0058]
下执行联合动作后转移到下一状态的概率;
[0059]
表示第i个智能体在某一状态下执行动作后转移到下一状态所获得的奖励值;γ∈(0,1]表示折扣因子。π
aip
表示智能规划模型,s表示有限或离散的状态空间;s0∈s表示任务中所涉及的各个对象的初始状态;表示任务得到解决后所到达的目标状态;表示在某一状态s∈s下的可执行动作;令a∈a(s),则f(a,s)表示在某一状态s下执行动作a后转移到下一状态s

的确定性状态转移函数;c(a,s)表示在某一状态s下执行动作a后产生的动作代价值。
[0060]
具体地,marl与ai planning都将智能体的状态空间表示为每个智能体状态的并集,故产生状态空间的对偶关系在强化学习中智能体的可执行动作分为对高层目标的执行动作以及在底层实际执行的精密动作,在智能规划中则是通过较粗粒度的底层动作来驱动高层的目标定位,故产生可执行动作的对偶关系marl与ai planning均通过状态转移函数来计算转移到下一状态的概率,故产生状态转移函数的对偶关系在强化学习中是通过环境反馈的奖励值来使智能体不断学习到更优的策略,在智能规划中是通过整个规划任务搜索的累计代价值来选择出更优的策略,故在将奖励值转化为代价值时将产生相应的对偶关系
[0061]
实施例中,针对模型目标对偶关系,从控制论的角度进行分析,将强化学习中最大化累计奖励值的求解目标转化为智能规划中最小化累计代价值的规划目标,以建立模型目标对偶关系。
[0062]
具体地,从控制论的角度来看,强化学习本身也是一种控制算法,marl与ai planning都是利用过去的经验数据来增强对动力系统的未来操作,通过使用不同的方法可以解决同一问题。因此对于强化学习中最大化累计奖励值的求解目标,若存在另一种方法可以解决强化学习的相同问题,则该求解目标也可等效于最小化累计代价值或其他表示。由于智能规划与强化学习的目标相同,均是为了求解出智能体执行动作的最优策略;同时又与最优控制相同,也是通过定义动作代价值来表示系统对执行动作的惩罚。因此通过执
行取反等转换操作,将奖励值或动作状态价值转化为代价值,即可形成强化学习和智能规划的模型目标对偶关系。
[0063]
实施例中,基于模型对偶关系构建统一模型,包括:通过定义基于规划代价的状态以及持续执行的动作,协调各智能体之间的相互关系,通过创建代价处理器,将多智能体强化学习中的奖励值或动作状态价值转化为智能规划中的代价值,搭建起模型之间的连接桥梁,形成统一模型。
[0064]
具体地,统一模型表示为其中,表示一组可执行的持续性动作集合,根据动作前提条件的约束以及后续影响产生的效果,将使得在某一状态下发生状态转移;表示基于规划代价的状态,除了包含所涉及对象实例的状态信息,还包含转移到当前状态下的累计代价值,以及由真实状态信息组成的前提条件和后续影响,用于匹配上述可执行的持续性动作;表示问题的初始状态,表示问题的目标状态;表示代价处理器,用于将多智能体强化学习中的价值转化为智能规划中的代价值。
[0065]
s130,基于统一模型将多智能体强化学习算法模型的训练任务表示为规划任务描述。
[0066]
基于统一模型获得各智能体的状态信息和可执行动作集合;
[0067]
实施例中,通过构建域描述和任务描述,将多智能体强化学习的训练任务表示为规划任务描述,即规划任务描述包括域描述和任务描述。
[0068]
在域描述中,根据强化学习环境中所涉及的智能体和非智能体的状态信息,完成对规划任务的抽象定义,主要包括:对象类型、谓词集合、函数集合、动作集合。
[0069]
具体地,对于域描述,通过使用不同的对象类型,来表示多智能体强化学习训练任务中所涉及到的各类对象;通过谓词命题的真或假,来表示对象的状态信息;通过数值函数的所取值,也可以来表示对象的状态信息;通过获取多智能体强化学习中所有智能体的可执行动作,来组成一个可执行动作集合。
[0070]
在任务描述中,根据强化学习中各智能体的初始状态和一轮游戏的训练目标,构建特定领域下的具体规划问题,包括:对象实例、规划任务的初始状态、规划任务的终止状态。
[0071]
具体地,对于任务描述,根据强化学习环境中的智能体数量以及所涉及的非智能体数量,构建对应的智能体实例和非智能体实例;通过一组值为真的谓词命题和一组具有确定值的数值函数,来表示强化学习环境中各智能体和非智能体的初始状态;通过一组值为真或假的谓词命题,来表示强化学习环境中各智能体成功完成训练任务后所到达的目标状态。
[0072]
s140,将规划任务描述翻译为多值规划任务,并对多值规划任务进行编译得到多种数据结构,基于多种数据结构执行启发式搜索得到最优动作序列。
[0073]
为了缩小规划任务的状态空间,便于执行启发式搜索,将规划任务描述翻译为多值规划任务。在规划任务描述中,通过谓词集合和函数集合来编码规划任务,当谓词集合和函数集合关联具体对象实例后,将分别转化为布尔类型和数值类型的原子状态;在多值规划任务中,使用多值状态来编码规划任务,每个多值状态取一组值,每个值对应于一个原子
状态,每组取值对应的原子状态需满足互斥关系。
[0074]
实施例中,基于上述规划任务描述和多值规划任务描述,将规划任务描述翻译为多值规划任务时,使用多值状态进行编码,代替原始的谓词集合和函数集合,以缩小规划任务的状态空间,包括:对于布尔类型的谓词集合,使用一个多值状态来表示一组不可同时为真的原子状态;对于数值类型的函数集合,使用一个多值状态来表示赋值为相同数值的原子状态;当部分或所有多值状态取值后,将表示出整个规划任务的所处状态。
[0075]
实施例中,在获得多值规划任务的基础上,对多值规划任务进行编译得到多种数据结构,该多种数据结构包括:域转换图、因果依赖图、后继生成器、公理评估器。其中,域转换图是一个有向标记图,用于表示每个多值状态取不同值之间的转换关系;因果依赖图是一个有向无标记图,用于表示不同多值状态之间的依赖关系;后继生成器类似于决策树,用于生成各状态下的可执行动作集合;公理评估器可执行算术运算、比较运算、逻辑运算,用于对从函数集合转化而来的多值状态执行相关操作。
[0076]
实施例中,在获得多种数据结构的基础上,基于多种数据结构执行启发式搜索得到最优动作序列,包括:对多值规划任务执行启发式搜索时,从初始状态开始,每到达一个状态节点,通过后继生成器来查询当前状态下的一组可执行动作集合,从中可以选择任意一个动作,执行后将转换到下一状态节点,不断执行该过程,直到搜索到目标状态,最终将得到一组总代价值最小的最优动作序列。
[0077]
具体地,对规划任务执行启发式搜索的过程,实质上是状态节点不断发生状态转移的过程。每一个状态节点由部分或所有多值状态及其取值组成,在后继生成器选择完可执行的动作之后,域转换图和因果依赖图将会根据动作执行所产生的后续影响,为表示对象状态信息的多值状态赋新值,进而得到更新后的对象状态信息,公理评估器也会根据动作执行代价,重新计算转换到下一状态的累计代价总和。为了向多智能体强化学习返回总代价值最小的动作序列,每到达一个状态节点,需根据启发式函数计算每个可执行动作的代价估计值,并选择执行代价估计值最小的动作,其公式表示为:
[0078][0079]
其中,表示从初始状态搜索到状态的实际代价值,表示从状态搜索到目标状态的启发代价值。
[0080]
s150,将最优动作序列转化为各智能体的高层目标,将高层目标与环境中的观察值拼接后输入多智能体强化学习算法模型,经过学习得到底层精密动作,环境迭代执行后产生经验元组并将其存至缓冲区中。
[0081]
图2是实施例提供的底层精密动作执行的结构示意图,首先,对启发式搜索得到的最优动作序列action-sequence*进行解析,其中每个动作均包含动作名称action-name、智能体名称agent-name以及目标名称goal-name,逐一判断各动作名称是否与高层目标定位动作相匹配,若匹配则提取动作中的智能体名称agent-name以及高层目标名称goal-name,进而将各个目标名称添加到特定智能体的目标集合中,只有在智能体的前一个目标实现之后,才可以更新它的下一个目标。
[0082]
然后,将组合得到的高层目标goal与从环境中获得的观察值observation进行拼接,共同作为算法评估网络eval_net的输入,经过计算将得到预测的动作状态价值q_eval。
[0083]
接下来,各智能体从评估的动作状态价值q_eval中选择价值最高的动作,由环境迭代执行组成的联合动作action,将产生相应的经验元组(observation+goal,action,reward,observation'+goal'),其中:observation+goal表示给各智能体分配目标后的观测向量,action表示当前时间步下各智能体的动作向量,reward表示各智能体获得的环境反馈的奖励值,observation'+goal'表示下一个时间步的各智能体观测向量。该经验元组是由统一模型及其规划问题求解机制辅助探索而来的,将其存储至经验缓冲区中,可以为多智能体强化学习算法模型的训练提供更多未知且有效的经验,进而提升模型的训练效率。
[0084]
最后,为提升算法的稳定性,通过延用dqn的双网络模型结构,构建具有相同网络模型结构的目标网络target_net,定期使用当前网络来对其进行参数更新。
[0085]
s160,启发式搜索过程中,根据当前智能体的所处状态实时计算并更新搜索过程中的动作执行代价值。
[0086]
实施例中,在对规划任务执行启发式搜索的过程中,每到达一个状态节点,提取状态节点下所涉及智能体的状态信息,将状态信息作为多智能体强化学习算法模型的输入,重新计算得到各动作状态价值,利用代价处理器执行取反以及归一化处理操作,将各动作状态价值转化为启发式搜索时的动作执行代价值。
[0087]
具体地,假设当前有n个智能体,每个智能体可执行m个动作,经过计算后将输出各智能体的动作状态价值{q1,q2,

,qn},此时使用统一模型中的代价处理器,将其转化为智能规划中的代价值。
[0088]
对每个智能体的动作状态价值执行取反操作,将其转化为强化学习中的代价值为保证智能规划中的代价值均为正数,进一步求出强化学习中取值为负数的代价值的最大绝对值max,并引入微小增量ε;把代价值最大绝对值max以及微小增量ε进行累加,将得到智能规划中的代价值
[0089]
由于在每个状态下都会从所有智能体的可执行动作集合中选择动作,因此对当前所求得的代价值进一步执行求和归一化处理,将各智能体执行动作的代价值扩大到相对于所有智能体的层面上;先累加智能规划中的代价值得到代价总和再用各智能体在智能规划中的代价值分别除以代价总和,即可得到用于动态更新的代价值将其传回智能规划中,为其中表示动作执行代价的多值状态重新赋值,待更新完毕后,即可继续执行后续的启发式搜索过程。
[0090]
上述实施例提供的基于智能规划的多智能体强化学习方法,通过建立多智能体强化学习与智能规划的模型对偶关系,构建marl与ai planning的统一模型maprl,可以解决在更为复杂的多智能体强化学习场景下的各种问题。在智能规划中,通过定义规划任务和求解规划任务,可以求得一组最优动作序列,作为高层目标来指导强化学习训练。在多智能体强化学习中,通过将高层目标整合为算法模型的输入,可以进一步产生智能体实际执行的底层精密动作,进而形成两者之间的交互闭环。在规划任务求解时的启发式搜索过程中,根据当前智能体的所处状态,动态计算并更新其动作代价值,能够进一步提升规划结果的可靠性。经过上述操作,智能规划能为强化学习提供有效的策略指导,并且可以大大提升多
智能体强化学习算法模型的训练效率。
[0091]
将上述方法应用在即时战略对抗游戏中,如:星际争霸starcraftⅱ中的微观场景smac,总共有两支队伍,一支队伍由我们控制,另一支队伍由内置的游戏ai控制,队伍之间为竞争对抗关系,队伍内部的士兵单位之间为合作关系,一轮游戏的战斗目标即为击败敌方所有士兵单位。对我方所有智能体采用合适的多智能体强化学习算法模型,比如:基于actor critic的maddpg和coma、基于值分解的qmix和qtran、基于经验回放的hysteretic q learning,基于这些算法模型采用上述基于智能规划的多智能体强化学习方法,可提高决策准确性。
[0092]
在游戏领域中,每个游戏玩家可以控制一个智能体,每个智能体可以采取攻击和方位移动等动作,这将产生大量的动作选择和协作决策,此时通过使用上述基于智能规划的多智能体强化学习方法,能够帮助游戏玩家优化作战策略,进而达到更高的胜率。
[0093]
在无人机领域中,通常涉及到智能体之间的任务协作、决策制定和动作控制,通过上述基于智能规划的多智能体强化学习方法,能够协调无人机之间的通信和感知,以完成更加复杂的搜索和运输等任务,进而达到更好的任务完成效果。
[0094]
在智能制造领域中,工厂的每条生产线上会配备多台机器人进行部件的生产和组装,这些机器人之间需要彼此协调,避免操作冲突,并且要完成指定的生产任务,通过使用上述基于智能规划的多智能体强化学习方法,可以在各机器人之间进行数据共享,从而提高部件的生产效率。
[0095]
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

技术特征:
1.一种基于智能规划的多智能体强化学习方法,其特征在于,包括以下步骤:为多玩家参与的即时战略对抗游戏构建多智能体强化学习算法模型;基于多智能体强化学习算法模型和智能规划模型的相似性,建立两者之间的模型对偶关系,基于模型对偶关系构建统一模型;基于统一模型将多智能体强化学习算法模型的训练任务表示为规划任务描述;将规划任务描述翻译为多值规划任务,并对多值规划任务进行编译得到多种数据结构,基于多种数据结构执行启发式搜索得到最优动作序列;将最优动作序列转化为各智能体的高层目标,将高层目标与环境中的观察值拼接后输入多智能体强化学习算法模型经过学习得到底层精密动作,环境迭代执行后产生经验元组并将其存至缓冲区中;启发式搜索过程中,根据当前智能体的所处状态实时计算并更新搜索过程中的动作执行代价值。2.根据权利要求1所述的基于智能规划的多智能体强化学习方法,其特征在于,为多玩家参与的即时战略对抗游戏构建多智能体强化学习算法模型,包括:将每个玩家看作一个智能体,将即时战略对抗环境看作智能体的所处环境,以形成多智能体强化学习算法模型。3.根据权利要求1所述的基于智能规划的多智能体强化学习方法,其特征在于,所述基于多智能体强化学习算法模型和智能规划模型的相似性,建立两者之间的模型对偶关系,包括:所述模型对偶关系包括模型定义对偶关系,基于模型定义上的各元素的对应关系,建立模型定义对偶关系;所述模型对偶关系还包括模型目标对偶关系,将强化学习中最大化累计奖励值的求解目标转化为智能规划中最小化累计代价值的规划目标,以建立模型目标对偶关系。4.根据权利要求1所述的基于智能规划的多智能体强化学习方法,其特征在于,所述基于模型对偶关系构建统一模型,包括:通过定义各对象的状态空间以及持续执行的动作,协调各智能体之间的相互关系,通过创建代价处理器,将多智能体强化学习中的奖励值或动作状态价值转化为智能规划中的代价值,搭建起模型之间的连接桥梁,形成统一模型。5.根据权利要求1所述的基于智能规划的多智能体强化学习方法,其特征在于,所述基于统一模型将多智能体强化学习算法模型的训练任务表示为规划任务描述,包括:基于统一模型获得各智能体的状态信息和可执行动作集合;所述规划任务描述包括域描述,在域描述中,根据强化学习环境中所涉及的智能体和非智能体的状态信息,完成对规划任务的抽象定义,包括:对象类型、谓词集合、函数集合、动作集合;所述规划任务描述还包括任务描述,在任务描述中,根据强化学习中各智能体的初始状态和一轮游戏的训练目标,构建特定领域下的具体规划问题,包括:对象实例、规划任务的初始状态、规划任务的终止状态。6.根据权利要求5所述的基于智能规划的多智能体强化学习方法,其特征在于,所述将规划任务描述翻译为多值规划任务,包括:在规划任务描述中,通过谓词集合和函数集合来编码规划任务,当谓词集合和函数集
合关联具体对象实例后,将分别转化为布尔类型和数值类型的原子状态;在多值规划任务中,使用多值状态来编码规划任务,每个多值状态取一组值,每个值对应于一个原子状态,每组取值对应的原子状态需满足互斥关系;将规划任务描述翻译为多值规划任务时,使用多值状态进行编码,代替原始的谓词集合和函数集合,以缩小规划任务的状态空间,包括:对于布尔类型的谓词集合,使用一个多值状态来表示一组不可同时为真的原子状态;对于数值类型的函数集合,使用一个多值状态来表示赋值为相同数值的原子状态;当部分或所有多值状态取值后,将表示出整个规划任务的所处状态。7.根据权利要求6所述的基于智能规划的多智能体强化学习方法,其特征在于,所述对多值规划任务进行编译得到多种数据结构,包括:对多值规划任务进行编译得到的多种数据结构包括:域转换图、因果依赖图、后继生成器、公理评估器;所述域转换图是一个有向标记图,用于表示每个多值状态取不同值之间的转换关系;所述因果依赖图是一个有向无标记图,用于表示不同多值状态之间的依赖关系;所述后继生成器类似于决策树,用于生成各状态下的可执行动作集合;所述公理评估器可执行算术运算、比较运算、逻辑运算,用于对从函数集合转化而来的多值状态执行相关操作。8.根据权利要求7所述的基于智能规划的多智能体强化学习方法,其特征在于,所述基于多种数据结构执行启发式搜索得到最优动作序列,包括:在对多值规划任务执行启发式搜索时,从初始状态开始,每到达一个状态节点,通过后继生成器来查询当前状态下的一组可执行动作集合,从中可以选择任意一个动作,执行后将转换到下一状态节点,不断执行该过程,直到搜索到目标状态,最终将得到一组总代价值最小的最优动作序列。9.根据权利要求1所述的基于智能规划的多智能体强化学习方法,其特征在于,所述将最优动作序列转化为各智能体的高层目标,包括:对启发式搜索得到的最优动作序列进行解析,其中每个动作均包含动作名称、智能体名称以及目标名称,逐一判断各动作名称是否与高层目标定位动作相匹配,若匹配则提取动作中的智能体名称以及目标名称,进而将各个目标名称添加到特定智能体的目标集合中,只有在智能体的前一个目标实现之后,才更新它的下一个目标。10.根据权利要求1所述的基于智能规划的多智能体强化学习方法,其特征在于,所述根据当前智能体的所处状态实时计算并更新搜索过程中的动作执行代价值,包括:每到达一个状态节点,提取状态节点下所涉及智能体的状态信息,将状态信息作为多智能体强化学习算法模型的输入,重新计算得到各动作状态价值,利用代价处理器执行取反以及归一化处理操作,将各动作状态价值转化为启发式搜索时的动作执行代价值。

技术总结
本发明公开了一种基于智能规划的多智能体强化学习方法,包括基于多智能体强化学习算法模型和智能规划模型的相似性,建立两者之间的模型对偶关系,基于模型对偶关系构建统一模型;将多智能体强化学习算法模型的训练任务表示为规划任务描述;基于规划任务描述,依次执行翻译、编译、启发式搜索这三大步骤,进而得到最优动作序列;将最优动作序列转化为各智能体的高层目标,将高层目标与环境中的观察值拼接后输入多智能体强化学习算法模型经过学习得到底层精密动作,环境执行后产生经验元组并将其存至缓冲区中;启发式搜索过程中,根据当前智能体的所处状态实时计算并更新动作执行代价值。该方法大大提升了算法模型的决策准确性以及训练效率。以及训练效率。以及训练效率。


技术研发人员:潘纲 辛沅霞 张犁 李石坚
受保护的技术使用者:浙江大学
技术研发日:2023.06.08
技术公布日:2023/10/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐