一种基于多智能体强化学习的机场滑行智能调度方法与流程

未命名 07-12 阅读：195 评论：0

1.本发明属于空中交通管理领域，具体涉及一种基于多智能体强化学习的机场滑行智能调度方法。

背景技术：

2.随着空中交通运输量的增长，民航机场的运行管理面临着越来越大的压力。机场基础设施扩建的周期远远跟不上航空运输需求的增长，所以当务之急是提高整个机场系统的运作效率，以相对经济的方式解决机场资源的冲突。
3.传统调度方式依靠人工指派滑行路径，由于塔台管制员高强度工作负荷，在监视指挥航空器运行的同时，还需规划路径，受限于场面的复杂环境以及人员因素等，存在安全风险高、效率低下等不足。现有技术“多智能体强化学习在直升机机场调度中的应用”(《计算机工程与应用》，2022年9月8日)设计了简易直升机调度实验平台，并在此实验平台的基础上完成了几种多智能体强化学习算法对直升机的路径引导，其所使用的机场调度环境仅是二维网格环境，场面环境复杂程度远小于现实场景下的大型机场，且使用的多智能体强化学习算法，只是简单的将单智能体强化学习算法复用在多智能体环境下，当环境的空间维度增加时，很难训练出一个有效的调度策略，因此不能很好地应用在大型机场的场面调度中。

技术实现要素：

4.发明目的：本发明所要解决的技术问题是针对现有机场调度效率低的问题，提供一种基于多智能体强化学习的机场滑行智能调度方法。
5.为了解决上述技术问题，本发明公开了一种基于多智能体强化学习的机场滑行智能调度方法，包含以下步骤：
6.步骤1，接收机场场面上每架飞机的状态信息，所述状态信息包括所述飞机当前时刻的位置信息、上一时刻的位置信息和滑行终点位置信息；
7.步骤2，使用基于集中式学习分布式执行框架的多智能体强化学习算法对所有飞机的状态信息进行分布式策略训练，获得场面上的每一架飞机的分布式策略；
8.步骤3，根据生成的分布式策略为对应的飞机选择动作，将每架飞机对应的动作发送给场面上的飞机，场面上的飞机根据分布式策略生成的动作进行滑行；
9.步骤4，执行步骤1至步骤3重复上述学习过程，最终所有的飞机都能够在避免滑行冲突的前提下，按照最优路径轨迹进行滑行。
10.进一步地，步骤2中多智能体强化学习算法采用多智能体近端策略优化(multi-agent proximal policy optimization，mappo)算法。
11.进一步地，步骤1中记机场场面上共有n架飞机，n≥2，第i架飞机记为ei，i＝1，...，n，第i架飞机ei的状态信息包括t时刻的位置xi(t)、在上一时刻t-1的位置xi(t-1)和指定的滑行终点位置
12.第i架飞机ei的动作设计为一个元组对于每一个时隙t，第i架飞机ei沿着的方向以速度vi(t)进行移动，并且所有飞机的联合动作空间被定义为a
t
＝(a
1，t
，a
2，t
，...，a
n，t
)，每架飞机能观测到的数据z
i，t
包括场面上所有飞机在时隙t下的位置，自己在上一时刻和指定的滑行终点位置，即
[0013][0014]
其中表示第i架飞机观测到在t时刻场面上所有飞机的当前位置，xi(t-1)表示在上一时刻t-1的位置，表示指定的滑行终点位置。
[0015]
进一步地，步骤2中包括如下步骤：
[0016]
步骤2-1，设置每架飞机在t时刻的奖励函数；
[0017]
步骤2-2，根据所有飞机传入的状态信息计算联合价值函数，所述联合价值函数包括状态价值函数和优势函数；
[0018]
步骤2-3，根据联合价值函数更新每架飞机的分布式策略。
[0019]
进一步地，步骤2-1包括：
[0020]
记第i架飞机的优势函数为ai(s
t
，a
t
)，其中s
t
表示机场场面在t时刻下所有飞机的状态，a
t
表示机场场面在t时刻下所有飞机采取的动作集合；
[0021]
考虑多架飞机滑行过程中的安全性约束。如果在滑行过程中飞机之间的距离小于安全距离时，则在奖励中扣除一个惩罚项。因此，将基础的飞机调度知识与安全性约束相结合，统一融入奖励函数中，令t时刻第i架飞机的奖励函数为：
[0022]ri，t
(s
i，t
，a
i，t
)＝r1
i，t
(s
i，t
，a
i，t
)+r2
i，t
(s
i，t
，a
i，t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0023]
其中，r1
i，t
(s
i，t
，a
i，t
)是用来衡量飞机与目的地之间距离的奖励函数项，如果飞机在t时刻运动的方向是靠近终点的方向，则奖励值为0；相应的运动方向为其他远离终点的方向奖励值则为-2；此外，当飞机暂停时，其奖励值为-1，相应的表达式如下：
[0024][0025]
r2
i，t
(s
i，t
，a
i，t
)是用来衡量飞机是否到达终点或发生滑行道碰撞的额外奖惩项，当飞机滑行到指定终点时，给予一个正数奖励项c，100≤c≤1000；如果场面上飞机之间发生了碰撞，则每架飞机都会得到一个负数惩罚项-c，相应表达式如下：
[0026][0027]
进一步地，步骤2-2包括：
[0028]
在每个时刻t的初始阶段，基于全局状态s
t
使用分布式策略πi给对应的飞机ei，，选择一个动作a
i，t
～πi(a
i，t
|s
t
)，表示机场场面内所有飞机的集合，并将得到的动作发送给场面上对应的飞机让其执行；假设通过与所有飞机之间的通信，获得每一架飞机ei的(z
i，t
，a
i，t
，r
i，t
)，从而获得场面上所有飞机整体的(s
t
，a
t
，r
t
)；其中s
t
＝
表示时刻t下场面上所有飞机的全局状态信息，表示环境全部的状态信息的集合，所有的飞机共享同一个奖励函数r(s
t
，a
t
)＝r
t
；在获得场面上所有飞机整体的状态信息后，通过集中式学习为每架飞机生成用以控制滑行调度的分布式策略；集中式学习是基于采样轨迹来实现的，其中t表示采样长度；对于第i架飞机ei，对应的分布式策略是πi(a
i，t
|s
t
)，令折扣奖励为其中γ为折扣因子，τ为当前时刻与时刻t的时间差，如果用π＝{π1(a
1，t
|s
t
)，π2(a
2，t
|s
t
)，...，πn(a
n，t
|s
t
)表示联合策略，状态价值函数v
π
定义为：
[0029][0030]
其中s
t+1
表示t+1时刻的全局状态信息，表示在s
t
下使用策略π得到的一系列状态转移轨迹累积奖励的期望。
[0031]
优势函数a
π
定义为
[0032]aπ
(s
t
，a
t
)＝q
π
(s
t
，a
t
)-v
π
(s
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0033]
其中
[0034]
进一步地，步骤2-3包括：使用来更新每个策略，其中θi表示第i架飞机的策略πi的参数，表示对参数θi求梯度，表示采样平均，r
t
(θi)表示在t时刻第i架飞机更新后的策略和更新前旧策略的比值，函数f(r
t
(θi)，ai(s
t
，a
t
))＝min{r
t
(θi)ai(s
t
，a
t
)，c
ε
(r
t
(θi))ai(s
t
，a
t
)}，其中剪裁函数c
ε
(ri(θi))将r
t
(θi)的取值范围限制在区间[1-ε，1+ε]内，ε为给定的常数，0＜ε≤0.2。
[0035]
进一步地，步骤2-2中令ρ0(s0)表示初始状态s0的分布，定义强化学习的期望奖励函数为：
[0036][0037]
其中表示在s0下使用策略π得到的状态价值函数值的期望，该问题被表述成：
[0038][0039]
令更新前后策略的比值为公式(8)转化为：
[0040][0041][0042]
其中π
old
表示当前联合策略，第i架飞机的当前策略是参数的可微函数，πi是参数θi的可微函数，表示对π
old
求期望，剪裁函数c
ε
(x)将x限制在区间[1-ε，1+ε]内，ai(s
t
，a
t
)是的估计值；
[0043]
通过策略迭代法来进行求解公式(9)，目标函数的梯度δθ等于：
[0044][0045]
其中θ＝{θ1，θ2，...，θn}，θ表示所有πi参数的集合，因此每一架飞机的策略πi的梯度为：
[0046][0047]
使用梯度来更新每个策略：
[0048][0049]
其中表示采样平均，ai(s
t
，a
t
)是的估计值。
[0050]
进一步地，步骤3中包括如下步骤：
[0051]
步骤3-1，生成分布式策略后，在t时刻使用分布式策略πi以全局状态s
t
作为输入选择一个动作其中vi(t)和分别表示第i架飞机在时刻t的速度和移动方向；对每架飞机而言，每次可供选择的移动方向都不一样，选择的移动方向数量与飞机当前所处机场滑行道位置有关；此外，每架飞机还能通过暂停以规避即将发生的滑行道冲突，此时vi(t)＝0；当场面上的飞机探测到冲突时，冲突相关的飞机可以通过改变选择其他路径绕开即将发生冲突的区域，或将vi(t)降为0执行暂停动作以避让来往飞机。
[0052]
步骤3-2，将由分布式策略生成的动作发送给场面上相对应的飞机，场面上的飞机根据收到的动作调整自己的滑行方向与滑行速度，完成当前时刻t下的滑行任务。所有飞机学习的目标是在避免冲突的前提下找到滑行时间最短的滑行轨迹。
[0053]
进一步地，步骤4中包括如下步骤：
[0054]
步骤4-1，当收到场面上所有飞机在t时刻发送的数据后，根据每架飞机运动方向以及场面上是否发生碰撞、是否有飞机抵达终点情况，计算此时的奖励，r
i，t
＝r1
i，t
+r2
i，t
，其中r
i，t
表示第i架飞机在t时刻完成状态转移后得到的奖励值，奖励函数由r1
i，t
和r2
i，t
两部分函数组成，r1
i，t
反应的是飞机运动方向离终点的远近，当飞机按照最短路径方向运动时，r1
i，t
＝0，当飞机选择暂停时，r1
i，t
＝-1，当飞机选择了其他的方向运动时，r1
i，t
＝-2；r2
i，t
反应的是该飞机是否发生碰撞或是否到达终点，如果飞机在t时刻抵达终点，r2
i，t
＝c，其中c表示抵达终点奖励常数；如果飞机在t时刻发生碰撞，r2
i，t
＝-c，其中-c表示碰撞惩罚常数；
[0055]
步骤4-2，在每个学习的回合里，每架飞机根据给定的航班计划表，从各自的初始位置出发滑行至给定的终点，目标是在避免冲突的前提下学习到一条最大化奖励的滑行轨迹；当所有的飞机都滑行到终点或场面上有飞机发生冲突时，这一轮的学习回合结束，开始下一轮的学习。
[0056]
有益效果：本发明具体是一种基于多智能体近端策略优化(multi-agent proximal policy optimization，mappo)算法的复杂机场场面环境下的飞机滑行智能调度设计方法，可实现多架飞机在滑行时能够探测到潜在的冲突事件并加以规避，并在此基础上完成多架飞机的路径规划，以保证多架飞机按照最优滑行轨迹进行滑行，与现有技术相比，显著优点是：本发明适用于滑行道布局复杂、滑行冲突特性众多、机场场面管制约束众
多的大型机场场面环境下的针对高效路由调度难的问题，通过对多架飞机滑行方案的设计，可以有效解决大规模机场下兼顾多活动目标的安全、效率和公平等指标的轨迹规划问题。本发明提出的机场场面滑行智能调度方案利用集中式学习分布式执行框架，具有高收敛速度、高冲突解脱率、低冲突解脱时间的优点。
附图说明
[0057]
下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。
[0058]
图1是本发明的多智能体滑行调度的应用场景图。
[0059]
图2是本发明的场面滑行场景下的多智能体学习算法框架图。
[0060]
图3是本发明的多批次航班下的滑行到达率和碰撞率曲线图。
[0061]
图4是本发明的多批次航班下的滑行总耗时曲线图。
[0062]
图5是本发明的多智能体强化学习的机场滑行调度方法与传统调度方法的性能对比图。
具体实施方式
[0063]
下面将结合附图，对本发明的实施例进行描述。
[0064]
优化航空器在滑行道系统的滑行过程能够提高场面资源运行安全与效率。通过指派滑行路径等调度手段对航空器滑行过程进行优化，可以有效降低航空器滑行成本，提升滑行效率，进而提升场面航空器运行效率，增加机场场面动态容量并降低航空器场面拥堵，保障航空器的运行安全。
[0065]
通过引入智能化算法进行路径的自主规划，可以全面化考虑各种环境影响因素，利用空管大数据融合，基于深度学习、强化学习等方法，面向智能化冲突管理、智能化空中交通流量管理、智能化规划管理、智能化进离场排序、智能化机场运行等场景，解决传统调度方式下安全风险高、调度效率低下的问题，辅助业务决策，从而提升机场系统的运作效率。
[0066]
应用智能化学习算法的大型机场具有如下特征：1)滑行道布局复杂而且活动目标数量多；2)机场内各类滑行冲突特性众多，以及针对不同类型滑行冲突需要采取针对性不同的解脱策略；3)机场场面管制行为约束众多。在这些特征下的预测轨迹，需要以多活动目标场景下的安全、效率和公平等为综合优化目标。因此，研究基于多目标优化的滑行轨迹规划算法，有利于综合提高机场场面的运行效率，多智能体学习算法的应用势在必行。
[0067]
本技术实施例是在单智能体滑行调度方案上提出的一种基于多智能体强化学习的复杂机场滑行智能调度方案，在满足每架飞机的安全性约束的前提下，来最小化每架飞机的滑行时间，并通过计算机仿真证实了该调度方案设计的有效性；对于多架飞机的设计，对飞机的移动方向和速度进行联合优化，使用集中式学习分布式执行框架，将传统的完全集中式策略拆分成多个策略集合，并根据分布式策略集合选择动作，降低了策略的学习难度以及机场场面飞机的动作空间维度。本发明采用了基于多智能体强化学习的解决方案，在所提方案中，每架飞机将自己的位置信息发送到中央控制器，之后中央控制器根据所有接收到的飞机的状态信息，使用mappo获得每架飞机系统状态和移动策略之间的映射关系，
并基于全局状态信息使用训练到的分布式的策略进行动作的选择，之后将得到的动作集合发送给机场场面上的对应飞机，场面上的飞机再执行由中央控制器发送的动作，从而实现多架飞机在滑行时能够探测到潜在的冲突事件并加以规避，并在此基础上完成多架飞机的路径规划，以保证多架飞机按照最优滑行轨迹进行滑行。
[0068]
本发明的应用场景如图1所示：在复杂的机场场面环境下，多架飞机需要根据航班计划表从给定的起始位置出发滑行至指定终点，考虑到多架飞机在运动的过程中有产生滑行冲突碰撞的危险，因此场面上飞机的目标是在基于不发生滑行冲突碰撞的安全性约束的前提下，成功滑行到指定终点，并学习到一条滑行时间最短的滑行路径；该申请的主要特征是，每架飞机之间有着很强的安全性约束，飞机将自身的状态信息发送给中央控制器，中央控制器采用集中式训练来生成每架飞机的分布式移动策略，每架飞机基于自身当前的观测值使用分布式策略生成移动速度和方向。
[0069]
在本发明的多智能体机场滑行智能调度方案中，n架飞机ei，i＝1，...，n，n≥2和一个中央控制器配合以实现复杂机场场面下的滑行路由规划和发生冲突碰撞时的冲突解脱。由于大型机场下滑行道之间结构纵横交错、滑行冲突种类繁多，低效的场面路径规划算法在机场客流高峰期时发生冲突碰撞的可能性大大提高；此外，考虑到实际场景下飞机发生碰撞的成本是不可承受的，因此每架飞机在滑行过程中需要附加很强的安全性约束，这无疑给场面路径规划算法带来了巨大的挑战。在传统的基于策略梯度的完全集中式深度强化学习中：策略输入全局状态信息，输出为所有飞机的联合动作。考虑到高维动作空间可能带来的学习困难问题，本技术实施例研究了基于策略分解的集中式训练分布式执行深度强化学习。在这个架构中，传统的集中式策略网络π(
·
|s
t
)被降维成多个低维策略网络其中s
t
表示时刻t下场面上所有飞机的全局状态信息，策略仅决定飞机ei应该执行的动作，从而在利用了全局信息s
t
的基础上，降低了策略的动作空间维度，从而大大降低了策略的学习难度。在本发明中，场面上的飞机可以在滑行过程中将自己的状态数据发送至中央控制器，基于集中式训练分布式执行架构的强化学习算法，中央控制器利用收集到的所有数据集中训练最优的移动策略，以指导每架飞机找到最优的滑行轨迹。
[0070]
本技术实施例公开一种基于多智能体强化学习的机场滑行智能调度方法，包括以下步骤：
[0071]
步骤1，接收机场场面上每架飞机的状态信息，所述状态信息包括所述飞机当前时刻的位置信息、上一时刻的位置信息和滑行终点位置信息；
[0072]
在强化学习算法下，第i架飞机ei的状态信息包括t时刻的位置xi(t)、在上一时刻t-1的位置xi(t-1)和指定的滑行终点位置将上述信息全部发送给中央控制器；第i架飞机的动作可以被设计成为一个元组对于每一个时隙t，第i架飞机ei沿着的方向以速度vi(t)进行移动，并且所有飞机的联合动作空间被定义为a
t
＝(a
1，t
，a
2，t
，...，a
n，t
)，每架飞机能观测到的数据z
i，t
包括场面上所有飞机在时隙t下的位置，自己在上一时刻和指定的滑行终点位置，即
[0073]
[0074]
其中表示第i架飞机观测到在t时刻场面上所有飞机的当前位置，xi(t-1)表示第i架飞机在上一时刻t-1的位置，表示第i架飞机指定的滑行终点位置。
[0075]
步骤2，使用基于集中式学习分布式执行框架的多智能体强化学习算法对所有飞机的状态信息进行分布式策略训练，获得场面上的每一架飞机的分布式策略，包括：
[0076]
考虑多架飞机滑行过程中的安全性约束。如果在滑行过程中飞机之间的距离小于安全距离时，则在奖励中扣除一个惩罚项。因此，我们将基础的飞机调度知识与安全性约束相结合，统一融入奖励函数中，令t时刻第i架飞机的奖励函数为：
[0077]ri，t
(s
i，t
，a
i，t
)＝r1
i，t
(s
i，t
，a
i，t
)+r2
i，t
(s
i，t
，a
i，t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0078]
其中，r1
i，t
(s
i，t
，a
i，t
)是用来衡量飞机与目的地之间距离的奖励函数项。如果飞机在t时刻运动的方向是靠近终点的方向，则奖励值为0；相应的运动方向为其他远离终点的方向奖励值则为-2。此外，当飞机暂停时，其奖励值为-1，相应的表达式如下：
[0079][0080]
r2
i，t
(s
i，t
，a
i，t
)是用来衡量飞机是否到达终点或发生滑行道碰撞的额外奖惩项。具体而言，当飞机滑行到指定终点时，给予一个正数奖励项c，100≤c≤1000；如果场面上飞机之间发生了碰撞，则每架飞机都会得到一个负数惩罚项-c，相应表达式如下：
[0081][0082]
通过设置合适的奖励函数，能够让场面上的飞机在训练时同时学习到滑行轨迹规划以及冲突探测解脱的策略。
[0083]
在每个时刻t的初始阶段，中央控制器基于全局状态s
t
使用分布式策略πi给对应的飞机ei，选择一个动作a
i，t
～πi(a
i，t
|s
t
)，表示机场场面内所有飞机的集合，并将得到的动作发送给场面上对应的飞机让其执行。假设通过与所有飞机之间的通信，中央控制器得到每一架飞机ei的(z
i，t
，a
i，t
，r
i，t
)，从而得到场面上所有飞机整体的(s
t
，a
t
，r
t
)。其中表示时刻t下场面上所有飞机的全局状态信息，表示环境全部的状态信息的集合，所有的飞机共享同一个奖励函数r(s
t
，a
t
)＝r
t
。中央控制器在获得场面上所有飞机整体的状态信息后，需要通过集中式学习为每架飞机生成用以控制滑行调度的分布式策略。集中式学习是在中央控制器中基于采样轨迹来实现的，其中t表示采样长度，本实施例取值为512。对于第i架飞机，对应的分布式策略是πi(a
i，t
|s
t
)，令折扣奖励为其中γ为折扣因子，τ为时刻t之后过去的时间(当前时刻与时刻t的时间差)，如果用π＝{π1(a
1，t
|s
t
)，π2(a
2，t
|s
t
)，...，πn(a
n，t
|s
t
)表示联合策略，状态价值函数v
π
定义为：
[0084]
[0085]
其中s
t+1
表示t+1时刻的全局状态信息，表示在s
t
下使用策略π得到的一系列状态转移轨迹累积奖励的期望，下标中的省略号表示在状态s
t
下使用策略π之后一系列动作序列和状态转移序列。
[0086]
优势函数a
π
定义为
[0087]aπ
(s
t
，a
t
)＝q
π
(s
t
，a
t
)-v
π
(s
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0088]
其中令ρ0(s0)表示初始状态s0的分布，定义强化学习的期望奖励函数为：
[0089][0090]
其中表示在s0下使用策略π得到的状态价值函数值的期望，一旦确定了最优的分布式策略，每架飞机便可以按照已生成的最优分布式策略完成预期的滑行规划。因此，该问题被表述为：
[0091][0092]
借助mappo算法的思路，令更新前后策略的比值为其中θi表示第i架飞机的策略πi的参数，公式(8)转化为：
[0093][0094][0095]
其中π
old
表示当前联合策略，第i架飞机的当前策略是参数的可微函数，πi是参数θi的可微函数，表示对π
old
求期望，剪裁函数c
ε
(x)将x限制在区间[1-ε，1+ε]内，0＜ε≤0.2。
[0096]
公式(9)可以通过策略迭代法来进行求解，目标函数的梯度等于：
[0097][0098]
其中θ＝{θ1，θ2，...，θn}，θ表示所有πi参数的集合，表示对参数θ求梯度，因此每一架飞机的策略πi的梯度为：
[0099][0100]
表示对参数θi求梯度，基于公式(12)，就可以使用集中式学习分布式执行训练框架基于多智能体ppo算法进行求解。如图2所示，在集中式学习分布式执行框架里，中央控制器将使用接收到的所有飞机的全局状态信息来训练分布式策略。集中式评判器根据全局信息估计联合价值函数，对分布式策略的参数进行梯度更新，中央控制器再基于全局状态利用分布式策略做出决策，并将相应的决策结果发送给场面上的飞机。在强化学习中，期望值通常会使用采样平均来代替。因此，使用以下梯度来更新每个策略：
[0101][0102]
其中表示采样平均，ai(s
t
，a
t
)是的估计值。在每一个训练的回合里，飞机从给定的起点出发，目标是学习一条奖励最大化的路径，当每一架飞机都抵达终点或发生碰撞时或超出训练回合时间上限时，该训练回合就结束。
[0103]
步骤3，根据生成的分布式策略为对应的飞机选择动作，将每架飞机对应的动作发送给场面上的飞机，场面上的飞机根据分布式策略生成的动作进行滑行，包括如下步骤：
[0104]
步骤3-1，生成分布式策略后，在t时刻使用分布式策略πi以全局状态s
t
作为输入选择一个动作其中vi(t)和分别表示第i架飞机在时刻t的速度和移动方向；对每架飞机而言，每次可供选择的移动方向都不一样，选择的移动方向数量与飞机当前所处机场滑行道位置有关，根据所处滑行道节点与其他滑行道节点的联通情况，移动方向从1个到4个不等；此外，每架飞机还能通过暂停以规避即将发生的滑行道冲突，此时vi(t)＝0；当场面上的飞机探测到冲突时，冲突相关的飞机可以通过改变选择其他路径绕开即将发生冲突的区域，或将vi(t)降为0执行暂停动作以避让来往飞机。
[0105]
步骤3-2，将由分布式策略生成的动作发送给场面上相对应的飞机，场面上的飞机根据收到的动作调整自己的滑行方向与滑行速度，完成当前时刻t下的滑行任务。
[0106]
步骤4，执行步骤1至步骤3重复上述学习过程，最终所有的飞机都能够在避免滑行冲突的前提下，按照最优路径轨迹进行滑行，包括如下步骤：
[0107]
步骤4-1，当收到场面上所有飞机在t时刻发送的数据后，根据每架飞机运动方向以及场面上是否发生碰撞、是否有飞机抵达终点情况，计算此时的奖励，r
i，t
＝r1
i，t
+r2
i，t
，其中r
i，t
表示第i架飞机在t时刻完成状态转移后得到的奖励值，奖励函数由r1
i，t
和r2
i，t
两部分函数组成，r1
i，t
反应的是飞机运动方向离终点的远近，当飞机按照最短路径方向运动时，r1
i，t
＝0，当飞机选择暂停时，r1
i，t
＝-1，当飞机选择了其他的方向运动时，r1
i，t
＝-2；r2
i，t
反应的是该飞机是否发生碰撞或是否到达终点，如果飞机在t时刻抵达终点，r2
i，t
＝c，其中c表示抵达终点奖励常数；如果飞机在t时刻发生碰撞，r2
i，t
＝-c，其中-c表示碰撞惩罚常数；
[0108]
步骤4-2，在每个学习的回合里，每架飞机根据给定的航班计划表，从各自的初始位置出发滑行至给定的终点，目标是在避免冲突的前提下学习到一条最大化奖励的滑行轨迹；当所有的飞机都滑行到终点或场面上有飞机发生冲突时，这一轮的学习回合结束，开始下一轮的学习。
[0109]
如图3所示，是到达终点率和碰撞率的学习曲线。环境的初始化设定具体如下：场面飞机数量设置为8架飞机，这些飞机的起始位置和终点由已生成的航班时刻表给定。其中实线表示场面内飞机的平均到达率，虚线表示场面内飞机的平均碰撞率。可以看出，场面内飞机可以通过多智能体ppo算法学习到正确的滑行轨迹，不仅可以引导飞机滑行至指定目的地，而且在滑行的过程中中央控制器还会通过一系列的决策，以避免可能发生的滑行冲突。
[0110]
如图4所示，是单个回合内场面下飞机的总滑行时间曲线。可以看出，刚开始进行学习时滑行总滑行时间数值较高但呈现下降趋势，这代表中央控制器在通过场面飞机不断
的尝试以及根据环境的反馈优化滑行策略，逐渐缩短滑行时间；之后有一段出现滑行时间数值波动较大，此时场面内的飞机按照最短路径滑行时会发生滑行道碰撞，这时中央控制器将根据环境的反馈优化滑行策略，以找到能摆脱滑行道冲突的滑行动作序列；最后滑行时间收敛至一个稳定数值，代表场面上的飞机此时的滑行策略趋向稳定，可以完成理论预期的多智能体的滑行轨迹规划与滑行冲突探索解脱研究。
[0111]
如图5所示，是本实施例基于多智能体滑行智能调度方法与传统调度方法的性能指标对比。在仿真实验中，为衡量多智能体滑行智能调度方法的性能参数，引入传统调度方法，即通过人工引导指挥场面上的飞机滑行至指定终点以及摆脱滑行道冲突。可以看出无论是总滑行时间还是冲突解脱时间(即飞机为摆脱冲突而采取的非最短路径动作所花费的时间总和)，本发明中的多智能体滑行智能调度方法相较于传统调度方法花费的时间都更少，在性能指标上都有明显提升。
[0112]
仿真证明，本发明提出的基于多智能体强化学习的机场滑行智能调度方法可以在所有飞机都不拥有机场滑行场面先验知识的情况下，使用中央控制器统一学习到合适的分布式移动策略来完成路径调度，并在仿真场景中利用提出的算法去得到飞机的滑行性能指标，从而验证理论的正确性。
[0113]
具体实现中，本技术提供计算机存储介质以及对应的数据处理单元，其中，该计算机存储介质能够存储计算机程序，所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于多智能体强化学习的机场滑行智能调度方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。
[0114]
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来，该计算机程序软件产品可以存储在存储介质中，包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机，服务器，单片机。muu或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0115]
本发明提供了一种基于多智能体强化学习的机场滑行智能调度方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

技术特征：
1.一种基于多智能体强化学习的机场滑行智能调度方法，其特征在于，包括以下步骤：步骤1，接收机场场面上每架飞机的状态信息，所述状态信息包括所述飞机当前时刻的位置信息、上一时刻的位置信息和滑行终点位置信息；步骤2，使用基于集中式学习分布式执行框架的多智能体强化学习算法对所有飞机的状态信息进行分布式策略训练，获得场面上的每一架飞机的分布式策略；步骤3，根据生成的分布式策略为对应的飞机选择动作，将每架飞机对应的动作发送给场面上的飞机，场面上的飞机根据分布式策略生成的动作进行滑行；步骤4，执行步骤1至步骤3重复上述学习过程，最终所有的飞机都能够在避免滑行冲突的前提下，按照最优路径轨迹进行滑行。2.根据权利要求1所述的一种基于多智能体强化学习的机场滑行智能调度方法，其特征在于，步骤2中多智能体强化学习算法采用多智能体近端策略优化算法。3.根据权利要求2所述的一种基于多智能体强化学习的机场滑行智能调度方法，其特征在于，步骤1中记机场场面上共有n架飞机，n≥2，第i架飞机记为e
i
，i＝1，...，n，第i架飞机e
i
的状态信息包括t时刻的位置x
i
(t)、在上一时刻t-1的位置x
i
(t-1)和指定的滑行终点位置第i架飞机e
i
的动作设计为一个元组对于每一个时隙t，第i架飞机e
i
沿着的方向以速度v
i
(t)进行移动，并且所有飞机的联合动作空间被定义为a
t
＝(a
1，t
，a
2，t
，...，a
n,t
)，每架飞机能观测到的数据z
i，t
包括场面上所有飞机在时隙t下的位置，自己在上一时刻和指定的滑行终点位置，即其中表示第i架飞机观测到在t时刻场面上所有飞机的当前位置，x
i
(t-1)表示在上一时刻t-1的位置，表示指定的滑行终点位置。4.根据权利要求3所述的一种基于多智能体强化学习的机场滑行智能调度方法，其特征在于，步骤2中包括如下步骤：步骤2-1，设置每架飞机在t时刻的奖励函数；步骤2-2，根据所有飞机传入的状态信息计算联合价值函数，所述联合价值函数包括状态价值函数和优势函数；步骤2-3，根据联合价值函数更新每架飞机的分布式策略。5.根据权利要求4所述的一种基于多智能体强化学习的机场滑行智能调度方法，其特征在于，步骤2-1包括：记第i架飞机的优势函数为a
i
(s
t
，a
t
)，其中s
t
表示机场场面在t时刻下所有飞机的状态，a
t
表示机场场面在t时刻下所有飞机采取的动作集合；令t时刻第i架飞机的奖励函数为：r
i，t
(s
i，t
，a
i，t
)＝r1
i，t
(s
i，t
，a
i,t
)+r2
i，t
(s
i，t
，a
i,t
)
ꢀꢀꢀꢀ
(2)其中，r1
i，t
(s
i，t
，a
i，t
)是用来衡量飞机与目的地之间距离的奖励函数项，如果飞机在t时刻运动的方向是靠近终点的方向，则奖励值为0；相应的运动方向为其他远离终点的方向奖励值则为-2；此外，当飞机暂停时，其奖励值为-1，相应的表达式如下：
r2
i,t
(s
i，t
，a
i，t
)是用来衡量飞机是否到达终点或发生滑行道碰撞的额外奖惩项，当飞机滑行到指定终点时，给予一个正数奖励项c，100≤c≤1000；如果场面上飞机之间发生了碰撞，则每架飞机都会得到一个负数惩罚项-c，相应表达式如下：6.根据权利要求5所述的一种基于多智能体强化学习的机场滑行智能调度方法，其特征在于，步骤2-2包括：在每个时刻t的初始阶段，基于全局状态s
t
使用分布式策略π
i
给对应的飞机e
i
，，选择一个动作a
i，t
～π
i
(a
i，t
|s
t
)，表示机场场面内所有飞机的集合，并将得到的动作发送给场面上对应的飞机让其执行；假设通过与所有飞机之间的通信，获得每一架飞机e
i
的(z
i,t
，a
i,t
，r
i,t
)，从而获得场面上所有飞机整体的(s
t
，a
t
，r
t
)；其中s
t
＝表示时刻t下场面上所有飞机的全局状态信息，表示环境全部的状态信息的集合，所有的飞机共享同一个奖励函数r(s
t
，a
t
)＝r
t
；在获得场面上所有飞机整体的状态信息后，通过集中式学习为每架飞机生成用以控制滑行调度的分布式策略；集中式学习是基于采样轨迹来实现的，其中t表示采样长度；对于第i架飞机e
i
，对应的分布式策略是π
i
(a
i，t
|s
t
)，令折扣奖励为其中γ为折扣因子，τ为当前时刻与时刻t的时间差，如果用π＝{π1(a
1，t
|s
t
)，π2(a
2，t
|s
t
)，...，π
n
(a
n，t
|s
t
)表示联合策略，状态价值函数v
π
定义为：其中s
t+1
表示t+1时刻的全局状态信息，表示在s
t
下使用策略π得到的一系列状态转移轨迹累积奖励的期望；优势函数a
π
定义为a
π
(s
t
，a
t
)＝q
π
(s
t
，a
t
)-v
π
(s
t
)
ꢀꢀꢀꢀ
(6)其中7.根据权利要求6所述的一种基于多智能体强化学习的机场滑行智能调度方法，其特征在于，步骤2-3包括：使用来更新每个策略，其中θ
i
表示第i架飞机的策略π
i
的参数，表示对参数θ
i
求梯度，表示采样平均，r
t
(θ
i
)表示在t时刻第i架飞机更新后的策略和更新前旧策略的比值，函数f(r
t
(θ
i
)，a
i
(s
t
，a
t
))＝min{r
t
(θ
i
)a
i
(s
t
，a
t
)，c
ε
(r
t
(θ
i
))a
i
(s
t
，a
t
)}，其中剪裁函数c
ε
(r
t
(θ
i
))将r
t
(θ
i
)的取值范围限制在区间[1-ε，1+ε]内，ε为给定的常数，0＜ε≤0.2。8.根据权利要求7所述的一种基于多智能体强化学习的机场滑行智能调度方法，其特征在于，步骤2-2中令ρ0(s0)表示初始状态s0的分布，定义强化学习的期望奖励函数为：
其中，表示在s0下使用策略π得到的状态价值函数值的期望，该问题被表述成：令更新前后策略的比值为公式(8)转化为：公式(8)转化为：其中π
old
表示当前联合策略，第i架飞机的当前策略是参数的可微函数，π
i
是参数θ
i
的可微函数，表示对π
old
求期望，剪裁函数c
ε
(x)将x限制在区间[1-ε，1+ε]内；a
i
(s
t
，a
t
)是的估计值；通过策略迭代法来进行求解公式(9)，目标函数的梯度δθ等于：其中θ＝{θ1，θ2，...，θ
n
}，θ表示所有π
i
参数的集合，因此每一架飞机的策略π
i
的梯度为：使用梯度来更新每个策略：其中表示采样平均，a
i
(s
t
，a
t
)是的估计值。9.根据权利要求8所述的一种基于多智能体强化学习的机场滑行智能调度方法，其特征在于，步骤3中包括如下步骤：步骤3-1，生成分布式策略后，在t时刻使用分布式策略π
i
以全局状态s
t
作为输入选择一个动作a
i，t
＝(v
i
(t)，θ
i
(t))，其中v
i
(t)和θ
i
(t)分别表示第i架飞机在时刻t的速度和移动方向；对每架飞机而言，每次供选择的移动方向都不一样，选择的移动方向数量与飞机当前所处机场滑行道位置有关；此外，每架飞机还能通过暂停以规避即将发生的滑行道冲突，此时v
i
(t)＝0；当场面上的飞机探测到冲突时，冲突相关的飞机能够通过改变选择其他路径绕开即将发生冲突的区域，或将v
i
(t)降为0执行暂停动作以避让来往飞机；步骤3-2，将由分布式策略生成的动作发送给场面上相对应的飞机，场面上的飞机根据收到的动作调整自己的滑行方向与滑行速度，完成当前时刻t下的滑行任务。10.根据权利要求9所述的一种基于多智能体强化学习的机场滑行智能调度方法，其特征在于，步骤4中包括如下步骤：步骤4-1，当收到场面上所有飞机在t时刻发送的数据后，根据每架飞机运动方向以及场面上是否发生碰撞、是否有飞机抵达终点情况，计算此时的奖励，r
i，t
＝r1
i，t
+r2
i，t
，其中r
i，t
表示第i架飞机在t时刻完成状态转移后得到的奖励值，奖励函数由r1
i，t
和r2
i，t
两部分函数组成，r1
i，t
反应的是飞机运动方向离终点的远近，当飞机按照最短路径方向运动时，r1
i，t
＝0，当飞机选择暂停时，r1
i，t
＝-1，当飞机选择了其他的方向运动时，r1
i，t
＝-2；r2
i，t
反应的是该飞机是否发生碰撞或是否到达终点，如果飞机在t时刻抵达终点，r2
i，t
＝c，其中
c表示抵达终点奖励常数；如果飞机在t时刻发生碰撞，r2
i，t
＝-c，其中-c表示碰撞惩罚常数；步骤4-2，在每个学习的回合里，每架飞机根据给定的航班计划表，从各自的初始位置出发滑行至给定的终点，目标是在避免冲突的前提下学习到一条最大化奖励的滑行轨迹；当所有的飞机都滑行到终点或场面上有飞机发生冲突时，这一轮的学习回合结束，开始下一轮的学习。

技术总结
本发明提供了一种基于多智能体强化学习的机场滑行智能调度方法，包括：步骤1，接收机场场面上每架飞机的状态信息；步骤2，使用基于集中式学习分布式执行框架的多智能体强化学习算法对所有飞机的状态信息进行分布式策略训练，获得场面上的每一架飞机的分布式策略；步骤3，根据生成的分布式策略为对应的飞机选择动作，并发送至场面上的飞机，场面上的飞机根据分布式策略生成的动作进行滑行；步骤4，执行步骤1至步骤3重复上述学习过程，最终所有的飞机都能够在避免滑行冲突的前提下，按照最优路径轨迹进行滑行。该方法可以根据机场场面信息决定每架飞机的移动方向和移动速度，在避免冲突的条件下，最小化飞机的滑行时间。最小化飞机的滑行时间。最小化飞机的滑行时间。

技术研发人员：唐岚梁永胜黄泓毓丁辉付胜豪董斌王凯
受保护的技术使用者：中国电子科技集团公司第二十八研究所
技术研发日：2023.03.01
技术公布日：2023/7/11

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：半导体器件版图设计规则的检查方法与流程 下一篇：通过水热处理合成介孔纳米尺寸沸石β的方法及其用途与流程

一种基于多智能体强化学习的机场滑行智能调度方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于多智能体强化学习的机场滑行智能调度方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表