一种面向空间轨道博弈的阶梯化智能生成方法与流程

未命名 07-04 阅读:122 评论:0


1.本发明涉及一种面向空间轨道博弈的阶梯化智能生成方法,属于航天器轨道控制技术领域。


背景技术:

2.航天器轨道博弈具有长周期累积效应显著的特点,同时航天器的轨道控制是连续控制量,因此其动作空间的复杂度随着博弈时长的增加,呈指数递增,带来智能生成效率低甚至无法收敛的问题。当前空间轨道博弈智能大多采用端到端的一步式生成方法,面对复杂的多约束轨道博弈问题,存在智能生成效率低甚至训练曲线无法收敛的问题。另一方面,一步式生成方法难以准确定位设计流程中的错误,容易造成研制周期长等弊端。


技术实现要素:

3.本发明要解决的技术问题是:克服现有技术的不足,解决了空间轨道博弈的智能快速有效生成问题。
4.本发明目的通过以下技术方案予以实现:
5.一种面向空间轨道博弈的阶梯化智能生成方法,包括:
6.根据空间轨道博弈任务,为红方航天器设置即时奖励函数,用于激励航天器智能决策模型生成;
7.为红方航天器设置策略网络及价值网络;
8.设置强化学习算法的超参数,用于辅助学习训练算法的收敛;
9.依据科目一的设计准则,搭建第一数字仿真环境;
10.依照红方即时奖励函数和第一仿真环境,开展航天器智能决策模型的学习训练,得到第一航天器决策模型;
11.依据科目二的设计准则,搭建第二数字仿真环境;
12.加载第一航天器决策模型,依照红方即时奖励函数和第二仿真环境,开展学习训练,得到第二航天器决策模型;
13.依据科目三的设计准则,搭建第三数字仿真环境;
14.加载第二航天器决策模型,依照红方即时奖励函数和第三数字仿真环境,开展学习训练,得到第三航天器决策模型;
15.利用第三航天器决策模型,根据从环境中获得的观测量,生成航天器速度增量进行轨道控制,进而开展空间轨道博弈任务。
16.优选的,策略网络根据航天器观测量,自主生成航天器速度增量进而实现轨道控制。
17.优选的,价值网络根据航天器观测量,输出当前状态下获得累积奖励的估计值。
18.优选的,超参数包括累积奖励折扣率、学习率、批处理数据量。
19.优选的,科目一的设计准则包括完整信息、轨道约束、单方规则体;科目二的设计
准则包括完整信息、轨道约束、燃料约束、红蓝博弈;科目三的设计准则包括非完整信息、轨道约束、燃料约束、红蓝博弈。
20.优选的,轨道约束为:以航天器初始轨道位置为原点,x轴方向为轨道速度方向,z轴指向地心方向,y轴垂直于轨道平面,方向由右手螺旋定则确定,建立相对轨道坐标系;航天器通过脉冲推力进行轨道控制:
[0021][0022]
式中,代表航天器k时刻的xyz三轴速度;
[0023]
[δv
x
(k) δvy(k) δvz(k)]
t
代表航天器k时刻的xyz速度增量;
[0024]
代表航天器轨道机动后的xyz三轴速度;
[0025]
航天器相对轨道动力学如下式所述:
[0026][0027]
式中,[x(k) y(k) z(k)]
t
代表航天器k时刻的xyz三轴位置;
[0028]
[x(k+1) y(k+1) z(k+1)]
t
代表航天器k+1时刻的xyz三轴位置;
[0029]
代表航天器k+1时刻的xyz三轴速度;
[0030]
n代表轨道角速度,t代表仿真步长,c
nt
和s
nt
分别为cos(nt)和sin(nt)的缩写。
[0031]
优选的,燃料约束为:设置航天器燃料上限,当航天器累积速度增量超过该上限时,航天器不再具备机动能力,即:
[0032][0033]
[δv
x
(k) δvy(k) δvz(k)]
t
代表航天器k时刻的xyz速度增量。
[0034]
优选的,红蓝博弈为:在空间轨道博弈任务中,红蓝双方均采用深度强化学习方法智能生成的决策模型开展左右互搏式学习训练,实现红蓝双方智能的螺旋式提升。
[0035]
优选的,在空间轨道博弈任务中,红方采用深度强化学习方法智能生成的决策模
型开展学习训练,蓝方采用微分对策、lambert变轨方法确定规则策略。
[0036]
优选的,完整信息为:航天器可实时获得其他航天器的位置、速度信息;非完整信息为:设置航天器雷达探测距离限制;当其他航天器超出雷达探测范围,航天器仅能通过光学敏感器获得其方位信息位置与速度信息均缺失。
[0037]
本发明相比于现有技术具有如下有益效果:
[0038]
(1)针对空间轨道博弈中决策智能难以快速有效生成问题,本发明围绕约束条件从少到多,环境/目标信息从少到多,任务复杂性从易到难的设计原则,由易到难设计训练科目一至科目三,形成系统化、规范化的空间轨道博弈智能生成流程,有效引导空间轨道博弈的智能水平逐步、稳定提升。
[0039]
(2)本发明可针对不同空间任务有效进行复用性开发。不同的空间任务大多存在许多共性部分,因此针对新空间任务的智能生成无需从零开始,可从原空间任务的预先科目开始,缩短研发周期、开发流程。
[0040]
(3)本发明系统化、规范化、阶梯化地进行智能生成训练科目分解,步骤简洁,逻辑清晰,符合实际任务型号的应用要求,更有助于航天器在轨实际应用。
[0041]
(4)相较于端到端的智能生成模式,本发明提出的阶梯化智能生成流程,能够更加精准、快速地定位设计中存在的问题与缺陷,减少项目迭代次数,有效缩短研发周期。
附图说明
[0042]
图1为发明提供的空间轨道博弈智能生成流程。
具体实施方式
[0043]
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步详细描述。
[0044]
一种面向空间轨道博弈的阶梯化智能生成方法,包括:
[0045]
(1)根据空间轨道博弈任务想定,为红方航天器设置即时奖励函数,用于激励航天器智能决策模型生成;
[0046]
(2)为红方航天器设置策略网络及价值网络;
[0047]
(3)设置强化学习算法的超参数,用于辅助学习训练算法的收敛;
[0048]
(4)依据科目一的设计准则(完整信息、轨道约束、单方规则体),搭建数字仿真环境1.0;
[0049]
(5)依照红方即时奖励函数和仿真环境1.0,开展航天器智能决策模型的学习训练,得到航天器决策模型1.0;
[0050]
(6)依据科目二的设计准则(完整信息、轨道约束、燃料约束、红蓝博弈),搭建数字仿真环境2.0;
[0051]
(7)加载航天器决策模型1.0,依照红方即时奖励函数和仿真环境2.0,开展学习训练,得到航天器决策模型2.0;
[0052]
(8)依据科目三的设计准则(非完整信息、轨道约束、燃料约束、红蓝博弈),搭建数
字仿真环境3.0;
[0053]
(9)加载航天器决策模型2.0,依照红方即时奖励函数和仿真环境3.0,开展学习训练,得到航天器决策模型3.0;
[0054]
(10)利用航天器决策模型3.0,根据从环境中获得的观测量,生成航天器速度增量进行轨道控制,进而开展空间轨道博弈任务。
[0055]
优选的,所述策略网络可根据航天器观测量,自主生成航天器速度增量进而实现轨道控制,所述价值网络可根据航天器观测量,输出当前状态下可获得累积奖励的估计值。
[0056]
优选的,所述超参数包括累积奖励折扣率、学习率、批处理数据量。
[0057]
优选的,所述轨道约束为:以航天器初始轨道位置为原点,x轴方向为轨道速度方向,z轴指向地心方向,y轴垂直于轨道平面,方向由右手螺旋定则确定,建立相对轨道坐标系。航天器通过脉冲推力进行轨道控制:
[0058][0059]
式中,代表航天器k时刻的xyz三轴速度;
[0060]
[δv
x
(k) δvy(k) δvz(k)]
t
代表航天器k时刻的xyz速度增量;
[0061]
代表航天器轨道机动后的xyz三轴速度。
[0062]
航天器相对轨道动力学如下式所述:
[0063][0064]
式中,[x(k) y(k) z(k)]
t
代表航天器k时刻的xyz三轴位置;
[0065]
[x(k+1) y(k+1) z(k+1)]
t
代表航天器k+1时刻的xyz三轴位置;
[0066]
代表航天器k+1时刻的xyz三轴速度;
[0067]
n代表轨道角速度,t代表仿真步长,c
nt
和s
nt
分别为cos(nt)和sin(nt)的缩写。
[0068]
优选的,所述燃料约束为:设置航天器燃料上限,当航天器累积速度增量超过该上限时,航天器不再具备机动能力,即:
[0069][0070]
优选的,所述单方规则体为:在空间轨道博弈任务中,红方采用深度强化学习方法智能生成的决策模型开展学习训练,蓝方采用微分对策、lambert变轨方法设计的规则策略。
[0071]
优选的,所述红蓝博弈为:在空间轨道博弈任务中,红蓝双方均采用深度强化学习方法智能生成的决策模型开展左右互搏式学习训练,实现红蓝双方智能的螺旋式提升。
[0072]
优选的,所述完整信息为:航天器可实时获得其他航天器的位置、速度信息。
[0073]
优选的,所述非完整信息为:设置航天器雷达探测距离限制。当航天器与其他航天器的相对距离小于或等于雷达最大探测距离,航天器可实时获得其他航天器的位置、速度信息;当航天器与其他航天器的相对距离大于雷达最大探测距离时,航天器仅可通过光学敏感器获得其他航天器的方位信息位置与速度信息均丢失。
[0074]
实施例:
[0075]
一种面向空间轨道博弈的阶梯化智能生成方法,面向航天器a对航天器b抵近详查场景,围绕约束条件从少到多,环境/目标信息从少到多,任务复杂性从易到难的设计原则,由易到难设计训练科目一至科目三,形成系统化、规范化的空间轨道博弈智能生成流程,有效引导空间轨道博弈的智能水平逐步、稳定提升。最终获得的智能决策模型3.0,可根据从环境获得的观测量,在轨自主计算xyz三轴速度增量,成功完成对航天器b抵近相详查的任务,具体方法如下:
[0076]
(1)根据空间轨道博弈任务想定,为红方航天器a设置即时奖励函数;
[0077]
红方航天器a的即时奖励r
red
分为两部分,第一部分r
r1
为红方航天器a与蓝方航天器b的相对距离的相反数,第二部分r
r2
为红方航天器a的速度增量绝对值之和的相反数,具体为:
[0078][0079]rr2
=-(|δv
x
|+|δvy|+|δvz|)
[0080]rred
=r
r1
+r
r2
[0081]
式中,[x
r y
r zr]
t
代表红方航天器a的xyz三轴位置,[x
b y
b zb]
t
代表蓝方航天器b的xyz三轴位置,[δv
x δv
y δvz]
t
代表红方航天器a的xyz三轴速度增量。
[0082]
(2)为红方航天器a设置策略网络及价值网络;
[0083]
红方航天器a的策略网络和价值网络采用相同的网络结构。
[0084]
策略网络结构:3个隐层,第一层256个节点,第二、三层各128个节点
[0085]
价值网络结构:3个隐层,第一层256个节点,第二、三层各128个节点
[0086]
网络中间层激活函数:relu
[0087]
网络输出层激活函数:sigmoid
[0088]
relu函数的表达式为:
[0089]
y=max(0,x)
[0090]
式中,x为激活函数的输入,y为激活函数的输出,max(0,x)为取0和x中的最大值。
[0091]
sigmoid函数的表达式为:
[0092][0093]
式中,x为激活函数的输入,y为激活函数的输出,e为自然常数。
[0094]
(3)设置强化学习算法的超参数,用于辅助学习训练算法的收敛;
[0095]
设置累积奖励折扣率为0.98、学习率为0.0002、批处理数据量为128。
[0096]
(4)依据科目一的设计准则(完整信息、轨道约束、单方规则体),搭建数字仿真环境1.0;
[0097]
所述完整信息为:红方航天器a可实时获得蓝方航天器b的位置、速度信息。
[0098]
所述轨道约束为:以红方航天器a的初始轨道位置为原点,x轴方向为轨道速度方向,z轴指向地心方向,y轴垂直于轨道平面,方向由右手螺旋定则确定,建立相对轨道坐标系。航天器通过脉冲推力进行轨道控制:
[0099][0100]
式中,代表航天器k时刻的xyz三轴速度;
[0101]
[δv
x
(k) δvy(k) δvz(k)]
t
代表航天器k时刻的xyz速度增量;
[0102]
代表航天器轨道机动后的xyz三轴速度。
[0103]
航天器相对轨道动力学如下式所述:
[0104][0105]
式中,[x(k) y(k) z(k)]
t
代表航天器k时刻的xyz三轴位置;
[0106]
[x(k+1) y(k+1) z(k+1)]
t
代表航天器k+1时刻的xyz三轴位置;
[0107]
代表航天器k+1时刻的xyz三轴速度。设置红方航
天器a的初始轨道为地球同步轨道geo,轨道角速度n为7.29
×
10-5
rad/s,仿真步长t为10分钟,c
nt
和s
nt
分别为cos(nt)和sin(nt)的缩写。
[0108]
所述单方规则体为:红方航天器a采用深度强化学习方法智能生成的决策模型开展学习训练,蓝方航天器b采用微分对策、lambert变轨方法设计的规则策略。
[0109]
(5)依照红方即时奖励函数和仿真环境1.0,开展航天器智能决策模型的学习训练,得到红方航天器a的决策模型1.0;
[0110]
(6)依据科目二的设计准则(完整信息、轨道约束、燃料约束、红蓝博弈),搭建数字仿真环境2.0;
[0111]
所述燃料约束为:设置红方航天器a的燃料上限为50m/s,当红方航天器a的累积速度增量超过50m/s时,红方航天器a不再具备机动能力,即:
[0112][0113]
所述红蓝博弈为:红方航天器a和蓝方航天器b均采用深度强化学习方法智能生成的决策模型开展左右互搏式学习训练,实现红蓝双方智能的螺旋式提升。
[0114]
(7)加载决策模型1.0,依照红方即时奖励函数和仿真环境2.0,开展学习训练,得到红方航天器a的决策模型2.0;
[0115]
(8)依据科目三的设计准则(非完整信息、轨道约束、燃料约束、红蓝博弈),搭建数字仿真环境3.0;
[0116]
所述非完整信息为:设置红方航天器a雷达的最大探测距离为50km。当红方航天器a与蓝方航天器b的相对距离小于或等于50km时,航天器a可实时获得航天器b的位置、速度信息;当航天器a与航天器b的相对距离大于50km时,航天器a仅可通过光学敏感器获得航天器b的方位信息位置与速度信息均丢失。
[0117]
(9)加载决策模型2.0,依照红方即时奖励函数和仿真环境3.0,开展学习训练,得到红方航天器a的决策模型3.0;
[0118]
(10)利用决策模型3.0,红方航天器a根据从环境中获得的观测量,生成航天器速度增量进行轨道控制,对航天器b进行抵近详查任务。
[0119]
如图1所示,给出了智能生成流程的总体设计以及各科目的设计准则。
[0120]
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。
[0121]
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

技术特征:
1.一种面向空间轨道博弈的阶梯化智能生成方法,其特征在于,包括:根据空间轨道博弈任务,为红方航天器设置即时奖励函数,用于激励航天器智能决策模型生成;为红方航天器设置策略网络及价值网络;设置强化学习算法的超参数,用于辅助学习训练算法的收敛;依据科目一的设计准则,搭建第一数字仿真环境;依照红方即时奖励函数和第一仿真环境,开展航天器智能决策模型的学习训练,得到第一航天器决策模型;依据科目二的设计准则,搭建第二数字仿真环境;加载第一航天器决策模型,依照红方即时奖励函数和第二仿真环境,开展学习训练,得到第二航天器决策模型;依据科目三的设计准则,搭建第三数字仿真环境;加载第二航天器决策模型,依照红方即时奖励函数和第三数字仿真环境,开展学习训练,得到第三航天器决策模型;利用第三航天器决策模型,根据从环境中获得的观测量,生成航天器速度增量进行轨道控制,进而开展空间轨道博弈任务。2.根据权利要求1所述的阶梯化智能生成方法,其特征在于,策略网络根据航天器观测量,自主生成航天器速度增量进而实现轨道控制。3.根据权利要求1所述的阶梯化智能生成方法,其特征在于,价值网络根据航天器观测量,输出当前状态下获得累积奖励的估计值。4.根据权利要求1所述的阶梯化智能生成方法,其特征在于,超参数包括累积奖励折扣率、学习率、批处理数据量。5.根据权利要求1所述的阶梯化智能生成方法,其特征在于,科目一的设计准则包括完整信息、轨道约束、单方规则体;科目二的设计准则包括完整信息、轨道约束、燃料约束、红蓝博弈;科目三的设计准则包括非完整信息、轨道约束、燃料约束、红蓝博弈。6.根据权利要求5所述的阶梯化智能生成方法,其特征在于,轨道约束为:以航天器初始轨道位置为原点,x轴方向为轨道速度方向,z轴指向地心方向,y轴垂直于轨道平面,方向由右手螺旋定则确定,建立相对轨道坐标系;航天器通过脉冲推力进行轨道控制:式中,代表航天器k时刻的xyz三轴速度;[δv
x
(k) δv
y
(k) δv
z
(k)]
t
代表航天器k时刻的xyz速度增量;代表航天器轨道机动后的xyz三轴速度;航天器相对轨道动力学如下式所述:
式中,[x(k) y(k) z(k)]
t
代表航天器k时刻的xyz三轴位置;[x(k+1) y(k+1) z(k+1)]
t
代表航天器k+1时刻的xyz三轴位置;代表航天器k+1时刻的xyz三轴速度;n代表轨道角速度,t代表仿真步长,c
nt
和s
nt
分别为cos(nt)和sin(nt)的缩写。7.根据权利要求5所述的阶梯化智能生成方法,其特征在于,燃料约束为:设置航天器燃料上限,当航天器累积速度增量超过该上限时,航天器不再具备机动能力,即:[δv
x
(k) δv
y
(k) δv
z
(k)]
t
代表航天器k时刻的xyz速度增量。8.根据权利要求5所述的阶梯化智能生成方法,其特征在于,红蓝博弈为:在空间轨道博弈任务中,红蓝双方均采用深度强化学习方法智能生成的决策模型开展左右互搏式学习训练,实现红蓝双方智能的螺旋式提升。9.根据权利要求8所述的阶梯化智能生成方法,其特征在于,在空间轨道博弈任务中,红方采用深度强化学习方法智能生成的决策模型开展学习训练,蓝方采用微分对策、lambert变轨方法确定规则策略。10.根据权利要求5所述的阶梯化智能生成方法,其特征在于,完整信息为:航天器可实时获得其他航天器的位置、速度信息;非完整信息为:设置航天器雷达探测距离限制;当其他航天器超出雷达探测范围,航天器仅能通过光学敏感器获得其方位信息位置与速度信息均缺失。

技术总结
一种面向空间轨道博弈的阶梯化智能生成方法,包括:根据空间轨道博弈任务,为红方航天器设置即时奖励函数;为红方航天器设置策略网络及价值网络;设置强化学习算法的超参数;依据科目一的设计准则,搭建第一数字仿真环境;开展航天器智能决策模型的学习训练,得到第一航天器决策模型;搭建第二数字仿真环境;加载第一航天器决策模型,开展学习训练,得到第二航天器决策模型;依据科目三的设计准则,搭建第三数字仿真环境;加载第二航天器决策模型,得到第三航天器决策模型;利用第三航天器决策模型,根据从环境中获得的观测量,生成航天器速度增量进行轨道控制,进而开展空间轨道博弈任务。任务。任务。


技术研发人员:袁利 王英杰 汤亮 刘磊 黄煌 张聪 耿远卓 马亮
受保护的技术使用者:北京控制工程研究所
技术研发日:2022.10.26
技术公布日:2023/4/4
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐