一种基于改进Q学习的无人机航迹规划方法与流程

未命名 10-09 阅读:171 评论:0

一种基于改进q学习的无人机航迹规划方法
技术领域
1.本技术涉及无人机航迹规划技术领域,尤其涉及一种基于改进q学习的无人机航迹规划方法、装置及存储介质。


背景技术:

2.无人机作为一种新型遥感监测平台,在多个领域得到了广泛应用。其中,无人机执飞过程中飞行环境未知且复杂多变,由此需要规划无人机航迹,以确保无人机在未知复杂环境中精准执飞。
3.相关技术中,采用统群智能优化算法(例如工蜂群算法、灰狼优化算法等)进行算法设计得到无人机航迹。但是,该算法需要预先获知环境信息,无法应用于无人机航迹规划中的未知环境。或者,通过强化学习算法自主学习构建评估函数,并在与环境的不断交互中持续优化。但是,强化学习算法学习效率不高,通常需要数以百万计的重复训练才能达到较好的效果,收敛速度较慢。


技术实现要素:

4.本技术提供一种基于改进q学习的无人机航迹规划方法,以解决上述相关技术中出现的技术问题。
5.本技术第一方面实施例提出一种基于改进q学习的无人机航迹规划方法,所述方法包括:
6.通过三维网格法对无人机飞行环境进行三维环境建模,并将所述无人机飞行空间位置单元分割成相同立方体状;
7.基于所述三维环境建模,构建用于求解所述无人机路径规划的马尔科夫决策过程模型;
8.基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划;
9.将所述无人机最优航迹规划输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果。
10.可选的,所述构建用于求解所述无人机路径规划的马尔科夫决策过程模型包括:构建无人机飞行动作空间表示和奖励函数。
11.可选的,所述奖励函数,包括:
12.r(s,a,s

)=r
obstale-rt
hreat
+r
destination

13.其中,s为当前状态,s

表示执行动作a之后的下一个状态,r(s,a,s

)为所述无人机在s状态执行动作a之后到达s

的奖励,r
obstale
表示障碍奖励函数,r
threat
表示威胁奖励函数,r
destination
表示目标奖励。
14.可选的,所述改进q学习算法中包括sq表和q表;所述基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进q学习算法,得到无人机最
优航迹规划,包括:
15.获取无人机飞行的任务参数,其中,所述任务参数包括目标点和起点;
16.确定所述目标点和起点分别对应的终点状态和初始状态;
17.初始化sq表和q表,其中,所述初始化q表中,每个状态动作对应的q值初始化为零,所述初始化sq表中,每个状态的目标动作对应的q值初始化为零;
18.确定所述当前状态s
current
是否为饱和状态;
19.若确定所述s
current
不是饱和状态,则探索策略生成动作a,所述无人机通过执行动作a进入下一个状态s
next
,更新q表中的s
current
执行动作a的q值,并将所述s
current
替换所述s
next

20.若确定所述s
current
是饱和状态,则确定所述s
current
对应的目标动作,并更新sq表中所述s
current
对应的q值,结束此次轨迹训练;
21.重复上述操作,直至所述起点对应的状态为饱和状态结束训练,并将sq表中每个状态对应的目标动作确定为无人机最优航迹规划。
22.可选的,所述确定所述当前状态s
current
是否为饱和状态,包括:
23.若当前状态对应的可选执行动作中存在一个动作能够直接到达目标点,则确定所述当前状态为饱和状态;或
24.若当前状态对应的所有可选执行动作指向的下一个状态均为饱和状态,则确定所述当前状态为饱和状态。
25.可选的,所述若确定所述s
current
是饱和状态,则确定所述s
current
对应的目标动作,并更新sq表中所述s
current
对应的q值,包括:
26.若确定所述s
current
是饱和状态,则确定所述s
current
对应的所有可执行动作和所述每个可执行动作对应的q值;
27.将所述s
current
对应的所有可执行动作中q值最大对应的可执行动作,确定为所述s
current
对应的目标动作,并将所述sq表中所述s
current
对应的q值更新为目标动作对应的q值。
28.可选的,所述将所述无人机最优航迹规划输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果,包括:
29.确定所述无人机最优航迹中,所述无人机在每个状态对应的执行动作;
30.基于所述无人机飞行的任务参数,将所述无人机在每个状态对应的执行动作,输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果。
31.本技术第二方面实施例提出一种基于改进q学习的无人机航迹规划装置,所述装置包括:
32.建模模块,用于通过三维网格法对无人机飞行环境进行三维环境建模,并将所述无人机飞行空间位置单元分割成相同立方体状;
33.构建模块,用于基于所述三维环境建模,构建用于求解所述无人机路径规划的马尔科夫决策过程模型;
34.处理模块,用于基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划;
35.输出模块,用于将所述无人机最优航迹规划输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果。
36.本技术的实施例提供的技术方案至少带来以下有益效果:
37.本技术提出的基于改进q学习的无人机航迹规划方法、装置及存储介质中,包括通过三维网格法对无人机飞行环境进行三维环境建模,并将无人机飞行空间位置单元分割成相同立方体状;基于三维环境建模,构建用于求解无人机路径规划的马尔科夫决策过程模型;基于马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划;将无人机最优航迹规划输入至三维环境建模中,得到无人机最优航迹的路径仿真结果。由此,本技术中通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划的过程中,改进q学习算法减少了所需要学习的参数量,提高了学习效率,加快了算法收敛速度,从而节约资源。
38.本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
39.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
40.图1为根据本技术一个实施例提供的基于改进q学习的无人机航迹规划方法的流程示意图;
41.图2为根据本技术一个实施例提供的确认饱和状态的流程示意图;
42.图3为根据本技术一个实施例提供的基于改进q学习的无人机航迹规划装置的结构示意图。
具体实施方式
43.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
44.下面参考附图描述本技术实施例的基于改进q学习的无人机航迹规划方法及装置。
45.实施例一
46.图1为根据本技术一个实施例提供的一种基于改进q学习的无人机航迹规划方法的流程示意图,如图1所示,所述方法可以包括:
47.步骤101、通过三维网格法对无人机飞行环境进行三维环境建模,并将无人机飞行空间位置单元分割成相同立方体状。
48.其中,在本公开的实施例中,通过三维网格法对无人机飞行环境进行未知三维环境建模,将无人机飞行空间位置单元分割成相同立方体状,且无人机每个时刻只能在一个位置单元内进行飞行动作。以及,三维网格法与现有技术中的方法相同,本公开实施例在此不做赘述。
49.步骤102、基于三维环境建模,构建用于求解无人机路径规划的马尔科夫决策过程模型。
50.其中,在本公开的实施例中,获得三维环境建模后,可以基于三维环境建模,构建
用于求解无人机路径的马尔科夫决策过程模型。
51.具体地,在本公开的实施例中,构建用于求解无人机路径规划的马尔科夫决策过程模型包括:构建无人机飞行动作空间表示和奖励函数。
52.其中,在本公开的实施例中,无人机与其他自主移动机器人不同,无人机有转向约束,无法进行后方移动。基于次,无人机每个时刻在一个位置单元内进行动作可以包括:前、上、下、左、右、左上、左下、右上、右下、前上、前下、前左、前右、前上左、前下左、前上右以及前下右。以及,在本公开的实施例中,可以将序列a={a1,a2,...,a
17
}作为无人机飞行动作空间表示,以分别表示上述无人机的可执行动作。
53.以及,在本公开的实施例中,上述奖励函数可以包括:
54.r(s,a,s

)=r
obstale-r
threat
+r
destination
.
55.其中,s为当前状态,s

表示执行动作a之后的下一个状态,r(s,a,s

)为无人机在s状态执行动作a之后到达s

的奖励,r
obstale
表示障碍奖励函数,r
threat
表示威胁奖励函数,r
destination
表示目标奖励。
56.以及,在本公开的实施例中,上述r
obstale
可以表示为:
[0057][0058]
其中,在本公开的实施例中,n
obstale
表示无人机与障碍碰撞次数。以及,若无人机碰到障碍,则将障碍奖励函数赋一个负值(-100);若无人机没碰到障碍,则将障碍奖励函数赋值为0。
[0059]
进一步地,在本公开的实施例中,上述r
threat
可以表示为:
[0060][0061]
其中,在本公开的实施例中,n
threat
表示感知到的所有威胁的数量,bi表示无人机与第i个威胁的距离。具体地,当无人机距离威胁越近时,威胁奖励值r
threat
越小;当无人机距离威胁越远时,威胁奖励值r
threat
越大。
[0062]
进一步地,在本公开的实施例中,上述r
destination
可以表示为:
[0063]rdestination
=β(d
t-1-d
t
)
[0064]
其中,在本公开的实施例中,上述d
t
表示当前t时刻无人机距离目标点的距离,d
t-1
表示当前t时刻上一个t-1时刻无人机距离目标点的距离。以及,当无人机靠近目标点时,目标奖励值r
destination
就变大;当无人机远离目标点时,目标奖励值r
destination
就变小。
[0065]
以及,在本公开的实施例中,上述α与β是两个权重参数,可以根据需要进行设定。其中,若α>β,表示更注重障碍物的威胁;若α<β,表示更注重路径距离代价。
[0066]
步骤103、基于马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划。
[0067]
其中,在本公开的实施例中,现有技术中的q学习(q-learning)算法是一种无模型的时序差分强化学习算法。q学习算法中的q值函数如下式所示:
[0068]
q(s,a)=q(s,a)+ρ[r(s,a,s

)+γmaxq(s

,a

)-q(s,a)]
[0069]
其中,s为当前状态;s

表示执行动作a之后的下一个状态;ρ∈(0,1)表示学习率,
学习率ρ取值的大小直接影响了q学习算法对环境信息的掌握速度;a表示当前动作;a

表示在下一个状态s

时,无人机可执行的所有可能的动作;γ∈(0,1)为折扣因子,其γ取值的大小表示未来规划对当前策略的影响,γ值越大表示未来规划的影响越大;r(s,a,s

)表示奖励函数。q学习算法从环境中获得的反馈值会存储在一个二维表格q表中,q表的基础单元是q值,与奖励函数相同,q表同样是由(当前状态s和执行动作a)共同决定的,维度为m
×
n,其中,m为状态数量,n为动作数量。q(s,a)表示无人机在状态s下,执行动作a后从环境中获得的反馈值。当q学习算法训练完成后,可以在q表中查找对应状态的最大q值对应的动作,便可确定当前状态下的最佳动作。表1为本公开实施例提出的一种q表的示意图。
[0070][0071]
如表1所示,表1中的每行为对应状态在执行可执行动作后对应的q值。示例的,q(1,1)为无人机在s1状态下,执行动作a1后得到的q值。以及,在本公开的实施例中,在上述q学习算法在训练的过程中,可以通过采用贪婪策略ε-greedy随机选取动作实现周围环境学习,其中每个动作被选择的概率均等。智能体在搜索过程中需尽可能遍历全部环境空间,进而寻找到全局最优解,上述操作被定义为q学习算法探索操作;或者,q学习算法也可不采用随机探索,而是查询q表的值来执行动作,在不断地探索和开发过程中,q学习算法遍历所有的状态,保证对全部环境信息的学习,完成q学习算法对应的q表,以便将q表中对应状态的最大q值对应的动作确定为当前状态下的最佳动作。
[0072]
以及,在本公开的实施例中,上述传统q学习算法采用贪婪探索策略时,在贪婪探索策略训练初期,开发过多会导致不优秀的动作被不断学习,从而污染了q表,导致训练后期需要大量学习资源对其进行纠正。以及,训练后期,整个环境已经被充分探索过,后续探索为无意义,从而使得学习效率不高,收敛速度较慢。基于此,可以通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划,以提高学习效率,加快算法收敛速度,从而节约资源。
[0073]
具体地,在本公开的实施例中,上述基于马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划的方法可以包括以下步骤:
[0074]
步骤1031、获取无人机飞行的任务参数;
[0075]
其中,在本公开的实施例中,任务参数包括目标点和起点。
[0076]
步骤1032、确定目标点和起点分别对应的终点状态和初始状态;
[0077]
步骤1033、初始化sq表和q表;
[0078]
其中,在本公开的实施例中,改进q学习算法中包括sq表和q表。
[0079]
以及,在本公开的实施例中,上述sq表中将q表中对应每个状态最大值对应的动
作,作为该状态对应的唯一动作。表2为本公开实施例提出的一种sq表的示意图。
[0080][0081]
如表2所示,表2中的每行为对应状态在执行最佳动作后对应的q值。
[0082]
其中,在本公开的实施例中,上述sq表为改进后的q表,维度为m
×
1。sq表中存储的数据量比传统q学习算法中q表中的数据量大幅降低,无人机每次训练和学习所需要的时间就越短,算法整体收敛所需要的训练次数也会减少。以及,在本公开的实施例中,与传统算法不同的是改进q学习算法并不需要查询q表信息,而是查询sq表的信息。基于次,改进q学习算法所需要学习的参数量大大减少,加快了算法收敛速度,从而节约资源。
[0083]
进一步地,在本公开的实施例中,上述初始化q表中,每个状态动作对应的q值初始化为零;上述初始化sq表中,每个状态的目标动作对应的q值初始化为零。
[0084]
步骤1034、确定当前状态s
current
是否为饱和状态;
[0085]
其中,在本公开的实施例中,上述确定当前状态s
current
是否为饱和状态的方法可以包括:若当前状态对应的可选执行动作中存在一个动作能够直接到达目标点,则确定当前状态为饱和状态;或,若当前状态对应的所有可选执行动作指向的下一个状态均为饱和状态,则确定当前状态为饱和状态。
[0086]
示例的,在本公开的实施例中,图2为本公开实施例提出的一种确认饱和状态的流程示意图。如图2所示,确定飞行任务的起始点与终点分别为(1,1)与(4,4),根据上述确定饱和状态的方法,(3,4)中对应的可选执行动作中存在一个动作能够直接到达目标点(4,4),则在该次训练中将(3,4)标记为饱和状态。
[0087]
步骤1035、若确定s
current
不是饱和状态,则探索策略生成动作a,无人机通过执行动作a进入下一个状态s
next
,更新q表中的s
current
执行动作a的q值,并将s
current
替换s
next

[0088]
步骤1036、若确定s
current
是饱和状态,则确定s
current
对应的目标动作,并更新sq表中s
current
对应的q值,结束此次轨迹训练;
[0089]
其中,在本公开的实施例中,上述若确定s
current
是饱和状态,则确定s
current
对应的目标动作,并更新sq表中s
current
对应的q值的方法可以包括以下步骤:
[0090]
步骤1、若确定s
current
是饱和状态,则确定s
current
对应的所有可执行动作和每个可执行动作对应的q值;
[0091]
步骤2、将s
current
对应的所有可执行动作中q值最大对应的可执行动作,确定为s
current
对应的目标动作,并更新sq表中s
current
对应的q值。
[0092]
其中,在本公开的实施例中,上述更新sq表中s
current
对应的q值的方法具体可以包括:若sq表中s
current
对应存在q值,则比较目标动作对应的q值与当前sq表中s
current
对应q值,若目标动作对应的q值大于当前sq表中s
current
对应q值,说明目标动作比当前sq表中对应的
执行动作更优,则将sq表中s
current
对应的q值更新为目标动作对应的q值;若目标动作对应的q值小于或等于当前sq表中s
current
对应q值,说明当前sq表中对应的执行动作比目标动作更优,则将sq表中s
current
对应的q值不更新;若sq表中s
current
对应不存在q值,则直接将sq表中s
current
对应的q值更新为目标动作对应的q值。
[0093]
步骤1037、重复上述操作,直至起点对应的状态为饱和状态结束训练,并将sq表中每个状态对应的目标动作确定为无人机最优航迹规划。
[0094]
步骤104、将无人机最优航迹规划输入至所述三维环境建模中,得到无人机最优航迹的路径仿真结果。
[0095]
其中,在本公开的实施例中,上述将无人机最优航迹规划输入至三维环境建模中,得到无人机最优航迹的路径仿真结果的方法可以包括步骤:
[0096]
步骤1041、确定无人机最优航迹中,无人机在每个状态对应的执行动作;
[0097]
步骤1042、基于无人机飞行的任务参数,将无人机在每个状态对应的执行动作,输入至三维环境建模中,得到无人机最优航迹的路径仿真结果。
[0098]
综上所述,本技术提出的基于改进q学习的无人机航迹规划方法中,包括通过三维网格法对无人机飞行环境进行三维环境建模,并将无人机飞行空间位置单元分割成相同立方体状;基于三维环境建模,构建用于求解无人机路径规划的马尔科夫决策过程模型;基于马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划;将无人机最优航迹规划输入至三维环境建模中,得到无人机最优航迹的路径仿真结果。由此,本技术中通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划的过程中,改进q学习算法减少了所需要学习的参数量,提高了学习效率,加快了算法收敛速度,从而节约资源。
[0099]
图3为根据本技术一个实施例提供的一种基于改进q学习的无人机航迹规划装置的结构示意图,如图3所示,所述装置可以包括:
[0100]
建模模块301,用于通过三维网格法对无人机飞行环境进行三维环境建模,并将无人机飞行空间位置单元分割成相同立方体状;
[0101]
构建模块302,用于基于三维环境建模,构建用于求解无人机路径规划的马尔科夫决策过程模型;
[0102]
处理模块303,用于基于马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划;
[0103]
输出模块304,用于将无人机最优航迹规划输入至三维环境建模中,得到无人机最优航迹的路径仿真结果。
[0104]
综上所述,本技术提出的基于改进q学习的无人机航迹规划装置中,包括通过三维网格法对无人机飞行环境进行三维环境建模,并将无人机飞行空间位置单元分割成相同立方体状;基于三维环境建模,构建用于求解无人机路径规划的马尔科夫决策过程模型;基于马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划;将无人机最优航迹规划输入至三维环境建模中,得到无人机最优航迹的路径仿真结果。由此,本技术中通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划的过程中,改进q学习算法减少了所需要学习的参数量,提高了学习效率,加快了算法收敛速度,从而节约资源。
[0105]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0106]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
[0107]
尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。

技术特征:
1.一种基于改进q学习算法的无人机航迹规划方法,其特征在于,所述方法包括:通过三维网格法对无人机飞行环境进行三维环境建模,并将所述无人机飞行空间位置单元分割成相同立方体状;基于所述三维环境建模,构建用于求解所述无人机路径规划的马尔科夫决策过程模型;基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划;将所述无人机最优航迹规划输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果。2.根据权利要求1所述的方法,其特征在于,所述构建用于求解所述无人机路径规划的马尔科夫决策过程模型包括:构建无人机飞行动作空间表示和奖励函数。3.根据权利要求2所述的方法,其特征在于,所述奖励函数,包括:r(s,a,s

)=r
obstale-r
threat
+r
destination
;其中,s为当前状态,s

表示执行动作a之后的下一个状态,r(s,a,s

)为所述无人机在s状态执行动作a之后到达s

的奖励,r
obstale
表示障碍奖励函数,r
threat
表示威胁奖励函数,r
destination
表示目标奖励。4.根据权利要求1所述的方法,其特征在于,所述改进q学习算法中包括sq表和q表;所述基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划,包括:获取无人机飞行的任务参数,其中,所述任务参数包括目标点和起点;确定所述目标点和起点分别对应的终点状态和初始状态;初始化sq表和q表,其中,所述初始化q表中,每个状态动作对应的q值初始化为零,所述初始化sq表中,每个状态的目标动作对应的q值初始化为零;确定所述当前状态s
current
是否为饱和状态;若确定所述s
current
不是饱和状态,则探索策略生成动作a,所述无人机通过执行动作a进入下一个状态s
next
,更新q表中的s
current
执行动作a的q值,并将所述s
current
替换所述s
next
;若确定所述s
current
是饱和状态,则确定所述s
current
对应的目标动作,并更新sq表中所述s
current
对应的q值,结束此次轨迹训练;重复上述操作,直至所述起点对应的状态为饱和状态结束训练,并将sq表中每个状态对应的目标动作确定为无人机最优航迹规划。5.根据权利要求4所述的方法,其特征在于,所述确定所述当前状态s
current
是否为饱和状态,包括:若当前状态对应的可选执行动作中存在一个动作能够直接到达目标点,则确定所述当前状态为饱和状态;或若当前状态对应的所有可选执行动作指向的下一个状态均为饱和状态,则确定所述当前状态为饱和状态。6.根据权利要求4所述的方法,其特征在于,所述若确定所述s
current
是饱和状态,则确定所述s
current
对应的目标动作,并更新sq表中所述s
current
对应的q值,包括:若确定所述s
current
是饱和状态,则确定所述s
current
对应的所有可执行动作和所述每个
可执行动作对应的q值;将所述s
current
对应的所有可执行动作中q值最大对应的可执行动作,确定为所述s
current
对应的目标动作,并更新sq表中s
current
对应的q值。7.根据权利要求1所述的方法,其特征在于,所述将所述无人机最优航迹规划输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果,包括:确定所述无人机最优航迹中,所述无人机在每个状态对应的执行动作;基于所述无人机飞行的任务参数,将所述无人机在每个状态对应的执行动作,输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果。8.一种基于改进q学习的无人机航迹规划装置,其特征在于,所述装置包括:建模模块,用于通过三维网格法对无人机飞行环境进行三维环境建模,并将所述无人机飞行空间位置单元分割成相同立方体状;构建模块,用于基于所述三维环境建模,构建用于求解所述无人机路径规划的马尔科夫决策过程模型;处理模块,用于基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进q学习算法,得到无人机最优航迹规划;输出模块,用于将所述无人机最优航迹规划输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果。9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,能够实现如权利要求1-7中任一所述的方法。10.一种计算机存储介质,其中,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,能够实现权利要求1-7中任一所述的方法。

技术总结
本申请提出的基于改进Q学习的无人机航迹规划方法、装置及存储介质中,包括通过三维网格法对无人机飞行环境进行三维环境建模,并将无人机飞行空间位置单元分割成相同立方体状;基于三维环境建模,构建用于求解无人机路径规划的马尔科夫决策过程模型;基于马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进Q学习算法,得到无人机最优航迹规划;将无人机最优航迹规划输入至三维环境建模中,得到无人机最优航迹的路径仿真结果。由此,本申请中通过饱和状态的搜索策略和改进Q学习算法,得到无人机最优航迹规划的过程中,改进Q学习算法减少了所需要学习的参数量,提高了学习效率,加快了算法收敛速度,从而节约资源。节约资源。节约资源。


技术研发人员:杨沛豪 柴琦 兀鹏越 赵俊博 陈予伦 寇水潮 王小辉 高峰 孙梦瑶 郭新宇 薛磊 张立松 贺婷 燕云飞 李志鹏 郭昊 王劼文 高欢欢 殷悦 代本谦 李菁华
受保护的技术使用者:西安热工研究院有限公司
技术研发日:2023.06.20
技术公布日:2023/10/8
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐