一种基于网络演算的感知业务流路径规划方法
未命名
09-12
阅读:46
评论:0

1.本发明属于无线通信技术领域,具体涉及一种基于网络演算的感知业务流路径规划方法。
背景技术:
2.无人机(uav)是一种有动力、可控制、能携带多种任务设备、可重复使用的无人驾驶航空器,在目标侦查、搜索救援、农业植保和物流运输等领域广泛应用。然而,单个无人机受限于载荷和感知范围,无法独自完成复杂任务,因此无人机应用逐渐转向多无人机集群。
3.无人集群网络是由多个具备智能和自主性的无人设备组成的网络系统,能够自主协作、通信和协调行动,实现特定任务或目标。通过个体间的协同,小型无人机构成的集群在复杂环境中展现出更强的适应性、系统鲁棒性、任务能力和工作效率。利用无人机集群进行通信环境感知可以扩大感知范围,并借助群体智能优势,预测未来演化趋势。
4.在业务传输过程中,无人机将感知到的数据回传给群首无人机,考虑到对qos的要求,业务传输需在一定时延内完成,以避免高延迟对集群控制造成误判。网络演算理论可用于分析业务传输时延,通过数学模型描述无人集群网络中的无人机节点和无线链路,推导出业务流在集群网络中的传输延迟,并为业务传输路径规划提供时延指标。
5.合理规划业务传输路径对于将无人集群的实际应用非常重要,需要设计基于ddpg的算法最小化资源使用和时延,有效提高无人集群网络的资源利用率和性能。
技术实现要素:
6.为解决上述技术问题,本发明提出了一种基于网络演算的感知业务流路径规划方法,针对无人集群网络中的业务路径选择问题,通过考虑最小化集群网络中的端到端时延以及业务传输对网络资源的使用,得到最优的业务传输路径,进一步延长无人集群工作时间,提高网络性能。
7.本发明采用的技术方案为:一种基于网络演算的感知业务流路径规划方法,具体步骤如下:
8.s1、群首无人机对感知业务建模,得到感知业务流量模型推导出感知业务到达曲线;
9.s2、分析无人机集群网络,使用网络演算理论得到网络链路时延上界计算方法,并使用时延上界计算方法计算全网链路时延上界;
10.s3、群首无人机使用深度学习ddpg算法,结合网络链路时延,得到业务传输路径选择方法,求解最优业务传输路径,输出所有业务对应的最优业务传输路径,得到最优业务传输路径集合。
11.进一步地,所述步骤s1具体如下:
12.s11、群首无人机分析无人集群网络中存在的感知业务,得到感知业务数据包间隔遵循的概率分布,并初步建立感知业务模型f(t);
13.s111、使用抓包软件提取集群网络中空口传输的业务流数据包;
14.s112、处理分析得到的数据包文件,将业务流中数据包大小、数据包时间间隔特征提取出来,求取业务流的平均速率、方差、hurst参数,依据业务流的特征参数,使用数学建模中的数据非线性拟合法建立感知业务流量模型f
′
(t);
15.s12、得到感知业务流量模型f
′
(t)后,群首无人机利用网络演算中的到达曲线相关理论,推导出感知业务的到达曲线。
16.进一步地,所述步骤s2具体如下:
17.s21、基于步骤s1得到的感知业务到达曲线,分析无人机集群网络;
18.s211、针对无人集群网络中业务对通信资源的使用,推导出无人集群网络所能提供的无线协议服务曲线;
19.s212、针对无人集群网络中中继节点对业务计算处理操作,推导出无人集群网络所能提供的计算处理服务曲线;
20.s22、利用网络演算理论,计算无人集群网络中所有链路的传输时延,再使用时延上界计算方法计算全网链路时延上界;
21.首先建立无人集群网络逻辑拓扑与数学模型,再分析无人集群网络中的所使用的无线传输协议对应的服务曲线,同时分析网络中继节点处理感知业务流时对感知业务提供的计算处理服务曲线。
22.使用网络演算中聚合定理,将无人集群网络中的通信传输服务曲线和计算处理服务曲线综合为无人集群网络提供给感知业务的一跳服务曲线;得到无人集群网络中的一跳服务曲线后,利用时延定理,得到网络中每条链路的时延上界。
23.业务确定具体的传输路径后,使用全网时延上界数据得到业务的端到端传输时延,同时,传输业务路径上的中继节点减去业务对网络资源的使用,并使用步骤s2周期性的更新全网的链路时延上界。
24.进一步地,所述步骤s3中,将求解最优业务传输路径建模为一个马尔科夫决策问题,具体如下:
25.马尔科夫决策过程(s,a,p,r)四元组中的状态空间、动作空间以及奖励函数具体如下:
26.(1)状态空间s;
27.群首无人机作为智能体对整个网络中的业务流路径做出选择,智能体在第t步下的状态定义为:
28.s
t
=[z,d,q]
[0029]
其中,z表示在t决策步中,智能体执行动作a
t
后,此时网络中的剩余通信和计算资源总量;d表示此时网络中所有链路的一跳时延,由网络演算的方法进行计算;q表示待求解的业务需求。
[0030]
(2)动作空间a;
[0031]
动作空间a中的值对应着该优化问题的一个可行解,动作空间由两部分构成,分别是针对当前回合步中,业务传输需求给出路径选择的选路部分,以及后续分配所选路径上的中继节点计算能力的部分,即优化问题中s个ai构成的数组。
[0032]
其中,表示在业务i在可选的k个路径中选择一个路径j,ai表示在选出的路径k上的中继节点上确定算力分配比例向量,动作ai对应着s中的一个业务传输所需的路径和路径上算力分配比例。
[0033]
(3)奖励函数r;
[0034]
智能体的奖励设计由两部分构成,一个是资源使用产生的奖励rs,分别由计算资源的使用和通信资源的使用构成,第二个是由业务端到端时延构成的奖励rd。
[0035]
在一个决策步t中,智能体执行动作a
t
,a
t
中确定了s中的第i个业务的路由路径中继节点算力分配向量ai,i∈s,给出奖励r
t
的定义,:
[0036][0037]
其中,表示第i个业务对应的可选路径集合,c表示为保证奖励r
t
不为负预先设定的常数项,w1和w2是两个和为1的变量,用于调整权重,资源使用产生的奖励为该奖励项由计算资源的使用和通信资源的使用构成,业务端到端时延产生的奖励为p表示惩罚。
[0038]
进一步地,所述步骤s3中,群首无人机使用深度学习ddpg算法进行训练,得到业务传输路径选择方法,具体如下:
[0039]
a1、随机初始化actor动作估计网络μ(s|θ
μ
)和critic价值估计网络q(s,a|θq),以及actor动作目标网络μ`(s|θ
μ`
)和critic价值目标q
′
(s,a|θq`),且估计网络与现实网络参数相同,设置衰减因子、软更新速率、批量梯度下降的样本集合、最大轮次、最大迭代次数、随机噪声函数、记忆库、未来奖励的贴现系数γ和目标网络更新系数τ;
[0040]
其中,θ表示待更新的网络参数。
[0041]
a2、如果当前训练轮次没有达到最大轮次,则转入步骤a3,否则转入步骤a13;
[0042]
a3、随机重排业务需求集合,并重置模拟的无人集群网络环境,生产初始化的状态s=s0;
[0043]
a4、如果当前训练回合没达到最大回合数,则转入步骤a5,否则转入步骤a2;
[0044]
a5、智能体根据当前策略和随机噪声以及状态s
t
,得到动作a
t
=μ(s
t
|θ
μ
)+noise,转入步骤a6;
[0045]
a6、群首无人机根据动作a
t
选择指定的业务路径以及中继节点分配方案;
[0046]
a7、将执行该回合动作a
t
后,网络的剩余资源总量z,使用基于网络演算的端到端时延分析方法计算得到的全网链路时延d,以及业务传输需求集合中下一个待求解的业务需求q,合并得到新状态s
t+1
;
[0047]
a8、根据当前环境的状态s
t
,计算得到奖励值r
t
,同时将经验样本(s
t
,a
t
,r
t
,s
t+1
)存入经验回放池,如果经验池已满,则转入步骤a9;否则转入步骤a3;
[0048]
a9、从经验池中随机挑选n个数据,根据这一批数据计算目标值y
t
;
[0049]yt
=r
t
+γq
′
(s
t+1
,μ
′
(μ
′
(s
t+1
|θ
μ
′
)|θq′
)
[0050]
得到所有数据的目标值后,转入步骤a10。
[0051]
a10、根据最小化损失函数来更新actor网络当前的参数,转入步骤a11;
[0052][0053]
a11、根据更新ctrtic网络当前的参数,转入步骤a12;
[0054]
其中,l表示损失梯度,yi表示所选样本输入神经网络后的输出值。
[0055]
a12、进行目标网络与当前网络的软更新,即:
[0056]
θq′
=τθq+(1-τ)θq′
[0057]
θ
μ
′
=τθ
μ
+(1-τ)θ
μ
′
[0058]
更新完网络参数后转入步骤a4。
[0059]
a13、评估本次循环求得的解a
t
和算法当前最优解若a
t
优于则令a
t
等于
[0060]
a14、输出当前场景下问题的最优解
[0061]
本发明的有益效果:本发明的方法通过群首无人机对感知业务建模推导出感知业务到达曲线,再分析无人机集群网络,使用网络演算理论得到网络链路时延上界计算方法计算全网链路时延上界,最后群首无人机使用ddpg算法求解最优业务传输路径,输出所有业务对应的最优业务传输路径,得到最优业务传输路径集合。本发明的方法使无人集群中业务传输路径选择兼顾资源消耗以及端到端时延,尽可能降低感知业务传输端到端时延的同时减少业务传输对网络资源的消耗,变相延长无人集群的工作时间,以及无人集群执行感知任务后所执行的其他任务的时效性,且引入强化学习方法,相较现有方法具有一定的泛化能力,扩展了应用领域。
附图说明
[0062]
图1为本发明的一种基于网络演算的感知业务流路径规划方法的流程图。
[0063]
图2为本发明实施例中ddpg训练流程示意图。
[0064]
图3为本发明实施例中具体场景示意图。
具体实施方式
[0065]
下面结合附图与实施例进一步说明本发明的方法。
[0066]
如图1所示,本发明的一种基于网络演算的感知业务流路径规划方法流程图,具体步骤如下:
[0067]
s1、群首无人机对感知业务建模,得到感知业务流量模型推导出感知业务到达曲线;
[0068]
s2、分析无人机集群网络,使用网络演算理论得到网络链路时延上界计算方法,并使用时延上界计算方法计算全网链路时延上界;
[0069]
s3、群首无人机使用深度学习ddpg算法,结合网络链路时延,得到业务传输路径选择方法,求解最优业务传输路径,输出所有业务对应的最优业务传输路径,得到最优业务传输路径集合。
[0070]
在本实施例中,所述步骤s1具体如下:
[0071]
s11、群首无人机分析无人集群网络中存在的感知业务,得到感知业务数据包间隔
遵循的概率分布,并初步建立感知业务模型f(t);
[0072]
s111、使用抓包软件提取集群网络中空口传输的业务流数据包;
[0073]
s112、处理分析得到的数据包文件,将业务流中数据包大小、数据包时间间隔特征提取出来,求取业务流的平均速率、方差、hurst参数,依据业务流的特征参数,使用数学建模中的数据非线性拟合法建立感知业务流量模型f
′
(t);
[0074]
s12、得到感知业务流量模型f
′
(t)后,群首无人机利用网络演算中的到达曲线相关理论,推导出感知业务的到达曲线。
[0075]
本发明的方法提出一种无人集群网络中的链路端到端时延计算方法,利用网络演算理论,将无人集群网络中无人机节点的处理能力和通信能力转化为链路的时延上界,并进一步计算出全网链路的时延,作为后续选择业务路径的重要依据。当业务路径确定后,可以使用该计算方法,快速推导出业务的端到端时延,并周期性的更新全网的链路时延上界。
[0076]
为了配合无人集群网络链路时延上界计算方法,需要对无人集群网络中的业务进行数学建模。建模完成后,才能使用网络演算理论推导出业务对应的到达曲线。
[0077]
使用抓包软件进行流量捕获后,进一步对收集到的流量特征进行拟合分析,对无人集群网络中存在的感知业务建立流量模型并加以验证,之后利用网络演算理论就可以得到对应感知业务的到达曲线。利用网络演算理论计算无人集群网络中的业务端到端传输时延,在得到业务的到达曲线后,进一步推导出网络的服务曲线,再利用网络演算中的时延定理,先推导出全网链路时延上界,再结合业务传输路径给出业务对应的端到端时延,最后,再更新全网的链路时延上界。
[0078]
在本实施例中,所述步骤s2具体如下:
[0079]
s21、基于步骤s1得到的感知业务到达曲线,分析无人机集群网络;
[0080]
s211、针对无人集群网络中业务对通信资源的使用,推导出无人集群网络所能提供的无线协议服务曲线;
[0081]
s212、针对无人集群网络中中继节点对业务计算处理操作,推导出无人集群网络所能提供的计算处理服务曲线;
[0082]
s22、利用网络演算理论,计算无人集群网络中所有链路的传输时延,再使用时延上界计算方法计算全网链路时延上界;
[0083]
首先建立无人集群网络逻辑拓扑与数学模型,再分析无人集群网络中的所使用的无线传输协议对应的服务曲线,同时分析网络中继节点处理感知业务流时对感知业务提供的计算处理服务曲线。
[0084]
使用网络演算中聚合定理,将无人集群网络中的通信传输服务曲线和计算处理服务曲线综合为无人集群网络提供给感知业务的一跳服务曲线;得到无人集群网络中的一跳服务曲线后,利用时延定理,得到网络中每条链路的时延上界。
[0085]
业务确定具体的传输路径后,使用全网时延上界数据得到业务的端到端传输时延,同时,传输业务路径上的中继节点减去业务对网络资源的使用,并使用步骤s2周期性的更新全网的链路时延上界。
[0086]
在本实施例中,所述步骤s3中,将求解最优业务传输路径建模为一个马尔科夫决策问题,具体如下:
[0087]
把要解决的优化问题建模为一个马尔科夫决策问题,并分别对马尔科夫决策过程
(s,a,p,r)四元组中的状态空间、动作空间以及奖励函数进行详细描述。
[0088]
(1)状态空间s;
[0089]
群首无人机作为智能体对整个网络中的业务流路径做出选择,智能体在第t步下的状态定义为:
[0090]st
=[z,d,q]
[0091]
其中,z表示在t决策步中,智能体执行动作a
t
后,此时网络中的剩余通信和计算资源总量;d表示此时网络中所有链路的一跳时延,由网络演算的方法进行计算;q表示待求解的业务需求,每次回合该部分经过随机重排操作保证了每个回合的业务需求轨迹都不同,避免算法陷入局部最优。这三部分构成了本实施例的状态空间。
[0092]
(2)动作空间a;
[0093]
动作空间a中的值对应着该优化问题的一个可行解,动作空间由两部分构成,分别是针对当前回合步中,业务传输需求给出路径选择的选路部分,以及后续分配所选路径上的中继节点计算能力的部分,即优化问题中s个ai构成的数组。
[0094]
其中,表示在业务i在可选的k个路径中选择一个路径j,ai表示在选出的路径k上的中继节点上确定算力分配比例向量,动作ai对应着s中的一个业务传输所需的路径和路径上算力分配比例。
[0095]
(3)奖励函数r;
[0096]
设计一个针对无人集群中业务路由问题特化的奖励函数,该奖励函数同时优化了业务传输对网络资源的消耗以及业务的端到端时延,利用该奖励函数,本发明提出智能算法可以给出一个逼近最优的业务传输路径。
[0097]
智能体的奖励设计由两部分构成,一个是资源使用产生的奖励rs,分别由计算资源的使用和通信资源的使用构成,第二个是由业务端到端时延构成的奖励rd。
[0098]
在一个决策步t中,智能体执行动作a
t
,a
t
中确定了s中的第i个业务的路由路径中继节点算力分配向量ai,i∈s,给出奖励r
t
的定义,:
[0099][0100]
其中,表示第i个业务对应的可选路径集合,c表示为保证奖励r
t
不为负预先设定的常数项,w1和w2是两个和为1的变量,用于调整权重,资源使用产生的奖励为该奖励项由计算资源的使用和通信资源的使用构成,业务端到端时延产生的奖励为p表示惩罚。
[0101]
本发明的方法提出一种基于ddpg的业务传输路径选择算法,通过引入集合随机重排操作,改进已有的业务传输路径选择算法在每次迭代时,业务传输需求输入轨迹相同的问题,避免算法由于业务传输需求的输入轨迹不变导致陷入局部最优。
[0102]
如图2所示,在本实施例中,所述步骤s3中,群首无人机使用深度学习ddpg算法进行训练,得到业务传输路径选择方法,具体如下:
[0103]
a1、随机初始化actor动作估计网络μ(s|θ
μ
)和critic价值估计网络q(s,a|θq),以及actor动作目标网络μ`(s|θ
μ`
)和critic价值目标q
′
(s,a|θq`),且估计网络与现实网络参数相同,设置衰减因子、软更新速率、批量梯度下降的样本集合、最大轮次、最大迭代次数、
随机噪声函数、记忆库、未来奖励的贴现系数γ和目标网络更新系数τ;
[0104]
其中,θ表示待更新的网络参数。
[0105]
a2、如果当前训练轮次没有达到最大轮次,则转入步骤a3,否则转入步骤a13;
[0106]
a3、随机重排业务需求集合,并重置模拟的无人集群网络环境,生产初始化的状态s=s0;
[0107]
a4、如果当前训练回合没达到最大回合数,则转入步骤a5,否则转入步骤a2;
[0108]
a5、智能体根据当前策略和随机噪声以及状态s
t
,得到动作a
t
=μ(s
t
|θ
μ
)+noise,转入步骤a6;
[0109]
a6、群首无人机根据动作a
t
选择指定的业务路径以及中继节点分配方案;
[0110]
a7、将执行该回合动作a
t
后,网络的剩余资源总量z,使用基于网络演算的端到端时延分析方法计算得到的全网链路时延d,以及业务传输需求集合中下一个待求解的业务需求q,合并得到新状态s
t+1
;
[0111]
a8、根据当前环境的状态s
t
,计算得到奖励值r
t
,同时将经验样本(s
t
,a
t
,r
t
,s
t+1
)存入经验回放池,如果经验池已满,则转入步骤a9;否则转入步骤a3;
[0112]
a9、从经验池中随机挑选n个数据,根据这一批数据计算目标值y
t
;
[0113]yt
=r
t
+γq
′
(s
t+1
,μ
′
(μ
′
(s
t+1
|θ
μ
′
)|θq′
)
[0114]
得到所有数据的目标值后,转入步骤a10。
[0115]
a10、根据最小化损失函数来更新actor网络当前的参数,转入步骤a11;
[0116][0117]
a11、根据更新ctrtic网络当前的参数,转入步骤a12;
[0118]
其中,l表示损失梯度,yi表示所选样本输入神经网络后的输出值。
[0119]
a12、进行目标网络与当前网络的软更新,即:
[0120]
θq′
=τθq+(1-τ)θq′
[0121]
θ
μ
′
=τθ
μ
+(1-τ)θ
μ
′
[0122]
更新完网络参数后转入步骤a4。
[0123]
a13、评估本次循环求得的解a
t
和算法当前最优解若a
t
优于则令a
t
等于
[0124]
a14、输出当前场景下问题的最优解
[0125]
本发明的方法中所述业务传输路径选择算法基于ddpg的优化算法,算法开始时,群首无人机会在某个决策时段的开始初始化ddpg算法中的四个网络,同时初始化经验回放缓冲区r为一个空集合,用于存储经验元组(s
t
,a
t
,r
t
,s
t+1
)。
[0126]
每一次算法中的回合开始循环的时候,使用随机重排操作打乱输入的业务传输需求集合,避免算法陷入局部最优。每一次算法的回合进行每一步迭代时,都将使用本发明的网络链路时延上界计算方法,先计算全网链路的时延上界,之后使用智能算法,针对业务传输需求选择出一条最合理的业务传输路径。最优传输路径不一定是有最小传输时延的路径,因为无人集群网络在某时刻会有多个不同业务传输需求,而每个业务传输路径的选择会影响到其他业务的传输时延。通过使用ddpg算法,来依次迭代权衡每条业务传输路径选
择对其他业务路径造成的影响,最终得到最优业务传输路径集合,并将该集合输出。
[0127]
图3为本发明实施例中具体场景示意图。
[0128]
综上,本发明的方法整体技术方案由两个部分组成,分别是业务端到端时延求解模块和业务路径求解模块。无人集群执行感知业务时,集群内的感知无人机根据被分配到的感知任务,使用机载传感器设备感知部署区域产生感知数据,并向集群群首无人机经过无人集群网络汇总。在无人集群网络传输的过程中,为了降低群首无人机最终接收数据时的压力,作为通信中继的无人机需要对其上中继的业务流提供一定的计算处理,以压缩感知业务数据,减小群首无人机最终接收到的整个集群的感知数据。群首无人机会实时收集全网的传输需求以及资源余量,利用感知业务流路径规划模块,为每条感知业务的传输选择最优传输路径和路径上中继节点提供的算力,兼顾业务传输对网络资源的使用以及业务的端到端时延。本发明的方法使无人集群中业务传输路径选择兼顾资源消耗以及端到端时延,尽可能降低感知业务传输端到端时延的同时减少业务传输对网络资源的消耗,变相延长无人集群的工作时间,以及无人集群执行感知任务后所执行的其他任务的时效性,且引入强化学习方法,相较现有方法具有一定的泛化能力,扩展了应用领域。
[0129]
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
技术特征:
1.一种基于网络演算的感知业务流路径规划方法,具体步骤如下:s1、群首无人机对感知业务建模,得到感知业务流量模型推导出感知业务到达曲线;s2、分析无人机集群网络,使用网络演算理论得到网络链路时延上界计算方法,并使用时延上界计算方法计算全网链路时延上界;s3、群首无人机使用深度学习ddpg算法,结合网络链路时延,得到业务传输路径选择方法,求解最优业务传输路径,输出所有业务对应的最优业务传输路径,得到最优业务传输路径集合。2.根据权利要求1所述的一种基于网络演算的感知业务流路径规划方法,其特征在于,所述步骤s1具体如下:s11、群首无人机分析无人集群网络中存在的感知业务,得到感知业务数据包间隔遵循的概率分布,并初步建立感知业务模型f(t);s111、使用抓包软件提取集群网络中空口传输的业务流数据包;s112、处理分析得到的数据包文件,将业务流中数据包大小、数据包时间间隔特征提取出来,求取业务流的平均速率、方差、hurst参数,依据业务流的特征参数,使用数学建模中的数据非线性拟合法建立感知业务流量模型f
′
(t);s12、得到感知业务流量模型f
′
(t)后,群首无人机利用网络演算中的到达曲线相关理论,推导出感知业务的到达曲线。3.根据权利要求1所述的一种基于网络演算的感知业务流路径规划方法,其特征在于,所述步骤s2具体如下:s21、基于步骤s1得到的感知业务到达曲线,分析无人机集群网络;s211、针对无人集群网络中业务对通信资源的使用,推导出无人集群网络所能提供的无线协议服务曲线;s212、针对无人集群网络中中继节点对业务计算处理操作,推导出无人集群网络所能提供的计算处理服务曲线;s22、利用网络演算理论,计算无人集群网络中所有链路的传输时延,再使用时延上界计算方法计算全网链路时延上界;首先建立无人集群网络逻辑拓扑与数学模型,再分析无人集群网络中的所使用的无线传输协议对应的服务曲线,同时分析网络中继节点处理感知业务流时对感知业务提供的计算处理服务曲线;使用网络演算中聚合定理,将无人集群网络中的通信传输服务曲线和计算处理服务曲线综合为无人集群网络提供给感知业务的一跳服务曲线;得到无人集群网络中的一跳服务曲线后,利用时延定理,得到网络中每条链路的时延上界;业务确定具体的传输路径后,使用全网时延上界数据得到业务的端到端传输时延,同时,传输业务路径上的中继节点减去业务对网络资源的使用,并使用步骤s2周期性的更新全网的链路时延上界。4.根据权利要求1所述的一种基于网络演算的感知业务流路径规划方法,其特征在于,所述步骤s3中,将求解最优业务传输路径建模为一个马尔科夫决策问题,具体如下:马尔科夫决策过程(s,a,p,r)四元组中的状态空间、动作空间以及奖励函数具体如下:(1)状态空间s;
群首无人机作为智能体对整个网络中的业务流路径做出选择,智能体在第t步下的状态定义为:s
t
=[z,d,q]其中,z表示在t决策步中,智能体执行动作a
t
后,此时网络中的剩余通信和计算资源总量;d表示此时网络中所有链路的一跳时延,由网络演算的方法进行计算;q表示待求解的业务需求;(2)动作空间a;动作空间a中的值对应着该优化问题的一个可行解,动作空间由两部分构成,分别是针对当前回合步中,业务传输需求给出路径选择的选路部分,以及后续分配所选路径上的中继节点计算能力的部分,即优化问题中s个a
i
构成的数组;其中,表示在业务i在可选的k个路径中选择一个路径j,a
i
表示在选出的路径k上的中继节点上确定算力分配比例向量,动作a
i
对应着s中的一个业务传输所需的路径和路径上算力分配比例;(3)奖励函数r;智能体的奖励设计由两部分构成,一个是资源使用产生的奖励r
s
,分别由计算资源的使用和通信资源的使用构成,第二个是由业务端到端时延构成的奖励r
d
;在一个决策步t中,智能体执行动作a
t
,a
t
中确定了s中的第i个业务的路由路径中继节点算力分配向量a
i
,i∈s,给出奖励r
t
的定义,:其中,表示第i个业务对应的可选路径集合,c表示为保证奖励r
t
不为负预先设定的常数项,w1和w2是两个和为1的变量,用于调整权重,资源使用产生的奖励为该奖励项由计算资源的使用和通信资源的使用构成,业务端到端时延产生的奖励为p表示惩罚。5.根据权利要求1所述的一种基于网络演算的感知业务流路径规划方法,其特征在于,所述步骤s3中,群首无人机使用深度学习ddpg算法进行训练,得到业务传输路径选择方法,具体如下:a1、随机初始化actor动作估计网络μ(s|θ
μ
)和critic价值估计网络q(s,a|θ
q
),以及actor动作目标网络μ`(s|θ
μ`
)和critic价值目标q
′
(s,a|θ
q
`),且估计网络与现实网络参数相同,设置衰减因子、软更新速率、批量梯度下降的样本集合、最大轮次、最大迭代次数、随机噪声函数、记忆库、未来奖励的贴现系数γ和目标网络更新系数τ;其中,θ表示待更新的网络参数;a2、如果当前训练轮次没有达到最大轮次,则转入步骤a3,否则转入步骤a13;a3、随机重排业务需求集合,并重置模拟的无人集群网络环境,生产初始化的状态s=s0;a4、如果当前训练回合没达到最大回合数,则转入步骤a5,否则转入步骤a2;a5、智能体根据当前策略和随机噪声以及状态s
t
,得到动作a
t
=μ(s
t
|θ
μ
)+μoise,转入步骤a6;a6、群首无人机根据动作a
t
选择指定的业务路径以及中继节点分配方案;
a7、将执行该回合动作a
t
后,网络的剩余资源总量z,使用基于网络演算的端到端时延分析方法计算得到的全网链路时延d,以及业务传输需求集合中下一个待求解的业务需求q,合并得到新状态s
t+s
;a8、根据当前环境的状态s
t
,计算得到奖励值r
t
,同时将经验样本(s
t
,a
t
,r
t
,s
t+1
)存入经验回放池,如果经验池已满,则转入步骤a9;否则转入步骤a3;a9、从经验池中随机挑选n个数据,根据这一批数据计算目标值y
t
;y
t
=r
t
+γq
′
(s
t+1
,μ
′
(μ
′
(s
t+1
|θ
μ
′
)|θ
q
′
)得到所有数据的目标值后,转入步骤a10;a10、根据最小化损失函数来更新actor网络当前的参数,转入步骤a11;a11、根据更新ctrtic网络当前的参数,转入步骤a12;其中,l表示损失梯度,y
i
表示所选样本输入神经网络后的输出值;a12、进行目标网络与当前网络的软更新,即:θ
q
′
=τθ
q
+(1-τ)θ
q
′
θ
μ
′
=τθ
μ
+(1-τ)θ
μ
′
更新完网络参数后转入步骤a4;a13、评估本次循环求得的解a
t
和算法当前最优解若a
t
优于则令a
t
等于a14、输出当前场景下问题的最优解
技术总结
本发明公开了一种基于网络演算的感知业务流路径规划方法,通过群首无人机对感知业务建模推导出感知业务到达曲线,再分析无人机集群网络,使用网络演算理论得到网络链路时延上界计算方法计算全网链路时延上界,最后群首无人机使用DDPG算法求解最优业务传输路径,输出所有业务对应的最优业务传输路径,得到最优业务传输路径集合。本发明的方法使无人集群中业务传输路径选择兼顾资源消耗以及端到端时延,尽可能降低感知业务传输端到端时延的同时减少业务传输对网络资源的消耗,变相延长无人集群的工作时间,以及无人集群执行感知任务后所执行的其他任务的时效性,且引入强化学习方法,相较现有方法具有一定的泛化能力,扩展了应用领域。应用领域。应用领域。
技术研发人员:冷甦鹏 崔浩宇 汪李峰 马崯杰
受保护的技术使用者:电子科技大学
技术研发日:2023.07.03
技术公布日:2023/9/9
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/