车联网中基于联邦强化学习的任务调度与资源分配方法

未命名 09-10 阅读：119 评论：0

1.本发明涉及无线通信与车联网技术领域，具体涉及一种车联网中基于联邦强化学习的任务调度与资源分配方法。

背景技术：

2.车联网作为5g的应用场景之一，其支持诸多的车载应用服务，而这些服务往往需要满足低时延，高可靠性高稳定性。移动边缘计算通过将计算资源和存储资源下沉到网络边缘，实现了更低时延和更低能耗，成为一种备受关注的技术。
3.任务卸载是移动边缘计算重要应用场景之一，通过向移动端应用提供计算服务以提高车联网应用群的服务质量。车载应用程序本质上是由若干相互依赖的子任务构成，例如部署在车辆中的导航应用程序，由检索终点、读取用户位置、加载地图、读取交通条件与分析备选路径这几个子任务组成，且各子任务都具有一定的依赖关系，通常这种依赖关系以有向无环图来描述。对比于二进制卸载，考虑任务的更细粒度卸载，将拆分后的各任务卸载至各边缘服务器或本地并行的运行，理论上可以进一步降低任务时延，然而子任务间存在依赖关系，同时子任务在可计算单元间迁移需要迁移成本，车联网的高效运行有赖于车联网系统内高效的卸载调度决策与合理的资源分配。
4.深度强化学习已被广泛作为边缘计算领域中。在现有的大多数研究中，车联网环境下的任务卸载通常为传统的单智能体的集中式算法(single dqn等)，存在维数爆炸与可扩展性差的不足，或半分布式(分布式决策，集中式评判)的多智能体强化学习(如maddpg等)，存在隐私泄露的风险，难以在高动态性的车联网环境中提供良好的服务质量。
5.现有技术一种基于深度强化学习的多智能设备任务卸载决策方法(cn202210362289.6)没有考虑到边缘计算任务的时效性与任务可再分割性，现有的绝大部分场景中，卸载任务都有一定的时延容忍。现有发明采用集中式训练与分布式决策的算法，在高密度用户场景下集中式训练需耗费大量通信资源，存在隐私泄露的风险。

技术实现要素：

6.为了克服现有技术中集中式单代理强化学习与半分布式的多代理强化学习算法易泄露用户数据与可扩展性差的缺点，本发明提出车联网中基于联邦强化学习的任务调度与资源分配方法，将联邦学习引入深度强化学习的离线学习环节中，采用完全分布式的算法，实现分布式的任务卸载与资源分配，避免了用户数据外泄，保护了用户的隐私，在高动态的车联网环境中具有更好的可扩展性与可行性，实现分布式任务调度与资源分配，对卸载效益最大化问题进行分布式求解。
7.本发明的目的至少通过如下技术方案之一实现。
8.车联网中基于联邦强化学习的任务调度与资源分配方法，包括以下步骤：
9.s1、构建智能车辆与基础设施通信的车联网场景，包括具有计算能力的边缘服务器与中心云服务器，以及车辆与基站的通信模型和计算模型；
10.s2、以车辆任务卸载效益最大化的优化目标，建立最优化模型；
11.s3、智能车辆端通过感知任务图模型，基于优先级评估求得任务卸载顺序；
12.s4、智能车辆端通过自身任务需求及感知边缘服务器的状态作为联邦深度强化学习网络的输入状态，以卸载决策与资源分配方案为输出动作；
13.s5、联合步骤s3、步骤s4得到任务卸载顺序、任务调度与资源分配方案，实现车联网服务质量最大化；
14.s6、通过离线梯度下降与联邦聚合训练网络，并更新目标网络权重，将多车辆智能体环境下的各车辆智能体目标网络聚合得到全局模型，再将全局模型分发至各车辆智能体。
15.进一步地，步骤s1中，建立车联网动态场景，具体如下：
16.车联网场景为高速公路以及路段上有不断行驶的车辆，其中车辆数服从基于车速的泊松分布，场景中有两个基站，其中每个基站配备有边缘服务器；
17.记车辆集合为基站集合为u为车辆总数，k为基站总数；在每一时隙，车辆u的计算任务定义为任务图其中t
max
为当前任务的时延容忍；当前任务的时延容忍；为子任务集合，也是任务图的点集，ci为第i个子任务所需算力，i为当前任务的子任务总数；个子任务所需算力，i为当前任务的子任务总数；为任务依赖集合，也是任务图的边集，任务i
′
为任务i的前驱任务，且di′
，i
为任务i
′
计算完成后需要传递给任务i的数据量，ci′
为第i
′
个子任务所需算力；
18.假定子任务已不可再分割，同时为简洁的表示任务依赖关系，定义φi为任务i的前驱结点集，且i
′
∈φi，为确保卸载的起点节点与终点节点唯一，添加虚拟起点任务为入度为0的节点的前驱结点，添加虚拟终点任务为出度为0的节点的后继节点，且c0＝0，ci＝0。
19.进一步地，建立车辆与基站的通信模型包括基于3gpp tr 36.885的无线信道模型，具体如下：
20.车辆u与所在范围内的基站通信的信道增益h
u，k
考虑大尺度和小尺度衰落，表示为：
[0021][0022]
其中a为路径衰落参数；μu为车辆u的衰落系数，服从均值为1的独立复指数分布；βu为车辆u的阴影衰落，服从具有标准偏差的对数正态分布；l
u，k
表示车辆u与基站k的距离，γ为衰减指数；
[0023]
车辆与基站的无线通信基于正交频分多址，车辆u与基站k的带宽由连接至当前基站下所有需要上行的车辆均分，上行信噪比与车辆上行发射功率、信道增益成正比，车辆u与基站k的上行速率为根据香农公式得：
[0024][0025]
上式中，pu为车辆u的上行发射功率，b为基站的总带宽，h
u，k
为车辆u与基站k的信道增益，σ2为高斯白噪声功率，n
up
为需要上行的车辆数，其中车辆u与基站k的上行信噪比需满足：
[0026][0027]
上式中γ
th
为噪声门限；当上行信噪比低于噪声门限时，任务卸载失败；
[0028]
定义车辆u与基站k的下行速率
[0029][0030]
上式中，pk为基站下行发射功率，n
do
为需要下行的车辆数。
[0031]
进一步地，建立车辆与基站的计算模型包括：定义a
u，k，i
为0-1二进制的车辆卸载指示变量，a
u，k，i
＝1即车辆u的子任务i将任务卸载至基站k对应的边缘服务器，a
u，0，i
为车辆u的子任务i的本地计算指示变量，a
u，0，i
＝1即当前时隙车辆u的子任务i的计算任务为本地计算，且虚拟起点任务与虚拟终点任务卸载决策指定为车辆本身，即a
u，0，0
＝1，a
u，0，i
＝1；
[0032]
针对车辆请求接入边缘端以进行任务卸载时，车辆根据自身的任务情况以及感知边缘端的信息向边缘端请求计算资源，令边缘服务器的计算资源为f
mec
，为计算时延，得：
[0033][0034]
其中ci为计算子任务i所需算力，每个边缘服务器有各自的先入先出任务等待队列，当边缘服务器未空闲时，任务按进入队列时间依次等待，若对于任务i，车辆u选择本地计算：
[0035][0036]
其中，为车辆的计算能力，为计算时延；
[0037]
若当前子任务的任务卸载地点与其某一前驱任务的卸载地点不同，则发生任务迁移：定义任务迁移的速率其中子任务当前在基站k对应的边缘服务器作任务卸载：
[0038][0039]
其中k
′
为子任务i
′
对应的基站，k
′
为0则在车辆u本地卸载，r
′
为光纤传输速率，为基站集合，与分别为上行与下行速率，对于车辆u的子任务i，定义子任务开始累计时延为任务i开始计算时的时隙，其中由任务依赖的性质可知，其子任务开始累计时延必定大于其所有前驱任务的开始累计时延：
[0040][0041]
上式中，为前驱任务的开始累计时延，φi为任务i的前驱结点集；
[0042]
定义车辆u的子任务i
′
计算完成后将数据迁移至子任务i的任务调度时延
[0043][0044]
其中k、k
′
分别为子任务i、i
′
对应的基站，当k为0时，表示为本地卸载；di′i为任务i
′
计算完成后需要传递给任务i的数据量；为任务迁移的速率；考虑到前驱任务的计算时延、任务迁移时延，应满足：
[0045][0046][0047]
其中，为子任务i的开始计算累计时延，为子任务i的前驱任务i
′
的开始计算累计时延，为子任务i
′
的计算时延，为任务调度时延，为子任务开始累计时延，a
u，k，i
为0-1二进制的车辆卸载指示变量，k为基站总数；上式表示考虑若前驱卸载地点与当前卸载地点一致，则当前任务的开始累计时延应大于前驱任务开始累计时延与计算时延之和，若不一致，则当前任务的开始累计时延应大于前驱任务开始累计时延、计算时延与任务迁移时延之和；
[0048]
对于任务图task，当确定卸载决策矩阵{a
u，k，i
}
k*i
以及发射功率矩阵{p
u，i
}
i*1
时，p
u，i
为车辆发射功率，i为当前任务的子任务总数，定义二进制任务卸载决策顺序指示变量x
u，i，r
，当x
u，i，r
＝1时，车辆u的任务i为第r个进行任务卸载，任务调度指示变量需要满足：
[0049][0050][0051]
x
u，i
′
，r
为任务i
′
的卸载决策顺序指示变量，r为小于任务数的正整数。
[0052]
进一步地，步骤s2中，以车辆任务卸载效益最大化的优化目标，建立最优化模型，具体如下：
[0053]
定义车辆u的任务卸载总时延τu为所有任务完成后累计时延的最大值：
[0054][0055]
上式中max(
·
)为最大值计算函数，分别为子任务0到i的开始计算累计时延，虚拟终点任务的开始累计时延即为整个任务的总时延：
[0056][0057]
对于任务图task，整个任务的总能耗包括所有子任务的上行能耗与本地计算能耗，定义整个任务的总能耗eu：
[0058][0059]
上式中，i为当前任务的子任务总数；a
u，0，i
为车辆u的子任务i的本地计算指示变量，为车辆的计算能力，ε为能耗转换系数，ci为子任务i计算所需算力，第一项为本地计算时所需能耗；φi为任务i的前驱结点集，k为基站总数；p
u，i
为车辆发射功率，a
u，k，i
为0-1二进制的车辆卸载指示变量，a
u，0，i
′
表示子任务i
′
是否本地卸载的二进制指示变量，di′i为对应任务的数据量，为任务迁移的速率，式子第二项
表示上行时的能耗。
[0060]
进一步地，定义车联网边缘卸载的最优化模型，具体如下：
[0061]
定义任务车辆的优化效益qu为相较本地计算的提升比例，如下式所示：
[0062][0063]
其中：β1和β2为加权系数，β1+β2＝1，＝1，＝1，与分别为任务图本地计算的时延与能耗，为车辆的计算能力，ci为计算子任务i所需算力，i为当前任务的子任务总数，ε为能耗转换系数，τu与eu分别为车辆u任务卸载总时延与能耗，对于卸载失败的任务，包括上行信噪比过低及不满足时延容忍情况，记该任务的卸载效益qu＝0，定义最大化效益值的最优化问题：
[0064][0065]
其中最优化式子中：a
u，k，i
为0-1二进制的车辆卸载指示变量；p
u，i
为发射功率变量；x
u，i，r
为二进制任务卸载决策顺序指示变量，为车辆集合，为基站集合，x
u，i
′
，r
为任务i
′
的卸载决策顺序指示变量，r为小于任务数的正整数，t
max
为任务的时延容忍，p
max
为最大发射功率；限制条件中，sinr
u，k
为上行信噪比，γ
th
为噪声门限；为子任务序号集合；为子任务i的开始计算累计时延，为子任务i的前驱任务i
′
的开始计算累计时延，为子任务i
′
的计算时延，为任务调度时延；
[0066]
第一约束条件c1表示子任务已不可再分割，只能选择一个卸载对象；第二约束条件c2表示当前时隙车辆必须做出卸载决策；第三约束条件c3、第四约束条件c4表示任务排序指示变量需满足任务依赖性；第五约束条件c5表示车辆上行发射功率不能超过发射功率最大值p
max
；第六约束条件c6表示车辆任务的执行时间需小于时延容忍；第七约束条件c7表示车辆上行信噪比需大于噪声门限；第八约束条件c8表示当前子任务开始计算的条件为其前驱子任务计算完成并完成对应的任务迁移。
[0067]
进一步地，步骤s3中，智能车辆端通过感知任务图模型，基于优先级评估求得任务卸载顺序，具体如下：
[0068]
对于基于有向无环图的任务，根据以下原则设计任务顺序：
[0069]
其一、任务的卸载顺序需要满足任务依赖，即某个任务的卸载次序需要比其所有的前驱任务节点集都要靠后；
[0070]
其二、对于某个有若干个前驱子任务的节点，其开始累计时延为所有前驱子任务迁移后的累计时延最大值，根据最小化时延的目标，计算成本越大的子任务应排到较前的卸载顺序，基于优先级评估的卸载顺序策略确定最优的卸载顺序，步骤如下：
[0071]
(1)计算出度为0的任务节点的优先值，按下式计算优先值，同时更新图的出度值；
[0072]
按优先值降序排列得到卸载顺序决策，节点优先值计算方式如下式所示：
[0073][0074]
上式中：rank(i)与rank(i
′
)分别为子任务i与i
′
的优先值，ci′
为子任务i
′
所需算力，di′
，i
为任务i
′
计算完成后需要传递给任务i的数据量，φi为任务i的前驱结点集合；
[0075]
(2)重复步骤(1)直至所有节点优先值计算完毕。
[0076]
进一步地，步骤s4中，构建基于联邦深度强化学习网络的车辆智能体的输入状态，每一车辆智能体的状态su(t)表示如下：
[0077]
su(t)＝[h
u，1
(t)，...，h
u，k
(t)，tasku(t)]
[0078]
其中，tasku(t)表示为任务模型，包括各子任务的所需算力的集合、任务迁移的数据量以及时延容忍，h
u，k
(t)表示车辆u感知与基站集合建立无线连接的信道增益；
[0079]
车辆端动作包含当前时隙下，车辆需要做出的决策包括所有子任务的卸载决策与资源分配方案，因此每一车辆智能体的动作αu(t)设计表示如下：
[0080][0081]
其中，a
u，0，i
，...，a
u，k，i
表示为车辆u的子任务i是否卸载于基站k对应的边缘服务器，1为卸载，0则相反，p
u，i
表示为车辆u的子任务i的上行发射功率；i为当前任务的子任务总数；k为基站总数；
[0082]
对于车辆u的子任务i进行任务调度的奖励ru，表达式如下：
[0083][0084]
其中，qu为本次卸载决策的效益值；为判决上行信干噪比是否高于信噪门限，sinr
u，k
(t)为上行信噪比，γ
th
为信噪门限，a
u，0，i
′
表示子任务i
′
是否本地卸载的二进制指示变量，μ1为对应的定值奖励；为判断卸载时延是否满足时延容忍，为卸载总时延，t
max
(t)为任务的时延容忍；g(
·
)为在物联网领域中广泛使用的阈
值判定函数，μ2为对应的定值奖励，当上式中第一项大于0时，赋定值奖励，反之则赋值式中第一项；任务i
′
为任务i的前驱任务，φi为任务i的前驱结点集；a
u，k，i
为0-1二进制的车辆卸载指示变量；
[0085]
将联邦学习引入深度强化学习的离线学习环境中，具体形式如下：
[0086][0087]
上式中θg为聚合后的全局模型，wu为各参与聚合车辆经验回放缓存池的大小；为参与聚合的车辆集合经验回放缓存池容量之和，为车辆集合，为车辆u的目标网络参数集。
[0088]
进一步地，步骤s6中，基于离线学习与联邦学习训练各智能体网络，离线学习步骤如下：
[0089]
初始化各智能体经验回放池、目标网络权重和策略网络权重；初始化车联网场景环境，得到各智能体输入状态；策略网络根据输入状态作推理，并依据动作选择策略选择动作；动作作用于环境，得到奖励，并转移到下一状态；将当前状态转移对，包括当前状态、执行动作、奖励、下一状态存于经验回放池；从经验池小批量抽取样本对策略网络进行训练，并更新目标网络权重。
[0090]
进一步地，步骤s6中，基于离线学习与联邦学习训练各智能体网络，联邦学习步骤如下：
[0091]
各智能体通过在线学习与离线学习更新自身网络；车辆端基于自身卸载决策进行聚类；各智能体根据聚类结果将自身target net模型参数上传至聚合中心，聚合中心通过加权平均得到全局模型，并下发至各智能体，各智能体通过全局模型跟新自身网络模型参数。
[0092]
本发明与现有技术相比，具有如下优点和有益效果：
[0093]
(1)本发明公开的一种车联网中基于联邦强化学习的任务调度与资源分配方法，针对车联网环境中最大化任务卸载服务质量的优化问题，在较低时间复杂度的情况下获得了任务调度与资源分配问题的次优解；
[0094]
(2)本发明公开的一种车联网中基于联邦强化学习的任务调度与资源分配方法，实现了分布式的任务调度与资源分配，与集中式与半分布式算法相比，避免了用户数据外泄，保护了用户的隐私，具有较好的可扩展性；
[0095]
(3)本发明公开的一种车联网中基于联邦强化学习的任务调度与资源分配方法，与其他算法相比有更高的服务质量。
附图说明
[0096]
图1为本发明中公开的车联网高速公路场景示意图；
[0097]
图2为本发明实施例中公开的一种车联网中基于联邦强化学习的任务调度与资源分配方法流程图；
[0098]
图3为实施例1中不同算法收敛情况比较图；
[0099]
图4为实施例2中不同算法在车辆数不同时的时延比较图；
[0100]
图5为实施例2中不同算法在车辆数不同时的卸载效益比较图；
[0101]
图6为实施例3中不同算法在不同平均任务请求内容下的时延比较图；
[0102]
图7为实施例3中不同算法在不同平均任务请求内容下的卸载效益比较图。
具体实施方式
[0103]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0104]
实施例1
[0105]
如图2所示为本发明中一种车联网中基于联邦强化学习的任务调度与资源分配方法，基于联邦强化学习最大化车联网用户群服务质量，具体步骤包括：
[0106]
本实施例的车联网场景为如图1所示的长为两千米的六车道高速公路，路段上有不断行驶的车辆，其中车辆数服从基于车速的泊松分布，场景中有两个基站，其中每个基站配备有边缘服务器及缓存服务器。
[0107]
步骤s1、需建立车联网动态场景：
[0108]
车联网场景为高速公路以及路段上有不断行驶的车辆，其中车辆数服从基于车速的泊松分布，场景中有两个基站，其中每个基站配备有边缘服务器；
[0109]
记车辆集合为基站集合为u为车辆总数，k为基站总数；在每一时隙，车辆u的计算任务定义为任务图其中t
max
为当前任务的时延容忍；当前任务的时延容忍；为子任务集合，也是任务图的点集，ci为第i个子任务所需算力，i为当前任务的子任务总数；个子任务所需算力，i为当前任务的子任务总数；为任务依赖集合，也是任务图的边集，任务i
′
为任务i的前驱任务，且di′
，i
为任务i
′
计算完成后需要传递给任务i的数据量，ci′
为第i
′
个子任务所需算力。
[0110]
假定子任务已不可再分割，同时为简洁的表示任务依赖关系，定义φi为任务i的前驱结点集，可得i
′
∈φi。为确保卸载的起点节点与终点节点唯一，添加虚拟起点任务为入度为0的节点的前驱结点，添加虚拟终点任务为出度为0的节点的后继节点，且c0＝0，ci＝0。
[0111]
建立车辆与基站的通信模型，其中无线信道模型基于3gpp tr 36.885，具体如下：
[0112]
车辆u与所在范围内的基站通信的信道增益h
u，k
考虑大尺度和小尺度衰落，表示为：
[0113][0114]
a为路径衰落参数；μu为车辆u的衰落系数，服从均值为1的独立复指数分布；βu为车辆u的阴影衰落，服从具有标准偏差的对数正态分布；l
u，k
表示车辆u与基站k的距离，γ为衰减指数；
[0115]
车辆与基站的无线通信基于正交频分多址(ofdma)，因此车辆u与基站k的带宽由连接至当前基站下所有需要上行的车辆均分，上行信噪比与车辆上行发射功率、信道增益成正比，车辆u与基站k的上行速率为r
u，k
，根据香农公式得：
[0116][0117]
上式中，pu为车辆u的上行发射功率，b为基站的总带宽，h
u，k
为车辆u与基站k的信道增益，σ2为高斯白噪声功率，n
up
为需要上行的车辆数。其中车辆u与基站k的上行信噪比需满足：
[0118][0119]
上式中γ
th
为噪声门限，当上行信噪比低于噪声门限时，任务卸载失败；
[0120]
定义车辆u与基站k的下行速率
[0121][0122]
上式中，pk为车辆u的下行发射功率，b为基站的总带宽，h
k，u
为基站k与车辆u的信道增益，σ2为高斯白噪声功率，n
do
为需要下行的车辆数。
[0123]
建立车辆与基站的计算模型。为正确表示每个子任务的卸载决策，由于子任务已不可再分割，定义a
u，k，i
为0-1二进制的车辆卸载指示变量，a
u，k，i
＝1即车辆u的子任务i将任务卸载至基站k对应的边缘服务器，反之同理。特别地，a
u，0，i
为车辆本地计算指示变量，a
u，0，i
＝1即当前时隙车辆u的子任务i的计算任务为本地计算。且虚拟起点任务与虚拟终点任务卸载决策指定为车辆本身，即a
u，0，0
＝1，a
u，0，i
＝1。
[0124]
针对车辆请求接入边缘端以进行任务卸载时，车辆需要根据自身的任务情况以及感知边缘端的信息向边缘端请求计算资源。令边缘服务器的计算资源为f
mec
，为计算时延，可得：
[0125][0126]
其中ci为计算子任务i所需算力，f
mec
为边缘服务器的计算资源。每个边缘服务器有各自的先入先出任务等待队列，当边缘服务器未空闲时，任务按进入队列时间依次等待。特别地，若对于任务i，车辆u选择本地计算：
[0127][0128]
其中ci为计算子任务i所需算力，为车辆的计算能力。
[0129]
若当前子任务的任务卸载地点与其某一前驱任务的卸载地点不同，则发生任务迁移：定义任务迁移的速率其中子任务当前在边缘服务器k作任务卸载，k
′
为其某一前驱任务卸载的边缘服务器编号，k
′
为0则在车辆u本地卸载：
[0130][0131]
其中k
′
为子任务i
′
对应的基站，k
′
为0则在车辆u本地卸载，r
′
为光纤传输速率，为基站集合，与分别为上行与下行速率，对于车辆u的子任务i，定义子任务开始累计时延为任务i开始计算时的时隙，其中由任务依赖的性质可知，其子任
务开始累计时延必定大于其所有前驱任务的开始累计时延：
[0132][0133]
上式中，为前驱任务的开始累计时延，φi为任务i的前驱结点集。
[0134]
进一步地，定义用户u的子任务i
′
计算完成后将数据迁移至子任务i的任务调度时延：
[0135][0136]
其中k，k
′
分别为子任务i，i
′
对应的基站，特别地，当k为0时，表示为本地卸载。di′i任务i^
′
计算完成后需要传递给任务i的数据量。为任务迁移速率；考虑到前驱任务的计算时延、任务迁移时延，应满足：
[0137][0138][0139]
其中，为子任务i的开始计算累计时延，为子任务i的前驱任务i
′
的开始计算累计时延，为子任务i
′
的计算时延，为任务调度时延，为子任务开始累计时延，a
u，k，i
为0-1二进制的车辆卸载指示变量，k为基站总数；上式表示考虑若前驱卸载地点与当前卸载地点一致，则当前任务的开始累计时延应大于前驱任务开始累计时延与计算时延之和，若不一致，则当前任务的开始累计时延应大于前驱任务开始累计时延、计算时延与任务迁移时延之和；
[0140]
对于任务图task，当确定卸载决策矩阵{a
u，k，i
}
k*i
以及发射功率矩阵{p
u，i
}
i*1
时，p
u，i
为车辆发射功率，i为当前任务的子任务总数，依然无法确定任务的卸载总时延，原因在于尽管有向无环图总是存在拓扑排序，然而不同的任务调度顺序显然影响着卸载的服务质量，因此定义二进制卸载决策顺序指示变量x
u，i，r
。当x
u，i，r
＝1时，车辆u的任务i为第r个进行任务卸载。由于卸载决策顺序需要满足任务依赖性，因此任务调度指示变量需要满足：
[0141][0142][0143]
x
u，i
′
，r
为任务i
′
的卸载决策顺序指示变量，r为小于任务数的正整数。
[0144]
步骤s2、以车辆任务卸载效益最大化为优化目标，建立最优化模型，具体如下：
[0145]
定义车辆u的任务卸载总时延τu，其应为所有任务完成后累计时延的最大值：
[0146][0147]
上式中τu为任务卸载总时延，max(
·
)为最大值计算函数。分别为子任务0到i的开始计算累计时延。同时，由于前文设置了唯一的虚拟终点任务，虚拟终点任务的开始累计时延大于其他结点的任务开始累计时延，且虚拟终点任务无须计算，因此可得虚拟终点任务的开始累计时延即为整个任务的总时延：
[0148]
[0149]
上式中，为重点任务的开始累计时延。
[0150]
同样的，对于任务图task，整个任务的总能耗包括所有子任务的上行能耗与本地计算能耗，定义整个任务的总能耗eu：
[0151][0152]
上式中，i为当前任务的子任务总数；a
u，0，i
为车辆u的子任务i的本地计算指示变量，为车辆的计算能力，ε为能耗转换系数，ci为子任务i计算所需算力，第一项为本地计算时所需能耗；φi为任务i的前驱结点集，k为基站总数；p
u，i
为车辆发射功率，a
u，k，i
为0-1二进制的车辆卸载指示变量，a
u，0，i
′
表示子任务i
′
是否本地卸载的二进制指示变量，di′i为对应任务的数据量，为任务迁移的速率，式子第二项表示上行时的能耗。进一步地，优化问题具体如下：
[0153]
考虑到任务的时延容忍与车辆有限的能量储存，车载应用的服务质量与车载计算任务的时延及能耗息息相关。因此定义任务车辆的优化效益qu为相较本地计算的提升比例，如下式所示：
[0154][0155]
其中：β1和β2为加权系数，β1+β2＝1，，＝1，，与分别为任务图本地计算的时延与能耗，为车辆的计算能力，ci为计算子任务i所需算力，i为当前任务的子任务总数，ε为能耗转换系数，τu与eu分别为车辆u任务卸载总时延与能耗，对于卸载失败的任务，包括上行信噪比过低及不满足时延容忍情况，记该任务的卸载效益qu＝0，定义最大化效益值的最优化问题：
[0156][0157]
其中最优化式子中：a
u，k，i
为0-1二进制的车辆卸载指示变量；p
u，i
为发射功率变量；
x
u，i，r
为二进制任务卸载决策顺序指示变量，为车辆集合，为基站集合，x
u，i
′
，r
为任务i
′
的卸载决策顺序指示变量，r为小于任务数的正整数，t
max
为任务的时延容忍，p
max
为最大发射功率；限制条件中，sinr
u，k
为上行信噪比，γ
th
为噪声门限；为子任务序号集合；为子任务i的开始计算累计时延，为子任务i的前驱任务i
′
的开始计算累计时延，为子任务i
′
的计算时延，为任务调度时延。
[0158]
第一约束条件c1表示子任务已不可再分割，只能选择一个卸载对象；第二约束条件c2表示当前时隙车辆必须做出卸载决策；第三约束条件c3、第四约束条件c4表示任务排序指示变量需满足任务依赖性；第五约束条件c5表示车辆上行发射功率不能超过发射功率最大值p
max
；第六约束条件c6表示车辆任务的执行时间需小于时延容忍；第七约束条件c7表示车辆上行信噪比需大于噪声门限；第八约束条件c8表示当前子任务开始计算的条件为其前驱子任务计算完成并完成对应的任务迁移。
[0159]
步骤s3、智能车辆端通过感知任务图模型，基于优先级评估求得任务卸载顺序，具体如下：
[0160]
对于基于有向无环图的任务，根据以下原则设计任务顺序：
[0161]
其一、任务的卸载顺序需要满足任务依赖，即某个任务的卸载次序需要比其所有的前驱任务节点集都要靠后；
[0162]
其二、对于某个有若干个前驱子任务的节点，其开始累计时延为所有前驱子任务迁移后的累计时延最大值，根据最小化时延的目标，计算成本越大的子任务应排到较前的卸载顺序，基于优先级评估的卸载顺序策略确定最优的卸载顺序，步骤如下：
[0163]
(1)计算出度为0的任务节点的优先值，按下式计算优先值，同时更新图的出度值；
[0164]
按优先值降序排列得到卸载顺序决策，节点优先值计算方式如下式所示：
[0165][0166]
上式中：rank(i)与rank(i
′
)分别为子任务i与i
′
的优先值，ci′
为子任务i
′
所需算力，di′
，i
为任务i
′
计算完成后需要传递给任务i的数据量，φi为任务i的前驱结点集合；
[0167]
(2)重复步骤(1)直至所有节点优先值计算完毕。
[0168]
步骤s4、构建基于联邦深度强化学习网络的车辆智能体的输入状态，每一车辆智能体的状态表示如下：
[0169]
su(t)＝[h
u，1
(t)，...，h
u，k
(t)，tasku(t)]
[0170]
其中，tasku(t)表示为任务模型，包括各子任务的所需算力的集合、任务迁移的数据量以及时延容忍，h
u，1
，...，h
u，k
(t)表示车辆u感知与基站集建立无线连接的信道增益。
[0171]
车辆端动作的设计需要包含当前时隙下，车辆需要做出的决策，包括所有子任务的卸载决策与资源分配方案。因此每一车辆智能体的动作αu(t)设计表示如下：
[0172][0173]
其中，a
u，0，i
，...，a
u，k，i
表示为车辆u的子任务i是否卸载于基站k对应的边缘服务器，1为卸载，0则相反，a
u，0，i
表示为车辆u是否决定本地计算，p
u，i
表示为车辆u的子任务i的
上行发射功率；
[0174]
s5、联合步骤s3、步骤s4得到任务卸载顺序、任务调度与资源分配方案，实现车联网服务质量最大化；每一车辆智能体的奖励函数设计如下：
[0175]
奖励函数是车辆端智能体离线训练梯度下降的重要指导依据。结合最优化问题，为实现最大化效益函数，奖励函数须与效益函数建立合理的势能关系，即当前任务卸载的预期时延能耗加权和越低，则奖励越高。再者，针对车联网中资源有限的约束条件，奖励函数的设计还需考虑对不满足时延容忍及通信可靠性较低的惩罚。
[0176]
根据以上分析，对于车辆u的子任务i进行任务调度的奖励ru，表达式如下：
[0177][0178]
其中，qu为本次卸载决策的效益值；为判决上行信干噪比是否高于信噪门限，sinr
u，k
(t)为上行信噪比，γ
th
为信噪门限；a
u，0，i
′
表示子任务i
′
是否本地卸载的二进制指示变量，1为是，0为否，其他二进制指示变量同理；μ1为对应的定值奖励；为判断卸载时延是否满足时延容忍，为卸载总时延，t
max
(t)为任务的时延容忍，g(
·
)为在物联网领域中广泛使用的阈值判定函数，μ2为对应的定值奖励；当上式中第一项大于0时，赋定值奖励，反之则赋值式中第一项；任务i
′
为任务i的前驱任务，φi为任务i的前驱结点集；a
u，k，i
为0-1二进制的车辆卸载指示变量；
[0179]
显然，最优化问题为多智能体决策问题，从最大化任务效益的角度上看，每个智能体都会趋向于将子任务调度至边缘端，即使当前子任务时延容忍较大，而使得后面的时延容忍较小的子任务因为边缘端任务队列过长、计算资源不足而卸载失败，进而导致任务效用降低。因此，为综合得到最大的任务效益，需要智能体间合作得到最优的任务调度策略。为完成智能体之间的合作，将联邦学习引入深度强化学习的离线学习环境中，具体形式如下：
[0180][0181]
上式中θg为聚合后的全局模型，wu为各参与聚合车辆经验回放缓存池的大小；为参与聚合的车辆集合经验回放缓存池容量之和，为车辆集合，为车辆u的目标网络参数集。
[0182]
步骤s6、基于离线学习与联邦学习训练各智能体网络，离线学习步骤如下：
[0183]
初始化各智能体经验回放池、目标网络权重和策略网络权重；初始化车联网场景环境，得到各智能体输入状态；策略网络根据输入状态作推理，并依据动作选择策略选择动作；动作作用于环境，得到奖励，并转移到下一状态；将当前状态转移对，包括当前状态、执行动作、奖励、下一状态存于经验回放池；从经验池小批量抽取样本对策略网络进行训练，并更新目标网络权重。
[0184]
进一步地，步骤s6中，基于离线学习与联邦学习训练各智能体网络，联邦学习步骤
如下：
[0185]
各智能体通过在线学习与离线学习更新自身网络；车辆端基于自身卸载决策进行聚类；各智能体根据聚类结果将自身target net模型参数上传至聚合中心，聚合中心通过加权平均得到全局模型，并下发至各智能体，各智能体通过全局模型跟新自身网络模型参数。表1为本例的仿真参数表。
[0186]
表1.仿真参数设置表
[0187][0188][0189]
为了说明所提方案的高效性，所提算法与现有研究的几种分布式任务调度方案进行了对比。以下介绍两种用作对比的任务卸载方案：
[0190]
基于idqn的分布式卸载方案。该方案将车辆作为智能体独立的与车联网环境交互，分布式输出卸载决策，直接将dqn扩展到多智能体环境中，不考虑任何智能体间的模型或信息交换。在仿真结果分析中记为idqn卸载方案。
[0191]
基于博弈论的卸载方案。此方案发射功率取最大值，卸载顺序基于任务的数据量预估，卸载决策通过有限次势博弈求解。为适配本章模型对所提算法有对应修改，在仿真结果分析中记为博弈论卸载方案。
[0192]
图3为不同算法收敛情况比较图。对于基于强化学习的解决方案，收敛性为讨论算法性能的前提。图4为所提算法在车辆数为30，子任务数据量均值为200kb，其他参数与仿真参数设置相同时的奖励函数与训练轮次的关系。可以看到所提方案在前50个回合奖励值迅速攀升，缓慢增长至第500个回合时，奖励趋于稳定，证明了所提的基于联邦强化学习的方案可以在动态的车联网环境中保证稳定、高效的卸载性能。同时可看出，对于未使用联邦学习的idqn方案，尽管可以通过合理的奖励值设置取得一定的奖励值，但其在将近第2000个训练轮次才趋向稳定，且奖励值的稳定性与收敛性皆比所提方案要差，证明了强化学习引入联邦学习模块应用在车联网任务卸载中的可行性与必要性。
[0193]
实施例2
[0194]
本实施例中固定任务数据量均值设置为200kb，其他参数仿真参数设置表相同。
[0195]
图3为不同车辆数下各方案的任务平均卸载时延，图4为不同车辆数下各方案的任务平均卸载效益。任务卸载的平均时延与平均卸载效益分别反映了车载应用的服务质量与边缘端对车载应用服务质量的提升程度，综合衡量了任务卸载的服务质量。由图3与图4可以看到，系统内车辆卸载时延随着车辆数增多而增大，车辆增多时，预期带宽的减少与平均等待时间的增多皆使得上行与计算时延增大。可以看到所提方案在卸载时延上与对比方案相比有较大优势。对于idqn卸载方案，在车辆数较多时，卸载时延增长的较大，因为各车辆智能体分布式的做卸载决策时无法观测其他智能体的行为，缺乏更进一步的方式分布式的实现智能体的合作。对于博弈论卸载方案，该方案只能基于当前时隙的车辆情况分析，难以提取车联网中时序特征，同时最优化问题的复杂程度也制约了此方案的性能。
[0196]
实施例3
[0197]
本实施例中车辆数设置为30，其他参数与表1相同。
[0198]
图5为不同子任务数据量均值下各方案的任务平均卸载时延，图6为不同子任务数据量均值下各方案的任务平均卸载效益。由图5与图6可以看出，子任务平均数据量增大时，上行成本增大，卸载时延增大，卸载效益较少。而具体看每个方案，idqn卸载方案，未充分考虑智能体间的合作，卸载性能有较大的损失；基于博弈论为卸载方案未考虑发射功率的优化，导致能耗较高，卸载效益较低，同时仅考虑一个优化量也导致解空间探索不足；所提方案能考虑了上行功率与卸载决策的选择，并考虑了智能体间的合作，能保持更好的卸载效益。
[0199]
上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

技术特征：
1.车联网中基于联邦强化学习的任务调度与资源分配方法，其特征在于，包括以下步骤：s1、构建智能车辆与基础设施通信的车联网场景，包括具有计算能力的边缘服务器与中心云服务器，以及车辆与基站的通信模型和计算模型；s2、以车辆任务卸载效益最大化的优化目标，建立最优化模型；s3、智能车辆端通过感知任务图模型，基于优先级评估求得任务卸载顺序；s4、智能车辆端通过自身任务需求及感知边缘服务器的状态作为联邦深度强化学习网络的输入状态，以卸载决策与资源分配方案为输出动作；s5、联合步骤s3、步骤s4得到任务卸载顺序、任务调度与资源分配方案，实现车联网服务质量最大化；s6、通过离线梯度下降与联邦聚合训练网络，并更新目标网络权重，将多车辆智能体环境下的各车辆智能体目标网络聚合得到全局模型，再将全局模型分发至各车辆智能体。2.根据权利要求1所述的车联网中基于联邦强化学习的任务调度与资源分配方法，其特征在于，步骤s1中，建立车联网动态场景，具体如下：车联网场景为高速公路以及路段上有不断行驶的车辆，其中车辆数服从基于车速的泊松分布，场景中有两个基站，其中每个基站配备有边缘服务器；记车辆集合为基站集合为u为车辆总数，k为基站总数；在每一时隙，车辆u的计算任务定义为任务图其中t
max
为当前任务的时延容忍；任务的时延容忍；为子任务集合，也是任务图的点集，c
i
为第i个子任务所需算力，i为当前任务的子任务总数；任务所需算力，i为当前任务的子任务总数；为任务依赖集合，也是任务图的边集，任务i
′
为任务i的前驱任务，且d
i
′
,i
为任务i
′
计算完成后需要传递给任务i的数据量，c
i
′
为第i
′
个子任务所需算力；假定子任务已不可再分割，同时为简洁的表示任务依赖关系，定义φ
i
为任务i的前驱结点集，且i
′
∈φ
i
，为确保卸载的起点节点与终点节点唯一，添加虚拟起点任务为入度为0的节点的前驱结点，添加虚拟终点任务为出度为0的节点的后继节点，且c0＝0，c
i
＝0。3.根据权利要求1所述的车联网中基于联邦强化学习的任务调度与资源分配方法，其特征在于，建立车辆与基站的通信模型包括基于3gpp tr 36.885的无线信道模型，具体如下：车辆u与所在范围内的基站通信的信道增益h
u,k
考虑大尺度和小尺度衰落，表示为：其中a为路径衰落参数；μ
u
为车辆u的衰落系数，服从均值为1的独立复指数分布；β
u
为车辆u的阴影衰落，服从具有标准偏差的对数正态分布；l
u,k
表示车辆u与基站k的距离，γ为衰减指数；车辆与基站的无线通信基于正交频分多址，车辆u与基站k的带宽由连接至当前基站下所有需要上行的车辆均分，上行信噪比与车辆上行发射功率、信道增益成正比，车辆u与基站k的上行速率为根据香农公式得：
上式中，p
u
为车辆u的上行发射功率，b为基站的总带宽，h
u,k
为车辆u与基站k的信道增益，
′2为高斯白噪声功率，n
up
为需要上行的车辆数，其中车辆u与基站k的上行信噪比需满足：上式中γ
th
为噪声门限；当上行信噪比低于噪声门限时，任务卸载失败；定义车辆u与基站k的下行速率定义车辆u与基站k的下行速率上式中，p
k
为基站下行发射功率，n
do
为需要下行的车辆数。4.根据权利要求1所述的车联网中基于联邦强化学习的任务调度与资源分配方法，其特征在于，建立车辆与基站的计算模型包括：定义a
u,k,i
为0-1二进制的车辆卸载指示变量，a
u,k,i
＝1即车辆u的子任务i将任务卸载至基站k对应的边缘服务器，a
u,0,i
为车辆u的子任务i的本地计算指示变量，a
u,0,i
＝1即当前时隙车辆u的子任务i的计算任务为本地计算，且虚拟起点任务与虚拟终点任务卸载决策指定为车辆本身，即a
u,0,0
＝1，a
u,0,i
＝1；针对车辆请求接入边缘端以进行任务卸载时，车辆根据自身的任务情况以及感知边缘端的信息向边缘端请求计算资源，令边缘服务器的计算资源为f
mec
，为计算时延，得：其中c
i
为计算子任务i所需算力，每个边缘服务器有各自的先入先出任务等待队列，当边缘服务器未空闲时，任务按进入队列时间依次等待，若对于任务i，车辆u选择本地计算：其中，为车辆的计算能力，为计算时延；若当前子任务的任务卸载地点与其某一前驱任务的卸载地点不同，则发生任务迁移：定义任务迁移的速率其中子任务当前在基站k对应的边缘服务器作任务卸载：其中k
′
为子任务i
′
对应的基站，k
′
为0则在车辆u本地卸载，r
′
为光纤传输速率，为基站集合，与分别为上行与下行速率，对于车辆u的子任务i，定义子任务开始累计时延为任务i开始计算时的时隙，其中由任务依赖的性质可知，其子任务开始累计时延必定大于其所有前驱任务的开始累计时延：
上式中，为前驱任务的开始累计时延，φ
i
为任务i的前驱结点集；定义车辆u的子任务i
′
计算完成后将数据迁移至子任务i的任务调度时延计算完成后将数据迁移至子任务i的任务调度时延其中k、k
′
分别为子任务i、i
′
对应的基站，当k为0时，表示为本地卸载；d
i
′
i
为任务i
′
计算完成后需要传递给任务i的数据量；为任务迁移的速率；考虑到前驱任务的计算时延、任务迁移时延，应满足：应满足：其中，为子任务i的开始计算累计时延，为子任务i的前驱任务i
′
的开始计算累计时延，为子任务i
′
的计算时延，为任务调度时延，为子任务开始累计时延，a
u,k,i
为0-1二进制的车辆卸载指示变量，k为基站总数；上式表示考虑若前驱卸载地点与当前卸载地点一致，则当前任务的开始累计时延应大于前驱任务开始累计时延与计算时延之和，若不一致，则当前任务的开始累计时延应大于前驱任务开始累计时延、计算时延与任务迁移时延之和；对于任务图task，当确定卸载决策矩阵{a
u,k,i
}
k*i
以及发射功率矩阵{p
u,i
}
i*1
时，p
u,i
为车辆发射功率，i为当前任务的子任务总数，定义二进制任务卸载决策顺序指示变量x
u,i,r
，当x
u,i,r
＝1时，车辆u的任务i为第r个进行任务卸载，任务调度指示变量需要满足：＝1时，车辆u的任务i为第r个进行任务卸载，任务调度指示变量需要满足：x
u,i
′
,r
为任务i
′
的卸载决策顺序指示变量，r为小于任务数的正整数。5.根据权利要求1所述的车联网中基于联邦强化学习的任务调度与资源分配方法，其特征在于，步骤s2中，以车辆任务卸载效益最大化的优化目标，建立最优化模型，具体如下：定义车辆u的任务卸载总时延τ
u
为所有任务完成后累计时延的最大值：上式中max(
·
)为最大值计算函数，分别为子任务0到i的开始计算累计时延，虚拟终点任务的开始累计时延即为整个任务的总时延：对于任务图task，整个任务的总能耗包括所有子任务的上行能耗与本地计算能耗，定义整个任务的总能耗e
u
：
上式中，i为当前任务的子任务总数；a
u,0,i
为车辆u的子任务i的本地计算指示变量，为车辆的计算能力，ε为能耗转换系数，c
i
为子任务i计算所需算力，第一项为本地计算时所需能耗；φ
i
为任务i的前驱结点集，k为基站总数；p
u,i
为车辆发射功率，a
u,k,i
为0-1二进制的车辆卸载指示变量，a
u,0,i
′
表示子任务i
′
是否本地卸载的二进制指示变量，d
i
′
i
为对应任务的数据量，为任务迁移的速率，式子第二项表示上行时的能耗。6.根据权利要求1所述的车联网中基于联邦强化学习的任务调度与资源分配方法，其特征在于，定义车联网边缘卸载的最优化模型，具体如下：定义任务车辆的优化效益q
u
为相较本地计算的提升比例，如下式所示：其中：β1和β2为加权系数，β1+β2＝1，＝1，与分别为任务图本地计算的时延与能耗，为车辆的计算能力，c
i
为计算子任务i所需算力，i为当前任务的子任务总数，ε为能耗转换系数，τ
u
与e
u
分别为车辆u任务卸载总时延与能耗，对于卸载失败的任务，包括上行信噪比过低及不满足时延容忍情况，记该任务的卸载效益q
u
＝0，定义最大化效益值的最优化问题：＝0，定义最大化效益值的最优化问题：＝0，定义最大化效益值的最优化问题：＝0，定义最大化效益值的最优化问题：＝0，定义最大化效益值的最优化问题：＝0，定义最大化效益值的最优化问题：＝0，定义最大化效益值的最优化问题：＝0，定义最大化效益值的最优化问题：＝0，定义最大化效益值的最优化问题：其中最优化式子中：a
u,k,i
为0-1二进制的车辆卸载指示变量；p
u,i
为发射功率变量；x
u,i,r
为二进制任务卸载决策顺序指示变量，为车辆集合，为基站集合，x
u,i
′
,r
为任务i
′
的卸载决策顺序指示变量，r为小于任务数的正整数，t
max
为任务的时延容忍，p
max
为最大发射功率；限制条件中，sinr
u,k
为上行信噪比，γ
th
为噪声门限；为子任务序号集合；为子任
务i的开始计算累计时延，为子任务i的前驱任务i
′
的开始计算累计时延，为子任务i
′
的计算时延，为任务调度时延；第一约束条件c1表示子任务已不可再分割，只能选择一个卸载对象；第二约束条件c2表示当前时隙车辆必须做出卸载决策；第三约束条件c3、第四约束条件c4表示任务排序指示变量需满足任务依赖性；第五约束条件c5表示车辆上行发射功率不能超过发射功率最大值p
max
；第六约束条件c6表示车辆任务的执行时间需小于时延容忍；第七约束条件c7表示车辆上行信噪比需大于噪声门限；第八约束条件c8表示当前子任务开始计算的条件为其前驱子任务计算完成并完成对应的任务迁移。7.根据权利要求1所述的车联网中基于联邦强化学习的任务调度与资源分配方法，其特征在于，步骤s3中，智能车辆端通过感知任务图模型，基于优先级评估求得任务卸载顺序，具体如下：对于基于有向无环图的任务，根据以下原则设计任务顺序：其一、任务的卸载顺序需要满足任务依赖，即某个任务的卸载次序需要比其所有的前驱任务节点集都要靠后；其二、对于某个有若干个前驱子任务的节点，其开始累计时延为所有前驱子任务迁移后的累计时延最大值，根据最小化时延的目标，计算成本越大的子任务应排到较前的卸载顺序，基于优先级评估的卸载顺序策略确定最优的卸载顺序，步骤如下：(1)计算出度为0的任务节点的优先值，按下式计算优先值，同时更新图的出度值；按优先值降序排列得到卸载顺序决策，节点优先值计算方式如下式所示：上式中：rank(i)与rank(i
′
)分别为子任务i与i
′
的优先值，c
i
′
为子任务i
′
所需算力，d
i
′
,i
为任务i
′
计算完成后需要传递给任务i的数据量，φ
i
为任务i的前驱结点集合；(2)重复步骤(1)直至所有节点优先值计算完毕。8.根据权利要求1所述的车联网中基于联邦强化学习的任务调度与资源分配方法，其特征在于，步骤s4中，构建基于联邦深度强化学习网络的车辆智能体的输入状态，每一车辆智能体的状态s
u
(t)表示如下：s
u
(t)＝[h
u,1
(t),
…
,h
u,k
(t),task
u
(t)]其中，task
u
(t)表示为任务模型，包括各子任务的所需算力的集合、任务迁移的数据量以及时延容忍，h
u,k
(t)表示车辆u感知与基站集合建立无线连接的信道增益；车辆端动作包含当前时隙下，车辆需要做出的决策包括所有子任务的卸载决策与资源分配方案，因此每一车辆智能体的动作α
u
(t)设计表示如下：其中，a
u,0,i
,
…
,a
u,k,i
表示为车辆u的子任务i是否卸载于基站k对应的边缘服务器，1为卸载，0则相反，p
u,i
表示为车辆u的子任务i的上行发射功率；i为当前任务的子任务总数；k为基站总数；
对于车辆u的子任务i进行任务调度的奖励r
u
，表达式如下：其中，q
u
为本次卸载决策的效益值；为判决上行信干噪比是否高于信噪门限，sinr
u,k
(t)为上行信噪比，γ
th
为信噪门限，a
u,0,i
′
表示子任务i
′
是否本地卸载的二进制指示变量，μ1为对应的定值奖励；为判断卸载时延是否满足时延容忍，为卸载总时延，t
max
(t)为任务的时延容忍；g(
·
)为在物联网领域中广泛使用的阈值判定函数，μ2为对应的定值奖励，当上式中第一项大于0时，赋定值奖励，反之则赋值式中第一项；任务i
′
为任务i的前驱任务，φ
i
为任务i的前驱结点集；a
u,k,i
为0-1二进制的车辆卸载指示变量；将联邦学习引入深度强化学习的离线学习环境中，具体形式如下：上式中θ
g
为聚合后的全局模型，w
u
为各参与聚合车辆经验回放缓存池的大小；为参与聚合的车辆集合经验回放缓存池容量之和，为车辆集合，为车辆u的目标网络参数集。9.根据权利要求1所述的车联网中基于联邦强化学习的任务调度与资源分配方法，其特征在于，步骤s6中，基于离线学习与联邦学习训练各智能体网络，离线学习步骤如下：初始化各智能体经验回放池、目标网络权重和策略网络权重；初始化车联网场景环境，得到各智能体输入状态；策略网络根据输入状态作推理，并依据动作选择策略选择动作；动作作用于环境，得到奖励，并转移到下一状态；将当前状态转移对，包括当前状态、执行动作、奖励、下一状态存于经验回放池；从经验池小批量抽取样本对策略网络进行训练，并更新目标网络权重。10.根据权利要求1所述的车联网中基于联邦强化学习的任务调度与资源分配方法，其特征在于，步骤s6中，基于离线学习与联邦学习训练各智能体网络，联邦学习步骤如下：各智能体通过在线学习与离线学习更新自身网络；车辆端基于自身卸载决策进行聚类；各智能体根据聚类结果将自身target net模型参数上传至聚合中心，聚合中心通过加权平均得到全局模型，并下发至各智能体，各智能体通过全局模型跟新自身网络模型参数。

技术总结
本发明公开了车联网中基于联邦强化学习的任务调度与资源分配方法，包括以下步骤：构建智能车辆与基础设施通信的车联网场景，包括具有计算能力的基站与中心云服务器；以车辆卸载效益最大化为优化目标，建立最优化模型；车辆通过优先级评估得到任务卸载顺序；车辆通过感知车联网环境获得输入状态，以卸载策略与资源请求作为输出动作，联合得到任务卸载顺序、任务调度与资源分配策略；通过离线梯度下降与联邦聚合训练网络。本发明将联邦学习引入深度强化学习的离线学习环节中，实现分布式的任务调度与资源分配，在高动态的车联网环境中具有更好的可扩展性与可行性。更好的可扩展性与可行性。更好的可扩展性与可行性。

技术研发人员：吴焯斌胡斌杰
受保护的技术使用者：华南理工大学
技术研发日：2023.05.04
技术公布日：2023/9/7

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种高安全性的电子标签系统的制作方法 下一篇：一种运载火箭姿态控制系统的故障检测与隔离方法

车联网中基于联邦强化学习的任务调度与资源分配方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

车联网中基于联邦强化学习的任务调度与资源分配方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表