一种基于自适应半异步联邦学习的移动边缘网络优化方法
未命名
08-07
阅读:69
评论:0

1.本发明涉及边缘计算技术领域,尤其涉及一种基于自适应半异步联邦学习的移动边缘网络优化方法。
背景技术:
2.联邦学习(federated learning,fl)技术是指在不暴露原始数据的情况下通过大量设备训练全局模型,该技术已广泛应用于移动边缘网络。
3.在移动边缘网络中,不同的训练任务在总延迟和准确性方面有不同的偏好,例如,个性化推荐服务需要快速训练以及时适应快速的兴趣变化,而语音识别服务需要更准确的模型。然而,在移动边缘网络环境下,现有的联邦学习框架很难满足不同的训练任务偏好。移动边缘网络中有四个主要因素会影响联邦学习的总延迟和准确性:1)落后者效应:每轮的延迟总是受落后者的限制,落后者即主要由边缘设备在计算和通信能力上的异构性引起的最慢设备;2)数据异质性:不同边缘设备上的本地数据集不平衡且有偏差,这会导致精度下降;3)设备的移动性:移动设备可能滞后或断开连接,这会影响通信延迟并减慢训练过程;4)通信瓶颈:大量移动设备同时与云服务器通信,造成通信拥塞,增加通信时延。
4.现有的联邦学习方法主要分为两类:同步联邦学习和异步联邦学习。同步联邦学习方法主要通过设备选择来克服数据异构和通信瓶颈,但总延迟总是被掉队者拖慢;异步联邦学习通过异步聚合消除落后者。但是基于过时的全局模型(即陈旧的更新)训练的局部模型会毒害全局聚合,导致最终全局模型精度下降。
5.因此,针对移动边缘网络,需要提出新的更有效的优化学习方法,能克服上述缺陷。
技术实现要素:
6.本发明提供一种基于自适应半异步联邦学习的移动边缘网络优化方法,用以解决现有技术中在移动边缘网络中的学习训练方法无法平衡网络延迟和网络精度的缺陷。
7.第一方面,本发明提供一种基于自适应半异步联邦学习的移动边缘网络优化方法,包括:
8.根据云服务器、边缘基站和边缘移动设备构建基于自适应半异步联邦学习的移动边缘网络更新模型,确定所述移动边缘网络更新模型中的最大化模型精度设备集合;
9.基于所述最大化模型精度设备集合确定所述移动边缘网络更新模型的网络延迟目标值和网络精度目标值,根据所述网络延迟目标值和所述网络精度目标值建立移动边缘网络更新任务的总延迟及准确性权衡模型;
10.基于离散型软演员-评论家的深度强化学习算法,将所述总延迟及准确性权衡模型转换为具有马尔科夫决策过程的收敛优化模型;
11.通过采样统计获取所述最大化模型精度设备集合中的每个设备效用,由所述每个设备效用确定最大效用边缘移动设备数量;
12.根据所述最大效用边缘移动设备数量在所述移动边缘网络更新模型的当前全局轮次中确定模型训练状态集合,将所述模型训练状态集合输入至所述收敛优化模型,获得全局模型更新参与设备数量和陈旧容忍度;
13.根据所述全局模型更新参与设备数量和所述陈旧容忍度对所述移动边缘网络更新模型进行多轮训练,直至满足预设训练全球回合轮数后结束训练,得到边缘移动网络更新全集。
14.第二方面,本发明还提供一种基于自适应半异步联邦学习的移动边缘网络优化系统,包括:
15.构建模块,用于根据云服务器、边缘基站和边缘移动设备构建基于自适应半异步联邦学习的移动边缘网络更新模型,确定所述移动边缘网络更新模型中的最大化模型精度设备集合;
16.确定模块,用于基于所述最大化模型精度设备集合确定所述移动边缘网络更新模型的网络延迟目标值和网络精度目标值,根据所述网络延迟目标值和所述网络精度目标值建立移动边缘网络更新任务的总延迟及准确性权衡模型;
17.转换模块,用于基于离散型软演员-评论家的深度强化学习算法,将所述总延迟及准确性权衡模型转换为具有马尔科夫决策过程的收敛优化模型;
18.统计模块,用于通过采样统计获取所述最大化模型精度设备集合中的每个设备效用,由所述每个设备效用确定最大效用边缘移动设备数量;
19.处理模块,用语根据所述最大效用边缘移动设备数量在所述移动边缘网络更新模型的当前全局轮次中确定模型训练状态集合,将所述模型训练状态集合输入至所述收敛优化模型,获得全局模型更新参与设备数量和陈旧容忍度;
20.重复模块,用于根据所述全局模型更新参与设备数量和所述陈旧容忍度对所述移动边缘网络更新模型进行多轮训练,直至满足预设训练全球回合轮数后结束训练,得到边缘移动网络更新全集。
21.第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于自适应半异步联邦学习的移动边缘网络优化方法。
22.本发明提供的基于自适应半异步联邦学习的移动边缘网络优化方法,通过研究移动边缘网络在通讯资源有限、数据分布不平衡以及设备的移动性阻碍下,如何自适应地选择边缘移动设备、确定每一轮参与设备数量以及陈旧容忍度以平衡边缘连邦学习任务的模型精度和总延迟,解决延迟-精度目标函数建模平衡问题,使得延迟-精度目标值最大化。
附图说明
23.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1是本发明提供的基于自适应半异步联邦学习的移动边缘网络优化方法的流程示意图之一;
25.图2是本发明提供的基于自适应半异步联邦学习的移动边缘网络优化方法的流程示意图之二;
26.图3是本发明提供的聚合过程示意图;
27.图4是本发明提供的任务i的强化学习收敛图;
28.图5是本发明提供的任务ii的强化学习收敛图;
29.图6是本发明提供的任务iii的强化学习收敛图;
30.图7是本发明提供的总体训练框架和其他现有训练框架在不同任务下所得的延迟-精度目标值对比图;
31.图8是本发明提供的总体训练框架和其他现有训练框架在不同数据分布下所得的延迟-精度目标值对比图;
32.图9是本发明提供的任务i在不同训练框架下的延迟对比图;
33.图10是本发明提供的任务ii在不同训练框架下的延迟对比图;
34.图11是本发明提供的任务iii在不同训练框架下的延迟对比图;
35.图12是本发明提供的基于自适应半异步联邦学习的移动边缘网络优化系统的结构示意图;
36.图13是本发明提供的电子设备的结构示意图。
具体实施方式
37.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.由于在移动边缘网络中普遍采用的同步联邦学习和异步联邦学习均存在一定的局限性,为克服各自的权限,本发明基于移动边缘网络场景提出采用自适应半异步联邦学习的移动边缘网络优化方法,结合同步联邦学习和异步联邦学习的优点,实现了对移动边缘网络的模型精度和传输总延迟的平衡。
39.图1是本发明实施例提供的基于自适应半异步联邦学习的移动边缘网络优化方法的流程示意图之一,如图1所示,包括:
40.步骤100:根据云服务器、边缘基站和边缘移动设备构建基于自适应半异步联邦学习的移动边缘网络更新模型,确定所述移动边缘网络更新模型中的最大化模型精度设备集合;
41.步骤200:基于所述最大化模型精度设备集合确定所述移动边缘网络更新模型的网络延迟目标值和网络精度目标值,根据所述网络延迟目标值和所述网络精度目标值建立移动边缘网络更新任务的总延迟及准确性权衡模型;
42.步骤300:基于离散型软演员-评论家的深度强化学习算法,将所述总延迟及准确性权衡模型转换为具有马尔科夫决策过程的收敛优化模型;
43.步骤400:通过采样统计获取所述最大化模型精度设备集合中的每个设备效用,由所述每个设备效用确定最大效用边缘移动设备数量;
44.步骤500:根据所述最大效用边缘移动设备数量在所述移动边缘网络更新模型的
当前全局轮次中确定模型训练状态集合,将所述模型训练状态集合输入至所述收敛优化模型,获得全局模型更新参与设备数量和陈旧容忍度;
45.步骤600:根据所述全局模型更新参与设备数量和所述陈旧容忍度对所述移动边缘网络更新模型进行多轮训练,直至满足预设训练全球回合轮数后结束训练,得到边缘移动网络更新全集。
46.需要说明的是,本发明实施例提出一种用于平衡移动边缘网络中模型精度和总延迟的自适应半异步联邦学习框架,包括边缘基站、边缘移动设备和云服务器,每个边缘移动设备通过最近的边缘基站连接到云服务器。在移动边缘网络交互过程中,边缘设备会随机移动,与云服务器的通信需要通过最近的边缘基站进行就近转发,即不同时刻通信延迟会随机变化。
47.云服务器在每轮联邦学习全局轮次中首先在不暴露隐私的情况下根据数据质量选择s台边缘移动设备来减轻通信开销和数据异构性。选择的目标是最大限度地提高模型精度,以此为后面的平衡阶段建立精度上限。选择设备后,云服务器通过边缘基站将全局模型分发给选择的边缘移动设备并启动本地训练。之后云服务器等待mk个边缘移动设备上传本地模型进行全局聚合。然后,陈旧性超过陈旧容忍度τk的边缘移动设备将被强制同步,即用最新全局模型覆盖本地模型并更新模型版本,参与边缘移动设备的数量mk和陈旧容忍度τk由深度强化学习方法自适应确定,通过利用半异步联邦学习和深度强化学习(adaptive half-asynchronous federated learning,asfl)可以减轻落后者的影响并适应设备的移动性。
48.本发明实施例设置asfl的训练进度持续k次全球回合,在第k次全球回合中,asfl进行两阶段操作:1)设备选择阶段:云服务器首先从所有边缘设备中,总数大小为i,选择一组设备并将最新的全局模型分发给它们以开始它们的本地训练。此阶段旨在通过选择对下一轮全局训练贡献最大的设备来最大化精度,并为下一阶段建立精度上限。2)训练阶段:每个选定的设备i∈sk执行e轮局部训练。在每个时期,设备i在本地数据集上训练模型,其大小为di,并且∑
i∈idi
=d。为了自适应地平衡延迟和准确性,服务器等待前mk个设备(组成集合并且)执行全局聚合。接下来,根据陈旧容忍度τk,超过陈旧容忍度的设备都被强制同步为最新全局模型并更新模型版本。
49.根据asfl的训练过程,有三种特殊定义的设备类型:1)参与设备:参与当前全局聚合的设备(即),此处,2)异步设备:不在最新的全局模型上执行本地训练的设备,但当前的陈旧度可以容忍;3)弃用的设备:用于本地训练的初始模型版本太陈旧(即陈旧度超过τk)的设备。
50.具体地,如图2所示,本发明实施例中用于平衡移动边缘网络中模型精度和总延迟的自适应半异步联邦学习框架包括以下步骤:
51.步骤1:在边缘任务到来时,根据边缘任务的偏好建模总延迟和准确性权衡问题p1;
52.步骤2:为了适应强化学习的马尔可夫决策过程,将总延迟和准确性权衡问题p1重写为线性相加形式的建模问题p2;
53.步骤3:将问题p2而作为奖励,使用具有离散动作的软演员-评论家的深度强化学
习算法进行学习得到收敛的优化模型;
54.步骤4:在每轮训练之初,在不侵犯隐私的情况下,通过采样统计计算每个设备的效用来表征设备的数据集质量;
55.步骤5:贪婪地选择前s个效用最大地设备分发最新的全局模型并启动本地训练,以最大化模型精度;
56.步骤6:输入当前fl训练的状态,包括全局损失延迟比lok,p1的目标值ok,同步比率sok,版本方差vvk,到训练好的优化模型中得到参与设备数量mk和陈旧容忍度τk;
57.步骤7:云服务器等待前mk个设备执行全局聚合,根据陈旧容忍度τk,超过陈旧容忍度的设备都被强制同步为最新全局模型并更新模型版本;
58.步骤8:按照步骤4-7进行多轮训练,进行k轮之后结束fl训练任务。
59.本发明通过研究移动边缘网络在通讯资源有限、数据分布不平衡以及设备的移动性阻碍下,如何自适应地选择边缘移动设备、确定每一轮参与设备数量以及陈旧容忍度以平衡边缘连邦学习任务的模型精度和总延迟,解决延迟-精度目标函数建模平衡问题,使得延迟-精度目标值最大化。
60.基于上述实施例,步骤100包括:
61.由所述云服务器将最新的全局模型通过离每个边缘移动设备最近的边缘基站分发至若干个边缘移动设备,所述若干个边缘移动设备基于所述最新的全局模型执行本地模型训练,所述若干个边缘移动设备的数量小于所有边缘移动设备的数量;
62.所述若干个边缘移动设备中任一边缘移动设备执行多轮本地模型训练,获取所述任一边缘移动设备的本地数据集合大小;
63.根据所述移动边缘网络更新模型的延迟目标和准确性目标,确定所述若干个边缘移动设备中执行全局模型聚合设备数量,其中所述全局模型聚合设备数量不等于所述若干个边缘移动设备的数量。
64.总体来说,本发明实施例将联邦学习中每一轮训练分为两个阶段的操作:过程1为从当前全部空闲的设备中选择s个高质量的设备开始本地训练;过程2为云服务器通过强化学习确定参与设备数量mk和陈旧容忍度τk,之后等待前mk个设备进行异步聚合,并将陈旧度超过τk的设备进行强制同步。
65.为了进行对比,本发明实施例设置了三种边缘训练任务和三种数据分布。任务i在公开的boston housin数据集上训练一个回归模型,该模型偏好延迟,但仍然保持一定的精度要求(即α=0.1,β=0.5),任务i设置设备20个,延迟限制t
max
=2000。任务ii使用cnn模型对经典mnist数据集进行训练,该模型由两个5
×
5卷积层和2
×
2最大池组成,由于该任务对精确度有要求,所以设置关于偏好的参数α=0.07,β=0.09,设备个数100,延迟限制t
max
=5000。任务iii学习了一个svm模型,用于检测给定tcp转储数据的网络入侵。训练数据是kdd cup’99数据集的一个子集,任务iii对延迟非常敏感,它的偏好参数为α=0.5,β=0.9,设备个数500,延迟限制t
max
=8000。
66.进一步地,作为设备训练能力{gi}
i∈i
,假设它们服从λ=1.0的指数分布,表示为exp(λ),服务器带宽设置为1250,设备带宽设置在范围内[0.125,0.3]。为了清楚起见,使用高斯分布来模拟不平衡和异构的数据分布:假设局部数据大小服从高斯分布n(μ,aμ),其中μ是设备数量与数据总量之比,a表示不平衡程度:a越大,不平衡程度越大。在本发明实验
中,选择a=0.2、0.3、0.4,分别记为n2、n3、n4,并设置陈旧的衰减系数
[0067]
此外,对于本发明引入的离散型软演员-评论家的深度强化学习算法,对于深度强化学习网络中的演员actor由四层组成,分别是一个输出维度为128的输入层,一个128
×
128的中间层和两个输入维度为128的输出层;评论家ritic也是三层,但是中间层是128
×
64,输出层的输入维度为64。对应地,任务i和任务iii的学习总轮数为1000,而任务ii的学习总轮数为600。
[0068]
基于上述实施例,步骤200包括:
[0069]
根据云服务器通信带宽、全局模型副本数量和全局模型大小,确定任一轮全局轮次全局模型分发延迟,其中所述全局模型副本数量包括所述当前全局轮次中被选择边缘移动设备数量和被弃用边缘移动设备数量;
[0070]
根据边缘移动设备状态确定任一边缘移动设备在任一轮全局轮次到达延迟,由所述任一边缘移动设备在任一轮全局轮次到达延迟求最大值得到任一轮全局轮次最大到达延迟;
[0071]
基于所述任一轮全局轮次全局模型分发延迟和所述任一轮全局轮次最大到达延迟,得到任一轮全局轮次延迟;
[0072]
确定权重因子、延迟限制和全局模型预测最终精度,基于所述权重因子、所述延迟限制、所述全局模型预测最终精度、所述预设训练全球回合轮数和所述任一轮全局轮次延迟,构建延迟精度目标函数;
[0073]
由所述延迟限制、所述任一轮全局轮次延迟和所述预设训练全球回合轮数得到平均轮次延迟限制,根据所述平均轮次延迟限制将所述延迟精度目标函数转换为具有线性累积形式的所述总延迟及准确性权衡模型;
[0074]
其中,所述权重因子包括取值范围在0到1之间的第一边缘任务常数和第二边缘任务常数,若确定所述任一轮全局轮次延迟小于等于所述延迟限制,则确定所述权重因子为所述第一边缘任务常数,否则确定所述权重因子为所述第二边缘任务常数。
[0075]
其中,所述根据边缘移动设备状态确定任一边缘移动设备在任一轮全局轮次到达延迟,包括:
[0076]
若确定所述任一边缘移动设备为所述当前全局轮次中的被选择边缘移动设备或被弃用边缘移动设备,则所述任一轮全局轮次到达延迟包括计算延迟和上传延迟,其中所述计算延迟由任一边缘移动设备最小选取样本数量大小与本地训练轮次数量之积除以任一边缘移动设备训练能力所得到,所述上传延迟由模型大小除以任一边缘移动设备在任一全局轮次传输带宽所得到;
[0077]
若确定所述任一边缘移动设备为异步边缘移动设备,则所述任一轮全局轮次到达延迟由上一轮全局轮次到达延迟依次减去上一轮全局轮次最大到达延迟和当前全局轮次分布式延迟后,并与0取最大值所得到。
[0078]
具体地,在边缘任务到来时,根据边缘任务的偏好建模总延迟和准确性权衡问题p1:
[0079]
首先对第k个全局轮的延迟(表示为tk)进行建模,包括分发延迟和全局轮次k的最大到达延迟
[0080]
一、分发延迟
[0081]
表示将全局模型分发到设备的服务器端延迟。由于服务器的带宽可以支持将模型并行发送到设备,因此分发延迟仅受云服务器的通信带宽(表示为bs)和分发的全局模型副本数量影响(表示为),那么分发延迟就表示为:
[0082][0083]
在第k轮全局轮次,计算为其中s,分别表示在全球第k轮中选择的设备数量和弃用设备的数量,g是全局模型的大小。与一些过往研究相同,此处忽略了bs将全局模型发送到设备的延迟,因为单个bs转发的模型副本数量远少于云服务器。
[0084]
二、到达延迟
[0085]
第k轮全局轮次的最大到达延迟定义为定义为是设备i在第k轮全局轮次的到达延迟,定义为:
[0086][0087]
设备i在第k轮全局轮次的到达延迟分为两种情况:
[0088]
1)该设备是本轮弃用设备或新选择的设备(对应otherwise),从本轮开始训练,那么设备i的到达延迟包括计算延迟和上传延迟计算延迟定义为其中δi是设备i的mini-batch大小,e是本地训练的轮次数量,gi是设备i的训练能力,表示每秒可以处理多少数据样本。上传延迟定义为其中γ是模型大小,是设备i在第k轮全局轮次的带宽,与设备到bs的距离成反比。同样地,此处忽略了bs将本地模型发送到云服务器的延迟。
[0089]
2)设备是异步设备(对应syn):设备继续前面的过程。它在第k轮全局轮次的到达延迟是上一轮的到达延迟减去上一个全局轮的最大到达延迟和当前轮的分布式延迟因为异步设备没有必要等待分发模型阶段完成。
[0090]
因此,为了根据总延迟和模型精度对不同训练任务的异构偏好进行建模,我们采用定制的加权乘积方法来定义延迟精度目标函数p1:
[0091][0092]
其中权重因子定义为:
[0093]
[0094]
acck是最终的精度,定义为全局模型预测的正样本数占总样本数的比值。α和β是边缘任务指定的常数,代表边缘任务对超过k轮训练的延迟限制t
max
之前和之后的延迟偏好。α和β的范围在0到1之间,并且越大表示对延迟的惩罚越大,越偏好延迟少,越小表示对延迟的容忍度越高,越偏好精度高。
[0095]
进一步地,为了适应强化学习的马尔可夫决策过程,将总延迟和准确性权衡问题p1重写为线性相加形式的建模问题p2。标准的强化学习目标是最大化累积折扣奖励的期望γ是奖励的折扣因子,rk是当前轮奖励,然而,很难从权衡问题p1的函数形式转换为奖励,因为它在形式上不是类似的累积。然后将原问题p1转化为累积形式p2:
[0096][0097]
其中acck是第k个全局轮次的精度,是权重因子,定义为:
[0098][0099]
其中为平均轮延迟限制,定义为用来代替原问题p1中的延迟限制t
max
,这样将整k轮的目标值分为每一轮目标值的累计。
[0100]
基于上述实施例,步骤300包括:
[0101]
确定包括状态、动作、策略、奖励和折扣因子的马尔科夫决策过程五元组;
[0102]
所述状态包括表示当前训练精度状态的全局损失、表示上一轮全局轮次总延迟除以延迟限制的延迟比、表示上一轮全局轮次状态的目标值、表示每一轮全局轮次平均弃用移动网络设备数量的同步比率和表示上一轮全局轮次设备陈旧状态的版本方差;
[0103]
所述动作包括每一轮全局轮次中确定选择对的移动网络设备数量和滞后容忍度;
[0104]
所述奖励包括总延迟及准确性权衡模型中任一轮全局轮次模型函数;
[0105]
所述策略包括根据当前轮全局轮次状态、当前轮全局轮次动作和下一轮全局轮次状态所确定的状态转移概率函数;
[0106]
所述折扣因子为0到1范围内的衰减因子;
[0107]
构建包括一个演员和两个q网络的离散型深度强化学习框架,所述两个q网络包括q网络和目标q网络,每个q网络包括两个评论家,以所述两个评论家输出的最小值进行网络估计;
[0108]
基于所述马尔科夫决策过程五元组更新所述离散型深度强化学习框架,得到所述收敛优化模型。
[0109]
具体地,将前述实施例中的问题p2而作为奖励,使用具有离散动作的软演员-评论家的深度强化学习算法进行学习得到收敛的优化模型。
[0110]
将问题p2的建模转换为马尔可夫决策过程(markov decision process,mdp)进行后续的强化学习训练。
[0111]
马尔可夫决策过程由元组描述。这里表示时间序列的状态,表示时间序列的动作。策略函数是在给定当前动作ak和状态sk下,用于计算状态转移概率p(s
k+1
|sk,ak)。是由折扣因子γ∈[0,1]衰减的奖励序列。奖励函
数定义为状态、动作和奖励的详细信息如下所示:
[0112]
(1)状态在第k轮全局中,半异步fl环境的状态包括:1)全局损失显示当前训练精度状态。2)延迟比lok,它是前k-1次全局轮次的总延迟与延迟限制t
max
的比值,指示当前的延迟状态。3)p1的目标值ok,它表示目标值在前k-1次全局轮次中的状态。4)同步比率sok是每一轮全局轮次弃用设备的平均数量(即)。它测量全局第k轮的浪费过程状态,为第k轮被弃用设备的数量。5)版本方差vvk是平均版本方差,反映了过去k-1轮的陈旧状态(即)。因此,智能体在全局第t轮观察到的状态由向量表示。
[0113]
(2)动作一旦状态sk被观察到,云服务器(即代理)在全局第k轮确定动作ak以进行fl训练,并决定在每一轮全局中选择的设备数量mk和滞后容忍度τk。
[0114]
(3)奖励在环境采取行动ak之后,代理将获得奖励对应地,结合经典奖励函数和原问题p1的目标函数,定义全局轮次k的奖励为:直观上,当累计折扣奖励达到最大值时,原问题p1也达到最大值。
[0115]
考虑到本发明问题的连续状态和离散动作难以收敛的挑战,本发明采用为了最大化延迟精度目标值,并采用基于结合离散动作的软演员评论家的drl(soft actor critic drl,sacd)方法,它是一种基于最大熵drl框架的离线策略算法,具有样本效率高和强调探索的特点。sacd使用一种特殊的演员-评论家架构,该架构采用一个演员和两个q网络来近似策略π
θ
和q函数{q
φ
,q
′
φ
},其中两个q网络分别命名为q-network和target q-network,每个q网络都有两个评论家,以使用两个评论家网络输出中的最小值来减轻过度估计。
[0116]
在具体强化学习中,云服务器是代理,半异步fl系统是环境。在第k次全局回合中,代理从环境中观察当前状态sk,并将其输入到策略π中以获得动作ak。在这里,策略π是用θ表示参数的(比如,代理的神经网络权重)。代理采取行动后,环境会反馈一个奖励rk并发生变化。当下一个全局回合开始时,环境会将新状态s
k+1
反馈给代理。在一个经验池中将转换元组{sk,ak,rk,s
k+1
}存储在其中,用于更新其演员和评论家的网络,强化学习一直持续到演员和评论家收敛为止。
[0117]
基于上述实施例,步骤400包括:
[0118]
获取任一边缘移动设备的本地数据集合大小和样本训练损失;
[0119]
基于所述本地数据集合大小和所述样本训练损失,得到每个设备效用;
[0120]
根据每个设备效用,确定选择排名靠前预设位数的所述最大效用边缘移动设备数量。
[0121]
具体地,在每轮训练之初,在不侵犯隐私的情况下,通过采样统计计算每个设备的效用来表征设备的数据集质量。
[0122]
为了最大限度地提高模型的精度,本发明希望推导出一种设备效用,它可以通过在尊重隐私的同时有效地捕获设备数据集的数量和分布来提高模型的精度。该设置参考了
部分技术中的重要结论:累积损失较大的设备可以为提高未来回合的精度做出更多贡献。设备i的效用计算为设备效用与提高模型精度的重要性成正比,其中样本di的训练损失loss(di)在训练期间自动生成,收集的开销可忽略不计。
[0123]
得到设备效用之后,贪婪地选择前s个效用最大地设备分发最新的全局模型并启动本地训练,以最大化模型精度。
[0124]
在每一轮全局轮次中,云服务器贪婪地选择具有最大效用的前s个设备,以达到最大化精度的目标。
[0125]
基于上述实施例,步骤500包括:
[0126]
获取当前全局轮次中的全局损失、延迟比、目标值、同步比率和版本方差;
[0127]
将所述全局损失、所述延迟比、所述目标值、所述同步比率和所述版本方差输入至所述收敛优化模型,得到所述全局模型更新参与设备数量和所述陈旧容忍度。
[0128]
具体地,输入当前fl训练的状态,包括全局损失延迟比lok,p1的目标值ok,同步比率sok,版本方差vvk,到训练好的drl优化模型中得到参与设备数量mk和陈旧容忍度τk。
[0129]
由于模型的输出为连续值,所以需要转换为离散动作。将模型的输出设为s+τ
max
维,分别为mk和τk可以取的最大值。之后将输出看作每个值取值的概率大小,前s个输出取其中值最大的序号作为mk的值,而剩下的输出同样操作作为τk的值。这样就能得到离散动作而不破坏原有网络结构。
[0130]
基于上述实施例,步骤600包括:
[0131]
基于所述全局模型更新参与设备数量和所述陈旧容忍度,将超过所述陈旧容忍度的边缘移动设备强制同步为最新全局模型;
[0132]
确定任一边缘移动设备上传原始本地模型和衰减系数,由所述任一边缘移动设备上传原始本地模型、所述最新全局模型和所述衰减系数得到任一边缘移动设备转换后局部模型;
[0133]
利用所述任一边缘移动设备的本地数据集合大小、全部本地数据集合大小和任一边缘移动设备转换后局部模型,得到下一轮最新全局模型;
[0134]
重复进行多轮模型训练,直到满足所述预设训练全球回合轮数后结束训练,得到最终全局模型和更新版本信息。
[0135]
具体地,云服务器等待前mk个设备执行全局聚合,根据陈旧容忍度τk,超过陈旧容忍度的设备都被强制同步为最新全局模型并更新模型版本。
[0136]
图3是本发明实施例提供的聚合过程示意图,以3轮训练、6个边缘移动设备为例进行全局模型的训练和聚合,原始的全局模型为g0、每轮训练后的全局模型依次为g1、g2和g3,每一轮的训练中均包括distributed latency(分发延迟)、training latency(训练延迟,表示设备本地训练与上传模型产生的延迟)、model distributed(模型分发)、model upload(模型上传)和超过陈旧容忍度的enforce synchronization(强制同步)。
[0137]
云服务器在第k轮等待前mk个设备上传本地模型,然后根据个设备上传本地模型,然后根据
来执行全局聚合以此更新全局模型。其中是设备i转换过后的局部模型,定义为ωi是设备i上传的原始本地模型,是由于陈旧而引入的衰减系数,di是本地数据集大小,d是全部本地数据集大小,ωg是当前k轮全局模型,是k+1轮全局模型,并且然后查看所有设备的版本集合将之与当前全局轮数相减得到设备陈旧度。将超过陈旧容忍度τk的设备记为弃用设备,数量即为m
syn
,与下一轮新选择的设备一起接收最新的全局模型作为本地模型,并将版本集合中对应地版本修改为当前全局轮数。
[0138]
进行多轮训练,待进行k轮之后结束fl训练任务。
[0139]
以本发明中任务i-iii的强化学习收敛效果来看,图4为任务i的强化学习收敛图,图5为任务ii的强化学习收敛图,图6为任务iii的强化学习收敛图。可以看出,任务i和iii在400轮左右收敛,任务ii在200轮左右收敛。图4至图6中的横坐标training eposide表示强化学习的学习轮次,每一轮包含一整个联邦学习过程,纵坐标reward表示强化学习中的奖励。
[0140]
图7为本发明实施例总体训练框架和其他现有训练框架在不同任务下所得的延迟-精度目标值对比图,图8为本发明实施例总体训练框架和其他现有训练框架在不同数据分布下所得的延迟-精度目标值对比图,纵坐标objective value表示模型精度和总延迟的归一化加权乘积值,以本发明的asfl算法和其余的oort、safa和fedcs等用于衡量设计算法的平衡优劣的对比算法作为对比。
[0141]
图9至图11分别为本发明实施例和其他现有训练框架结果的延迟对比图,其中图9为任务i在不同训练框架下的延迟对比图,图10为任务ii在不同训练框架下的延迟对比图,图11为任务iii在不同训练框架下的延迟对比图,latency(s)表示训练的总延迟(单位为秒),global round:表示联邦学习训练过程中的全局轮次。
[0142]
下面对本发明提供的基于自适应半异步联邦学习的移动边缘网络优化系统进行描述,下文描述的基于自适应半异步联邦学习的移动边缘网络优化系统与上文描述的基于自适应半异步联邦学习的移动边缘网络优化方法可相互对应参照。
[0143]
图12是本发明提供的基于自适应半异步联邦学习的移动边缘网络优化系统的结构示意图,如图12所示,包括:构建模块1201、确定模块1202、转换模块1203、统计模块1204、处理模块1205和重复模块1206,其中:
[0144]
构建模块1201用于根据云服务器、边缘基站和边缘移动设备构建基于自适应半异步联邦学习的移动边缘网络更新模型,确定所述移动边缘网络更新模型中的最大化模型精度设备集合;确定模块1202用于基于所述最大化模型精度设备集合确定所述移动边缘网络更新模型的网络延迟目标值和网络精度目标值,根据所述网络延迟目标值和所述网络精度目标值建立移动边缘网络更新任务的总延迟及准确性权衡模型;转换模块1203用于基于离散型软演员-评论家的深度强化学习算法,将所述总延迟及准确性权衡模型转换为具有马尔科夫决策过程的收敛优化模型;统计模块1204用于通过采样统计获取所述最大化模型精度设备集合中的每个设备效用,由所述每个设备效用确定最大效用边缘移动设备数量;处理模块1205用语根据所述最大效用边缘移动设备数量在所述移动边缘网络更新模型的当
前全局轮次中确定模型训练状态集合,将所述模型训练状态集合输入至所述收敛优化模型,获得全局模型更新参与设备数量和陈旧容忍度;重复模块1206用于根据所述全局模型更新参与设备数量和所述陈旧容忍度对所述移动边缘网络更新模型进行多轮训练,直至满足预设训练全球回合轮数后结束训练,得到边缘移动网络更新全集。
[0145]
图13示例了一种电子设备的实体结构示意图,如图13所示,该电子设备可以包括:处理器(processor)1310、通信接口(communications interface)1320、存储器(memory)1330和通信总线1340,其中,处理器1310,通信接口1320,存储器1330通过通信总线1340完成相互间的通信。处理器1310可以调用存储器1330中的逻辑指令,以执行基于自适应半异步联邦学习的移动边缘网络优化方法,该方法包括:根据云服务器、边缘基站和边缘移动设备构建基于自适应半异步联邦学习的移动边缘网络更新模型,确定所述移动边缘网络更新模型中的最大化模型精度设备集合;基于所述最大化模型精度设备集合确定所述移动边缘网络更新模型的网络延迟目标值和网络精度目标值,根据所述网络延迟目标值和所述网络精度目标值建立移动边缘网络更新任务的总延迟及准确性权衡模型;基于离散型软演员-评论家的深度强化学习算法,将所述总延迟及准确性权衡模型转换为具有马尔科夫决策过程的收敛优化模型;通过采样统计获取所述最大化模型精度设备集合中的每个设备效用,由所述每个设备效用确定最大效用边缘移动设备数量;根据所述最大效用边缘移动设备数量在所述移动边缘网络更新模型的当前全局轮次中确定模型训练状态集合,将所述模型训练状态集合输入至所述收敛优化模型,获得全局模型更新参与设备数量和陈旧容忍度;根据所述全局模型更新参与设备数量和所述陈旧容忍度对所述移动边缘网络更新模型进行多轮训练,直至满足预设训练全球回合轮数后结束训练,得到边缘移动网络更新全集。
[0146]
此外,上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0147]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0148]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0149]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
技术特征:
1.一种基于自适应半异步联邦学习的移动边缘网络优化方法,其特征在于,包括:根据云服务器、边缘基站和边缘移动设备构建基于自适应半异步联邦学习的移动边缘网络更新模型,确定所述移动边缘网络更新模型中的最大化模型精度设备集合;基于所述最大化模型精度设备集合确定所述移动边缘网络更新模型的网络延迟目标值和网络精度目标值,根据所述网络延迟目标值和所述网络精度目标值建立移动边缘网络更新任务的总延迟及准确性权衡模型;基于离散型软演员-评论家的深度强化学习算法,将所述总延迟及准确性权衡模型转换为具有马尔科夫决策过程的收敛优化模型;通过采样统计获取所述最大化模型精度设备集合中的每个设备效用,由所述每个设备效用确定最大效用边缘移动设备数量;根据所述最大效用边缘移动设备数量在所述移动边缘网络更新模型的当前全局轮次中确定模型训练状态集合,将所述模型训练状态集合输入至所述收敛优化模型,获得全局模型更新参与设备数量和陈旧容忍度;根据所述全局模型更新参与设备数量和所述陈旧容忍度对所述移动边缘网络更新模型进行多轮训练,直至满足预设训练全球回合轮数后结束训练,得到边缘移动网络更新全集。2.根据权利要求1所述的基于自适应半异步联邦学习的移动边缘网络优化方法,其特征在于,所述根据云服务器、边缘基站和边缘移动设备构建基于自适应半异步联邦学习的移动边缘网络更新模型,确定所述移动边缘网络更新模型中的最大化模型精度设备集合,包括:由所述云服务器将最新的全局模型通过离每个边缘移动设备最近的边缘基站分发至若干个边缘移动设备,所述若干个边缘移动设备基于所述最新的全局模型执行本地模型训练,所述若干个边缘移动设备的数量小于所有边缘移动设备的数量;所述若干个边缘移动设备中任一边缘移动设备执行多轮本地模型训练,获取所述任一边缘移动设备的本地数据集合大小;根据所述移动边缘网络更新模型的延迟目标和准确性目标,确定所述若干个边缘移动设备中执行全局模型聚合设备数量,其中所述全局模型聚合设备数量不等于所述若干个边缘移动设备的数量。3.根据权利要求1所述的基于自适应半异步联邦学习的移动边缘网络优化方法,其特征在于,所述基于所述最大化模型精度设备集合确定所述移动边缘网络更新模型的网络延迟目标值和网络精度目标值,根据所述网络延迟目标值和所述网络精度目标值建立移动边缘网络更新任务的总延迟及准确性权衡模型,包括:根据云服务器通信带宽、全局模型副本数量和全局模型大小,确定任一轮全局轮次全局模型分发延迟,其中所述全局模型副本数量包括所述当前全局轮次中被选择边缘移动设备数量和被弃用边缘移动设备数量;根据边缘移动设备状态确定任一边缘移动设备在任一轮全局轮次到达延迟,由所述任一边缘移动设备在任一轮全局轮次到达延迟求最大值得到任一轮全局轮次最大到达延迟;基于所述任一轮全局轮次全局模型分发延迟和所述任一轮全局轮次最大到达延迟,得到任一轮全局轮次延迟;
确定权重因子、延迟限制和全局模型预测最终精度,基于所述权重因子、所述延迟限制、所述全局模型预测最终精度、所述预设训练全球回合轮数和所述任一轮全局轮次延迟,构建延迟精度目标函数;由所述延迟限制、所述任一轮全局轮次延迟和所述预设训练全球回合轮数得到平均轮次延迟限制,根据所述平均轮次延迟限制将所述延迟精度目标函数转换为具有线性累积形式的所述总延迟及准确性权衡模型;其中,所述权重因子包括取值范围在0到1之间的第一边缘任务常数和第二边缘任务常数,若确定所述任一轮全局轮次延迟小于等于所述延迟限制,则确定所述权重因子为所述第一边缘任务常数,否则确定所述权重因子为所述第二边缘任务常数。4.根据权利要求3所述的基于自适应半异步联邦学习的移动边缘网络优化方法,其特征在于,所述根据边缘移动设备状态确定任一边缘移动设备在任一轮全局轮次到达延迟,包括:若确定所述任一边缘移动设备为所述当前全局轮次中的被选择边缘移动设备或被弃用边缘移动设备,则所述任一轮全局轮次到达延迟包括计算延迟和上传延迟,其中所述计算延迟由任一边缘移动设备最小选取样本数量大小与本地训练轮次数量之积除以任一边缘移动设备训练能力所得到,所述上传延迟由模型大小除以任一边缘移动设备在任一全局轮次传输带宽所得到;若确定所述任一边缘移动设备为异步边缘移动设备,则所述任一轮全局轮次到达延迟由上一轮全局轮次到达延迟依次减去上一轮全局轮次最大到达延迟和当前全局轮次分布式延迟后,并与0取最大值所得到。5.根据权利要求1所述的基于自适应半异步联邦学习的移动边缘网络优化方法,其特征在于,所述基于离散型软演员-评论家的深度强化学习算法,将所述总延迟及准确性权衡模型转换为具有马尔科夫决策过程的收敛优化模型,包括:确定包括状态、动作、策略、奖励和折扣因子的马尔科夫决策过程五元组;所述状态包括表示当前训练精度状态的全局损失、表示上一轮全局轮次总延迟除以延迟限制的延迟比、表示上一轮全局轮次状态的目标值、表示每一轮全局轮次平均弃用移动网络设备数量的同步比率和表示上一轮全局轮次设备陈旧状态的版本方差;所述动作包括每一轮全局轮次中确定选择对的移动网络设备数量和滞后容忍度;所述奖励包括总延迟及准确性权衡模型中任一轮全局轮次模型函数;所述策略包括根据当前轮全局轮次状态、当前轮全局轮次动作和下一轮全局轮次状态所确定的状态转移概率函数;所述折扣因子为0到1范围内的衰减因子;构建包括一个演员和两个q网络的离散型深度强化学习框架,所述两个q网络包括q网络和目标q网络,每个q网络包括两个评论家,以所述两个评论家输出的最小值进行网络估计;基于所述马尔科夫决策过程五元组更新所述离散型深度强化学习框架,得到所述收敛优化模型。6.根据权利要求1所述的基于自适应半异步联邦学习的移动边缘网络优化方法,其特征在于,所述通过采样统计获取所述最大化模型精度设备集合中的每个设备效用,由所述
每个设备效用确定最大效用边缘移动设备数量,包括:获取任一边缘移动设备的本地数据集合大小和样本训练损失;基于所述本地数据集合大小和所述样本训练损失,得到每个设备效用;根据每个设备效用,确定选择排名靠前预设位数的所述最大效用边缘移动设备数量。7.根据权利要求1所述的基于自适应半异步联邦学习的移动边缘网络优化方法,其特征在于,所述根据所述最大效用边缘移动设备数量在所述移动边缘网络更新模型的当前全局轮次中确定模型训练状态集合,将所述模型训练状态集合输入至所述收敛优化模型,获得全局模型更新参与设备数量和陈旧容忍度,包括:获取当前全局轮次中的全局损失、延迟比、目标值、同步比率和版本方差;将所述全局损失、所述延迟比、所述目标值、所述同步比率和所述版本方差输入至所述收敛优化模型,得到所述全局模型更新参与设备数量和所述陈旧容忍度。8.根据权利要求1所述的基于自适应半异步联邦学习的移动边缘网络优化方法,其特征在于,所述根据所述全局模型更新参与设备数量和所述陈旧容忍度对所述移动边缘网络更新模型进行多轮训练,直至满足预设训练全球回合轮数后结束训练,得到边缘移动网络更新全集,包括:基于所述全局模型更新参与设备数量和所述陈旧容忍度,将超过所述陈旧容忍度的边缘移动设备强制同步为最新全局模型;确定任一边缘移动设备上传原始本地模型和衰减系数,由所述任一边缘移动设备上传原始本地模型、所述最新全局模型和所述衰减系数得到任一边缘移动设备转换后局部模型;利用所述任一边缘移动设备的本地数据集合大小、全部本地数据集合大小和任一边缘移动设备转换后局部模型,得到下一轮最新全局模型;重复进行多轮模型训练,直到满足所述预设训练全球回合轮数后结束训练,得到最终全局模型和更新版本信息。9.一种基于自适应半异步联邦学习的移动边缘网络优化系统,其特征在于,包括:构建模块,用于根据云服务器、边缘基站和边缘移动设备构建基于自适应半异步联邦学习的移动边缘网络更新模型,确定所述移动边缘网络更新模型中的最大化模型精度设备集合;确定模块,用于基于所述最大化模型精度设备集合确定所述移动边缘网络更新模型的网络延迟目标值和网络精度目标值,根据所述网络延迟目标值和所述网络精度目标值建立移动边缘网络更新任务的总延迟及准确性权衡模型;转换模块,用于基于离散型软演员-评论家的深度强化学习算法,将所述总延迟及准确性权衡模型转换为具有马尔科夫决策过程的收敛优化模型;统计模块,用于通过采样统计获取所述最大化模型精度设备集合中的每个设备效用,由所述每个设备效用确定最大效用边缘移动设备数量;处理模块,用语根据所述最大效用边缘移动设备数量在所述移动边缘网络更新模型的当前全局轮次中确定模型训练状态集合,将所述模型训练状态集合输入至所述收敛优化模型,获得全局模型更新参与设备数量和陈旧容忍度;重复模块,用于根据所述全局模型更新参与设备数量和所述陈旧容忍度对所述移动边
缘网络更新模型进行多轮训练,直至满足预设训练全球回合轮数后结束训练,得到边缘移动网络更新全集。10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述基于自适应半异步联邦学习的移动边缘网络优化方法。
技术总结
本发明提供一种基于自适应半异步联邦学习的移动边缘网络优化方法,属于边缘计算技术领域,包括:构建基于自适应半异步联邦学习的移动边缘网络更新模型及最大化模型精度设备集合,确定网络延迟目标值和网络精度目标值,建立移动边缘网络更新任务的总延迟及准确性权衡模型;基于离散型软演员-评论家深度强化学习算法,将总延迟及准确性权衡模型转换为具有马尔科夫决策过程的收敛优化模型,确定最大效用边缘移动设备数量,获得全局模型更新参与设备数量和陈旧容忍度,直至满足预设训练全球回合轮数后结束训练,得到边缘移动网络更新全集。本发明通过应用自适应半异步联邦学习策略,解决延迟精度目标函数建模平衡问题,使得延迟-精度目标值最大化。精度目标值最大化。精度目标值最大化。
技术研发人员:周睿婷 余洁舲
受保护的技术使用者:武汉大学
技术研发日:2023.03.27
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/