一种基于参数量扩增的联邦学习优化方法与流程
未命名
08-22
阅读:78
评论:0
1.本发明涉及联邦学习技术领域,具体为一种基于参数量扩增的联邦学习优化方法。
背景技术:
2.联邦学习(federated learning)是一种分布式机器学习技术[1],其核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式,构建基于虚拟融合数据下的全局模型,从而实现数据隐私保护和数据共享计算的平衡,即“数据可用不可见”、“数据不动模型动”的应用新范式。
[0003]
现有技术中,联邦学习的应用面临四个主要问题:通信开销问题、隐私保护问题、客户端无状态问题和客户端中数据非独立同分布问题。其中,通信开销问题主要是由联邦学习节点之间经由网络连接和传输数据(模型、参数)所造成的,也是本专利关注的重点。通信带宽是联邦学习的主要瓶颈,因为大量的联邦学习节点需要将其本地更新共享给其他联邦学习节点。
[0004]
但是,目前较为普遍的解决方法是对更新进行压缩和降低通信频率两种方式;上述方式均无法实现通过逐步扩大模型参数量来减少联邦建模前期通信量,以达到减少总通信量的效果的联邦学习优化方法。
技术实现要素:
[0005]
本发明的目的在于提供一种基于参数量扩增的联邦学习优化方法,以解决上述背景技术中提出的问题。
[0006]
为实现上述目的,本发明提供如下技术方案:一种基于参数量扩增的联邦学习优化方法,所述联邦学习优化方法包括以下步骤:
[0007]
1)使用一个较小的模型进行训练;
[0008]
2)模型loss开始降低时,扩大模型的尺寸继续进行训练;
[0009]
3)重复步骤2)直至达到设定的模型尺寸;
[0010]
4)继续训练至模型收敛。
[0011]
优选的,较小模型到较大模型的扩展过程如下:
[0012]
较小模型为较大模型删除某一层或某几层的样式;
[0013]
较小模型中虽然有几层缺失,但是对应层的参数尺寸和参数量与较大模型一致;
[0014]
更新模型参数时,以更大的比例更新新加入的层,以更小的比例更新之前存在的层。
[0015]
优选的,从较小模型到较大模型更新时,针对各种不同类型层次的模拟方式如下:
[0016]
数据在做完卷积之后的尺寸会根据卷积核的尺寸进行相应的缩小;
[0017]
对池化层的模拟与过滤器的尺寸d有关,需要将原始数据的尺寸a/d向上取整得到
池化后的尺寸;
[0018]
全连接层的输入数据尺寸e,输出数据尺寸f。要实现对全连接层的模拟,需要将e条数据分为f组。
[0019]
与现有技术相比,本发明的有益效果是:
[0020]
本发明提出的基于参数量扩增的联邦学习优化方法,通过逐步扩大模型尺寸来逐步提高模型的参数量,以减少联邦通信过程中,尤其是联邦建模前期的传输数据量。在模型参数量较小时,先把现有的参数训练到一个较好的状态。然后再引入新的参数,并在接下来的训练中着重对新引入的参数进行训练。重复多轮直至模型扩大至预设尺寸,最后训练至模型收敛。实现通过逐步扩大模型参数量来减少联邦建模前期通信量,以达到减少总通信量的效果的联邦学习优化方法。
附图说明
[0021]
图1为本发明方法流程图。
具体实施方式
[0022]
为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白,以下结合附图对本发明实施例进行进一步详细说明。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0023]
实施例一
[0024]
请参阅图1,本发明提供一种技术方案:一种基于参数量扩增的联邦学习优化方法,所述联邦学习优化方法包括以下步骤:
[0025]
1)使用一个较小的模型进行训练;
[0026]
2)模型loss开始降低时,扩大模型的尺寸继续进行训练;
[0027]
3)重复步骤2)直至达到设定的模型尺寸;
[0028]
4)继续训练至模型收敛。
[0029]
具体还包括:
[0030]
1、较小模型为较大模型删除某一层或某几层的样式
[0031]
2、较小模型中虽然有几层缺失,但是对应层的参数尺寸和参数量与较大模型一致
[0032]
3、更新模型参数时,以更大的比例更新新加入的层,以更小的比例更新之前存在的层。
[0033]
较小模型和较大模型相比,存在部分网络层次的缺失,为了使得较小模型的各层结构与较大模型中对应的各层结构一致,我们应在较小模型中模拟缺失的各层的行为,以建立起两个模型之间的对应关系。
[0034]
从较小模型到较大模型更新时,针对各种不同类型层次的模拟方式如下:
[0035]
1、卷积层。
[0036]
数据在做完卷积之后的尺寸会根据卷积核的尺寸进行相应的缩小。原始数据的尺寸a,卷积核的尺寸b,做完卷积后的数据尺寸c之间的关系为:c=a-b+1。做卷积前和做卷积
后的模型尺寸差为b-1
[0037]
我们约定,通过在输入数据的各个维度上裁剪掉边缘的一部分来模拟卷积层的操作。在各个维度的一个方向上裁剪的数据量(b-1)/2向上取整,在另一个相反方向上裁剪的数据量(b-1)/2向下取整。
[0038]
举例说明:假设我们较大模型卷积层的输入为(7,9),卷积核(4,4)。我们将输入映射到二维坐标系中,x取值0-6,y取值0-8,在x的正向裁剪(b-1)/2向上取整=2,在x的负向裁剪(b-1)/2向下取整=1。裁剪后的x取值范围2-5,同理裁剪后的y取值范围2-7。
[0039]
2、池化层。
[0040]
因为池化层的引入并不会导致参数的增加,因此池化层应该跟随前一层一起引入。
[0041]
对池化层的模拟与过滤器的尺寸d有关,需要将原始数据的尺寸a/d向上取整得到池化后的尺寸。
[0042]
我们的模拟操作与池化的操作一致,将原始数据中按照尺寸d分组,然后根据池化类型(平均池化或最大池化等方式)将尺寸为d的数据映射为尺寸为1的数据。
[0043]
举例说明:假设我们较大模型池化层的输入为(7,9),过滤器尺寸(2,3)。我们池化后的尺寸为7/2向上取整=4,9/3向上取整=3,即(4,3)。
[0044]
3、全连接层。
[0045]
全连接层的输入数据尺寸e,输出数据尺寸f。要实现对全连接层的模拟,需要将e条数据分为f组。当e可以被f整除的情况下,这个分组过程比较容易实现,下面主要讨论e无法被f整除的情况。我们使用e/f向下取整=m和e/f向上取整n,尝试将数据分为m个一组和n个一组两种情况,现在求解m个一组和n个一组的数量x和y。
[0046]
可以通过x+y=f和mx+ny=e,求得x和y,若x和y为整数,则使用此处x,y,m,n,否则需要尝试其他的m和n。可以尝试的m,n有m-1,m-2,n+1,n+2,上述方法可以满足大部分的模型输入输出尺寸。
[0047]
举例说明:假设全连接层的输入尺寸400,输出尺寸84,使用400/84向下取整m=4和400/84向上取整n=5,因此4x+5y=400;x+y=84,求得x=20,y=64。
[0048]
根据上述结果需要将全连接层的输入以4个为一组拆分20组,以5个为一组拆分64组
[0049]
实施例二
[0050]
在实施例一的基础上,假设目标模型为:输入(18,26)-》(3,3)卷积(16,24)-》(2,2)池化(8,12)-》(3,3)卷积(6,10)-》(2,2)池化(3,5)-》全连接(15)-》全连接(10)-》relu
[0051]
网络各层参数表:
[0052][0053][0054]
初始模型为:输入(18,26)-》3,3卷积(16,24)-》2,2池化(8,12)-》全连接(10)-》relu
[0055]
初始模型与目标模型的差别为初始模型在全连接层前少了卷积、池化、全连接(15)三个步骤,因此在初始模型的池化到全连接的映射(8,12)-》(10)时,应对数据按上述三个步骤进行分组。其详细过程如下,(8,12)-》(10)的映射步骤:
[0056]
1、将8,12映射到坐标系中,x的范围0-7,y的范围0-11
[0057]
2、剔除最外层1圈数据,选取中间部分x:1-6,y:1-10
[0058]
3、选取(2,2)的方格,在方格内部做平均值,x方向可以选取3组,y方向可以选取5组
[0059]
4、分组后共有15条数据,需要再次分为10组。
[0060]
5、交替选取一条数据作为一组和两条数据作为一组,将15条数据分为10组,映射到尺寸为10的全连接层中
[0061]
上述模型进行训练当loss开始降低时,引入下一层卷积和池化(因为池化没有参数所以随卷积一起引入),目前模型变为:输入(18,26)-》(3,3)卷积(16,24)-》(2,2)池化(8,12)-》(3,3)卷积(6,10)-》(2,2)池化(3,5)-》全连接(10)-》relu
[0062]
现在的模型与目标模型之间的差别为,目前的模型在全连接层前少了尺寸为15的全连接层,因此在当前的模型的池化层到全连接层的映射(3,5)-》(10)时,应对数据进行再次分组。其详细过程如下,(3,5)-》(10)的映射步骤:
[0063]
1、将(3,5)的池化层数据映射到一维数组中
[0064]
2、分别选取1条数据为一组和2条数据为一组,可以将15条数据分为10组
[0065]
3、对10组数据组内做平均值完成(3,5)-》10的映射。
[0066]
对上述模型进行训练当loss开始降低时,引入最后一层10参数的全连接层,训练至模型收敛。
[0067]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种基于参数量扩增的联邦学习优化方法,其特征在于:所述联邦学习优化方法包括以下步骤:1)使用一个较小的模型进行训练;2)模型loss开始降低时,扩大模型的尺寸继续进行训练;3)重复步骤2)直至达到设定的模型尺寸;4)继续训练至模型收敛。2.根据权利要求1所述的一种基于参数量扩增的联邦学习优化方法,其特征在于:较小模型到较大模型的扩展过程如下:较小模型为较大模型删除某一层或某几层的样式;较小模型中虽然有几层缺失,但是对应层的参数尺寸和参数量与较大模型一致;更新模型参数时,以更大的比例更新新加入的层,以更小的比例更新之前存在的层。3.根据权利要求1所述的一种基于参数量扩增的联邦学习优化方法,其特征在于:从较小模型到较大模型更新时,针对各种不同类型层次的模拟方式如下:数据在做完卷积之后的尺寸会根据卷积核的尺寸进行相应的缩小;对池化层的模拟与过滤器的尺寸d有关,需要将原始数据的尺寸a/d向上取整得到池化后的尺寸;全连接层的输入数据尺寸e,输出数据尺寸f,要实现对全连接层的模拟,需要将e条数据分为f组。
技术总结
本发明涉及联邦学习技术领域,具体为一种基于参数量扩增的联邦学习优化方法,包括以下步骤:1)使用一个较小的模型进行训练;2)模型loss开始降低时,扩大模型的尺寸继续进行训练;3)重复步骤2)直至达到设定的模型尺寸;4)继续训练至模型收敛;有益效果为:本发明提出的基于参数量扩增的联邦学习优化方法,通过逐步扩大模型尺寸来逐步提高模型的参数量,以减少联邦通信过程中,尤其是联邦建模前期的传输数据量。在模型参数量较小时,先把现有的参数训练到一个较好的状态。然后再引入新的参数,并在接下来的训练中着重对新引入的参数进行训练。重复多轮直至模型扩大至预设尺寸,最后训练至模型收敛。训练至模型收敛。训练至模型收敛。
技术研发人员:李彬 贾荫鹏 李圣伟 孙善宝 罗清彩 李锐
受保护的技术使用者:山东浪潮科学研究院有限公司
技术研发日:2023.05.12
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
