一种基于梯度的数据集完整度评估方法

未命名 08-13 阅读:82 评论:0


1.本发明属于数据质量评估领域,尤其涉及一种基于梯度的数据集完整度评估方法。


背景技术:

2.联邦学习是一种新兴的分布式机器学习范式,该范式被用来协作训练一个拥有海量客户端的全局模型。为了吸引潜在优质数据持有方参与联邦学习,需要根据各客户端数据在联邦合作中的预计贡献大小给予激励。不幸的是,存在这样一种客户端,它们利用现有评估指标不能完整量化其贡献的缺点,谎称自己拥有符合要求的数据或者谎称自己真实地完成了本地深度学习。这种客户端通过伪造自己的贡献欺骗服务器来获得本不属于它们的激励。
3.考虑到客户端上传的梯度中包含大量信息。如,l zhu等人发现分布式机器学习中共享梯度并不安全,他们设计了几个步骤可以轻易的获得原始数据集从而危害客户端的隐私。j geiping等人实现了在联邦学习中利用共享梯度重建高分辨率的图像,并证明经过训练的神经网络也是存在这种风险。h yin等人在之前工作的基础上进一步证实在50层以上的神经网络和更大的批处理规模上也可以利用梯度恢复数据。


技术实现要素:

4.为解决上述技术问题,本发明提出了一种基于梯度的数据集完整度评估方法,以解决现有技术中不能完整量化其贡献的缺点的问题。
5.为实现上述目的,本发明提供了一种基于梯度的数据集完整度评估方法,包括以下步骤:
6.在客户端设定基础数据集,使用所述基础数据集参与联邦训练,得到梯度信息;
7.将所述梯度信息进行梯度反演得到客户端的数据信息;
8.将所述数据信息打包成数据集放入基础模型测试其准确率,根据所述准确率判断数据集完整度。
9.优选地,所述基础数据集包括噪声数据集、部分完整数据集、完整数据集;
10.所述部分完整数据集的完整度包括0%、20%、40%、60%、80%、100%。
11.优选地,所述梯度反演的过程包括:
12.通过梯度公式计算客户端中数据的梯度,将所述梯度平均划分,将划分后的梯度更新得到下一轮的梯度;
13.随机初始化一个虚拟输入和标签输入,将初始化后的虚拟输入和标签输入输入到模型中得到虚拟梯度;
14.基于得到的下一轮的梯度对虚拟梯度进行优化,得到真实训练数据。
15.优选地,所述梯度反演的过程还包括:
16.当拥有某个步骤的梯度时,基于所述虚拟梯度通过最小化式获得恢复后的数据集
样本和标签。
17.优选地,所述基础模型的获取方法包括:构建模型,通过基础数据集对构建的模型进行训练,得到基础模型。
18.优选地,所述打包的格式包括cifar-10。
19.优选地,根据所述准确率判断数据集完整度的方法包括:设定准确率阈值为85%,当准确率大于等于85%时,判定为数据集完整,当准确率小于85%时,判定为数据集不完整。
20.与现有技术相比,本发明具有如下优点和技术效果:
21.本发明提出一种基于梯度的数据集完整度评估方法,即利用客户端上传的梯度存在的信息反演出原本客户端真实数据集。除此之外,我们在联邦学习服务器额外添加了基础数据集、基础模型。将反演后的数据制作成测试集放入基础模型中测试其准确率,从而能够准确的判断出该客户端的数据集完整度。
附图说明
22.构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
23.图1为本发明实施例的基于梯度的数据集完整度评估方法流程图;
24.图2为本发明实施例的准确率随完整度变化图。
具体实施方式
25.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
26.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
27.实施例一
28.如图1所示,本发明提出了一种基于梯度的数据集完整度评估方法,本方法在传统的联邦学习框架上额外添加了基础数据集d
base
、基础模型m
base
。基础数据集d
base
:不同于传统联邦学习种所有数据均来自客户端的设定,我们会为该框架下的服务器提供一个规模较小的干净可信的基础数据集d
base
为了获得评估客户端数据完整度的依据。具体而言,服务器会在联邦学习训练开始之前预先收集来自各个客户端的数据集。基础数据集d
base
包含来自各个客户端样本总量约10%的数据量,并且已经收集的数据样本将不会在客户端参与本地的局部模型计算,同时为了保护客户端的隐私该数据集对其它客户端是不透明的。基础模型m
base
:它是服务器利用基础数据集d
base
训练得到的准确率较高的模型。基础模型是由基础数据集d
base
经过resnet18训练获得的高准确率模型,其准确率来到了93.8%。
29.具体步骤如下:
30.1.设置不同比例的数据集,它们分别是噪声数据集、部分完整的数据集、完整的数据集。其中设置6种不同数据集完整程度的数据集,他们分别是0%、20%、40%、60%、80%、100%。客户端会使用上述6种不同数据集参与联邦学习的训练,并将梯度信息发送给服务
器。
31.2.在服务器正式聚合之前:服务器会使用该梯度信息反演出客户端的数据信息。之后,服务器将反演出的数据按照cifar-10的格式打包成数据集放入m
base
测试其准确率,结果如图2所示:
32.3.若该客户端通过梯度反演制作的数据集在基础模型中测试的准确率高于85%则继续执行联邦学习,反之将该客户端上传的梯度剔除出本轮次的全局聚合。
33.梯度反演算法步骤如下:
34.客户端的一组数据为(x
t,i
,y
t,i
),其中x
t,i
为客户端i在第t轮次的数据样本,y
t,i
是对应的标签。那么客户端i在第t轮次的梯度可以表示为公式1:
[0035][0036]
其中,表示损失函数l关于模型输出f(x
t,i
,w
t
)和标签y
t,i
对模型参数w
t
的偏导数。这部分计算的目的是确定损失函数相对于模型参数的变化方向和程度。其中代表偏导数,l代表损失函数,w
t
代表t轮服务器下发的模型参数,f(x
t,i
,w
t
)代表可微分的模型。
[0037]
在获得了客户端i在第t轮次的梯度之后,该梯度被平均成n分,然后更新下一轮的梯度,具体可见公式(2)和(3):
[0038][0039][0040]
其中,η代表学习率,学习率是一个超参数,用于控制每次模型参数更新的步长或速度。它决定了在每次迭代中模型参数更新的幅度。
[0041]
现在可以从联邦中获取客户端k的梯度信息目标是根据梯度恢复数据(x
t,k
,y
t,k
)。为了从梯度中恢复数据,评估层首先随机初始化一个虚拟输入x'和标签输入y',即算法1中的第1行。然后将这些“虚拟数据”输入模型并获得“虚拟梯度”,详情见式(4):
[0042][0043]
其中,w代表随机初始化的模型参数,目的是为了初始化虚拟梯度。
[0044]
接下来优化接近原始梯度的虚拟梯度,这个优化也使虚拟数据接近真实训练数据x'
*
,y'
*
。如果已经有了某个步骤的梯度那么通过最小化式(5)来获得恢复后的数据集样本和标签x'
*
,y'
*

[0045][0046]
其中,表示使得函数取得最小值的参数的取值,arg min是参数(x',y')
和min(最小值)的组合,表示求解使函数达到最小值时的参数值。
[0047]
以上,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。

技术特征:
1.一种基于梯度的数据集完整度评估方法,其特征在于,包括以下步骤:在客户端设定基础数据集,使用所述基础数据集参与联邦训练,得到梯度信息;将所述梯度信息进行梯度反演得到客户端的数据信息;将所述数据信息打包成数据集放入基础模型测试其准确率,根据所述准确率判断数据集完整度。2.根据权利要求1所述的基于梯度的数据集完整度评估方法,其特征在于,所述基础数据集包括噪声数据集、部分完整数据集、完整数据集;所述部分完整数据集的完整度包括0%、20%、40%、60%、80%、100%。3.根据权利要求1所述的基于梯度的数据集完整度评估方法,其特征在于,所述梯度反演的过程包括:通过梯度公式计算客户端中数据的梯度,将所述梯度平均划分,将划分后的梯度更新得到下一轮的梯度;随机初始化一个虚拟输入和标签输入,将初始化后的虚拟输入和标签输入输入到模型中得到虚拟梯度;基于得到的下一轮的梯度对虚拟梯度进行优化,得到真实训练数据。4.根据权利要求3所述的基于梯度的数据集完整度评估方法,其特征在于,所述梯度反演的过程还包括:当拥有某个步骤的梯度时,基于所述虚拟梯度通过最小化式获得恢复后的数据集样本和标签。5.根据权利要求1所述的基于梯度的数据集完整度评估方法,其特征在于,所述基础模型的获取方法包括:构建模型,通过基础数据集对构建的模型进行训练,得到基础模型。6.根据权利要求1所述的基于梯度的数据集完整度评估方法,其特征在于,所述打包的格式包括cifar-10。7.根据权利要求1所述的基于梯度的数据集完整度评估方法,其特征在于,根据所述准确率判断数据集完整度的方法包括:设定准确率阈值为85%,当准确率大于等于85%时,判定为数据集完整,当准确率小于85%时,判定为数据集不完整。

技术总结
本发明公开了一种基于梯度的数据集完整度评估方法,包括以下步骤:在客户端设定基础数据集,使用所述基础数据集参与联邦训练,得到梯度信息;将所述梯度信息进行梯度反演得到客户端的数据信息;将所述数据信息打包成数据集放入基础模型测试其准确率,根据所述准确率判断数据集完整度。本方法能够利用客户端上传的梯度存在的信息反演出原本客户端真实数据集,然后将反演后的数据制作成测试集放入基础模型中测试其准确率,从而能够准确的判断出该客户端的数据集完整度。客户端的数据集完整度。客户端的数据集完整度。


技术研发人员:玄世昌 汪浩 苘大鹏 王小芳 陆蓓婷 蔡成涛 王巍 蒋文创 齐亚超 程雪蕾 陈征平 毕晓燕 马静 王雪松 王宇华 潘海为 刘成刚 于金峰
受保护的技术使用者:哈尔滨工程大学三亚南海创新发展基地 价值链技术(深圳)有限公司
技术研发日:2023.06.29
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐