加密样本生成方法、模型训练方法、装置、设备及介质与流程

未命名 09-17 阅读:111 评论:0


1.本发明涉及数据安全领域,尤其涉及一种加密样本生成方法、模型训练方法、装置、设备及介质。


背景技术:

2.不断发生的数据泄密和隐私侵权事件使得社会公众更加认识到,需要保护用户隐私和数据机密性。随着对数据隐私的重视,在不同组织、部门间收集和分享数据将会变得越来越困难。
3.目前,主要采用同态加密算法生成样本数据,利用密钥机制进行非对称加密解密过程,存在计算资源耗费过大的情况,同时密钥对的生成、发送、对数据进行加密,以及后期解密等操作会增加模型的时间成本,且同态加密算法在一定程度无法捕捉到非线性的特征信息提取,使得部分特征无法得到良好提取。


技术实现要素:

4.本发明提供了一种加密样本生成方法、模型训练方法、装置、设备及介质,以解决同态加密算法生成样本存在的时间成本高、加密过程复杂以及特征提取效果不佳的问题。
5.根据本发明的一方面,提供了一种加密样本生成方法,包括:
6.获取各分布式边缘端的原始待加密特征;
7.对各分布式边缘端的原始待加密特征,进行留一法熵值计算,得到各目标特征熵;
8.根据各目标特征熵以及原始待加密特征标识,确定加密训练样本以及加密测试样本。
9.根据本发明的另一方面,提供了一种模型训练方法,包括:
10.获取加密训练样本以及加密测试样本;
11.基于加密训练样本以及加密测试样本,对大数据分析模型进行训练测试,得到加密数据分析模型;
12.其中,加密训练样本以及加密测试样本为本发明任一实施例中的加密样本生成方法得到的样本。
13.根据本发明的另一方面,提供了一种加密样本生成装置,包括:
14.原始待加密特征获取模块,用于获取各分布式边缘端的原始待加密特征;
15.目标特征熵确定模块,用于对各分布式边缘端的原始待加密特征,进行留一法熵值计算,得到各目标特征熵;
16.加密样本生成模块,用于根据各目标特征熵以及原始待加密特征标识,确定加密训练样本以及加密测试样本。
17.根据本发明的另一方面,提供了一种模型训练装置,包括:
18.样本获取模块,用于获取加密训练样本以及加密测试样本;
19.加密数据分析模型确定模块,用于基于加密训练样本以及加密测试样本,对大数
据分析模型进行训练测试,得到加密数据分析模型;
20.其中,加密训练样本以及加密测试样本为通过本发明任一实施例中的加密样本生成方法得到的样本。
21.根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
22.至少一个处理器;以及
23.与所述至少一个处理器通信连接的存储器;其中,
24.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的加密样本生成方法,或者,执行本发明任一实施例所述的模型训练方法。
25.根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的加密样本生成方法,或者,实现本发明任一实施例所述的模型训练方法。
26.本发明实施例的技术方案,通过获取各分布式边缘端的原始待加密特征,从而对各分布式边缘端的原始待加密特征,进行留一法熵值计算,得到各目标特征熵,进而根据各目标特征熵以及原始待加密特征标识,确定加密训练样本以及加密测试样本。在本方案中,通过留一法熵值计算得到的目标特征熵,能够在保证原始待加密特征加密的同时,确保无法回溯至具体的原始待加密特征,并且留一法熵值计算可以很好的挖掘原始待加密特征的特征信息,因此最终确定的加密训练样本以及加密测试样本也能延续良好的数据机密性,还可以很好的保持源数据关键特征,保证样本数据质量,解决了同态加密算法生成样本存在的时间成本高、加密过程复杂以及特征提取效果不佳的问题,能够在保证数据机密性的同时,很好的提取关键特征。
27.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
28.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
29.图1为本发明实施例一提供的一种加密样本生成方法的流程图;
30.图2为本发明实施例二提供的一种加密样本生成方法的流程图;
31.图3为本发明实施例三提供的一种模型训练方法的流程图;
32.图4为本发明实施例四提供的一种模型训练方法的流程图;
33.图5为本发明实施例四提供的一种特征加密与模型自迭代修正的流程逻辑示意图;
34.图6为本发明实施例五提供的一种加密样本生成装置的结构示意图;
35.图7为本发明实施例六提供的一种模型训练装置的结构示意图;
36.图8示出了可以用来实施本发明的实施例的电子设备的结构示意图。
具体实施方式
37.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
38.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“原始”、“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
39.实施例一
40.图1为本发明实施例一提供的一种加密样本生成方法的流程图,本实施例可适用于简便高效的生成加密样本的情况,该方法可以由加密样本生成装置来执行,该加密样本生成装置可以采用硬件和/或软件的形式实现,该加密样本生成装置可配置于电子设备中。电子设备可以是计算机或服务器等。如图1所示,该方法包括:
41.步骤110、获取各分布式边缘端的原始待加密特征。
42.其中,分布式边缘端可以是对已授权隐私数据进行接收的数据端。原始待加密特征可以是分布式边缘端采集的,需加密处理的数据。
43.在本发明实施例中,为了保证数据的隐私性,不进行集中式获取,而是采用去中心化的多个分布式边缘端进行原始待加密特征的收集,从而对各分布式边缘端的原始待加密特征进行读取以及后续加密处理。
44.需要说明的是,本发明实施例的技术方案中,所涉及隐私数据(如用户个人信息等)的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
45.步骤120、对各分布式边缘端的原始待加密特征,进行留一法熵值计算,得到各目标特征熵。
46.其中,留一法熵值计算可以用于对各分布式边缘端的原始待加密特征按照留一法分别进行熵值计算。目标特征熵可以是分布式边缘端的原始待加密特征进行留一法熵值计算的结果。
47.在本发明实施例中,读取各分布式边缘端的原始待加密特征之后,可以分别对各分布式边缘端的原始待加密特征进行数据预处理操作,对每个原始待加密特征进行归一化处理,消除量纲影响,减少不必要的误差,从而对各分布式边缘端的完成归一化处理后的原始待加密特征,进行留一法熵值计算,得到各分布式边缘端的目标特征熵。
48.示例性的,以一个分布式边缘端为例,对留一法熵值计算进行说明,假设选取的分布式边缘端a的原始待加密特征为m个,按照留一法依次选取其中的m-1个原始待加密特征,并计算依次选取的m-1个原始待加密特征的熵值,得到分布式边缘端a的m个目标特征熵。
49.步骤130、根据各目标特征熵以及原始待加密特征标识,确定加密训练样本以及加
密测试样本。
50.其中,原始待加密特征标识可以用于对各分布式边缘端的原始待加密特征进行划分。示例性的,原始待加密特征标识可以包括用户身份编码。加密训练样本可以是根据各目标特征熵以及原始待加密特征标识,确定的对模型进行训练的加密样本。加密测试样本可以是各目标特征熵以及原始待加密特征标识,确定的对模型进行测试的加密样本。加密训练样本与加密测试样本均不能反推至对应的原始待加密特征,能够实现对原始待加密特征的保密,又可以实现对其关键信息的提取分析。
51.在本发明实施例中,可以将与各分布式边缘特征分别对应的目标特征熵进行权重调整,并按照原始待加密特征标识,对完成权重调整的目标特征熵进行划分,得到加密训练样本以及加密测试样本,以通过加密训练样本以及加密测试样本对预训练模型进行训练和测试,实现在保证数据机密性的前提下,对隐私数据进行分析。
52.本发明实施例的技术方案,通过获取各分布式边缘端的原始待加密特征,从而对各分布式边缘端的原始待加密特征,进行留一法熵值计算,得到各目标特征熵,进而根据各目标特征熵以及原始待加密特征标识,确定加密训练样本以及加密测试样本。在本方案中,通过留一法熵值计算得到的目标特征熵,能够在保证原始待加密特征加密的同时,确保无法回溯至具体的原始待加密特征,并且留一法熵值计算可以很好的挖掘原始待加密特征的特征信息,因此最终确定的加密训练样本以及加密测试样本也能延续良好的数据机密性,还可以很好的保持源数据关键特征,保证样本数据质量,解决了同态加密算法生成样本存在的时间成本高、加密过程复杂以及特征提取效果不佳的问题,能够在保证数据机密性的同时,很好的提取关键特征。
53.实施例二
54.图2为本发明实施例二提供的一种加密样本生成方法的流程图,本实施例以上述实施例为基础进行具体化,给出了对各分布式边缘端的原始待加密特征,进行留一法熵值计算,得到各目标特征熵的具体的可选的实施方式。如图2所示,该方法包括:
55.步骤210、获取各分布式边缘端的原始待加密特征。
56.步骤220、基于留一法以及当前分布式边缘端的原始待加密特征,确定各非留剩待加密特征组。
57.其中,非留剩待加密特征组可以是基于留一法一次排除一个原始待加密特征,由每次剩下的原始待加密特征分别构成的数据组。
58.在本发明实施例中,确定当前分布式边缘端的原始待加密特征之后,可以基于留一法,确定当前需留剩的原始待加密特征,以及除当前留剩的原始待加密特征之外的原始待加密特征,并将除当前留剩的原始待加密特征之外的原始待加密特征,作为与当前留剩的原始待加密特征对应的非留剩待加密特征组,返回执行基于留一法,确定当前需留剩的原始待加密特征,以及除当前留剩的原始待加密特征之外的原始待加密特征的操作,直至确定当前分布式边缘端的全部非留剩待加密特征组。
59.步骤230、根据各非留剩待加密特征组,计算当前分布式边缘端的目标特征熵。
60.在本发明实施例中,可以计算每个非留剩待加密特征组的熵值,得到当前分布式边缘特征的目标特征熵。由于每个非留剩待加密特征组可以计算出对应的熵值,因此当前分布式边缘特征的目标特征熵为一个熵值组。
61.步骤240、更新当前分布式边缘端的原始待加密特征,并返回执行基于留一法以及当前分布式边缘端的原始待加密特征,确定各非留剩待加密特征组的操作,直至完成对全部分布式边缘端的目标特征熵的计算。
62.在本发明实施例中,可以更新当前分布式边缘端,即重新选择一个分布式边缘端作为当前分布式边缘端,并确定当前分布式边缘端的原始待加密特征,从而返回执行基于留一法以及当前分布式边缘端的原始待加密特征,确定各非留剩待加密特征组的操作,直至计算出全部分布式边缘端的目标特征熵。
63.步骤250、根据各目标特征熵以及原始待加密特征标识,确定加密训练样本以及加密测试样本。
64.在本发明的一个可选实施例中,根据各目标特征熵以及原始待加密特征标识,确定加密训练样本以及加密测试样本,可以包括:基于topsis,对各目标特征熵进行数据转化,得到各待处理偏好值数列;对各待处理偏好值数列进行权重均衡处理,得到各目标偏好值数列;根据原始待加密特征标识对各目标偏好值数列进行划分,得到加密训练样本以及加密测试样本。
65.其中,每个目标特征熵可以转换成一个待处理偏好值数列,待处理偏好值数列可以是对目标特征熵进行topsis(technique for order preferenceby similarity to ideal solution,优劣解距离法)转化,得到的一列数据。权重均衡处理可以是将待处理偏好值数列与对应的目标特征熵匹配的非留剩待加密特征组中原始待加密特征的数量,进行除法计算。目标偏好值数列可以是待处理偏好值数列进行权重均衡处理的结果。
66.在本发明实施例中,可以基于topsis,对各目标特征熵进行数据转化,分别得到与各目标特征熵对应的待处理偏好值数列,进而将各待处理偏好值数列,与对应的目标特征熵所匹配的非留剩待加密特征组中原始待加密特征的数量进行除法计算,即对各待处理偏好值数列进行权重均衡处理,得到各目标偏好值数列,减少待处理偏好值数列由于数量不同而带来的权重不均衡的影响,使其近似服从正态分布,减少不必要的误差。进一步,根据原始待加密特征标识对各目标偏好值数列进行划分,得到加密训练样本以及加密测试样本。
67.本发明实施例的技术方案,通过获取各分布式边缘端的原始待加密特征,从而基于留一法以及当前分布式边缘端的原始待加密特征,确定各非留剩待加密特征组,进而根据各非留剩待加密特征组,计算当前分布式边缘端的目标特征熵,进一步更新当前分布式边缘端的原始待加密特征,并返回执行基于留一法以及当前分布式边缘端的原始待加密特征,确定各非留剩待加密特征组的操作,直至完成对全部分布式边缘端的目标特征熵的计算,从而根据各目标特征熵以及原始待加密特征标识,确定加密训练样本以及加密测试样本。在本方案中,通过留一法熵值计算得到的目标特征熵,能够在保证原始待加密特征加密的同时,确保无法回溯至具体的原始待加密特征,并且留一法熵值计算可以很好的挖掘原始待加密特征的特征信息,因此最终确定的加密训练样本以及加密测试样本也能延续良好的数据机密性,还可以很好的保持源数据关键特征,保证样本数据质量,解决了同态加密算法生成样本存在的时间成本高、加密过程复杂以及特征提取效果不佳的问题,能够在保证数据机密性的同时,很好的提取关键特征。
68.实施例三
69.图3为本发明实施例三提供的一种模型训练方法的流程图,本实施例可适用于对加密样本进行数据分析的模型优化情况,该方法可以由模型训练装置来执行,该模型训练装置可以采用硬件和/或软件的形式实现,该模型训练装置可配置于电子设备中。该电子设备可以是汇聚端的计算机或服务器等,汇聚端为接收分布式边缘端生成的加密训练样本以及加密测试样本的数据端,如图3所示,该方法包括:
70.步骤310、获取加密训练样本以及加密测试样本。
71.在本发明实施例中,可以首先获取基于本发明任一实施例中的加密样本生成方法得到的加密训练样本以及加密测试样本。
72.步骤320、基于加密训练样本以及加密测试样本,对大数据分析模型进行训练测试,得到加密数据分析模型。
73.其中,大数据分析模型可以是任意具备大数据分析能力的模型。加密数据分析模型可以是基于加密训练样本以及加密测试样本对大数据分析模型进行训练测试后得到的模型。加密数据分析模型可以用于对加密数据进行分析预测。
74.在本发明实施例中,可以利用加密训练样本对大数据分析模型进行训练,并利用加密测试样本对训练完成的大数据分析模型进行测试以及模型参数优化,得到加密数据分析模型。
75.本发明实施例的技术方案,通过获取加密训练样本以及加密测试样本,从而基于加密训练样本以及加密测试样本,对大数据分析模型进行训练测试,得到加密数据分析模型。由于加密训练样本以及加密测试样本具备良好的数据机密性,还很好的保持源数据关键特征,能够保证样本数据质量,因此基于加密训练样本以及加密测试样本训练得到的加密数据分析模型,能够实现对加密数据的分析预测。
76.实施例四
77.图4为本发明实施例四提供的一种模型训练方法的流程图,本实施例以上述实施例为基础进行具体化,给出了基于加密训练样本以及加密测试样本,对大数据分析模型进行训练测试,得到加密数据分析模型之前,确定模型超参数的具体的可选的实施方式。如图4所示,该方法包括:
78.步骤410、基于optuna框架,构建大数据分析模型的模型超参数。
79.其中,模型超参数可以是网络模型的超参数。大数据分析模型可以包括lightgbm(轻量级梯度提升)模型。
80.在本发明实施例中,可以利用optuna(超参数调优)框架,动态构建超参数的搜索空间,确定大数据分析模型的模型超参数。
81.步骤420、根据模型超参数配置大数据分析模型。
82.在本发明实施例中,得到模型超参数之后,可以基于模型超参数对大数据分析模型进行配置。
83.步骤430、获取加密训练样本以及加密测试样本。
84.步骤440、基于加密训练样本以及加密测试样本,对大数据分析模型进行训练测试,得到加密数据分析模型。
85.在本发明的一个可选实施例中,基于加密训练样本以及加密测试样本,对大数据分析模型进行训练测试,得到加密数据分析模型,可以包括:设置模型优化迭代次数;根据
加密训练样本对大数据分析模型进行训练,得到待优化分析模型;根据加密测试样本对待优化分析模型的待修正测试结果、加密训练样本以及加密测试样本,对待优化分析模型进行迭代优化,得到加密数据分析模型。
86.其中,模型优化迭代次数可以是预先设置的模型迭代次数。待优化分析模型可以是基于加密训练样本对大数据分析模型进行预训练得到的模型。待修正测试结果可以是待优化分析模型对加密测试样本预测时输出的与加密测试样本不相符的预测结果。
87.在本发明实施例中,可以根据设备的算力和计算时间的实际需要,设置模型优化迭代次数,进一步将加密训练样本输入至大数据分析模型,对大数据分析模型进行训练,从而待优化分析模型,并利用加密测试样本对待优化分析模型进行测试,在待优化分析模型的预测结果与加密测试样本不相符时,将预测结果中与加密测试样本不相符的测试结果作为待优化分析模型的待修正测试结果,并将待修正测试结果添加至加密训练样本,按照模型优化迭代次数对待优化分析模型进行迭代优化,得到性能最佳的加密数据分析模型。
88.示例性的,对各个分布式边缘端的原始待加密特征进行数据预处理操作。如对每个特征进行归一化操作,消除量纲的影响,将数值范围缩小到0和1之间,减少不必要的误差。对各个分布式边缘端的原始待加密特征进行留一法熵值计算,进而对各个分布式边缘端的目标特征熵发送至汇聚端。
89.进一步,汇聚端中可以选择能自动处理缺失值和并行化操作的lightgbm模型作为大数据分析模型。在汇聚端配置lightgbm的参数,使用optuna框架可以动态构建模型超参数的搜索空间,学习指定样本集的超参数,减少损失函数的误差训练得到指定样本集的超参数估计。在汇聚端设置模型优化迭代次数(将多次迭代的结果选择最佳的迭代次数,用于加密测试样本的预测,增强了模型的鲁棒性和准确度。同时可以灵活调节迭代的次数,寻找时间和空间上的平衡,达到完美的效果),保存模型训练中每次迭代优化的中间结果,使用最佳参数对加密训练样本进行模型训练,并基于训练后的模型找到与监督结果不匹配的加密测试样本。在汇聚端对不匹配的样本的所有特征进行自适应特征重塑操作(迭代修正),加入到原来样本中,进行下一轮迭代,以此循环,直到退出模型迭代循环。在模型迭代训练过程中,以每轮迭代模型效果反馈学习,寻找将监督结果预测失误的数据进行特征重塑,不会导致发生较大的偏差,保留了加密特征更多的特点。本方案提出的特征加密方法在一定程度上克服特征同态加密后带来的信息损失,各分布式边缘端在本地可以并行加密特征,并且利用特征重塑加密迭代思想将模型和加密样本匹配数据集联系起来,取代了传统的单一修正特征的数据分布问题,确定了一种新的特征加密与模型自迭代修正方法,对应的流程逻辑如图5所示。
90.本方案将不加密算法模型、fate加密算法模型以及本方案的加密数据分析模型的模型效果进行比对,具体比对情况参见表1以及表2,表1与表2为不同场景下的模型效果对比。
91.表1模型5g用户预测效果比对表
[0092][0093]
表2模型股票预测效果比对表
[0094][0095]
表1中的f1值是精准率与召回率的调和平均数,表2中的mse值表示线性回归的损失函数。fate(微众联邦)加密算法模型是负提升效果,表明微众联邦进行加密相比不加密模型训练会带来一定的精度损失,这是一定存在的。这种适合在涉及数据隐私计算时可以稍微牺牲模型的预测精度达到数据安全加密的效果。其次,本方案模型也存在一定的精度损失,但是进行模型自迭代训练后,加密带来的损失逐渐减弱,误差控制在3%左右,因此在数据安全的情况下模型精度损失不大,该方法还是可观的,甚至加密后的提升效果比微众联邦算法好,提升效果非常显著,模型运行时间减少了近99%。而微众联邦的优点是数据加密安全,模型效果却一般。但与百度联邦paddlefl框架相比,微众联邦具有沙箱安全机制,对计算机资源的支持比较友好,不会出现cpu和内存爆满的情况。同时微众联邦对分类型数据的可塑性强,效果比较突出。缺点是在单机容器模型运行耗时长,后期汇聚时进行解密操作,期间涉及到多个分布式端之间的通信、数据传输、加密和解密的构造等,增加了时间的长度。
[0096]
因此通过大量不同数据场景的实验测试,可以确定在加密训练方面,本方案模型自迭代是优于微众联邦模型的,反复迭代后从而抵消加密带来的精度损失,预测的f1值更高,mse值更低。
[0097]
本发明实施例的技术方案,通过获取加密训练样本以及加密测试样本,从而基于加密训练样本以及加密测试样本,对大数据分析模型进行训练测试,得到加密数据分析模型。由于加密训练样本以及加密测试样本具备良好的数据机密性,还很好的保持源数据关键特征,能够保证样本数据质量,因此基于加密训练样本以及加密测试样本训练得到的加密数据分析模型,能够实现对加密数据的分析预测。
[0098]
实施例五
[0099]
图6为本发明实施例五提供的一种加密样本生成装置的结构示意图。
[0100]
如图6所示,该装置包括:
[0101]
原始待加密特征获取模块510,用于获取各分布式边缘端的原始待加密特征;
[0102]
目标特征熵确定模块520,用于对各分布式边缘端的原始待加密特征,进行留一法熵值计算,得到各目标特征熵;
[0103]
加密样本生成模块530,用于根据各目标特征熵以及原始待加密特征标识,确定加密训练样本以及加密测试样本。
[0104]
本发明实施例的技术方案,通过获取各分布式边缘端的原始待加密特征,从而对各分布式边缘端的原始待加密特征,进行留一法熵值计算,得到各目标特征熵,进而根据各目标特征熵以及原始待加密特征标识,确定加密训练样本以及加密测试样本。在本方案中,通过留一法熵值计算得到的目标特征熵,能够在保证原始待加密特征加密的同时,确保无法回溯至具体的原始待加密特征,并且留一法熵值计算可以很好的挖掘原始待加密特征的特征信息,因此最终确定的加密训练样本以及加密测试样本也能延续良好的数据机密性,还可以很好的保持源数据关键特征,保证样本数据质量,解决了同态加密算法生成样本存在的时间成本高、加密过程复杂以及特征提取效果不佳的问题,能够在保证数据机密性的同时,很好的提取关键特征。
[0105]
可选的,目标特征熵确定模块520,具体用于基于留一法以及当前分布式边缘端的原始待加密特征,确定各非留剩待加密特征组;根据各所述非留剩待加密特征组,计算所述当前分布式边缘端的目标特征熵;更新所述当前分布式边缘端的原始待加密特征,并返回执行基于留一法以及当前分布式边缘端的原始待加密特征,确定各非留剩待加密特征组的操作,直至完成对全部所述分布式边缘端的目标特征熵的计算。
[0106]
可选的,加密样本生成模块530,具体用于基于优劣解距离法topsis,对各所述目标特征熵进行数据转化,得到各待处理偏好值数列;对各所述待处理偏好值数列进行权重均衡处理,得到各目标偏好值数列;根据所述原始待加密特征标识对各所述目标偏好值数列进行划分,得到所述加密训练样本以及加密测试样本。
[0107]
本发明实施例所提供的加密样本生成装置可执行本发明任意实施例所提供的加密样本生成方法,具备执行方法相应的功能模块和有益效果。
[0108]
实施例六
[0109]
图7为本发明实施例六提供的一种模型训练装置的结构示意图。如图7所示,该装置包括:
[0110]
样本获取模块610,用于获取加密训练样本以及加密测试样本;
[0111]
加密数据分析模型确定模块620,用于基于加密训练样本以及加密测试样本,对大数据分析模型进行训练测试,得到加密数据分析模型;
[0112]
其中,加密训练样本以及加密测试样本为本发明任一实施例中的加密样本生成方法得到的样本。
[0113]
本发明实施例的技术方案,通过获取加密训练样本以及加密测试样本,从而基于加密训练样本以及加密测试样本,对大数据分析模型进行训练测试,得到加密数据分析模型。由于加密训练样本以及加密测试样本具备良好的数据机密性,还很好的保持源数据关键特征,能够保证样本数据质量,因此基于加密训练样本以及加密测试样本训练得到的加密数据分析模型,能够实现对加密数据的分析预测。
[0114]
可选的,模型训练装置还包括参数配置模块,用于基于超参数调优optuna框架,构建所述大数据分析模型的模型超参数;根据所述模型超参数配置所述大数据分析模型;其中,所述大数据分析模型包括轻量级梯度提升lightgbm模型。
[0115]
可选的,加密数据分析模型确定模块620,具体用于设置模型优化迭代次数;根据所述加密训练样本对所述大数据分析模型进行训练,得到待优化分析模型;根据所述加密测试样本对所述待优化分析模型的待修正测试结果、所述加密训练样本以及所述加密测试样本,对所述待优化分析模型进行迭代优化,得到所述加密数据分析模型。
[0116]
本发明实施例所提供的模型训练装置可执行本发明任意实施例所提供的模型训练方法,具备执行方法相应的功能模块和有益效果。
[0117]
实施例七
[0118]
图8示出了可以用来实施本发明的实施例的电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0119]
如图8所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(rom)12、随机访问存储器(ram)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序,来执行各种适当的动作和处理。在ram 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
[0120]
电子设备10中的多个部件连接至i/o接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0121]
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如加密样本生成方法或者模型训练方法。
[0122]
在一些实施例中,加密样本生成方法或者模型训练方法可被实现为计算机程序,
其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时,可以执行上文描述的加密样本生成方法或者模型训练方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行加密样本生成方法或者模型训练方法。
[0123]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0124]
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0125]
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0126]
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0127]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
[0128]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
[0129]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
[0130]
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

技术特征:
1.一种加密样本生成方法,其特征在于,包括:获取各分布式边缘端的原始待加密特征;对各所述分布式边缘端的原始待加密特征,进行留一法熵值计算,得到各目标特征熵;根据各所述目标特征熵以及原始待加密特征标识,确定加密训练样本以及加密测试样本。2.根据权利要求1所述的方法,其特征在于,所述对各所述分布式边缘端的原始待加密特征,进行留一法熵值计算,得到各目标特征熵,包括:基于留一法以及当前分布式边缘端的原始待加密特征,确定各非留剩待加密特征组;根据各所述非留剩待加密特征组,计算所述当前分布式边缘端的目标特征熵;更新所述当前分布式边缘端的原始待加密特征,并返回执行基于留一法以及当前分布式边缘端的原始待加密特征,确定各非留剩待加密特征组的操作,直至完成对全部所述分布式边缘端的目标特征熵的计算。3.根据权利要求2所述的方法,其特征在于,所述根据各所述目标特征熵以及原始待加密特征标识,确定加密训练样本以及加密测试样本,包括:基于优劣解距离法topsis,对各所述目标特征熵进行数据转化,得到各待处理偏好值数列;对各所述待处理偏好值数列进行权重均衡处理,得到各目标偏好值数列;根据所述原始待加密特征标识对各所述目标偏好值数列进行划分,得到所述加密训练样本以及加密测试样本。4.一种模型训练方法,其特征在于,包括:获取加密训练样本以及加密测试样本;基于所述加密训练样本以及所述加密测试样本,对大数据分析模型进行训练测试,得到加密数据分析模型;其中,所述加密训练样本以及所述加密测试样本为通过权利要求1-3任一所述的加密样本生成方法得到的样本。5.根据权利要求4所述的方法,其特征在于,所述基于所述加密训练样本以及所述加密测试样本,对大数据分析模型进行训练测试,得到加密数据分析模型之前,还包括:基于超参数调优optuna框架,构建所述大数据分析模型的模型超参数;根据所述模型超参数配置所述大数据分析模型;其中,所述大数据分析模型包括轻量级梯度提升lightgbm模型。6.根据权利要求4所述的方法,其特征在于,所述基于所述加密训练样本以及所述加密测试样本,对大数据分析模型进行训练测试,得到加密数据分析模型,包括:设置模型优化迭代次数;根据所述加密训练样本对所述大数据分析模型进行训练,得到待优化分析模型;根据所述加密测试样本对所述待优化分析模型的待修正测试结果、所述加密训练样本以及所述加密测试样本,对所述待优化分析模型进行迭代优化,得到所述加密数据分析模型。7.一种加密样本生成装置,其特征在于,包括:原始待加密特征获取模块,用于获取各分布式边缘端的原始待加密特征;
目标特征熵确定模块,用于对各所述分布式边缘端的原始待加密特征,进行留一法熵值计算,得到各目标特征熵;加密样本生成模块,用于根据各所述目标特征熵以及原始待加密特征标识,确定加密训练样本以及加密测试样本。8.一种模型训练装置,其特征在于,包括:样本获取模块,用于获取加密训练样本以及加密测试样本;加密数据分析模型确定模块,用于基于所述加密训练样本以及所述加密测试样本,对大数据分析模型进行训练测试,得到加密数据分析模型;其中,所述加密训练样本以及所述加密测试样本为通过权利要求1-3任一所述的加密样本生成方法得到的样本。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述的加密样本生成方法,或者,执行权利要求4-6中任一项所述的模型训练方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-3中任一项所述的加密样本生成方法,或者,实现权利要求4-6中任一项所述的模型训练方法。

技术总结
本发明公开了一种加密样本生成方法、模型训练方法、装置、设备及介质。加密样本生成方法,包括:获取各分布式边缘端的原始待加密特征;对各分布式边缘端的原始待加密特征,进行留一法熵值计算,得到各目标特征熵;根据各目标特征熵以及原始待加密特征标识,确定加密训练样本以及加密测试样本。本发明实施例的技术方案能够在保证数据机密性的同时,很好的提取关键特征。关键特征。关键特征。


技术研发人员:杨建雄 杜志高
受保护的技术使用者:北京思特奇信息技术股份有限公司
技术研发日:2023.06.26
技术公布日:2023/9/16
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐