隐私数据聚合方法与流程
未命名
07-12
阅读:78
评论:0

1.本发明涉信息安全技术,尤其涉及一种隐私数据聚合方法。
背景技术:
2.随着互联网技术及传感器的发展,大量的数据被传感器收集并用于后续的分析、计算。在这样的场景中,数据聚合也得到了越来越多的关注。数据聚合可以在执行确切的计算之前事先对收集的数据进行处理,提高通信和计算的效率。但是,在数据被收集的过程中,数据提供者的隐私可能会被同时收集,这会给数据提供者带来安全隐患,数据提供者也会因此放弃参与数据聚合过程。
3.现有的隐私数据聚合技术主要包含:秘密分享、安全聚合、多方安全计算、差分隐私等方法,大部分技术方案需要依赖可信第三方,用户数据全部暴露给可信服务器,其隐私泄漏风险较大,且攻击者可以从聚合结果中推断用户信息。本地化差分隐私技术不需要依赖可信第三方,可以保护聚合结果的隐私性,但是每个用户均需要对本地数据进行扰动,会造成数据可用性低。
技术实现要素:
4.有鉴于此,本发明提供一种隐私数据聚合方法,用以克服现有技术需要依赖可信第三方服务器,从而造成聚合结果存在泄漏用户隐私信息风险,且数据可用性低的问题。
5.为实现上述目的,本发明提供一种隐私数据聚合方法,包括:步骤s1,将多个本地的用户数据上传至多个tee服务器上,针对其中单个用户数据,中控模块通过秘密分享的方式将其拆分成多个二级数据后并将各二级数据依次上传至对应的tee服务器上;步骤s2,在所述中控模块将各所述二级数据上传至对应的所述tee服务器前,所述中控模块根据数据权重评价值c判定该用户数据的拆分是否符合预设标准,若中控模块判定针对单个所述用户数据的拆分不符合预设标准,中控模块对该用户数据进行重新拆分并在重新拆分前确定针对该用户数据进行重新拆分时的拆分标准的调节方式,其中,拆分标准包括各所述二级数据占比区间的边界值以及针对用户数据的二级数据拆分数量;步骤s3,所述中控模块在判定针对单个所述用户数据的拆分符合预设标准时在各所述tee服务器的飞地上去除各tee服务器接收的各所述二级数据的元数据,元数据包括id、ip地址以及时间戳;步骤s4,将各所述tee服务器内的各所述二级数据的顺序打乱;步骤s5,将各所述tee服务器内完成顺序打乱的各所述二级数据添加满足高斯分布的噪声后合并输出以完成对各用户隐私数据的聚合;所述中控模块根据调节后的属于单个所述用户数据的所述二级数据的字节数的平均值判定针对各二级数据添加的所述噪声的幅值是否符合预设标准。
6.进一步地,在所述步骤s2中,所述中控模块根据所述用户数据的字节数和该用户
数据的保密等级确定该用户数据的数据权重评价值c并在判定针对单个所述用户数据的拆分不符合预设标准时根据各所述二级数据的字节数或权重评价值c与第二预设数据权重评价值的差值确定该用户数据重新拆分时的拆分标准。
7.进一步地,所述中控模块在第一权重评价值比较条件下根据所述字节数确定所述拆分标准,以及,在第二权重评价值比较条件下根据所述差值确定所述拆分标准,其中,第一权重评价值比较条件为所述数据权重评价值大于等于第一预设数据权重评价值且小于第二预设数据权重评价值,第二权重评价值比较条件为所述数据权重评价值大于等于所述第二预设数据权重评价值。
8.进一步地,所述中控模块设有在所述第二权重评价值比较条件下增加针对单个所述用户数据进行重新拆分时该用户数据的拆分数量的若干数量调节方式,其中,使用每种调节方式拆分用户数据后得到的二级数据的数量均不相同。
9.进一步地,所述中控模块在第一权重评价值比较条件下设置有针对单个二级数据的判定结果的若干处理方式,包括在第一字节数比较条件下根据拆分后的二级数据的最大字节数与最小字节数之间的差值确定针对所述单个二级数据的调节方式,在第二字节数比较条件下根据单个二级数据的字节数与第一预设字节数之间的差值减小占比区间的右边界的边界值,以及,在第三字节数比较条件下根据测得的单个二级数据的字节数与第二预设字节数之间的差值将所述单个用户数据的拆分数量增加至对应值。
10.进一步地,所述第一字节数比较条件为单个二级数据的字节数小于第一预设字节数;所述第二字节数比较条件为单个二级数据的字节数大于等于所述第一预设字节数且小于第二预设字节数;所述第三字节数比较条件为所述单个二级数据的字节数大于等于所述第二预设字节数。
11.进一步地,所述中控模块设有在所述第二字节数比较条件下减小所述占比区间的右边界的边界值的若干边界值调节方式,其中,每种调节方式对减小边界值的调节大小不同。
12.进一步地,所述中控模块在所述第一字节数比较条件下针对单个二级数据的调节方式为在所述拆分后的二级数据的最大字节数与最小字节数之间的差值小于预设均匀性差值条件下将所述占比区间的左边界的边界值增大至对应值,或,在所述拆分后的二级数据的最大字节数与最小字节数之间的差值大于等于所述预设均匀性差值条件下将所述最大字节数的二级数据减小至对应值。
13.进一步地,所述中控模块在所述调节后的二级数据的数量大于所述tee服务器数量时判定将超出服务器数量的二级数据全部上传至单个tee服务器中,或,将超出服务器数量的二级数据按顺序上传至tee服务器中。
14.进一步地,所述中控模块设有若干针对判定所述步骤s5中所述噪声幅值不符合预设标准时增大所述噪声幅值的幅值调节方式,其中,每种调节方式对增大噪声幅值的调节大小不同。
15.与现有技术相比,本发明的有益效果在于,本发明通过将用户的本地数据通过秘密分享的方式上传至tee服务器上,因此不需要可信服务器,同时,在所述tee服务器的飞地上去除所述二级数据的元数据并将所述tee服务器内的二级数据的顺序打乱,数据打乱之后,无法将数据对齐,即使各服务器合谋也不能推断用户的隐私数据,再经过添加符合满足
高斯分布的噪声后聚合输出,因此攻击者无法从聚合后的输出数据推断有用信息,同时保证了数据的可用性。中控模块根据拆分后的单个二级数据的字节数确定针对单个二级数据的判定方式,或,根据求得的数据权重评价值与第二预设数据权重评价值之间的差值确定所述单个用户数据的拆分数量的调节方式,以克服现有技术中依赖可信第三方服务器,从而造成聚合结果存在泄漏风险,且数据可用性低的问题。
16.进一步地,中控模块设定所述单个用户的数据的数据权重评价值,从而精准的确定针对单个用户数据的拆分的判定方式,当拆分方式不符合预设标准时通过控制检测模块检所述拆分后的单个二级数据的字节数,中控模块根据测得的字节数确定针对所述单个二级数据的判定方式,或,将所述单个用户数据的拆分数量增加至对应值,从而增强了数据的隐私性。
17.进一步地,当用户数据的保密等级和数据量越大时候,中控模块将单个用户数据的拆分数量增加,从而增加数据的离散程度,使数据在顺序打乱后,增加了数据对齐的难度。
18.进一步地,拆分数据后的单个二级数据的字节数在不满足预设标准时,通过单个二级数据的字节数与第一预设字节数之间的差值减小所述占比区间的右边界的边界值至对应值或增加单个用户数据的拆分数量,从而解决单个单个二级数据的字节数过大的问题。
19.进一步地,为了避免随机选取占比值过大导致用户数据拆分的单个二级数据的信息过多,通过约束占比区间的右边界,降低右边界的边界值,解决了随机选取划分比例导致的单个二级数据的信息过多的问题。
20.进一步地,当中控模块判定单个二级数据的字节数符合预设标准时,进一步计算拆分后的二级数据的最大字节数与最小字节数之间的差值,从而针对性增大占比区间的左边界的边界值或将所述最大字节数的二级数据减小至对应值,并将所述最小字节数的二级数据增大至对应值,以此解决数据的均匀性问题。
21.进一步地,当调节后的二级数据的数量大于服务器的数量时,中控模块通过根据差值确定了待分配二级数据上传至tee服务器中的上传方式,从而解决了调节后数据上传的问题。
22.进一步地,当需要对用户添加噪声时,中控模块根据调节后的二级数据的字节数的平均值确定添加相应幅度的噪声信号,从而有效的提高了数据的隐私性。
23.进一步地,当二级数据字节数平均值过大时,通过增大添加的噪声的幅值,从而提高数据的隐私性。
24.进一步地,本发明还将用户的数据划定了保密等级并将其数字化,引入到数据权重评价值之中,对用户数据进行科学的划分,从而有效的进行数据划分、上传、添加噪声并聚合,最终克服了现有技术需要依赖可信第三方服务器,从而造成聚合结果存在泄漏用户隐私信息风险且数据可用性低的问题。
附图说明
25.图1为本发明实施例隐私数据聚合方法的流程图;图2为本发明实施例单个用户数据的拆分的判定方式;
图3为本发明实施例单个用户数据的拆分数量的调节方式;图4为本发明实施例单个二级数据的判定方式。
具体实施方式
26.下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
27.需要指出的是在本实施例中的数据均为通过本发明所述隐私数据聚合方法在进行本次堆肥之前的前三个月的历史检测数据以及对应的历史检测结果中综合分析评定得出。本发明所述中控模块在本次隐私数据聚合前根据前半年中累计进行的1225689次数据聚合过程中根据用户数据的大小、保密等级、二级数据的拆分数量、大小、添加噪声幅值综合确定针对本次数据聚合预设参数标准的数值。本领域的技术人员可以理解的是,本发明所述系统针对单项上述参数的确定方式可以为根据数据分布选取占比最高的数值作为预设标准参数、使用加权求和以将求得的数值作为预设标准参数、将各历史数据代入至特定公式并将利用该公式求得的数值作为预设标准参数或其他选取方式,只要满足本发明所述系统能够通过获取的数值明确界定单项判定过程中的不同特定情况即可。
28.请参阅图1、图2、图3以及图4所示,其分别本发明实施例隐私数据聚合方法的流程图;本发明实施例单个用户数据的拆分的判定方式;本发明实施例单个用户数据的拆分数量的调节方式;本发明实施例单个二级数据的判定方式。
29.本发明实施例的方法包括:步骤s1,将多个本地的用户数据上传至多个tee服务器上,针对其中单个用户数据,中控模块通过秘密分享的方式将其拆分成多个二级数据后并将各二级数据依次上传至对应的tee服务器上;设定用户的本地数据为,其中i=1,2,...,n,n为用户总数,设定占比区间[5%,30%],从该区间中随机选取k-1个数值,对于第j个数值,将其记为,并将其定义为基于拆分出来的第j个二级数据大小与总大小的占比,中控模块将占比拆分出来的二级数据记为,设定第k个占比,中控模块将第k个占比拆分出来的二级数据记为,则,以将用户的本地数据为拆分成k个二级数据;步骤s2,在所述中控模块将各所述二级数据上传至对应的所述tee服务器前,所述中控模块根据数据权重评价值c判定该用户数据的拆分是否符合预设标准,若中控模块判定针对单个所述用户数据的拆分不符合预设标准,中控模块对该用户数据进行重新拆分并在重新拆分前确定针对该用户数据进行重新拆分时的拆分标准的调节方式,其中,拆分标准包括各所述二级数据占比区间的边界值以及针对用户数据的二级数据拆分数量;步骤s3,所述中控模块在判定针对单个所述用户数据的拆分符合预设标准时在各所述tee服务器的飞地上去除各tee服务器接收的各所述二级数据的元数据,元数据包括id、ip地址以及时间戳;步骤s4,将各所述tee服务器内的各所述二级数据的顺序打乱;步骤s5,将所述tee服务器内完成顺序打乱的二级数据添加满足高斯分布的噪声
后合并输出以完成对各用户隐私数据的聚合,设定所述tee服务器f接收到的n个用户数据的二级数据为,...,,其中,f=1,2...,m,m为tee服务器的总数,为将其添加所述噪声后形成,各tee服务器将添加噪声后的数据聚合输出包含高斯噪声的总数据,其证明过程为:
[0030]
;所述中控模块根据调节后的属于单个所述用户数据的所述二级数据的字节数的平均值判定针对各二级数据添加的所述噪声的幅值是否符合预设标准。
[0031]
具体而言,在所述步骤s2中,中控模块设定所述单个用户数据的数据权重评价值,其中,α为权重评价系数,设定α=1.20,s为用户数据的字节数,q为用户数据的保密等级,β为保密等级系数,设定β=0.8,中控模块根据单个用户的数据的权重评价值确定针对所述步骤s1中单个用户数据的拆分的判定方式,其中,第一判定方式为所述中控模块判定所述单个用户数据的拆分符合预设标准,并将拆分后的数据上传至对应所述tee服务器上;所述第一判定方式满足所述数据权重评价值小于第一预设数据权重评价值,设定第一预设数据权重评价值为5500;第二判定方式为所述中控模块判定所述单个用户数据的拆分不符合预设标准,并控制检测模块检所述拆分后的单个二级数据的字节数,中控模块根据测得的字节数确定针对所述单个二级数据的判定方式;所述第二判定方式满足所述数据权重评价值大于等于所述第一预设数据权重评价值且小于第二预设数据权重评价值,设定第二预设数据权重评价值为8350;第三判定方式为所述中控模块判定所述单个用户数据的拆分不符合预设标准,并根据求得的数据权重评价值与所述第二预设数据权重评价值之间的差值将所述单个用户数据的拆分数量增加至对应值;所述第三判定方式满足所述数据权重评价值大于等于所述第二预设数据权重评价值。
[0032]
具体而言,所述中控模块在所述第三判定方式下计算数据权重评价值与所述第二预设数据权重评价值之间的差值,并将该差值记为权重差值,中控模块根据权重差值确定针对所述单个用户数据的拆分数量的调节方式,其中,第一数量调节方式所述中控模块使用第一预设数量调节系数1.1将所述单个用户数据的拆分数量增加至对应值,若不为整数,则向上取整;所述第一数量调节方式满足所述权重差值小于第一预设权重差值,设定第一预设权重差值为1150;第二数量调节方式所述中控模块使用第二预设数量调节系数1.2将所述单个用户数据的拆分数量增加至对应值,若不为整数,则向上取整;所述第二数量调节方式满足所述权重差值大于等于所述第一预设权重差值且小于第二预设权重差值,设定第二预设权重差值为2880;第三数量调节方式所述中控模块使用第三预设数量调节系数1.4将所述单个用户
数据的拆分数量增加至对应值,若不为整数,则向上取整;所述第三数量调节方式满足所述权重差值大于等于所述第二预设权重差值。
[0033]
具体而言,所述中控模块在所述第二判定方式下控制所述检测模块检测所述拆分后的单个二级数据的字节数,并根据测得的单个二级数据的字节数确定针对所述针对单个所述用户数据的拆分标准的调节方式,其中,第一拆分标准的调节方式为所述中控模块判定所述单个二级数据的字节数符合预设标准,并计算所述拆分后的二级数据的最大字节数与最小字节数之间的差值,中控模块根据计算的差值确定针对所述单个二级数据调节的判定方式;所述拆分标准的调节方式满足所述单个二级数据的字节数小于第一预设字节数,设定第一预设字节数为55
×
106;第二拆分标准的调节方式为所述中控模块判定所述单个二级数据的字节数不符合预设标准,并根据测得的单个二级数据的字节数与第一预设字节数之间的差值减小所述占比区间的右边界的边界值至对应值;所述第二拆分标准的调节方式满足所述单个二级数据的字节数大于等于所述第一预设字节数且小于第二预设字节数,设定第二预设字节数为125
×
106;第三拆分标准的调节方式为所述中控模块判定所述单个二级数据的字节数不符合预设标准,并根据测得的单个二级数据的字节数与第二预设字节数之间的差值将所述单个用户数据的拆分数量增加至对应值;所述第三拆分标准的调节方式满足所述单个二级数据的字节数大于等于所述第二预设字节数。
[0034]
具体而言,所述中控模块在所述第二拆分标准的调节方式下计算所述单个二级数据的字节数与第一预设字节数之间的差值,并将该差值记为字节数差值,中控模块根据字节数差值确定针对所述占比区间的右边界的边界值调节方式,其中,第一边界调节方式为所述调节模使用第一预设边界调节系数将所述边界值减小至对应值;所述第一边界调节方式满足所述字节数差值小于第一预设字节数差值,设定第一预设字节数差值为23
×
106;第二边界调节方式为所述调节模使用第二预设边界调节系数将所述边界值减小至对应值;所述第二边界调节方式满足所述字节数差值大于等于所述第一预设字节数差值且小于第二预设字节数差值,设定第二预设字节数差值为45
×
106;第三边界调节方式为所述调节模使用第三预设边界调节系数将所述边界值减小至对应值;所述第三边界调节方式满足所述字节数差值大于等于所述第二预设字节数差值。
[0035]
具体而言,所述中控模块在所述第一拆分标准的调节方式下计算所述拆分后的二级数据的最大字节数与最小字节数之间的差值,并将其记为均匀性差值,中控模块根据均匀性差值确定针对单个二级数据调节的判定方式,其中,第一调节判定方式为所述中控模块判定根据预设均匀性差值与求得的均匀性差值之间的差值将所述占比区间的左边界的边界值增大至对应值;所述第一调节判定方式满足所述均匀性差值小于预设均匀性差值,设定预设均匀性差值为15
×
106;第二调节判定方式为所述中控模块判定根据求得的均匀性差值与预设均匀性差值将所述最大字节数的二级数据减小至对应值,并将所述最小字节数的二级数据增大至对应值;所述第二调节判定方式满足所述均匀性差值大于等于预设均匀性差值。
[0036]
具体而言,所述中控模块在第一预设条件下计算所述调节后的二级数据的数量与所述服务器的差值,并将该差值记为路径差值,中控模块将二级数据中超过服务器数量的部分定义为待分配二级数据,并根据路径差值确定针对待分配二级数据上传至所述tee服务器的判定方式,其中,第一上传判定方式为所述中控模块判定所述待分配二级数据全部上传至单个所述tee服务器f中;所述第一上传判定方式满足所述路径差值小于预设路径差值,设定预设路径差值为3;第二上传判定方式为所述中控模块判定所述待分配二级数据按顺序上传至tee服务器1-m中;所述第二上传判定方式满足所述路径差值大于等于预设路径差值;所述第一预设条件满足所述调节后的所述单个用户拆分的二级数据的数量大于服务器数量。
[0037]
具体而言,在步骤s5中,所述中控模块在第二预设条件下计算调节后的二级数据的字节数的平均值,中控模块根据二级数据字节数平均值确定针对所述噪声幅值的判定方式,其中,第一幅值判定方式为所述中控模块判定所述噪声幅值符合预设标准,并将当前噪声添加到所述调节后的二级数据中;所述第一幅值判定方式满足所述二级数据字节数平均值小于预设字节数平均值,设定预设字节数平均值为38
×
106;第二幅值判定方式为所述中控模块判定所述噪声幅值不符合预设标准,并根据所述二级数据字节数平均值与预设字节数平均值之间的差值将所述噪声幅值增大至对应值;所述第二幅值判定方式满足所述二级数据字节数平均值大于等于预设字节数平均值;所述第二预设条件满足所述中控模块完成二级数据的调节。
[0038]
具体而言,所述中控模块在第二幅值判定方式下计算所述二级数据字节数平均值与预设字节数平均值之间的差值,并将该差值记为均值差值,中控模块根据均值差值确定针对所述噪声幅值的调节方式,其中,第一幅值调节方式为所述中控模块使用第一预设幅值调节系数1.05将所述噪声幅值调节至对应值;所述第一幅值调节方式满足所述均值差值小于第一预设均值差值,设定第一预设均值差值为3
×
106;第二幅值调节方式为所述中控模块使用第二预设幅值调节系数1.11将所述噪声幅值调节至对应值;所述第二幅值调节方式满足所述均值差值大于等于所述第一预设均值差值且小于第二预设均值差值,设定第二预设均值差值为5
×
106;第三幅值调节方式为所述中控模块使用第三预设幅值调节系数1.22将所述噪声幅值调节至对应值;所述第三幅值调节方式满足所述均值差值大于等于所述第二预设均值差值。
[0039]
具体而言,所述中控模块通过所述单个用户数据的分级确定针对所述用户数据的保密等级的判定方式,其中,第一保密等级判定方式为所述中控模块判定所述用户数据的保密等级为1,所述第一保密等级判定方式满足所述用户数据的状态为公开数据;第二保密等级判定方式为所述中控模块判定所述用户数据的保密等级为2,所述第二保密等级判定方式满足所述用户数据的状态为内部数据;
第三保密等级判定方式为所述中控模块判定所述用户数据的保密等级为3,所述第三保密等级判定方式满足所述用户数据的状态为重要数据;第四保密等级判定方式为所述中控模块判定所述用户数据的保密等级为4,所述第四保密等级判定方式满足所述用户数据的状态为核心数据。
[0040]
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
实施例1
[0041]
步骤s1,将4个用户的本地数据通过秘密分享的方式上传至3个tee服务器上,设定用户1的本地数据为,设定占比区间[5%,30%],从该区间中随机选取2个数值,对于第1个数值,将其记为,并将其定义为基于拆分出来的第1个二级数据大小与总大小的占比,选取为28%,第2个数值为22%,中控模块将拆分出来的二级数据记为,设定第3个占比,中控模块将第k个占比拆分出来的二级数据记为,则,以将用户的本地数据为拆分成3个二级数据,占比分别为28%,22%,50%,并将三个二级数据上传至3个tee服务器上;步骤s2,所述中控模块检测二级数据单个用户的数据,该单个用户的数据状态为公开数据,则保密等级为1,该单个用户数据的字节数为39.69
×
10
6 ,则求得数据权重评价值为4200,满足所述数据权重评价值小于第一预设数据权重评价值5500,则步骤s1划分合理。
[0042]
步骤s3,所述中控模块在判定针对单个所述用户数据的拆分符合预设标准时在各所述tee服务器的飞地上去除各tee服务器接收的各所述二级数据的元数据,元数据包括id、ip地址以及时间戳;步骤s4,将各所述tee服务器内的各所述二级数据的顺序打乱;步骤s5、将所述tee服务器内完成顺序打乱的二级数据添加满足高斯分布的噪声,设定所述tee服务器f接收到的4个用户数据的二级数据为,...,,其中,为将其添加所述噪声后形成,各tee服务器将添加噪声后的数据聚合输出包含高斯噪声的总数据,且添加的所述噪声的幅值符合预设标准。
实施例2
[0043]
步骤s1,将10个用户的本地数据通过秘密分享的方式上传至6个tee服务器上,设定用户1的本地数据为,设定占比区间[5%,30%],从该区间中随机选取5个数值,对于第1
个数值,将其记为,并将其定义为基于拆分出来的第1个二级数据大小与总大小的占比,选取为18%,第2-5个数值分别为22%、28%、15%、12%,则第6个占比比值为23%,将用户1的本地数据为拆分成6个二级数据,并上传至6个tee服务器上;步骤s2、所述中控模块检测二级数据单个用户,该单个用户的数据状态为公开数据,则保密等级为1,该单个用户数据的字节数为235.46
×
10
6 ,则求得数据权重评价值为10230,大于第二预设数据权重评价值8350,且差值为1880,中控模块判定所述单个用户数据的拆分不符合预设标准,并根据求得的数据权重评价值与所述第二预设数据权重评价值之间的差值将所述单个用户数据的拆分数量增加至对应值,重新拆分后为8个,重新将用户1的本地数据为拆分成8个二级数据,占比分别为:18%、10%、15%、12%、6%、12%、17%、10%,将前6个数据上传至6个tee服务器上,剩余2个二级数据由于小于预设路径差值3,则上传至第一个ee服务器上,所述中控模块重新检测调节后的二级数据单个用户的数据的数据权重评价值3995,满足要求;步骤s3,所述中控模块在判定针对单个所述用户数据的拆分符合预设标准时在各所述tee服务器的飞地上去除各tee服务器接收的各所述二级数据的元数据,元数据包括id、ip地址以及时间戳;步骤s4,将各所述tee服务器内的各所述二级数据的顺序打乱;步骤s5、将所述tee服务器内完成顺序打乱的二级数据添加满足高斯分布的噪声,设定所述tee服务器f接收到的10个用户数据的二级数据为,...,,其中,为将其添加所述噪声后形成,各tee服务器将添加噪声后的数据聚合输出包含高斯噪声的总数据,且添加的所述噪声的幅值符合预设标准。
实施例3
[0044]
步骤s1,将5个用户的本地数据通过秘密分享的方式上传至3个tee服务器上,设定用户1的本地数据为,设定占比区间[5%,30%],从该区间中随机选取2个数值,对于第1个数值,将其记为,并将其定义为基于拆分出来的第1个二级数据大小与总大小的占比,选取为29%,第2个数值为28%,中控模块将拆分出来的二级数据记为,设定第3个占比,中控模块将第k个占比拆分出来的二级数据记为,则,以将用户的本地数据为拆分成3个二级数据,占比分别为29%,28%,43%,并将三个二级数据上传至3个tee服务器上;步骤s2,所述中控模块检测二级数据单个用户,该单个用户的数据状态为公开数据,则保密等级为2,该单个用户数据的字节数为14.63
×
10
6 ,则求得数据权重评价值为5100,满足所述数据权重评价值小于第一预设数据权重评价值5500,则步骤s1划分合理。
[0045]
步骤s3,所述中控模块在判定针对单个所述用户数据的拆分符合预设标准时在各所述tee服务器的飞地上去除各tee服务器接收的各所述二级数据的元数据,元数据包括id、ip地址以及时间戳;步骤s4,将各所述tee服务器内的各所述二级数据的顺序打乱;步骤s5,将所述tee服务器内完成顺序打乱的二级数据添加满足高斯分布的噪声,设定所述tee服务器f接收到的5个用户数据的二级数据为,...,,其中,为将其添加所述噪声后形成,各tee服务器将添加噪声后的数据聚合输出包含高斯噪声的总数据,当前噪声幅值添加符合要求。
[0046]
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
[0047]
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种隐私数据聚合方法,其特征在于,包括:步骤s1,将多个本地的用户数据上传至多个tee服务器上,针对其中单个用户数据,中控模块通过秘密分享的方式将其拆分成多个二级数据后并将各二级数据依次上传至对应的tee服务器上;步骤s2,在所述中控模块将各所述二级数据上传至对应的所述tee服务器前,所述中控模块根据数据权重评价值c判定该用户数据的拆分是否符合预设标准,若中控模块判定针对单个所述用户数据的拆分不符合预设标准,中控模块对该用户数据进行重新拆分并在重新拆分前确定针对该用户数据进行重新拆分时的拆分标准的调节方式,其中,拆分标准包括各所述二级数据占比区间的边界值以及针对用户数据的二级数据拆分数量;步骤s3,所述中控模块在判定针对单个所述用户数据的拆分符合预设标准时在各所述tee服务器的飞地上去除各tee服务器接收的各所述二级数据的元数据,元数据包括id、ip地址以及时间戳;步骤s4,将各所述tee服务器内的各所述二级数据的顺序打乱;步骤s5,将各所述tee服务器内完成顺序打乱的各所述二级数据添加满足高斯分布的噪声后合并输出以完成对各用户隐私数据的聚合;所述中控模块根据调节后的属于单个所述用户数据的所述二级数据的字节数的平均值判定针对各二级数据添加的所述噪声的幅值是否符合预设标准。2.根据权利要求1所述的隐私数据聚合方法,其特征在于,在所述步骤s2中,所述中控模块根据所述用户数据的字节数和该用户数据的保密等级确定该用户数据的数据权重评价值c并在判定针对单个所述用户数据的拆分不符合预设标准时根据各所述二级数据的字节数或权重评价值c与第二预设数据权重评价值的差值确定该用户数据重新拆分时的拆分标准。3.根据权利要求2所述的隐私数据聚合方法,其特征在于,所述中控模块在第一权重评价值比较条件下根据所述字节数确定所述拆分标准,以及,在第二权重评价值比较条件下根据所述差值确定所述拆分标准,其中,第一权重评价值比较条件为所述数据权重评价值大于等于第一预设数据权重评价值且小于第二预设数据权重评价值,第二权重评价值比较条件为所述数据权重评价值大于等于所述第二预设数据权重评价值。4.根据权利要求3所述的隐私数据聚合方法,其特征在于,所述中控模块设有在所述第二权重评价值比较条件下增加针对单个所述用户数据进行重新拆分时该用户数据的拆分数量的若干数量调节方式,其中,使用每种调节方式拆分用户数据后得到的二级数据的数量均不相同。5.根据权利要求2所述的隐私数据聚合方法,其特征在于,所述中控模块在第一权重评价值比较条件下设置有针对单个二级数据的判定结果的若干处理方式,包括在第一字节数比较条件下根据拆分后的二级数据的最大字节数与最小字节数之间的差值确定针对所述单个二级数据的调节方式,在第二字节数比较条件下根据单个二级数据的字节数与第一预设字节数之间的差值减小占比区间的右边界的边界值,以及,在第三字节数比较条件下根据测得的单个二级数据的字节数与第二预设字节数之间的差值将所述单个用户数据的拆分数量增加至对应值。6.根据权利要求5所述的隐私数据聚合方法,其特征在于,所述第一字节数比较条件为
单个二级数据的字节数小于第一预设字节数;所述第二字节数比较条件为单个二级数据的字节数大于等于所述第一预设字节数且小于第二预设字节数;所述第三字节数比较条件为所述单个二级数据的字节数大于等于所述第二预设字节数。7.根据权利要求6所述的隐私数据聚合方法,其特征在于,所述中控模块设有在所述第二字节数比较条件下减小所述占比区间的右边界的边界值的若干边界值调节方式,其中,每种调节方式对减小边界值的调节大小不同。8.根据权利要求7所述的隐私数据聚合方法,其特征在于,所述中控模块在所述第一字节数比较条件下针对单个二级数据的调节方式为在所述拆分后的二级数据的最大字节数与最小字节数之间的差值小于预设均匀性差值条件下将所述占比区间的左边界的边界值增大至对应值,或,在所述拆分后的二级数据的最大字节数与最小字节数之间的差值大于等于所述预设均匀性差值条件下将所述最大字节数的二级数据减小至对应值。9.根据权利要求8所述的隐私数据聚合方法,其特征在于,所述中控模块在所述调节后的二级数据的数量大于所述tee服务器数量时判定将超出服务器数量的二级数据全部上传至单个tee服务器中,或,将超出服务器数量的二级数据按顺序上传至tee服务器中。10.根据权利要求9所述的隐私数据聚合方法,其特征在于,所述中控模块设有若干针对判定所述步骤s5中所述噪声幅值不符合预设标准时增大所述噪声幅值的幅值调节方式,其中,每种调节方式对增大噪声幅值的调节大小不同。
技术总结
本发明涉信息安全技术,尤其涉及一种隐私数据聚合方法,包括,步骤S1,将多个本地的用户数据上传至多个TEE服务器上;步骤S2,所述中控模块在判定针对单个所述用户数据的拆分;步骤S3,在各所述TEE服务器的飞地上去除各所述二级数据的元数据;步骤S4,将所述TEE服务器内的各二级数据的顺序打乱;步骤S5,将所述TEE服务器内完成顺序打乱的二级数据添加满足高斯分布的噪声后合并输出以完成对各用户隐私数据的聚合,以克服现有技术中依赖可信第三方服务器,从而造成聚合结果存在泄漏风险,且数据可用性低的问题。用性低的问题。用性低的问题。
技术研发人员:李延凯 梁栋
受保护的技术使用者:北京原语科技有限公司
技术研发日:2023.06.06
技术公布日:2023/7/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/