一种安全高效的隐私数据采集方法及系统与流程
未命名
09-13
阅读:86
评论:0

1.本发明属于数据安全领域,涉及一种安全高效的隐私数据采集方法及系统。
背景技术:
2.在现代社会中,数据采集在各行各业中都扮演着不可替代的角色。随着信息技术的迅速发展和普及,大量的数据被生成、存储和传输,涉及到了各种各样的领域,包括但不限于金融、医疗、零售、交通、能源、农业等。这些数据对于进行业务分析、决策支持、科学研究等方面都具有重要的价值。数据采集作为数据处理的第一步,其准确性和效率对后续的数据分析和应用结果至关重要。然而,随着数据隐私保护法律法规的不断完善和人们对隐私保护意识的增强,数据采集过程中面临着越来越严格的隐私保护要求。在采集过程中,可能涉及到用户的个人身份、敏感信息、地理位置等隐私数据,如果这些数据在采集和传输过程中未经有效的保护,可能会导致隐私泄露和个人信息被滥用的风险。
3.为了保护用户的隐私,许多国家和地区制定了相关的法律法规,规定了数据采集和处理的合法性、合规性和安全性要求。在这样的背景下,数据采集方法需要满足严格的隐私保护要求。安全高效的数据采集方法应当采用加密技术保护数据在传输和存储过程中的安全,确保数据不被未授权的人员访问和窃取。本地差分隐私(localdifferentialprivacy,ldp)保护方法可以在数据采集的源头对数据进行隐私保护,不需要将原始数据传输到第三方或云端进行处理。这样可以有效减少数据泄露的风险,保护用户的隐私专利。并且它可以对数据进行差分化处理,添加噪音或扰动,使得数据不再直接关联到个体,从而保护个体的隐私。同时,本地差分隐私保护方法可以根据不同的需求和场景,灵活地设置隐私保护的强度,实现精细化的隐私保护。已经成为数据采集与隐私保护的重要技术手段。
4.目前,已有一些关于安全数据采集的研究工作。wang n,xiao x,yang y在“collecting and analyzing multidimensional data with local differential privacy”【in ieee 35th international conference on data engineering,pp.638-649,2019】研究了一种新的本地差分隐私机制,用于采集数字属性,其准确性至少不逊于现有解决方案,在最坏情况噪声方差方面通常表现更好。该机制还扩展到多维数据,且在最坏情况噪声方差方面始终优于现有解决方案。takagi s,cao y,yoshikawa m在“poster:data collection via local differential privacy with secret parameters”【in acm asia conference on computer and communications security,pp.910-912,2020】研究了隐私级别和实用程序如何随着数据提供者对隐私参数的保密而变化,并得出结论这种操作可以在效用损失较小的情况下增强隐私级别。通过将隐私参数视为公共信息或公共参数,数据提供者可以通过保密其首选隐私参数来放大隐私性并改善效用和隐私权衡。fatima z,yan l在“collective location statistics release with local differential privacy”【in future generation computer systems,vol:124,pp.147-186,2021】通过滑动窗口方法和隐私预算分配方法,可以发布集体位置统计数据并提供本地差分隐私证明。同时,还提
出了近似策略来共享与当前时间最近的私有统计信息,可以解决在多个时间戳上发布具有本地差异隐私的位置统计信息的问题。
5.在数据采集过程中,虽然上述方法考虑了数据的安全采集,但却忽略了数据的高维性和维度间的关联关系,这可能导致一些潜在的问题。高维数据通常包含多个维度的信息,而这些维度之间可能存在着复杂的关联关系。忽略这些关联关系可能导致数据的分析和决策支持过程中出现偏差或错误的结论。为了保留高维数据维度间的相关性,一般有两个方法。一种是对每一维数据进行单独保护,后使用回归算法迭代恢复出数据间的关联关系;另一种是将高维数据编码成一维数据,对此进行保护处理。前者不仅面临着恢复关联关系准确性低的问题还有着较高的计算复杂度,后者则面临着整体保护的通信开销大问题。
技术实现要素:
6.为了解决背景技术中存在的问题,本发明提供一种安全高效的隐私数据采集方法及系统,以提高采集效率、保护数据隐私,并减少通信开销,从而得到高质量的采集数据,并为后续的数据处理和分析提供可靠的基础。
7.为达到上述技术目的,本发明一方面提供一种安全高效的隐私数据采集方法,包括;
8.s1:利用z-curve编码算法将待采集的高维数据d编码到一维空间得到编码数据z;通过最优的细粒度γm将编码数据z划分为主段数据d
p
和子段数据ds;
9.s2:采用布隆计数器对主段数据d
p
进行隐私加密,采用本地差分隐私对子段数据进行加密;
10.s3:对加密后的主段数据和子段数据进行统计得到采集的数据
11.所述最优的细粒度γm的获取步骤包括:
12.s11:计算布隆计数器和本地差分隐私对主段数据和子段数据的联合隐私加密效果表达式、联合数据效用表达式、联合计算复杂度表达式和联合通信开销表达式;
13.s12:根据联合隐私加密效果表达式、联合数据效用表达式、联合计算复杂度表达式和联合通信开销表达式利用多目标优化公式确定最优的细粒度γm。
14.进一步地,所述将待采集的高维数据d编码到一维空间包括:
[0015][0016]
l=log2(l)
[0017]
其中,bi表示高维数据d在第i个维度的二进制表示;m表示高维数据d的维度数量;设高维数据d每个维度的取值范围为[0,l-1]之间的整数,则l表示高维数据d每个维度的取值。
[0018]
进一步地,所述将编码数据z划分为主段数据d
p
和子段数据ds包括:
[0019]
(d
p
,ds)=split(z,γm)
[0020]
其中,split表示拆分函数。
[0021]
进一步地,所述采用布隆计数器对主段数据d
p
进行隐私保护包括:
[0022]
布隆计数器由哈希函数和计数器组成,首先利用哈希函数计算主段数据中每一个元素在哈希表中的存储地址,将对应元素存储至哈希表中,使用计数器对哈希表中每个地
址对应元素的数量进行计数;
[0023][0024]
其中,表示主段数据d
p
中的第i个数据,当经过哈希函数计算后得到的存储地址为a,则将地址a对应的计数器ca进行加1。
[0025]
进一步地,所述采用本地差分隐私对子段数据进行保护包括:
[0026]
本地差分隐私采用olh机制对子段数据ds进行加密,首先利用哈希函数将子段数据ds映射为输入域t
′
,x
′
∈t
′
,将x
′
以p的概率报告自己的真实值,以q的概率扰动成为其他值表示为;
[0027][0028]
t
′
=h(ds)
[0029]
其中,h表示哈希函数,ε表示保护子段数据ds的隐私等级,y表示x
′
加密后的数据;g表示输入域t
′
的长度。
[0030]
进一步地,所述计算布隆计数器和本地差分隐私对主段数据和子段数据的隐私加密效果表达式、联合数据效用表达式、联合计算复杂度表达式和联合通信开销表达式包括:
[0031]
在布隆计数器处理过程中,布隆计数器的隐私加密效果定义为:
[0032][0033]
其中,表示布隆计数器的隐私加密效果,m表示哈希表的长度,k表示哈希函数的个数,n1表示主段数据中数据的个数,ca表示哈希表地址a对应的计数器计数;
[0034]
在本地差分隐私的保护过程中,本地差分隐私的保护效果定义为:
[0035][0036]
其中,表示本地差分隐私的隐私加密效果;
[0037]
则联合保护效果表达式表示为:
[0038][0039]
其中,α1表示权重参数,表示联合隐私加密效果;
[0040]
对于布隆计数器,其数据效用常用误差上界表示,对于主段数据为x1,x2,...,x
n1
,布隆计数器处理后的结果为y1,y2,...,y
n1
,则布隆计数器的数据效用为:
[0041][0042]
其中,k表示布隆计数器哈希函数的个数,m表示哈希表的长度,表示布隆计数
器的数据效用;
[0043]
对于本地差分隐私的数据效用表示为:
[0044][0045]
其中,表示本地差分隐私的数据效用,n2表示子段数据中数据的个数;
[0046]
则联合数据效用表达式表示为:
[0047][0048]
其中,α2表示权重参数,表示联合数据效用;
[0049]
布隆计数器处理数据的计算复杂度与哈希函数的数量k、哈希表的长度为m和主段数据中数据的个数n1有关,则布隆计数器的计算复杂度表示为:
[0050][0051]
其中,表示布隆计数器的计算复杂度;对于本地差分隐私的计算复杂度被定义为:
[0052][0053]
其中,d表示olh机制中使用哈希函数的个数,表示本地差分隐私的计算复杂度;
[0054]
则联合计算复杂度表达式可定义为:
[0055][0056]
其中,表示联合计算复杂度;
[0057]
布隆计数器处理数据的通信开销取决于传输的数据,即哈希表的长度m和哈希函数的参数,哈希函数的参数包括:哈希函数的个数k和哈希种子的长度,设每个哈希种子的长度为s比特,则哈希函数参数占用的存储空间为(ks)/8字节,则布隆计数器处理数据的通信开销本地差分隐私保护过程中,所采用的olh处理数据的通信开销计算为则联合通信开销表达式表示为c表示联合通信开销。
[0058]
进一步地,所述利用优化公式确定最优的细粒度γm包括:
[0059][0060]
其中,表示细粒度γ下的联合保护效果,表示细粒度γ下的联合数据效用,表示细粒度γ下的联合计算复杂度,表示细粒度γ下的联合通信开销,w1、w2、w3和w4表示权重参数。
[0061]
进一步地,所述对对加密后的主段数据和子段数据进行采集包括:
[0062]
主段数据通过查询布隆计数器中的哈希表中的数值可得,通过对哈希表地址中的数值查询得到主段数据d
p
中每个元素出现的次数即每个地址对应的计数器计数ca,根据
主段数据d
p
中每个元素出现的次数,使用本地差分隐私的校正操作得到主段数据d
p
下子段数据ds中每个元素出现的次数,具体计算公式如下:
[0063][0064]
其中,fi′
表示是子段数据中第i个元素出现的总次数,n2表示子段数据中数据的个数,统计得到主段数据d
p
下子段数据ds中第i个元素fi出现的次数,统计得到采集的数据
[0065]
本发明的另一方面提供一种安全高效的隐私数据采集系统,所述系统基于所述的一种安全高效的隐私数据采集方法,包括:用户端、边缘服务器和云端;
[0066]
所述用户端用于获取用户输入的待采集高维数据d;
[0067]
所述边缘服务器用于将高维数据d编码到一维空间得到编码数据z;通过最优的细粒度γm将编码数据z划分主段数据d
p
和子段数据ds;并采用布隆计数器对主段数据d
p
进行隐私加密,采用本地差分隐私对子段数据进行隐私加密;
[0068]
所述云端用于对加密后的主段数据和子段数据进行统计得到采集的数据
[0069]
进一步地,所述边缘服务器和云端通过安全通信方式ssh协议进行数据传输。
[0070]
本发明至少具有以下有益效果
[0071]
(1)本发明提出的分段保护方法,通数据的分段编码可以将待采集的高维数据整合成一个整体并进行分段处理,维护了高维数据间的关联关系,避免了在处理过程中丢失数据间的关联性,同时减少了单一大块数据的传输和处理压力,提高了采集过程的效率。
[0072]
(2)本发明提出的分段细粒度选择方法,根据采集通信开销、计算复杂度、隐私保护效果和数据效用,选择合适的数据片段细粒度,可以平衡效益和代价,达到最优的采集效果和隐私保护效果。
附图说明
[0073]
图1为本发明提供的安全高效的数据采集系统模型图;
[0074]
图2为本发明设计的分段隐私保护方法图。
具体实施方式
[0075]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0076]
请参阅图1和图2,本发明的一方面提供一种安全高效的隐私数据采集方法,包括:
[0077]
s1:利用z-curve编码算法将待采集的高维数据d编码到一维空间得到编码数据z;
通过最优的细粒度γm将编码数据z划分为主段数据d
p
和子段数据ds;
[0078]
主段代表的含义为数据的较大范围的信息例如广域位置,而子段代表的含义为数据的较小范围的信息例如广域位置下的局域位置或详细特征。s2:采用布隆计数器对主段数据d
p
进行隐私加密,采用本地差分隐私对子段数据进行加密;
[0079]
布隆计数器通过大规模数据查找、去重,概率性判断数据存在与否,无法获取具体值,而本地差分隐私通过随机化处理的方法,通过在数据中引入噪音来保护数据的隐私。
[0080]
s3:对加密后的主段数据和子段数据进行统计得到采集的数据
[0081]
所采集的数据反应了编码数据z(主段数据d
p
和子段数据ds)中的元素分布情况。
[0082]
为了确定最佳的主段范围,即分段细粒度γ,需要对两段保护方法隐私保护效果数据效用计算复杂度以及通信开销等因素做一个综合权衡,选择一个最佳的分段细粒度γ,使得在该范围内能够在这些方面取得一个较好的平衡,以满足具体应用场景的需求,所述最优的细粒度γm的获取步骤包括:
[0083]
s11:计算布隆计数器和本地差分隐私对主段数据和子段数据的联合隐私加密效果表达式、联合数据效用表达式、联合计算复杂度表达式和联合通信开销表达式;
[0084]
s12:根据联合隐私加密效果表达式、联合数据效用表达式、联合计算复杂度表达式和联合通信开销表达式利用多目标优化公式确定最优的细粒度γm。
[0085]
高维数d编码成一维信息采用z-curve编码将多维数据映射到一维空间z,将多维数据的各个维度的值转换为二进制表示;将上一步得到的二进制字符串中的每一位hilbert曲线的顺序进行组合,形成新的二进制字符串。具体来说,假设多维数据d有m个维度,每个维度的取值范围为[0,l-1],其中l为维度的取值个数。设多维数据的第i维的二进制表示为bi,其中i=1,2,...,m。
[0086]
进一步地,所述将待采集的高维数据d编码到一维空间包括:
[0087][0088]
l=log2(l)
[0089]
其中,bi表示高维数据d在第i个维度的二进制表示;m表示高维数据d的维度数量;设高维数据d每个维度的取值范围为[0,l-1]之间的整数,则l表示高维数据d每个维度的取值。
[0090]
进一步地,所述将编码数据z划分为主段数据d
p
和子段数据ds包括:
[0091]
(d
p
,ds)=split(z,γm)
[0092]
其中,split表示拆分函数。
[0093]
进一步地,所述采用布隆计数器对主段数据d
p
进行隐私保护包括:
[0094]
布隆计数器由哈希函数和计数器组成,首先利用哈希函数计算主段数据中每一个元素在哈希表中的存储地址,将对应元素存储至哈希表中,使用计数器对哈希表中每个地址对应元素的数量进行计数;
[0095]
[0096]
其中,表示主段数据d
p
中的第i个数据,当经过哈希函数计算后得到的存储地址为a,则将地址a对应的计数器ca进行加1。
[0097]
布隆计数器保护主段d
p
,布隆计数器是一种布隆滤波器的变种,通常使用一个数组来表示计数器,其中每个数组元素都对应一个计数。假设布隆计数器使用n1个计数器组成的数组表示,其中第i个计数器的值为ca,表示主段d
p
中元素i的计数值。初始时,所有的计数器都设置为零。对于每个元素的插入操作器。
[0098]
进一步地,所述采用本地差分隐私对子段数据进行保护包括:
[0099]
本地差分隐私采用olh机制对子段数据ds进行加密,首先利用哈希函数将子段数据ds映射为输入域t
′
,x
′
∈t
′
,将x
′
以p的概率报告自己的真实值,以q的概率扰动成为其他值表示为;
[0100][0101]
t
′
=h(ds)
[0102]
其中,h表示哈希函数,ε表示保护子段数据ds的隐私等级,y表示x
′
加密后的数据;g表示输入域t
′
的长度。
[0103]
本地差分隐私(localdifferentialprivacy,ldp)保护数据子段ds。给定隐私预算ε,随机函数m满足ε-ldp,当且仅当对于m的任意输入i和j(i,j∈dom(m)),以及任意输出总是满足下列不等式:
[0104]
pr[m(i)=z]≤e
ε
×
pr[m(j)=z]
[0105]
当算法m满足时ε-ldp,ldp可以保证任意两个输入的输出结果差值小于e
ε
。也就是说,在算法m之扰动数据后,攻击者很难根据它的输出来推断真实的输入。为保护数据子段ds使用满足ε-ldp的olh机制。
[0106]
进一步地,所述计算布隆计数器和本地差分隐私对主段数据和子段数据的隐私加密效果表达式、联合数据效用表达式、联合计算复杂度表达式和联合通信开销表达式包括:
[0107]
在布隆计数器处理过程中,布隆计数器的隐私加密效果定义为:
[0108][0109]
其中,表示布隆计数器的隐私加密效果,m表示哈希表的长度,k表示哈希函数的个数,n1表示主段数据中数据的个数,ca表示哈希表地址a对应的计数器计数;
[0110]
在本地差分隐私的保护过程中,本地差分隐私的保护效果定义为:
[0111][0112]
其中,表示本地差分隐私的隐私加密效果;
[0113]
则联合保护效果表达式表示为:
[0114][0115]
其中,α1表示权重参数,表示联合隐私加密效果;
[0116]
对于布隆计数器,其数据效用常用误差上界表示,对于主段数据为x1,x2,...,x
n1
,布隆计数器处理后的结果为y1,y2,...,y
n1
,则布隆计数器的数据效用为:
[0117][0118]
其中,k表示布隆计数器哈希函数的个数,m表示哈希表的长度,表示布隆计数器的数据效用;
[0119]
对于本地差分隐私的数据效用表示为:
[0120][0121]
其中,表示本地差分隐私的数据效用,n2表示子段数据中数据的个数;
[0122]
则联合数据效用表达式表示为:
[0123][0124]
其中,α2表示权重参数,表示联合数据效用;
[0125]
布隆计数器处理数据的计算复杂度与哈希函数的数量k、哈希表的长度为m和主段数据中数据的个数n1有关,则布隆计数器的计算复杂度表示为:
[0126][0127]
其中,表示布隆计数器的计算复杂度;对于本地差分隐私的计算复杂度被定义为:
[0128][0129]
其中,d表示olh机制中使用哈希函数的个数,表示本地差分隐私的计算复杂度;
[0130]
则联合计算复杂度表达式可定义为:
[0131][0132]
其中,表示联合计算复杂度;
[0133]
布隆计数器处理数据的通信开销取决于传输的数据,即哈希表的长度m和哈希函数的参数,哈希函数的参数包括:哈希函数的个数k和哈希种子的长度,设每个哈希种子的长度为s比特,则哈希函数参数占用的存储空间为(ks)/8字节,则布隆计数器处理数据的通信开销本地差分隐私保护过程中,所采用的olh处理数据的通信开销计算为则联合通信开销表达式表示为c表示联合通信开销。
[0134]
进一步地,所述利用优化公式确定最优的细粒度γm包括:
[0135][0136]
其中,表示细粒度γ下的联合保护效果,表示细粒度γ下的联合数据效用,表示细粒度γ下的联合计算复杂度,表示细粒度γ下的联合通信开销,w1、w2、w3和w4表示权重参数。
[0137]
进一步地,所述对对加密后的主段数据和子段数据进行采集包括:
[0138]
主段数据通过查询布隆计数器中的哈希表中的数值可得,通过对哈希表地址中的数值查询得到主段数据d
p
中每个元素出现的次数即每个地址对应的计数器计数ca,根据主段数据d
p
中每个元素出现的次数,使用本地差分隐私的校正操作得到主段数据d
p
下子段数据ds中每个元素出现的次数,具体计算公式如下:
[0139][0140]
其中,fi′
表示是子段数据中第i个元素出现的总次数,n2表示子段数据中数据的个数,统计得到主段数据d
p
下子段数据ds中第i个元素fi出现的次数,统计得到采集的数据
[0141]
本发明的另一方面提供一种安全高效的隐私数据采集系统,所述系统基于所述的一种安全高效的隐私数据采集方法,包括:用户端、边缘服务器和云端;
[0142]
所述用户端用于获取用户输入的待采集高维数据d;
[0143]
所述边缘服务器用于将高维数据d编码到一维空间得到编码数据z;通过最优的细粒度γm将编码数据z划分主段数据d
p
和子段数据ds;并采用布隆计数器对主段数据d
p
进行隐私加密,采用本地差分隐私对子段数据进行隐私加密;
[0144]
所述云端用于对加密后的主段数据和子段数据进行统计得到采集的数据
[0145]
进一步地,所述边缘服务器和云端通过安全通信方式ssh协议进行数据传输。
[0146]
优选地,一种安全高效的隐私数据采集系统的具体实施方式,包括:终端层:终端层由生成大量终端设备组成,产生了大量的数据,通过对这些数据进行采集,可以为智慧城市提供更加丰富和个性化的服务。
[0147]
边缘层:边缘层是由多个边缘服务器组成的网络层,位于地理上靠近数据源,例如车辆等。通过在边缘层进行实时数据处理和响应,避免了将数据传输至云端的风险,从而降低了数据被攻击或者篡改的风险。
[0148]
云层:云服务器是一个集中式的数据处理中心,可以进行长周期的数据分析、维护和决策等任务。与此同时,边缘服务器可以更接近数据源头,在处理实时数据和响应方面更加高效。通过云与边缘的协同,可以实现更全面、高效、安全的数据处理和计算,从而提高业务效率和数据安全性。
[0149]
云边协同安全高效隐私数据采集方法具体包含如下步骤:
[0150]
1)数据的分段编码:将待采集的数据d进行分段编码,将数据划分为2个片段分别
为主段和子段ds。主段代表的含义为数据的较大范围的信息例如广域位置,而子段代表的含义为数据的较小范围的信息例如广域位置下的局域位置或详细特征;
[0151]
2)分段隐私保护:边缘服务器根据用户的分段数据,分别采用布隆计数器保护主段d
p
的数据和本地差分隐私保护数据子段ds,其中布隆计数器通过大规模数据查找、去重,概率性判断数据存在与否,无法获取具体值,而本地差分隐私通过随机化处理的方法,通过在数据中引入噪音来保护数据的隐私;
[0152]
3)分段细粒度的选择:为了确定最佳的主段范围,即分段细粒度γ,需要对两段保护方法隐私保护效果数据效用计算复杂度以及通信开销等因素做一个综合权衡,选择一个最佳的分段细粒度γ,使得在该范围内能够在这些方面取得一个较好的平衡,以满足具体应用场景的需求;
[0153]
4)数据的采集:采集端分别对保护的主子片段和进行接收和处理,最终完成数据的汇总和处理,即其中传输过程中采用安全的通信方式
[0154]
本发明提出的分段保护方法,通数据的分段编码可以将待采集的高维数据整合成一个整体并进行分段处理,维护了高维数据间的关联关系,避免了在处理过程中丢失数据间的关联性,同时减少了单一大块数据的传输和处理压力,提高了采集过程的效率。
[0155]
本发明提出的分段细粒度选择方法,根据采集通信开销、计算复杂度、隐私保护效果和数据效用,选择合适的数据片段细粒度,可以平衡效益和代价,达到最优的采集效果和隐私保护效果。
[0156]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
技术特征:
1.一种安全高效的隐私数据采集方法,其特征在于,包括:s1:利用z-curve编码算法将待采集的高维数据d编码到一维空间得到编码数据z;通过最优的细粒度γ
m
将编码数据z划分为主段数据d
p
和子段数据d
s
;s2:采用布隆计数器对主段数据d
p
进行隐私加密,采用本地差分隐私对子段数据进行加密;s3:对加密后的主段数据和子段数据进行统计得到采集的数据所述最优的细粒度γ
m
的获取步骤包括:s11:计算布隆计数器和本地差分隐私对主段数据和子段数据的联合隐私加密效果表达式、联合数据效用表达式、联合计算复杂度表达式和联合通信开销表达式;s12:根据联合隐私加密效果表达式、联合数据效用表达式、联合计算复杂度表达式和联合通信开销表达式利用多目标优化公式确定最优的细粒度γ
m
。2.根据权利要求1所述的一种安全高效的隐私数据采集方法,其特征在于,所述将待采集的高维数据d编码到一维空间包括:l=log2(l)其中,b
i
表示高维数据d在第i个维度的二进制表示;m表示高维数据d的维度数量;设高维数据d每个维度的取值范围为[0,l-1]之间的整数,则l表示高维数据d每个维度的取值。3.根据权利要求1所述的一种安全高效的隐私数据采集方法,其特征在于,所述将编码数据z划分为主段数据d
p
和子段数据d
s
包括:(d
p
,d
s
)=split(z,γ
m
)其中,split表示拆分函数。4.根据权利要求1所述的一种安全高效的隐私数据采集方法,其特征在于,所述采用布隆计数器对主段数据d
p
进行隐私保护包括:布隆计数器由哈希函数和计数器组成,首先利用哈希函数计算主段数据中每一个元素在哈希表中的存储地址,将对应元素存储至哈希表中,使用计数器对哈希表中每个地址对应元素的数量进行计数;其中,表示主段数据d
p
中的第i个数据,当经过哈希函数计算后得到的存储地址为a,则将地址a对应的计数器c
a
进行加1。5.根据权利要求4所述的一种安全高效的隐私数据采集方法,其特征在于,所述采用本地差分隐私对子段数据进行保护包括:本地差分隐私采用olh机制对子段数据d
s
进行加密,首先利用哈希函数将子段数据d
s
映射为输入域t
′
,x
′
∈t
′
,将x
′
以p的概率报告自己的真实值,以q的概率扰动成为其他值表示为;
t
′
=h(d
s
)其中,h表示哈希函数,ε表示保护子段数据d
s
的隐私等级,y表示x
′
加密后的数据;g表示输入域t
′
的长度。6.根据权利要求5所述的一种安全高效的隐私数据采集方法,其特征在于,所述计算布隆计数器和本地差分隐私对主段数据和子段数据的隐私加密效果表达式、联合数据效用表达式、联合计算复杂度表达式和联合通信开销表达式包括:在布隆计数器处理过程中,布隆计数器的隐私加密效果定义为:其中,表示布隆计数器的隐私加密效果,m表示哈希表的长度,k表示哈希函数的个数,n1表示主段数据中数据的个数,c
a
表示哈希表地址a对应的计数器计数;在本地差分隐私的保护过程中,本地差分隐私的保护效果定义为:其中,表示本地差分隐私的隐私加密效果;则联合保护效果表达式表示为:其中,α1表示权重参数,表示联合隐私加密效果;对于布隆计数器,其数据效用常用误差上界表示,对于主段数据为x1,x2,...,x
n1
,布隆计数器处理后的结果为y1,y2,...,y
n1
,则布隆计数器的数据效用为:其中,k表示布隆计数器哈希函数的个数,m表示哈希表的长度,表示布隆计数器的数据效用;对于本地差分隐私的数据效用表示为:其中,表示本地差分隐私的数据效用,n2表示子段数据中数据的个数;则联合数据效用表达式表示为:其中,α2表示权重参数,表示联合数据效用;
布隆计数器处理数据的计算复杂度与哈希函数的数量k、哈希表的长度为m和主段数据中数据的个数n1有关,则布隆计数器的计算复杂度表示为:其中,表示布隆计数器的计算复杂度;对于本地差分隐私的计算复杂度被定义为:其中,d表示olh机制中使用哈希函数的个数,表示本地差分隐私的计算复杂度;则联合计算复杂度表达式可定义为:其中,表示联合计算复杂度;布隆计数器处理数据的通信开销取决于传输的数据,即哈希表的长度m和哈希函数的参数,哈希函数的参数包括:哈希函数的个数k和哈希种子的长度,设每个哈希种子的长度为s比特,则哈希函数参数占用的存储空间为(ks)/8字节,则布隆计数器处理数据的通信开销本地差分隐私保护过程中,所采用的olh处理数据的通信开销计算为则联合通信开销表达式表示为c表示联合通信开销。7.根据权利要求6所述的一种安全高效的隐私数据采集方法,其特征在于,所述利用优化公式确定最优的细粒度γ
m
包括:其中,表示细粒度γ下的联合保护效果,表示细粒度γ下的联合数据效用,表示细粒度γ下的联合计算复杂度,表示细粒度γ下的联合通信开销,w1、w2、w3和w4表示权重参数。8.根据权利要求7所述的一种安全高效的隐私数据采集方法,其特征在于,所述对对加密后的主段数据和子段数据进行采集包括:主段数据通过查询布隆计数器中的哈希表中的数值可得,通过对哈希表地址中的数值查询得到主段数据d
p
中每个元素出现的次数即每个地址对应的计数器计数c
a
,根据主段数据d
p
中每个元素出现的次数,使用本地差分隐私的校正操作得到主段数据d
p
下子段数据d
s
中每个元素出现的次数,具体计算公式如下:其中,f
i
′
表示是子段数据中第i个元素d
si
出现的总次数,n2表示子段数据中数据的个数,统计得到主段数据d
p
下子段数据d
s
中第i个元素f
i
出现的次数,统计得到采集的数据9.一种安全高效的隐私数据采集系统,所述系统基于权利要求1-8任一所述的一种安全高效的隐私数据采集方法,其特征在于,包括:用户端、边缘服务器和云端;所述用户端用于获取用户输入的待采集高维数据d;
所述边缘服务器用于将高维数据d编码到一维空间得到编码数据z;通过最优的细粒度γ
m
将编码数据z划分主段数据d
p
和子段数据d
s
;并采用布隆计数器对主段数据d
p
进行隐私加密,采用本地差分隐私对子段数据进行隐私加密;所述云端用于对加密后的主段数据和子段数据进行统计得到采集的数据10.根据权利要求9所述的一种安全高效的隐私数据采集系统,其特征在于,所述边缘服务器和云端通过安全通信方式ssh协议进行数据传输。
技术总结
本发明涉及一种安全高效的隐私数据采集方法及系统,包括:将待采集的高维数据d编码到一维空间得到编码数据Z;通过最优的细粒度γ
技术研发人员:王汝言 杨志刚 吴大鹏 张鸿 付露芬 李红霞
受保护的技术使用者:重庆信科设计有限公司
技术研发日:2023.05.29
技术公布日:2023/9/12
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/