数据相似度计算方法、装置、电子设备以及存储介质与流程

未命名 09-13 阅读:87 评论:0


1.本发明涉及数据处理领域,具体而言,涉及一种数据相似度计算方法、装置、电子设备以及存储介质。


背景技术:

2.随着科技的发展,数据已经被认定为除了传统意义上的土地、劳动力、资本和技术以外的第五大生产要素,数据在企业的生产和经营管理中扮演着越来越重要的角色。在传统企业中由于早期数据管理的不完善,缺乏系统的管理说明和完整清晰的文档等问题,使得系统管理人员难以理解数据本身的含义,因此,需要对数据进行溯源,通过计算数据间的相似性,找到数据的链路关系,从而对数据进行梳理,使数据发挥出应有的价值。目前,梳理数据的工作主要依靠人工,但是梳理数据严重依赖员工的熟练程度,因此需要花费大量的人力物力,成本较高并且梳理数据的准确性较低。


技术实现要素:

3.本发明的目的在于一种数据相似度计算方法、装置、电子设备以及存储介质,以解决现有技术中存在的梳理数据成本高、准确性较低的问题。
4.本发明的实施例可以这样实现:
5.第一方面,本发明提供一种数据相似度计算方法,所述方法包括:
6.获取关系型数据库中数据类型相同的第一数据以及第二数据;
7.对所述第一数据以及所述第二数据进行抽样处理,获得第一抽样数据以及第二抽样数据,其中,第一抽样数据为所述第一数据对应的抽样数据,第二抽样数据为所述第二数据对应的抽样数据;
8.基于所述第一数据和所述第二数据的数据类型,对所述第一抽样数据以及所述第二抽样数据进行相似度计算,确定所述第一数据与所述第二数据的相似度。
9.在可选的实施方式中,所述对所述第一数据以及所述第二数据进行抽样处理,获得所述第一抽样数据以及所述第二抽样数据,包括:
10.基于所述第一数据中包括的元素数量以及所述第二数据中包括的元素数量,确定样本容量;
11.基于所述第一数据中包括的元素数量以及所述样本容量,确定第一抽样距离,并基于所述第二数据中包括的元素数量以及所述样本容量,确定第二抽样距离;
12.获取第一随机数值以及第二随机数值;
13.基于所述第一抽样距离以及所述第一随机数值,获得所述第一抽样数据,并基于所述第二抽样距离以及所述第二随机数值,获得所述第二抽样数据。
14.在可选的实施方式中,所述基于所述第一数据中包括的元素数量以及所述第二数据中包括的元素数量,确定样本容量,包括:
15.获取预设样本容量;
16.当所述第一数据中包括的元素数量以及所述第二数据中包括的元素数量均大于预设样本容量时,则确定所述预设样本容量为样本容量;
17.当所述第一数据中包括的元素数量或所述第二数据中包括的元素数量小于所述预设样本容量时,则确定所述第一数据中包括的元素数量和所述第二数据中包括的元素数量中的最小值为样本容量。
18.在可选的实施方式中,所述基于所述第一抽样距离以及所述第一随机数值,获得所述第一抽样数据,并基于所述第二抽样距离以及所述第二随机数值,获得所述第二抽样数据,包括:
19.将所述第一数据按照所述第一抽样距离进行分段,在所述第一数据的奇数段中抽取第j1k1+i 1
个元素,并在所述第一数据的偶数段中抽取第(j1+1)k
1-i 1
个元素,将抽取出的所有元素作为第一抽样数据;其中,k1表示所述第一抽样距离,i 1
表示所述第一随机数值,0≤i 1
<k1;j1+1表示所述第一数据对应的数据段编号;
20.将所述第二数据按照所述第二抽样距离进行分段,在所述第二数据的奇数段中抽取第j2k2+i2个元素,并在所述第二数据的偶数段中抽取第(j2+1)k
2-i2个元素,将抽取出的所有元素作为第一抽样数据,其中,k2表示所述第二抽样距离,i2表示所述第二随机数值,0≤i2<k2;j2+1表示所述第二数据对应的数据段编号。
21.在可选的实施方式中,所述基于所述第一数据和第二数据的数据类型,对所述第一抽样数据以及所述第二抽样数据进行相似度计算,确定所述第一数据与所述第二数据的相似度,包括:
22.在所述第一数据和所述第二数据的数据类型为数值型的情况下,基于所述第一抽样数据以及所述第二抽样数据,获得所述第一抽样数据对应的概率分布以及所述第二数据抽样数据对应的概率分布;
23.基于所述第一抽样数据对应的概率分布以及所述第二数据抽样数据对应的概率分布,获得交叉熵以及所述第一抽样数据对应的熵;
24.基于所述交叉熵与所述第一抽样数据对应的熵的差值,获得所述第一抽样数据与所述第二抽样数据的相对熵,以便根据所述相对熵确定所述第一数据与所述第二数据的相似度。
25.在可选的实施方式中,所述基于所述第一数据和第二数据的数据类型,对所述第一抽样数据以及所述第二抽样数据进行相似度计算,确定所述第一数据与所述第二数据的相似度,包括:
26.在所述第一数据和所述第二数据的数据类型为字符型的情况下,对所述第一抽样数据以及所述第二抽样数据进行词向量处理,获得第一词向量序列以及第二词向量序列;所述第一词向量序列包括多个第一词向量,所述第二词向量序列包括多个第二词向量;
27.计算每个所述第一词向量与每个所述第二词向量之间的余弦相似度,根据每个所述第一词向量与每个所述第二词向量之间的余弦相似度构建相似度矩阵;
28.从所述相似度矩阵中选取最大元素,将所述最大元素所在行和列从所述相似度矩阵中删除,并从所述相似度矩阵的剩余元素中选取最大元素,直到所述相似度矩阵中的最后一个元素被选取;
29.根据从所述相似度矩阵中选取出的所有元素,构建相似度集合;
30.计算所述相似度集合中大于预设阈值的元素数量与总元素数量之间的比值,得到所述第一数据与所述第二数据的相似度。
31.第二方面,本发明提供一种数据相似度计算装置,所述装置包括:
32.数据获取模块,用于获取关系型数据库中数据类型相同的第一数据以及第二数据;
33.数据抽样模块,用于对所述第一数据以及所述第二数据进行抽样处理,获得第一抽样数据以及第二抽样数据,其中,第一抽样数据为所述第一数据对应的抽样数据,第二抽样数据为所述第二数据对应的抽样数据;
34.相似度确定模块,用于基于所述第一数据和所述第二数据的数据类型,对所述第一抽样数据以及所述第二抽样数据进行相似度计算,确定所述第一数据与所述第二数据的相似度。
35.在可选的实施方式中,所述数据抽样模块包括:
36.样本容量确定子模块,用于基于所述第一数据中包括的元素数量以及所述第二数据中包括的元素数量,确定样本容量;
37.抽样距离确定子模块,用于基于所述第一数据中包括的元素数量以及所述样本容量,确定第一抽样距离,并基于所述第二数据中包括的元素数量以及所述样本容量,确定第二抽样距离;
38.随机数值获取子模块,获取第一随机数值以及第二随机数值;
39.抽样数据获取子模块,基于所述第一抽样距离以及所述第一随机数值,获得所述第一抽样数据,并基于所述第二抽样距离以及所述第二随机数值,获得所述第二抽样数据。
40.第三方面,本发明提供一种电子设备,包括存储器和处理器,所述存储器耦接到所述处理器,所述存储器存储计算机程序,当所述计算机程序由所述处理器执行时实现如前述实施方式任一项所述的方法。
41.第四方面,本发明提供一种计算机可读取存储介质,所述计算机可读取存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式任一项所述的方法。
42.本发明实施例提供的数据相似度计算方法、装置、电子设备以及存储介质,该方法获取关系型数据库中数据类型相同的第一数据以及第二数据,对第一数据以及第二数据进行抽样处理,获得第一抽样数据以及第二抽样数据,根据第一数据和第二数据的数据类型,对第一抽样数据以及第二抽样数据进行相似度计算,确定第一数据与所述第二数据的相似度,本发明实施例通过获取相同数据类型的数据并进行抽样处理,进而计算数据间的相似度,可以有效降低梳理数据的成本,提高梳理数据的准确性。
附图说明
43.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
44.图1示出了本发明实施例提供的数据相似度计算方法的流程示意图;
45.图2示出了本发明一个实施例提供的数据相似度计算方法的流程示意图;
46.图3示出了本发明的图2所示的数据相似度计算方法的步骤s121的流程示意图;
47.图4示出了本发明一个实施例提供的数据相似度计算方法的流程示意图;
48.图5示出了本发明一个实施例提供的数据相似度计算方法的流程示意图;
49.图6示出了本发明实施例提供的数据相似度计算装置的模块框图;
50.图7示出了本发明实施例用于执行根据本发明实施例的数据相似度计算方法的电子设备的框图。
51.图标:100-电子设备;110-处理器;120-存储器;200-数据相似度计算装置;210-数据获取模块;220-数据抽样模块;230-相似度确定模块。
具体实施方式
52.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
53.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
54.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
55.在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
56.此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
57.需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
58.随着科技的发展,数据认定为除了传统意义上的土地、劳动力、资本和技术以外的第五大生产要素,数据在企业的生产和经营管理中扮演着越来越重要的角色。近几年来随着数字化的进一步发展,企业也积累了海量的生产管理和经营数据。这些数据已经成为企业的一项重要资产,在企业的经营和管理中扮演着越来越重要的一个作用,如何认识数据,发觉数据的价值,是数据治理的一项核心任务,在传统企业中由于早期数据管理的不完善,系统建设时间较早,缺乏系统的管理说明和完整清晰的文档等问题,使得系统管理人员难以理解数据本身的含义,无法对数据进行挖掘分析,因此,需要对数据进行溯源,通过计算数据间的相似度,找到数据的链路关系,从而对数据进行挖掘分析,使数据发挥出应有的价值。
59.目前,数据梳理主要是依靠人工判断识别数据,这一过程严重依赖于某几位对于业务了解的员工,但如果人员对于底层数据结构不了解,缺乏业务到数据的映射关系,通常
需要花费大量的人力物力完成数据梳理的工作,同时在数据量大,需要梳理的系统较多时,人工梳理基本不具备可操作性,同时人工梳理结果中仍存在大量难以判断的内容,因此,通过人体梳理数据需要花费大量的人力物力,导致梳理数据的成本较高并且准确定性较低。
60.针对上述问题,发明人经过长期的研究发现,并提出了本发明实施例提供的数据相似度计算方法、装置、电子设备以及存储介质,其可以通过获取相同数据类型的数据并进行抽样处理,进而计算数据间的相似度,可以有效降低梳理数据的成本,提高梳理数据的准确性。其中,具体的数据相似度计算方法在后续的实施例中进行详细的说明。
61.请参阅图1,图1示出了本发明实施例提供的数据相似度计算方法的流程示意图。该数据相似度计算方法可以应用于服务器、个人电脑(personal computer,pc)、平板电脑等电子设备中。下面将以电子设备为例,说明本实施例的具体流程。下面将针对图1所示的流程进行详细的阐述,该数据相似度计算方法具体可以包括以下步骤:
62.步骤s110:获取关系型数据库中数据类型相同的第一数据以及第二数据。
63.在本实施例中,关系型数据库中包括的数据类型有字符型、数值型、id或时间型以及类别型,电子设备可以获取关系型数据库中数据类型相同的第一数据以及第二数据,其中,第一数据可以分别来自两个文档中的其中一段,第一数据和第二数据可以为同一文档中的其中一段。作为一种实施方式,第一数据和第二数据的类型可以均为字符型,作为另一种实施方式,第一数据和第二数据的类型可以均为数值型,具体第一数据和第二数据的数据类型在此不做限定。
64.在一些实施方式中,电子设备可以直接获取关系型数据库中数据类型相同的第一数据以及第二数据。
65.作为一种方式,针对非隐私数据,如公开的文档,电子设备可以自动从网络中采集文档,构建关系型数据库,还可以自动从电子设备本地获取文档,构建关系型数据库,从关系型数据库中获取第一数据以及第二数据。或者,电子设备可以根据用户下发的任务指令,从网络中采集文档,根据采集的文档构建成关系型数据库,并从构建的关系型数据库中获取第一数据以及第二数据。
66.作为另一种方式,针对隐私数据,如加密的文档,则可以在获得授权的基础上,电子设备再自动从网络中采集文档,构建关系型数据库,还可以自动从电子设备本地获取采集文档,构建关系型数据库,并从关系型数据库中获取第一数据以及第二数据。或者,在获得授权的基础上,电子设备再根据用户下发的任务指令,从网络中采集文档集,还可以根据用户下发的任务指令从电子设备本地采集文档,根据采集的文档构建成关系型数据库,并从构建的关系型数据库中获取第一数据以及第二数据。
67.在一些实施方式中,电子设备从关系型数据库中获取第一数据以及第二数据,对第一数据的数据类型以及第二数据的数据类型进行判断,当判断结果表示第一数据的类型与第二数据的类型不同时,直接返回第一数据与第二数据的相似度为0;当判断结果表示第一数据的类型与第二数据的类型相同时,对第一数据以及第二数据进行抽样处理,获得抽样后的第一数据以及抽样后的第二数据。可以理解的是,第一数据的数据类型与第二数据的数据类型不同时,不用计算第一数据与第二数据之间的相似度,直接返回即可,则可以直接从关系型数据库中直接获取相同数据类型的第一数据以及第二数据。
68.步骤s120:对第一数据以及第二数据进行抽样处理,获得第一抽样数据以及第二
抽样数据,其中,第一抽样数据为第一数据对应的抽样数据,第二抽样数据为第二数据对应的抽样数据。
69.在本实施例中,当从关系型数据库中获取第一数据以及第二数据后,对第一数据和第二数据进行抽样处理,获得第一抽样数据以及第二抽样数据,需要说明的是,为了保证数据相似度计算过程中的精确度以及计算时间,需要从第一数据和第二数据中抽取相同的元素数量,因此,经过抽样后的第一数据和第二数据,也就是第一抽样数据和第二抽样数据的元素数量相等。
70.步骤s130:基于第一数据和第二数据的数据类型,对第一抽样数据以及第二抽样数据进行相似度计算,确定第一数据与第二数据的相似度。
71.在本实施例中,电子设备可以根据第一数据和第二数据的数据类型,选择与第一数据和第二数据的类型对应的相似度计算方法,对第一抽样数据以及第二抽样数据进行相似度计算,确定第一数据与第二数据的相似度。
72.例如,对于数值型数据,可以通过计算kl(kullback-leible)散度,来确定数据之间的相似度;对于字符型数据,可以通过计算jaccard coefficients(杰卡德系数),来确定数据之间的相似度。
73.可见,本发明实施例提供的数据相似度计算方法通过获取关系型数据库中数据类型相同的第一数据以及第二数据,对第一数据以及第二数据进行抽样处理,获得第一抽样数据以及第二抽样数据,根据第一数据和第二数据的数据类型,对第一抽样数据以及第二抽样数据进行相似度计算,确定第一数据与第二数据的相似度,通过获取相同数据类型的数据并进行抽样处理,进而计算数据间的相似度,可以有效降低梳理数据的成本,提高梳理数据的准确性。
74.在一些实施方式中,可以通过等距抽样对第一数据和第二数据进行抽样处理,获得第一抽样数据以及第二抽样数据。其中,关系型数据库中数据按照入库的时间顺序进行排序的,且一般情况时间是和业务字段无关的,因此可以通过比较随机起点等距抽样、半距起点等距随机抽样、随机起点对称等距抽样、循环等距抽样等等距抽样方法对关系型数据库中的数据进行抽样,具体运用的抽样方法在此不做限定。其中,随机起点对称等距抽样的结果可以更好的代表总体数据的情况。
75.作为一种实施方式,可以通过随机起点对称等距抽样对第一数据和第二数据进行抽样处理,获得第一抽样数据以及第二抽样数据。下面,对随机起点对称等距抽样的实现过程进行详细说明。
76.在图1的基础上,请参阅图2,上述步骤s120具体可以包括以下步骤:
77.步骤s121:基于第一数据中包括的元素数量以及第二数据中包括的元素数量,确定样本容量。
78.在抽样过程中,样本容量太少不能代表总体的情况,样本太多影响计算效率,所以需要确定合适的样本容量。在本实施例中,电子设备可以根据第一数据中包括的元素数量以及第二数据中包括的元素数量,确定样本容量。其中,样本容量可以理解为需要从第一数据和第二数据中抽取的元素个数,即最终得到的第一抽样数据和第二抽样数据中的元素个数。
79.步骤s122:基于第一数据中包括的元素数量以及样本容量,确定第一抽样距离,并
基于第二数据中包括的元素数量以及样本容量,确定第二抽样距离。
80.在一些实施方式中,假设确定的样本容量为n,第一数据中包括的元素数量为n1,第二数据中包括的元素数量为n2,则可以根据k1=n1/n确定第一抽样距离,其中,k1表示为第一抽样距离;根据k2=n2/n确定第二抽样距离,其中,k2表示为第二抽样距离。通过确定第一抽样距离k1和第二抽样距离k2,便可知道每次以多少个元素进行抽样。
81.步骤s123:获取第一随机数值以及第二随机数值。
82.在本实施例中,电子设备在确定第一抽样距离k1和第二抽样距离k2后,根据第一抽样距离k1确定第一随机数值的取值范围,第一随机数值可以在大于等于0且小于第一抽样距离k1的范围内取随机值,得到第一随机数值;根据第二抽样距离k2确定第二随机数值的取值范围,第二随机数值可以在大于等于0且小于第二抽样距离k2的范围内取随机值,得到第二随机数值。
83.步骤s124:基于第一抽样距离以及第一随机数值,获得第一抽样数据,并基于第二抽样距离以及第二随机数值,获得第二抽样数据。
84.在本实施例中,电子设备根据第一抽样距离k1可以将第一数据每k1个元素划分为一段,得到n(即样本容量)个数据段,按照确定的第一随机数值在划分的每个数据段中抽取一个元素,获得第一抽样数据;根据第二抽样距离k2可以将第二数据每k2个元素划分为一段,得到n(即样本容量)个数据段,并按照确定的第二随机数值在划分的每个数据段中抽取一个元素,获得第二抽样数据。这样,经过抽样之后,会获取到两个等长的集合参与下一步的计算,即第一抽样数据和第二抽样数据中包括的元素数量相同,均为n个。
85.可见,本发明实施例提供的数据相似度计算方法,通过确定样本容量,基于第一数据中包括的元素数量以及样本容量确定第一抽样距离,并基于第二数据中包括的元素数量以及样本容量,确定第二抽样距离,按照第一抽样距离以及第一随机数值对第一数据进行抽样,按照第二抽样距离以及第二随机数值对第二数据进行抽样,可以得到元素数量相同的第一抽样数据和第二抽样数据进行后续的处理。
86.在一些实施方式中,电子设备可以比较第一数据中包括的元素数量以及第二数据中包括的元素数量,根据比较结果,确定样本数量,例如,当比较结果表示第一数据中包括的元素数量小于第二数据中包括的元素数量时,将第一数据中包括的元素数量作为样本数量;当比较结果表示第一数据中包括的元素数量小于第二数据中包括的元素数量时,将第一数据中包括的元素数量作为样本数量。
87.在另一些实施方式中,电子设备可以预先设置并存储有预设样本数量,将第一数据中包括的元素数量以及第二数据中包括的元素数量与预设样本数量进行比较,根据该比较结果,确定样本数量。
88.请参阅图3,图3示出了本发明的图2所示的数据相似度计算方法的步骤s121的流程示意图。下面将针对图3所示的流程进行详细的阐述,该步骤s121具体可以包括以下步骤:
89.步骤s1211:获取预设样本容量。
90.在一些实施方式中,电子设备检测到需要对第一数据以及第二数据进行抽样处理时,获取预设样本容量。
91.作为一种方式,预设样本容量可以是用户提前在电子设备中设定好的值,在对第
一数据以及第二数据进行抽样处理时,直接获取设定好的预设样本容量。需要说明的是,经过设置多个不同预设样本容量的测试,在预设样本容量为3000附近的值时,计算数据相似度的效果较好,并且计算数据相似度的执行时间较短。因此可以提前在电子设备中设定预设样本容量为3000附近的值,例如,在对第一数据以及第二数据进行抽样处理时,可以设定预设样本容量为3000、3010、3020等,其中具体的预设样本容量的值在此不做限定。
92.在本实施例中,电子设备在获取预设样本容量后,可将第一数据中包括的元素数量以及第二数据中包括的元素数量分别与预设样本容量进行比较,当第一数据中包括的元素数量以及第二数据中包括的元素数量均大于预设样本容量时,执行步骤s222;当第一数据中包括的元素数量或第二数据中包括的元素数量小于预设样本容量时,执行步骤s223。
93.步骤s1212:当第一数据中包括的元素数量以及第二数据中包括的元素数量均大于预设样本容量时,则确定预设样本容量为样本容量。
94.例如,假设,预设样本容量为3000,第一数据中包括的元素数量为4210,第二数据中包括的元素数量为5634,第一数据中包括的元素数量为4210以及第二数据中包括的元素数量为5634均大于预设样本容量3000时,则确定3000为样本容量,其中,预设样本容量、第一数据中包括的元素数量以及第二数据中包括的元素数量在此均不限定。
95.步骤s1213:当第一数据中包括的元素数量或第二数据中包括的元素数量小于预设样本容量时,则确定第一数据中包括的元素数量和第二数据中包括的元素数量中的最小值为样本容量。
96.例如,假设,预设样本容量为3015,第一数据中包括的元素数量为2320,第二数据中包括的元素数量为5000,由于第一数据中包括的元素数量为2320小于预设样本容量3015,而第一数据中包括的元素数量2320和第二数据中包括的元素数量5000中的最小值为2320,故确定2320为样本容量。假设,预设样本容量为2990,第一数据中包括的元素数量为4000,第二数据中包括的元素数量为1590,由于第二数据中包括的元素数量为1590小于预设样本容量2990,而第一数据中包括的元素数量4000和第二数据中包括的元素数量1590中的最小值为1590,故确定1590为样本容量,其中,预设样本容量、第一数据中包括的元素数量以及第二数据中包括的元素数量在此均不限定。
97.在一些实施方式中,电子设备在将根据第一抽样距离k1将第一数据划分为n个数据段,根据第二抽样距离k2将第二数据划分为n个数据段后,每个数据段会对应一个编号(例如1、2、3

n),针对编号为奇数的数据段以及编号为偶数的数据段,可以分别设置不同的抽取规则进行元素抽取,进而得到相应的抽样数据。
98.基于此,上述步骤s124具体可以包括:将第一数据按照第一抽样距离进行分段,在第一数据的奇数段中抽取第j1k1+i1个元素,并在第一数据的偶数段中抽取第(j1+1)k
1-i1个元素,将抽取出的所有元素作为第一抽样数据;其中,k1表示第一抽样距离,i1表示第一随机数值,0≤i1≤k1;j1+1表示第一数据对应的数据段编号,j1的取值为自然数;将第二数据按照第二抽样距离进行分段,在第二数据的奇数段中抽取第j2k2+i2个元素,并在第二数据的偶数段中抽取第(j2+1)k
2-i2个元素,将抽取出的所有元素作为第一抽样数据,其中,k2表示第二抽样距离,i2表示第二随机数值,0≤i2≤k2;j2+1表示第二数据对应的数据段编号,j2的取值为自然数。
99.例如,假设,第一数据为1到100的整数,k1为10,i1为5,j1取值为0时,抽取第一数据
中的第一段的第0*10+5个元素,则抽取“5”作为第一抽样数据中的元素;j1取值为1时,抽取第一数据中的第二段中的第(1+1)10-5=15个元素,则抽取“15”作为第一抽样数据中的元素;j1取值为2时,抽取第一数据中的第三段中的第2*10+5=25个元素,则抽取“25”作为第一抽样数据中的元素。
100.第二数据为1到200的整数,k2为20,i2为10,j2取值为0时,抽取第二数据中的第一段的第0*20+10个元素,则抽取“10”作为第二抽样数据中的元素;j2取值为1时,抽取第二数据中的第二段中的第(1+1)20-10=30个元素,则抽取“30”作为第二抽样数据中的元素;j2取值为2时,抽取第一数据中的第三段中的第2*20+10=50个元素,则抽取“50”作为第二抽样数据中的元素。
101.可见,本发明实施例提供的数据相似度计算方法,可以通过第一数据中包括的元素数量以及第二数据中包括的元素数量,确定样本容量,根据该样本容量确定与第一数据以及第二数据分别对应的第一抽样距离以及第二抽样距离,再根据第一抽样距离以及第一随机数值,对第一数据进行抽样获取第一抽样数据,根据第二抽样距离以及第二随机数值,对第二数据进行抽样获取第二抽样数据,最后根据第一数据和第二数据的数据类型,对抽样后获得的第一抽样数据以及第二抽样数据进行相似度计算,确定第一数据与第二数据的相似度,通过这种抽样方式可以缩减计算数据相似度的计算时间,并可以通过根据数据类型计算数据间的相似度,实现降低梳理数据的成本,提高梳理数据的准确性。
102.在实际应用中,由于数据可以分为不同的类型,而不同类型的数据可以采用不同的相似度计算方法。下面分别针对数值型数据和字符型数据的相似度计算进行说明。
103.对于数值型数据,请参阅图4,上述步骤s130具体可以包括以下步骤:
104.步骤s1311:在第一数据和第二数据的数据类型为数值型的情况下,基于第一抽样数据以及第二抽样数据,获得第一抽样数据对应的概率分布以及第二数据抽样数据对应的概率分布。
105.在本实施例中,对于一个离散随机变量x的可能取值为x=x1,x2,x3...,xn,对应的概率为pi=p(x=xi),基于此,在第一数据和第二数据的数据类型均为数值型的情况下,可以获得第一抽样数据对应的概率分布p(x)以及第二数据抽样数据对应的概率分布q(x)。
106.步骤s1312:基于第一抽样数据对应的概率分布以及第二数据抽样数据对应的概率分布,获得交叉熵以及第一抽样数据对应的熵。
107.在本实施例中,对于第一抽样数据p和第二抽样数据q,其概率分布分别为p(x)和q(x),则根据公式可获得第一抽样数据与第二数据抽样数据的交叉熵,其中,h(p,q)表示第一抽样数据与第二抽样数据的交叉熵、,根据公式h(p)=-∑
x
p(x)log(p(x))可以获得第一抽样数据对应的熵,其中,h(p)表示第一抽样数据对应的熵。
108.步骤s1313:基于交叉熵与第一抽样数据对应的熵的差值,获得第一抽样数据与第二抽样数据的相对熵,以便根据相对熵确定第一数据与第二数据的相似度。
109.在本实施例中,在计算出交叉熵h(p,q)与第一抽样数据对应的熵h(p)后,可根据公式获得第一抽样数据与第二抽样数据的相对熵,d
kl
(p||q)表示第一抽样数据与第二抽样数据的相对熵。其中,相对熵也可称为kl
散度,可以用来衡量两个分布之间的差异程度。
110.可见,本发明实施例提供的数据相似度计算方法,在第一数据和第二数据的数据类型为数值型的情况下,根据第一抽样数据对应的概率分布以及第二数据抽样数据对应的概率分布,获的第一抽样数据与第二抽样数据的相对熵,再根据该相对熵确定第一数据与第二数据的相似度,从而通过根据数值型数据类型计算数据间的相似度,实现降低梳理数据的成本,提高梳理数据的准确性。
111.对于数值型数据,请参阅图5,上述步骤s130具体可以包括以下步骤:
112.步骤s1321:在第一数据和第二数据的数据类型为字符型的情况下,对第一抽样数据以及第二抽样数据进行词向量处理,获得第一词向量序列以及第二词向量序列;第一词向量序列包括多个第一词向量,第二词向量序列包括多个第二词向量。
113.在一些实施方式中,在第一数据和第二数据的数据类型为字符型的情况下,先利用分词库将第一抽样数据中包括的元素以及第二抽样数据中包括的元素划分为词语,再对第一抽样数据中的每一个词语以及第二抽样数据中的每一个词语通过词向量算法获得第一词向量序列以及第二词向量序列,其中,分词库可以包括jieba库、hanlp库、jcseg库以及sego库的等分词库,优选jieba库的精确模式,统计第一抽样数据以及第二抽样数据中所有可能的词语,形成一个词语序列,具体使用的分词库在此不做限定,词向量算法可以包括word2vec算法以及glove算法等词向量算法,优选word2vec算法获得第一词向量序列以及第二词向量序列,具体使用的词向量算法在此不做限定。
114.步骤s1322:计算每个第一词向量与每个第二词向量之间的余弦相似度,根据每个第一词向量与每个第二词向量之间的余弦相似度构建相似度矩阵。
115.在一些实施方式中,第一词向量序列为a=(a1,a2,a3...an),第一词向量序列为b=(b1,b2,b3...bm),对第一词向量a
x
以及第二词向量by进行余弦相似度计算,根据每个第一词向量与每个第二词向量之间的余弦相似度构建相似度矩阵,获得相似度矩阵m,
[0116][0117]
其中,x表示为第一词向量a
x
在第一词向量序列a中的第x个元素,x的取值范围为1≤x≤n,y表示为第二词向量by在第二词向量序列b中的第y个元素,y的取值范围为1≤y≤m。
[0118]
步骤s1323:从相似度矩阵中选取最大元素,将最大元素所在行和列从相似度矩阵中删除,并从相似度矩阵的剩余元素中选取最大元素,直到相似度矩阵中的最后一个元素被选取。
[0119]
在本实施例中,假设相似度矩阵其中最大元素为cos(a3b3),将“cos(a3,b3)”所在行和列从相似度矩阵中删除,获得相似度矩阵其中最大元素为cos(a1,b2),将“cos(a1,b2)”所在行和列从相似度矩阵中删除,获得相似度矩阵m=[cos(a1,b1)],则选取相似度矩阵中的
最后一个元素“cos(a1,b1),则相似度集合包括的元素为cos(a3,b3)、cos(a1,b2)、cos(a1,b1)。
[0120]
步骤s1324:根据从相似度矩阵中选取出的所有元素,构建相似度集合。
[0121]
在本实施例中,从相似度矩阵中选取最大元素,将最大元素所在行和列从相似度矩阵中删除,并从相似度矩阵的剩余元素中选取最大元素,直到相似度矩阵中的最后一个元素被选取,根据从相似度矩阵中选取出的所有元素,构建相似度集合。
[0122]
步骤s1325:计算相似度集合中大于预设阈值的元素数量与总元素数量之间的比值,得到第一数据与第二数据的相似度。
[0123]
在本实施例中,计算相似度集合中大于预设阈值的元素数量与总元素数量之间的比值,也就是将相似度集合中大于预设阈值的元素数量除以总元素数量,获得第一数据与第二数据的相似度,可以理解的是,相似度集合中大于预设阈值的元素数量与总元素数量之间的比值越大,第一数据与第二数据的相似度越高;相似度集合中大于预设阈值的元素数量与总元素数量之间的比值越小,第一数据与第二数据的相似度越低。在一些实施方式中,为了方便对相似度集合中的数据进行统计表示第一数据与第二数据的相似度,电子设备可以对构建的相似度集合进行01标准化,可以理解的是,01标准化是为了防止相似度集合中数据大小的差异,确保数据是在同一量纲或者同一数量级下进行比较,确保相似度集合中数值较大的数据不会占据较大的权重,加快相似度计算速度。电子设备中可以预先设置并存储有预设阈值z,当相似度集合中的元素大于该预设阈值时,将该元素设置为1;当相似度集合中的元素小于等于该预设阈值时,将该元素设置为0。
[0124]
例如,相似度集合r=[cos(a3,b3) cos(a1,b2) cos(a1,b1)],
[0125]
其中,cos(a1,b1)>z,将cos(a1,b1)置为1;cos(a1,b2)≤z,将cos(a1,b2)置为0;cos(a3,b3)>z,将cos(a3,b3)置为1,则01标准化后的相似度集合r=[1 0 1]。
[0126]
例如,根据第一数据x1与第二数据y1获得的01标准化后的相似度集合r=[1 0 1],其中,相似度集合中大于预设阈值的元素数量为2,总元素数量为3,则第一数据x1与第二数据y1的相似度为根据第一数据x1与第二数据y2获得的01标准化后的相似度集合m=[1 0 0],其中,相似度集合中大于预设阈值的元素数量为1,总元素数量为3,第一数据x1与第二数据y2的相似度为第一数据x1与第二数据y2的相似度小于第一数据x1与第二数据y1的相似度则第一数据x1与第二数据y1的相似度较高,表示第二数据y1对应的文档相较于第二数据y2对应的文档与第一数据x1对应的文档更具有相关性,则可以将第一数据x1对应的文档与第二数据y1对应的文档进行数据梳理。
[0127]
可见,本发明实施例提供的数据相似度计算方法,在第一数据和第二数据的数据类型为字符型的情况下,对第一抽样数据以及第二抽样数据进行词向量处理,获得第一词向量序列以及第二词向量序列,根据第一词向量序列以及第二词向量序列构建相似度集合,计算相似度集合中大于预设阈值的元素数量与总元素数量之间的比值,得到第一数据与第二数据的相似度。从而通过根据字符型的数据类型计算数据间的相似度,实现降低梳理数据的成本,提高梳理数据的准确性。
[0128]
请参阅图6,图6示出了本发明实施例提供的数据相似度计算装置200的模块框图。
该数据相似度计算装置200应用于上述电子设备,下面将针对图6所示的框图进行阐述,数据相似度计算装置200包括:数据获取模块210、数据抽样模块220以及相似度确定模块230,其中:
[0129]
数据获取模块210,用于获取关系型数据库中数据类型相同的第一数据以及第二数据。
[0130]
数据抽样模块220,用于对第一数据以及第二数据进行抽样处理,获得第一抽样数据以及第二抽样数据,其中,第一抽样数据为第一数据对应的抽样数据,第二抽样数据为第二数据对应的抽样数据。
[0131]
相似度确定模块230,用于基于第一数据和第二数据的数据类型,对第一抽样数据以及第二抽样数据进行相似度计算,确定第一数据与第二数据的相似度。
[0132]
可选地,数据抽样模块220包括:样本容量确定子模块、抽样距离确定子模块、随机数值获取子模块以及抽样数据获取子模块,其中:
[0133]
样本容量确定子模块,用于基于第一数据中包括的元素数量以及第二数据中包括的元素数量,确定样本容量;
[0134]
抽样距离确定子模块,用于基于第一数据中包括的元素数量以及所述样本容量,确定第一抽样距离,并基于第二数据中包括的元素数量以及所述样本容量,确定第二抽样距离;
[0135]
随机数值获取子模块,用于获取第一随机数值以及第二随机数值;
[0136]
抽样数据获取子模块,用于基于第一抽样距离以及第一随机数值,获得第一抽样数据,并基于第二抽样距离以及第二随机数值,获得第二抽样数据。
[0137]
可选地,样本容量确定子模块具体可用于:获取预设样本容量;当第一数据中包括的元素数量以及第二数据中包括的元素数量均大于预设样本容量时,则确定预设样本容量为样本容量;当第一数据中包括的元素数量或第二数据中包括的元素数量小于预设样本容量时,则确定第一数据中包括的元素数量和第二数据中包括的元素数量中的最小值为样本容量。
[0138]
可选地,抽样数据获取子模块具体可用于:将第一数据按照第一抽样距离进行分段,在第一数据的奇数段中抽取第j1k1+i1个元素,并在第一数据的偶数段中抽取第(j1+1)k
1-i1个元素,将抽取出的所有元素作为第一抽样数据;其中,k1表示第一抽样距离,i1表示第一随机数值,0≤i1≤k1;j1+1表示第一数据对应的数据段编号;将第二数据按照第二抽样距离进行分段,在第二数据的奇数段中抽取第j2k2+i2个元素,并在第二数据的偶数段中抽取第(j2+1)k
2-i2个元素,将抽取出的所有元素作为第一抽样数据,其中,k2表示第二抽样距离,i2表示第二随机数值,0≤i2≤k2;j2+1表示第二数据对应的数据段编号。
[0139]
可选地,相似度确定模块230具体可用于在第一数据和所述第二数据的数据类型为数值型的情况下,基于第一抽样数据以及第二抽样数据,获得第一抽样数据对应的概率分布以及第二数据抽样数据对应的概率分布;基于第一抽样数据对应的概率分布以及第二数据抽样数据对应的概率分布,获得交叉熵以及第一抽样数据对应的熵;用于基于交叉熵与第一抽样数据对应的熵的差值,获得第一抽样数据与第二抽样数据的相对熵,以便根据相对熵确定第一数据与第二数据的相似度。
[0140]
可选地,相似度确定模块230具体还用于:在第一数据和第二数据的数据类型为字
符型的情况下,对第一抽样数据以及第二抽样数据进行词向量处理,获得第一词向量序列以及第二词向量序列;第一词向量序列包括多个第一词向量,第二词向量序列包括多个第二词向量;计算每个第一词向量与每个第二词向量之间的余弦相似度,根据每个第一词向量与每个第二词向量之间的余弦相似度构建相似度矩阵;从相似度矩阵中选取最大元素,将最大元素所在行和列从相似度矩阵中删除,并从相似度矩阵的剩余元素中选取最大元素,直到相似度矩阵中的最后一个元素被选取;根据相似度矩阵中选取出的所有元素,构建相似度集合;计算相似度集合中大于预设阈值的元素数量与总元素数量之间的比值,得到第一数据与所述第二数据的相似度。
[0141]
可见,本发明实施例提供的数据相似度计算装置,包括数据获取模块、数据抽样模块和相似度确定模块,通过数据获取模块获取关系型数据库中数据类型相同的第一数据以及第二数据,数据抽样模块对第一数据以及第二数据进行抽样处理,获得第一抽样数据以及第二抽样数据,相似度确定模块根据第一数据和第二数据的数据类型,对第一抽样数据以及第二抽样数据进行相似度计算,确定第一数据与所述第二数据的相似度。本发明实施例提供的数据相似度计算装置通过获取相同数据类型的数据并进行抽样处理,进而计算数据间的相似度,可以有效降低梳理数据的成本,提高梳理数据的准确性。
[0142]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0143]
在本发明所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
[0144]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0145]
请参阅图7,其示出了本发明实施例提供的一种电子设备100的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本发明中的电子设备100可以包括一个或多个如下部件:处理器110、存储器120以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
[0146]
其中,处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器110可集成中央处理器(central processing unit,cpu)、图形处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责待显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
[0147]
存储器120可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存
储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
[0148]
本发明实施例还提供了一种计算机可读存储介质,该计算机可读介质中存储有程序代码,程序代码可被处理器调用执行上述方法实施例中所描述的方法。
[0149]
计算机可读存储介质可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。
[0150]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种数据相似度计算方法,其特征在于,所述方法包括:获取关系型数据库中数据类型相同的第一数据以及第二数据;对所述第一数据以及所述第二数据进行抽样处理,获得第一抽样数据以及第二抽样数据,其中,第一抽样数据为所述第一数据对应的抽样数据,第二抽样数据为所述第二数据对应的抽样数据;基于所述第一数据和所述第二数据的数据类型,对所述第一抽样数据以及所述第二抽样数据进行相似度计算,确定所述第一数据与所述第二数据的相似度。2.根据权利要求1所述的方法,其特征在于,所述对所述第一数据以及所述第二数据进行抽样处理,获得所述第一抽样数据以及所述第二抽样数据,包括:基于所述第一数据中包括的元素数量以及所述第二数据中包括的元素数量,确定样本容量;基于所述第一数据中包括的元素数量以及所述样本容量,确定第一抽样距离,并基于所述第二数据中包括的元素数量以及所述样本容量,确定第二抽样距离;获取第一随机数值以及第二随机数值;基于所述第一抽样距离以及所述第一随机数值,获得所述第一抽样数据,并基于所述第二抽样距离以及所述第二随机数值,获得所述第二抽样数据。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一数据中包括的元素数量以及所述第二数据中包括的元素数量,确定样本容量,包括:获取预设样本容量;当所述第一数据中包括的元素数量以及所述第二数据中包括的元素数量均大于预设样本容量时,则确定所述预设样本容量为样本容量;当所述第一数据中包括的元素数量或所述第二数据中包括的元素数量小于所述预设样本容量时,则确定所述第一数据中包括的元素数量和所述第二数据中包括的元素数量中的最小值为样本容量。4.根据权利要求2所述的方法,其特征在于,所述基于所述第一抽样距离以及所述第一随机数值,获得所述第一抽样数据,并基于所述第二抽样距离以及所述第二随机数值,获得所述第二抽样数据,包括:将所述第一数据按照所述第一抽样距离进行分段,在所述第一数据的奇数段中抽取第j1k1+i1个元素,并在所述第一数据的偶数段中抽取第(j1+1)k
1-i1个元素,将抽取出的所有元素作为第一抽样数据;其中,k1表示所述第一抽样距离,i1表示所述第一随机数值,0≤i1<k1;j1+1表示所述第一数据对应的数据段编号;将所述第二数据按照所述第二抽样距离进行分段,在所述第二数据的奇数段中抽取第j2k2+i2个元素,并在所述第二数据的偶数段中抽取第(j2+1)k
2-i2个元素,将抽取出的所有元素作为第一抽样数据,其中,k2表示所述第二抽样距离,i2表示所述第二随机数值,0≤i2<k2;j2+1表示所述第二数据对应的数据段编号。5.根据权利要求1所述的方法,其特征在于,所述基于所述第一数据和第二数据的数据类型,对所述第一抽样数据以及所述第二抽样数据进行相似度计算,确定所述第一数据与所述第二数据的相似度,包括:在所述第一数据和所述第二数据的数据类型为数值型的情况下,基于所述第一抽样数
据以及所述第二抽样数据,获得所述第一抽样数据对应的概率分布以及所述第二数据抽样数据对应的概率分布;基于所述第一抽样数据对应的概率分布以及所述第二数据抽样数据对应的概率分布,获得交叉熵以及所述第一抽样数据对应的熵;基于所述交叉熵与所述第一抽样数据对应的熵的差值,获得所述第一抽样数据与所述第二抽样数据的相对熵,以便根据所述相对熵确定所述第一数据与所述第二数据的相似度。6.根据权利要求1所述的方法,其特征在于,所述基于所述第一数据和第二数据的数据类型,对所述第一抽样数据以及所述第二抽样数据进行相似度计算,确定所述第一数据与所述第二数据的相似度,包括:在所述第一数据和所述第二数据的数据类型为字符型的情况下,对所述第一抽样数据以及所述第二抽样数据进行词向量处理,获得第一词向量序列以及第二词向量序列;所述第一词向量序列包括多个第一词向量,所述第二词向量序列包括多个第二词向量;计算每个所述第一词向量与每个所述第二词向量之间的余弦相似度,根据每个所述第一词向量与每个所述第二词向量之间的余弦相似度构建相似度矩阵;从所述相似度矩阵中选取最大元素,将所述最大元素所在行和列从所述相似度矩阵中删除,并从所述相似度矩阵的剩余元素中选取最大元素,直到所述相似度矩阵中的最后一个元素被选取;根据从所述相似度矩阵中选取出的所有元素,构建相似度集合;计算所述相似度集合中大于预设阈值的元素数量与总元素数量之间的比值,得到所述第一数据与所述第二数据的相似度。7.一种数据相似度计算装置,其特征在于,所述装置包括:数据获取模块,用于获取关系型数据库中数据类型相同的第一数据以及第二数据;数据抽样模块,用于对所述第一数据以及所述第二数据进行抽样处理,获得第一抽样数据以及第二抽样数据,其中,第一抽样数据为所述第一数据对应的抽样数据,第二抽样数据为所述第二数据对应的抽样数据;相似度确定模块,用于基于所述第一数据和所述第二数据的数据类型,对所述第一抽样数据以及所述第二抽样数据进行相似度计算,确定所述第一数据与所述第二数据的相似度。8.根据权利要求7所述的装置,其特征在于,所述数据抽样模块包括:样本容量确定子模块,用于基于所述第一数据中包括的元素数量以及所述第二数据中包括的元素数量,确定样本容量;抽样距离确定子模块,用于基于所述第一数据中包括的元素数量以及所述样本容量,确定第一抽样距离,并基于所述第二数据中包括的元素数量以及所述样本容量,确定第二抽样距离;随机数值获取子模块,获取第一随机数值以及第二随机数值;抽样数据获取子模块,基于所述第一抽样距离以及所述第一随机数值,获得所述第一抽样数据,并基于所述第二抽样距离以及所述第二随机数值,获得所述第二抽样数据。9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器耦接到所述处理器,
所述存储器存储计算机程序,当所述计算机程序由所述处理器执行时实现如权利要求1-6任一项所述的方法。10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法。

技术总结
本发明的实施例提供了一种数据相似度计算方法、装置、电子设备以及存储介质,涉及数据处理领域。该方法包括:获取关系型数据库中数据类型相同的第一数据以及第二数据,对第一数据以及第二数据进行抽样处理,获得第一抽样数据以及第二抽样数据,根据第一数据和第二数据的数据类型,对第一抽样数据以及第二抽样数据进行相似度计算,确定第一数据与所述第二数据的相似度。本发明实施例通过获取相同数据类型的数据并进行抽样处理,进而计算数据间的相似度,可以有效降低梳理数据的成本,提高梳理数据的准确性。据的准确性。据的准确性。


技术研发人员:张韬 王晨 宋亮 陈振宇
受保护的技术使用者:清华四川能源互联网研究院
技术研发日:2023.06.15
技术公布日:2023/9/12
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐