数据相关性识别方法、装置、电子设备及介质与流程

未命名 08-15 阅读:58 评论:0


1.本技术涉及计算机技术领域,具体涉及一种数据相关性识别方法、装置、电子设备及介质。


背景技术:

2.在生产工业产品过程中,会收集过程数据用于品质监控和改善分析。其中,识别过程变量之间的相关性是对过程数据进行分析的关键步骤。
3.在相关技术中,主要是基于统计学相关系数判别变量之间的相关性,例如基于皮尔森相关系数判别变量之间是否存在线性相关性,又例如基于斯皮尔曼相关系数判别变量之间是否存在单调相关性。
4.然而,这种基于统计学相关系数的判别方式需要预先假设变量之间存在某种类型的相关性(如线性相关性、单调相关性等),因此只能识别出变量之间具有的某种特定类型的相关性,而无法识别变量之间是否存在任意类型的相关性。
5.上述的陈述仅用于提供与本技术有关的背景技术信息,而不必然地构成现有技术。


技术实现要素:

6.鉴于上述问题,本技术提出一种数据相关性识别方法、装置、电子设备及存储介质,以解决现有基于统计学相关系数的方式无法识别变量之间是否存在任意类型的相关性的问题。
7.本技术的第一方面提出了一种数据相关性识别方法,所述方法包括:根据目标变量组中第一变量生成多个第二变量;其中,所述目标变量组还包含第三变量;确定所述第一变量和多个第二变量分别对预测所述第三变量的贡献权重权重;基于所述第一变量的贡献权重与各个第二变量的贡献权重,判定所述第一变量与所述第三变量之间是否存在相关性。
8.在本技术实施例的技术方案中,通过利用变量组中第一变量生成多个新变量(即第二变量)出来,并通过确定使用这些新变量和第一变量分别对预测变量组中第三变量的贡献权重,来判定变量组中第一变量与第三变量的相关性,由于确定出的贡献权重可以表征对预测第三变量的重要程度,如果第一变量与第三变量之间存在某种相关性,那么第一变量对预测的贡献权重与这些新变量对预测的贡献权重具有一定的差异性,因此通过第一变量的贡献权重与各个新变量的贡献权重,可以实现第一变量与第三变量之间是否存在任意类型相关性的精准判定。
9.在一些实施例中,所述根据目标变量组中第一变量生成多个第二变量,包括:通过将所述第一变量的参数的顺序打乱,得到多个第二变量;其中,所述第一变量的参数的顺序每打乱一次,得到一个第二变量。由于第一变量的参数是原始收集到的数据,通过对原始收集到的数据进行顺序打乱得到第二变量可以保证第二变量的值数量与第一变量的值数量
是相等的。
10.在一些实施例中,所述确定所述第一变量和多个第二变量分别对预测所述第三变量的贡献权重,包括:利用所述第一变量和所述多个第二变量组成的样本训练用于预测第三变量的机器学习模型;基于所述机器学习模型,确定所述第一变量和各个第二变量分别对预测第三变量的贡献权重。通过建立使用第一变量和第二变量预测第三变量的机器学习模型,由于机器学习模型是用来预测第三变量的,且模型具有可解释性,因此基于机器学习模型可以获得每个输入特征对给定预测的贡献权重,也即第一变量对预测的贡献权重和第二变量对预测的贡献权重。
11.在一些实施例中,所述利用所述第一变量和所述多个第二变量组成的样本训练用于预测第三变量的机器学习模型,包括:将所述第一变量的参数与各个第二变量的参数中具有相同顺序序号的参数组成一个样本;针对各个样本,将所述第三变量的参数中具有所述样本的顺序序号的参数作为所述样本的标签;使用各个样本和相应的标签训练所述机器学习模型。通过将第一变量的参数与各个第二变量的参数按序组成样本,并通过将第三变量的实际参数作为样本的标签,从而在使用样本训练模型过程中,可以通过优化第三变量的实际参数与模型预测输出参数之间的差异来达到模型调整的目的。
12.在一些实施例中,所述基于所述机器学习模型,确定所述第一变量和各个第二变量分别对预测第三变量的贡献权重,包括:通过调用预设的模型解释程序,确定所述第一变量和各个第二变量分别对所述机器学习模型预测第三变量的贡献权重,无需关心模型中的复杂参数,既方便又简单。
13.在一些实施例中,所述基于所述第一变量的贡献权重与各个第二变量的贡献权重,判定所述第一变量与所述第三变量之间是否存在相关性,包括:确定各个第二变量的贡献权重中出现小于所述第一变量的贡献权重的次数;利用所述次数和各个第二变量的贡献权重数量确定所述第一变量与所述第三变量之间存在相关性的概率;在所述概率超过阈值情况下,确定所述第一变量与所述第三变量之间存在相关性。如果第一变量与第三变量具有相关性,那么第二变量的贡献权重按照正常逻辑应该均小于第一变量的贡献权重,因此通过统计第二变量的贡献权重小于第一变量的贡献权重的出现次数得到的概率,可以精准表征第一变量与第三变量之间具有相关性的概率。
14.在一些实施例中,在根据目标变量组中第一变量生成多个第二变量之前,所述方法还包括:在所述第一变量的类型是文本型变量的情况下,将所述第一变量的类型转换为数值型变量;在所述目标变量组中第三变量的类型是文本型变量的情况下,将所述第三变量的类型转换为数值型变量。通过将文本型变量转换为数值型变量,以便于后续进行相关性分析。
15.本技术的第二方面提出了一种数据相关性识别装置,所述装置包括:新变量生成模块,用于根据目标变量组中第一变量生成多个第二变量;其中,所述目标变量组还包含第三变量;贡献权重确定模块,用于确定所述第一变量和多个第二变量分别对预测所述第三变量的贡献权重;判定模块,用于基于所述第一变量的贡献权重与各个第二变量的贡献权重,判定所述第一变量与所述第三变量之间是否存在相关性。
16.本技术的第三方面提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述方法。
17.本技术的第四方面提出了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述第一方面所述方法。
18.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
19.通过阅读对下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在全部附图中,用相同的附图标号表示相同的部件。在附图中:图1为根据一示例性实施例示出的一种数据相关性识别方法的实施例流程图;图2为根据一示例性实施例示出的一种数据相关性识别具体实现流程图;图3为根据一示例性实施例示出的一种数据相关性识别装置的结构示意图;图4为根据一示例性实施例示出的一种电子设备的硬件结构示意图图;图5为根据一示例性实施例示出的一种存储介质的结构示意图。
具体实施方式
20.下面将结合附图对本技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本技术的技术方案,因此只作为示例,而不能以此来限制本技术的保护范围。
21.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。
22.在本技术实施例的描述中,技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本技术实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
23.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
24.在本技术实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
25.在本技术实施例的描述中,术语“多个”指的是两个以上(包括两个),同理,“多组”指的是两组以上(包括两组),“多片”指的是两片以上(包括两片)。
26.如前所述,现有的基于统计学相关系数的方式只能识别变量间有限类型的相关性。
27.然而,在实际生产过程中,收集的过程变量之间的相关性预先并不知道,因此现有基于统计学相关系数的方式,就无法应用于预先不清楚相关性类型的过程变量间的分析。例如,在生产电池过程中,会收集电池温度和电池容量的过程数据,为了分析电池温度和电池容量这两个过程变量之间是否具有相关性,就无法使用现有基于统计学相关系数的方式。
28.有鉴于此,本技术提出一种数据相关性识别方法,通过利用变量组中第一变量的参数生成多个新变量(即第二变量)出来,并通过确定使用这些新变量和第一变量对预测变量组中第三变量的贡献权重,来判定变量组中第一变量与第三变量的相关性,由于确定出的贡献权重可以表征对预测第三变量的重要程度,如果第一变量与第三变量之间存在某种相关性,那么第一变量对预测的贡献权重与这些新变量对预测的贡献权重具有一定的差异性,因此通过第一变量的贡献权重与各个新变量的贡献权重,可以实现第一变量与第三变量之间是否存在任意类型相关性的精准判定。
29.本技术实施例公开的数据相关性识别方法,可以但不限用于电池的生产过程,当然还可以用于其他产品的生产过程,实现对生产过程中过程变量之间相关性的识别,以用于对产品的品质进行监控和改善。
30.为了使本领域技术人员更好的理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。
31.图1为本技术根据一示例性实施例示出的一种数据相关性识别方法的实施例流程图,该数据相关性识别方法包括如下步骤:步骤101:根据目标变量组中第一变量生成多个第二变量,目标变量组还包含第三变量。
32.在该步骤中,生成的各个第二变量的参数个数与第一变量的参数个数一致,并且目标变量组中第三变量的参数个数与第一变量的参数个数也一致。
33.其中,目标变量组的第一变量和第三变量可以是来源于生产过程数据中的过程变量,通过将生产过程数据中的各个过程变量进行两两组合,得到多个变量组,然后将每个变量组分别作为目标变量组,以用于识别相关性。以目标变量组包含电池温度和电池容量这两个过程变量为例,电池温度的参数包括电池1的温度值、电池2的温度值、电池3的温度值,相应的,电池容量的参数包括电池1的容量值、电池2的容量值、电池3的容量值。
34.例如,生产过程数据包含a、b、c三个过程变量,进行两两组合后得到(a, b)、(a, c)、(b, c)三个变量组,然后将(a, b)、(a, c)、(b, c)分别作为目标变量组,以用于识别相关性。
35.在一种实现方式中,可以通过将第一变量的参数的顺序打乱,得到多个第二变量。由于第一变量的参数是原始收集到的数据,通过对原始收集到的数据的顺序打乱得到第二变量,可以保证第二变量的参数个数与第一变量的参数个数是相等的。
36.其中,第一变量的参数的顺序每打乱一次,得到一个第二变量,打乱次数n可以根据实际需求设定,n的取值不应太小,否则会影响分析结果的准确性,当然也不宜太大,否则耗费的计算资源太多。
37.举例来说,假设目标变量组(x,y)中第一变量x=0,1,2,3,将x随机打乱n=5次,得到s1=0,1,3,2;s2=1,2,3,0;s3=3,0,1,2;s4=2,3,1,0;s5=3,0,2,1。
38.由此可见,通过将变量的参数的顺序打乱,改变的是参数的顺序,参数的个数不变,因此生成的新变量的参数个数与原始变量的参数个数一致。
39.值得注意的是,假设目标变量组中第一变量与第三变量之间具有一定的相关性,通过打乱其中一个变量的参数的顺序得到新变量,新变量与其中另一个变量之间无相关性。
40.可以理解的是,本技术实施例涉及的“第一变量”、“第二变量”、“第三变量”只是为了区分不同的变量,并不形成对具体变量的限制,如上述例子中目标变量组(x,y),如果第一变量是x,那么第三变量是y,如果第一变量是y,那么第三变量是x。
41.需要说明的是,在执行步骤101之前,如果目标变量组中存在文本型变量,需要进行预处理,以便于后续进行相关性分析。也即在目标变量组中第一变量的类型是文本型变量的情况下,将第一变量的类型转换为数值型变量;在目标变量组中第三变量的类型是文本型变量的情况下,将第三变量的类型转换为数值型变量。例如,文本型变量的参数为:“是”、“否”,转换为数值型变量的参数为:“1”、“0”。
42.步骤102:确定第一变量和多个第二变量分别对预测第三变量的贡献权重。
43.在该步骤中,贡献权重可以表征对预测第三变量的重要程度。如果目标变量组中第一变量与第三变量之间具有相关性,那么第一变量与第三变量之间可以实现互相预测,由第一变量生成的第二变量与第三变量是不具任何相关性的,无法实现互相预测,因此,在此种情况下第一变量对预测的贡献权重与第二变量对预测的贡献权重具有一定的差异性。
44.在一种可能的实现方式中,可以利用第一变量和多个第二变量组成的样本训练用于预测第三变量的机器学习模型,然后基于该机器学习模型,确定第一变量和各个第二变量分别对预测第三变量的贡献权重。
45.其中,通过建立使用第一变量和第二变量预测第三变量的机器学习模型,由于机器学习模型是用来预测第三变量的,且模型具有可解释性,因此基于机器学习模型可以获得每个输入特征对给定预测的贡献权重,也即第一变量对预测的贡献权重和第二变量对预测的贡献权重。
46.可以理解的是,本技术对机器学习模型的模型结构不进行具体限定,其可以是决策树模型、支持向量机模型、神经网络模型等中的任意一种。
47.针对利用第一变量和多个第二变量组成的样本训练用于预测第三变量的机器学习模型的过程,在具体实施时,可以将第一变量的参数与各个第二变量的参数中具有相同顺序序号的参数组成一个样本,并针对各个样本,将第三变量的参数中具有该样本的顺序序号的参数作为该样本的标签,然后使用各个样本和相应的标签训练机器学习模型。
48.其中,通过将第一变量的参数与各个第二变量的参数按序组成样本,并通过将第三变量的实际参数作为样本的标签,从而在使用样本训练模型过程中,可以通过优化第三变量的实际参数与模型预测输出参数之间的差异来达到模型调整的目的。
49.如下述表1所示,目标变量组中第一变量x=0,1,2,3;第三变量y=3,2,1,0。将第一变量x的参数随机打乱5次,得到s1,s2,s3,s4,s5五个第二变量,按照参数的顺序序号,将第一变量x的参数与各个第二变量s1,s2,s3,s4,s5的参数组合,得到4个样本(0,0,1,3,2,3)、
(1,1,2,0,3,0)、(2,3,3,1,1,2)、(3,2,0,2,0,1),这4个样本的标签分别为:3,2,1,0。
50.表1进一步地,针对基于该机器学习模型,确定第一变量和各个第二变量分别对预测第三变量的贡献权重的过程,可以通过调用预设的模型解释程序,确定第一变量和各个第二变量分别对机器学习模型预测第三变量的贡献权重,无需关心模型中的复杂参数,既方便又简单。
51.其中,模型解释程序是一种用于解释任何机器学习模型的算法程序,该算法程序通过计算模型各个输入特征对模型输出的平均贡献来解释模型。
52.在一个示例中,模型解释程序可以采用shap (shapley additive explanations)算法程序。可以理解的是,shap算法程序仅为一种示例性说明,并不形成对本技术保护方案范围的限制。
53.这里需要说明的是,如果第一变量与第三变量之间具有相关性,那么第一变量对机器学习模型预测第三变量的贡献权重,会高于第二变量对机器学习模型预测第三变量的贡献权重;而如果第一变量与第三变量之间不具有任何相关性,那么第一变量对机器学习模型预测第三变量的贡献权重与第二变量对机器学习模型预测第三变量的贡献权重之间不存在特定的大小关系。
54.如上述例子中,第一变量x=0,1,2,3与第三变量y=3,2,1,0之间具有负相关性,将x随机打乱5次后得到的s1=0,1,3,2;s2=1,2,3,0;s3=3,0,1,2;s4=2,3,1,0;s5=3,0,2,1,与第三变量y=3,2,1,0不具有相关性,因此将x、s1,s2,s3,s4,s5作为模型的输入特征训练模型时,模型的优化结果应该是第一变量x对模型预测第三变量y的贡献权重要高于所有第二变量s1,s2,s3,s4,s5对机器学习模型预测第三变量的贡献权重,假设第一变量x对模型预测第三变量y的贡献权重c
x
=3.97,所有第二变量s1,s2,s3,s4,s5对机器学习模型预测第三变量的贡献权重分别为c1=0.62,c2=0.93,c3=0.22,c4=0.52,c5=0.39,则c
x
大于ci(i=1,2

5)。
55.步骤103:基于第一变量的贡献权重与各个第二变量的贡献权重,判定第一变量与第三变量之间是否存在相关性。
56.在该步骤中,通过对比贡献权重判定的是第一变量与第三变量之间是否存在任意类型的相关性,本技术重点在于判定两个变量是否有相关性,不关心具体的相关性类型。
57.在一可选实施例中,可以通过确定各个第二变量的贡献权重中出现小于第一变量的贡献权重的次数,然后利用该次数和各个第二变量的贡献权重数量确定第一变量与第三变量之间存在相关性的概率,在概率超过阈值情况下,确定第一变量与第三变量之间存在相关性。
58.其中,如果第一变量与第三变量具有相关性,那么第二变量的贡献权重按照正常逻辑应该均小于第一变量的贡献权重,因此通过统计第二变量的贡献权重小于第一变量的贡献权重的出现次数得到的概率,可以精准表征第一变量与第三变量之间具有相关性的概
率。进一步地,概率p的取值范围为0-1,计算公式为:p=l/n,l表示各个第二变量的贡献权重中出现小于第一变量的贡献权重的次数,n表示第二变量的贡献权重数量。
59.进一步地,该阈值是根据实践经验设置的,表示的是第一变量与第三变量之间存在相关性的概率阈值。
60.如上述例子所述,第一变量x对模型预测第三变量y的贡献权重c
x
=3.97,所有第二变量s1,s2,s3,s4,s5对机器学习模型预测第三变量的贡献权重分别为:c1=0.62,c2=0.93,c3=0.22,c4=0.52,c5=0.39,通过将c
x
=3.97与c1=0.62,c2=0.93,c3=0.22,c4=0.52,c5=0.39分别进行对比,可以获得l=5,而第二变量的贡献权重数量n=5,因此可以计算出概率p=1。
61.至此,完成上述图1所示的数据相关性识别流程,通过利用变量组中第一变量的参数生成多个新变量(即第二变量)出来,并通过确定使用这些新变量和第一变量对预测变量组中第三变量的贡献权重,来判定变量组中第一变量与第三变量的相关性,由于确定出的贡献权重可以表征对预测第三变量的重要程度,如果第一变量与第三变量之间存在某种相关性,那么第一变量对预测的贡献权重与这些新变量对预测的贡献权重具有一定的差异性,因此通过第一变量的贡献权重与各个新变量的贡献权重,可以实现第一变量与第三变量之间是否存在任意类型相关性的精准判定。
62.针对上述实施例给出的技术方案,下面以一个具体实施例对本技术方案进行全面阐述。
63.图2为本技术根据一示例性实施例示出的一种数据相关性识别具体实现流程图,包括如下步骤:步骤1:通过将目标变量组中第一变量的参数的顺序打乱,得到多个第二变量。
64.其中,第一变量的参数的顺序每打乱一次,得到一个第二变量,打乱次数n可以根据实际需求设定,n的取值不应太小,否则会影响分析结果的准确性,当然也不宜太大,否则耗费的计算资源太多。
65.步骤2:利用第一变量和多个第二变量组成的样本训练用于预测第三变量的机器学习模型。
66.在具体实施时,可以将第一变量的参数与各个第二变量的参数中具有相同顺序序号的参数组成一个样本,并针对各个样本,将第三变量的参数中具有该样本的顺序序号的参数作为该样本的标签,然后使用各个样本和相应的标签训练机器学习模型。
67.步骤3:基于机器学习模型,确定第一变量和各个第二变量分别对预测第三变量的贡献权重。
68.可选的,可以通过调用预设的模型解释程序,确定第一变量和各个第二变量分别对机器学习模型预测第三变量的贡献权重,无需关心模型中的复杂参数,既方便又简单。
69.步骤4:确定各个第二变量的贡献权重中出现小于第一变量的贡献权重的次数。
70.步骤5:利用该次数和各个第二变量的贡献权重数量确定第一变量与第三变量存在相关性的概率。
71.其中,概率p的计算公式为:p=l/n,l表示各个第二变量的贡献权重中出现小于第一变量的贡献权重的次数,n表示第二变量的贡献权重数量。
72.步骤6:在该概率超过阈值情况下,确定第一变量与第三变量之间存在相关性。
73.至此,完成上述图2所示的数据相关性识别具体流程。
74.上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,本文不再赘述。
75.本领域技术人员可以理解,在具体实施例的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
76.与前述数据相关性识别方法的实施例相对应,本技术还提供了数据相关性识别装置的实施例。
77.图3为本技术根据一示例性实施例示出的一种数据相关性识别装置的结构示意图,该装置用于执行上述任一实施例提供的数据相关性识别方法,如图3所示,该数据相关性识别装置包括:新变量生成模块310,用于根据目标变量组中第一变量生成多个第二变量;其中,所述目标变量组还包括第三变量;贡献权重确定模块320,用于确定所述第一变量和多个第二变量分别对预测所述第三变量的贡献权重;判定模块330,用于基于所述第一变量的贡献权重与各个第二变量的贡献权重,判定所述第一变量与所述第三变量之间是否存在相关性。
78.上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
79.对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本技术方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
80.本技术实施方式还提供一种与前述实施方式所提供的数据相关性识别方法对应的电子设备,以执行上述数据相关性识别方法。
81.图4为本技术根据一示例性实施例示出的一种电子设备的硬件结构图,该电子设备可以包括:通信接口601、处理器602、存储器603和总线604;其中,通信接口601、处理器602和存储器603通过总线604完成相互间的通信。处理器602通过读取并执行存储器603中与数据相关性识别方法的控制逻辑对应的机器可执行指令,可执行上文描述的数据相关性识别方法,该方法的具体内容参见上述实施例,此处不再累述。
82.本技术中提到的存储器603可以是任何电子、磁性、光学或其它物理存储装置,可以包含存储信息,如可执行指令、数据等等。具体地,存储器603可以是ram(random access memory,随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。通过至少一个通信接口601(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
83.总线604可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器603用于存储程序,所述处理器602在接收到执行指令后,
执行所述程序。
84.处理器602可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器602中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器602可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。
85.本技术实施例提供的电子设备与本技术实施例提供的数据相关性识别方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
86.本技术实施方式还提供一种与前述实施方式所提供的数据相关性识别方法对应的计算机可读存储介质,请参考图5所示,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的数据相关性识别方法。
87.需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存 (pram)、静态随机存取存储器 (sram)、动态随机存取存储器 (dram)、其他类型的随机存取存储器 (ram)、只读存储器 (rom)、电可擦除可编程只读存储器 (eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
88.本技术的上述实施例提供的计算机可读存储介质与本技术实施例提供的数据相关性识别方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
89.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求指出。
90.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
91.以上所述仅为本技术的较佳实施例而已,并不用以限制本技术,凡在本技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术保护的范围之内。

技术特征:
1.一种数据相关性识别方法,其特征在于,所述方法包括:根据目标变量组中第一变量生成多个第二变量,所述目标变量组还包含第三变量;确定所述第一变量和多个第二变量分别对预测所述第三变量的贡献权重;基于所述第一变量的贡献权重与各个第二变量的贡献权重,判定所述第一变量与所述第三变量之间是否存在相关性。2.根据权利要求1所述的方法,其特征在于,所述根据目标变量组中第一变量生成多个第二变量,包括:通过将所述第一变量的参数的顺序打乱,得到多个第二变量;其中,所述第一变量的参数的顺序每打乱一次,得到一个第二变量。3.根据权利要求1所述的方法,其特征在于,所述确定所述第一变量和多个第二变量分别对预测所述第三变量的贡献权重,包括:利用所述第一变量和所述多个第二变量组成的样本训练用于预测第三变量的机器学习模型;基于所述机器学习模型,确定所述第一变量和各个第二变量分别对预测第三变量的贡献权重。4.根据权利要求3所述的方法,其特征在于,所述利用所述第一变量和所述多个第二变量组成的样本训练用于预测第三变量的机器学习模型,包括:将所述第一变量的参数与各个第二变量的参数中具有相同顺序序号的参数组成一个样本;针对各个样本,将所述第三变量的参数中具有所述样本的顺序序号的参数作为所述样本的标签;使用各个样本和相应的标签训练所述机器学习模型。5.根据权利要求3所述的方法,其特征在于,所述基于所述机器学习模型,确定所述第一变量和各个第二变量分别对预测第三变量的贡献权重,包括:通过调用预设的模型解释程序,确定所述第一变量和各个第二变量分别对所述机器学习模型预测第三变量的贡献权重。6.根据权利要求1所述的方法,其特征在于,所述基于所述第一变量的贡献权重与各个第二变量的贡献权重,判定所述第一变量与所述第三变量之间是否存在相关性,包括:确定各个第二变量的贡献权重中出现小于所述第一变量的贡献权重的次数;利用所述次数和各个第二变量的贡献权重数量确定所述第一变量与所述第三变量之间存在相关性的概率;在所述概率超过阈值情况下,确定所述第一变量与所述第三变量之间存在相关性。7.根据权利要求1-6任一项所述的方法,其特征在于,在根据目标变量组中第一变量生成多个第二变量之前,所述方法还包括:在所述第一变量的类型是文本型变量的情况下,将所述第一变量的类型转换为数值型变量;在所述目标变量组中第三变量的类型是文本型变量的情况下,将所述第三变量的类型转换为数值型变量。8.一种数据相关性识别装置,其特征在于,所述装置包括:
新变量生成模块,用于根据目标变量组中第一变量生成多个第二变量;其中,所述目标变量组还包含第三变量;贡献权重确定模块,用于确定所述第一变量和多个第二变量分别对预测所述第三变量的贡献权重;判定模块,用于基于所述第一变量的贡献权重与各个第二变量的贡献权重,判定所述第一变量与所述第三变量之间是否存在相关性。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7任一项所述方法。

技术总结
本申请公开了一种数据相关性识别方法、装置、电子设备及介质,方法包括:根据目标变量组中第一变量生成多个第二变量;其中,所述目标变量组还包含第三变量;确定所述第一变量和多个第二变量分别对预测所述第三变量的贡献权重;基于所述第一变量的贡献权重与各个第二变量的贡献权重,实现第一变量与第三变量之间是否存在任意类型相关性的精准判定。否存在任意类型相关性的精准判定。否存在任意类型相关性的精准判定。


技术研发人员:田达 薛庆瑞 张子格 翁文辉 邵孔木 刘楚君 何俊晨 黄瑶
受保护的技术使用者:宁德时代新能源科技股份有限公司
技术研发日:2023.07.12
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐