数据处理方法、装置、电子设备和存储介质与流程
未命名
08-06
阅读:104
评论:0

1.本技术涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备和存储介质。
背景技术:
2.在将机器学习技术应用到某一场景时,应用场景的原始数据通常不能直接使用,需要研发人员进行特征工程来对原始的数据进行处理,包括数据清洗、特征选取、特征构造等步骤,之后再用于模型训练。其中,特征选取是提高模型精度的重要手段。
3.相关技术中,研发人员主要基于特征是否与场景任务相关这样的定性条件选择特征,特征选取的准确性低。
技术实现要素:
4.本技术提出一种数据处理方法、装置、电子设备和存储介质。
5.本技术一方面实施例提出了一种数据处理方法,包括:
6.获取初始数据集及基于所述初始数据集生成的参考模型,其中,所述初始数据集中包括多个样本,每个样本中包含多个维度的特征;
7.针对所述初始数据集中所述维度的特征,从所述初始数据集中抽取至少一个样本对;
8.基于所述至少一个样本对,确定所述维度的特征对所述参考模型的评价指标的贡献度;
9.根据多个所述维度的特征对应的贡献度,对所述初始数据集中的特征维度进行剪枝处理。
10.本技术另一方面实施例提出了一种数据处理装置,包括:
11.获取模块,用于获取初始数据集及基于所述初始数据集生成的参考模型,其中,所述初始数据集中包括多个样本,每个样本中包含多个维度的特征;
12.抽取模块,用于针对所述初始数据集中所述维度的特征,从所述初始数据集中抽取至少一个样本对;
13.确定模块,用于基于所述至少一个样本对,确定所述维度的特征对所述参考模型的评价指标的贡献度;
14.剪枝模块,用于根据多个所述维度的特征对应的贡献度,对所述初始数据集中的特征维度进行剪枝处理。
15.本技术另一方面实施例提出了一种计算机设备,包括处理器和存储器;
16.其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述一方面实施例所述的数据处理方法。
17.本技术另一方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面实施例所述的数据处理方法。
18.本技术另一方面实施例提出了一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述一方面实施例所述的数据处理方法。
19.本技术实施例的数据处理方法、装置、电子设备和存储介质,通过获取初始数据集及基于初始数据集生成的参考模型,其中,初始数据集中包括多个样本,每个样本中包含多个维度的特征;针对初始数据集中维度的特征,从初始数据集中抽取至少一个样本对;基于至少一个样本对,确定维度的特征对参考模型的评价指标的贡献度;根据多个维度的特征对应的贡献度,对初始数据集中的特征维度进行剪枝处理。由此,通过确定每个维度的特征对模型评价指标的贡献度,利用贡献度对初始数据集中特征维度进行剪枝处理,不仅提高了特征选取的准确性,而且提高了处理效率。
20.本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
21.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
22.图1为本技术实施例提供的一种数据处理方法的流程示意图;
23.图2为本技术实施例提供的另一种数据处理方法的流程示意图;
24.图3为本技术实施例提供的另一种数据处理方法的流程示意图;
25.图4为本技术实施例提供的一种数据处理装置的结构示意图。
具体实施方式
26.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
27.下面参考附图描述本技术实施例的数据处理方法、装置、电子设备和存储介质。
28.本技术实施例的数据处理方法,可由本技术实施例提供的数据处理装置执行,该装置可配置于电子设备中,以通过利用特征对参考模型评价指标的贡献度,对初始数据集中的多个维度的特征进行剪枝处理,不仅提高了特征选取的准确性,而且提高了处理效率。
29.图1为本技术实施例提供的一种数据处理方法的流程示意图。
30.如图1所示,该数据处理方法包括:
31.步骤101,获取初始数据集及基于初始数据集生成的参考模型,其中,初始数据集中包括多个样本,每个样本中包含多个维度的特征。
32.本技术中,针对应用于某一场景的模型,可以获取初始数据集,并获取基于初始数据集中每个样本的多个维度特征进行训练生成的参考模型。其中,初始数据集中包括多个样本,每个样本包含多个维度的特征。
33.在获取初始数据集时,可以获取原始数据,并根据应用场景的规则以及常用的数据清洗技术,例如异常值判定等,去除原始数据中错误或者无效的数据。之后,对数据进行格式转换,比如将数据中的文本、类别等非数值的特征通过对应的编码技术转化为数值特征。
34.本技术中的参考模型,可以是各种应用场景下的模型,比如,障碍物分类模型、某类商品的销量预测模型等。
35.步骤102,针对初始数据集中维度的特征,从初始数据集中抽取至少一个样本对。
36.本技术中,初始数据集中每个样本中包含多个维度的特征,可以针对每个维度的特征,从初始数据集中抽取至少一个样本对。也就是说,每个维度的特征对应一个抽取的样本集,其中,样本集中包括至少一个样本对。
37.比如,初始数据集中每个样本包含10个维度的特征,那么针对每个维度的特征抽取15个样本对。
38.需要说明的是,抽取的样本对数量可以根据实际需要设定,本技术对此不做限定。
39.步骤103,基于至少一个样本对,确定维度的特征对参考模型的评价指标的贡献度。
40.相关技术中,主要通过人工经验来进行特征维度的剪枝处理,这种方式利用了研发人员对应用场景的理解,只能基于特征是否与场景任务相关这样的定性条件来进行处理。这样对特征维度的剪枝处理没有定量的分析,导致选取的特征准确性比较低。
41.本技术中,针对每个维度的特征,可以基于其对应的至少一个样本对,确定每个维度的特征对参考模型的评价指标的贡献度,即通过特征对参考模型的评价指标的贡献度,对特征进行定量分析。其中,贡献度可以表示选取与不选取某一特征时模型评价指标的改变值,评价指标可以根据参考模型的类型确定,比如,在分类场景可以使用错误率,在数值预测场景可以使用均方误差等。
42.由于参考模型是利用每个样本的多个维度的特征训练生成的,那么在利用参考模型进行预测时,输入参考模型也应该是多个维度的特征。
43.在实际应用中,可能有些维度的特征组合下模型的表现效果较好,而有些维度的特征组合下模型的效果较差。因此,本技术中,在计算某个维度的特征的贡献度时,可以利用每个样本对中一个样本a的不是该维度的特征去替换另一个样本b对应的特征,以生成的新的样本c,这里可以是利用一个或多个特征进行替换。之后,再利用样本a的该维度的特征去替换样本c的对应特征,以生成新的样本d。
44.之后,可以利用参考模型对样本c和样本d分别进行处理,以根据参考模型的预测结果获取样本c对应的评价指标值和样本d对应的评价指标值,并根据两个评价指标值,确定该样本对对应的贡献度。由此,通过这种方式,可以计算该维度的特征对应的各样本对对应的贡献度,并可以将各样本对对应的贡献度的平均值,作为改维度的特征对参考模型的评价指标的贡献度。
45.步骤104,根据多个维度的特征对应的贡献度,对初始数据集中的特征维度进行剪枝处理。
46.本技术中,可以根据多个维度的特征分别对应的贡献度及参考模型对应的剪枝规则,对初始数据集中的特征维度进行剪枝处理。这里的剪枝处理可以是从初始数据集包含的多个维度的特征中选取部分特征。
47.比如,剪枝规则可以是保留初始数据集中贡献度较高的预设维度数量的特征,或者是保留贡献度大于预设阈值的特征等。
48.若剪枝规则为保留贡献度较高的预设维度数量的特征,那么在剪枝处理时,可以
按照贡献度由高到低的顺序,保留预设维度数量的特征。
49.举例来讲,初始数据集中每个样本包括8个维度的特征,对8个维度的特征按照贡献度由高到低的顺序排序,如下表1所示。
50.表1
51.特征f1f2f3f4f5f6f7f8贡献度0.320.250.230.120.060.0300
52.若剪枝规则是选取3个贡献度较高的特征,那么保留特征f1、f2和f3,将其他维度的特征f4-f8删除。
53.本技术中,在对初始数据集中的特征维度进行剪枝处理后,可以利用剪枝处理后剩余维度的特征训练一个新的模型,利用得到的模型进行预测。
54.本技术中,将特征对评价指标的贡献度作为对特征维度进行剪枝处理时的参考值,由于对评价指标的贡献度的计算获得的是具体数值,可以直接衡量特征与模型评价指标好坏的关系,因此将贡献度作为对特征维度进行剪枝处理的依据,可以大大提高特征选取的准确性。
55.另外,由于评价指标与应用场景有关,那么在同一应用场景下,不同的模型可以采用同一评价函数,从而贡献度也可以在同一尺度下,进而可以在同一尺度下分析特征对不同模型表现的影响。
56.本技术实施例中,通过获取初始数据集及基于初始数据集生成的参考模型,其中,初始数据集中包括多个样本,每个样本中包含多个维度的特征;针对初始数据集中维度的特征,从初始数据集中抽取至少一个样本对;基于至少一个样本对,确定维度的特征对参考模型的评价指标的贡献度;根据多个维度的特征对应的贡献度,对初始数据集中的特征维度进行剪枝处理。由此,通过确定每个维度的特征对模型评价指标的贡献度,利用贡献度对初始数据集中特征维度进行剪枝处理,代替人工方式,不仅提高了特征选取的准确性,而且提高了处理效率。
57.在本技术的一个实施例中,可以通过图2所示的方式,确定每个特征维度的特征对应的贡献度。图2为本技术实施例提供的另一种数据处理方法的流程示意图。
58.如图2所示,上述基于至少一个样本对,确定维度的特征对参考模型的评价指标的贡献度,包括:
59.步骤201,从每个样本对中抽取特征子集,其中,特征子集中不包括维度的特征。
60.本技术中,针对每个维度的特征,可以从其对应的至少一个样本中的每个样本对中抽取特征子集。其中,特征子集不包括每个维度的特征。也就是说,当确定一个维度的特征对应的贡献度时,抽取的特征子集中不包括该维度的特征。
61.这里从每个样本对中抽取特征子集,可以理解为从多个维度的特征中抽取不包括当前要确定的维度的特征,或者也可以理解为从样本对中每个样本包括的多个维度的特征中抽取不包括当前要确定的维度的特征。
62.比如,每个样本中包括8个维度的特征f1-f8,若当前要确定特征f1的贡献度,那么特征f对应的每个样本对抽取的特征子集中不包括特征f1。
63.步骤202,确定特征子集中的各特征对参考模型的第一贡献度。
64.本技术中,针对每个特征子集,可以基于特征子集中的各特征,确定每个特征子集
对应的第一贡献度。
65.假设,当前要确定的维度的特征为第k个维度的特征,可以利用第k个维度的特征对应的样本对中第一样本的第一特征子集中的第i个特征,替换样本对中第二样本的第二特征子集中的对应特征,以生成第三样本。其中,第一特征子集中包括n个特征,n为正整数,i为小于或等于n的正整数,k为小于或等于n+1的正整数。之后,利用第k个维度的特征替换第三样本的对应特征,以生成第四样本。
66.可以理解的是,第一样本的第一特征子集中的特征的维度,与第二样本的第二特征子集中特征的维度相同。
67.在经过特征替换获取新的样本第三样本和第四样本后,可以将第三样本的多个维度的特征,输入至参考模型,根据参考模型的输入结果,确定第三样本对应的第一评价指标值。同样地,将第四样本包括多个维度的特征,输入至参考模型,根据参考模型的输入结果,确定第四样本对应的第二评价指标值。
68.在获取第一评价指标值和第二评价指标值后,可以将第一评价指标值减去第二评价值指标值,得到的差值为第i特征对应的第二贡献度。由此,可以获取i取各个值时的第二贡献度,即可以获取n个特征中每个特征对应的第二贡献度。
69.在获取n个特征中每个特征对应的第二贡献度后,可以计算n个特征对应的第二贡献度之和,计算结果即为第一特征子集或第二特征子集对应的第一贡献度。由此,可以确定第k个维度的特征对应的每个特征子集对应的第一贡献度。
70.本技术中,针对每个特征子集,通过对每个维度的特征参与特征组合和不参与特征组合时的评价指标值,计算贡献度,提高了贡献度计算的准确性。
71.步骤203,根据维度的特征对应的各个特征子集对应的第一贡献度,确定每个维度的特征对应的贡献度。
72.本技术中,在计算每个维度的特征对应的贡献度时,针对其对应的样本对抽取特征子集,并计算每个特征子集对应的第一贡献度,可以计算每个维度的特征对应的各特征子集对应的第一贡献度之和,并将结果除以特征子集的数量,得到每个维度的特征对应的贡献度。
73.比如,在计算第k个维度的特征时,从初始数据集中抽取了5个样本对,针对每个样本对抽取特征子集,即共有5个特征子集,那么可以计算5个特征子集对应的第一贡献度之和,并除以5,得到第k个维度的特征对应的贡献度。
74.本技术实施例中,在基于至少一个样本对,确定维度的特征对参考模型的评价指标的贡献度时,可以通过从每个样本对中抽取特征子集;确定特征子集中的各特征对参考模型的第一贡献度;根据维度的特征对应的各个特征子集对应的第一贡献度,确定维度的特征对应的贡献度。由此,针对每个维度的特征,可以从其对应的每个样本对中抽取特征子集,并确定每个特征子集对应的贡献度,根据各个特征子集对应的贡献度,从而确定每个维度的特征对应的贡献度。
75.在实际应用中,在对特征进行剪枝处理时,可能会对模型的表现有要求,比如,最多可容忍评价指标降低一定的值。基于此,在本技术的一个实施例中,可以采用图3所示的方法进行数据处理。图3为本技术实施例提供的另一种数据处理方法的流程示意图。
76.如图3所示,该数据处理方法包括:
77.步骤301,获取初始数据集及基于初始数据集生成的参考模型,其中,初始数据集中包括多个样本,每个样本中包含多个维度的特征。
78.步骤302,针对初始数据集中维度的特征,从初始数据集中抽取至少一个样本对。
79.步骤303,基于至少一个样本对,确定维度的特征对参考模型的评价指标的贡献度。
80.本技术中,步骤301-步骤303与上述步骤101-步骤103类似,故在此不再赘述。
81.步骤304,按照由低到高的顺序,依次遍历每个维度的特征对应的贡献度,在第一个维度的特征的贡献度小于或等于阈值的情况下,删除第一个维度的特征,确定第二个维度的特征的贡献度。
82.在确定每个维度的特征对参考模型的评价指标的贡献度后,可以按照由低到高的顺序,依次遍历每个维度的特征对应的贡献度。在第一个维度的特征的贡献度小于或等于阈值的情况下,删除第一个维度的特征,并确定第二个维度的特征的贡献度。这里的阈值可以理解为对于参考模型最多可容忍的评价指标降低的值。
83.可以理解的是,这里的第一个维度的特征,即为初始数据集中贡献度最低的特征,第二个维度的特征为贡献度倒数第二的特征,依次类推。
84.步骤305,在第二个维度的特征的贡献度小于或等于阈值的情况下,确定第一个维度的特征的贡献度与第二个维度的特征的贡献度的和。
85.若第二个维度的特征的贡献度小于或等于阈值,可以计算第一个维度的特征的贡献度与第二个维度的特征的贡献度的和,即确定贡献度最低的两个维度的特征的贡献度之和,并比较第一个维度的特征的贡献度与第二个维度的特征的贡献度的和,是否大于阈值。
86.若第二维度的特征的贡献度大于阈值,显然第一个维度的特征的贡献度与第二个维度的特征的贡献度一定大于阈值,那么可以结束剪枝处理。
87.步骤306,在第一个维度的特征的贡献度与第二个维度的特征的贡献度的和大于阈值的情况下,保留第二个维度的特征,并结束特征剪枝处理。
88.在第一个维度的特征的贡献度与第二个维度的特征的贡献度的和大于阈值的情况下,说明两个维度的特征的贡献度之和大于参考模型可以容忍的指标下降值,因此可以保留第二个维度的特征,并结束特征剪枝处理。
89.在第一个维度的特征的贡献度与第二个维度的特征的贡献度的和小于或等于阈值的情况下,可以删除第二个维度的特征,并确定第三个维度的特征贡献度。
90.若第三个维度的特征的贡献度大于阈值,则结束特征剪枝处理。
91.若第三个维度的特征的贡献度小于或等于阈值,则计算第一个维度的特征、第二个维度的特征及第三个维度的特征的贡献度之和。若三个维度的特征的贡献度之和大于阈值,保留第三个维度的特征,并结束特征剪枝处理。否则,确定第四个维度的特征的贡献度。
92.以表1中的特征为例,假设阈值为0.1,上述表1中特征f8和f7特征的贡献度都为0,则删除特征f8和f7,特征f6的贡献度小于阈值0.1,删除特征f6。由于特征f5的贡献度小于阈值0.1,则计算特征f5和f6的贡献度之和。特征f5和f6的贡献度之和为0.09小于阈值0.1,则删除特征f5。由于特征f4大于阈值0.1,则结束剪枝处理。
93.本技术实施例中,在根据多个维度的特征对应的贡献度,对初始数据集中的特征维度进行剪枝处理时,通过按照由低到高的顺序,依次遍历每个维度的特征对应的贡献度,
在第一个维度的特征的贡献度小于或等于阈值的情况下,删除第一个维度的特征,确定第二个维度的特征的贡献度;在第二个维度的特征的贡献度小于或等于阈值的情况下,确定第一个维度的特征的贡献度与第二个维度的特征的贡献度的和;在第一个维度的特征的贡献度与第二个维度的特征的贡献度的和大于阈值的情况下,保留第二个维度的特征,并结束特征剪枝处理。由此,根据参考模型最大可以容忍的评价指标降低的值,对参考模型的特征维度进行剪枝处理,从而实现根据模型表现要求进行剪枝处理,满足了多样化需求。
94.在实际应用中,在对特征数量和模型表现上都有需求时,可能会出现剪枝处理结果不能同时满足两个需求。这时,可以根据需求的优先级,确定采用何种方式进行剪枝处理。
95.为了实现上述实施例,本技术实施例还提出一种数据处理装置。图4为本技术实施例提供的一种数据处理装置的结构示意图。
96.如图4所示,该数据处理装置400包括:
97.获取模块410,用于获取初始数据集及基于所述初始数据集生成的参考模型,其中,所述初始数据集中包括多个样本,每个样本中包含多个维度的特征;
98.抽取模块420,用于针对所述初始数据集中维度的特征,从所述初始数据集中抽取至少一个样本对;
99.确定模块430,用于基于所述至少一个样本对,确定所述维度的特征对所述参考模型的评价指标的贡献度;
100.剪枝模块440,用于根据多个所述维度的特征对应的贡献度,对所述初始数据集中的特征维度进行剪枝处理。
101.在本技术实施例一种可能的实现方式中,所述确定模块430,包括:
102.抽取单元,用于从每个样本对中抽取特征子集,其中,所述特征子集中不包括所述维度的特征;
103.第一确定单元,用于确定所述特征子集中的各特征对所述参考模型的第一贡献度;
104.第二确定单元,用于根据所述维度的特征对应的各个特征子集对应的第一贡献度,确定所述维度的特征对应的贡献度。
105.在本技术实施例一种可能的实现方式中,所述第一确定单元,用于:
106.针对第k个维度的特征,利用其对应的样本对中第一样本的第一特征子集中的第i个特征,替换所述样本对中第二样本的第二特征子集中的对应特征,以生成第三样本,其中,所述第一特征子集中包括n个特征,n为正整数,i为小于或等于n的正整数,k为小于或等于n+1的正整数;
107.利用所述第一样本的第k个维度的特征,替换所述第三样本的对应特征,以生成第四样本;
108.利用所述参考模型分别对所述第三样本及所述第四样本进行处理,以确定所述第三样本对应的第一评价指标值和所述第四样本对应的第二评价指标值;
109.根据所述第一评价指标值和所述第二评价指标值,确定所述第i个特征对应的第二贡献度;
110.根据所述n个特征分别对应的第二贡献度,确定所述特征子集对应的第一贡献度。
111.在本技术实施例一种可能的实现方式中,所述剪枝模块440,用于:
112.按照贡献度由高到低的顺序,保留所述初始数据集中预设数量维度的特征。
113.在本技术实施例一种可能的实现方式中,所述剪枝模块440,用于:
114.按照由低到高的顺序,依次遍历每个维度的特征对应的贡献度,在第一个维度的特征的贡献度小于或等于阈值的情况下,删除所述第一个维度的特征,确定第二个维度的特征的贡献度。
115.在本技术实施例一种可能的实现方式中,所述剪枝模块440,还用于:
116.在所述第二个维度的特征的贡献度小于或等于所述阈值的情况下,确定所述第一个维度的特征的贡献度与所述第二个维度的特征的贡献度的和;
117.在所述第一个维度的特征的贡献度与所述第二个维度的特征的贡献度的和大于所述阈值的情况下,保留所述第二个维度的特征,并结束特征剪枝处理。
118.本技术实施例的数据处理装置,通过获取初始数据集及基于初始数据集生成的参考模型,其中,初始数据集中包括多个样本,每个样本中包含多个维度的特征;针对初始数据集中维度的特征,从初始数据集中抽取至少一个样本对;基于至少一个样本对,确定维度的特征对参考模型的评价指标的贡献度;根据多个维度的特征对应的贡献度,对初始数据集中的特征维度进行剪枝处理。由此,通过确定每个维度的特征对模型评价指标的贡献度,利用贡献度对初始数据集中特征维度进行剪枝处理,不仅提高了特征选取的准确性,而且提高了处理效率。
119.需要说明的是,上述对数据处理方法实施例的解释说明,也适用于该实施例的数据处理装置,故在此不再赘述。
120.为了实现上述实施例,本技术实施例还提出一种计算机设备,包括处理器和存储器;
121.其中,处理器通过读取存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述实施例所述的数据处理方法。
122.为了实现上述实施例,本技术实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所述的数据处理方法。
123.为了实现上述实施例,本技术实施例还提出一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述实施例所述的数据处理方法。
124.在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
125.尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
技术特征:
1.一种数据处理方法,其特征在于,包括:获取初始数据集及基于所述初始数据集生成的参考模型,其中,所述初始数据集中包括多个样本,每个样本中包含多个维度的特征;针对所述初始数据集中所述维度的特征,从所述初始数据集中抽取至少一个样本对;基于所述至少一个样本对,确定所述维度的特征对所述参考模型的评价指标的贡献度;根据多个所述维度的特征对应的贡献度,对所述初始数据集中的特征维度进行剪枝处理。2.如权利要求1所述的方法,其特征在于,所述基于所述至少一个样本对,确定所述维度的特征对所述参考模型的评价指标的贡献度,包括:从每个样本对中抽取特征子集,其中,所述特征子集中不包括所述维度的特征;确定所述特征子集中的各特征对所述参考模型的第一贡献度;根据所述维度的特征对应的各个特征子集对应的第一贡献度,确定所述维度的特征对应的贡献度。3.如权利要求2所述的方法,其特征在于,所述确定所述特征子集中的各特征对所述参考模型的第一贡献度,包括:针对第k个维度的特征,利用其对应的样本对中第一样本的第一特征子集中的第i个特征,替换所述样本对中第二样本的第二特征子集中的对应特征,以生成第三样本,其中,所述第一特征子集中包括n个特征,n为正整数,i为小于或等于n的正整数,k为小于或等于n+1的正整数;利用所述第一样本的第k个维度的特征,替换所述第三样本的对应特征,以生成第四样本;利用所述参考模型分别对所述第三样本及所述第四样本进行处理,以确定所述第三样本对应的第一评价指标值和所述第四样本对应的第二评价指标值;根据所述第一评价指标值和所述第二评价指标值,确定所述第i个特征对应的第二贡献度;根据所述n个特征分别对应的第二贡献度,确定所述特征子集对应的第一贡献度。4.如权利要求1-3任一所述的方法,其特征在于,所述根据多个所述维度的特征对应的贡献度,对所述初始数据集中的特征维度进行剪枝处理,包括:按照贡献度由高到低的顺序,保留所述初始数据集中预设数量维度的特征。5.如权利要求1-3任一所述的方法,其特征在于,所述根据多个所述维度的特征对应的贡献度,对所述初始数据集中的特征维度进行剪枝处理,包括:按照由低到高的顺序,依次遍历每个维度的特征对应的贡献度,在第一个维度的特征的贡献度小于或等于阈值的情况下,删除所述第一个维度的特征,确定第二个维度的特征的贡献度。6.如权利要求5所述的方法,其特征在于,在所述确定第二个维度的特征的贡献度之后,还包括:在所述第二个维度的特征的贡献度小于或等于所述阈值的情况下,确定所述第一个维度的特征的贡献度与所述第二个维度的特征的贡献度的和;
在所述第一个维度的特征的贡献度与所述第二个维度的特征的贡献度的和大于所述阈值的情况下,保留所述第二个维度的特征,并结束特征剪枝处理。7.一种数据处理装置,其特征在于,包括:获取模块,用于获取初始数据集及基于所述初始数据集生成的参考模型,其中,所述初始数据集中包括多个样本,每个样本中包含多个维度的特征;抽取模块,用于针对所述初始数据集中所述维度的特征,从所述初始数据集中抽取至少一个样本对;确定模块,用于基于所述至少一个样本对,确定所述维度的特征对所述参考模型的评价指标的贡献度;剪枝模块,用于根据多个所述维度的特征对应的贡献度,对所述初始数据集中的特征维度进行剪枝处理。8.如权利要求7所述的装置,其特征在于,所述确定模块,包括:抽取单元,用于从每个样本对中抽取特征子集,其中,所述特征子集中不包括所述维度的特征;第一确定单元,用于确定所述特征子集中的各特征对所述参考模型的第一贡献度;第二确定单元,用于根据所述维度的特征对应的各个特征子集对应的第一贡献度,确定所述维度的特征对应的贡献度。9.如权利要求8所述的装置,其特征在于,所述第一确定单元,用于:针对第k个维度的特征,利用其对应的样本对中第一样本的第一特征子集中的第i个特征,替换所述样本对中第二样本的第二特征子集中的对应特征,以生成第三样本,其中,所述第一特征子集中包括n个特征,n为正整数,i为小于或等于n的正整数,k为小于或等于n+1的正整数;利用所述第一样本的第k个维度的特征,替换所述第三样本的对应特征,以生成第四样本;利用所述参考模型分别对所述第三样本及所述第四样本进行处理,以确定所述第三样本对应的第一评价指标值和所述第四样本对应的第二评价指标值;根据所述第一评价指标值和所述第二评价指标值,确定所述第i个特征对应的第二贡献度;根据所述n个特征分别对应的第二贡献度,确定所述特征子集对应的第一贡献度。10.如权利要求7-9任一所述的装置,其特征在于,所述剪枝模块,用于:按照贡献度由高到低的顺序,保留所述初始数据集中预设数量维度的特征。11.如权利要求7-9任一所述的装置,其特征在于,所述剪枝模块,用于:按照由低到高的顺序,依次遍历每个维度的特征对应的贡献度,在第一个维度的特征的贡献度小于或等于阈值的情况下,删除所述第一个维度的特征,确定第二个维度的特征的贡献度。12.如权利要求11所述的装置,其特征在于,所述剪枝模块,还用于:在所述第二个维度的特征的贡献度小于或等于所述阈值的情况下,确定所述第一个维度的特征的贡献度与所述第二个维度的特征的贡献度的和;在所述第一个维度的特征的贡献度与所述第二个维度的特征的贡献度的和大于所述
阈值的情况下,保留所述第二个维度的特征,并结束特征剪枝处理。13.一种计算机设备,其特征在于,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-6中任一所述的数据处理方法。14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的数据处理方法。15.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的数据处理方法。
技术总结
本申请提出一种数据处理方法、装置、电子设备和存储介质,其中,方法包括:获取初始数据集及基于初始数据集生成的参考模型,其中,初始数据集中包括多个样本,每个样本中包含多个维度的特征;针对初始数据集中维度的特征,从初始数据集中抽取至少一个样本对;基于至少一个样本对,确定维度的特征对参考模型的评价指标的贡献度;根据多个维度的特征对应的贡献度,对初始数据集中的特征维度进行剪枝处理。由此,通过确定每个维度的特征对模型评价指标的贡献度,利用贡献度对初始数据集中特征维度进行剪枝处理,不仅提高了特征选取的准确性,而且提高了处理效率。而且提高了处理效率。而且提高了处理效率。
技术研发人员:周柏村 付靖玲 裴积全
受保护的技术使用者:京东科技信息技术有限公司
技术研发日:2022.01.24
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/