一种自适应数据分析与模型管理的方法和系统与流程
未命名
08-26
阅读:70
评论:0

1.本发明涉及深度学习领域,且更为具体地,涉及一种自适应数据分析与模型管理的方法和系统。
背景技术:
2.深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。在进行深度学习时需要训练神经网络模型,它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
3.现有技术中,不同类型的业务需要训练不同的神经网络模型,因此需要针对不同业务准备不同的样本数据,人工对样本数据进行拆解分析后开展神经网络模型训练,其中对大量样本数据进行分析拆解的过程耗时较长、效率较低,影响了神经网络模型的生成与应用。因此,需要一种能够自动对样本数据进行分析处理并高效完成神经网络模型训练的技术方案。
技术实现要素:
4.为了解决上述技术问题,提出了本技术,以提供一种能够自动对样本数据进行分析处理并高效完成神经网络模型训练的自适应数据分析与模型管理的方法和系统。
5.第一方面,本发明提供了一种自适应数据分析与模型管理的方法,包括:对于待进行数据分析的目标业务,获取与所述目标业务存在关联关系的多个样本数据;为所述多个样本数据设置标签,所述标签反映基于所述多个样本数据进行分析得到的期望结果数据;以所述多个样本数据中的任一个样本数据为目标样本数据,提取所述目标样本数据中的a个词语并对所述a个词语进行词性分析;从所述a个词语中筛选出词性为名词的b个词语;从所述目标样本数据中检测所述b个词语是否具有匹配的数据值;从所述b个词语中筛选保留具有匹配的数据值的c个词语;根据所述c个词语及匹配的数据值,创建用于进行深度学习训练的样本特征及对应的特征值;根据所述多个样本数据对应的样本特征及标签训练神经网络模型,其中,根据所述多个样本数据对应的样本特征确定所述神经网络模型的输入层,根据所述多个样本数据对应的标签确定所述神经网络模型的输出层;获取所述目标业务执行过程中产生的业务数据;根据神经网络模型的输入层从所述业务数据中提取多个特征以及匹配的特征值,将所述多个特征的特征值输入所述神经网络模型,获得所述神经网络模型输出的所述目标业务执行的预期结果数据。
6.优选地,前述的自适应数据分析与模型管理的方法,所述根据所述c个词语及匹配的数据值,创建用于进行深度学习训练的样本特征及对应的特征值的步骤包括:以所述c个
词语的任一词语为候选样本特征,将所述候选样本特征的名称与预设的与所述目标业务对应的数据字典中记录的多个标准特征的名称进行比较,在所述候选样本特征的名称与所述数据字典中任一标准特征的名称相同或相似度高于预设阈值时,将所述候选样本特征的名称修改为该标准特征的名称,并记录为所述目标样本数据的样本特征,其特征值为所述候选样本特征对应的数据值,其中,计算相似度的公式为,表示所述候选样本特征,表示所述数据字典中的任一标准特征,表示与之间的相似度,表示中的第个字符,表示中的第个字符,表示的长度,表示的长度,表示将中的前个字符修改为中的前个字符所需要的操作次数。
7.优选地,前述的自适应数据分析与模型管理的方法,所述将所述候选样本特征的名称修改为该标准特征的名称,并记录为所述目标样本数据的样本特征,其特征值为所述候选样本特征对应的数据值的步骤还包括:根据所述数据字典中预记录的与该标准特征对应的特征值规则,判断所述样本特征对应的特征值是否符合所述特征值规则,在判断结果为否时,将所述样本特征删除。
8.优选地,前述的自适应数据分析与模型管理的方法,所述为所述多个样本数据设置标签的步骤包括:对于所述多个样本数据中的每个样本数据,获取多个用户所提交的对于该样本数据的结果数据;计算所述多个用户中每个用户提交的结果数据相对于其他用户提交的结果数据之间的差距:,其中,表示所述多个用户中的一个用户提交的结果数据,表示所述多个用户中的任一其他用户提交的结果数据,表示所述多个用户中提交的结果数据相对于其他用户的结果数据之间的差距,表示所述多个用户中的其他用户的人数;将最小差距值对应的结果数据,设置为对应样本数据对应的标签的值。
9.优选地,前述的自适应数据分析与模型管理的方法,所述从所述b个词语中筛选保留具有匹配的数据值的c个词语的步骤还包括:计算所述c个词语中每个词语在所述多个样本数据中出现的频率,根据出现频率高低从所述c个词语中选择一个或多个词语过滤掉。
10.优选地,前述的自适应数据分析与模型管理的方法,所述根据出现频率高低从所述c个词语中选择一个或多个词语过滤掉的步骤包括:根据对所述神经网络模型分析数据
的时间限制,计算从所述c个词语中过滤掉的词语数量,其中,z为常数,t为对所述神经网络模型分析数据的最大限制时间。
11.优选地,前述的自适应数据分析与模型管理的方法,所述从所述b个词语中筛选保留具有匹配的数据值的c个词语的步骤还包括:从所述c个词语中选择所述多个样本数据中出现一次以上的任一词语;根据该词语对应的多个数据值计算离散度,其中,为该词语的第o个数据值,为该词语对应的多个数据值的平均值;在该词语的离散度高于预设阈值时,将该词语从所述c个词语中过滤掉。
12.优选地,前述的自适应数据分析与模型管理的方法,所述根据所述多个样本数据对应的样本特征及标签训练神经网络模型的步骤包括:获取当前用于训练所述神经网络模型的cpu资源以及内存资源;根据所述神经网络模型的cpu资源以及内存资源,计算所述神经网络模型训练过程中的迭代次数,其中,表示当前的cpu资源,表示当前的内存资源,h和为权重系数。
13.第二方面,本发明提供了一种自适应数据分析与模型管理的系统,包括:样本数据获取模块,对于待进行数据分析的目标业务,获取与所述目标业务存在关联关系的多个样本数据;标签设置模块,为所述多个样本数据设置标签,所述标签反映基于所述多个样本数据进行分析得到的期望结果数据;分词模块,以所述多个样本数据中的任一个样本数据为目标样本数据,提取所述目标样本数据中的a个词语并对所述a个词语进行词性分析;第一筛选模块,从所述a个词语中筛选出词性为名词的b个词语;数据值检测模块,从所述目标样本数据中检测所述b个词语是否具有匹配的数据值;第二筛选模块,从所述b个词语中筛选保留具有匹配的数据值的c个词语;特征创建模块,根据所述c个词语及匹配的数据值,创建用于进行深度学习训练的样本特征及对应的特征值;模型训练模块,根据所述多个样本数据对应的样本特征及标签训练神经网络模型,其中,根据所述多个样本数据对应的样本特征确定所述神经网络模型的输入层,根据所述多个样本数据对应的标签确定所述神经网络模型的输出层;业务数据获取模块,获取所述目标业务执行过程中产生的业务数据;结果输出模块,根据神经网络模型的输入层从所述业务数据中提取多个特征以及匹配的特征值,将所述多个特征的特征值输入所述神经网络模型,获得所述神经网络模型输出的所述目标业务执行的预期结果数据。
14.本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:本发明的技术方案,并未如现有技术方案对样本数据进行人工拆解分析,而是在获得目标业务对应的样本数据并设置标签后,首先进行分词及词性分析,由于特征的名称往往为名词,所以可以据此筛选出词性为名词的词语,其次由于特征必然具有与其匹配的特征值,所以可以据此对剩余的名词词语进行二次筛选过滤,通过两次筛选过滤可以实现自动地从样本数据中提取样本特征及对应的特征值,结合标签即可明确神经网络模型的输入层、输出层并进行训练,基于训练好的神经网络模型可实现对业务执行过程中产生的业务数据进行实时分析处理并输出预测的结果数据,使用样本数据训练神经网络模型的过程
不需人工参与,相比现有技术更加高效。
附图说明
15.通过结合附图对本技术实施例进行更详细的描述,本技术的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本技术实施例的进一步理解,并且构成说明书的一部分,与本技术实施例一起用于解释本技术,并不构成对本技术的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
16.图1为根据本技术实施例的一种自适应数据分析与模型管理的流程图;图2为根据本技术实施例的一种自适应数据分析与模型管理的局部流程图;图3为根据本技术实施例的一种自适应数据分析与模型管理的局部流程图;图4为根据本技术实施例的一种自适应数据分析与模型管理的局部流程图;图5为根据本技术实施例的一种自适应数据分析与模型管理的局部流程图;图6为根据本技术实施例的一种自适应数据分析与模型管理的系统的框图。
具体实施方式
17.下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
18.如图1所示,本发明的一个实施例中提供了一种自适应数据分析与模型管理的方法,包括:步骤s110,对于待进行数据分析的目标业务,获取与目标业务存在关联关系的多个样本数据。
19.本实施例中,对于不同类型的业务需要获取不同的样本数据,样本数据往往为文本形式。
20.步骤s120,为多个样本数据设置标签,标签反映基于多个样本数据进行分析得到的期望结果数据。
21.本实施例中,对于不同类型的业务,每个样本数据的标签反映的内容也不同,例如,其可以是每个样本数据内容的分类、预期的业务执行情况等。
22.步骤s130,以多个样本数据中的任一个样本数据为目标样本数据,提取目标样本数据中的a个词语并对a个词语进行词性分析。
23.本实施例中,可以基于nlp(自然语言处理)技术对目标样本数据进行分词以及词性分析。
24.步骤s140,从a个词语中筛选出词性为名词的b个词语。
25.本实施例中,由于特征的名称往往为名词,所以可以据此筛选出词性为名词的词语。
26.步骤s150,从目标样本数据中检测b个词语是否具有匹配的数据值。
27.步骤s160,从b个词语中筛选保留具有匹配的数据值的c个词语。
28.本实施例中,由于特征必然具有与其匹配的特征值,所以可以据此对剩余的名词词语进行二次筛选过滤。
29.步骤s170,根据c个词语及匹配的数据值,创建用于进行深度学习训练的样本特征
及对应的特征值。
30.本实施例中,通过两次筛选过滤可以实现自动地从样本数据中提取样本特征及对应的特征值,相比现有技术方案效率提升显著。
31.步骤s180,根据多个样本数据对应的样本特征及标签训练神经网络模型,其中,根据多个样本数据对应的样本特征确定神经网络模型的输入层,根据多个样本数据对应的标签确定神经网络模型的输出层。
32.步骤s190,获取目标业务执行过程中产生的业务数据。
33.步骤s1100,根据神经网络模型的输入层从业务数据中提取多个特征以及匹配的特征值,将多个特征的特征值输入神经网络模型,获得神经网络模型输出的目标业务执行的预期结果数据。
34.根据本实施例的技术方案,在获得目标业务对应的样本数据并设置标签后,首先进行分词及词性分析,由于特征的名称往往为名词,所以可以据此筛选出词性为名词的词语,其次由于特征必然具有与其匹配的特征值,所以可以据此对剩余的名词词语进行二次筛选过滤,通过两次筛选过滤可以实现自动地从样本数据中提取样本特征及对应的特征值,结合标签即可明确神经网络模型的输入层、输出层并进行训练,基于训练好的神经网络模型可实现对业务执行过程中产生的业务数据进行实时分析处理并输出预测的结果数据,使用样本数据训练神经网络模型的过程不需人工参与,相比现有技术更加高效。
35.如图2所示,本发明的另一个实施例中还提供了一种自适应数据分析与模型管理的方法,相比于前述的实施例,本实施例的自适应数据分析与模型管理的方法,步骤s170包括:步骤s210,以c个词语的任一词语为候选样本特征,将候选样本特征的名称与预设的与目标业务对应的数据字典中记录的多个标准特征的名称进行比较。
36.本实施例中,预先设置数字字典,数据字典中记录了针对目标业务进行模型训练时的标准特征名称,作为从c个词语中提取用于训练的特征及特征值的依据。
37.步骤s220,在候选样本特征的名称与数据字典中任一标准特征的名称相同或相似度高于预设阈值时,将候选样本特征的名称修改为该标准特征的名称,并记录为目标样本数据的样本特征,其特征值为候选样本特征对应的数据值,其中,计算相似度的公式为,表示所述候选样本特征,表示所述数据字典中的任一标准特征,表示与之间的相似度,表示中的第个字符,表示中的第个字符,表示的长度,表示的长度,表示将中的前个字符修改为中的前个字符所需要的操作次数。
38.本实施例中,考虑到样本数据中的词语存在描述不统一规范的情况,因此基于数字字典进行c个词语进行相似度分析,发现其中可用于模型训练的词语并按照标准特征名称进行修正,修正后作为待用于训练的特征并记录其特征值。
39.步骤s230,根据数据字典中预记录的与该标准特征对应的特征值规则,判断样本特征对应的特征值是否符合特征值规则,在判断结果为否时,将样本特征删除。
40.本实施例中,还在数据字典中记录了不同标准特征对应的特征值规则,特征值规则规定了特征值的合理范围,因此,如果从样本数据中提取的特征对应的特征值不符合特征值规则,说明其特征值存在不合理、不准确的问题,有必要将删除。
41.如图3所示,本发明的另一个实施例中还提供了一种自适应数据分析与模型管理的方法,相比于前述的实施例,本实施例的自适应数据分析与模型管理的方法,步骤s120包括:步骤s310,对于多个样本数据中的每个样本数据,获取多个用户所提交的对于该样本数据的结果数据。
42.本实施例中,对每个样本数据,不同用户均可以提交不同的结果数据,作为生成标签的依据。
43.步骤s320,计算多个用户中每个用户提交的结果数据相对于其他用户提交的结果数据之间的差距:,其中,表示所述多个用户中的一个用户提交的结果数据,表示所述多个用户中的任一其他用户提交的结果数据,表示所述多个用户中提交的结果数据相对于其他用户的结果数据之间的差距,表示所述多个用户中的其他用户的人数。
44.步骤s330,将最小差距值对应的结果数据,设置为对应样本数据对应的标签的值。
45.本实施例中,从多个用户提交的结果数据中,筛选出相对于其他用户提交的结果数据差距最小的一个用户提交的结果数据,差距最小往往表示该用户提交的结果数据最接近准确的结果值,因此可以根据最小差距值对应的结果数据设置标签。
46.本发明的另一个实施例中还提供了一种自适应数据分析与模型管理的方法,相比于前述的实施例,本实施例的自适应数据分析与模型管理的方法,步骤s160还包括:计算c个词语中每个词语在多个样本数据中出现的频率,根据出现频率高低从c个词语中选择一个或多个词语过滤掉。
47.本实施例中,样本数据中出现频率较低的词语,其作为样本特征用于模型训练时缺乏足够的特征值,因此有必要将其过滤掉。
48.其中,可以根据对神经网络模型分析数据的时间限制,计算从c个词语中过滤掉的词语数量,其中,z为常数,t为对所述神经网络模型分析数据的最大限制时间。
49.本实施例中,根据业务需要对神经网络模型的分析效率提出要求,而神经网络模型的分析效率与输入层输入的特征数量直接相关,因此,可以基于神经网络模型的分析时间限制,控制神经网络模型的输入特征数量,进而控制对c个词语的过滤数量。
50.如图4所示,本发明的另一个实施例中还提供了一种自适应数据分析与模型管理的方法,相比于前述的实施例,本实施例的自适应数据分析与模型管理的方法,步骤s160还包括:步骤s410,从c个词语中选择多个样本数据中出现一次以上的任一词语。
51.步骤s420,根据该词语对应的多个数据值计算离散度,其中,为该词语的第o个数据值,为该词语对应的多个数据值的平均值;在该词语的离散度高于预设阈值时,将该词语从所述c个词语中过滤掉。
52.步骤s430,在该词语的离散度高于预设阈值时,将该词语从c个词语中过滤掉。
53.本实施例中,综合同一词语在多个样本数据中的数据值,分析了该词语的数据值离散度,离散度越高则说明该词语对应的数据值越分散、稳定性越差,对于神经网络训练的贡献度越低,此时有必要将其过滤掉。
54.如图5所示,本发明的另一个实施例中还提供了一种自适应数据分析与模型管理的方法,相比于前述的实施例,本实施例的自适应数据分析与模型管理的方法,步骤s180包括:步骤s510,获取当前用于训练神经网络模型的cpu资源以及内存资源。
55.步骤s520,根据神经网络模型的cpu资源以及内存资源,计算神经网络模型训练过程中的迭代次数,其中,表示当前的cpu资源,表示当前的内存资源,h和为权重系数。
56.本实施例中,神经网络模型训练会占用大量的cpu资源和内存资源,训练过程中过多的迭代次数会造成cpu和内存资源不足,因此可以根据当前可用的cpu资源和内存资源合理控制神经网络模型训练的迭代次数。
57.如图6所示,本发明的一个实施例中提供了一种自适应数据分析与模型管理的系统,包括:样本数据获取模块610,对于待进行数据分析的目标业务,获取与目标业务存在关联关系的多个样本数据。
58.本实施例中,对于不同类型的业务需要获取不同的样本数据,样本数据往往为文本形式。
59.标签设置模块620,为多个样本数据设置标签,标签反映基于多个样本数据进行分析得到的期望结果数据。
60.本实施例中,对于不同类型的业务,每个样本数据的标签反映的内容也不同,例如,其可以是每个样本数据内容的分类、预期的业务执行情况等。
61.分词模块630,以多个样本数据中的任一个样本数据为目标样本数据,提取目标样本数据中的a个词语并对a个词语进行词性分析。
62.本实施例中,可以基于nlp(自然语言处理)技术对目标样本数据进行分词以及词
性分析。
63.第一筛选模块640,从a个词语中筛选出词性为名词的b个词语。
64.本实施例中,由于特征的名称往往为名词,所以可以据此筛选出词性为名词的词语。
65.数据值检测模块650,从目标样本数据中检测b个词语是否具有匹配的数据值。
66.第二筛选模块660,从b个词语中筛选保留具有匹配的数据值的c个词语。
67.本实施例中,由于特征必然具有与其匹配的特征值,所以可以据此对剩余的名词词语进行二次筛选过滤。
68.特征创建模块670,根据c个词语及匹配的数据值,创建用于进行深度学习训练的样本特征及对应的特征值。
69.本实施例中,通过两次筛选过滤可以实现自动地从样本数据中提取样本特征及对应的特征值,相比现有技术方案效率提升显著。
70.模型训练模块680,根据多个样本数据对应的样本特征及标签训练神经网络模型,其中,根据多个样本数据对应的样本特征确定神经网络模型的输入层,根据多个样本数据对应的标签确定神经网络模型的输出层。
71.业务数据获取模块690,获取目标业务执行过程中产生的业务数据。
72.结果输出模块6100,根据神经网络模型的输入层从业务数据中提取多个特征以及匹配的特征值,将多个特征的特征值输入神经网络模型,获得神经网络模型输出的目标业务执行的预期结果数据。
73.根据本实施例的技术方案,在获得目标业务对应的样本数据并设置标签后,首先进行分词及词性分析,由于特征的名称往往为名词,所以可以据此筛选出词性为名词的词语,其次由于特征必然具有与其匹配的特征值,所以可以据此对剩余的名词词语进行二次筛选过滤,通过两次筛选过滤可以实现自动地从样本数据中提取样本特征及对应的特征值,结合标签即可明确神经网络模型的输入层、输出层并进行训练,基于训练好的神经网络模型可实现对业务执行过程中产生的业务数据进行实时分析处理并输出预测的结果数据,使用样本数据训练神经网络模型的过程不需人工参与,相比现有技术更加高效。
74.以上结合具体实施例描述了本技术的基本原理,但是,需要指出的是,在本技术中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本技术的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本技术为必须采用上述具体的细节来实现。
75.本技术中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
76.还需要指出的是,在本技术的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本技术的等效方案。
77.提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本
申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本技术的范围。因此,本技术不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
78.为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本技术的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
技术特征:
1.一种自适应数据分析与模型管理的方法,其特征在于,包括:对于待进行数据分析的目标业务,获取与所述目标业务存在关联关系的多个样本数据;为所述多个样本数据设置标签,所述标签反映基于所述多个样本数据进行分析得到的期望结果数据;以所述多个样本数据中的任一个样本数据为目标样本数据,提取所述目标样本数据中的a个词语并对所述a个词语进行词性分析;从所述a个词语中筛选出词性为名词的b个词语;从所述目标样本数据中检测所述b个词语是否具有匹配的数据值;从所述b个词语中筛选保留具有匹配的数据值的c个词语;根据所述c个词语及匹配的数据值,创建用于进行深度学习训练的样本特征及对应的特征值;根据所述多个样本数据对应的样本特征及标签训练神经网络模型,其中,根据所述多个样本数据对应的样本特征确定所述神经网络模型的输入层,根据所述多个样本数据对应的标签确定所述神经网络模型的输出层;获取所述目标业务执行过程中产生的业务数据;根据神经网络模型的输入层从所述业务数据中提取多个特征以及匹配的特征值,将所述多个特征的特征值输入所述神经网络模型,获得所述神经网络模型输出的所述目标业务执行的预期结果数据。2.根据权利要求1所述的自适应数据分析与模型管理的方法,其特征在于,所述根据所述c个词语及匹配的数据值,创建用于进行深度学习训练的样本特征及对应的特征值的步骤包括:以所述c个词语的任一词语为候选样本特征,将所述候选样本特征的名称与预设的与所述目标业务对应的数据字典中记录的多个标准特征的名称进行比较,在所述候选样本特征的名称与所述数据字典中任一标准特征的名称相同或相似度高于预设阈值时,将所述候选样本特征的名称修改为该标准特征的名称,并记录为所述目标样本数据的样本特征,其特征值为所述候选样本特征对应的数据值,其中,计算相似度的公式为,表示所述候选样本特征,表示所述数据字典中的任一标准特征,表示与之间的相似度,表示中的第个字符,表示中的第个字符,表示的长度,表示的长度,表示将中的前个字符修改为中的前个字符所需要的操作次数。3.根据权利要求2所述的自适应数据分析与模型管理的方法,其特征在于,所述将所述
候选样本特征的名称修改为该标准特征的名称,并记录为所述目标样本数据的样本特征,其特征值为所述候选样本特征对应的数据值的步骤还包括:根据所述数据字典中预记录的与该标准特征对应的特征值规则,判断所述样本特征对应的特征值是否符合所述特征值规则,在判断结果为否时,将所述样本特征删除。4.根据权利要求1所述的自适应数据分析与模型管理的方法,其特征在于,所述为所述多个样本数据设置标签的步骤包括:对于所述多个样本数据中的每个样本数据,获取多个用户所提交的对于该样本数据的结果数据;计算所述多个用户中每个用户提交的结果数据相对于其他用户提交的结果数据之间的差距:,其中,表示所述多个用户中的一个用户提交的结果数据,表示所述多个用户中的任一其他用户提交的结果数据,表示所述多个用户中提交的结果数据相对于其他用户的结果数据之间的差距,表示所述多个用户中的其他用户的人数;将最小差距值对应的结果数据,设置为对应样本数据对应的标签的值。5.根据权利要求1所述的自适应数据分析与模型管理的方法,其特征在于,所述从所述b个词语中筛选保留具有匹配的数据值的c个词语的步骤还包括:计算所述c个词语中每个词语在所述多个样本数据中出现的频率,根据出现频率高低从所述c个词语中选择一个或多个词语过滤掉。6.根据权利要求5所述的自适应数据分析与模型管理的方法,其特征在于,所述根据出现频率高低从所述c个词语中选择一个或多个词语过滤掉的步骤包括:根据对所述神经网络模型分析数据的时间限制,计算从所述c个词语中过滤掉的词语数量,其中,z为常数,t为对所述神经网络模型分析数据的最大限制时间。7.根据权利要求1所述的自适应数据分析与模型管理的方法,其特征在于,所述从所述b个词语中筛选保留具有匹配的数据值的c个词语的步骤还包括:从所述c个词语中选择所述多个样本数据中出现一次以上的任一词语;根据该词语对应的多个数据值计算离散度,其中,为该词语的第o个数据值,为该词语对应的多个数据值的平均值;在该词语的离散度高于预设阈值时,将该词语从所述c个词语中过滤掉。8.根据权利要求1所述的自适应数据分析与模型管理的方法,其特征在于,所述根据所述多个样本数据对应的样本特征及标签训练神经网络模型的步骤包括:获取当前用于训练所述神经网络模型的cpu资源以及内存资源;根据所述神经网络模型的cpu资源以及内存资源,计算所述神经网络模型训练过程中
的迭代次数,其中,表示当前的cpu资源,表示当前的内存资源,h和为权重系数。9.一种自适应数据分析与模型管理的系统,应用于权利要求1至8中任一项所述的自适应数据分析与模型管理的方法,其特征在于,包括:样本数据获取模块,对于待进行数据分析的目标业务,获取与所述目标业务存在关联关系的多个样本数据;标签设置模块,为所述多个样本数据设置标签,所述标签反映基于所述多个样本数据进行分析得到的期望结果数据;分词模块,以所述多个样本数据中的任一个样本数据为目标样本数据,提取所述目标样本数据中的a个词语并对所述a个词语进行词性分析;第一筛选模块,从所述a个词语中筛选出词性为名词的b个词语;数据值检测模块,从所述目标样本数据中检测所述b个词语是否具有匹配的数据值;第二筛选模块,从所述b个词语中筛选保留具有匹配的数据值的c个词语;特征创建模块,根据所述c个词语及匹配的数据值,创建用于进行深度学习训练的样本特征及对应的特征值;模型训练模块,根据所述多个样本数据对应的样本特征及标签训练神经网络模型,其中,根据所述多个样本数据对应的样本特征确定所述神经网络模型的输入层,根据所述多个样本数据对应的标签确定所述神经网络模型的输出层;业务数据获取模块,获取所述目标业务执行过程中产生的业务数据;结果输出模块,根据神经网络模型的输入层从所述业务数据中提取多个特征以及匹配的特征值,将所述多个特征的特征值输入所述神经网络模型,获得所述神经网络模型输出的所述目标业务执行的预期结果数据。
技术总结
本申请涉及一种自适应数据分析与模型管理的方法和系统,方法包括:获取与目标业务存在关联关系的多个样本数据;为多个样本数据设置标签;以多个样本数据中的任一个样本数据为目标样本数据,提取目标样本数据中的a个词语并对a个词语进行词性分析;从a个词语中筛选出词性为名词的b个词语;从b个词语中筛选保留具有匹配的数据值的c个词语;创建用于进行深度学习训练的样本特征及对应的特征值;训练神经网络模型;根据神经网络模型的输入层从业务数据中提取多个特征以及匹配的特征值,将多个特征的特征值输入神经网络模型,获得神经网络模型输出的目标业务执行的预期结果数据。本发明训练神经网络模型不需人工处理样本数据,相比现有技术更加高效。现有技术更加高效。现有技术更加高效。
技术研发人员:郭晓凤 王海丹 张妍 张楷 丁政然 骆仪虹 卢嘉益
受保护的技术使用者:易信(厦门)信用服务技术有限公司
技术研发日:2023.07.12
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/