一种模型确定方法及相关装置与流程

未命名 08-05 阅读:93 评论:0


1.本技术涉及数据处理领域,具体涉及一种模型确定方法及相关装置。


背景技术:

2.在数据处理领域中,元数据作为一种描述数据的数据,可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据,具有广泛的应用。
3.虽然元数据能够对数据实现管理,但是在实际应用中需要构建和维护元数据之间的关联关系,由于相关技术中该构建和维护过程主要是人工操作,故采用元数据来管理数据存在耗时长、成本高的问题,对此,如何实现元数据关系的自动组织和自动关联重构是目前亟需解决的问题。


技术实现要素:

4.本技术实施例提供了一种模型确定方法及相关装置,可以将目标数据库中的多个字段和多个关联关系转换为目标数据关系网络,并能够得到可以自动确定待关联字段之间的关联关系的关联关系分类模型。
5.有鉴于此,本技术实施例第一方面提供一种模型确定方法,包括:
6.获取目标数据库中的多个字段,并确定所述多个字段之间的多个关联关系;
7.根据所述多个字段和所述多个关联关系,生成目标数据关系网络,所述目标数据关系网络中包括与所述多个字段对应的多个节点,以及与所述多个关联关系对应的所述多个节点之间的多个连接线;
8.基于所述目标数据关系网络,从所述多个节点和所述多个连接线中确定初始关联关系分类模型对应的训练样本和验证样本;
9.根据所述训练样本和所述验证样本对所述初始关联关系分类模型进行训练和验证,得到关联关系分类模型,所述关联关系分类模型用于得到待关联字段之间的关联关系。
10.本技术实施例第二方面提供一种模型确定装置,包括:
11.获取单元,用于获取目标数据库中的多个字段,并确定所述多个字段之间的多个关联关系;
12.生成单元,用于根据所述多个字段和所述多个关联关系,生成目标数据关系网络,所述目标数据关系网络中包括与所述多个字段对应的多个节点,以及与所述多个关联关系对应的所述多个节点之间的多个连接线;
13.确定单元,用于基于所述目标数据关系网络,从所述多个节点和所述多个连接线中确定初始关联关系分类模型的训练样本和验证样本;
14.训练单元,用于根据所述训练样本和所述验证样本对所述初始关联关系分类模型进行训练和验证,得到关联关系分类模型,所述关联关系分类模型用于得到待关联字段之间的关联关系。
15.本技术实施例第三方面提供一种电子设备,包括:
16.存储器,用于存储可执行指令;
17.处理器,用于执行所述存储器中存储的可执行指令时,实现本技术实施例提供的模型确定方法。
18.本技术实施例第四方面提供一种计算机可读介质,存储有可执行指令,用于被处理器执行时,实现本技术实施例提供的模型确定方法。
19.由上述技术方案可以看出,首先,获取目标数据库中的多个字段,并确定所多个字段之间的多个关联关系;其次,根据多个字段和多个关联关系,生成目标数据关系网络,目标数据关系网络中包括与多个字段对应的多个节点,以及与多个关联关系对应的多个节点之间的多个连接线,该目标数据关系网络能够对多个字段和多个字段之间的关联关系以图论表示形式进行清楚的展示;然后,基于目标数据关系网络,从多个节点和多个连接线中确定初始关联关系分类模型的训练样本和验证样本;最后,根据训练样本和验证样本对初始关联关系分类模型进行训练和验证,得到关联关系分类模型,关联关系分类模型用于得到待关联字段之间的关联关系。通过上述方案,能够将目标数据库中的多个字段和多个关联关系转换为目标数据关系网络,并能够得到可以自动确定待关联字段之间的关联关系的关联关系分类模型,从而提高数据处理的效率。
附图说明
20.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
21.图1为本技术实施例提供的一种模型确定方法的方法流程图;
22.图2为本技术实施例提供的一种模型确定方法的训练和应用的方法流程图;
23.图3为本技术实施例提供的一种模型确定装置的装置示意图。
具体实施方式
24.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
25.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.虽然元数据能够对数据实现管理,但是在实际应用中需要构建和维护元数据之间的关联关系,由于相关技术中该构建和维护过程主要是人工操作,人工操作存在耗时长、成
本高的问题。
27.鉴于此,本技术实施例提供了一种模型确定方法及相关装置,可以将目标数据库中的多个字段和多个关联关系转换为目标数据关系网络,并能够得到可以自动确定待关联字段之间的关联关系的关联关系分类模型。
28.下面通过方法实施例来对本技术提供的一种模型确定方法进行说明,如图1所示,图1为本技术实施例提供的一种模型确定方法的方法流程图,该方法包括:
29.s101、获取目标数据库中的多个字段,并确定多个字段之间的多个关联关系。
30.目标数据库是指待管理的数据库,在实际应用中,目标数据库可以是现有的业务系统数据库。在数据库中,会用字段描述数据库中的某一特征,数据库中表的“列”就可以作为字段,例如,在“通讯录”数据库中,“姓名”、“联系电话”这些都是数据库中表所有行共有的属性,故可以将这些列作为“姓名”字段和“联系电话”字段。
31.在本实施例中,可以获取目标数据库中的多个字段,多个字段可以用c
ij
(i=1,2,

,m,j=1,2,

,n)表示,其中,c
ij
表示第i个表中第j个字段,需要说明的是,在获取字段的过程中,需要分析并整理字段的真实的字段含义,以保证字段的完整性,避免获取的字段是无意义的信息。
32.在获取多个字段之后,还可以确定多个字段之间的多个关联关系,多个关联关系可以用p
l
(l=1,2,

,h)表示,p
l
表示第l个关联关系,该多个关联关系就是后续需要分析处理的全部关联关系。
33.在一种可能的实现方式中,s101中获取目标数据库中的多个字段,包括:
34.根据业务逻辑,从目标数据库中抽取多个数据表格;
35.从多个数据表格中,获取多个字段。
36.业务逻辑是指目标数据库对应的业务的执行逻辑,例如,当目标数据库为医院数据库时,业务逻辑是指医院中从门诊到住院整个业务的执行逻辑,根据业务逻辑,可以从目标数据库中抽取所需的多个数据表格,多个数据表格可以用ti(i=1,2,

,m)表示,ti表示第i个数据表格,再从多个数据表格中,获取多个字段。
37.s102、根据多个字段和多个关联关系,生成目标数据关系网络,目标数据关系网络中包括与多个字段对应的多个节点,以及与多个关联关系对应的多个节点之间的多个连接线。
38.根据多个字段和多个关联关系,可以生成目标数据关系网络,目标数据关系网络是指用于表示多个字段和多个关联关系的复杂网络,目标数据关系网络中包括多个节点和多个连接线,其中,多个节点与多个字段相对应,多个连接线与多个关联关系相对应,为了能够实现目标数据关系网络中数据的可溯源,可以通过图数据库存储多个字段的属性和关系,通过关系型数据库存储数据多个节点和多个字段的映射关系。
39.通过目标数据关系网络对目标数据库中多个字段和对应的多个关联关系以图论表示形式进行了清楚的表示。
40.在一种可能的实现方式中,s102中根据多个字段和多个关联关系,生成目标数据关系网络,包括:
41.根据多个字段和多个关联关系,生成初始数据关系网络,初始数据关系网络包括与多个字段对应的多个初始节点,以及与多个关联关系对应的多个初始节点之间的多个初
始连接线,其中,多个字段与多个初始节点数量相同,多个关联关系和多个初始连接线数量相同;
42.对多个初始节点进行去重,得到包括多个节点和多个连接线的目标数据关系网络。
43.为了得到目标数据关系网络,可以先根据多个字段,得到一一对应的多个初始节点,例如,当多个字段用c
ij
(i=1,2,

,m,j=1,2,

,n)表示时,多个初始节点用n
ij
(i=1,2,

,m,j=1,2,

,n)表示,其中,c
ij
表示第i个表中第j个字段,n
ij
表示第i个表中第j个字段对应的初始节点,再根据多个连接关系,得到一一对应的多个初始连接线,该多个初始节点和多个初始连接线构成了初始数据关系网络。
44.由于在实际应用中,初始数据关系网络中可以会存在相似度较高的初始节点,此时为了能够更加清楚明白的展示目标数据库中多个字段以及多个字段之间的连接关系,避免对相似度较高的初始节点进行无意义的重复表示,可以对多个初始节点进行去重,得到包括多个节点和多个连接线的目标数据关系网络。
45.需要说明的是,在对多个初始节点进行去重,删去部分相似度较高的初始节点之后,需要相对应的删去被去重的初始节点对应的初始连接线,以得到包括多个节点和多个连接线的目标数据关系网络。
46.在一种可能的实现方式中,对多个初始节点进行去重,包括:
47.根据预先设定的规则对多个初始节点进行去重。
48.在实际应用中,相关管理人员可以根据需要预先设定相关的规则来多个初始节点进行去重,该预先设定的规则可以由人工按需自行设定,例如,可以通过同名表来对同名的字段进行去重,从而对字段对应的初始节点进行去重,在此并不限制。
49.在一种可能的实现方式中,对多个初始节点进行去重,包括:
50.通过特征工程对多个字段的属性进行补充;
51.根据多个字段的属性,通过相似度模型得到多个字段对应的多个初始节点之间的相似度;
52.根据多个初始节点之间的相似度,对多个初始节点进行去重。
53.为了能够更好对初始节点进行去重,可以通过特征工程来对多个字段的属性进行补充,补充的属性可以是多维度的,例如可以从库级、表级和字段级来对多个字段的属性进行补充,可以用a
ijk
(i=1,2,

,m,j=1,2,

,n,k=1,2,

,o
ij
)来统一表示补充的属性,其中,a
ijk
表示第o
ij
个数据库中第i个表中第j个字段,i表示表级,j表示字段级,o
ij
表示库级。
54.根据多个字段的属性,可以通过相似度模型来得到多个字段对应的多个初始节点之间的相似度,其中,相似度模型可以自行构建。
55.在确定多个初始节点之间的相似度之后,可以直接对初始节点进行去重,例如可以直接对相似度高的初始节点进行去重。
56.在一种可能的实现方式中,对多个初始节点进行去重,包括:
57.通过图嵌入算法,将多个初始节点转换为对应的多个初始节点向量;
58.根据多个初始节点向量之间的相似度,对多个初始节点进行去重。
59.基于图嵌入算法,可以将多个初始节点转换成向量的形式,得到对应的多个初始节点向量,例如,当多个初始节点用n
ij
(i=1,2,

,m,j=1,2,

,n)表示时,多个初始节点
向量用v
ij
(i=1,2,

,m,j=1,2,

,n)表示,其中,n
ij
表示第i个表中第j个字段对应的初始节点,v
ij
表示第i个表中第j个字段对应的初始节点向量。
60.当用向量的形式表示初始节点之后,可以通过初始节点向量之间的相似度,对多个初始节点进行去重,例如对相似度较高的初始节点向量对应的初始节点直接进行去重。
61.s103、基于目标数据关系网络,从多个节点和多个连接线中确定初始关联关系分类模型对应的训练样本和验证样本。
62.在实际应用中,当目标数据库中新增的待关联字段时,需要将新增的待关联字段添加至目标数据关系网络中,以实现对目标数据库的维护,相关技术中通常采用人工来进行维护,在本实施例中,通过关联关系分类模型来自动得到待关联字段之间的关联关系,初始关联关系分类模型是指可以用于被训练样本训练以得到关联关系分类模型的初始模型,即未完成模型训练的关联关系分类模型。
63.在确定目标数据关系网络之后,为了能够对初始关联关系分类模型进行训练,可以基于目标数据关系网络,从多个节点和多个连接线中确定对应的训练样本。
64.此外,为了能够验证训练后的关联关系分类模型的准确性,还可以基于目标数据关系网络,从多个节点和多个连接线中确定对应的验证样本。
65.在一种可能的实现方式中,在s103中基于目标数据关系网络,从多个节点和多个连接线中确定初始关联关系分类模型的训练样本,包括:
66.基于目标数据关系网络,按预设比例从多个节点和多个连接线中划分训练样本和验证样本。
67.在根据目标数据库,确定对应的目标数据关系网络之后,由于目标数据关系网络可以对目标数据库中的字段和字段之间的关联关系进行清楚明白的展示,可以基于目标数据关系网络,按照预设比例从多个节点和多个连接线中划分训练样本和验证样本,其中,预设比例可以由相关工作人员按照需要自行设置。
68.s104、根据训练样本和验证样本对初始关联关系分类模型进行训练和验证,得到关联关系分类模型,关联关系分类模型用于得到待关联字段之间的关联关系。
69.在s103中确定训练样本和验证样本之后,可以根据训练样本和验证样本对初始关联关系分类模型进行训练和验证,得到关联关系分类模型,该关联关系分类模型可以用于自动确定待关联字段之间的关联关系,从而能够在实际应用中,通过关联关系分类模型快速确定待关联字段之间的关联关系。
70.在一种可能的实现方式中,在得到关联关系分类模型之后,当需要对待关联字段的关联关系进行识别时,可以确定待关联字段与多个节点分别对应的多个关联度,关联度用于标识待关联字段与多个节点中一个节点对应的字段之间的相似度;
71.若多个关联度中包括满足关联条件的目标关联度,存储待关联字段与目标关联度对应的目标节点之间的映射关系;
72.若多个关联度不满足关联条件,将待关联字段对应的待关联节点添加至目标数据关系网络,根据关联关系分类模型确定待关联节点和多个节点之间的多个关联关系,并将待关联节点和多个节点之间的多个关联关系添加至目标数据关系网络。
73.具体的,在本实施例中。可以以待关联字段与多个节点分别对应的关联度来标识待关联字段与多个节点对应的多个字段之间的相似度。
74.若多个关联度中包括满足关联条件的目标关联度,说明存在和待关联字段关联度较高的目标节点,即说明存在和待关联字段相似度较高的目标字段,此时,无需在目标数据关系网络中新增节点,而是直接存储待关联字段与目标节点的映射关系。
75.若多个关联度均不满足关联条件,说明不存在和待关联字段关联较高的目标节点,即说明目标数据关系网络中的多个节点对应的字段和待关联字段相似度均不高,此时,可以将待关联字段对应的待关联节点添加至目标数据关系网络中,可以用n

ij
表示待关联节点;再根据关联关系分类模型确定的待关联节点和目标数据关系网络中多个节点的多个关联关系,可以用p
l

(l

=1,2,

,h

,h

∈h)表示该多个关联关系,并将新增的多个关联关系以连接线的形式表示与目标数据关系网络中。
76.下面基于图2来对本技术提供的一种模型确定方法的训练和应用流程进行整体说明,如图2所示:
77.s201、整理目标数据库中的数据表格,获取多个字段,并确定多个字段之间的关联关系。
78.s202、根据多个字段和多个关联关系,生成目标数据关系网络。
79.s203、基于目标数据关系网络,从多个节点和多个连接线中确定初始关联关系分类模型对应的训练样本和验证样本。
80.s204、根据训练样本和验证样本对初始关联关系分类模型进行训练和验证,得到关联关系分类模型。
81.s205、当待关联字段与目标数据关系网络中每个节点的关联度均较低时,将待关联字段对应的待关联节点添加至目标数据关系网络,根据关联关系分类模型确定所述待关联节点和所述多个节点之间的多个关联关系,并将待关联节点和多个节点之间的多个关联关系添加至目标数据关系网络。
82.由此可见,首先,获取目标数据库中的多个字段,并确定所多个字段之间的多个关联关系;其次,根据多个字段和多个关联关系,生成目标数据关系网络,目标数据关系网络中包括与多个字段对应的多个节点,以及与多个关联关系对应的多个节点之间的多个连接线,该目标数据关系网络能够对多个字段和多个字段之间的关联关系以图论表示形式进行清楚的展示;然后,基于目标数据关系网络,从多个节点和多个连接线中确定初始关联关系分类模型的训练样本和验证样本;最后,根据训练样本和验证样本对初始关联关系分类模型进行训练和验证,得到关联关系分类模型,关联关系分类模型用于得到待关联字段之间的关联关系。通过上述方案,将目标数据库中的多个字段和多个关联关系转换为目标数据关系网络,并能够得到可以自动确定待关联字段之间的关联关系的关联关系分类模型。
83.此外,当待关联字段和目标数据关系网络中的多个节点关联度均较低时,可以先将待关联字段以待关联节点的形式添加至目标数据关系网络中,再根据关联关系分类模型确定待关联节点和目标数据关系网络中多个节点的多个关联关系,从而实现对待关联字段的关联关系的自动识别,并将该多个关联关系以多个连接线的形式自动链接至目标数据关系网络中,提升了数据管理水平。
84.下面通过装置实施例来对本技术提供的一种模型确定装置进行说明,如图3所示,图3为本技术实施例提供的一种模型确定装置的装置示意图,该装置包括:
85.获取单元301,用于获取目标数据库中的多个字段,并确定多个字段之间的多个关
联关系;
86.生成单元302,用于根据多个字段和多个关联关系,生成目标数据关系网络,目标数据关系网络中包括与多个字段对应的多个节点,以及与多个关联关系对应的多个节点之间的多个连接线;
87.确定单元303,用于基于目标数据关系网络,从多个节点和多个连接线中确定初始关联关系分类模型的训练样本和验证样本;
88.训练单元304,用于根据训练样本和验证样本对初始关联关系分类模型进行训练和验证,得到关联关系分类模型,关联关系分类模型用于得到待关联字段之间的关联关系。
89.在一种可能的实现方式中,获取单元用于:
90.根据业务逻辑,从目标数据库中抽取多个数据表格;
91.从多个数据表格中,获取多个字段。
92.在一种可能的实现方式中,生成单元用于:
93.根据多个字段和多个关联关系,生成初始数据关系网络,初始数据关系网络包括与多个字段对应的多个初始节点,以及与多个关联关系对应的多个初始节点之间的多个初始连接线,其中,多个字段与多个初始节点数量相同,多个关联关系和多个初始连接线数量相同;
94.对多个初始节点进行去重,得到包括多个节点和多个连接线的目标数据关系网络。
95.在一种可能的实现方式中,生成单元用于:
96.根据预先设定的规则对多个初始节点进行去重。
97.在一种可能的实现方式中,生成单元用于:
98.通过特征工程对多个字段的属性进行补充;
99.根据多个字段的属性,通过相似度模型得到多个字段对应的多个初始节点之间的相似度;
100.根据多个初始节点之间的相似度,对多个初始节点进行去重。
101.在一种可能的实现方式中,生成单元用于:
102.通过图嵌入算法,将多个初始节点转换为对应的多个初始节点向量;
103.根据多个初始节点向量之间的相似度,对多个初始节点进行去重。
104.在一种可能的实现方式中,确定单元用于:
105.基于目标数据关系网络,按预设比例从多个节点和多个连接线中划分训练样本和验证样本。
106.在一种可能的实现方式中,确定单元还用于:
107.确定待关联字段与多个节点分别对应的多个关联度,关联度用于标识待关联字段与多个节点中一个节点对应的字段之间的相似度;
108.若多个关联度中包括满足关联条件的目标关联度,存储待关联字段与目标关联度对应的目标节点之间的映射关系;
109.若多个关联度不满足关联条件,将待关联字段对应的待关联节点添加至目标数据关系网络,根据关联关系分类模型确定待关联节点和多个节点之间的多个关联关系,并将待关联节点和多个节点之间的多个关联关系添加至目标数据关系网络。
110.需要说明的是,本技术上述实施例提供的各个模块的具体工作过程可相应地参考上述方法实施例中的相应的实施方式,此处不再赘述。
111.由此可见,首先,获取目标数据库中的多个字段,并确定所多个字段之间的多个关联关系;其次,根据多个字段和多个关联关系,生成目标数据关系网络,目标数据关系网络中包括与多个字段对应的多个节点,以及与多个关联关系对应的多个节点之间的多个连接线,该目标数据关系网络能够对多个字段和多个字段之间的关联关系以图论表示形式进行清楚的展示;然后,基于目标数据关系网络,从多个节点和多个连接线中确定初始关联关系分类模型的训练样本和验证样本;最后,根据训练样本和验证样本对初始关联关系分类模型进行训练和验证,得到关联关系分类模型,关联关系分类模型用于得到待关联字段之间的关联关系。通过上述方案,将目标数据库中的多个字段和多个关联关系转换为目标数据关系网络,并能够得到可以自动确定待关联字段之间的关联关系的关联关系分类模型。
112.本技术另一实施例提供了一种电子设备,包括:
113.存储器,用于存储可执行指令;
114.处理器,用于执行存储器中存储的可执行指令时,实现本技术实施例上述方法实施例中方法。
115.本技术另一实施例提供了一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现本技术实施例上述的方法实施例中方法。
116.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
117.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种模型确定方法,其特征在于,所述方法包括:获取目标数据库中的多个字段,并确定所述多个字段之间的多个关联关系;根据所述多个字段和所述多个关联关系,生成目标数据关系网络,所述目标数据关系网络中包括与所述多个字段对应的多个节点,以及与所述多个关联关系对应的所述多个节点之间的多个连接线;基于所述目标数据关系网络,从所述多个节点和所述多个连接线中确定初始关联关系分类模型对应的训练样本和验证样本;根据所述训练样本和所述验证样本对所述初始关联关系分类模型进行训练和验证,得到关联关系分类模型,所述关联关系分类模型用于得到待关联字段之间的关联关系。2.根据权利要求1所述的方法,其特征在于,所述获取目标数据库中的多个字段,包括:根据业务逻辑,从所述目标数据库中抽取多个数据表格;从所述多个数据表格中,获取所述多个字段。3.根据权利要求1所述的方法,其特征在于,所述根据所述多个字段和所述多个关联关系,生成目标数据关系网络,包括:根据所述多个字段和所述多个关联关系,生成初始数据关系网络,所述初始数据关系网络包括与所述多个字段对应的多个初始节点,以及与所述多个关联关系对应的所述多个初始节点之间的多个初始连接线,其中,所述多个字段与所述多个初始节点数量相同,所述多个关联关系和所述多个初始连接线数量相同;对所述多个初始节点进行去重,得到包括所述多个节点和所述多个连接线的目标数据关系网络。4.根据权利要求3所述的方法,其特征在于,所述对所述多个初始节点进行去重,包括:根据预先设定的规则对所述多个初始节点进行去重。5.根据权利要求3所述的方法,其特征在于,所述对所述多个初始节点进行去重,包括:通过特征工程对所述多个字段的属性进行补充;根据所述多个字段的属性,通过相似度模型得到所述多个字段对应的所述多个初始节点之间的相似度;根据所述多个初始节点之间的相似度,对所述多个初始节点进行去重。6.根据权利要求3所述的方法,其特征在于,所述对所述多个初始节点进行去重,包括:通过图嵌入算法,将所述多个初始节点转换为对应的多个初始节点向量;根据所述多个初始节点向量之间的相似度,对所述多个初始节点进行去重。7.根据权利要求1所述的方法,其特征在于,所述基于所述目标数据关系网络,从所述多个节点和所述多个连接线中确定初始关联关系分类模型的训练样本,包括:基于所述目标数据关系网络,按预设比例从所述多个节点和所述多个连接线中划分所述训练样本和所述验证样本。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述待关联字段与所述多个节点分别对应的多个关联度,所述关联度用于标识所述待关联字段与所述多个节点中一个节点对应的字段之间的相似度;若所述多个关联度中包括满足关联条件的目标关联度,存储所述待关联字段与所述目标关联度对应的目标节点之间的映射关系;
若所述多个关联度不满足关联条件,将所述待关联字段对应的待关联节点添加至所述目标数据关系网络,根据所述关联关系分类模型确定所述待关联节点和所述多个节点之间的多个关联关系,并将所述待关联节点和所述多个节点之间的多个关联关系添加至所述目标数据关系网络。9.一种模型确定装置,其特征在于,所述装置包括:获取单元,用于获取目标数据库中的多个字段,并确定所述多个字段之间的多个关联关系;生成单元,用于根据所述多个字段和所述多个关联关系,生成目标数据关系网络,所述目标数据关系网络中包括与所述多个字段对应的多个节点,以及与所述多个关联关系对应的所述多个节点之间的多个连接线;确定单元,用于基于所述目标数据关系网络,从所述多个节点和所述多个连接线中确定初始关联关系分类模型的训练样本和验证样本;训练单元,用于根据所述训练样本和所述验证样本对所述初始关联关系分类模型进行训练和验证,得到关联关系分类模型,所述关联关系分类模型用于得到待关联字段之间的关联关系。10.一种电子设备,其特征在于,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至8任一项所述的模型确定方法。

技术总结
本申请提供了一种模型确定方法及相关装置,该方法包括:获取目标数据库中的多个字段,并确定所多个字段之间的多个关联关系;根据多个字段和多个关联关系,生成目标数据关系网络,目标数据关系网络中包括与多个字段对应的多个节点,以及与多个关联关系对应的多个连接线;基于目标数据关系网络,从多个节点和多个连接线中确定初始关联关系分类模型的训练样本和验证样本;根据训练样本和验证样本对初始关联关系分类模型进行训练和验证,得到关联关系分类模型。通过上述方案,能够用目标数据关系网络对多个字段和多个关联关系进行表示,并能够得到可以自动确定待关联字段之间的关联关系的关联关系分类模型。关系的关联关系分类模型。关系的关联关系分类模型。


技术研发人员:张旭东 陈可 黄海潮 黄宇腾 张建松 谢裕清 应张驰 何东 陈珊 严家祥 柴林
受保护的技术使用者:国网浙江省电力有限公司信息通信分公司
技术研发日:2023.04.24
技术公布日:2023/8/4
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐