数据关系图谱构建方法、装置、设备、存储介质与流程

未命名 10-09 阅读:75 评论:0


1.本发明涉及大数据处理技术领域,具体涉及一种数据关系图谱构建方法、装置、设备、存储介质。


背景技术:

2.结构化数据之间的关联关系是指两个数据集之间不同字段之间的关联关系以及数据集之间存在的业务联系。在关系型数据库中,数据关系大致可以分为一对多和多对多两种,细分操作包括左连接、右连接、外连接、内连接等。在数据关联分析中数据关系是反映某个事物与其他事物之间的相互依存关系,这些关系有可能是直接关联也有可能是间接关系,比如著名的美国沃尔玛连锁超市“啤酒与尿不湿”的故事。为了方便分析各种数据的关联关系数据科学家们相继提出了apriori、setm、fp-tree、fp-g、freespan、prefixspan、fp-growth等分析两个数据集之间的关联关系的算法,除此之外为了度量数据集中两个变量的相关程度和密切程度数据科学家们还提出了pearson相关系数、kendall相关系数和spearman相关系数等方法。目前数据关联分析的主流技术包括:相关性分析、回归分析、聚类分析等方法。根据数据之间的关联程度,可以将两个数据集变量分为不存在关系、存在模糊的关联、存在较强但不清晰的关联、存在清晰的可以度量的关系。
3.然而,目前存在的数据关系分析大都只关注了数据本身的内容之间的关联关系,忽略了数据仓库形成过程中的重要信息,导致对于海量数据的关联关系全量分析没有良好的开源解决方案。


技术实现要素:

4.本发明实施例的目的在于提供一种数据关系图谱构建方法、装置、设备、存储介质,解决现有的数据关系分析大都只关注了数据本身的内容之间的关联关系,忽略了数据仓库形成过程中的重要信息,导致对于海量数据的关联关系全量分析没有良好的开源解决方案的问题,具体技术方案如下:
5.根据本技术实施例的第一方面,提供一种数据关系图谱构建方法,所述方法包括:
6.获取目标结构化数据的目标信息;
7.根据所述目标信息将所述目标结构化数据按照主题进行分类;
8.针对任一主题的所述目标结构化数据,提取数值特征和长文本特征进行聚类分析,生成多个聚类族;
9.获取多个所述聚类族中关于所述目标结构化数据的关系对;
10.根据预设的数据关联关系层级确定所述关系对的数据联系紧密度,并构建数据关系图谱。
11.可选的,所述目标信息包括所述目标结构化数据的名称信息和业务备注信息;
12.所述根据所述目标信息将所述目标结构化数据按照主题进行分类,包括:
13.将所述目标结构化数据的名称信息和业务备注信息进行分词、词性识别;
14.根据识别后的结果和所述目标信息确定所述目标结构化数据的主题;
15.按照所述目标结构化数据的主题将所述目标结构化数据进行分类。
16.可选的,所述获取多个所述聚类族中关于所述目标结构化数据的关系对之前,还包括:
17.针对任一所述聚类族计算任意两个所述目标结构化数据的相似度;
18.在检测到任意两个所述目标结构化数据的相似度大于相似度衡量值的情况下,确定任意两个所述目标结构化数据是关系对;
19.在检测到任意两个所述目标结构化数据的相似度小于相似度衡量值的情况下确定任意两个所述目标结构化数据不是关系对。
20.可选的,所述目标结构化数据包括:目标数据包,目标数据集,目标数据列,其中,一个目标数据包包括多个目标数据集,一个目标数据集包括多个目标数据列;
21.所述根据预设的数据关联关系层级确定所述关系对的数据联系紧密度,并构建数据关系图谱之前,还包括:
22.针对任一关系对,在确定目标数据集的名称相似度,目标数据集的业务场景相似度,目标数据包的名称相似度,目标数据包的业务场景相似度均大于相似度衡量值,且不同目标数据集的目标数据列内容具有包含关系的情况下,确定所述任一关系对存在一级关联关系;
23.针对任一关系对,在确定目标数据集的名称相似度,目标数据集的业务场景相似度,目标数据包的名称相似度,目标数据包的业务场景相似度,目标数据列的名称主题相似度,目标数据列的业务备注主题相似度均大于相似度衡量值的情况下,确定所述任一关系对存在二级关联关系;
24.针对任一关系对,在确定所述关系对对应的目标结构化数据存在血缘关系和/或衍生关系的情况下,确定所述任一关系对存在三级关联关系;
25.针对任一关系对,在确定所述关系对对应的目标结构化数据存在业务关联的情况下,确定所述任一关系对存在四级关联关系;
26.针对任一关系对,在确定所述关系对对应的目标结构化数据存在变化趋势的相关关系的情况下,确定所述任一关系对存在五级关联关系;
27.根据所述一级关联关系,所述二级关联关系,所述三级关联关系,所述四级关联关系和所述五级关联关系生成所述数据关联关系层级。
28.可选的,所述根据预设的数据关联关系层级确定所述关系对的数据联系紧密度,并构建数据关系图谱,包括:
29.获取所述关系对中目标结构化数据的目标相似度,所述目标相似度包括:目标数据集的名称相似度,目标数据集的业务场景相似度,目标数据包的名称相似度,目标数据包的业务场景相似度,目标数据列的名称主题相似度以及目标数据列的业务备注主题相似度;
30.根据所述目标相似度确定所述关系对对应的目标数据关联关系层级;
31.获取所述目标数据关联关系层级的计算规则,以及关于所述目标相似度的第一权重指数;
32.根据所述第一权重指数,所述目标相似度和所述计算规则生成所述关系对的数据
紧密程度;
33.根据所述数据紧密程度构建所述数据关系图谱。
34.可选的,所述获取所述目标数据关联关系层级的计算规则,以及关于所述目标相似度的第一权重指数之后,还包括:
35.若所述目标数据关联关系层级为一级关联关系,则生成所述关系对的交并比;
36.获取所述关系对中关于所述交并比的第二权重指数;
37.根据所述第二权重指数,所述关系对的交并比,所述第一权重指数,所述目标相似度和所述计算规则生成处于一级关联关系的所述关系对的数据紧密程度。
38.根据本技术实施例的第二方面,提供一种数据关系图谱构建装置,所述装置包括:
39.第一获取模块,用于获取目标结构化数据的目标信息;
40.第一分类模块,用于根据所述目标信息将所述目标结构化数据按照主题进行分类;
41.第一生成模块,用于针对任一主题的所述目标结构化数据,提取数值特征和长文本特征进行聚类分析,生成多个聚类族;
42.第二获取模块,用于获取多个所述聚类族中关于所述目标结构化数据的关系对;
43.第一构建模块,用于根据预设的数据关联关系层级确定所述关系对的数据联系紧密度,并构建数据关系图谱。
44.根据本技术实施例的第三方面,提供一种电子设备,包括:
45.处理器;
46.用于存储所述处理器可执行指令的存储器;
47.其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的数据关系图谱构建方法。
48.根据本技术实施例的第四方面,提供一种计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行如本技术第一方面所述的数据关系图谱构建方法。
49.本技术的实施例提供的技术方案可以包括以下有益效果:
50.本发明通过获取目标结构化数据的目标信息;根据目标信息将目标结构化数据按照主题进行分类;针对任一主题的目标结构化数据,提取数值特征和长文本特征进行聚类分析,生成多个聚类族;获取多个聚类族中关于目标结构化数据的关系对;根据预设的数据关联关系层级确定关系对的数据联系紧密度,并构建数据关系图谱。本发明通过利用目标结构化数据的名称信息,业务备注信息以及数值特征和长文本特征初步确定多个目标结构化数据的关系对,而后利用设置的数据关联关系层级将关系对分级。从而构建数据关系图谱,这一构建方式不仅关注了数据本身的内容之间的关联关系,还关注了目标结构化数据形成过程中的重要信息,可以很好地适用于对海量数据的关联关系全量分析。
51.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
52.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施
例,并与说明书一起用于解释本发明的原理。
53.图1是根据一示例性实施例示出的一种数据关系图谱构建方法的流程图;
54.图2是根据一示例性实施例示出的另一种数据关系图谱构建方法的流程图;
55.图3是根据图1的一示例性实施例示出的一种数据关系图谱构建方法中步骤105的流程图;
56.图4是根据一示例性实施例示出的一种数据关系图谱构建装置的框图;
57.图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
58.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
59.本技术的第一实施方式涉及一种数据关系图谱构建方法,图1是根据一示例性实施例示出的一种数据关系图谱构建方法的流程图,如图1所示,包括以下步骤:
60.步骤101,获取目标结构化数据的目标信息。
61.本发明实施例是构建目标数据包之间的关联关系图谱,目标数据集之间的关联关系图谱,目标数据列之间的关联关系图谱,其中,将上述三种关联关系图谱统称为数据关系图谱,所以目标结构化数据包括:目标数据包(目标数据库),目标数据集(目标数据表),目标数据列(目标数据变量),其中,一个目标数据包包括多个目标数据集,一个目标数据集包括多个目标数据列,每个目标数据包包括多个数据包的业务场景备注信息,每个目标数据集包含多个目标数据列,每个目标数据列(目标数据变量)由一个数组组成。
62.本发明实施例的数据关系图谱时是根据目标结构化数据之间业务的关联程度和数据联系紧密度来构建,所以获取的目标信息包括目标结构化数据的名称信息和业务备注信息。又因为目标结构化数据包括目标数据包(目标数据库),目标数据集(目标数据表),目标数据列(目标数据变量),所以获取的目标信息包括目标数据包的名称信息和业务备注信息,目标数据集的名称信息和业务备注信息,目标数据列(目标数据变量)的名称信息和业务备注信息。
63.步骤102,根据目标信息将目标结构化数据按照主题进行分类。
64.本发明实施例中在获取到目标信息后,首先去除与业务无关的目标结构化数据的目标信息,而后将目标信息的名称信息和业务备注信息分别进行分词、词性识别后,根据识别结果对不同的词性分类,而后根据词性分类结果和目标信息(目标结构化数据的名称信息和业务备注信息)确定可以生成的主题,根据主题将目标结构化数据进行聚合分类,具体地步骤包括:
65.将目标结构化数据的名称信息和业务备注信息进行分词、词性识别;
66.根据识别后的结果和目标信息确定目标结构化数据的主题;
67.按照目标结构化数据的主题将目标结构化数据进行分类。
68.其中,词性识别后可以用不同的字符来标记,示例的,设n为普通名词,s为处所名词,t为时间,nh为人名,ns为地名,nl为处所词,nt为机构名,nw为作品名,nz为其他专名,v
为普通动词,vd为动副词,vn为名动词,a为形容词,a为状态词,ad为副形词,d为副词,m为数量词,q为量词,r为代词,i为成语,ni为机构团体,j为缩写词,ws为外来词,c为连词,p为介词,wp为标点,u为助词,等。丢弃停用词和词性为'c','p','q','wp','u'的词,根据业务分析结果对不同词性分类为:['n','nh','ns']、['nl','v']、['nt','r']、['a','b']、['ws','nz']、['d','nd','m']、['i','ni','j'],而后根据词性分类结果和目标信息确定生成的关于目标结构化数据的主题,对每个主题进行聚合分类。
[0069]
步骤103,针对任一主题的目标结构化数据,提取数值特征和长文本特征进行聚类分析,生成多个聚类族。
[0070]
本发明实施例针对不同的目标结构化数据生成的长文本特征不同,即在构建目标数据包之间的关联关系图谱时,长文本特征是指目标数据包中目标数据集的名称信息和业务备注信息以及目标数据列的名称信息和业务备注信息,构建目标数据集之间的关联关系图谱时,长文本特征是指目标数据包的名称信息和业务备注信息以及目标数据列的名称信息和业务备注信息,构建目标数据列之间的关联关系图谱时,长文本特征是指目标数据包的名称信息和业务备注信息以及目标数据集的名称信息和业务备注信息;需要说明的是,在生成长文本特征时还会将名称信息和业务备注信息中的高频和低频数据去除,使得得到的结果更具有参考性。
[0071]
此外,本发明实施例针对不同的目标结构化数据提取的数值特征也不同,即在构建目标数据包之间的关联关系图谱时,数值特征指的是每个目标数据包包含的目标数据集数目、每个目标数据包包含的目标数据列数目、每个目标数据包是否有业务备注信息、每个目标数据包包含业务备注信息的目标数据集个数、每个目标数据包包含业务备注信息的目标数据列个数等的统计特征;在构建目标数据集之间的关联关系图谱时,数值特征指的是每个目标数据集(数据表)包含的目标数据列数目、每个目标数据集(数据表)是否有业务备注信息、每个目标数据集(数据表)包含业务备注信息的目标数据列个数、每个目标数据集(数据表)含业务备注信息的目标数据列个数、目标数据集(数据表)结构中是否有唯一标志、目标数据集(数据表)创建时间在哪一周(哪个季节)等的统计特征;在构建目标数据列之间的关联关系图谱时,无需提取数值特征。
[0072]
本发明实施例通过doc2vec算法提取长文本特征,使用kmeans、dbscan、gsdmm对长文本特征以及数值特征分别进行聚类分析。
[0073]
步骤104,获取多个聚类族中关于目标结构化数据的关系对。
[0074]
本发明实施例针对聚类结果,对每个聚类族分布两两计算上述长文本特征的相似程度,可以采用余弦相似度进行相似度衡量,也可以采用编辑距离进行相似度衡量,本发明在此不做具体限定。本发明实施例中根据业务特性设置相似度阈值为0.5,大于0.5本发明实施例中认为该目标结构化数据的两两关系对成立,根据这一方法获取多个聚类族中关于目标结构化数据的所有关系对。
[0075]
步骤105,根据预设的数据关联关系层级确定关系对的数据联系紧密度,并构建数据关系图谱。
[0076]
本发明实施例中数据关联关系层级是根据目标结构化数据之间业务的关联程度和数据联系紧密度来设计的,具体的设计过程包括:
[0077]
针对任一关系对,在确定目标数据集的名称相似度,目标数据集的业务场景相似
度,目标数据包的名称相似度,目标数据包的业务场景相似度均大于相似度衡量值,且不同目标数据集的目标数据列内容具有包含关系的情况下,确定任一关系对存在一级关联关系;
[0078]
针对任一关系对,在确定目标数据集的名称相似度,目标数据集的业务场景相似度,目标数据包的名称相似度,目标数据包的业务场景相似度,目标数据列的名称主题相似度,目标数据列的业务备注主题相似度均大于相似度衡量值的情况下,确定任一关系对存在二级关联关系;
[0079]
针对任一关系对,在确定关系对对应的目标结构化数据存在血缘关系和/或衍生关系的情况下,确定任一关系对存在三级关联关系;
[0080]
针对任一关系对,在确定关系对对应的目标结构化数据存在业务关联的情况下,确定任一关系对存在四级关联关系;
[0081]
针对任一关系对,在确定关系对对应的目标结构化数据存在变化趋势的相关关系的情况下,确定任一关系对存在五级关联关系;
[0082]
根据一级关联关系,二级关联关系,三级关联关系,四级关联关系和五级关联关系生成数据关联关系层级。
[0083]
本发明实施例根据聚类生成的目标数据包(目标数据库)关系对或目标数据集(目标数据表)关系对或目标数据列(目标数据变量)关系对,使用上述预设的数据关联关系层级的判定方式得出结论,并按照结论构建关于目标结构化数据的数据关系图谱。
[0084]
本发明通过获取目标结构化数据的目标信息;根据目标信息将目标结构化数据按照主题进行分类;针对任一主题的目标结构化数据,提取数值特征和长文本特征进行聚类分析,生成多个聚类族;获取多个聚类族中关于目标结构化数据的关系对;根据预设的数据关联关系层级确定关系对的数据联系紧密度,并构建数据关系图谱。本发明通过利用目标结构化数据的名称信息,业务备注信息以及数值特征和长文本特征初步确定多个目标结构化数据的关系对,而后利用设置的数据关联关系层级将关系对分级。从而构建数据关系图谱,这一构建方式不仅关注了数据本身的内容之间的关联关系,还关注了目标结构化数据形成过程中的重要信息,可以很好的适用于对海量数据的关联关系全量分析。
[0085]
本技术的第二实施方式涉及一种数据关系图谱构建方法,图2是根据一示例性实施例示出的另一种数据关系图谱构建方法的流程图,如图2所示,包括以下步骤:
[0086]
步骤201,获取目标结构化数据的目标信息。
[0087]
步骤202,根据目标信息将目标结构化数据按照主题进行分类。
[0088]
步骤203,针对任一主题的目标结构化数据,提取数值特征和长文本特征进行聚类分析,生成多个聚类族。
[0089]
需要说明的是,在本发明实施例中,上述步骤201-203参照前序论述,在此不再赘述。
[0090]
步骤204,针对任一聚类族计算任意两个目标结构化数据的相似度。
[0091]
本发明实施例针对任一聚类族,首先获取其中任意两个目标结构化数据,而后对应获取长文本特征,计算两个长文本特征之间的相似度。需要说明的是,聚类族中的目标结构化数据需要任意两两组合进行计算,即若第一次匹配的两个目标结构化数据不是关系对的情况下,会分别匹配另外的目标结构化数据。
[0092]
步骤205,在检测到任意两个目标结构化数据的相似度大于相似度衡量值的情况下,确定任意两个目标结构化数据是关系对。
[0093]
本发明实施例中可以采用余弦相似度进行相似度衡量,也可以采用编辑距离进行相似度衡量,通常将相似度衡量值设置为0.5,当检测到任意两个目标结构化数据的相似度大于0.5时,则确定任意两个目标结构化数据是关系对。此外,在确定任意两个目标结构化数据是关系对后还会将这两个目标结构化数据与该聚合族中的其他的目标结构化数据再次配对,计算相似度。
[0094]
步骤206,在检测到任意两个目标结构化数据的相似度小于相似度衡量值的情况下确定任意两个目标结构化数据不是关系对。
[0095]
本发明实施例中设置的相似度衡量值设置为0.5,当检测到任意两个目标结构化数据的相似度小于0.5时,确定任意两个目标结构化数据不是关系对,此时可以让这两个目标结构化数据与该聚合族中的其他的目标结构化数据配对,再次计算相似度。
[0096]
步骤207,获取多个聚类族中关于目标结构化数据的关系对。
[0097]
步骤208,根据预设的数据关联关系层级确定关系对的数据联系紧密度,并构建数据关系图谱。
[0098]
需要说明的是,在本发明实施例中,上述步骤207-208参照前序论述,在此不再赘述。
[0099]
本技术的第三实施方式涉及一种数据关系图谱构建方法,图3是根据图1所示的一示例性实施例示出的一种数据关系图谱构建方法中步骤105的流程图,如图3所示,包括以下步骤:
[0100]
步骤301,获取关系对中目标结构化数据的目标相似度。
[0101]
本发明实施例中在进行目标结构化数据的关系对的数据关联关系层级判定时,会计算得到目标结构化数据的目标相似度,其中目标相似度包括:目标数据集的名称相似度,目标数据集的业务场景相似度,目标数据包的名称相似度,目标数据包的业务场景相似度,目标数据列的名称主题相似度以及目标数据列的业务备注主题相似度。
[0102]
步骤302,根据目标相似度确定关系对对应的目标数据关联关系层级。
[0103]
本发明实施例在获取到相似度首先可以验证一级关联关系和二级关联关系,若都没有则会获取关系对的血缘关系和衍生关系,以及业务关联关系和变化趋势关系,按照从一级到五级的优先级顺序进行判断,最终确定目标结构化数据的目标数据关联关系层级。
[0104]
步骤303,获取目标数据关联关系层级的计算规则,以及关于目标相似度的第一权重指数。
[0105]
本发明实施例中若确定此时的目标数据关联关系层级后,就可以获取对应的计算规则,又因为其中的相似度有多个所以还会获取对应的第一权重指数。
[0106]
步骤304,根据第一权重指数,目标相似度和计算规则生成关系对的数据紧密程度。
[0107]
本发明实施例中二级关联关系可以直接通过第一权重指数,目标相似度和计算规则生成关系对的数据紧密程度,但是其他级别的关联关系还需要获取其他的参数,比如一级关联关系就还需要获取关于包含关系的交并比数值及其权重系数,具体地步骤包括:
[0108]
若目标数据关联关系层级为一级关联关系,则生成关系对的交并比;
[0109]
获取关系对中关于交并比的第二权重指数;
[0110]
根据第二权重指数,关系对的交并比,第一权重指数,目标相似度和计算规则生成处于一级关联关系的关系对的数据紧密程度。
[0111]
除此之外,因为三级关联关系没有相似度,所以获取关系对的血缘关系和/或衍生关系来生成数据紧密程度;因为四级关联关系也没有相似度,也没有血缘关系和/或衍生关系,所以获取关系对的业务关联程度来生成数据紧密程度;因为五级关联关系也没有相似度,也没有血缘关系和/或衍生关系,业务关联不明显,所以用变化趋势的相关关系来生成数据紧密程度。
[0112]
示例的,一级关联关系的数据紧密程度计算规则:设需要度量的关系对之间目标数据集(数据表)名称相似度为stb1、目标数据集(数据表)业务场景相似度stb2、目标数据包(数据库)业务场景相似度sdb1,目标数据包(数据库)名称相似度sdb2,设两个目标数据列(数据变量)x1={x11,x12,

,x1n},n为目标数据列x1包含的实例个数,x2={x21,x22,

,x2m},m为目标数据列x2包含的实例个数,x1与x2的交并比为即是x1与x2的交集除以x1与x2的并集。根据上述定义本发明将一级关联关系的数据紧密程度度量公式(1)定义如下:
[0113][0114]
其中y*为调节各条件的权重指数,取值范围为[0,1],px取值范围为[0,1],s*取值范围为[0,1]。
[0115]
二级关联关系的数据紧密程度计算规则:设需要度量关系对之间的目标数据包(数据库)业务场景相似度sdb1、数据集(数据表)名称相似度sdb2、数据集(数据表)业务场景相似stb1、数据集(数据表)名称相似stb2;数据列(数据列)名称主题相似scol1、数据列(数据列)业务备注主题相似scol2;根据上述定义本发明将二级关联关系的数据紧密程度度量公式(2)定义如下:
[0116][0117]
其中y*为调节各条件的权重指数,取值范围为[0,1],s*取值范围为[0,1]。
[0118]
三级关联关系的数据紧密程度计算规则:设两个关系对之间血缘关系紧密程度为pblan,具有血缘关系pblan值为0,没有血缘关系pblan值为1,衍生关系关联程度为pderive;具有衍生关系pderive值为1,没有衍生关系pderive值为0。
[0119]
四级关联关系的数据紧密程度计算规则:设两个数据集之间业务往来或业务关联紧密程度为pbus,有业务关联为1,无业务关联为0。
[0120]
五级关联关系的数据紧密程度:设两个关系对的数据集的分布为x1,x2。本发明选择使用pearson相关系数(适用于定量数据,且数据满足正态分布)、spearman相关系数(数据不满足正态分布时使用)、kendall's tau-b相关系数(有序定类变量)、kl散度、一元回归及多元回归等常用的度量两个数据分布关系的方法进行度量。
[0121]
步骤305,根据数据紧密程度构建数据关系图谱。
[0122]
本发明实施例通过获取数据紧密程度构建数据关系图谱,其中目标数据包与目标
数据包之间有对应的数据关联关系层级,目标数据集与目标数据集之间有对应的数据关联关系层级,目标数据列与目标数据列之间有对应的数据关联关系层级,通过这次不同对象的目标结构化数据整体构建一个数据关系图谱。
[0123]
本技术的第四实施方式涉及一种数据关系图谱构建装置,图4是根据一示例性实施例示出的一种数据关系图谱构建装置的流程图,如图4所示,包括以下步骤:
[0124]
第一获取模块401,用于获取目标结构化数据的目标信息。
[0125]
第一分类模块402,用于根据目标信息将目标结构化数据按照主题进行分类。
[0126]
第一生成模块403,用于针对任一主题的目标结构化数据,提取数值特征和长文本特征进行聚类分析,生成多个聚类族。
[0127]
第二获取模块404,用于获取多个聚类族中关于目标结构化数据的关系对。
[0128]
第一构建模块405,用于根据预设的数据关联关系层级确定关系对的数据联系紧密度,并构建数据关系图谱。
[0129]
可选的,目标信息包括目标结构化数据的名称信息和业务备注信息。
[0130]
第一分类模块402还包括:
[0131]
识别子模块,用于将目标结构化数据的名称信息和业务备注信息进行分词、词性识别。
[0132]
第一确定子模块,用于根据识别后的结果和目标信息确定目标结构化数据的主题。
[0133]
分类子模块,用于按照目标结构化数据的主题将目标结构化数据进行分类。
[0134]
可选的,数据关系图谱构建装置还包括:
[0135]
计算模块,用于针对任一聚类族计算任意两个目标结构化数据的相似度。
[0136]
第一确定模块,用于在检测到任意两个目标结构化数据的相似度大于相似度衡量值的情况下,确定任意两个目标结构化数据是关系对。
[0137]
第二确定模块,用于在检测到任意两个目标结构化数据的相似度小于相似度衡量值的情况下确定任意两个目标结构化数据不是关系对。
[0138]
可选的,目标结构化数据包括:目标数据包,目标数据集,目标数据列,其中,一个目标数据包包括多个目标数据集,一个目标数据集包括多个目标数据列。
[0139]
数据关系图谱构建装置还包括:
[0140]
第三确定模块,用于针对任一关系对,在确定目标数据集的名称相似度,目标数据集的业务场景相似度,目标数据包的名称相似度,目标数据包的业务场景相似度均大于相似度衡量值,且不同目标数据集的目标数据列内容具有包含关系的情况下,确定任一关系对存在一级关联关系。
[0141]
第四确定模块,用于针对任一关系对,在确定目标数据集的名称相似度,目标数据集的业务场景相似度,目标数据包的名称相似度,目标数据包的业务场景相似度,目标数据列的名称主题相似度,目标数据列的业务备注主题相似度均大于相似度衡量值的情况下,确定任一关系对存在二级关联关系。
[0142]
第五确定模块,用于针对任一关系对,在确定关系对对应的目标结构化数据存在血缘关系和/或衍生关系的情况下,确定任一关系对存在三级关联关系。
[0143]
第六确定模块,用于针对任一关系对,在确定关系对对应的目标结构化数据存在
业务关联的情况下,确定任一关系对存在四级关联关系。
[0144]
第七确定模块,用于针对任一关系对,在确定关系对对应的目标结构化数据存在变化趋势的相关关系的情况下,确定任一关系对存在五级关联关系。
[0145]
第二生成模块,用于根据一级关联关系,二级关联关系,三级关联关系,四级关联关系和五级关联关系生成数据关联关系层级。
[0146]
可选的,第一构建模块还包括:
[0147]
第一获取子模块,用于获取关系对中目标结构化数据的目标相似度,目标相似度包括:目标数据集的名称相似度,目标数据集的业务场景相似度,目标数据包的名称相似度,目标数据包的业务场景相似度,目标数据列的名称主题相似度以及目标数据列的业务备注主题相似度。
[0148]
第二确定子模块,用于根据目标相似度确定关系对对应的目标数据关联关系层级。
[0149]
第二获取子模块,用于获取目标数据关联关系层级的计算规则,以及关于目标相似度的第一权重指数。
[0150]
第一生成子模块,用于根据第一权重指数,目标相似度和计算规则生成关系对的数据紧密程度。
[0151]
第一构建子模块,用于根据数据紧密程度构建数据关系图谱。
[0152]
第二生成子模块,用于若目标数据关联关系层级为一级关联关系,则生成关系对的交并比。
[0153]
第三获取子模块,用于获取关系对中关于交并比的第二权重指数。
[0154]
第三生成子模块,用于根据第二权重指数,关系对的交并比,第一权重指数,目标相似度和计算规则生成处于一级关联关系的关系对的数据紧密程度。
[0155]
本发明通过获取目标结构化数据的目标信息;根据目标信息将目标结构化数据按照主题进行分类;针对任一主题的目标结构化数据,提取数值特征和长文本特征进行聚类分析,生成多个聚类族;获取多个聚类族中关于目标结构化数据的关系对;根据预设的数据关联关系层级确定关系对的数据联系紧密度,并构建数据关系图谱。本发明通过利用目标结构化数据的名称信息,业务备注信息以及数值特征和长文本特征初步确定多个目标结构化数据的关系对,而后利用设置的数据关联关系层级将关系对分级。从而构建数据关系图谱,这一构建方式不仅关注了数据本身的内容之间的关联关系,还关注了目标结构化数据形成过程中的重要信息,可以很好的适用于对海量数据的关联关系全量分析。
[0156]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0157]
本技术的第五实施方式涉及一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现任一数据关系图谱构建方法。
[0158]
图5是根据一示例性实施例示出的一种用于电子设备1400的框图。例如,电子设备1400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0159]
参照图5,电子设备1400可以包括以下一个或多个组件:处理组件1402,存储器
1404,电源组件1406,多媒体组件1408,音频组件1410,输入/输出接口1412,传感器组件1414,以及通信组件1416。
[0160]
处理组件1402通常控制装置1400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1402可以包括一个或多个处理器1420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1402可以包括一个或多个模块,便于处理组件1402和其他组件之间的交互。例如,处理组件1402可以包括多媒体模块,以方便多媒体组件1408和处理组件1402之间的交互。
[0161]
存储器1404被配置为存储各种类型的数据以支持在设备1400的操作。这些数据的示例包括用于在装置1400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0162]
电源组件1406为电子设备1400的各种组件提供电力。电源组件1406可以包括电源管理系统,一个或多个电源,及其他与为电子设备1400生成、管理和分配电力相关联的组件。
[0163]
多媒体组件1408包括在所述电子设备1400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1408包括一个前置摄像头和/或后置摄像头。当电子设备1400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0164]
音频组件1410被配置为输出和/或输入音频信号。例如,音频组件1410包括一个麦克风(mic),当电子设备1400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1404或经由通信组件1416发送。在一些实施例中,音频组件1410还包括一个扬声器,用于输出音频信号。
[0165]
输入/输出接口1412为处理组件1402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0166]
传感器组件1414包括一个或多个传感器,用于为电子设备1400提供各个方面的状态评估。例如,传感器组件1414可以检测到电子设备1400的打开/关闭状态,组件的相对定位,例如所述组件为电子设备1400的显示器和小键盘,传感器组件1414还可以检测电子设备1400或电子设备1400一个组件的位置改变,用户与电子设备1400接触的存在或不存在,电子设备1400方位或加速/减速和电子设备1400的温度变化。传感器组件1414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1414还
可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0167]
通信组件1416被配置为便于电子设备1400和其他设备之间有线或无线方式的通信。电子设备1400可以接入基于通信标准的无线网络,如wifi,运营商网络(如2g、3g、4g或5g),或它们的组合。在一个示例性实施例中,通信组件1416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1416还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0168]
在示例性实施例中,电子设备1400可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0169]
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1404,上述指令可由电子设备1400的处理器1420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0170]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
[0171]
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

技术特征:
1.一种数据关系图谱构建方法,其特征在于,所述方法包括:获取目标结构化数据的目标信息;根据所述目标信息将所述目标结构化数据按照主题进行分类;针对任一主题的所述目标结构化数据,提取数值特征和长文本特征进行聚类分析,生成多个聚类族;获取多个所述聚类族中关于所述目标结构化数据的关系对;根据预设的数据关联关系层级确定所述关系对的数据联系紧密度,并构建数据关系图谱。2.根据权利要求1所述的方法,其特征在于,所述目标信息包括所述目标结构化数据的名称信息和业务备注信息;所述根据所述目标信息将所述目标结构化数据按照主题进行分类,包括:将所述目标结构化数据的名称信息和业务备注信息进行分词、词性识别;根据识别后的结果和所述目标信息确定所述目标结构化数据的主题;按照所述目标结构化数据的主题将所述目标结构化数据进行分类。3.根据权利要求1所述的方法,其特征在于,所述获取多个所述聚类族中关于所述目标结构化数据的关系对之前,还包括:针对任一所述聚类族计算任意两个所述目标结构化数据的相似度;在检测到任意两个所述目标结构化数据的相似度大于相似度衡量值的情况下,确定任意两个所述目标结构化数据是关系对;在检测到任意两个所述目标结构化数据的相似度小于相似度衡量值的情况下确定任意两个所述目标结构化数据不是关系对。4.根据权利要求1所述的方法,其特征在于,所述目标结构化数据包括:目标数据包,目标数据集,目标数据列,其中,一个目标数据包包括多个目标数据集,一个目标数据集包括多个目标数据列;所述根据预设的数据关联关系层级确定所述关系对的数据联系紧密度,并构建数据关系图谱之前,还包括:针对任一关系对,在确定目标数据集的名称相似度,目标数据集的业务场景相似度,目标数据包的名称相似度,目标数据包的业务场景相似度均大于相似度衡量值,且不同目标数据集的目标数据列内容具有包含关系的情况下,确定所述任一关系对存在一级关联关系;针对任一关系对,在确定目标数据集的名称相似度,目标数据集的业务场景相似度,目标数据包的名称相似度,目标数据包的业务场景相似度,目标数据列的名称主题相似度,目标数据列的业务备注主题相似度均大于相似度衡量值的情况下,确定所述任一关系对存在二级关联关系;针对任一关系对,在确定所述关系对对应的目标结构化数据存在血缘关系和/或衍生关系的情况下,确定所述任一关系对存在三级关联关系;针对任一关系对,在确定所述关系对对应的目标结构化数据存在业务关联的情况下,确定所述任一关系对存在四级关联关系;针对任一关系对,在确定所述关系对对应的目标结构化数据存在变化趋势的相关关系
的情况下,确定所述任一关系对存在五级关联关系;根据所述一级关联关系,所述二级关联关系,所述三级关联关系,所述四级关联关系和所述五级关联关系生成所述数据关联关系层级。5.根据权利要求4所述的方法,其特征在于,所述根据预设的数据关联关系层级确定所述关系对的数据联系紧密度,并构建数据关系图谱,包括:获取所述关系对中目标结构化数据的目标相似度,所述目标相似度包括:目标数据集的名称相似度,目标数据集的业务场景相似度,目标数据包的名称相似度,目标数据包的业务场景相似度,目标数据列的名称主题相似度以及目标数据列的业务备注主题相似度;根据所述目标相似度确定所述关系对对应的目标数据关联关系层级;获取所述目标数据关联关系层级的计算规则,以及关于所述目标相似度的第一权重指数;根据所述第一权重指数,所述目标相似度和所述计算规则生成所述关系对的数据紧密程度;根据所述数据紧密程度构建所述数据关系图谱。6.根据权利要求5所述的方法,其特征在于,所述获取所述目标数据关联关系层级的计算规则,以及关于所述目标相似度的第一权重指数之后,还包括:若所述目标数据关联关系层级为一级关联关系,则生成所述关系对的交并比;获取所述关系对中关于所述交并比的第二权重指数;根据所述第二权重指数,所述关系对的交并比,所述第一权重指数,所述目标相似度和所述计算规则生成处于一级关联关系的所述关系对的数据紧密程度。7.一种数据关系图谱构建装置,其特征在于,包括:第一获取模块,用于获取目标结构化数据的目标信息;第一分类模块,用于根据所述目标信息将所述目标结构化数据按照主题进行分类;第一生成模块,用于针对任一主题的所述目标结构化数据,提取数值特征和长文本特征进行聚类分析,生成多个聚类族;第二获取模块,用于获取多个所述聚类族中关于所述目标结构化数据的关系对;第一构建模块,用于根据预设的数据关联关系层级确定所述关系对的数据联系紧密度,并构建数据关系图谱。8.根据权利要求7所述装置,其特征在于,所述目标信息包括目标结构化数据的名称信息和业务备注信息;所述第一分类模块还包括:识别子模块,用于将所述目标结构化数据的名称信息和业务备注信息进行分词、词性识别;第一确定子模块,用于根据识别后的结果和所述目标信息确定所述目标结构化数据的主题;分类子模块,用于按照所述目标结构化数据的主题将所述目标结构化数据进行分类。9.一种电子设备,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的数据关系图谱构建方法。10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行如权利要求1至6中任一项所述的数据关系图谱构建方法。

技术总结
本发明涉及一种数据关系图谱构建方法、装置、设备、存储介质,包括:获取目标结构化数据的目标信息,根据目标信息将目标结构化数据按照主题进行分类;针对任一主题的目标结构化数据,提取数值特征和长文本特征进行聚类分析,生成多个聚类族,获取多个聚类族中关于目标结构化数据的关系对,根据预设的数据关联关系层级确定关系对的数据联系紧密度,并构建数据关系图谱。本发明利用数据关联关系层级将关系对分级,构建数据关系图谱,这一构建方式关注了数据本身内容之间的关联关系和形成过程中的重要信息,可以很好的适用于对海量数据的关联关系全量分析。关系全量分析。关系全量分析。


技术研发人员:刘建涛 袁超 黄刚 戴翔 王祖艳
受保护的技术使用者:重庆长安汽车股份有限公司
技术研发日:2023.06.28
技术公布日:2023/10/8
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐