边数据增加方法及装置、介质、设备与流程
未命名
07-22
阅读:60
评论:0

1.本说明书一个或多个实施例涉及网络通信领域,尤其涉及一种边数据增加方法及装置、介质、设备。
背景技术:
2.在可疑交易稽核过程中,图计算被广泛应用。图计算也可以用于进行可疑团伙的挖掘。图计算用到的图谱中包括节点和边两种数据,节点一般包括客户、银行卡等类型,边一般包含客户间的交易记录、多客户使用同一账号等记录。图谱中包括的点和边的数据越丰富,就能挖掘出越丰富的团伙关系。
技术实现要素:
3.本说明书一个或多个实施例描述了一种边数据增加方法及装置、介质、设备,能够丰富图谱数据。
4.根据第一方面,本发明实施例提供的边数据增加方法,包括:
5.将图谱的全量客户中的每一个客户地址进行拆分,得到该客户地址的地域信息和地址信息;其中,所述地址信息和客户一一对应;
6.根据对应相同所述地域信息的各个地址信息,生成第一矩阵;其中,所述第一矩阵中的第i行第j列的元素表示对应相同所述地域信息的各个地址信息中的第j个地址信息中是否包含该地域信息对应的字符串集合中的第i个字符串;所述第一矩阵的列数为对应相同所述地域信息的各个地址信息的数量,所述第一矩阵的行数为所述字符串集合中字符串的数量;
7.对所述第一矩阵进行降维,得到第二矩阵,并根据所述第二矩阵,将对应相同所述地域信息的各个地址信息进行分类,同一类的地址信息具有相似性;
8.将同一类的各个地址信息中的每两个地址信息进行相似度计算,并选取出相似度大于预设阈值的地址信息对;
9.针对选取出的每一个地址信息对,确定该地址信息对所对应的两个客户在所述图谱中对应的两个节点,在所确定的该两个节点之间增加一个关系边。
10.根据第二方面,本发明实施例提供的边数据增加装置,包括:
11.地址拆分模块,用于将图谱的全量客户中的每一个客户地址进行拆分,得到该客户地址的地域信息和地址信息;其中,所述地址信息和客户一一对应;
12.矩阵生成模块,用于根据对应相同所述地域信息的各个地址信息,生成第一矩阵;其中,所述第一矩阵中的第i行第j列的元素表示对应相同所述地域信息的各个地址信息中的第j个地址信息中是否包含该地域信息对应的字符串集合中的第i个字符串;所述第一矩阵的列数为对应相同所述地域信息的各个地址信息的数量,所述第一矩阵的行数为所述字符串集合中字符串的数量;
13.降维分类模块,用于对所述第一矩阵进行降维,得到第二矩阵,并根据所述第二矩
阵,将对应相同所述地域信息的各个地址信息进行分类,同一类的地址信息具有相似性;
14.相似计算模块,用于将同一类的各个地址信息中的每两个地址信息进行相似度计算,并选取出相似度大于预设阈值的地址信息对;
15.边增加模块,用于针对选取出的每一个地址信息对,确定该地址信息对所对应的两个客户在所述图谱中对应的两个节点,在所确定的该两个节点之间增加一个关系边。
16.根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面提供的方法。
17.根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面提供的所述的方法。
18.本说明书实施例提供的边数据增加方法及装置、介质、设备,各自或者组合后具有如下有益效果:
19.(1)对客户地址进行拆分,得到地域信息和地址信息,根据对应同一地域信息的地址信息生成第一矩阵,对第一矩阵进行降维,得到第二矩阵,然后利用第二矩阵进行分类,进而将全量客户问题缩小为对应同一地域信息中的同一类的客户计算问题,极大的降低了计算时间和计算量,提高了计算效率。再计算同一类中的每两个地址信息之间的相似性,将相似性较高的两个客户对应的两个节点之间增加一个边,实现边数据的增加,使得海量客户的地址相似度计算能在实际生产环境中使用。可见,本发明实施例通过地址相似度确定需要增加的关系边,从而丰富图计算所使用的边数据。
20.(2)在一个实施例中,利用最小哈希算法对所述第一矩阵进行降维,得第二矩阵,最小哈希算法是一种快速判断两个对象是否相似的技术,能够将高维集合的数据对象映射到更小的哈希值集合,同时保留对象间的相似度,可见利用最小哈希算法降维不会对后续的相似度计算产生影响。
21.(3)在一个实施例中,利用局部敏感哈希函数进行分桶,进而利用分桶情况对地址信息进行分类。基于局部敏感哈希的特性,只要有一次多个地址信息被分到同一桶序号中,那么该多个地址信息在很大概率上具有高相似度,因而基于分桶情况进行分类,因此全量客户计算问题可以缩小为同地域信息同一类的客户计算问题,进一步提高计算效率。
附图说明
22.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1是本说明书一个实施例中边数据增加方法的流程示意图;
24.图2是本说明书一个实施例中边数据增加装置的结构框图。
具体实施方式
25.下面结合附图,对本说明书提供的方案进行描述。
26.正如背景技术中所说的,图谱中的数据越丰富就越能挖掘出更加丰富的团伙关系,即图谱中的数据越丰富,越有利于进行团伙挖掘。其中,图谱中边数据的丰富尤为重要。
但是如何在全量客户中找出具有高度相似地址信息的客户对是一个很有技术挑战的项目,因为如果在全量客户中进行两两比较,非常耗时,而且由于计算量非常大导致在客户量达到上亿的场景中无法完成计算。
27.为此,根据第一方面,本说明书实施例提供了一种边数据增加方法,方法包括:将图谱的全量客户中的每一个客户地址进行拆分,得到该客户地址的地域信息和地址信息;其中,所述地址信息和客户一一对应;根据对应相同所述地域信息的各个地址信息,生成第一矩阵;其中,所述第一矩阵中的第i行第j列的元素表示对应相同所述地域信息的各个地址信息中的第j个地址信息中是否包含该地域信息对应的字符串集合中的第i个字符串;所述第一矩阵的列数为对应相同所述地域信息的各个地址信息的数量,所述第一矩阵的行数为所述字符串集合中字符串的数量;对所述第一矩阵进行降维,得到第二矩阵,并根据所述第二矩阵,将对应相同所述地域信息的各个地址信息进行分类,同一类的地址信息具有相似性;将同一类的各个地址信息中的每两个地址信息进行相似度计算,并选取出相似度大于预设阈值的地址信息对;针对选取出的每一个地址信息对,确定该地址信息对所对应的两个客户在所述图谱中对应的两个节点,在所确定的该两个节点之间增加一个关系边。
28.下面描述以上构思的具体实现方式。
29.图1是本发明一个实施例中边数据增加方法的流程示意图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。参见图1,边数据增加方法包括如下步骤s102~s110:
30.s102、将图谱的全量客户中的每一个客户地址进行拆分,得到该客户地址的地域信息和地址信息;其中,所述地址信息和客户一一对应;
31.s104、根据对应相同所述地域信息的各个地址信息,生成第一矩阵;其中,所述第一矩阵中的第i行第j列的元素表示对应相同所述地域信息的各个地址信息中的第j个地址信息中是否包含该地域信息对应的字符串集合中的第i个字符串;所述第一矩阵的列数为对应相同所述地域信息的各个地址信息的数量,所述第一矩阵的行数为所述字符串集合中字符串的数量;
32.s106、对所述第一矩阵进行降维,得到第二矩阵,并根据所述第二矩阵,将对应相同所述地域信息的各个地址信息进行分类,同一类的地址信息具有相似性;
33.s108、将同一类的各个地址信息中的每两个地址信息进行相似度计算,并选取出相似度大于预设阈值的地址信息对;
34.s110、针对选取出的每一个地址信息对,确定该地址信息对所对应的两个客户在所述图谱中对应的两个节点,在所确定的该两个节点之间增加一个关系边。
35.在图1示出的边数据增加方法中,对客户地址进行拆分,得到地域信息和地址信息,根据对应同一地域信息的地址信息生成第一矩阵,对第一矩阵进行降维,得到第二矩阵,然后利用第二矩阵进行分类,进而将全量客户问题缩小为对应同一地域信息中的同一类的客户计算问题,极大的降低了计算时间和计算量,提高了计算效率。再计算同一类中的每两个地址信息之间的相似性,将相似性较高的两个客户对应的两个节点之间增加一个边,实现边数据的增加,使得海量客户的地址相似度计算能在实际生产环境中使用。可见,本发明实施例通过地址相似度确定需要增加的关系边,从而丰富图计算所使用的边数据。
36.下面描述图1中各个步骤的执行方式。
37.s102、将图谱的全量客户中的每一个客户地址进行拆分,得到该客户地址的地域信息和地址信息;其中,所述地址信息和客户一一对应;
38.其中,地域信息,例如,某国家、某省、某市、某区等地域信息。地址信息为在区中的具体地址。
39.在一个实施例中,s102可以具体包括:将所述全量客户中的每一个客户地址按照地域级别进行拆分,得到各个级别的地域信息以及最低级别的地域信息对应的地址信息。
40.也就是说,按照地域级别对一个客户地址进行拆分,可以得到各个级别的地域信息以及最低级别的地域信息对应的地址信息。
41.例如,中国四川省成都市高新区天府四街蚂蚁c空间,经过拆分之后,得到的地域信息有:中国、四川省、成都市、高新区,地址信息为天府四街蚂蚁c空间。在后续步骤中针对的是对应同一个地域信息的各个地址信息,例如,在图谱中地域信息均为中国四川省成都市高新区的各个地址信息。通过这种方式可以将全量客户的计算问题缩小为同一个地域信息内客户的计算问题,以减小计算时间和计算量。
42.其中,一个地址信息对应一个客户,即地址信息和客户之间是一一对应的关系。
43.s104、根据对应相同所述地域信息的各个地址信息,生成第一矩阵;其中,所述第一矩阵中的第i行第j列的元素表示对应相同所述地域信息的各个地址信息中的第j个地址信息中是否包含该地域信息对应的字符串集合中的第i个字符串;所述第一矩阵的列数为对应相同所述地域信息的各个地址信息的数量,所述第一矩阵的行数为所述字符串集合中字符串的数量;
44.例如,一个地域信息对应一个字符串集合,例如,中国四川省成都市高新区对应一个字符串集合。针对中国四川省成都市高新区的各个地址信息,生成一个第一矩阵。在第一矩阵中的第i行的第j列的元素的值表示中国四川省成都市高新区的第j个地址信息是否包含对应的字符串集合中的第i个字符串。
45.例如,如果中国四川省成都市高新区的第j个地址信息中包含对应的字符串集合中的第i个字符串,则第一矩阵中的第i行的第j列的元素的值为1。如果中国四川省成都市高新区的第j个地址信息中不包含对应的字符串集合中的第i个字符串,则第一矩阵中的第i行的第j列的元素的值为0。
46.其中,所述第一矩阵的列数为对应相同所述地域信息的各个地址信息的数量,例如,中国四川省成都市高新区的客户的数量n。所述第一矩阵的行数为所述字符串集合中字符串的数量,例如,对应的字符串集合中包括m个字符串。
47.例如,生成第一矩阵的步骤为:若对应相同所述地域信息的各个地址信息中的第j个地址信息中未包含所述字符串集合中的第i个字符串,则将所述第一矩阵中的第i行第j列的元素设置为0;若对应相同所述地域信息的各个地址信息中的第j个地址信息中包含所述字符串集合中的第i个字符串,则将所述第一矩阵中的第i行第j列的元素设置为1。
48.通过s104可以将字符串形式的地址信息转化为由0和1形成的第一矩阵,第一矩阵为稀疏矩阵。
49.在一个实施例中,所述字符串集合的生成方法可以包括如下步骤:
50.将对应同一个地域信息的各个地址信息中的每一个地址信息进行切分,得到该地址信息对应的多个字符串;其中,每一个所述字符串中包括预设长度的字符;
51.将对应相同所述地域信息的各个地址信息对应的各个字符串形成该地域信息对应的字符串集合。
52.例如,中国四川省成都市高新区对应的字符串集合的形成过程包括:将中国四川省成都市高新区中的每一个地址信息进行切分,得到该地址信息对应的多个字符串。例如,地址信息“天府四街蚂蚁c空间”被切分后得到的各个字符串为“天”、“府”、“四”、“街”、“蚂”、“蚁”、“c”“空”、“间”,此时的每一个字符串中仅包括一个字符,即每一个字符串的长度为1。在实际场景中也可以将字符串的长度设置为2、3等其它数值。在对中国四川省成都市高新区中的各个地址信息进行切分后,将各个地址信息对应的字符串形成字符串集合。通过这种方式形成的字符串集合是针对中国四川省成都市高新区的。
53.进一步的,所述将对应相同所述地域信息的各个地址信息对应的各个字符串形成所述字符串集合,可以包括:
54.将对应相同所述地域信息的每一个地址信息的各个字符串逐个添加到初始为空的字符串集合中,并在将每一个地址信息对应的字符串添加至所述字符串集合之前,判断该地址信息对应的该字符串是否未存在于所述字符串集合中;若是,则将该地址信息对应的该字符串添加至所述字符串集合,以形成不包含相同字符串的所述字符串集合。
55.也就是说,在形成的字符串集合中不包括重复的字符串,以提高后续计算的准确性。
56.s106、对所述第一矩阵进行降维,得到第二矩阵,并根据所述第二矩阵,将对应相同所述地域信息的各个地址信息进行分类,同一类的地址信息具有相似性;
57.可理解的是,如果直接利用第一矩阵进行计算,计算效率还是会比较低,因此需要对第一矩阵进行降维,得到第二矩阵,利用降维后的第二矩阵进行计算可以进一步提高计算效率。
58.在一个实施例中,所述对所述第一矩阵进行降维,得第二矩阵,具体可以包括:采用最小哈希算法对所述第一矩阵进行降维,得第二矩阵;其中,所述第二矩阵中每一个地址信息对应的列向量的元素个数小于所述第一矩阵中该地址信息对应的列向量的元素个数。
59.其中,最小哈希算法即minhash算法,最小哈希算法是一种快速判断两个对象是否相似的技术,能够将高维集合的数据对象映射到更小的哈希值集合,同时保留对象间的相似度,可见利用最小哈希算法降维不会对后续的相似度计算产生影响。
60.在一个实施例中,所述将对应相同所述地域信息的各个地址信息进行分类,具体可以包括:
61.选取至少一个局部敏感哈希函数;
62.采用每一个局部敏感哈希函数对所述第二矩阵中每一个地址信息对应的列向量进行哈希计算,得到该地址信息在该局部敏感哈希函数下对应的分桶序号,将该地址信息分入该分桶序号对应的哈希桶中,每一个哈希桶对应一个数列,该数列中包括在该局部敏感哈希函数下被分入该哈希桶内的地址信息的集合;
63.将各个局部敏感哈希函数下各个哈希桶对应的各个数列中具有至少一个相同地址信息的数列合并为一个分类。
64.其中,局部敏感哈希函数即locality sensitive hashing,是一种将输入散列成固定长度的字符串摘要的算法,当输入相似时,计算出的摘要同样具有相似度。
65.其中,局部敏感哈希函数的数量可以为h,h的大小可以配置。
66.也就是说,利用h个局部敏感哈希函数中的第一个局部敏感哈希函数对第二矩阵中的每一个地址信息对应的列向量进行哈希计算,得到一个分桶序号,该分桶序号表明该地址信息被分到哪一个哈希桶中。例如,一共有5个哈希桶,而一个地址信息对应的分桶序号为3,则将该地址信息分到第3个哈希桶中。通过第一个局部敏感哈希函数对各个地址信息的哈希计算,可以得到在第一局部敏感哈希函数的计算下各个地址信息各自对应的分桶序号,进而将各个地址信息分配到各自对应的分桶序号对应的哈希桶中。每一个哈希桶对应一个数列,该数列中包括在第一个局部敏感哈希函数的计算下被分入该哈希桶内的地址信息的集合。例如,在第一个局部敏感哈希函数的计算下,第1个哈希桶对应的数列为{地址信息1,地址信息3}。
67.类似的,利用h个局部敏感哈希函数中的第二个局部敏感哈希函数对第二矩阵中各个地址信息对应的列向量进行哈希计算,得到各个地址信息各自对应的分桶序号,进而将各个地址信息分配到各自对应的分桶序号对应的哈希桶中。以此类推,直到利用第h个局部敏感哈希函数对第二矩阵中各个地址信息对应的列向量进行哈希计算,得到各个地址信息各自对应的分桶序号,进而将各个地址信息分配到各自对应的分桶序号对应的哈希桶中。
68.假设h为2,在经过两个局部敏感哈希函数的计算,实现两次分桶之后,发现在第一个局部敏感哈希函数的计算下,第1个哈希桶对应的数列为{地址信息1,地址信息3}。发现在第二个局部敏感哈希函数的计算下,第2个哈希桶对应的数列为{地址信息1,地址信息2},即发现这两个哈希桶对应的数列之间存在一个相同的地址信息即地址信息1,进而将地址信息1、地址信息2、地址信息3分为一类,得到{地址信息1,地址信息2,地址信息3}。其它的分类也是通过这种方式确定。
69.可见,基于局部敏感哈希的特性,只要有一次多个地址信息被分到同一桶序号中,那么该多个地址信息在很大概率上具有高相似度,因而基于分桶情况进行分类,因此全量客户计算问题可以缩小为同地域信息同一类的客户计算问题。
70.s108、将同一类的各个地址信息中的每两个地址信息进行相似度计算,并选取出相似度大于预设阈值的地址信息对;
71.也就是说,如果同一类中的两个地址信息之间的相似度大于预设阈值,则说明这两个地址信息具有较高的文本相似性,因此将这两个地址信息作为一个地址信息对选取出来。
72.在一个实施例中,所述将同一类的各个地址信息中的每两个地址信息进行相似度计算,可以具体包括:将同一类的各个地址信息中的每两个地址信息进行雅可比相似度计算。
73.其中,雅可比相似度即jaccard similarity,一种用于比较样本集的相似性与多样性的统计量,能够量度有限样本集合的相似度,其定义为两个集合交集大小与并集大小之间的比例。
74.即,通过雅可比相似度作为两个地址信息之间的文本相似性。
75.s110、针对选取出的每一个地址信息对,确定该地址信息对所对应的两个客户在所述图谱中对应的两个节点,在所确定的该两个节点之间增加一个关系边。
76.也就是说,从s108中选取出来的每一个地址信息对对应一个客户对,从图谱中找到该客户对所对应的两个节点,进而在这两个节点之间增加一个边,可以在边上增加雅可比相似度,以表征具体的文本相似程度。在图谱中增加了边数据之后,可以利用更新后的图谱进行团伙挖掘等图计算。图计算是指以图谱作为数据模型来表达问题并予以解决的这一过程。
77.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
78.根据第二方面,参见图2,本发明实施例提供一种边数据增加装置200,包括:
79.地址拆分模块202,用于将图谱的全量客户中的每一个客户地址进行拆分,得到该客户地址的地域信息和地址信息;其中,所述地址信息和客户一一对应;
80.矩阵生成模块204,用于根据对应相同所述地域信息的各个地址信息,生成第一矩阵;其中,所述第一矩阵中的第i行第j列的元素表示对应相同所述地域信息的各个地址信息中的第j个地址信息中是否包含该地域信息对应的字符串集合中的第i个字符串;所述第一矩阵的列数为对应相同所述地域信息的各个地址信息的数量,所述第一矩阵的行数为所述字符串集合中字符串的数量;
81.降维分类模块206,用于对所述第一矩阵进行降维,得到第二矩阵,并根据所述第二矩阵,将对应相同所述地域信息的各个地址信息进行分类,同一类的地址信息具有相似性;
82.相似计算模块208,用于将同一类的各个地址信息中的每两个地址信息进行相似度计算,并选取出相似度大于预设阈值的地址信息对;
83.边增加模块210,用于针对选取出的每一个地址信息对,确定该地址信息对所对应的两个客户在所述图谱中对应的两个节点,在所确定的该两个节点之间增加一个关系边。
84.在一个实施例中,地址拆分模块具体用于:将所述全量客户中的每一个客户地址按照地域级别进行拆分,得到各个级别的地域信息以及最低级别的地域信息对应的地址信息。
85.在一个实施例中,还包括集合形成模块,用于生成字符串集合,所述集合形成模块包括:
86.地址切分单元,用于将对应同一个地域信息的各个地址信息中的每一个地址信息进行切分,得到该地址信息对应的多个字符串;其中,每一个所述字符串中包括预设长度的字符;
87.集合形成单元,用于将对应相同所述地域信息的各个地址信息对应的各个字符串形成该地域信息对应的字符串集合。
88.进一步的,集合形成单元具体用于:将对应相同所述地域信息的每一个地址信息的各个字符串逐个添加到初始为空的字符串集合中,并在将每一个地址信息对应的字符串添加至所述字符串集合之前,判断该地址信息对应的该字符串是否未存在于所述字符串集合中;若是,则将该地址信息对应的该字符串添加至所述字符串集合,以形成不包含相同字
符串的所述字符串集合。
89.在一个实施例中,矩阵生成模块具体用于:采用最小哈希算法对所述第一矩阵进行降维,得第二矩阵;其中,所述第二矩阵中每一个地址信息对应的列向量的元素个数小于所述第一矩阵中该地址信息对应的列向量的元素个数。
90.在一个实施例中,降维分类模块具体用于:选取至少一个局部敏感哈希函数;采用每一个局部敏感哈希函数对所述第二矩阵中每一个地址信息对应的列向量进行哈希计算,得到该地址信息在该局部敏感哈希函数下对应的分桶序号,将该地址信息分入该分桶序号对应的哈希桶中,每一个哈希桶对应一个数列,该数列中包括在该局部敏感哈希函数下被分入该哈希桶内的地址信息的集合;将各个局部敏感哈希函数下各个哈希桶对应的各个数列中具有至少一个相同地址信息的数列合并为一个分类。
91.在一个实施例中,相似计算模块具体用于:将同一类的各个地址信息中的每两个地址信息进行雅可比相似度计算。
92.可理解的是,本发明实施例提供的装置中有关内容的解释、具体实施方式、有益效果、举例等内容可以参见第一方面提供的方法中的相应部分,此处不再赘述。
93.根据第三方面,本说明书一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行说明书中任一个实施例中的方法。
94.具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或cpu或mpu)读出并执行存储在存储介质中的程序代码。
95.在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
96.此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
97.此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展模块上的cpu等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
98.可理解的是,本发明实施例提供的计算机可读介质中有关内容的解释、具体实施方式、有益效果、举例等内容可以参见第一方面提供的方法中的相应部分,此处不再赘述。
99.根据第四方面,本说明书一个实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现执行说明书中任一个实施例中的方法。
100.可理解的是,本发明实施例提供的计算设备中有关内容的解释、具体实施方式、有益效果、举例等内容可以参见第一方面提供的方法中的相应部分,此处不再赘述。
101.可以理解的是,本说明书实施例示意的结构并不构成对本说明书实施例的装置的具体限定。在说明书的另一些实施例中,上述装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件
或者软件和硬件的组合来实现。
102.上述装置、系统内的各模块之间的信息交互、执行过程等内容,由于与本说明书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述,此处不再赘述。
103.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
104.本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
105.以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
技术特征:
1.一种边数据增加方法,其特征在于,包括:将图谱的全量客户中的每一个客户地址进行拆分,得到该客户地址的地域信息和地址信息;其中,所述地址信息和客户一一对应;根据对应相同所述地域信息的各个地址信息,生成第一矩阵;其中,所述第一矩阵中的第i行第j列的元素表示对应相同所述地域信息的各个地址信息中的第j个地址信息中是否包含该地域信息对应的字符串集合中的第i个字符串;所述第一矩阵的列数为对应相同所述地域信息的各个地址信息的数量,所述第一矩阵的行数为所述字符串集合中字符串的数量;对所述第一矩阵进行降维,得到第二矩阵,并根据所述第二矩阵,将对应相同所述地域信息的各个地址信息进行分类,同一类的地址信息具有相似性;将同一类的各个地址信息中的每两个地址信息进行相似度计算,并选取出相似度大于预设阈值的地址信息对;针对选取出的每一个地址信息对,确定该地址信息对所对应的两个客户在所述图谱中对应的两个节点,在所确定的该两个节点之间增加一个关系边。2.根据权利要求1所述的方法,其特征在于,所述将图谱的全量客户中的每一个客户地址进行拆分,得到该客户地址的地域信息和地址信息,包括:将所述全量客户中的每一个客户地址按照地域级别进行拆分,得到各个级别的地域信息以及最低级别的地域信息对应的地址信息。3.根据权利要求1所述的方法,其特征在于,所述字符串集合的生成方法包括:将对应同一个地域信息的各个地址信息中的每一个地址信息进行切分,得到该地址信息对应的多个字符串;其中,每一个所述字符串中包括预设长度的字符;将对应相同所述地域信息的各个地址信息对应的各个字符串形成该地域信息对应的字符串集合。4.根据权利要求3所述的方法,其特征在于,所述将对应相同所述地域信息的各个地址信息对应的各个字符串形成所述字符串集合,包括:将对应相同所述地域信息的每一个地址信息的各个字符串逐个添加到初始为空的字符串集合中,并在将每一个地址信息对应的字符串添加至所述字符串集合之前,判断该地址信息对应的该字符串是否未存在于所述字符串集合中;若是,则将该地址信息对应的该字符串添加至所述字符串集合,以形成不包含相同字符串的所述字符串集合。5.根据权利要求1所述的方法,其特征在于,所述对所述第一矩阵进行降维,得第二矩阵,包括:采用最小哈希算法对所述第一矩阵进行降维,得第二矩阵;其中,所述第二矩阵中每一个地址信息对应的列向量的元素个数小于所述第一矩阵中该地址信息对应的列向量的元素个数。6.根据权利要求1所述的方法,其特征在于,所述将对应相同所述地域信息的各个地址信息进行分类,包括:选取至少一个局部敏感哈希函数;采用每一个局部敏感哈希函数对所述第二矩阵中每一个地址信息对应的列向量进行哈希计算,得到该地址信息在该局部敏感哈希函数下对应的分桶序号,将该地址信息分入
该分桶序号对应的哈希桶中,每一个哈希桶对应一个数列,该数列中包括在该局部敏感哈希函数下被分入该哈希桶内的地址信息的集合;将各个局部敏感哈希函数下各个哈希桶对应的各个数列中具有至少一个相同地址信息的数列合并为一个分类。7.根据权利要求1所述的方法,其特征在于,所述将同一类的各个地址信息中的每两个地址信息进行相似度计算,包括:将同一类的各个地址信息中的每两个地址信息进行雅可比相似度计算。8.一种边数据增加装置,其特征在于,包括:地址拆分模块,用于将图谱的全量客户中的每一个客户地址进行拆分,得到该客户地址的地域信息和地址信息;其中,所述地址信息和客户一一对应;矩阵生成模块,用于根据对应相同所述地域信息的各个地址信息,生成第一矩阵;其中,所述第一矩阵中的第i行第j列的元素表示对应相同所述地域信息的各个地址信息中的第j个地址信息中是否包含该地域信息对应的字符串集合中的第i个字符串;所述第一矩阵的列数为对应相同所述地域信息的各个地址信息的数量,所述第一矩阵的行数为所述字符串集合中字符串的数量;降维分类模块,用于对所述第一矩阵进行降维,得到第二矩阵,并根据所述第二矩阵,将对应相同所述地域信息的各个地址信息进行分类,同一类的地址信息具有相似性;相似计算模块,用于将同一类的各个地址信息中的每两个地址信息进行相似度计算,并选取出相似度大于预设阈值的地址信息对;边增加模块,用于针对选取出的每一个地址信息对,确定该地址信息对所对应的两个客户在所述图谱中对应的两个节点,在所确定的该两个节点之间增加一个关系边。9.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1~7任一项所述的方法。10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1~7任一项所述的方法。
技术总结
本说明书实施例提供了一种边数据增加方法及装置、介质、设备,方法包括:将图谱的全量客户中的每一个客户地址进行拆分,得到该客户地址的地域信息和地址信息;根据对应相同所述地域信息的各个地址信息,生成第一矩阵;对所述第一矩阵进行降维,得到第二矩阵,并根据所述第二矩阵,将对应相同所述地域信息的各个地址信息进行分类,同一类的地址信息具有相似性;将同一类的各个地址信息中的每两个地址信息进行相似度计算,并选取出相似度大于预设阈值的地址信息对;针对选取出的每一个地址信息对,确定该地址信息对所对应的两个客户在所述图谱中对应的两个节点,在所确定的该两个节点之间增加一个关系边。本发明实施例能够丰富图谱数据。谱数据。谱数据。
技术研发人员:李想
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2023.02.24
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/