用于数据丰富的系统和方法与流程
未命名
09-16
阅读:84
评论:0

1.本公开涉及支持(enabling)增值的数据丰富(enrichment)。
背景技术:
2.实体维护着大量的可能是杂乱无章的和/或不完整的数据。例如,实体可以维护与对象(subject)(例如个体,产品,组织等)相关的多个不完整记录。一个记录可以包含对象的地址,电子邮箱,性别,和地理位置,而另一个记录可以包含对象的姓名,地址,电话号码,出生日期,和信用卡信息。这些记录中的每一个都可以是不完整的。产品和组织可存在类似的不完整记录。目前,希望统一(reconcile)这些分离的记录的实体通常必须手动组合这些记录,这导致了过程效率低下而且耗时,并可能接触到个人身份信息。
3.实体面临的另一个问题是确保他们可拥有的记录具有数据完整性。例如,实体可具有看似与同一数据对象相关联的两个不完整记录。但是,一个记录可列出与另一个记录不同的电子邮箱地址或电话号码。这种数据差异会降低数据记录的完整性,并使实体更难统一多个不完整的数据记录,因为实体会不确定哪个记录是真正正确的。此外,实体会不确定某一记录在多大程度上是正确的。现代企业在准确的数据收集和统一方面受到阻碍。
4.因此,对一些系统和方法的需求不断增加,这些系统和方法能够应对现代数据收集和统一方面的挑战,包括将同一数据对象的多个不完整记录进行匹配(matching)时效率低下,当记录不一致时丧失完整性,以及当作出此类对数据记录进行匹配和统一的尝试时可能接触到个人身份信息(pll)。
5.针对这些和其它一般考虑,作出了本文所公开的多个方面。此外,尽管可以讨论相对具体的问题,但应当理解,这些示例不应被局限于解决在本公开的背景技术或其他地方确定(identified)的具体问题。
附图说明
6.参照附图描述了非限制性和非穷举性示例。
7.图1示出了如本文所述的用于整合(consolidating)和丰富数据的分布式系统的示例。
8.图2示出了如本文所述的用于屏蔽(masking),整合,匹配,和丰富数据的示例方法。
9.图3示出了包括整合平台,客户环境,和参考源环境的分布式系统的示例。
10.图4示出了用于对数据进行令牌化和创建位图的示例系统和方法。
11.图5示出了使用参考源进行传递匹配的示例。
12.图6示出了提供数据质量(dq)分数,整合多个令牌记录,和使用至少一个参考源来丰富记录的示例。
13.图7示出了如本文所述实施用于整合和丰富数据的系统和方法的示例输入处理器。
14.图8示出了可在其中实施本实施例中的一个或多个实施例的适合的操作环境的一个示例。
具体实施方式
15.下文参照附图更全面地描述本公开的多个方面,这些附图构成本文的一部分,并且示出了具体的示例性方面。然而,本公开的不同方面可以以许多不同的形式实施,且不应被解释为仅限于本文所述的方面;而是,提供这些方面以便本公开将是彻底和完整的,以及将这些方面的范围完全传达给本领域技术人员。多个方面可以作为方法,系统,或设备进行实践。因此,多个方面可以采取硬件实施,完全以软件实施,或组合软件和硬件方面来实施的形式。因此,以下详细描述不应作为限制性的。
16.本技术的实施例涉及与数据匹配,数据剖析(profiling),数据屏蔽,数据整合,和数据丰富相关联的系统和方法。数据匹配过程可用于生成可提高数据质量的数据洞察(insights)。例如,数据洞察可以包括域内和跨域的重复的或多个数据属性实例,包括一定比例的重叠(overlap)。具体地,两个数据记录可与同一数据对象相关联。数据剖析可表示这两个记录在一定程度上重叠,也可强调记录中的任何相似或不同之处。此外,数据剖析过程可包括数据洞察,其可包括自规范化和标准化的数据质量报告(即,标准相比于非标准的比例)或基于标签处理的趋势(例如,具有同一家庭地址的记录)。
17.数据屏蔽可以涉及对特定于客户端的信息进行散列(hashing)和/或加密。本技术通篇中,“客户端”可以涉及客户(customer)和/或参考源(reference source)。为了使实体将敏感数据(例如,pll)传送到第三方(例如,整合平台),通常应将数据进行令牌化。在本文描述的一些示例中,特定于客户端的信息可以首先进行散列和加密,然后上传到安全服务器。被令牌化的信息可以从安全服务器取得并进行分析。被令牌化的特定于客户端的信息(即,“客户端令牌”)可以使用散列(单向压缩函数)和/或加密的组合进行令牌化,其中散列码可以包括附加的计算机生成的安全散列算法(sha2512/256)盐(salt)。可以使用其他散列和加密方法,包括但不限于sha2348,sha3,三重des(tripledes),双鱼(twofish)加密算法,河豚(blowfish)加密算法,高级加密标准(aes),idea加密算法,md5加密算法,和/或rsa安全加密算法。当第三方服务器接收到从客户或参考源传送的信息时,该信息是以令牌的形式。换句话说,来自客户和/或参考源(即,“客户端”)的原始数据在被传送到第三方安全服务器之前被散列和加密。整合平台不接收或处理原始数据。
18.在一些示例方面,可以包括被包括在匿名化标签列表中的第一标签,该匿名化标签列表对应于基于被确定的分类器的令牌化属性化的信息类型。标签可以提供属性中代表的信息类型的匿名标识符。可以基于任何属性和分类器生成标签。例如,如果属性与姓名相关,则相应的标签可以是
″
la1
″
。在这些实施例中,只有有权访问对应于标签的信息的列表的实体才能确定由每个标签所确定的信息类型,从而对数据进行匿名化。对于第三方整合平台,由于数据的令牌化,真正的,未加密的属性或分类器可以是未知的。例如,某个属性可以涉及数据对象的地址并具有“地址(address)”标签,但一旦被标签化,该标签可以是第三方整合平台的令牌“la1”。该过程的进一步描述可以在美国专利申请号16/844,927中找到,其通过引用整体并入本文。
19.数据整合是指整合两个或更多个数据记录以创建一个数据记录。例如,数据记录
的数据属性可包括姓名,出生日期(dob),性别,和电子邮箱地址。另一个数据记录的数据属性可包括姓名,性别,家庭地址,和电话号码。如果整合了这两个记录,则可以创建一个数据记录,其数据属性包括姓名,出生日期,性别,电子邮箱地址,家庭地址,和电话号码。一旦被整合,被整合的数据记录可被称为“复合体(composite)”。
20.数据复合体对于可具有与一个数据对象相关联的多个数据记录的实体是有用的。例如,银行可具有数据对象的支票账户的数据记录和同一数据对象的住房贷款的数据记录。这两个数据记录可包含重叠的信息,但一个数据记录可包含另一个数据记录不包含的某些数据属性。因此,创建这些数据记录的复合体可对实体有益,从而提高效率和数据完整性级别。
21.如本文所述,实体可以利用所提出的系统和方法来丰富其数据。例如,银行可拥有与某些数据对象相关联的某些数据记录。每个数据属性可获得数据质量(dq)分数。dq分数可以向实体表示数据属性的完整性程度。彼此独立的属性的汇总dq分数可以构成每个数据记录的“价值分数”。例如,组织可具有与一个数据对象相关联的五个不同的数据记录。如果这五个数据记录中的每一个都有相同的针对这些数据记录的每一个所列出的性别数据属性,则性别属性的dq分数可以相对较高(例如,90/100)。然而,如果五个数据记录中只有一个具有社会安全号码(ssn)的数据属性,则该数据属性可获得相对较低的dq分数(例如,30/100),因为该实体可能没有其他确证(corroborating)数据来验证该特定数据对象的数据属性的完整性。
22.为了解决dq分数低的问题并提高数据完整性,本文提出的系统和方法利用参考源来确证数据记录并填入数据记录的潜在缺失数据属性。参考源是具有用作参考点的数据的实体。例如,参考源可以是“可信”源,比如信用局,银行,和/或政府实体。然而,因为“信任”是主观的,就本技术而言,参考源是任何用作与其他源(例如,客户源)进行比较的参考项的源。例如,客户可具有数据对象的多个数据记录,但可缺失某些数据属性。客户可以对此数据进行散列和加密(即,将原始数据转换为令牌),然后将令牌上传到安全服务器,在该安全服务器处第三方整合平台可以访问客户令牌。此外,参考源可具有完整且经过验证的记录(即,“可信”记录),将这些记录进行散列和加密(即,令牌化),然后上传到由整合平台管理的安全服务器。第三方整合平台可以访问参考源令牌。然后,第三方整合平台可以通过将客户令牌与参考源令牌进行匹配来支持对客户数据进行丰富。
23.在一些方面,可由系统接收客户令牌和参考源令牌。可以分析和比较客户令牌和参考源令牌。分析和比较的结果可揭示客户令牌中的多个缺漏,当和如果参考源将这些数据属性传送给客户时,这些缺漏可以通过参考源令牌进行弥补。可以将客户令牌的某些令牌化数据属性确定为dq分数低和/或可能完全缺失。dq分数低和/或可能缺失的数据属性可由客户环境中的参考源令牌填充。具体地,第三方整合平台支持对数据进行丰富和整合,但数据的真正丰富和整合发生在客户环境中。
24.因此,本公开提供了多种技术益处,包括但不限于:支持更有效地使用电子资源进行数据匹配,整合,和支持数据丰富;提供更高效的存储管理,因为数据集的匹配,整合,和丰富可发生在一个第三方服务器上;减少可能的对敏感数据的接触,因为传送到第三方服务器的所有数据都被令牌化(即,被散列和加密);和减少对电子设备进行过多手动操作,因为数据匹配,整合,和丰富是经由计算设备运行智能算法以确定数据集中的缺漏并从参考
源数据集中弥补这些缺漏而发生的,等等。
25.图1示出了如本文所述的用于整合和丰富数据的分布式系统的示例。所呈现的示例系统100是相互依赖的组件的组合,这些组件相互作用以形成用于整合和丰富数据的集成整体。系统的组件可以是在系统的硬件组件上实施和/或由系统的硬件组件执行的硬件组件或软件。例如,系统100包括客户端设备102,104,和106,本地数据库110,112,和114,网络108,以及服务器设备116,118,和/或120。
26.客户端设备102,104,和106可以被配置成接收和传送数据。例如,客户端设备102,104,和106可以包含特定于客户端的数据。客户端设备可以经由网络108下载可被应用于特定于客户端的数据的第三方令牌化软件程序。特定于客户端的数据可以被存储在本地数据库110,112,和114中。一旦被令牌化,特定于客户端的数据就被转换为“令牌”,并且这些令牌可以经由网络108和/或卫星122传送到服务器116,118,和/或120。服务器116,118,和/或120可以是整合平台拥有的第三方服务器。在其它示例中,特定于客户端的数据可以被存储在服务器(除了本地客户端设备和本地数据库以外或替代地)中,并且可以被令牌化,然后经由网络108和/或卫星122从客户端服务器传送到第三方服务器。
27.在多个方面,客户端设备(例如客户端设备102,104,和106)可以有权访问包含特定于客户端的数据的一个或多个数据集或数据源和/或数据库。在其他方面,客户端设备102,104,和106可被配备以接收带有特定于客户端的令牌或未加密数据(或两者的混合)的宽带和/或卫星信号。客户端设备102,104,和106可接收的信号和信息可以从卫星122被传送。卫星122还可以被配置为与网络108通信,此外还能够直接与客户端设备102,104,和106通信。在一些示例中,客户端设备可以是移动电话,膝上型计算机,平板电脑,智能家居设备,座机,和可穿戴设备(例如,智能手表)等设备。
28.为了进一步阐述网络拓扑,客户端设备102,104,和/或106(以及它们对应的本地数据库110,112,和114)可由参考源拥有。客户端设备102,104,和/或106可以下载第三方软件程序以对数据进行令牌化。来自参考源的令牌可以被本地存储在本地数据库110,112,和/或114中。在其它示例中,令牌可以被存储在远程数据库/服务器116,118,和/或120中。在其他示例中,令牌可存在于本地和外部数据库中。在令牌化之后,参考源可以经由被配置为与本地数据库110,112,114和服务器116,118,和120通信的客户端设备102,104,和/或106传送数据。来自参考源的令牌可以经由网络108和/或卫星122传送。参考源令牌可由第三方服务器接收。
29.用于令牌化和传送来自客户侧和参考源侧的数据的过程可以是类似的,其中数据可以最初被存储在本地,随后在客户拥有和/或参考源拥有的客户端设备上进行散列和加密,并且一旦为令牌化形式,最后则被传送到第三方服务器进行分析,整合,和丰富,以及其他动作。换句话说,图1描述了可在客户环境和/或参考源环境(即,客户端设备102,104,和/或106在一个示例中可属于客户端环境,而在另一个示例中属于参考源环境)中使用的网络拓扑。
30.图2示出了如本文所述的用于屏蔽,匹配,整合,和丰富数据的示例方法200。方法200可以从步骤202开始,生成数据质量(dq)分数。dq分数可以被分配给源(例如,客户或参考源环境)处的记录中的每个属性。例如,由各具有相同
″
姓名
″
数据属性值的多个记录构成的复合记录的“姓名”数据属性的dq分数高。另一方面,仅从一个数据记录得到(且未经其他
数据记录确证)的复合体的数据属性的dq分数较低。数据属性具有的确证越多,dq分数就可以越高。
31.此外,dq分数可以受数据属性的源的影响。具体地,参考源是数据属性的源的情况下,相比于如果从非参考源填充数据属性的情况,那些数据属性会获得较高的dq分数。例如,复合体可以由五个不同的数据记录构成,并且只有其中一个数据记录具有被填充的某个数据属性(例如,社会安全号码)。通常,没有来自其他数据记录的任何确证的数据属性将获得较低的dq分数。然而,如果数据属性是从参考源(例如,政府实体,信用局等)得到,则该特定数据属性可获得较高的dq分数。请务必注意,在整合平台中,“数据”属性被令牌化,因此整合平台正在查看,分析,和匹配“令牌”属性,而不是原始数据属性。请注意,每个令牌可包含一个属性或多个属性。例如,一个令牌可以涉及五个属性的组,或者在一些示例方面,令牌可以涉及一个属性的一部分。令牌不局限于一对一地与属性匹配。
32.此外,在步骤202,可以针对客户记录创建位图。位图可表示记录中存在某些属性。例如,在个体的记录中,每一列可代表属性。在每一列中,可以表示数字“1”或数字“0”。“1”可表示存在特定的数据属性,数字“0”可表示不存在特定的数据属性。例如,个体记录可表示将“地址”属性呈现为“1”,但如果个体记录缺失电子邮箱地址,则该属性在该特定列中可为“0”。当特定数据属性被表示为存在或不存在时,位图可用于支持数据丰富。对此类位图的分析可向客户表示从其他源(例如参考源)有可能获取哪些数据属性。
33.在生成dq分数和位图之后,在步骤204处可以由第三方整合平台接收客户令牌,位图,和dq分数。在步骤204之前,可以在客户侧处将客户数据令牌化。在接收客户数据之前,客户的客户端设备可以使用令牌化软件程序在传送之前对原始客户数据进行散列和加密(或“屏蔽”),因此真正传送到整合平台的是客户“令牌”。一旦被令牌化,可以传送客户令牌并在步骤204处由第三方整合平台接收。注意,在步骤204处接收客户令牌和dq分数以及在步骤208处接收参考源令牌可以同时实施,或以相反的顺序(在接收客户令牌之前接收参考源令牌)实施。
34.客户令牌可由整合平台接收并被存储在安全的服务器上。在接收到客户令牌之后,在步骤206处可以表示至少一个复合体(即,至少两个客户令牌记录的整合)。复合体涉及整合多个令牌记录以创建一个令牌记录。例如,客户令牌可由与同一数据对象相关联的多个令牌记录构成(尽管由于信息在第三方整合平台上被令牌化,第三方整合平台不能确定此数据对象)。可以通过整合与同一数据对象相关联的多个令牌记录来创建该数据对象的复合体。具体地,一个令牌记录可包括在被引(referenced)时代表例如姓名,出生日期(dob),性别,和物理地址的数据属性的令牌,而另一个令牌记录可包括代表例如姓名,电子邮箱地址,和年龄的数据属性的令牌。当经由至少一个查找表(例如,包含与客户和/或参考源记录id具有一对一关系的第三方综合独特记录id表的表)或客户环境和/或参考源环境中的软件/算法引回时,复合记录将包括上述所有数据属性:姓名,出生日期,性别,物理地址,电子邮箱地址,和年龄。最终结果是复合记录,这是与某些数据对象和/或实体相关联的更完整的记录。这样的复合记录是在客户环境中创建的,因此,虽然第三方整合平台可有助于确定要被整合和/或丰富的某些记录,但真正的整合和丰富发生在将客户令牌传送到整合平台之前的客户环境中。如本文所用,“数据对象”可以是人,产品,业务(business),实体等。本文所述的系统和方法不局限于只与人类数据对象相关的个人数据,还可以应用于供
应链数据,产品数据,业务实体数据等。
35.在其它示例方面,在步骤208处整合平台接收到参考源令牌之后,可以创建数据对象的复合体。例如,如果来自客户令牌的记录a和记录b相匹配,那却没有足够的相似之处来匹配成功。如果记录a和记录b确实是与同一数据对象相关联的记录,这会导致假阴性。为了弥补该假阴性问题,系统可依赖于令牌化的参考源数据集。通过使用参考源数据集,系统可以使用一种称为传递闭包的技术来准确判断记录a和记录b是否与同一数据对象相关联,如果是,则创建这些记录的复合体。记录a可以与参考源令牌记录匹配,记录b可以与参考源令牌记录匹配。如果这些记录的比较达到了有把握地判断记录a与参考源匹配且记录b与参考源匹配(即,a=r且b=r)的某个匹配阈值,那么我们知道由于传递性质,记录a和b一定匹配。
36.可用于帮助生成客户令牌的复合体的参考源令牌可以从与在步骤208处接收的参考源令牌集不同的参考源令牌集得到,并最终与复合的客户令牌进行比较以填充缺失的和/或确认低dq分数的数据属性。在其他示例方面,用于创建复合体和匹配客户记录的参考源可以与在步骤208中接收的和用于填充客户令牌中缺失或低dq分数的数据属性的参考源相同。在进一步的示例中,可以使用多个参考源令牌集来匹配客户令牌集的令牌并创建客户令牌的复合体。
37.在步骤208处可以接收参考源令牌。如前所述,可以在步骤202处整合平台接收到客户令牌之前,同时,或之后接收参考源令牌。与步骤202处的接收客户令牌步骤类似,参考源数据也可以在传送到整合平台之前进行令牌化。参考源设备可以使用第三方令牌化软件程序(例如,来自整合平台或其他第三方的令牌化软件)在传送之前对其数据进行令牌化。一旦被令牌化,参考源令牌可以被传送并由整合平台接收。整合平台现在将拥有客户令牌和参考源令牌。如图1所示,这些令牌可被存储在整合平台拥有的安全服务器,第三方云服务器,和/或整合平台管理的本地设备上。
38.在步骤21 0处,将客户令牌与参考源令牌进行匹配。将客户令牌与参考源令牌进行比较可以表示某些客户令牌是否与参考源令牌匹配。此外,位图可表示客户令牌记录中可以使用参考源令牌记录填入的某些缺口。请注意,参考源令牌可包括一个参考源和/或多个参考源。匹配和丰富过程可包括分析属性中每一个的dq分数。dq分数最低的数据属性可以比dq分数较高的其他数据属性获得较高的优先级。完全缺失的数据属性可在比较步骤210处获得最高优先级。
39.在一些示例方面,可以生成由参考源令牌填充和/或确认准确性的数据属性的排名。数据属性的排名可发生整合平台处,属性在该处作为令牌被处理和排名。数据属性的排名可以以列表形式给回客户(客户有权访问查找表或与源和数据属性相关的软件/算法的地方),并且排名列表中的每个数据属性可具有与之关联的货币价格。例如,为了客户接收某个填充的数据属性,客户需要支付一定数量的钱才能从参考源接收该数据属性。通过本文所述的系统和方法,整合平台可以有助于此交易。客户可以选择填充/更新某些数据属性,而放弃填充/更新其他数据属性。
40.在步骤210处完成匹配分析和位图洞察分析之后,可以支持客户的数据丰富。例如,来自步骤210的令牌匹配和位图洞察已经可以揭示了参考源可拥有数据对象的包含电子邮箱地址的完整数据记录,而客户端记录a,b,和c没有与数据对象相关联的电子邮箱地
址。第三方整合平台通知客户某个参考源具有电子邮箱地址数据属性,因此,客户可以从参考源获取该数据属性。整合平台将认识到客户令牌记录具有缺失的令牌,并表示可用于在客户环境中填充缺失的令牌记录的来自参考源的相应令牌。整合平台有助于客户和参考源之间的数据丰富过程,但缺失数据属性或匹配数据记录的真正填充发生在客户环境中,而不是在第三方整合平台上。
41.图3示出了包括整合平台,客户环境,和参考源环境的分布式系统的示例。图3中的分布式系统是示例数据登记300。数据登记300可以包括客户环境302,参考源环境304,和整合平台306。如在客户环境302中所示,可以从多个客户数据库(例如,数据库客户端abc和/或客户端xyz)接收数据。数据可包含与数据对象相关联的多个数据属性,例如姓名,地址,电话,电子邮箱,ssn,出生日期,性别等。客户数据可以在客户端环境302内被令牌化。一旦被令牌化,客户端令牌可以被传送到整合平台306。
42.类似地,参考源环境304可以包括数据,该数据包括与数据对象相关联的数据属性。数据可在参考源环境中被屏蔽。在数据被屏蔽之后,可以将其传送到整合平台306。
43.整合平台306可以接收私有和安全令牌的形式的来自客户和参考源的令牌。应用于客户令牌的令牌化算法可以类似于参考源令牌,以有助于有效匹配和确定客户令牌集中缺失的数据属性。在整合平台306内,可以比较来自客户和参考源的令牌。在比较步骤处,可以用令牌确定链接对(即,“重叠”)。在一些示例中,记录也可以由比特位字符串(即1和0的字符串)组成。“1”可表示某个数据属性存在,而“0”可表示该数据属性不存在。比较记录的令牌时,如果记录的一个或多个令牌具有相同的值,则基于已确立的阈值确立链接对。每个匹配对的位图(带有0和1的比特位字符串)独立地强调该记录的数据属性是否可用。例如,如果匹配记录对中的比特位值不同,则令牌记录中至少有一个具有数据属性,而其他令牌记录没有。如果两个令牌记录在列中都有“0”,则该特定的相应数据属性缺失。
44.链接对可以表示某些记录之间相匹配(即,来自客户端的数据记录可以由参考源确证)。链接对的位图比较可表示在客户位图中由0强调的数据属性缺失(从而客户端环境中的客户数据集中缺失)。在链接对中检测到0时,整合平台系统可生成回到参考源的请求,以获取和/或确认记录集中的某个数据属性。参考源可以将加密的有效载荷(payload)(明文数据属性)直接或经由整合平台传送给客户。整合平台306不存在未令牌化的客户端(例如,客户和/或参考源)数据。
45.为清楚起见,框308表示用于数据匹配的系统和过程,而框310表示用于数据丰富的过程,其从位图洞察得到。
46.图4示出了用于对数据进行令牌化和产生至少一个位图的示例架构。架构400是从客户端环境的角度呈现的,这意味着该环境应用于客户环境或参考源环境。在将数据传送到整合平台402之前对数据进行提取和令牌化的过程通常始于确定数据源406。数据源406可以包括但不限于数据湖,数据库,平面文件(flat files),和数据流。这些数据源中的数据记录可以根据逻辑域和子域,逻辑属性,和业务条目进行编目和分类。这种分类可帮助在令牌化之前组织客户端数据。例如,某些数据属性可包括人类数据对象的姓名,地址,电话,电子邮箱,ssn,出生日期,性别等。其他数据对象可包括业务实体/组织,产品,和其他对象。
47.一旦数据被提取,可以使用至少一种散列算法和至少一种加密算法对数据进行令牌化。数据可以先被散列,然后被加密。在令牌化过程中,可以生成每个记录的位图
(bitmap),其中数据记录(或从整合平台的角度来看的“令牌记录”)内的每个数据属性由一系列1和0代表。令牌化算法的输出可以是一组令牌和加密的位图408。该位图和来自参考源和/或来自客户的链接记录的位图可用于数据可用性分析。
48.数据提取,令牌化,和位图生成过程发生在客户端环境内,在客户端防火墙404后面。一旦完成数据提取和令牌化,令牌化数据(私有和安全令牌)和位图数据可以被传送到整合平台402。
49.图5示出了使用参考源传递匹配的示例500。如示例500所示,数据记录a(502)和b(504)可以包含某些数据属性。记录a(502)可包含地址,电子邮箱,性别,和执照类型。记录b(504)可包含姓名,地址,电话,出生日期,性别,和信用卡号。然而,当将这两个记录被比较以创建“复合”记录时,系统会判断这两个记录之间没有足够的信息/重叠,无法有把握地判断这些记录与同一数据对象相关。换句话说,仅比较记录a和记录b可导致“假阴性”。
50.通过引入参考源数据记录506,记录a和b可以经由传递性质进行匹配。换句话说,可以将记录a与记录t进行比较,并且可存在足够的重叠,以便有把握地判断记录与同一数据对象相关联。记录b也可以与记录t进行比较,并且可存在足够的重叠,以便有把握地判断记录与同一数据对象相关联。因此,如果记录a=记录t,记录b=记录t,那么记录a=记录b。
51.传递匹配示例500可以在创建数据记录的复合体时被应用,例如在方法200的步骤204中。至少一个参考源可用于判断某些客户数据记录是否与同一数据对象相关联。
52.值得注意的是,在整合平台处,传递匹配经由令牌发生——图5中显示的数据属性仅用于理解目的,因为由整合平台真正接收和处理的“数据”被令牌化。换句话说,整合平台看不见令牌代表的基础原始数据。例如,整合平台不知道客户数据记录a和客户数据记录b是否具有匹配的地址。而是,整合平台知道客户令牌记录a和客户令牌记录b在两个令牌记录之间具有匹配的令牌,但整合平台不知道匹配的令牌对应于“地址”数据属性。
53.图6示出了提供数据质量(dq)分数,整合多个数据记录,并且使用至少一个参考源604支持对数据记录进行丰富的示例600。在示例600中,客户数据可以从银行帐户数据库和/或住房贷款数据库得到(即,该示例中的客户是银行)。数据库可以包括与同一数据对象相关联的数据记录。例如,个体可在客户处开设了支票账户。开设支票账户时,为该个体创建了数据记录。之后,同一个体向客户申请了住房贷款,并且为该个体创建了后来的数据记录。因此,同一个体至少存在两个分别的数据记录一一一个在银行账户数据库中,一个在住房贷款数据库中。这些数据记录中的每一个都可以包含重叠的信息,但记录中的任一个可以包含其他数据记录不具备的某些数据属性。对于客户来说,将这些数据记录整合为一个复合数据记录是有好处的。
54.客户端的选项a(606)是仅组合来自银行帐户和住房贷款的数据记录,但是,如前所述,可能没有足够的重叠以使系统判断这些数据记录确实与同一个体相关联。但以防它们确实匹配,选项a中可用于整合后的记录的数据质量仍然不足。选项b(608)使用参考源来创建复合体。来自银行账户和住房贷款的数据记录可以使用传递性质与参考源进行匹配,如参考图5所述,并且可以为整合后的记录提供优越的数据质量。
55.如图所示,与银行账户相关联的第一数据记录的dq分数602总体上低于dq分数61 0和612。选项a dq分数610示出地址的dq分数从60(dq分数602)增加到80,因为来自银行账户的数据记录和来自住房贷款的数据记录具有相同的地址数据属性,但住房贷款数据库中
地址属性的dq分数高于银行账户数据库中的dq分数。因此,系统选择较高的dq分数数据属性。因此,该数据属性的数据质量提高,因为该数据属性至少具有一些确证。缺失的数据属性被分配为“0”分。
56.在选项b中,通过使用传递性质和至少一个参考源604,客户端数据可以被丰富,如dq分数612的增加所证明的。先前缺失的数据属性(例如,ssn和出生日期属性)的dq分数可以被增加,并最终由参考源数据集验证(分数为“100”)。在一些示例方面,参考源604可以是“通用的”参考集,如先前图6中所述。在一些方面,每个数据属性的参考源dq分数为“100”。
57.从整合平台的角度来看,数据记录的整合实际上是以令牌的形式进行。整合平台可从客户接收多个令牌化记录,并且整合平台可以比较令牌记录并提供来自相同客户数据源的数据整合选项。类似地,当来自客户的令牌记录与参考源令牌集进行比较和处理时,将在客户环境中支持数据丰富选项。换句话说,整合平台只是确定令牌记录中缺失的数据属性,并支持客户令牌记录的数据丰富,但丰富数据仅能在客户环境中发生,客户能够使用至少一个查找表或软件/算法来关联源记录并获取丰富的数据。
58.图7示出了如本文所述的实施用于整合和丰富数据的系统和方法的示例输入处理器。输入处理器700可以被嵌入在客户端设备(例如,客户端设备102,104,和/或106),远程网络服务器设备(例如,设备116,118,和/或120),和能够实施用于整合和丰富数据的系统和方法的其它设备中。输入处理系统包含一个或多个数据处理器,并且能够基于至少一个客户端源和/或参考源提供的处理数据来执行算法,软件例程,和/或指令。输入处理系统可以是出厂配置的系统,也可以是特定设备的附加单元。此外,输入处理系统可以是通用计算机或专门的专用计算机。对输入处理系统相对于客户端或远程网络服务器设备等的位置没有限制。根据图7所示的实施例,所公开的系统可以包括存储器705,一个或多个处理器710,通信模块715,传递匹配模块720,数据整合视图模块725,和评分模块730。本技术的其它实施例可以包括这些模块和组件中的部分,全部,或没有这些模块和组件,以及其它模块,应用,数据,和/或组件。然而,一些实施例可以将这些模块和组件中的两个或更多个合并到一个模块中和/或将这些模块中的一个或多个的一部分功能与不同的模块相关联。
59.存储器705可以存储用于在处理器710上运行一个或多个应用或模块的指令。例如,存储器705可用于一个或多个实施例中,以容纳执行传递匹配模块720,数据整合视图模块725,和/或评分模块730,以及通信模块715的功能所需的全部或部分指令。通常,存储器705可以包括用于存储信息的任何设备,机制,或填充的数据结构。根据本公开的一些实施例,存储器705可以包括但不限于任何类型的易失性存储器,非易失性存储器,和动态存储器。例如,存储器705可以是随机存取存储器,存储器存储设备,光存储器设备,磁性介质,软盘,磁带,硬盘驱动器,simm,sdram,rdram,ddr,ram,sodimm,eprom,eeprom,光盘,dvd,和/或类似物。根据一些实施例,存储器705可以包括一个或多个磁盘驱动器,闪存驱动器,一个或多个数据库,一个或多个表,一个或多个文件,本地缓存存储器,处理器缓存存储器,关系数据库,平面数据库(flat databases),和/或类似物。此外,本领域普通技术人员将理解用于存储信息的许多附加设备和技术可用作存储器705。
60.通信模块715与发送/接收信息相关联(例如,通过传递匹配模块720进行匹配,经由数据整合视图725进行整合,和/或经由评分模块730分配dq和/或价值分数),经由客户端设备或服务器设备,其它客户端设备,远程网络服务器等接收命令。这些通信可以采用任何
适合的技术类型,例如蓝牙,wifi,wimax,蜂窝(例如5g),单跳通信,多跳通信,专用短程通信(dsrc),或专有通信协议。在一些实施例中,通信模块715将传递匹配模块720(例如,匹配数据集),数据整合视图模块725(例如,属性级别的整合视图,例如表,该表以记录编号作为行以及在列标签中的属性填入0和1以强调记录中某些属性的存在和/或不存在),和/或评分模块730(例如,与特定数据属性相关联的dq分数,与特定数据记录相关联的价值分数)输出的信息发送给客户端设备102,104,和/或106,以及存储器705存储以供将来使用。在一些示例中,通信模块可以通过使用restful服务的安全rest服务器在http协议上构建。
61.传递匹配模块720被配置为接收至少两组数据,例如数据集a和数据集b。模块720还可以接收和维护参考数据集(例如,参考源数据集,通用参考集等)。模块720可以被配置为将数据集a与参考数据集进行比较,并将数据集b与参考数据集进行比较。比较分析可以揭示数据集a与参考数据集充分匹配,数据集b与参考数据集充分匹配。如果数据集a与参考数据集匹配,数据集b与参考数据集匹配,则数据集a经由传递性质与数据集b匹配。传递匹配模块720还可以接受一个数据记录并将该数据记录与来自由传递匹配模块720维护的至少一个数据集的数据记录进行比较。传递匹配模块720还被配置为在令牌上执行传递匹配分析。换句话说,至少可以有两个令牌集与参考源令牌集进行比较,如果令牌集a与参考令牌集匹配,令牌集b与参考令牌集匹配,则令牌集a经由传递性质与令牌集b匹配。
62.数据整合视图模块725被配置为在属性级别显示整合数据的视图。例如,数据整合视图可以是在每一行设置记录编号并在每一列中设置属性的表(反之亦可)。该表可以用0和1填充,反映某些记录中某些属性的存在或不存在。模块725被配置为接收用于匹配的至少两个不同的令牌化数据集,并使用位图来创建一个复合潜在数据视图。模块725可以经由通信模块715从不同的数据源(例如,来自客户和/或参考源的不同数据库)接收令牌化数据集。
63.评分模块730被配置为分析数据属性列并将数据质量(“dq”)分数分配给该数据属性。评分模块730还被配置为分析整个记录及其汇总的dq分数,并为该记录分配价值分数。如前所述,数据记录的汇编(compilation)可各表示相同的出生日期数据属性的值。因此,出生日期数据属性列会由于该列中没有缺失值并且该列中的值都相同而获得高dq分数。相对地,由于在没有差异的情况下不能确证数据属性质量,具有缺失(或空白)值和/或不同值的数据属性列会获得较低的dq分数。如前所述,参考源数据属性尽管缺失数据属性也可获得较高的dq分数,因为该数据属性的源(例如,政府实体,信用局,银行等)的可靠性已经被验证。
64.图8示出了可在其中实施本实施例中的一个或多个实施例的适合的操作环境的一个示例。这只是适合的操作环境的一个示例,并不旨在对使用范围或功能有任何限制。可适用的其他众所周知的计算系统,环境,和/或配置包括但不限于个人计算机,服务器计算机,手持或膝上型设备,多处理器系统,基于微处理器的系统,可编程消费电子产品(例如智能手机),网络pc,小型计算机,大型计算机,包括上述任何系统或设备的分布式计算环境,等等。
65.在其最基本的配置中,操作环境800通常包括至少一个处理单元802和存储器804。根据计算设备的确切配置和类型,存储器804(存储与检测到的设备相关的信息,关联信息,个人网关设置,以及执行本文公开的方法的指令,等等)可以是易失性的(例如ram),非易失
性的(例如rom,闪存等),或两者的某种组合。这种最基本的配置在图8中由虚线806所示。此外,环境800还可以包括存储设备(可拆卸的,808,和/或不可拆卸的,810),包括但不限于磁盘或光盘或磁带。类似地,环境800还可以具有输入设备814,例如键盘,鼠标,笔,语音输入等,和/或输出设备816,例如显示器,扬声器,打印机等。环境中还可以包括一个或多个通信连接,812,例如lan,wan,点对点等。
66.操作环境800通常包括至少某种形式的计算机可读介质。计算机可读介质可以是可由处理单元802或包括操作环境的其它设备访问的任何可用介质。作为示例,而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实施的用于存储例如计算机可读指令,数据结构,程序模块或其它数据的信息的易失性和非易失性,可拆卸和不可拆卸介质。计算机存储介质包括,ram,rom,eeprom,闪存或其它存储器技术,cd-rom,数字多功能磁盘(dvd)或其它光存储,磁带盒,磁带,磁盘存储或其它磁性存储设备,或任何其他可用于存储所需信息的有形介质。计算机存储介质不包括通信介质。
67.通信介质体现了非暂时性计算机可读指令,数据结构,程序模块,或其它数据。计算机可读指令可以在例如载波或其它传输机制的调制数据信号中传输,并且包括任何信息递送介质。术语“调制数据信号”是指以对信号中的信息进行编码的方式设置或更改其一个或多个特性的信号。作为示例,而非限制,通信介质包括有线介质例如有线网络或直接有线连接,以及无线介质例如声学,rf,红外和其它无线介质。上述任何项的组合也应被包括在计算机可读介质的范围内。
68.操作环境800可以是使用逻辑连接连到一个或多个远程计算机的在网络环境中操作的一个计算机。远程计算机可以是个人计算机,服务器,路由器,网络pc,对等设备或其它公共网络节点,并且通常包括许多或所有上述元素以及未如此提及的其它元素。逻辑连接可以包括可用通信介质支持的任何方法。这种网络环境常位于办公室,企业范围的计算机网络,内部网和因特网中。
69.例如,上文参照框图和/或根据本公开的多个方面的方法,系统,和计算机程序产品的操作图示描述了本公开的多个方面。块中标注的功能/动作可以不按任何流程图所示的顺序发生。例如,连续显示的两个块事实上可以基本上并发执行,或者块有时可以以相反的顺序执行,具体取决于所涉及的功能/动作。
70.本技术中提供的一个或多个方面的描述和说明并不旨在以任何方式限制或约束所要求保护的本公开的范围。本技术中提供的多个方面,示例,和细节被认为足以传达对其的拥有,并使其他人能够制作和使用所要求保护的公开的最佳模式。要求保护的公开不应被解释为仅限于本技术中提供的任何方面,示例,或细节。无论是以组合或单独地显示和描述,多种特征(结构和方法)旨在选择性地被包括或被省略以产生具有特定特征集的实施例。在提供了本技术的描述和说明之后,本领域技术人员可以设想属于本技术所体现的一般发明构思的较宽泛的方面的精神内的变化,修改,和替代方面,而不偏离所要求保护的公开的较宽泛的范围。
71.综上所述,应当理解,为了说明的目的,本技术的具体实施例已在本文中描述,但可以在不偏离本技术范围的情况下进行多种修改。因此,除所附权利要求外,本技术不受限制。
技术特征:
1.一种用于丰富数据的系统,包括:存储器,其被配置为存储非暂时性计算机可读指令;和处理器,其与所述存储器通信耦接,其中所述处理器在执行所述非暂时性计算机可读指令时被配置为:分析与匹配对的第一记录相关联的第一位图,并分析与匹配对的第二记录相关联的第二位图,其中所述第二记录来自参考源令牌集;比较所述第一位图和所述第二位图;基于所述第一位图和所述第二位图的比较结果,从匹配对的所述第一记录中确定至少一个缺失的数据属性;和确定所述第二记录令牌集中与所述第一记录令牌集中的所述至少一个缺失的数据属性相对应的至少一个数据属性。2.如权利要求1所述的系统,其中所述第一匹配对包括至少两个令牌记录。3.如权利要求2所述的系统,所述系统还被配置为使来自所述第一匹配对的至少两个记录能够进行整合以产生至少一个复合体。4.如权利要求3所述的系统,其中所述复合体被分配至少一个数据质量分数和一个价值分数。5.如权利要求4所述的系统,其中所述至少一个数据质量分数被应用于数据属性。6.如权利要求5所述的系统,其中匹配令牌对中的所述第二记录包括多个参考源。7.如权利要求1所述的系统,其中所述参考源是以下中的至少一个:政府实体,信用局,和银行。8.如权利要求1所述的系统,其中在所述第一记录和所述第二记录的比较中使用至少一个令牌集。9.如权利要求2所述的系统,其中所述至少两个令牌记录经由传递匹配与所述第二令牌集匹配。10.如权利要求1所述的系统,其中所述参考源令牌集是通用参考令牌集,其中所述通用参考令牌集包括多个源令牌集。11.一种用于丰富数据的方法,包括:接收第一记录集,其中所述第一记录集为第一位图和第一令牌集的形式;接收第二记录集,其中所述第二记录集为第二位图和第二令牌集的形式;将所述第一位图和所述第二位图进行比较;基于匹配记录对的所述第一位图和所述第二位图的所述比较,确定所述第一位图中至少一个缺失的数据属性;和从至少一个参考源中确定所述至少一个缺失的数据属性。12.如权利要求11所述的方法,其中所述第一记录令牌集和所述第二记录令牌集用以下散列和/或加密算法中的至少一种进行屏蔽:散列消息认证码(hmac)协议,sha2512/256令牌,三重des,双鱼,河豚,高级加密标准(aes),idea加密算法,md5,和rsa。13.如权利要求12所述的方法,其中用相同的加密算法加密所述第一记录令牌集和所述第二记录令牌集。14.如权利要求11所述的方法,其中从至少一个参考源得到所述第二记录令牌集。
15.如权利要求14所述的方法,其中所述至少一个参考源是以下中的至少一个:政府,信用局,和银行。16.如权利要求11所述的方法,还包括:将来自第一记录的潜在数据属性视图与所述第二记录进行整合,其中所述整合基于包括位图的所述第一记录令牌集和包括位图的所述第二记录令牌集生成至少一个复合记录。17.如权利要求16所述的方法,其中基于传递匹配生成所述至少一个复合令牌集。18.如权利要求11所述的方法,其中从至少一个通用参考令牌集得到所述第二令牌集,其中从多个源令牌集得到所述至少一个通用参考令牌集。19.如权利要求11所述的方法,其中至少一个数据质量分数被分配给所述第一位图和所述第二位图中的至少一个数据属性。20.一种计算机可读介质,其存储有非暂时性计算机可执行指令,该指令在被执行时使计算系统执行用于丰富数据的方法,该方法包括:接收客户位图,其中所述客户位图与至少一个客户记录相关联;接收参考源位图;将所述客户位图与所述参考源位图进行比较;确定所述客户位图的记录中具有比特位0的至少一个数据属性,并确定所述参考源位图的记录中具有比特位1的相应数据属性;和向客户表示所述参考源拥有所述至少一个客户记录中缺失的至少一个数据属性。
技术总结
本公开内容涉及用于丰富数据的系统和方法。具体地,所公开的系统和方法经由匹配,确定复合记录和利用参考源数据集来支持数据丰富。在一个示例方面,客户数据被令牌化,然后被传送到第三方整合平台。客户令牌可以包括多个令牌记录,其中多个令牌记录以位图的形式显示。位图可以表示客户记录中的哪些属性存在或不存在。然后,可以将复合的客户令牌记录与参考源令牌集进行匹配,其中匹配分析可确定客户令牌集中客户已经拥有或尚未拥有的缺失数据属性。可以基于参考源令牌集在客户环境中填充和/或更新缺失的数据属性。在其他示例方面,可以为每个数据属性分配数据质量分数。以为每个数据属性分配数据质量分数。以为每个数据属性分配数据质量分数。
技术研发人员:萨蒂恩德
受保护的技术使用者:科里布拉比利时股份有限公司
技术研发日:2021.11.22
技术公布日:2023/9/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/