多源数据合并处理方法、装置、系统以及相关设备与流程

未命名 10-18 阅读:38 评论:0


1.本公开涉及大数据技术领域,尤其涉及一种多源数据合并处理方法、装置、系统以及相关设备。


背景技术:

2.数据是企业和组织发展的新动力。核心数据作为组织的资产之一,具有高共享性和重要性,对于业务协同和决策具有至关重要的作用。随着云迁移、微服务和边缘计算等技术的发展,组织或公司内的数据变得越来越分散。管理数据对于任何组织在数字世界中生存、竞争和发展至关重要。面对分散数据时,从多个数据源获取数据进行数据加工、合并、可能会面临对于同一条记录来自不同数据源,数据记录存在差异的问题。
3.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

4.本公开提供一种多源数据合并处理方法、装置、系统以及相关设备,至少在一定程度上克服相关技术中同一条记录来自不同数据源,导致数据记录存在差异的问题,并且能够对来自多个数据源的数据进行备份或记录高质量字段的数据。
5.本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
6.根据本公开的一个方面,提供了一种多源数据合并处理方法,包括:获取具有相同数据字段的多个数据源提供的数据信息,其中,每个数据源中包含:一个或多个数据字段;对目标数据字段在每个数据源中的数据内容进行动态评估,得到所述目标数据字段在每个数据源中对应的质量评估得分,其中,所述目标数据字段为所述多个数据源中相同的数据字段;根据所述目标数据字段在每个数据源中对应的质量评估得分,对所述多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源。
7.在本公开的一些示例性实施例中,基于前述方案,在对所述目标数据字段在每个数据源中的数据内容进行动态评估,得到所述目标数据字段在每个数据源中对应的质量评估得分之后,所述方法还包括:根据所述目标数据字段在每个数据源中对应的质量评估得分,生成数据源信用目录表,所述数据源信用目录表中包括:所述目标数据字段以及所述目标数据字段在每个数据源中对应的质量评估得分;其中,对所述目标数据字段在每个数据源中的数据内容进行动态评估,得到所述目标数据字段在每个数据源中对应的质量评估得分,包括:对所述目标数据字段在每个数据源中的数据内容进行动态评估;根据动态评估结果,更新所述数据源信用目录表。
8.在本公开的一些示例性实施例中,基于前述方案,对所述目标数据字段在每个数据源中的数据内容进行动态评估,得到所述目标数据字段在每个数据源中对应的质量评估得分,包括:获取预先配置的一个或多个评估指标;根据所述目标数据字段在每个数据源中
的数据内容,确定每个数据源中各个评估指标的指标值;对每个数据源中各个评估指标的指标值进行加权平均,得到所述目标数据字段在每个数据源中对应的质量评估得分。
9.在本公开的一些示例性实施例中,基于前述方案,根据所述目标数据字段在每个数据源中对应的质量评估得分,对所述多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源,包括:根据所述目标数据字段在每个数据源中对应的质量评估得分,将所述目标数据字段从大到小进行排序;将排序最前的所述目标数据字段对应的数据源中的数据内容进行合并。
10.在本公开的一些示例性实施例中,基于前述方案,在将排序最前的所述目标数据字段对应的数据源中的数据内容进行合并之后,所述方法还包括:根据合并后的数据内容更新所述数据源信用目录表。
11.在本公开的一些示例性实施例中,基于前述方案,在获取具有相同数据字段的多个数据源提供的数据信息之前,所述方法还包括:根据预设规则,判断各数据源提供的数据信息是否相同;若各数据源提供的数据信息在相同数据字段内存在不同的数据内容,则对各数据源进行数据增补,形成全量数据源。
12.根据本公开的另一个方面,还提供了一种多源数据合并处理装置,包括:数据获取模块,用于获取具有相同数据字段的多个数据源提供的数据信息,其中,每个数据源中包含:一个或多个数据字段;质量评估模块,用于对目标数据字段在每个数据源中的数据内容进行动态评估,得到所述目标数据字段在每个数据源中对应的质量评估得分,其中,所述目标数据字段为所述多个数据源中相同的数据字段;数据合并模块,用于根据所述目标数据字段在每个数据源中对应的质量评估得分,对所述多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源。
13.根据本公开的另一个方面,还提供了一种多源数据处理系统,包括:多源数据处理设备以及具有相同数据字段的多个数据源;所述多源数据处理设备,用于获取具有相同数据字段的多个数据源提供的数据信息;对多个数据源中相同的数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,其中,所述目标数据字段为所述多个数据源中相同的数据字段;根据所述目标数据字段在每个数据源中对应的质量评估得分,对所述多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源。
14.根据本公开的再一个方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一种多源数据合并处理方法。
15.根据本公开的又一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种多源数据合并处理方法。
16.本公开的实施例中提供的一种多源数据合并处理方法、装置、系统以及相关设备,首先,获取具有相同数据字段的多个包含一个或多个数据字段的数据源提供的数据信息;然后,对多个数据源中相同的数据字段在每个数据源中的数据内容进行动态评估,得到多个数据源中相同的数据字段在每个数据源中对应的质量评估得分;最后,根据多个数据源中相同的数据字段在每个数据源中对应的质量评估得分,对多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源。
17.相较于相关技术在面对分散数据时,从多个数据源获取数据进行数据加工、合并,可能会面临对于同一条记录来自不同数据源,导致数据记录存在差异的问题,而本公开实施例则会将多个数据源中相同的数据字段标记为目标数据字段,对目标数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,并根据获取到的质量评估得分,选择在每个数据源中质量评估得分最高的目标数据字段,最后根据质量评估得分最高的目标数据字段对多个数据源的数据内容进行合并处理,使得数据合并趋向于精准化,形成当前数据源下质量最高的数据备份,并在一定程度上保证合并数据的可信度。
18.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
19.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1示出本公开实施例中一种多源数据处理方法的应用系统架构示意图;
21.图2示出本公开实施例中一种多源数据处理方法示意图;
22.图3示出本公开实施例中一种目标数据字段质量评估方法示意图;
23.图4示出本公开实施例中另一种多源数据处理方法示意图;
24.图5示出本公开实施例中一种多源数据进行合并处理示意图;
25.图6示出本公开实施例中一种多源数据合并处理装置示意图;
26.图7示出本公开实施例中一种应用多源数据处理方法的电子设备示意图。
具体实施方式
27.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
28.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
29.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
30.图1示出了可以应用本公开实施例中多源数据处理方法的示例性应用系统架构示意图。如图1所示,该系统架构可以包括终端设备101、网络102和多源数据处理设备103。
31.网络102用以在终端设备101和多源数据处理设备103之间提供通信链路的介质,可以是有线网络,也可以是无线网络。
32.可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(local area network,lan)、城域网(metropolitan area network,man)、广域网(wide area network,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(hyper text mark-up language,html)、可扩展标记语言(extensible markuplanguage,xml)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(secure socket layer,ssl)、传输层安全(transport layer security,tls)、虚拟专用网络(virtual private network,vpn)、网际协议安全(internet protocolsecurity,ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
33.终端设备101可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、增强现实设备、虚拟现实设备等。
34.可选地,不同的终端设备101中安装的应用程序的客户端是相同的,或基于不同操作系统的同一类型应用程序的客户端。基于终端平台的不同,该应用程序的客户端的具体形态也可以不同,比如,该应用程序客户端可以是手机客户端、pc客户端等。
35.多源数据处理设备103可以是提供各种服务的服务器,例如对用户利用终端设备101所进行操作的装置提供支持的后台数据管理处理器。后台数据管理处理器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
36.可选地,多源数据处理设备也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
37.本领域技术人员可以知晓,图1中的终端设备、网络和多源数据处理设备的数量仅仅是示意性的,根据实际需要,可以具有任意数目的终端设备、网络和服务器。本公开实施例对此不作限定。
38.在上述系统架构下,本公开实施例中提供了一种多源数据处理方法,该方法可以由任意具备计算处理能力的电子设备执行。
39.具体地,多源数据处理设备,用于获取具有相同数据字段的多个数据源提供的数据信息;对多个数据源中相同的数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,其中,目标数据字段为多个数据源中相同的数据字段;根据目标数据字段在每个数据源中对应的质量评估得分,对多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源;然后将合并后的数据内容通过网络发送至终端。
40.下面,将结合附图及实施例对本示例实施方式中的多源数据处理的各个步骤进行更详细的说明。
41.首先,本公开实施例中提供了一种可以应用但不限于多源数据处理方法,相关技术在面对分散数据时会从多个数据源获取数据进行数据加工、合并,可能会面临对于同一条记录来自不同数据源,需要按照一定的规则进行判断合并等操作,而本公开实施例提出了一种多源数据处理方法,可以对来自多数据源的数据进行处理合并,使得数据合并趋向于精准化,形成当前数据源下质量最高的数据备份,并在一定程度上保证合并数据的可信度,纳管范围和质量,避免了现有技术中数据记录存在差异的问题。
42.图2示出本公开实施例中一种多源数据处理方法示意图,如图2所示,本公开实施例中提供的多源数据处理,该方法包括如下步骤:
43.s201,获取具有相同数据字段的多个数据源提供的数据信息,其中,每个数据源中包含:一个或多个数据字段。
44.在一些实施例中,本公开实施例中的每个数据源中包含一个或多个数据字段,而多个数据中可能会存在相同的数据字段,例如,在数据源1中包括姓名字段、性别字段以及年龄字段,在数据源2中包括姓名字段、性别字段,在数据源3中包括姓名字段、性别字段以及工号字段,上述姓名字段、性别字段、年龄字段以及工号字段为各数据源中的数据字段,根据上述数据字段,可以看出数据源1、数据源2以及数据源3均包括姓名字段和性别字段。
45.s202,对目标数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,其中,目标数据字段为多个数据源中相同的数据字段。
46.在一些实施例中,本公开实施例中的目标数据字段为获取到的多个数据源中相同的数据字段,目标数据字段可以是一个数据字段也可以是多个数据字段,例如,在数据源1、数据源2以及数据源3均包括姓名字段和性别字段,那么目标数据字段包括姓名字段和性别字段,对姓名字段和性别字段在每个数据源中的数据内容进行动态评估,进而得到姓名字段和性别字段在每个数据源中对应的质量评估得分,例如,对姓名字段进行动态评估,得到姓名字段在数据源1中的质量评估得分为90,姓名字段在数据源2中的质量评估得分为88,姓名字段在数据源3中的质量评估得分为76。
47.s203,根据目标数据字段在每个数据源中对应的质量评估得分,对多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源。
48.在一些实施例中,本公开实施例对多个数据源据都包括的目标数据字段进行动态评估,并根据目标数据字段在每个数据源中对应的质量评估得分,进行数据内容合并,例如,多个数据源中均包括:姓名字段和性别字段,对姓名字段和性别字段在每个数据源中的数据内容进行动态评估,进而得到姓名字段和性别字段在每个数据源中对应的质量评估得分,假设,对姓名字段进行动态评估,得到姓名字段在数据源1中的质量评估得分为90分,姓名字段在数据源2中的质量评估得分为88分,姓名字段在数据源3中的质量评估得分为76分,对性别字段进行动态评估,得到性别字段在数据源1中的质量评估得分为80分,性别字段在数据源2中的质量评估得分为85分,性别字段在数据源3中的质量评估得分为83分,则选取数据源1中姓名字段和数据源2中的性别字段进行合并处理。
49.本公开的实施例中提供的一种多源数据合并处理方法,首先,获取具有相同数据字段的多个包含一个或多个数据字段的数据源提供的数据信息;然后,对多个数据源中相同的数据字段在每个数据源中的数据内容进行动态评估,得到多个数据源中相同的数据字
段在每个数据源中对应的质量评估得分;最后,根据多个数据源中相同的数据字段在每个数据源中对应的质量评估得分,对多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源,相较于相关技术在面对分散数据时,从多个数据源获取数据进行数据加工、合并,可能会面临对于同一条记录来自不同数据源,导致数据记录存在差异的问题,而本公开实施例则会将多个数据源中相同的数据字段标记为目标数据字段,对目标数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,并根据获取到的质量评估得分,选择在每个数据源中质量评估得分最高的目标数据字段,最后根据质量评估得分最高的目标数据字段对多个数据源的数据内容进行合并处理,使得数据合并趋向于精准化,形成当前数据源下质量最高的数据备份,并在一定程度上保证合并数据的可信度。
50.在一些实施例中,在对目标数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分之后,该方法还包括:根据目标数据字段在每个数据源中对应的质量评估得分,生成数据源信用目录表,数据源信用目录表中包括:目标数据字段以及目标数据字段在每个数据源中对应的质量评估得分;其中,对目标数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,包括:对目标数据字段在每个数据源中的数据内容进行动态评估;根据动态评估结果,更新数据源信用目录表。
51.在一些实施例中,本公开实施例通过数据源信用目录表可以对数据源数据的质量和可靠性进行评估和排名,从而减少数据采集方采集到低质量数据的可能性,提高了数据的准确性和可靠性。同时也可以进行数据质量显性化,并且,在数据采集和使用过程中,会出现数据采集方和数据源之间联系不紧密的问题,而本公开实施例根据目标数据字段在每个数据源中的数据内容的质量评估得分,可以确定质量评估得分最高的目标数据字段质量相对于其他数据源中的数据内容质量更好,根据质量评估得分最高的目标数据字段更新数据源信用目录表,不仅可以有效进行质量排名的显性化,还可以动态调整数据源可信度。
52.在一些实施例中,对目标数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,包括:获取预先配置的一个或多个评估指标;根据目标数据字段在每个数据源中的数据内容,确定每个数据源中各个评估指标的指标值;对每个数据源中各个评估指标的指标值进行加权平均,得到目标数据字段在每个数据源中对应的质量评估得分。
53.在一些实施例中,如图3所示,本公开实施例对目标数据字段进行质量评估,具体包括如下步骤:
54.s301:基于预设划分方法,划分数据字段,以得到若干数据字段中的数据内容。
55.s302:基于预设的第一物理表中的字段,对数据字段进行准确性评估,得到准确性评估结果。
56.s303:基于预设的第二物理表和预设的第一物理表中的数据项,对数据字段进行一致性评估,得到一致性评估结果。
57.s304:基于预设的第一物理表中字段的数量和预设的第一物理表中字段在数据标准中的对应的规则数量,得到数据字段的初始质量评估结果。
58.s305:基于准确性评估结果、一致性评估结果和初始质量评估结果,得到数据字段
的质量评估结果。
59.在一些实施例中,根据目标数据字段在每个数据源中对应的质量评估得分,对多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源,包括:根据目标数据字段在每个数据源中对应的质量评估得分,将目标数据字段从大到小进行排序;将排序最前的目标数据字段对应的数据源中的数据内容进行合并。
60.具体地,本公开实施例中对目标数据字段从大到小进行排序,形成由目标数据字段组成的数据源信用目录表,例如,姓名字段在数据源1中的质量评估得分为90,姓名字段在数据源2中的质量评估得分为88,姓名字段在数据源3中的质量评估得分为76,性别字段在数据源1中的质量评估得分为80,性别字段在数据源2中的质量评估得分为85,性别字段在数据源3中的质量评估得分为83,根据上述4个目标数据字段的质量评估得分,由大到小进行排序,数据源1中的姓名字段大于数据源2中的姓名字段大于数据源3中的姓名字段,数据源2中的性别字段大于数据源3中的性别字段大于数据源1中的性别字段,选择相同字段下质量评估得分最大的目标字段数据,以便选择最优的数据源的字段进行纳管,也就是选择数据源1中的姓名字段和数据源2中的性别字段进行合并处理。
61.在一些实施例中,在将排序最前的目标数据字段对应的数据源中的数据内容进行合并之后,该方法还包括:根据合并后的数据内容更新数据源信用目录表。
62.在一些实施例中,如图4所示,本公开实施例接收数据采集方的请求信息,根据数据源信用目录表,获取目标数据字段在每个数据源中对应的质量评估得分,选取质量评估得分最高的目标数据字段,供数据采集方使用,在数据采集方使用后,对目标字段数据进行评估,并根据评估结果更新数据源信用目录表,也就是说,本公开实施例将合并后的数据内容更新数据源信用目录表,形成实时反馈更新的数据机制,将数据采集方与数据源之间的形成紧密联系,实现对数据质量的实时监测和反馈并且进行数据质量排名与质量可视化,这种实时反馈更新的数据机制可以及时发现和修复数据质量问题,提高数据的准确性和可靠性,增强了数据的实用性和先进性。确保数据采集方的实际运营更加贴近生产需求,提高系统的使用价值和效果。同时也可以在一定程度上提高准确性评价结果,提升数据质量。
63.在一些实施例中,在获取具有相同数据字段的多个数据源提供的数据信息之前,该方法还包括:根据预设规则,判断各数据源提供的数据信息是否相同;若各数据源提供的数据信息在相同数据字段内存在不同的数据内容,则对各数据源进行数据增补,形成全量数据源。
64.在一些实施例中,如图5所示,本公开实施例对多源数据进行合并处理的具体包括如下步骤:。
65.s501,进行数据级增补填充,由数据采集方进行审核,对行进行补缺,形成全量数据源。
66.s502,按数据源信用目录进行字段级抽取重建,具体包括:
67.s5021,优先比对数据源信用目录表中质量评估得分最高的数据源对应下的数据字段进行填充;
68.s5022,比对数据源信用目录表中质量评估得分第二高的字段进行递补填充;
69.……
70.s502n,填充完毕(数据内容最全,质量最好)。
71.s503,采集方进行质量评估,评估结果直接作用于数据源信用目录表的更新,当前采纳字段质量评估得分低于原第二名时,进行字段递补更换填充。
72.s504,进行质量评估排名显性化。
73.基于同一发明构思,本公开实施例中还提供了一种多源数据合并处理装置,如下面的实施例。由于该装置实施例解决问题的原理与上述方法实施例相似,因此该装置实施例的实施可以参见上述方法实施例的实施,重复之处不再赘述。
74.图6示出本公开实施例中一种多源数据合并处理装置示意图,如图6所示,该装置包括:
75.数据获取模块601,用于获取具有相同数据字段的多个数据源提供的数据信息,其中,每个数据源中包含:一个或多个数据字段;
76.质量评估模块602,用于对目标数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,其中,目标数据字段为多个数据源中相同的数据字段;
77.数据合并模块603,用于根据目标数据字段在每个数据源中对应的质量评估得分,对多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源。
78.本公开的实施例中提供的多源数据合并处理装置,通过数据获取模块,获取具有相同数据字段的多个包含一个或多个数据字段的数据源提供的数据信息;通过质量评估模块,对多个数据源中相同的数据字段在每个数据源中的数据内容进行动态评估,得到多个数据源中相同的数据字段在每个数据源中对应的质量评估得分;通过数据合并模块,根据多个数据源中相同的数据字段在每个数据源中对应的质量评估得分,对多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源。
79.相较于相关技术在面对分散数据时,从多个数据源获取数据进行数据加工、合并,可能会面临对于同一条记录来自不同数据源,导致数据记录存在差异的问题,而本公开实施例则会将多个数据源中相同的数据字段标记为目标数据字段,对目标数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,并根据获取到的质量评估得分,选择在每个数据源中质量评估得分最高的目标数据字段,最后根据质量评估得分最高的目标数据字段对多个数据源的数据内容进行合并处理,使得数据合并趋向于精准化,形成当前数据源下质量最高的数据备份,并在一定程度上保证合并数据的可信度。
80.在一些实施例中,在对目标数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分之后,该装置还包括:数据源信用目录表生成模块,用于根据目标数据字段在每个数据源中对应的质量评估得分,生成数据源信用目录表,数据源信用目录表中包括:目标数据字段以及目标数据字段在每个数据源中对应的质量评估得分,其中,数据源信用目录表生成模块,还用于对目标数据字段在每个数据源中的数据内容进行动态评估;根据动态评估结果,更新数据源信用目录表。
81.在一些实施例中,本公开实施例中的质量评估模块,还用于获取预先配置的一个或多个评估指标;根据目标数据字段在每个数据源中的数据内容,确定每个数据源中各个评估指标的指标值;对每个数据源中各个评估指标的指标值进行加权平均,得到目标数据
字段在每个数据源中对应的质量评估得分。
82.在一些实施例中,本公开实施例中的数据合并模块,还用于根据目标数据字段在每个数据源中对应的质量评估得分,将目标数据字段从大到小进行排序;将排序最前的目标数据字段对应的数据源中的数据内容进行合并。
83.在一些实施例中,在将排序最前的目标数据字段对应的数据源中的数据内容进行合并之后,本公开实施例中的多源数据合并处理装置还包括:数据源信用目录表更新模块,用于根据合并后的数据内容更新数据源信用目录表。
84.在一些实施例中,在获取具有相同数据字段的多个数据源提供的数据信息之前,本公开实施例中的多源数据合并处理装置还包括:数据判断模块,用于根据预设规则,判断各数据源提供的数据信息是否相同;数据增补模块,用于在各数据源提供的数据信息在相同数据字段内存在不同的数据内容的情况下,对各数据源进行数据增补,形成全量数据源。
85.在一些实施例中,本公开实施例还提供了一种多源数据合并处理系统,该系统包括:多源数据处理设备以及具有相同数据字段的多个数据源;多源数据处理设备,用于获取具有相同数据字段的多个数据源提供的数据信息;对多个数据源中相同的数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,其中,目标数据字段为多个数据源中相同的数据字段;根据目标数据字段在每个数据源中对应的质量评估得分,对多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源。
86.更为详细地,相较于相关技术在面对分散数据时,从多个数据源获取数据进行数据加工、合并,可能会面临对于同一条记录来自不同数据源,导致数据记录存在差异的问题,本公开实施例中的多源数据处理系统则会将多个数据源中相同的数据字段标记为目标数据字段,对目标数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,并根据获取到的质量评估得分,选择在每个数据源中质量评估得分最高的目标数据字段,最后根据质量评估得分最高的目标数据字段对多个数据源的数据内容进行合并处理,使得数据合并趋向于精准化,形成当前数据源下质量最高的数据备份,并在一定程度上保证合并数据的可信度。
87.所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
88.下面参照图7来描述根据本公开的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
89.如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:上述至少一个处理单元701、上述至少一个存储单元702、连接不同系统组件(包括存储单元702和处理单元701)的总线703。
90.其中,存储单元存储有程序代码,程序代码可以被处理单元701执行,使得处理单元701执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
91.在一些实施例中,当电子设备用于控制例如本公开上述基于知识图谱的问答方法
时,处理单元701可以执行上述方法实施例的如下步骤:
92.获取具有相同数据字段的多个数据源提供的数据信息,其中,每个数据源中包含:一个或多个数据字段。
93.对目标数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,其中,目标数据字段为多个数据源中相同的数据字段。
94.根据目标数据字段在每个数据源中对应的质量评估得分,对多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源。
95.存储单元702可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)7021和/或高速缓存存储单元7022,还可以进一步包括只读存储单元(rom)7023。
96.存储单元702还可以包括具有一组(至少一个)程序模块7025的程序/实用工具7024,这样的程序模块7025包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
97.总线703可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
98.电子设备700也可以与一个或多个外部设备704(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口705进行。并且,电子设备700还可以通过网络适配器706与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器706通过总线703与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
99.通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
100.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机程序产品,该计算机程序产品包括:计算机程序,计算机程序被处理器执行时实现上述多源数据合并处理方法。
101.在本公开的示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质可以是可读信号介质或者可读存储介质。其上存储有能够实现本公开上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
102.本公开中的计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或
多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
103.在本公开中,计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
104.可选地,计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
105.在具体实施时,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
106.应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
107.此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
108.通过以上实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
109.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

技术特征:
1.一种多源数据合并处理方法,其特征在于,包括:获取具有相同数据字段的多个数据源提供的数据信息,其中,每个数据源中包含:一个或多个数据字段;对目标数据字段在每个数据源中的数据内容进行动态评估,得到所述目标数据字段在每个数据源中对应的质量评估得分,其中,所述目标数据字段为所述多个数据源中相同的数据字段;根据所述目标数据字段在每个数据源中对应的质量评估得分,对所述多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源。2.根据权利要求1所述的多源数据合并处理方法,其特征在于,在对所述目标数据字段在每个数据源中的数据内容进行动态评估,得到所述目标数据字段在每个数据源中对应的质量评估得分之后,所述方法还包括:根据所述目标数据字段在每个数据源中对应的质量评估得分,生成数据源信用目录表,所述数据源信用目录表中包括:所述目标数据字段以及所述目标数据字段在每个数据源中对应的质量评估得分;其中,对所述目标数据字段在每个数据源中的数据内容进行动态评估,得到所述目标数据字段在每个数据源中对应的质量评估得分,包括:对所述目标数据字段在每个数据源中的数据内容进行动态评估;根据动态评估结果,更新所述数据源信用目录表。3.根据权利要求1所述的多源数据合并处理方法,其特征在于,对所述目标数据字段在每个数据源中的数据内容进行动态评估,得到所述目标数据字段在每个数据源中对应的质量评估得分,包括:获取预先配置的一个或多个评估指标;根据所述目标数据字段在每个数据源中的数据内容,确定每个数据源中各个评估指标的指标值;对每个数据源中各个评估指标的指标值进行加权平均,得到所述目标数据字段在每个数据源中对应的质量评估得分。4.根据权利要求1所述的多源数据合并处理方法,其特征在于,根据所述目标数据字段在每个数据源中对应的质量评估得分,对所述多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源,包括:根据所述目标数据字段在每个数据源中对应的质量评估得分,将所述目标数据字段从大到小进行排序;将排序最前的所述目标数据字段对应的数据源中的数据内容进行合并。5.根据权利要求2所述的多源数据合并处理方法,其特征在于,在将排序最前的所述目标数据字段对应的数据源中的数据内容进行合并之后,所述方法还包括:根据合并后的数据内容更新所述数据源信用目录表。6.根据权利要求1所述的多源数据合并处理方法,其特征在于,在获取具有相同数据字段的多个数据源提供的数据信息之前,所述方法还包括:根据预设规则,判断各数据源提供的数据信息是否相同;若各数据源提供的数据信息在相同数据字段内存在不同的数据内容,则对各数据源进行数据增补,形成全量数据源。
7.一种多源数据合并处理装置,其特征在于,包括:数据获取模块,用于获取具有相同数据字段的多个数据源提供的数据信息,其中,每个数据源中包含:一个或多个数据字段;质量评估模块,用于对目标数据字段在每个数据源中的数据内容进行动态评估,得到所述目标数据字段在每个数据源中对应的质量评估得分,其中,所述目标数据字段为所述多个数据源中相同的数据字段;数据合并模块,用于根据所述目标数据字段在每个数据源中对应的质量评估得分,对所述多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源。8.一种多源数据处理系统,包括:多源数据处理设备以及具有相同数据字段的多个数据源;所述多源数据处理设备,用于获取具有相同数据字段的多个数据源提供的数据信息;对多个数据源中相同的数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,其中,所述目标数据字段为所述多个数据源中相同的数据字段;根据所述目标数据字段在每个数据源中对应的质量评估得分,对所述多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源。9.一种电子设备,其特征在于,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~6任意一项所述的多源数据合并处理方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~6任意一项所述的多源数据合并处理方法。

技术总结
本公开提供了一种多源数据合并处理方法、装置、系统以及相关设备,涉及大数据技术领域。该方法包括:获取具有相同数据字段的多个数据源提供的数据信息,其中,每个数据源中包含:一个或多个数据字段;对目标数据字段在每个数据源中的数据内容进行动态评估,得到目标数据字段在每个数据源中对应的质量评估得分,其中,目标数据字段为多个数据源中相同的数据字段;根据目标数据字段在每个数据源中对应的质量评估得分,对多个数据源的数据内容进行合并,以使合并后的数据内容来自质量评估得分最高的数据源。本公开能够对来自多个数据源的数据进行备份或记录高质量字段的数据。进行备份或记录高质量字段的数据。进行备份或记录高质量字段的数据。


技术研发人员:郝猛 付斌 王海鑫 马晓乾 苏更殊
受保护的技术使用者:中国电信股份有限公司
技术研发日:2023.07.14
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐