一种数据质量评估方法、设备及介质与流程
未命名
10-08
阅读:105
评论:0

1.本技术涉及计算机领域,具体涉及一种数据质量评估方法、设备及介质。
背景技术:
2.作为重要的信息载体,数据是一种生产要素和重要的生产力,是社会经济发展的基石,是现代社会的基础性资源和战略性资源,广泛应用于零售、电信、制造、农业、金融、农业等众多行业,产生了巨大的社会价值和产业潜力。其实际应用价值主要体现在两个重要方面:一方面,数据不仅可以帮助企业分析市场及其发展趋势用于提高企业的创新能力和核心竞争力;另一方面,还可以帮助监管部门监管和决策用于提高监管部门的服务质量和效率。
3.然而,很多实际情况下会存在数据不完整、数据不一致、元数据缺失、数据类型不准确、数据格式不标准、数据取值不合理、数据重复或多余、数据失效等数据质量问题。这些问题的存在将极大影响数据中蕴含信息的可靠性,从而影响数据的实际价值。因此,需要对数据质量问题进行评估分析。
技术实现要素:
4.为了解决上述问题,本技术提出了一种数据质量评估方法,包括:
5.基于预设的多个评估维度,建立数据质量评估指标体系,每个所述评估维度中包含多个评估指标;
6.获取待评估数据对应的待评估数据表和元数据表,并基于所述待评估数据表、所述元数据表的属性,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值;
7.确定所述待评估数据对应的评估指标权重矩阵和评估指标选取矩阵;
8.根据所述评估指标权重矩阵、所述评估指标选取矩阵、所述实测值,构建数据质量评估模型,以便根据所述数据质量评估模型对所述待评估数据进行数据质量评估。
9.另一方面,本技术还提出了一种数据质量评估设备,包括:
10.至少一个处理器;以及,
11.与所述至少一个处理器通信连接的存储器;其中,
12.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如:上述示例所述的数据质量评估方法。
13.另一方面,本技术还提出了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:上述示例所述的数据质量评估方法。
14.通过本技术提出数据质量评估方法能够带来如下有益效果:
15.通过建立系统全面的多维度、多指标质量评估指标体系,构建合理有效的质量评估分析模型实现对数据质量进行定量评估和分析,能够为数据开发与使用提供针对性指导,为数据质量提高奠定基础。
附图说明
16.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
17.图1为本技术实施例中数据质量评估方法的流程示意图;
18.图2为本技术实施例中一种场景下,数据质量评估方法的示意图;
19.图3为本技术实施例中数据质量评估设备的示意图。
具体实施方式
20.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
21.以下结合附图,详细说明本技术各实施例提供的技术方案。
22.如图1所示,本技术实施例提供数据质量评估方法,包括:
23.s101:基于预设的多个评估维度,建立数据质量评估指标体系,每个所述评估维度中包含多个评估指标。
24.图2为本技术实施例中一种场景下,数据质量评估方法的示意图,以下结合图1和图2进行解释说明。
25.具体地,确定预设的多个评估维度,每个评估维度中包含多个评估指标。
26.进一步地,评估维度包括:完整性评估维度、有效性评估维度、唯一性评估维度以及一致性评估维度。针对完整性评估维度,其中的评估指标包括:数据非空值率、属性数据非空值率;针对有效性评估维度,其中的评估指标包括:数据类型有效率、数据格式有效率、数据取值有效率;针对唯一性评估维度,其中的评估指标包括:主键数据单一率、非主键数据单一率;针对一致性评估维度,其中的评估指标包括:数据等值一致率、数据逻辑一致率、数据存在一致率。数据质量评估指标体系可以如下表所示。
27.[0028][0029]
数据质量评估指标体系中的评估指标可按照探查范围是否需要额外设定分为两组:一组为基础评估指标,包括数据非空值率、属性数据非空值率、数据类型有效率等探查范围默认为整体数据的评估指标;另一组为待定评估指标,包括除基础评估指标之外探查范围需要根据数据本身特点选取设定的其它评估指标。基础评估指标是默认的、固定的评估指标,用于评估每个待评估数据表,待定评估指标则需要根据待评估数据表本身特点灵活选取使用。评估指标都是通过比值定义法给出的正向评估指标,取值于0至1之间的数值,其最终得到的对应的实测值是标准一致的,可在不进行标准化处理的情况下直接使用。
[0030]
在所构建的数据质量评估指标体系中,每个评估指标都较为合理地描述待评估数据在某些特定方面的质量问题。比如,手机号码、邮箱、邮编、ip地址、身份证号等具有格式规则约束的数据可使用数据格式有效率定量描述此类数据在格式规范方面的质量问题;性别、学历、等级分类、婚姻状况等枚举取值的数据以及身高、体重、分数、薪资等具有合理取值规律的数据可使用数据取值有效率定量描述上述此类数据在取值规范方面的质量问题;
总成绩与各单科成绩等具有计算依赖关联性的数据可使用数据等值一致率定量描述此类数据在计算关联一致方面的质量问题;年销量与月销量、pv与uv等具有逻辑依赖关联性的数据可使用数据逻辑一致率定量描述此类数据在逻辑关联一致方面的质量问题;身份证号与出生年月等具有匹配依赖关联性的数据可使用数据存在一致率定量描述此类数据在匹配关联一致方面的质量问题。
[0031]
s102:获取待评估数据对应的待评估数据表和元数据表,并基于所述待评估数据表、所述元数据表的属性,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值。
[0032]
具体地,获取待评估数据,并根据待评估数据生成待评估数据表。待评估数据可以从相应的系统获取。为能够基于数据质量评估指标体系实现对其中数据的定量评估和分析,还需通过自动采集数据源系统库中存储所创建数据库、表和字段信息的相关数据表和人工填写的方式确定记录待评估数据表相关元数据信息的元数据表,确定用于记录待评估数据表的元数据所组成的元数据表,元数据表包括表名、字段名、字段类型、字段长度、格式约束、取值约束、字段描述、业务定义、业务规则、创建时间、更新时间。根据待评估数据表的行数nr、字段数nc,以及元数据表的字段数nm,确定待评估数据在数据质量评估指标体系下,各评估指标对应的实测值。
[0033]
基于此,可设计待评估数据表对应各项评估指标的计算规则,通过计算规则可以计算得到各指标对应的实测值。
[0034]
数据非空值率计算规则:使用count(探查字段)函数获得待评估数据表中探查字段不为null或不为空字符的记录数,将每个探查字段对应所求记录数相加汇总得到总记录数计算数据非空值率对应的实测值
[0035]
属性数据非空值率计算规则:使用count(探查字段)函数获得元数据表中探查字段不为null或不为空字符的记录数,将每个探查字段对应所求记录数相加汇总得到总记录数计算属性数据非空值率对应的实测值
[0036]
数据类型有效率计算规则:基于对应类型独有的特性或特有运算操作设定相应筛选条件,以此条件对相应探查字段进行筛选并使用count(探查字段)函数获得符合条件的记录数,将每个探查字段对应所求记录数相加汇总得到总记录数计算数据类型有效率对应的实测值
[0037]
数据格式有效率计算规则:结合待评估数据表本身特点与元数据表设定待评估数据表中参与该指标探查的字段集合sf;基于探查字段对应的格式约束规则设定相应正则表达式作为筛选条件,以此条件对相应探查字段进行筛选并使用count(探查字段)函数获得符合条件的记录数,将每个探查字段对应所求记录数相加汇总得到总记录数计算数据格式有效率对应的实测值
[0038]
数据取值有效率计算规则:结合待评估数据表本身特点与元数据表设定待评估数
据表中参与该指标探查的字段集合sv;基于探查字段对应的取值约束规则或其它参考数据表中取值范围设定由比较不等式、in、between等操作的组合条件作为筛选条件,以此条件对相应探查字段进行筛选并使用count(探查字段)函数获得符合条件的记录数,将每个探查字段对应所求记录数相加汇总得到总记录数计算数据取值有效率对应的实测值
[0039]
主键数据单一率计算规则:使用count(distinct主键字段)函数获得待评估数据表中主键字段不为null或不为空字符的记录数计算主键数据单一率对应的实测值
[0040]
非主键数据单一率计算规则:根据待评估数据表本身特点设定参与该指标探查的字段集合s
np
;使用count(distinct探查字段)函数获得探查字段不为null或不为空字符的记录数,将每个探查字段对应所求记录数相加汇总得到总个数计算非主键数据单一率对应的实测值
[0041]
数据等值一致率计算规则:根据待评估数据表本身特点设定参与该指标探查的字段集合se和每个探查字段对应的关联字段集;使用count(探查字段-f(关联字段1,
…
,关联字段s))函数(其中f是基于探查字段与各关联字段的计算规则设定的运算表达式)获得待评估数据表中满足“探查字段-f(关联字段1,
…
,关联字段s)=0”的记录数,将每个探查字段对应所求记录数相加汇总得到总记录数计算数据等值一致率对应的实测值
[0042]
数据逻辑一致率计算规则:根据待评估数据表本身特点设定参与该指标探查的字段集合s
l
和每个探查字段对应的关联字段;使用count(探查字段-关联字段)函数获得待评估数据表中满足“探查字段-关联字段”大于或小于0的记录数,将每个探查字段对应所求记录数相加汇总得到总记录数计算数据逻辑一致率对应的实测值
[0043]
数据存在一致率计算规则:根据待评估数据表本身特点设定参与该指标探查的字段集合s
x
和每个探查字段对应的关联字段;设定基于匹配关系的正则表达式作为筛选条件,以此条件对相应探查字段进行筛选,使用count(探查字段)获得该探查字段符合条件的记录数,将每个探查字段对应所求记录数相加汇总得到总记录数计算数据存在一致率对应的实测值
[0044]
s103:确定所述待评估数据对应的评估指标权重矩阵和评估指标选取矩阵。
[0045]
为了实现对数据质量的评估分析,需要计算评估指标权重数据、待评估数据表指标选取数据、评估指标实测值(该实测值在上文已经通过计算规则获取)。
[0046]
评估指标权重数据用于刻画数据质量评估分析中各评估指标的相对重要程度,考虑使用评估指标权重矩阵w=(w
i,j
)4×3作为相关权重数据值的存储及后续计算的主体形式,其元素w
i,j
表示指标在维度di中对应的权重数据值,w
1,
和w
3,
恒为0,余下元素取值于区间(0,1)且每行元素之和为1。通过专业人员调研或打分,利用层次分析法可较为合理的确定
评估指标权重矩阵。
[0047]
待评估数据表指标选取数据用于标记数据质量评估分析中各评估指标的实际选取情况,考虑使用指标选取矩阵m=(m
i,j
)4×3作为相关指标选取标记值的存储及后续计算的主体形式,其元素m
i,j
表示指标选取标记值,该标记值是布尔值,只能取值为1或0,分别对应在对待评估数据表进行质量评估时考虑或不考虑指标这两种情况。
[0048]
基于评估指标的分组特点,评估指标选取矩阵基于数据质量评估指标体系所包含的评估指标不同而不同,可将评估模式设置为两类:仅使用基础评估指标对数据质量进行评估设置为基础评估模式;同时使用基础评估指标和待定评估指标对数据质量进行评估设置为设定评估模式。相应地,待评估数据表对应的指标选取矩阵m可取值为
[0049]
其中指标选取标记值b为布尔值,需要根据对应评估指标考虑与否设定相应取值。
[0050]
对于每个给定的待评估数据表,默认使用基础评估模式对其进行质量评估,此种情况便默认待评估数据表对应的指标选取矩阵m为m
basic
。在此基础上,也可结合元数据表根据待评估数据表本身特点选择设定评估模式对其进行更为细致详细的质量评估,此种情况待评估数据表对应的指标选取矩阵m为m
defined
,其中指标选取标记值b可根据该评估模式下使用的待定评估指标情况设定为1。
[0051]
评估指标实测数据是对待评估数据表和元数据表根据相应规则探查后各评估指标的实际数值。结合评估指标的计算规则,可确定基于sql的指标数据计算算法,其能够根据指标探查范围和对应指标约束规则实现对待评估数据表和元数据表的探查,获取相应的指标实测数据。
[0052]
对于每个给定的待评估数据表,若其评估模式默认为基础评估模式,便可直接使用对应的指标数据计算算法获得相应的指标实测数据,并同步至指标数据表;若其评估模式选择为设定评估模式,需要先指定所选待定评估指标的探查字段以及给出对应的约束规则,便可基于此使用对应的指标数据计算算法获得相应的指标实测数据,并同步至指标数据表。
[0053]
s104:根据所述评估指标权重矩阵、所述评估指标选取矩阵、所述实测值,构建数据质量评估模型,以便根据所述数据质量评估模型对所述待评估数据进行数据质量评估。
[0054]
对于涉及多维度、多指标的数据质量评估过程,基于评估指标权重矩阵、待评估数据表指标选取矩阵、指标数据表,使用加权平均法,给出如下数据质量评估分析模型。
[0055]
待评估数据表数据质量评分的计算公式为:
[0056][0057]
而维度di(=1,2,3,4)对数据质量的影响程度的计算公式为:
[0058][0059]
其中表示矩阵的哈达玛乘积(hadamard product),表示矩阵第i行第j列元素,表示维度di中对应指标的实测数据。
[0060]
数据质量评估分析模型可基于评估指标的各项相关数据实现对待评估数据表数据质量的评分,同时还可进一步实现对评估维度影响程度的衡量,不仅能够帮助了解数据质量的整体状况,还能够帮助定位数据质量问题。基于数据质量评估分析模型,对于每个给定的待评估数据表,将其对应的指标选取矩阵和指标实测数据代入模型可计算得到待评估数据表的质量评分和维度影响程度数据,并进一步将其同步至评估数据表。
[0061]
作为衡量数据质量和确定数据问题的重要途径以及反映数据资产价值的重要形式,数据质量评估分析就是基于多个评估维度和约束规则使用科学合理的评估方法对数据库或数据仓库中的数据进行定量评估分析,得到待评估数据的质量等级或评分以及质量分析状况。数据质量评估维度和约束规则需要根据待评估数据本身的特点和评估目标的侧重点进行选取,其中常用的评估维度有完整性、准确性、唯一性、有效性、一致性、及时性等,常用的约束规则有主键约束规则、唯一约束规则、取值约束规则、格式约束规则、类型约束规则、一致约束规则、非空约束规则等。
[0062]
数据质量评估分析是一项系统的、全面的工作,其实质是通过量化待评估数据在每个评估维度下所有与评估指标相关联约束规则的符合程度来确定数据质量的评分和状况,所包含的具体内容包括评估指标体系、评估分析模型、评估方法实现技术。通过对数据质量进行评估分析,可以获得数据质量状况,了解数据质量水平,确定数据质量问题,从而为各种数据使用与开发工作提供针对性的指导,为提高数据质量奠定基础,提高数据化建设成效。除此之外,随着人们对数据质量要求和数据价值侧重点的变化,数据质量评估能够满足更高层次的要求,更为看重数据质量评估分析方法的适用性和准确性,建立系统、全面、灵活的数据质量评估分析方法体系。
[0063]
如图3所示,本技术实施例还提供了一种数据质量评估设备,包括:
[0064]
至少一个处理器;以及,
[0065]
与所述至少一个处理器通信连接的存储器;其中,
[0066]
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如:上述任一实施例所述的数据质量评估方法。
[0067]
本技术实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:上述任一实施例所述的数据质量评估方法。
[0068]
本技术中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0069]
本技术实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
[0070]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0071]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0072]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0073]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0074]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0075]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0076]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0077]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0078]
以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
技术特征:
1.一种数据质量评估方法,其特征在于,包括:基于预设的多个评估维度,建立数据质量评估指标体系,每个所述评估维度中包含多个评估指标;获取待评估数据对应的待评估数据表和元数据表,并基于所述待评估数据表、所述元数据表的属性,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值;确定所述待评估数据对应的评估指标权重矩阵和评估指标选取矩阵;根据所述评估指标权重矩阵、所述评估指标选取矩阵、所述实测值,构建数据质量评估模型,以便根据所述数据质量评估模型对所述待评估数据进行数据质量评估。2.根据权利要求1所述的方法,其特征在于,基于预设的多个评估维度,建立数据质量评估指标体系,具体包括:确定预设的多个评估维度,每个所述评估维度中包含多个评估指标;确定所述评估指标的类型包括:基础评估指标和待定评估指标,所述待定评估指标基于需求得到;根据确定的所有评估指标建立数据质量评估指标体系。3.根据权利要求2所述的方法,其特征在于,所述评估维度包括:完整性评估维度、有效性评估维度、唯一性评估维度以及一致性评估维度;针对所述完整性评估维度,其中的评估指标包括:数据非空值率、属性数据非空值率;针对所述有效性评估维度,其中的评估指标包括:数据类型有效率、数据格式有效率、数据取值有效率;针对所述唯一性评估维度,其中的评估指标包括:主键数据单一率、非主键数据单一率;针对所述一致性评估维度,其中的评估指标包括:数据等值一致率、数据逻辑一致率、数据存在一致率。4.根据权利要求3所述的方法,其特征在于,获取待评估数据对应的待评估数据表和元数据表,并基于所述待评估数据表、所述元数据表的属性,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值,具体包括:获取待评估数据,并根据所述待评估数据生成待评估数据表;确定用于记录所述待评估数据表的元数据所组成的元数据表,所述元数据表包括表名、字段名、字段类型、字段长度、格式约束、取值约束、字段描述、业务定义、业务规则、创建时间、更新时间;根据所述待评估数据表的行数、字段数,以及所述元数据表的字段数,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值。5.根据权利要求4所述的方法,其特征在于,根据所述待评估数据表的行数、字段数,以及所述元数据表的字段数,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值,具体包括:确定所述待评估数据表的行数n
r
、字段数n
c
,以及所述元数据表的字段数n
m
;针对所述数据非空值率,通过得到对应的实测值,其中,为数据非空值
率,为所述待评估数据表中,所有的探查字段中不为空的记录值的总和;针对所述属性数据非空值率,通过得到对应的实测值,其中,为属性数据非空值率,为所述元数据表中,所有的探查字段中不为空的记录值的总和;针对所述数据类型有效率,通过得到对应的实测值,其中,为数据类型有效率,为在预设的筛选条件进行筛选后,所述待评估数据表中满足筛选条件的探查字段的记录值的总和;针对所述数据格式有效率,通过得到对应的实测值,其中,为数据格式有效率,s
f
为基于所述元数据表设定的,所述待评估数据表中参与数据格式有效率探查的字段集合,为在以格式约束规则设定相应正则表达式进行筛选后,所述待评估数据表中的探查字段中满足筛选条件的记录值的总和;针对所述数据取值有效率,通过得到对应的实测值,其中,为数据取值有效率,s
v
为基于所述元数据表设定的,所述待评估数据表中参与数据取值有效率探查的字段集合,为在以取值约束规则,或取值范围设定由预设操作的组合条件进行筛选后,所述待评估数据表中的探查字段中满足筛选条件的记录值的总和,所述预设操作包括比较不等式、in、between中的至少一种;针对所述主键数据单一率,通过得到对应的实测值,其中,为主键数据单一率,为所述待评估数据表中,主键字段不为空的记录数;针对所述非主键数据单一率,通过得到对应的实测值,其中,为非主键数据单一率,s
np
为所述待评估数据表中参与非主键数据单一率探查的字段集合,为所述待评估数据表中,所有探查字段中不为空的记录值的总和;针对所述数据等值一致率,通过得到对应的实测值,其中,为数据等值一致率,s
e
为所述待评估数据表中参与数据等值一致率探查的字段集合,为在以探查字段与各关联字段的计算规则设定的筛选条件进行筛选后,所述待评估数据表中探查字段中符合条件的记录值的总和;针对所述数据逻辑一致率,通过得到对应的实测值,其中,为数据逻辑一致率,s
l
为所述待评估数据表中参与数据逻辑一致率探查的字段集合,为在以探查字段与逻辑关联字段的逻辑规则设定的筛选条件进行筛选后,所述待评估数据表中探查字段中
符合条件的记录值的总和;针对所述数据存在一致率,通过得到对应的实测值,其中,为数据存在一致率,s
x
为所述待评估数据表中参与数据存在一致率探查的字段集合,为在以基于匹配关系的正则表达式进行筛选后,所述待评估数据表中的探查字段中满足筛选条件的记录值的总和。6.根据权利要求2所述的方法,其特征在于,确定所述待评估数据对应的评估指标权重矩阵和评估指标选取矩阵,具体包括:根据各评估指标对所述待评估数据的重要程度,确定所述待评估数据对应的评估指标权重矩阵w=(w
i,j
)4×3,其中,元素w
i,j
表示评估指标在评估维度d
i
中对应的权重数据值,w
1,
和w
3,
恒为0,余下元素取值于区间(0,1)且每行元素之和为1;根据各评估指标对所述待评估数据的选取情况,确定所述待评估数据对应的评估指标选取矩阵m=(m
i,j
)4×3,其中,元素m
i,j
表示评估指标选取标记值。7.根据权利要求6所述的方法,其特征在于,所述评估指标选取矩阵基于数据质量评估过程中评估指标的实际选取情况确定;其中,当所述数据质量评估指标体系中选取的评估指标只包含所述基础评估指标,未包含所述待定评估指标时,为基础评估模式;当所述数据质量评估指标体系选取的评估指标包含所述基础评估指标和至少一个所述待定评估指标时,为设定评估模块;所述评估指标选取矩阵其中,评估指标选取标记值b为布尔值,基于需求进行设置。8.根据权利要求1所述的方法,其特征在于,根据所述评估指标权重矩阵、所述评估指标选取矩阵、所述实测值,构建数据质量评估模型,具体包括:通过得到所述待评估数据表对应的数据质量评分;通过得到所述待评估数据表中,评估维度d
i
对数据质量的影响程度;其中,为待评估数据表对应的数据质量评分,为待评估数据表中,评
估维度d
i
对数据质量的影响程度,表示矩阵的哈达玛乘积,表示矩阵第i行第j列元素,表示评估维度d
i
中对应评估指标的实测值,w为评估指标权重矩阵,m为评估指标选取矩阵。9.一种数据质量评估设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如:权利要求1~8中任一项权利要求所述的数据质量评估方法。10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:权利要求1~8中任一项权利要求所述的数据质量评估方法。
技术总结
本申请公开了一种数据质量评估方法、设备及介质,方法包括:基于预设的多个评估维度,建立数据质量评估指标体系;获取待评估数据对应的待评估数据表和元数据表,确定待评估数据在数据质量评估指标体系下,各评估指标对应的实测值;确定待评估数据对应的评估指标权重矩阵和评估指标选取矩阵;根据评估指标权重矩阵、评估指标选取矩阵、实测值,构建数据质量评估模型,以便根据数据质量评估模型对待评估数据进行数据质量评估。通过建立系统全面的多维度、多指标质量评估指标体系,构建合理有效的质量评估分析模型实现对数据质量进行定量评估和分析,能够为数据开发与使用提供针对性指导,为数据质量提高奠定基础。为数据质量提高奠定基础。为数据质量提高奠定基础。
技术研发人员:张庆乐 赵海兴 赵子墨 张帆 申传旺 邱阳
受保护的技术使用者:浪潮卓数大数据产业发展有限公司
技术研发日:2023.07.03
技术公布日:2023/10/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/