一种基于数据指纹实现数据资源分级方法和装置与流程

未命名 09-18 阅读:97 评论:0


1.本发明涉及数据治理技术领域,尤其涉及一种基于数据指纹实现数据资源分级方法和装置。


背景技术:

2.目前,数据治理领域对于数据资源的分类分级,主要通过对数据字段进行中、英文关键词的匹配或者采用正则表达式对数据资源的内容进行关键信息提取的方式实现。在实际应用过程中,现有的方式非常依赖对数据资源表和字段的梳理,同时依赖标准化的字段信息项,一旦需要定级的表名称与系统配置的名称不符,就会导致漏检或错检,检测效率低且准确率受到严重影响,对数据资源使用的管控和应用造成极大的风险隐患。除此之外,目前对于数据分类分级的标准大部分主要从影响范围和影响程度的维度进行评判,而这两个维度需要通过专家进行评估后才能判断数据可能造成的严重后果,不具备易操作性。
3.因此,如何提供一种高效、准确的数据资源分级方法,成为亟待解决的技术问题。


技术实现要素:

4.有鉴于此,为了克服现有技术的不足,本发明旨在提供一种基于数据指纹实现数据资源分级方法和装置。
5.首先,本发明提供一种基于数据指纹实现数据资源分级方法,包括:步骤s1:对数据资源分级影响因素的关键特征进行分组,获得数据资源的第一显性特征组、第二显性特征组和隐性特征组;步骤s2:读取数据资源的表,根据第一显性特征组和第二显性特征组对数据资源的表进行定级,获得带等级标签的数据资源;步骤s3:对带等级标签的数据资源进行优化,采用优化后带等级标签的数据资源对张量空间模型进行训练,学习隐形特征组与等级标签之间的关联关系,获得训练模型;步骤s4:采用训练模型对数据资源的级别进行预测识别。
6.作为本发明的优选,本发明的基于数据指纹实现数据资源分级方法,步骤s1中的第一显性特征组包括字段信息特征,其中,字段信息特征包括字段的中文名称、字段的英文名称以及字段的描述信息。
7.作为本发明的优选,本发明的基于数据指纹实现数据资源分级方法,步骤s1中的第二显性特征组包括字段内容信息特征、数据资源范围特征、数据精度特征、数据类别特征、数据规模特征以及数据活性特征。
8.作为本发明的优选,本发明的基于数据指纹实现数据资源分级方法,步骤s1中隐性特征组包括是否涉及国家安全重要数据特征、是否涉及个人隐私信息特征、泄露或滥用是否会危害社会特征。
9.作为本发明的优选,本发明的基于数据指纹实现数据资源分级方法,步骤s2包括:读取数据资源的表结构,根据关键词和dfa算法从所述表结构的字段信息中识别
数据资源的通用字段信息项;通过通用字典库判断识别的通用字段信息项是否具有第一显性特征组中的特征,当所述通用字段信息项具有第一显性特征组中的特征,获得根据第一显性特征组定义的带标数据资源;当所述通用字段信息项没有第一显性特征组中的特征,读取数据资源的表内容、数据字典和信息项描述信息,采用知识库和深度神经网络模型对与第一显性特征组和第二显性特征组对应的数据资源分级影响因素进行赋值;根据第一显性特征组合第二显性特征组对应的数据资源分级影响因素的值制定定级策略,根据制定的定级策略对数据资源中的表进行定级,获得根据第一显性特征组合第二显性特征组定义的带标数据资源。
10.作为本发明的优选,本发明的基于数据指纹实现数据资源分级方法,步骤s3中,对带等级标签的数据资源进行优化,包括:采用特征工程对带等级标签的数据资源中表达数据重要性的特征进行提取,生成所述提取的特征对应的带等级标签的数据资源。
11.作为本发明的优选,本发明的基于数据指纹实现数据资源分级方法,步骤s3中,采用优化后带等级标签的数据资源对张量空间模型进行训练,获得训练模型,包括:采用优化后带等级标签的数据资源对具有深度神经网络结构的张量空间模型进行训练,所述具有深度神经网络结构的张量空间模型在训练的过程中学习数据资源的隐性特征组与等级标签之间的关联关系。
12.作为本发明的优选,本发明的基于数据指纹实现数据资源分级方法,步骤s4包括:将数据资源的信息项描述信息以及等级标签作为输入参数对,通过训练模型识别所述参数对,输出数据资源的信息项描述信息对应的级别评估值,采用输出的级别评估值对所述数据资源的级别进行预测。
13.其次,本发明提供一种基于数据指纹实现数据资源分级装置,包括:特征分组模块,用于对数据资源分级影响因素的关键特征进行分组,获得数据资源的第一显性特征组、第二显性特征组和隐性特征组;带等级标签的数据资源生成模块,用于读取数据资源的表,根据第一显性特征组和第二显性特征组对数据资源的表进行定级,获得带等级标签的数据资源;优化训练模块,用于对带等级标签的数据资源进行优化,采用优化后带等级标签的数据资源对张量空间模型进行训练,学习隐形特征组与等级标签之间的关联关系,获得训练模型;预测识别模块,用于采用训练模型对数据资源的级别进行预测识别。
14.最后,本发明还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于数据指纹实现数据资源分级方法。
15.本发明的基于数据指纹实现数据资源分级方法和装置,具有以下有益技术效果:1.通过从显性特征和隐形特征的维度对影响数据资源分级的关键特征选择,实现对影响数据分级的影响因素由浅入深的分组。
16.2.基于分组的特征对数据资源的表进行读取和定级,获得带等级标签的数据资源,采用特征工程对带等级标签的数据资源中表达数据重要性的特征进行提取,实现对带
等级标签的数据资源的优化提取。
17.3.采用优化后带等级标签的数据资源对张量空间模型进行训练,获得训练模型,采用训练模型对数据资源的级别进行预测识别,解决了传统数据资源分类分级依赖人工评估和定级导致的准确率低和效率低的问题,提高数据资源分级的效率和准确率。
附图说明
18.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
19.图1为本发明示例性第一实施例的一种基于数据指纹实现数据资源分级方法的流程示意图。
20.图2为本发明示例性第二实施例的一种基于数据指纹实现数据资源分级装置的架构图。
21.图3为本发明提供的设备的结构示意图。
具体实施方式
22.下面结合附图对本发明实施例进行详细描述。
23.需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
24.需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
25.以下各实施例涉及的名词解释如下:dfa算法:一种基于状态转换快速过滤关键词的算法,用于检查是否包含给定的关键词。
26.通用字典库:通用的数据信息项集合,用于规范同一种信息项不同的表达方式。
27.知识库:指专家系统设计所应用的规则集合,包含规则所联系的事实及数据,用于记录行业知识的集合。
28.深度神经网络模型:是机器学习(ml, machine learning)领域中一种技术,用复杂的网络结构表达特征和标签之间的关系,用于训练数据资源与级别之间的关联关系,从而进行分级预测。
29.特征工程:是将原始数据转化成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。用于数据资源的清洗处理和特征提取。
30.张量空间模型:深度神经网络模型中的一种具体框架,用张量表征输入的描述信息。能够深度表达输入信息,进行深度计算,模拟数据资源与级别的复杂关系。
31.图1为根据本发明示例性第一实施例的一种基于数据指纹实现数据资源分级方法的流程示意图。
32.如图1所示,本实施例方法的步骤s1按以下方式实施:对数据资源分级影响因素的关键特征进行分组,获得数据资源的第一显性特征组、第二显性特征组和隐性特征组,其中,第一显性特征组包括字段信息特征,其中,字段信息特征包括字段的中文名称、字段的英文名称以及字段的描述信息;第二显性特征组包括字段内容信息特征、数据资源范围特征、数据精度特征、数据类别特征、数据规模特征以及数据活性特征;隐性特征组包括是否涉及国家安全重要数据特征、是否涉及个人隐私信息特征、泄露或滥用是否会危害社会特征。本实施例中的数据资源包括但不限于数据指纹信息,本实施例能够基于数据的描述信息和属性信息反馈数据的显性特征和隐性特征,并能够对数据进行标识的特征,通过数据特征能够对数据进行有效的分类和分级。
33.本实施例方法的步骤s2按以下方式实施:读取数据资源的表,根据第一显性特征组和第二显性特征组对数据资源的表进行定级,获得带等级标签的数据资源;具体的,本实施例方法的步骤s2按以下方式实施:读取数据资源的表结构,根据关键词和dfa算法从所述表结构的字段信息中识别数据资源的通用字段信息项;通过通用字典库判断识别的通用字段信息项是否具有第一显性特征组中的特征,当所述通用字段信息项具有第一显性特征组中的特征,获得根据第一显性特征组定义的带标数据资源;当所述通用字段信息项没有第一显性特征组中的特征,读取数据资源的表内容、数据字典和信息项描述信息,采用知识库和深度神经网络模型对与第一显性特征组和第二显性特征组对应的数据资源分级影响因素进行赋值;根据第一显性特征组合第二显性特征组对应的数据资源分级影响因素的值制定定级策略,根据制定的定级策略对数据资源中的表进行定级,获得根据第一显性特征组合第二显性特征组定义的带标数据资源。
34.本实施例方法的步骤s3按以下方式实施:对带等级标签的数据资源进行优化,采用优化后带等级标签的数据资源对张量空间模型进行训练,学习隐形特征组与等级标签之间的关联关系,获得训练模型;在实际应用中,本实施例方法的步骤s3具体按以下方式实施:采用特征工程对带等级标签的数据资源中表达数据重要性的特征进行提取,生成所述提取的特征对应的带等级标签的数据资源。
35.采用优化后带等级标签的数据资源对具有深度神经网络结构的张量空间模型进行训练,所述具有深度神经网络结构的张量空间模型在训练的过程中学习数据资源的隐性特征组与等级标签之间的关联关系。
36.本实施例方法的步骤s4按以下方式实施:采用训练模型对数据资源的级别进行预测识别,具体的,将数据资源的信息项描述信息以及等级标签作为输入参数对,通过训练模型识别所述参数对,输出数据资源的信息项描述信息对应的级别评估值,采用输出的级别
评估值对所述数据资源的级别进行预测。
37.本本实施例方法通过从显性特征和隐形特征的维度对影响数据资源分级的关键特征选择,实现对影响数据分级的影响因素由浅入深的分组。基于分组的特征对数据资源的表进行读取和定级,获得带等级标签的数据资源,采用特征工程对带等级标签的数据资源中表达数据重要性的特征进行提取,实现对带等级标签的数据资源的优化提取。采用优化后带等级标签的数据资源对张量空间模型进行训练,获得训练模型,采用训练模型对数据资源的级别进行预测识别,解决了传统数据资源分类分级依赖人工评估和定级导致的准确率低和效率低的问题,提高数据资源分级的效率和准确率。
38.图2为本发明示例性第二实施例的一种基于数据指纹实现数据资源分级装置的架构图。如图2所示,本实施例的装置包括:特征分组模块,用于对数据资源分级影响因素的关键特征进行分组,获得数据资源的第一显性特征组、第二显性特征组和隐性特征组;带等级标签的数据资源生成模块,用于读取数据资源的表,根据第一显性特征组和第二显性特征组对数据资源的表进行定级,获得带等级标签的数据资源;优化训练模块,用于对带等级标签的数据资源进行优化,采用优化后带等级标签的数据资源对张量空间模型进行训练,学习隐形特征组与等级标签之间的关联关系,获得训练模型;预测识别模块,用于采用训练模型对数据资源的级别进行预测识别。
39.如图3所示,本发明还提供了一种设备,包括处理器110、通信接口120、用于存储处理器可执行计算机程序的存储器130及通信总线140。其中,处理器110、通信接口120及存储器130通过通信总线140完成相互间的通信。处理器110通过运行可执行计算机程序以实现上述的基于数据指纹实现数据资源分级方法。
40.其中,存储器130中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
41.以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以基于实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
42.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
43.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种基于数据指纹实现数据资源分级方法,其特征在于,所述方法包括:步骤s1:对数据资源分级影响因素的关键特征进行分组,获得数据资源的第一显性特征组、第二显性特征组和隐性特征组;步骤s2:读取数据资源的表,根据第一显性特征组和第二显性特征组对数据资源的表进行定级,获得带等级标签的数据资源;步骤s3:对带等级标签的数据资源进行优化,采用优化后带等级标签的数据资源对张量空间模型进行训练,学习隐形特征组与等级标签之间的关联关系,获得训练模型;步骤s4:采用训练模型对数据资源的级别进行预测识别。2.根据权利要求1所述的基于数据指纹实现数据资源分级方法,其特征在于,步骤s1中的第一显性特征组包括字段信息特征,其中,字段信息特征包括字段的中文名称、字段的英文名称以及字段的描述信息。3.根据权利要求1所述的基于数据指纹实现数据资源分级方法,其特征在于,步骤s1中的第二显性特征组包括字段内容信息特征、数据资源范围特征、数据精度特征、数据类别特征、数据规模特征以及数据活性特征。4.根据权利要求1所述的基于数据指纹实现数据资源分级方法,其特征在于,步骤s1中隐性特征组包括是否涉及国家安全重要数据特征、是否涉及个人隐私信息特征、泄露或滥用是否会危害社会特征。5.根据权利要求1所述的基于数据指纹实现数据资源分级方法,其特征在于,步骤s2包括:读取数据资源的表结构,根据关键词和dfa算法从所述表结构的字段信息中识别数据资源的通用字段信息项;通过通用字典库判断识别的通用字段信息项是否具有第一显性特征组中的特征,当所述通用字段信息项具有第一显性特征组中的特征,获得根据第一显性特征组定义的带标数据资源;当所述通用字段信息项没有第一显性特征组中的特征,读取数据资源的表内容、数据字典和信息项描述信息,采用知识库和深度神经网络模型对与第一显性特征组和第二显性特征组对应的数据资源分级影响因素进行赋值;根据第一显性特征组合第二显性特征组对应的数据资源分级影响因素的值制定定级策略,根据制定的定级策略对数据资源中的表进行定级,获得根据第一显性特征组合第二显性特征组定义的带标数据资源。6.根据权利要求1所述的基于数据指纹实现数据资源分级方法,其特征在于,步骤s3中,对带等级标签的数据资源进行优化,包括:采用特征工程对带等级标签的数据资源中表达数据重要性的特征进行提取,生成所述提取的特征对应的带等级标签的数据资源。7.根据权利要求1所述的基于数据指纹实现数据资源分级方法,其特征在于,步骤s3中,采用优化后带等级标签的数据资源对张量空间模型进行训练,获得训练模型,包括:采用优化后带等级标签的数据资源对具有深度神经网络结构的张量空间模型进行训练,所述具有深度神经网络结构的张量空间模型在训练的过程中学习数据资源的隐性特征组与等级标签之间的关联关系。8.根据权利要求1所述的基于数据指纹实现数据资源分级方法,其特征在于,步骤s4包
括:将数据资源的信息项描述信息以及等级标签作为输入参数对,通过训练模型识别所述参数对,输出数据资源的信息项描述信息对应的级别评估值,采用输出的级别评估值对所述数据资源的级别进行预测。9.一种基于数据指纹实现数据资源分级装置,其特征在于,所述装置包括:特征分组模块,用于对数据资源分级影响因素的关键特征进行分组,获得数据资源的第一显性特征组、第二显性特征组和隐性特征组;带等级标签的数据资源生成模块,用于读取数据资源的表,根据第一显性特征组和第二显性特征组对数据资源的表进行定级,获得带等级标签的数据资源;优化训练模块,用于对带等级标签的数据资源进行优化,采用优化后带等级标签的数据资源对张量空间模型进行训练,学习隐形特征组与等级标签之间的关联关系,获得训练模型;预测识别模块,用于采用训练模型对数据资源的级别进行预测识别。10.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-8中任一项所述方法的步骤。

技术总结
本发明涉及数据治理技术领域,提供一种基于数据指纹实现数据资源分级方法和装置,本发明的方法包括:对数据资源分级影响因素的关键特征进行分组,获得数据资源的第一显性特征组、第二显性特征组和隐性特征组;读取数据资源的表,根据第一显性特征组和第二显性特征组对数据资源的表进行定级,获得带等级标签的数据资源;对带等级标签的数据资源进行优化,采用优化后带等级标签的数据资源对张量空间模型进行训练,获得训练模型;采用训练模型对数据资源的级别进行预测识别。本发明实施例的基于数据指纹实现数据资源分级方法和装置,可以解决传统数据资源分类分级依赖人工评估和定级导致的准确率低和效率低的问题,提高数据资源分级的效率和准确率。源分级的效率和准确率。源分级的效率和准确率。


技术研发人员:陆志鹏 胡成盛 国丽 王晓亮
受保护的技术使用者:中电数创(北京)科技有限公司
技术研发日:2023.07.03
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐