一种数据资产分类定级方法、系统、设备和介质

未命名 07-12 阅读:107 评论:0


1.本发明涉及智能化数据处理领域,尤其涉及一种数据资产分类定级方法、系统、设备和介质。


背景技术:

2.随着当今信息技术的发展,金融机构和金融事务处置均已实现信息化、数字化运作,所产生的信息也逐步以不同形式转化为机构的重要数字资产,金融数据随着应用场景和应用机构的爆炸式增长变得更加丰富,另一方面金融机构的数据泄漏等安全威胁的影响已逐步从机构内转移扩大至行业间,甚至会对社会生产与国家安全产生一定的影响,未进行分级管理的金融数据在不同业务间、机构间流转的过程中,从技术到管理都面临着潜在的安全风险。


技术实现要素:

3.鉴于以上现有技术存在的问题,本发明提出一种数据资产分类定级方法、系统、设备和介质,主要解决现有金融数据管理存在安全风险,影响行业相关工作正常开展的问题。
4.为了实现上述目的及其他目的,本发明采用的技术方案如下。
5.本技术提供一种数据资产分类定级方法,包括:
6.获取待定级数据表,其中所述待定级数据表包括表名和字段名;
7.根据所述待定级数据表的表名进行分类,以建立所述待定级数据表与预设的三级目录的映射关系,其中所述三级目录下挂载有多个具有预设安全等级四级目录,且每个所述四级目录包括多个资产项;
8.基于所述映射关系调用对应的所述四级目录中的资产项作为目标资产项,以根据与所述待定级数据表的字段名相似度的最高的目标资产项的安全等级确定所述待定级数据表的安全等级。
9.在本技术一实施例中,根据所述待定级数据表的表名进行分类之前,还包括:
10.获取数据样本;
11.提取所述数据样本中的实体以及实体之间的关系,得到数据资产的知识图谱,所述知识图谱由实体-关系-实体对应的三元组组成;
12.根据所述数据样本和所述知识图谱进行模型训练,得到分类模型,以基于所述分类模型对所述待定级数据表的表名进行分类。
13.在本技术一实施例中,根据所述数据样本和所述知识图谱进行模型训练,包括:
14.将所述数据样本转换为词向量;
15.通过预设向量转换模型将所述知识图谱中的三元组转换为实体与关系的嵌入向量表示,得到嵌入向量;
16.将所述词向量与所述嵌入向量进行拼接后输入预设的初始分类模型,以建立数据样本与不同资产项的映射关系,得到所述分类模型。
17.在本技术一实施例中,所述初始分类模型包括:多个特征提取单元和全连接层,所述初始分类模型的输入依次经过多个所述特征提取单元后,经过所述全连接层进行进行分类预测,得到输出不同分类类别的概率,其中所述特征提取单元包括多个等长卷积层和一个池化层。
18.在本技术一实施例中,根据与所述待定级数据表的字段名相似度的最高资产项的安全等级确定所述待定级数据表的安全等级之前,包括:
19.将所述待定级数据表的字段名转换为第一向量;
20.将所述目标资产项转换为第二向量;
21.计算所述第一向量与所述第二向量的相似度,以确定与所述字段名相似度最高的目标资产项。
22.在本技术一实施例中,根据与所述待定级数据表的字段名相似度的最高资产项的安全等级确定所述待定级数据表的安全等级之前,还包括:
23.将所述待定级数据表的字段名与所述目标资产项进行拼接,得到拼接向量;
24.将所述拼接向量输入预训练的匹配模型,以确定与所述字段名相似度最高的目标资产项。
25.在本技术一实施例中,根据所述待定级数据表的表名进行分类之前,还包括:
26.获取样本数据表,将所述样本数据表的表名与所述三级目录进行拼接作为输入样本;
27.通过预设同义词库对所述输入样本中的词组进行同义词替换,以多所述输入样本进行样本扩增,得到输入样本集;
28.根据所述输入样本集训练预分类模型,以基于所述预分类模型对所述待定级数据表的表名进行分类。
29.本技术还提供一种数据资产分类定级系统,包括:
30.数据获取模块,用于获取待定级数据表,其中所述待定级数据表包括表名和字段名;
31.预分类模块,用于根据所述待定级数据表的表名进行分类,以建立所述待定级数据表与预设的三级目录的映射关系,其中所述三级目录下挂载有多个具有预设安全等级四级目录,且每个所述四级目录包括多个资产项;
32.定级模块,用于基于所述映射关系调用对应的所述四级目录中的资产项作为目标资产项,以根据与所述待定级数据表的字段名相似度的最高的目标资产项的安全等级确定所述待定级数据表的安全等级。
33.本技术还提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的数据资产分类定级方法的步骤。
34.本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的数据资产分类定级方法的步骤。
35.如上所述,本技术提供一种数据资产分类定级方法、系统、设备和介质,具有以下有益效果。
36.本技术首先基于待定级数据表的表名进行与分类,确定待定级数据表归属的三级
目录,进一步基于三级目录下的四级目录对应的资产项进行字段匹配,将待定级数据表划分到对应的四级目录下,基于四级目录的目标资产项的安全等级对待定级数据表进行安全评定,便于后续针对不同安全等级的数据表进行管理,减少人工参与,提高归档定级的效率。
附图说明
37.图1为本技术一实施例中数据资产分类定级方法的流程示意图。
38.图2为本技术一实施例中基于改进的ernie-dpcnn模型的整体架构示意图。
39.图3为本技术一实施例中字段名与目标资产项匹配的流程示意图。
40.图4位本技术另一实施例中字段名与目标资产项匹配的流程示意图。
41.图5为本技术一实施例中数据资产分类定级系统的模块图。
42.图6为本技术一实施例中设备的结构示意图。
具体实施方式
43.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
44.需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
45.专业术语阐释:
46.ernie,enhanced language representation with informative entities,为了增强预训练语言模型,ernie中使用了一种多阶段的知识掩码策略,也就是在bert使用的基本级别掩码策略的基础上添加了两种掩码策略(实体级别策略和短语级别策略)。经过改进后,相比与bert模型,ernie模型可以潜在的学习到更长的语义依赖是其更具有泛化性。
47.dpcnn,deep pyramid convolutional neural networks for text categorization,文本进入dpcnn网络会经过一个包含三个不同卷积特征提取器的region embedding层,可以看作输出的是embedding,然后经过两层的等长卷积来为接下来的特征抽取提供更宽的感受眼,(提高embdding的丰富性),然后会重复通过一个1/2池化的残差块,1/2池化不断提高词位的语义,其中固定了feature_maps,残差网络的引入是为了解决在训练的过程中梯度消失和梯度爆炸的问题。
48.transformer模型是谷歌在2017年提出的继卷积神经网络(cnn)模型之后新一代网络架构,最初用于自然语言处理(nlp),如今在计算机视觉领域的很多下游任务(如图像分类,目标检测,图像分割等)及其他领域也有很出色的表现。
49.bert(bidirectional encoder representations from transformers)是一种transformer的双向编码器,旨在通过在左右上下文中共有的条件计算来预先训练来自无
标号文本的深度双向表示。因此,经过预先训练的bert模型只需一个额外的输出层就可以进行微调,从而为各种自然语言处理任务生成最新模型。
50.transe(translating embedding),是一个非常经典的知识表示学习,用分布式表示(distributed representation)来描述知识库中的三元组。这类表示法既避免了庞大的树结构构造,又能通过简单的数学计算获取语义信息,因此成为了当前表示学习的根基。
51.请参阅图1,图1为本技术一实施例中数据资产分类定级方法的流程示意图。本技术提供一种数据资产分类定级方法,该方法包括以下步骤:
52.步骤s100,获取待定级数据表,其中所述待定级数据表包括表名和字段名。
53.在一实施例中,待定级数据表通常包括表名和字段名,示例性地,表名可以为会员资金,字段名可包括交易日、资金账号、会员代码、投机保证金等。具体表名和字段名可根据实际应用需求进行调整,这里不作限制。
54.步骤s110,根据所述待定级数据表的表名进行分类,以建立所述待定级数据表与预设的三级目录的映射关系,其中所述三级目录下挂载有多个具有预设安全等级四级目录,且每个所述四级目录包括多个资产项。
55.在一实施例中,可预先构建数据资产的资产目录,资产目录可包括四级目录,在第四季目录中设置有多个资产项,每个资产项对应不同的安全等级,示例性地,安全等级可划分为四个级别,分别表示为:4-高度敏感:指一旦泄露、非法提供或滥用极易导致相关主体经济利益、名誉、权益、安全等受到重大损害的信息;3-中度敏感:指一旦泄露、非法提供或滥用极易导致相关主体经济利益、名誉、权益、安全等受到一定程度损害的信息;2-可内部公开(低度敏感):指只在内部使用和共享,一旦泄露、非法提供或滥用可能导致相关主体经济利益、名誉、权益、安全等受到轻微损害的信息;1-可对外公开:指可以对外开放共享的信息。这里仅示例性的给出其中一种安全等级划分规则,具体安全等级划分可根据实际应用需求进行调整,这里不作限制。
56.在一实施例中,根据所述待定级数据表的表名进行分类之前,还可包括以下步骤:
57.步骤s111,获取样本数据表,将所述样本数据表的表名与所述三级目录进行拼接作为输入样本。
58.步骤s112,通过预设同义词库对所述输入样本中的词组进行同义词替换,以多所述输入样本进行样本扩增,得到输入样本集;
59.步骤s113,根据所述输入样本集训练预分类模型,以基于所述预分类模型对所述待定级数据表的表名进行分类。
60.具体地,可预先收集公共资源或历史数据资产相关的数据表作为样本数据表,可建立多分类任务,输入数据为样本数据表的表名,作为一个有监督的多分类任务来处理。格式如表一所示:
61.表一
[0062][0063]
进一步地,将数据表名和三级目录用“|”符号进行拼接作为输入,标签为1/0,即有映射关系的为1,无映射关系的为0,输出内容为模型得分最高的三个目录。格式如表二所示:
[0064]
表二
[0065][0066]
通过以上方式构建的输入样本和标签,可进行模型训练,得到预分类模型,在样本数据表数量较少时,可采用数据增强的方法,扩充模型训练的数据,提高泛化能力。例如,某一条训练数据“取得交易资格的交易所,authorized|会员管理/机构管理》会员管理》执业信息”,采用随机同义词替换的方式,可生成两条的新的训练数据,“取得交易身价的交易所,authorized|会员管理/部门管理》会员管理》执业信息”和“取得交易资格的交易所,authorized|会员管理/机构管理》会员保管》执业信息”。
[0067]
具体模型架构可采用支持向量机或神经网络等常规架构,具体可根据实际应用需求进行选择和调整,这里不作限制。模型训练过程为本领域技术人员所熟知,这里不再赘述。
[0068]
在得到预分类模型后,可将待定级数据表的表名输入所述预分类模型,得到该待定级数据表的表名归属的三级目录,以此建立不同待定级数据表与对应的三级目录的映射关系。
[0069]
在另一实施例中,根据所述待定级数据表的表名进行分类之前,还可包括以下步骤:
[0070]
步骤s114,获取数据样本;
[0071]
步骤s115,提取所述数据样本中的实体以及实体之间的关系,得到数据资产的知识图谱,所述知识图谱由实体-关系-实体对应的三元组组成;
[0072]
步骤s116,根据所述数据样本和所述知识图谱进行模型训练,得到分类模型,以基于所述分类模型对所述待定级数据表的表名进行分类。
[0073]
具体地,可构建数据资产知识图谱,数据资产知识图谱是一个用于描述和组织数据资产的图形化表示方法。它是一种基于本体论的数据管理方法,旨在提高组织对数据资产的管理能力和数据资产的利用效率。常见的应用包括以下几个方面:数据管理,数据资产知识图谱可以帮助组织对数据进行分类、标准化和整合,从而提高数据的可重用性和管理效率;智能搜索,利用知识图谱,可以快速定位和查找相关实体,从而提高搜索结果的精度和速度;通过知识图谱,可以挖掘出实体之间的关系和特征,从而为用户提供更加智能化的推荐服务。
[0074]
以知识图谱的形式将不同表间的同类实体在同一张表中进行数据关联、数据融合,通过“符号化”过程,实现数据的融合和碰撞挖掘,完成对于行业数据中所蕴含知识的抽取、融合、推理和沉淀等一系列过程,打通认知感知,形成行业智能。以图谱的形式做治理结果的展示,可以让客户通俗易懂的明白治理的过程和结果,并真正提供治理的价值,帮助客户快捷清晰的使用治理的数据资产,并进行数据资产的深度运营。
[0075]
在构建知识图谱前,可对数据样本进行预处理,预处理包括定义基础资产、内部资产、外部资产、指标资产、分类描述、部门、表名、字段名、引用标准九大实体节点,设计“内部资产-内外部资产映射-外部资产”、“数据资产-部门归属-部门”、“数据资产-资产归属-分类描述”、“字段名-字段归属-表名”,“字段名-字段资产项映射-数据资产”五种实体之间的关系。最后,将知识图谱数据以三元组的形式,存入到图数据库。
[0076]
在一实施例中,根据所述数据样本和所述知识图谱进行模型训练,包括:
[0077]
将所述数据样本转换为词向量;
[0078]
通过预设向量转换模型将所述知识图谱中的三元组转换为实体与关系的嵌入向量表示,得到嵌入向量;
[0079]
将所述词向量与所述嵌入向量进行拼接后输入预设的初始分类模型,以建立数据样本与不同资产项的映射关系,得到所述分类模型。
[0080]
在一实施例中,所述初始分类模型包括:多个特征提取单元和全连接层,所述初始分类模型的输入依次经过多个所述特征提取单元后,经过所述全连接层进行进行分类预测,得到输出不同分类类别的概率,其中所述特征提取单元包括多个等长卷积层和一个池化层。
[0081]
具体地,为了更加高效地构建适合于中文文本分类的训练模型,本文将ernie与改进的dpcnn融合,并且采用知识图谱嵌入的方法加入结构化的信息,建立改进的ernie-dpcnn模型,该模型一方面利用深层无监督预训练语言模型和transformer长距离特征提取的优势,更好地捕捉文本长距离依赖信息,有效实现特征提取;另一方面利用深层金字塔神经网络结构和权值共享的特点进行模型参数微调,可以极大地缩短模型的训练时间,有效避免深层神经网络梯度弥散问题。
[0082]
请参阅图2,图2为本技术一实施例中基于改进的ernie-dpcnn模型的整体架构示意图。具体模型构建过程可表述如下:
[0083]
(ⅰ)将数据集进行预处理后形成输入文本,记w=(w1,w2,...,wn),其中wi(i=1,2,3,...,n)表示文本的第i个,我们将知识图谱中的实体和关系都看作一个节点,记为g=*n1,n2...,nn)。
[0084]
(ⅱ)将每个wi输入到ernie预训练层转换为相应的ernie词向量,即经过多层双向
transformer编码器后,将输入文本w进行序列特征化表示,输出文本xi=(x
1i
,x
2i
,...,x
ji
),其中,x
ji
表示第i句中第j个词的词向量.每句中的词向量用拼接运算符拼接,得到词向量矩阵同时也通过transe模型对知识图谱中的关系和实体进行表示学习,然后将学习到的节点向量和词向量进行拼接。
[0085]
(ⅲ)将拼接后的向量特征表示矩阵x作为改进dpcnn模型的输入,利用等长卷积层生成新的特征表示:
[0086]
e=f(kx+b),h=e+x
[0087]
其中:h为网络输出;k是卷积核,其大小为h;b为偏
[0088]
差;f(x)=max(0,x)表示relu非线性激活函数。
[0089]
(ⅳ)固定特征图大小后,将e按改进的dpcnn模型进行最大池化,通过归一化softmax函数输出预测分类概率,各类预测标签概率和为1,公式为:
[0090][0091][0092]
最终得到每一类标签的概率矩阵p=(σ1(h),σ2(h),...,σn(h)),也就是数据样本对应的分类标签:标签1,标签2,
……
,标签n。
[0093]
基于上述步骤得到分类模型后,可基于该分类模型建立待定级数据表与三级目录的映射关系。
[0094]
前述实施例提供了两种建立待定级数据表与三级目录的映射关系的方式,实际应用中可根据需求选择其中一种,这里不做限制。
[0095]
除以上实施例提供的建立映射关系的方式外,也可根据表名和已有的数据资产目录之间的命名规则及联系,建立同义词表、前缀词表、后缀词表,将一部分命名较规范的数据表直接映射到三级或四级目录下。
[0096]
步骤s120,基于所述映射关系调用对应的所述四级目录中的资产项作为目标资产项,以根据与所述待定级数据表的字段名相似度的最高的目标资产项的安全等级确定所述待定级数据表的安全等级。
[0097]
在一实施例中,三级目录下通常可挂载多个四级目录,每个四级目录中可设置多个资产项。在确定待定级数据表与三级目录的映射关系后,基于该映射关系,可确定对应三级目录下挂载的四级目录,进而提取该四级目录下的资产项作为目标资产项。
[0098]
在一实施例中,根据与所述待定级数据表的字段名相似度的最高资产项的安全等级确定所述待定级数据表的安全等级之前,包括:
[0099]
将所述待定级数据表的字段名转换为第一向量;
[0100]
将所述目标资产项转换为第二向量;
[0101]
计算所述第一向量与所述第二向量的相似度,以确定与所述字段名相似度最高的目标资产项。
[0102]
具体地,请参阅图3,图3为本技术一实施例中字段名与目标资产项匹配的流程示
意图。可采用word2vec/fasttext/bert等预训练模型,可获得字段名和资产项的向量表示,再使用余弦相似度计算方式计算向量1(即第二向量)和向量2(即第一向量)的余弦相似度,相似度大于设定阈值则认为字段名与目标资产项之间存在映射关系。
[0103]
在另一实施例中,根据与所述待定级数据表的字段名相似度的最高资产项的安全等级确定所述待定级数据表的安全等级之前,还包括:
[0104]
将所述待定级数据表的字段名与所述目标资产项进行拼接,得到拼接向量;
[0105]
将所述拼接向量输入预训练的匹配模型,以确定与所述字段名相似度最高的目标资产项。
[0106]
具体地,请参阅图4,图4位本技术另一实施例中字段名与目标资产项匹配的流程示意图。将字段值和资产项名称用“|”进行拼接,标签为1/0,视为二分类任务进行训练,预测时将模型输出值后加一个sigmoid函数进行归一化处理,并设置一个阈值,大于该阈值则认为匹配成功,图中深度学习模型即为预训练的匹配模型,深度学习模型可采用深度神经网络等网络架构,具体深度学习网络可根据实际应用需求进行选择,这里不作限制。
[0107]
在一实施例中,所有的数据表都被划分到某个三级目录下,将所有三级目录下的四级目录对应的资产项和数据表中的字段名进行匹配,匹配率最高的四级目录作为最终的物理映射结果,匹配率低于某个阈值的建议人工增加新的四级目录,以便更好的完善数据资产目录。
[0108]
完成目录的匹配之后,通过四级目录的安全级别我们可以得知所要预测的数据资产的安全级别,并且和所在目录的级别保持一致,便于管理。
[0109]
基于以上技术方案,当目录匹配为高置信情况时,安全定级准确率和四级目录映射准确率相同为87%;当目录匹配为低置信情况时,安全定级模型准确率为85%,所以安全定级任务总体准确率为86%。通过人工智能高准确率对数据资产安全进行定级,可以节约各项信息数据管理工作成本,提高工作效率,保护和规范化数据资源,使得企业内部数据管控平台可具备一定的智能化能力。
[0110]
请参阅图5,本实施例提供了一种数据资产分类定级系统,用于执行前述方法实施例中所述的数据资产分类定级方法。由于系统实施例的技术原理与前述方法实施例的技术原理相似,因而不再对同样的技术细节做重复性赘述。
[0111]
在一实施例中,数据资产分类定级系统,包括:数据获取模块10,用于获取待定级数据表,其中所述待定级数据表包括表名和字段名;预分类模块11,用于根据所述待定级数据表的表名进行分类,以建立所述待定级数据表与预设的三级目录的映射关系,其中所述三级目录下挂载有多个具有预设安全等级四级目录,且每个所述四级目录包括多个资产项;定级模块12,用于基于所述映射关系调用对应的所述四级目录中的资产项作为目标资产项,以根据与所述待定级数据表的字段名相似度的最高的目标资产项的安全等级确定所述待定级数据表的安全等级。
[0112]
本技术实施例还提供了一种数据资产分类定级设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、mp3(动态影像专家压缩标准语音层面3,moving picture experts group audio layer iii)播放器、mp4
(动态影像专家压缩标准语音层面4,moving picture experts group audio layer iv)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本技术实施例对于具体的设备不加以限制。
[0113]
本技术实施例还提供了一种机器可读介质,该介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本技术实施例的图1中数据资产分类定级方法所包含步骤的指令(instructions)。机器可读介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如:软盘、硬盘、磁带)、光介质(如:dvd)、或者半导体介质(如:固态硬盘solid state disk(ssd))等。
[0114]
参阅图6,本实施例提供一种设备80,设备80可以是台式机、便携式电脑、智能手机等设备。详细的,设备80至少包括通过总线81连接的:存储器82、处理器83,其中,存储器82用于存储计算机程序,处理器83用于执行存储器82存储的计算机程序,以执行前述方法实施例中的全部或部分步骤。
[0115]
上述提到的系统总线可以是外设部件互连标准(peripheral pomponent interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory,简称ram),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0116]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0117]
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

技术特征:
1.一种数据资产分类定级方法,其特征在于,包括:获取待定级数据表,其中所述待定级数据表包括表名和字段名;根据所述待定级数据表的表名进行分类,以建立所述待定级数据表与预设的三级目录的映射关系,其中所述三级目录下挂载有多个具有预设安全等级四级目录,且每个所述四级目录包括多个资产项;基于所述映射关系调用对应的所述四级目录中的资产项作为目标资产项,以根据与所述待定级数据表的字段名相似度的最高的目标资产项的安全等级确定所述待定级数据表的安全等级。2.根据权利要求1所述的数据资产分类定级方法,其特征在于,根据所述待定级数据表的表名进行分类之前,还包括:获取数据样本;提取所述数据样本中的实体以及实体之间的关系,得到数据资产的知识图谱,所述知识图谱由实体-关系-实体对应的三元组组成;根据所述数据样本和所述知识图谱进行模型训练,得到分类模型,以基于所述分类模型对所述待定级数据表的表名进行分类。3.根据权利要求2所述的数据资产分类定级方法,其特征在于,根据所述数据样本和所述知识图谱进行模型训练,包括:将所述数据样本转换为词向量;通过预设向量转换模型将所述知识图谱中的三元组转换为实体与关系的嵌入向量表示,得到嵌入向量;将所述词向量与所述嵌入向量进行拼接后输入预设的初始分类模型,以建立数据样本与不同资产项的映射关系,得到所述分类模型。4.根据权利要求3所述的数据资产分类定级方法,其特征在于,所述初始分类模型包括:多个特征提取单元和全连接层,所述初始分类模型的输入依次经过多个所述特征提取单元后,经过所述全连接层进行进行分类预测,得到输出不同分类类别的概率,其中所述特征提取单元包括多个等长卷积层和一个池化层。5.根据权利要求1所述的数据资产分类定级方法,其特征在于,根据与所述待定级数据表的字段名相似度的最高资产项的安全等级确定所述待定级数据表的安全等级之前,包括:将所述待定级数据表的字段名转换为第一向量;将所述目标资产项转换为第二向量;计算所述第一向量与所述第二向量的相似度,以确定与所述字段名相似度最高的目标资产项。6.根据权利要求1所述的数据资产分类定级方法,其特征在于,根据与所述待定级数据表的字段名相似度的最高资产项的安全等级确定所述待定级数据表的安全等级之前,还包括:将所述待定级数据表的字段名与所述目标资产项进行拼接,得到拼接向量;将所述拼接向量输入预训练的匹配模型,以确定与所述字段名相似度最高的目标资产项。
7.根据权利要求1所述的数据资产分类定级方法,其特征在于,根据所述待定级数据表的表名进行分类之前,还包括:获取样本数据表,将所述样本数据表的表名与所述三级目录进行拼接作为输入样本;通过预设同义词库对所述输入样本中的词组进行同义词替换,以多所述输入样本进行样本扩增,得到输入样本集;根据所述输入样本集训练预分类模型,以基于所述预分类模型对所述待定级数据表的表名进行分类。8.一种数据资产分类定级系统,其特征在于,包括:数据获取模块,用于获取待定级数据表,其中所述待定级数据表包括表名和字段名;预分类模块,用于根据所述待定级数据表的表名进行分类,以建立所述待定级数据表与预设的三级目录的映射关系,其中所述三级目录下挂载有多个具有预设安全等级四级目录,且每个所述四级目录包括多个资产项;定级模块,用于基于所述映射关系调用对应的所述四级目录中的资产项作为目标资产项,以根据与所述待定级数据表的字段名相似度的最高的目标资产项的安全等级确定所述待定级数据表的安全等级。9.一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的数据资产分类定级方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的数据资产分类定级方法的步骤。

技术总结
本申请提供一种数据资产分类定级方法、系统、设备和介质,该方法包括:获取待定级数据表,其中所述待定级数据表包括表名和字段名;根据所述待定级数据表的表名进行分类,以建立所述待定级数据表与预设的三级目录的映射关系,其中所述三级目录下挂载有多个具有预设安全等级四级目录,且每个所述四级目录包括多个资产项;基于所述映射关系调用对应的所述四级目录中的资产项作为目标资产项,以根据与所述待定级数据表的字段名相似度的最高的目标资产项的安全等级确定所述待定级数据表的安全等级。可以节约各项信息数据管理工作成本,提高工作效率,保护和规范化数据资源。保护和规范化数据资源。保护和规范化数据资源。


技术研发人员:李莉 武靖超 朱世宇 陆国泉 杨志胜 赵雯雯 蔡松涛 唐熙 周昊 陈永刚 张敏 吴奇积 尹钟伟 李孟灵
受保护的技术使用者:西南大学
技术研发日:2023.03.13
技术公布日:2023/7/11
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐