一种用于非结构化数据全生命周期管理的方法及系统与流程

未命名 09-17 阅读:72 评论:0


1.本发明涉及数据管理技术领域,具体涉及一种用于非结构化数据全生命周期管理的方法及系统。


背景技术:

2.工厂作业中,随着工艺的更新迭代,对应的衍生数据同步更新,多源数据、异步数据等的产生造成数据管理难度,为了保障数据管理效果,目前,主要通过数据库管理或系统管理的方式,基于特定的查询语言或工具进行非结构化数据的处理与管理,存在一定的技术局限,无法适应波动性多源数据的有序性整体管理,导致数据管理效果不佳。


技术实现要素:

3.本技术提供了一种用于非结构化数据全生命周期管理的方法及系统,用于针对解决现有技术中存在的无法适应波动性多源数据的有序性整体管理,导致数据管理效果不佳的技术问题。
4.鉴于上述问题,本技术提供了一种用于非结构化数据全生命周期管理的方法及系统。
5.第一方面,本技术提供了一种用于非结构化数据全生命周期管理的方法,所述方法包括:通过接口,将所述非结构化数据管理装置接入指定单位的数据库,统计指定单位内全部的待进行管理的非结构化数据,获得非结构化数据集合;通过所述图形提取器和文档提取器,提取所述非结构化数据集合内的图形数据和文档数据,整合获得图形数据集和文档数据集;获取所述指定单位内的非结构化数据标准,其中,所述非结构化数据标准内包括图形标准和文档标准,图形标准内包括多个图形和多个适用度的映射关系;在所述处理器内,根据所述图形标准和文档标准,对所述图形数据集和文档数据集进行适用度分析,获得图形适用度集和文档适用度集,并计算获得非结构化数据适用度集;根据所述非结构化数据适用度集,分析所述非结构化数据集合内多个非结构化数据的局部离群值,获得多个局部离群值;将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数;决策获取多个管理方案,对所述非结构化数据集合进行管理,其中,所述多个管理方案通过根据所述多个管理参数决策获得。
6.第二方面,本技术提供了一种用于非结构化数据全生命周期管理的系统,所述系统包括:数据统计模块,所述数据统计模块用于通过接口,将所述非结构化数据管理装置
接入指定单位的数据库,统计指定单位内全部的待进行管理的非结构化数据,获得非结构化数据集合;数据提取模块,所述数据提取模块用于通过所述图形提取器和文档提取器,提取所述非结构化数据集合内的图形数据和文档数据,整合获得图形数据集和文档数据集;数据标准获取模块,所述数据标准获取模块用于获取所述指定单位内的非结构化数据标准,其中,所述非结构化数据标准内包括图形标准和文档标准,图形标准内包括多个图形和多个适用度的映射关系;适用度分析模块,所述适用度分析模块用于在所述处理器内,根据所述图形标准和文档标准,对所述图形数据集和文档数据集进行适用度分析,获得图形适用度集和文档适用度集,并计算获得非结构化数据适用度集;局部离群值分析模块,所述局部离群值分析模块用于根据所述非结构化数据适用度集,分析所述非结构化数据集合内多个非结构化数据的局部离群值,获得多个局部离群值;管理参数计算模块,所述管理参数计算模块用于将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数;数据管理模块,所述数据管理模块用于决策获取多个管理方案,对所述非结构化数据集合进行管理,其中,所述多个管理方案通过根据所述多个管理参数决策获得。
7.本技术中提供的一个或多个技术方案,至少具有如下技术效果或优点:本技术实施例提供的一种用于非结构化数据全生命周期管理的方法,通过接口,将所述非结构化数据管理装置接入指定单位的数据库,统计指定单位内全部的待进行管理的非结构化数据,通过所述图形提取器和文档提取器进行图形数据和文档数据的提取,整合获得图形数据集和文档数据集;获取所述指定单位内的非结构化数据标准,包括图形标准和文档标准,在所述处理器内,根据所述图形标准和文档标准进行所述图形数据集和文档数据集的适用度分析,获得图形适用度集和文档适用度集,并计算非结构化数据适用度集,进一步分析所述非结构化数据集合内多个非结构化数据的局部离群值,获得多个局部离群值,结合数据管理函数计算获得多个管理参数,决策获取多个管理方案进行所述非结构化数据集合的管理,解决了现有技术中存在的无法适应波动性多源数据的有序性整体管理,导致数据管理效果不佳的技术问题,统计非结构化数据并进行文档数据与图形数据的提取,分别配置针对性处理方式进行处理,基于确定的管理参数配置适配管理方案,针对数据的全生命周期进行有效管理。
附图说明
8.图1为本技术提供了一种用于非结构化数据全生命周期管理的方法流程示意图;图2为本技术提供了一种用于非结构化数据全生命周期管理的方法中非结构化数据适用度集获取流程示意图;图3为本技术提供了一种用于非结构化数据全生命周期管理的方法中多个管理方案获取流程示意图;图4为本技术提供了一种用于非结构化数据全生命周期管理的系统结构示意图。
9.附图标记说明:数据统计模块11,数据提取模块12,数据标准获取模块13,适用度
分析模块14,局部离群值分析模块15,管理参数计算模块16,数据管理模块17。
具体实施方式
10.本技术通过提供一种用于非结构化数据全生命周期管理的方法及系统,统计指定单位的非结构化数据并提取图形数据集和文档数据集,结合非结构化数据标准确定图形适用度集和文档适用度集,并计算非结构化数据适用度集,分析多个非结构化数据的局部离群值,结合数据管理函数计算获得多个管理参数,决策获取多个管理方案进行非结构化数据集合的管理,用于解决现有技术中存在的无法适应波动性多源数据的有序性整体管理,导致数据管理效果不佳的技术问题。
实施例一
11.如图1所示,本技术提供了一种用于非结构化数据全生命周期管理的方法,所述方法应用于非结构化数据管理装置,所述装置包括文档提取器、图形提取器和处理器,所述方法包括:s10:通过接口,将所述非结构化数据管理装置接入指定单位的数据库,统计指定单位内全部的待进行管理的非结构化数据,获得非结构化数据集合;工厂作业中,随着工艺的更新迭代,对应的衍生数据同步更新,多源数据、异步数据等的产生造成数据管理难度,为了保障数据管理效果,本技术提供的一种用于非结构化数据全生命周期管理的方法应用于所述非结构化数据管理装置,即辅助进行数据管理的装置,包括所述文档提取器、所述图形提取器与所述处理器,分别用于文档数据、图形数据的提取与数据处理。统计非结构化数据并进行文档数据与图形数据的提取,分别配置针对性处理方式进行处理,基于确定的管理参数配置适配管理方案,针对数据的全生命周期进行有效管理。
12.其中,所述接口用于进行数据端与管理端的连通,基于接口,将所述非结构化数据管理装置接入指定单位的数据库。具体的,本技术用于针对工厂中作业标准书的更新、备份、调用和淘汰等的全生命周期的关联数据管理,产品的作业标准书随着工艺的更新迭代会同步进行更新换代,存在异构化多源数据的管理必要性,例如进行留存、销毁或者待修改存储、待分发存储等,其中,作业标准书一般包括文本数据与图片数据。所述指定单位的数据库为待进行数据管理的工厂中针对作业标准书的管理存储数据库。进而基于接入的所述非结构化数据管理装置,对指定单位内全部待进行管理的不具备完整数据结构规则的非结构化数据进行统计,集成获取所述非结构化数据集合,所述非结构化数据集合为待管理数据源。
13.s20:通过所述图形提取器和文档提取器,提取所述非结构化数据集合内的图形数据和文档数据,整合获得图形数据集和文档数据集;具体的,所述图形提取器与所述文档提取器为进行图形与文本内容提取的工具,基于所述图形提取器,对所述非结构化数据集合中的图形数据进行识别提取与归属整合,获取所述图形数据集;基于所述文档提取器,对所述非结构化数据集合中的文档数据进行识别提取与归属整合,获取所述文档数据集。进而针对不同格式数据,配置针对性处理方式进行分析。
14.s30:获取所述指定单位内的非结构化数据标准,其中,所述非结构化数据标准内包括图形标准和文档标准,图形标准内包括多个图形和多个适用度的映射关系;进一步而言,获取所述指定单位内的非结构化数据标准,本技术s30还包括:s31:根据所述图形数据集内的多个图形数据,进行适用度分配,获得多个图形适用度;s32:获取所述指定单位内非结构化数据中多个作业项目的多个项目文档集,并进行适用度分配,获得多个文档适用度集合;s33:对所述多个项目文档集进行关键词拆分和独热编码处理,构建文档编码词袋;s34:对所述多个图形数据和所述多个图形适用度进行映射,获得所述图形标准,对所述文档编码词袋和所述多个文档适用度集合进行映射,获得所述文档标准。
15.具体的,遍历所述图形数据集内的多个图形数据并进行适用度的分配,示例性的,以基于当前时间节点的间隔时间为约束,进行适用度的分配,其中,图形数据越久远,对应的适用度越小,逐图形数据进行分析,获取所述多个图形适用度。进一步基于所述指定单位内非结构化数据,提取多个作业项目并进行文档细分,一般而言,一个作业标准书里包括多个工位的作业标准内容,将文档分开并分别进行独立性处理,可有效提高处理结果的精细化与准确度,获取对应于所述多个作业项目的所述多个项目文档集。进而针对所述多个项目文档集分别进行适用度分配,具体分配方式可与图形数据相同,文档的生成时刻点越久远,对应的分配适用度越低,获取所述多个文档适用度集合。
16.进一步的,针对所述多个项目文档集,分别对各项目文档进行关键词拆分,例如可依据语句结构、词性等进行拆分,并针对拆分的各个关键词进行独热编码处理,具体的,针对各个项目文档的拆分关键词,以关键词数量为编码位数,对各拆分关键词确定一具有唯一固定寄存次序的编码位置,将该编码位置对应的元素记为1,将其余编码位置的元素记为0,可将各项目文档所提取的离散关键词转换为具有连续性的映射编码,使得后续的处理更为简单化与有序化。对处理后的编码进行文档归属与集成整合,获取所述文档编码词袋。
17.进而映射关联所述多个图形数据与所述多个图形适用度,作为所述图形标准;映射对应所述文档编码词袋与所述多个文档适用度集合,作为所述文档标准。将所述图形标准与所述文档标准作为所述指定单位内的非结构化数据标准,即标准化参考数据,用于进行所述非结构化数据的适用度映射分析。
18.s40:在所述处理器内,根据所述图形标准和文档标准,对所述图形数据集和文档数据集进行适用度分析,获得图形适用度集和文档适用度集,并计算获得非结构化数据适用度集;进一步而言,如图2所示,根据所述图形标准和文档标准,对所述图形数据集和文档数据集进行适用度分析,本技术s40还包括:s41:基于孪生网络,采用所述图形数据集,训练图形相似识别器;s42:将所述图形数据集内的多个图形结合所述图形标准内的图形输入所述图形相似识别器,获取匹配图形,并映射获得所述图形适用度集;s43:将所述文档数据集内的多个文档进行关键词拆分,进行独热编码转换,结合所述文档编码词袋,统计获得所述文档适用度集;
s44:根据所述图形适用度集和文档适用度集,计算所述非结构化数据适用度集。
19.进一步而言,基于孪生网络,采用所述图形数据集,训练图形相似识别器,本技术s41还包括:s411:基于孪生网络,构建网络架构相同的两个图形识别网络;s412:构建损失函数,如下式:;;其中,loss为损失,m为根据所述图形数据集进行图形数据两两随机组合的图形数据组合的数量,p表示输入的两个图形数据是否为同一类别,是为0,否为1,x和y为输入的第i组图形组合内的两个图形数据,为输入的两个图形数据为同一类别时的损失函数,为输入的两个图形数据不为同一类别时的损失函数;s413:根据所述损失函数,对所述两个图形识别网络进行训练,并进行网络参数共享,直到满足收敛条件,获得所述图形相似识别器。
20.基于所述处理器,即指令的功能执行单元,结合孪生网络并以所述图形标准与所述文档标准为基准,进行所述图形数据与所述图形标准中各个图形的相似度匹配,确定对应的图形适用度集;对所述文档数据进行独热编码转换,进而与所述文档标准内进行编码遍历匹配,获取匹配结果的映射适用度,集成作为所述文档适用度集。进一步对所述图形适用度集与所述文档适用度集进行加权计算,获取所述非结构化数据适用度集。
21.具体的,结合孪生网络,构建网络结构相同的两个图形识别网络,并对两个图形识别网络进行并行配置,进一步构建损失函数,表达式为:;,其中,loss为损失,m为根据所述图形数据集进行图形数据两两随机组合的图形数据组合的数量,p表示输入的两个图形数据是否为同一类别,是为0,否为1,x和y为输入的第i组图形组合内的两个图形数据,为输入的两个图形数据为同一类别时的损失函数,为输入的两个图形数据不为同一类别时的损失函数,上述参量皆可基于本技术实施例前期的处理与映射比对进行确定。
22.基于所述损失函数,结合所述图形数据集,对两个图形识别网络进行训练,用于进行待比对图形数据的相对损失分析与相似度评定。同时,所述两个图形识别网络的网络参数共享,直至满足收敛条件,例如网络训练精度满足阈值标准,停止训练并获取训练完成的所述图形相似识别器。
23.进一步将所述图形数据集内的多个图形与所述图形标准内的图形分别输入所述图形相似识别器内的两个图形识别网络,通过进行图形的特征提取映射与损失分析,以进行图形相似度匹配,确定所述图形数据集内各个图形所匹配的图形标准,作为所述匹配图形,将所述匹配图形所映射的图形适用度,作为所述图形数据集对应的所述图形适用度集。
24.针对所述文档数据集内的多个文档,对各个文档分别进行关键词拆分与独热编码转换,其中,具体关键词拆分方式与独热编码转换方式同上,获取缓缓后的所述多个文档对应的文档编码。进一步遍历所述文档编码词袋进行匹配,确定各个文档编码于所述文档编码词袋中的匹配编码,将匹配编码所映射的文档适用度,作为所述文档数据集对应的所述
文档适用度集合。
25.进而对所述图形数据集与所述文档数据集进行遍历与权重配置,示例性的,可基于图形数据与文档数据的数据重要度,进行权重分布。提取同作业标准书对应的所述图形适用度与所述文档适用度,赋权并进行加权计算,将赋权计算结果作为对应非结构化数据的适用度,并添加进所述非结构化数据适用度集。
26.s50:根据所述非结构化数据适用度集,分析所述非结构化数据集合内多个非结构化数据的局部离群值,获得多个局部离群值;进一步而言,根据所述非结构化数据适用度集,分析所述非结构化数据集合内多个非结构化数据的局部离群值,本技术s50还包括:;其中,为局部离群值,k为一非结构化数据适用度的离群系数,为非结构化数据适用度集的离群系数均值,k通过计算一非结构化数据适用度与最邻近的q个非结构化数据适用度的距离的均值获取,n为非结构化数据适用度集内非结构化数据适用度的数量。
27.具体的,针对所述非结构化数据适用度集中的多个非结构化适用度,两两进行适用度差值计算,作为适用度的距离。进一步构建局部离群值表达式:,其中,为局部离群值,k为一非结构化数据适用度的离群系数,为非结构化数据适用度集的离群系数均值,k通过计算与最邻近的q个非结构化数据适用度的距离的均值获取,n为非结构化数据适用度集内非结构化数据适用度的数量,上述参数皆可基于已知数据统计与计算进行获取。
28.其中,一非结构化数据适用度与其他适用度的距离,即差值越大,局部离群值越大。结合所述上述表达式,遍历所述非结构化数据适用度集,分别对各个非结构化数据适用度集进行局部离群值的计算,获取所述多个局部离群值。其中,局部离群值为管理参数确定的衡量依据。
29.s60:将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数;进一步而言,将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数,本技术s60还包括:s611:构建数据管理函数,如下式:;其中,pr为管理参数,fit为非结构数据适用度,iso为局部离群值,和为权重;s62:将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数。
30.具体的,获取数据管理函数表达式:,其中,pr为管理参数,fit为非结构数据适用度,iso为局部离群值,和为权重,上述参量可基于本技术
实施例前期的处理进行获取,配置权重可基于本领域技术人员基于管理影响度进行自定义配置。对所述非结构化数据适用度集内的多个适用度与所述多个局部离群值进行映射对应,获取映射结果并输入所述数据管理函数中,计算获取各个映射结果对应的管理参数,集成获取所述多个管理参数。以所述多个管理参数为基准,进行管理方案的决策获取。
31.s70:决策获取多个管理方案,对所述非结构化数据集合进行管理,其中,所述多个管理方案通过根据所述多个管理参数决策获得。
32.进一步而言,如图3所示,决策获取多个管理方案,本技术s70还包括:s71:根据所述指定单位的数据管理处理渠道,获取多个样本管理方案;s72:对所述多个管理参数加入数据噪声,获取多个样本管理参数;s73:以管理参数为决策特征,基于决策树算法,采用所述多个样本管理参数和多个样本管理方案,构建数据管理决策树;s74:将所述多个管理参数输入所述数据管理决策树,获得所述多个管理方案。
33.具体的,基于所述制动单位的数据管理处理渠道,例如历史处理记录等,进行检索并获取所述多个样本管理方案。进一步对所述多个管理参数加入数据噪声,获取所述多个样本管理参数,确保所述多个样本管理参数与所述多个管理参数相贴合且具有随机性。进一步的,以所述管理参数为决策特征,基于所述多个样本管理参数随机确定一项作为决策节点并构建第一决策层,并基于决策节点进行所述多个样本管理参数的二分类;再次基于所述多个样本管理参数随机提取一项作为决策节点构建第二决策层,对二分类结果再次进行划分;以此类推,直至达到最大构建层级,完成第n决策层的构建,进行所述第一决策层、所述第二决策层直至所述第n决策层的层级关联,并基于所述多个样本管理方案进行层级匹配与样本管理方案的标识,获取构建完成的所述数据管理决策树。
34.进一步将所述多个管理参数输入所述数据管理决策树中,进行层级遍历匹配,将匹配结果标识的样本管理方案,作为所述多个管理参数适配的管理方案,对其进行提取与整合,获取所述多个管理方案。基于所述多个管理方案,进行所述非结构化数据集合的针对性管理,并保障管理效果。
35.本技术提供的一种用于非结构化数据全生命周期管理的方法,具有如下技术效果:1、统计非结构化数据并进行文档数据与图形数据的提取,结合图形标准和文档标准,配置针对性处理方式进行相似性分析,确保数据分析结果的准确度。
36.2、基于孪生网络搭建图形相似识别器,进行图形数据的相似性分析以确定适用度;针对文档数据进行关键词拆分与独热编码转换,进行文本的有序量化及进行标准映射以确定适用度,提高适用度分析精度。
37.3、以适用度为基准进行局部离群分析,确定管理参数的衡量标准。结合处理函数,进行数据参量的特征量化,便于进行直观分析处理。以适用度与局部离群值为标准进行管理方案决策,确保方案的数据适配度。
实施例二
38.基于与前述实施例中一种用于非结构化数据全生命周期管理的方法相同的发明构思,如图4所示,本技术提供了一种用于非结构化数据全生命周期管理的系统,所述系统
包括:数据统计模块11,所述数据统计模块11用于通过接口,将所述非结构化数据管理装置接入指定单位的数据库,统计指定单位内全部的待进行管理的非结构化数据,获得非结构化数据集合;数据提取模块12,所述数据提取模块12用于通过所述图形提取器和文档提取器,提取所述非结构化数据集合内的图形数据和文档数据,整合获得图形数据集和文档数据集;数据标准获取模块13,所述数据标准获取模块13用于获取所述指定单位内的非结构化数据标准,其中,所述非结构化数据标准内包括图形标准和文档标准,图形标准内包括多个图形和多个适用度的映射关系;适用度分析模块14,所述适用度分析模块14用于在所述处理器内,根据所述图形标准和文档标准,对所述图形数据集和文档数据集进行适用度分析,获得图形适用度集和文档适用度集,并计算获得非结构化数据适用度集;局部离群值分析模块15,所述局部离群值分析模块15用于根据所述非结构化数据适用度集,分析所述非结构化数据集合内多个非结构化数据的局部离群值,获得多个局部离群值;管理参数计算模块16,所述管理参数计算模块16用于将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数;数据管理模块17,所述数据管理模块17用于决策获取多个管理方案,对所述非结构化数据集合进行管理,其中,所述多个管理方案通过根据所述多个管理参数决策获得。
39.进一步而言,所述数据标准获取模块13还包括:适用度分配模块,所述适用度分配模块用于根据所述图形数据集内的多个图形数据,进行适用度分配,获得多个图形适用度;文档适用度获取模块,所述文档适用度获取模块用于获取所述指定单位内非结构化数据中多个作业项目的多个项目文档集,并进行适用度分配,获得多个文档适用度集合;文档编码词袋构建模块,所述文档编码词袋构建模块用于对所述多个项目文档集进行关键词拆分和独热编码处理,构建文档编码词袋;适用度映射模块,所述适用度映射模块用于对所述多个图形数据和所述多个图形适用度进行映射,获得所述图形标准,对所述文档编码词袋和所述多个文档适用度集合进行映射,获得所述文档标准。
40.进一步而言,所述适用度分析模块14还包括:图形相似识别器训练模块,所述图形相似识别器训练模块用于基于孪生网络,采用所述图形数据集,训练图形相似识别器;图形适用度获取模块,所述图形适用度获取模块用于将所述图形数据集内的多个图形结合所述图形标准内的图形输入所述图形相似识别器,获取匹配图形,并映射获得所述图形适用度集;文档适用度获取模块,所述文档适用度获取模块用于将所述文档数据集内的多个文档进行关键词拆分,进行独热编码转换,结合所述文档编码词袋,统计获得所述文档适用度集;
数据适用度计算模块,所述数据适用度计算模块用于根据所述图形适用度集和文档适用度集,计算所述非结构化数据适用度集。
41.进一步而言,所述图形相似识别器训练模块还包括:图形识别网络构建模块,所述图形识别网络构建模块用于基于孪生网络,构建网络架构相同的两个图形识别网络;损失函数构建模块,所述损失函数构建模块用于构建损失函数,如下式:;;其中,loss为损失,m为根据所述图形数据集进行图形数据两两随机组合的图形数据组合的数量,p表示输入的两个图形数据是否为同一类别,是为0,否为1,x和y为输入的第i组图形组合内的两个图形数据,为输入的两个图形数据为同一类别时的损失函数,为输入的两个图形数据不为同一类别时的损失函数;网络训练模块,所述网络训练模块用于根据所述损失函数,对所述两个图形识别网络进行训练,并进行网络参数共享,直到满足收敛条件,获得所述图形相似识别器。
42.进一步而言,所述局部离群值分析模块15还包括:;其中,为局部离群值,k为一非结构化数据适用度的离群系数,为非结构化数据适用度集的离群系数均值,k通过计算一非结构化数据适用度与最邻近的q个非结构化数据适用度的距离的均值获取,n为非结构化数据适用度集内非结构化数据适用度的数量。
43.进一步而言,所述管理参数计算模块16还包括:数据管理函数构建模块,所述数据管理函数构建模块用于构建数据管理函数,如下式:;其中,pr为管理参数,fit为非结构数据适用度,iso为局部离群值,和为权重;参数获取模块,所述参数获取模块用于将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数。
44.进一步而言,所述数据管理模块17还包括:样本管理方案获取模块,所述样本管理方案获取模块用于根据所述指定单位的数据管理处理渠道,获取多个样本管理方案;样本管理参数获取模块,所述样本管理参数获取模块用于对所述多个管理参数加入数据噪声,获取多个样本管理参数;决策树构建模块,所述决策树构建模块用于以管理参数为决策特征,基于决策树算法,采用所述多个样本管理参数和多个样本管理方案,构建数据管理决策树;管理方案获取模块,所述管理方案获取模块用于将所述多个管理参数输入所述数据管理决策树,获得所述多个管理方案。
45.本说明书通过前述对一种用于非结构化数据全生命周期管理的方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种用于非结构化数据全生命周期管理的方法及系统,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
46.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种用于非结构化数据全生命周期管理的方法,其特征在于,所述方法应用于非结构化数据管理装置,所述装置包括文档提取器、图形提取器和处理器,所述方法包括:通过接口,将所述非结构化数据管理装置接入指定单位的数据库,统计指定单位内全部的待进行管理的非结构化数据,获得非结构化数据集合;通过所述图形提取器和文档提取器,提取所述非结构化数据集合内的图形数据和文档数据,整合获得图形数据集和文档数据集;获取所述指定单位内的非结构化数据标准,其中,所述非结构化数据标准内包括图形标准和文档标准,图形标准内包括多个图形和多个适用度的映射关系;在所述处理器内,根据所述图形标准和文档标准,对所述图形数据集和文档数据集进行适用度分析,获得图形适用度集和文档适用度集,并计算获得非结构化数据适用度集;根据所述非结构化数据适用度集,分析所述非结构化数据集合内多个非结构化数据的局部离群值,获得多个局部离群值;将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数;决策获取多个管理方案,对所述非结构化数据集合进行管理,其中,所述多个管理方案通过根据所述多个管理参数决策获得。2.根据权利要求1所述的方法,其特征在于,获取所述指定单位内的非结构化数据标准,包括:根据所述图形数据集内的多个图形数据,进行适用度分配,获得多个图形适用度;获取所述指定单位内非结构化数据中多个作业项目的多个项目文档集,并进行适用度分配,获得多个文档适用度集合;对所述多个项目文档集进行关键词拆分和独热编码处理,构建文档编码词袋;对所述多个图形数据和所述多个图形适用度进行映射,获得所述图形标准,对所述文档编码词袋和所述多个文档适用度集合进行映射,获得所述文档标准。3.根据权利要求2所述的方法,其特征在于,根据所述图形标准和文档标准,对所述图形数据集和文档数据集进行适用度分析,包括:基于孪生网络,采用所述图形数据集,训练图形相似识别器;将所述图形数据集内的多个图形结合所述图形标准内的图形输入所述图形相似识别器,获取匹配图形,并映射获得所述图形适用度集;将所述文档数据集内的多个文档进行关键词拆分,进行独热编码转换,结合所述文档编码词袋,统计获得所述文档适用度集;根据所述图形适用度集和文档适用度集,计算所述非结构化数据适用度集。4.根据权利要求3所述的方法,其特征在于,基于孪生网络,采用所述图形数据集,训练图形相似识别器,包括:基于孪生网络,构建网络架构相同的两个图形识别网络;构建损失函数,如下式:;
;其中,loss为损失,m为根据所述图形数据集进行图形数据两两随机组合的图形数据组合的数量,p表示输入的两个图形数据是否为同一类别,是为0,否为1,x和y为输入的第i组图形组合内的两个图形数据,为输入的两个图形数据为同一类别时的损失函数,为输入的两个图形数据不为同一类别时的损失函数;根据所述损失函数,对所述两个图形识别网络进行训练,并进行网络参数共享,直到满足收敛条件,获得所述图形相似识别器。5.根据权利要求1所述的方法,其特征在于,根据所述非结构化数据适用度集,分析所述非结构化数据集合内多个非结构化数据的局部离群值,如下式:;其中,为局部离群值,k为一非结构化数据适用度的离群系数,为非结构化数据适用度集的离群系数均值,k通过计算一非结构化数据适用度与最邻近的q个非结构化数据适用度的距离的均值获取,n为非结构化数据适用度集内非结构化数据适用度的数量。6.根据权利要求1所述的方法,其特征在于,将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数,包括:构建数据管理函数,如下式:;其中,pr为管理参数,fit为非结构数据适用度,iso为局部离群值,和为权重;将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数。7.根据权利要求1所述的方法,其特征在于,决策获取多个管理方案,包括:根据所述指定单位的数据管理处理渠道,获取多个样本管理方案;对所述多个管理参数加入数据噪声,获取多个样本管理参数;以管理参数为决策特征,基于决策树算法,采用所述多个样本管理参数和多个样本管理方案,构建数据管理决策树;将所述多个管理参数输入所述数据管理决策树,获得所述多个管理方案。8.一种用于非结构化数据全生命周期管理的系统,其特征在于,所述系统应用于非结构化数据管理装置,所述装置包括文档提取器、图形提取器和处理器,所述系统包括:数据统计模块,所述数据统计模块用于通过接口,将所述非结构化数据管理装置接入指定单位的数据库,统计指定单位内全部的待进行管理的非结构化数据,获得非结构化数据集合;数据提取模块,所述数据提取模块用于通过所述图形提取器和文档提取器,提取所述非结构化数据集合内的图形数据和文档数据,整合获得图形数据集和文档数据集;数据标准获取模块,所述数据标准获取模块用于获取所述指定单位内的非结构化数据标准,其中,所述非结构化数据标准内包括图形标准和文档标准,图形标准内包括多个图形
和多个适用度的映射关系;适用度分析模块,所述适用度分析模块用于在所述处理器内,根据所述图形标准和文档标准,对所述图形数据集和文档数据集进行适用度分析,获得图形适用度集和文档适用度集,并计算获得非结构化数据适用度集;局部离群值分析模块,所述局部离群值分析模块用于根据所述非结构化数据适用度集,分析所述非结构化数据集合内多个非结构化数据的局部离群值,获得多个局部离群值;管理参数计算模块,所述管理参数计算模块用于将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数;数据管理模块,所述数据管理模块用于决策获取多个管理方案,对所述非结构化数据集合进行管理,其中,所述多个管理方案通过根据所述多个管理参数决策获得。

技术总结
本发明提供了一种用于非结构化数据全生命周期管理的方法及系统,涉及数据管理技术领域,统计指定单位的非结构化数据并提取图形数据集和文档数据集,结合非结构化数据标准确定图形适用度集和文档适用度集,并计算非结构化数据适用度集,分析多个非结构化数据的局部离群值,结合数据管理函数计算获得多个管理参数,决策获取多个管理方案进行非结构化数据集合的管理,解决了现有技术中存在的无法适应波动性多源数据的有序性整体管理,导致数据管理效果不佳的技术问题,统计非结构化数据并进行文档数据与图形数据的提取,分别配置针对性处理方式进行处理,基于确定的管理参数配置适配管理方案,针对数据的全生命周期进行有效管理。理。理。


技术研发人员:马欣 于飞 徐旭 章欣
受保护的技术使用者:北明明润(北京)科技有限公司
技术研发日:2023.08.16
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐