信创环境下基于人工智能实现数据清洗的方法、装置、处理器及其计算机可读存储介质与流程

未命名 09-12 阅读:89 评论:0


1.本发明涉及计算机领域,尤其涉及数据治理领域,具体是指一种信创环境下基于人工智能实现数据清洗的方法、装置、处理器及其计算机可读存储介质。


背景技术:

2.传统的数据清洗方法通常需要大量的人工干预,不仅耗时耗力,而且容易引入人为错误,对数据质量的提升有限。现有技术的不足:效率和准确性有限:传统的数据清洗方法通常依赖于人工操作,这不仅导致效率低下,而且可能引入人为错误,影响数据清洗的准确性;缺乏自动化和智能化:现有的数据清洗方法往往缺乏自动化和智能化的能力,不能有效地处理大规模、高维度和复杂性的数据;数据质量评估不全面:现有的数据清洗方法通常只关注数据的某一或几个方面的质量,例如完整性或一致性,而忽视了其他重要的质量因素,如及时性、准确性、有效性和唯一性;因此,如何提高数据清洗的效率和准确性,降低人工干预,保证数据的全面质量,成为了亟待解决的问题。
3.cn201711059055.x提出了一种数据清洗整合方法及系统,所述方法包括如下步骤:获取待清洗的数据;对待清洗的数据进行识别确定公式数据以及非公式数据;调用公式编辑器识别该公式数据并转换成非公式格式的文档;对该非公式格式的文档以及非公式数据执行数据清洗得到清洗后的数据,将清洗后的非公式格式的文档还原成公式编辑器格式后,插入到对应位置以完成对整个数据的清洗。本发明提供的技术方案能够对公式进行处理的优点。
4.cn202211699381.8提出了一种数据库的数据清洗方法、装置、电子设备及可读介质,其中,方法包括:获取消息队列集群中的消息队列数据;解析消息队列数据,以确定消息队列数据的数据类型;根据数据类型和消息队列数据所属业务的业务需求,生成与消息队列数据匹配的目标配置文件;调用清洗线程加载目标配置文件,以使清洗线程对消息队列数据进行数据清洗,得到清洗数据。通过定制与消息队列数据及业务需求匹配的目标配置文件,然后根据目标配置文件来清洗数据,解决了无法快速针对不同场景的需求类型来定制化指标组合的问题。
5.cn202310101627.5提出一种数据清洗方法、装置、设备及介质,其中,所述方法包括:获取预设字段三元组列表和预设任务数据列表;根据所述预设任务数据列表,获取第一数据列表;根据所述第一数据列表和所述预设字段三元组列表,获取第一字段名列表;根据所述第一字段名列表,获取第二字段名列表;根据所述第二字段名列表和所述预设任务数据列表,获取目标数据列表,以使得对所述目标数据列表进行数据清洗;可知,只使用一个通用性强的数据清洗判断条件对待处理数据进行数据清洗,存储量较小,不会造成资源浪费;对待处理数据按照多种方法进行处理,获取目标数据列表,减少了系统整体的数据处理量,有利于提高系统的运行效率。


技术实现要素:

6.本发明的目的是克服了上述现有技术的缺点,提供了一种满足准确性高、一致性好、适用范围较为广泛的信创环境下基于人工智能实现数据清洗的方法、装置、处理器及其计算机可读存储介质。
7.为了实现上述目的,本发明的信创环境下基于人工智能实现数据清洗的方法、装置、处理器及其计算机可读存储介质如下:
8.该信创环境下基于人工智能实现数据清洗的方法,其主要特点是,所述的方法包括以下步骤:
9.(1)进行数据预处理,并进行特征工程;
10.(2)进行机器学习模型的构建和训练;
11.(3)进行清洗结果的应用和评估。
12.较佳地,所述的步骤(1)的进行数据预处理,具体包括数据清洗、去除噪声和异常值和处理缺失值。
13.较佳地,所述的步骤(1)的进行特征工程,具体为:选择合适的特征并进行编码。
14.较佳地,所述的步骤(2)具体包括以下步骤:
15.(2.1)进行数据标注,准备一个标注的数据集;
16.(2.2)从原始数据中提取特征,作为机器学习模型的输入;
17.(2.3)根据清洗任务的特点选择合适的机器学习模型,使用标注数据集进行模型训练,优化模型参数;
18.(2.4)使用验证数据集评估模型的性能,并进行模型调优。
19.较佳地,所述的步骤(2.3)采用了改进蜂群优化神经网络,在每次迭代更新神经网络的权重和偏差,具体包括以下步骤:
20.(2.3.1)初始化蜜蜂的位置,即神经网络的权重和偏差;
21.(2.3.2)通过神经网络在训练数据上的表现,评估每个蜜蜂的适应度;
22.(2.3.3)根据混沌映射和基于距离的选择策略,选择新的位置;
23.(2.3.4)若新的权重和偏差产生更低的损失,则更新蜜蜂的位置;
24.(2.3.5)重复步骤(2.3.2)至(2.3.4),直到满足停止条件。
25.较佳地,所述的步骤(3)具体包括以下步骤:
26.(3.1)为数据质量评估的每个因素都定义一个评估函数;
27.(3.2)通过每个因素的评估函数计算每个因素对应的评分;
28.(3.3)根据所有因素的评分计算一个总体的数据质量评分;
29.(3.4)通过总体的数据质量评分来衡量整个数据集的质量。
30.较佳地,所述的步骤(3.2)包含计算完整性评分c,具体为:
31.根据以下公式计算完整性评分c:
32.c=(1-(空值数量/总值数量))
×
100;
33.所述的步骤(3.2)包含计算一致性评分cons,具体为:
34.根据以下公式计算一致性评分cons:
35.cons=(1-(矛盾数据数量/总数据数量))
×
100;
36.所述的步骤(3.2)包含计算及时性评分t,具体为:
37.根据以下公式计算及时性评分t:
38.t=(1-((当前日期-数据生成日期)/最大可接受日期差))
×
100;所述的步骤(3.2)包含计算准确性评分a,具体为:
39.根据以下公式计算准确性评分a:
40.a=(1-(错误数据数量/总数据数量))
×
100;
41.所述的步骤(3.2)包含计算有效性评分v,具体为:
42.根据以下公式计算有效性评分v:
43.v=(1-(不符合规则的数据数量/总数据数量))
×
100;
44.所述的步骤(3.2)包含计算唯一性评分u,具体为:
45.根据以下公式计算唯一性评分u:
46.u=(1-(重复数据数量/总数据数量))
×
100。
47.较佳地,所述的步骤(3.3)中计算总体的数据质量评分,具体为:
48.根据以下公式计算总体的数据质量评分:
49.q=w1
×
c+w2
×
cons+w3
×
t+w4
×
a+w5
×
v+w6
×
u;
50.其中,q是总体数据质量评分,c、cons、t、a、v、u分别代表了完整性评分、一致性评分、及时性评分、准确性评分、有效性评分和唯一性评分,w1、w2、w3、w4、w5、w6为每个因素的权重值。
51.该信创环境下用于实现基于人工智能的数据清洗的装置,其主要特点是,所述的装置包括:
52.处理器,被配置成执行计算机可执行指令;
53.存储器,存储一个或多个计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的信创环境下基于人工智能实现数据清洗的方法的各个步骤。
54.该信创环境下用于实现基于人工智能的数据清洗的处理器,其主要特点是,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的信创环境下基于人工智能实现数据清洗的方法的各个步骤。
55.该计算机可读存储介质,其主要特点是,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述的信创环境下基于人工智能实现数据清洗的方法的各个步骤。
56.采用了本发明的信创环境下基于人工智能实现数据清洗的方法、装置、处理器及其计算机可读存储介质,有效地结合了机器学习算法和蜂群优化神经网络,以提高数据清洗的效率和准确性。该方法能够提高数据清洗的效率和准确性,保证数据质量和一致性,减少人工干预,以支持更精准的数据分析和决策。
附图说明
57.图1为本发明的信创环境下基于人工智能实现数据清洗的方法的步骤流程图。
58.图2为本发明的信创环境下基于人工智能实现数据清洗的方法的神经网络结构示意图。
具体实施方式
59.为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
60.本发明的该信创环境下基于人工智能实现数据清洗的方法,其中包括以下步骤:
61.(1)进行数据预处理,并进行特征工程;
62.(2)进行机器学习模型的构建和训练;
63.(3)进行清洗结果的应用和评估。
64.作为本发明的优选实施方式,所述的步骤(1)的进行数据预处理,具体包括数据清洗、去除噪声和异常值和处理缺失值。
65.作为本发明的优选实施方式,所述的步骤(1)的进行特征工程,具体为:选择合适的特征并进行编码。
66.作为本发明的优选实施方式,所述的步骤(2)具体包括以下步骤:
67.(2.1)进行数据标注,准备一个标注的数据集;
68.(2.2)从原始数据中提取特征,作为机器学习模型的输入;
69.(2.3)根据清洗任务的特点选择合适的机器学习模型,使用标注数据集进行模型训练,优化模型参数;
70.(2.4)使用验证数据集评估模型的性能,并进行模型调优。
71.作为本发明的优选实施方式,所述的步骤(2.3)采用了改进蜂群优化神经网络,在每次迭代更新神经网络的权重和偏差,具体包括以下步骤:
72.(2.3.1)初始化蜜蜂的位置,即神经网络的权重和偏差;
73.(2.3.2)通过神经网络在训练数据上的表现,评估每个蜜蜂的适应度;
74.(2.3.3)根据混沌映射和基于距离的选择策略,选择新的位置;
75.(2.3.4)若新的权重和偏差产生更低的损失,则更新蜜蜂的位置;
76.(2.3.5)重复步骤(2.3.2)至(2.3.4),直到满足停止条件。
77.作为本发明的优选实施方式,所述的步骤(3)具体包括以下步骤:
78.(3.1)为数据质量评估的每个因素都定义一个评估函数;
79.(3.2)通过每个因素的评估函数计算每个因素对应的评分;
80.(3.3)根据所有因素的评分计算一个总体的数据质量评分;
81.(3.4)通过总体的数据质量评分来衡量整个数据集的质量。
82.作为本发明的优选实施方式,所述的步骤(3.2)包含计算完整性评分c,具体为:
83.根据以下公式计算完整性评分c:
84.c=(1-(空值数量/总值数量))
×
100;
85.所述的步骤(3.2)包含计算一致性评分cons,具体为:
86.根据以下公式计算一致性评分cons:
87.cons=(1-(矛盾数据数量/总数据数量))
×
100;
88.所述的步骤(3.2)包含计算及时性评分t,具体为:
89.根据以下公式计算及时性评分t:
90.t=(1-((当前日期-数据生成日期)/最大可接受日期差))
×
100;
91.所述的步骤(3.2)包含计算准确性评分a,具体为:
92.根据以下公式计算准确性评分a:
93.a=(1-(错误数据数量/总数据数量))
×
100;
94.所述的步骤(3.2)包含计算有效性评分v,具体为:
95.根据以下公式计算有效性评分v:
96.v=(1-(不符合规则的数据数量/总数据数量))
×
100;
97.所述的步骤(3.2)包含计算唯一性评分u,具体为:
98.根据以下公式计算唯一性评分u:
99.u=(1-(重复数据数量/总数据数量))=100。
100.作为本发明的优选实施方式,所述的步骤(3.3)中计算总体的数据质量评分,具体为:
101.根据以下公式计算总体的数据质量评分:
102.q=w1
×
c+w2
×
cons+w3
×
t+w4
×
a+w5
×
v+w6
×
u;
103.其中,q是总体数据质量评分,c、cons、t、a、v、u分别代表了完整性评分、一致性评分、及时性评分、准确性评分、有效性评分和唯一性评分,w1、w2、w3、w4、w5、w6为每个因素的权重值。
104.本发明的该信创环境下用于实现基于人工智能的数据清洗的装置,其中所述的装置包括:
105.处理器,被配置成执行计算机可执行指令;
106.存储器,存储一个或多个计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的信创环境下基于人工智能实现数据清洗的方法的各个步骤。
107.本发明的该信创环境下用于实现基于人工智能的数据清洗的处理器,其中所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的信创环境下基于人工智能实现数据清洗的方法的各个步骤。
108.本发明的该计算机可读存储介质,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述的信创环境下基于人工智能实现数据清洗的方法的各个步骤。
109.在当前的信创环境中,数据质量成为影响数据分析和决策效果的重要因素。数据清洗,作为提高数据质量的关键步骤,是识别并纠正或删除数据中的错误、异常和不一致性的过程。
110.本发明的具体实施方式中,提出了一种使用机器学习和蜂群优化神经网络进行数据清洗的方法,该方法包括数据预处理,特征工程,机器学习模型的构建和训练,以及清洗结果的应用和评估。利用机器学习算法和技术来自动检测和纠正数据中的错误、异常和不一致性。
111.机器学习在数据清洗中的应用:本发明提出了使用机器学习模型自动检测和纠正数据中的错误、异常和不一致性,而非传统的人工清洗方法。这种方法显著提高了数据清洗的效率和准确性。
112.蜂群优化神经网络:本发明将蜂群优化算法和神经网络有效结合,以进行数据清洗任务。这一点不仅提高了神经网络的全局搜索能力,而且通过混沌映射增加了搜索的多样性,基于距离的选择策略使搜索更加聚焦,可以更快地找到优解。
113.全面的数据质量评估:在清洗后,本发明提出了一套全面的数据质量评估机制,考
虑了数据的完整性、一致性、及时性、准确性、有效性和唯一性,从而确保了数据清洗的效果和数据的质量。
114.数据清洗的端到端流程:本发明提出了一种从数据预处理、特征工程,到机器学习模型构建、训练,再到清洗结果应用和评估的完整数据清洗流程。这种流程不仅提高了数据清洗的效率和效果,而且大大降低了人工干预的需求。
115.本发明的信创环境下基于人工智能实现数据清洗的方法,其中,包括以下步骤:
116.步骤一:进行清洗前的准备工作。
117.在使用机器学习进行数据清洗之前,需要进行以下准备工作:
118.数据预处理:包括数据清洗、去除噪声和异常值、处理缺失值等。这些步骤可减少模型训练的干扰和误差。
119.特征工程:选择合适的特征并进行编码,以供机器学习模型使用。特征工程的质量对模型性能至关重要。
120.步骤二:进行机器学习模型的构建和训练。
121.数据清洗方法涉及以下步骤:
122.1)数据标注:准备一个标注的数据集,包含原始数据和对应的清洗结果。标注数据可以通过人工清洗、领域知识专家或其他自动化方法获得。
123.2)特征提取:从原始数据中提取特征,用于机器学习模型的输入。常见的特征包括数据的统计属性、文本特征、时间序列特征等。
124.3)模型涉及和训练:根据清洗任务的特点选择合适的机器学习模型。使用标注数据集进行模型训练,优化模型参数。
125.本发明提出一种改进蜂群优化神经网络。神经网络的基本架构是一个多层感知机,用于从数据中提取特征并进行分类。如图2所示:
126.多层感知机的基本公式如下:
127.h
(l)
=σ(w
(l)h(l-1)
+b
(l)
);
128.其中,h
(l)
是第l层的输出,w
(l)
和b
(l)
是第l层的权重和偏差,σ是激活函数。
129.蜂群优化算法是一种模拟蜜蜂觅食行为的优化算法。在改进蜂群优化神经网络中,该算法用于优化神经网络的权重和偏差。
130.改进的蜂群优化算法引入了两个新的概念:混沌映射和基于距离的选择策略。
131.混沌映射:为了增加蜂群搜索的多样性,使用混沌映射来更新蜜蜂的位置。混沌映射的公式如下:
132.x
new
=x
old

×
(1-2
×
logistic(x
old
));
133.其中,x
new
是新的位置,x
old
是旧的位置,λ是控制混沌映射强度的参数。在优化过程中,学习率对收敛速度和模型性能有重要影响。如果学习率过大,可能会导致收敛过快,错过全局最优解;如果学习率过小,可能会导致收敛过慢,甚至陷入局部最优解。
134.自适应学习率策略是一种动态调整学习率的方法,使得学习率能根据训练进度和损失函数的变化自动调整。这种策略的公式如下:
[0135][0136]
其中,λ
t
是第t次迭代的学习率,λ
t-1
是第t-1次迭代的学习率,δ
t
是一个预设的衰减
因子,t是迭代次数。
[0137]
这种自适应学习率策略可以使模型在训练初期快速收敛,而在接近全局最优解时减小学习率,以提高模型的性能和稳健性。
[0138]
logistic(x)是logistic映射,计算公式如下:
[0139]
logistic(x)=4x(1-x);
[0140]
基于距离的选择策略:在选择新的觅食地点时,蜜蜂不仅考虑觅食地点的质量,还考虑其与当前位置的距离。距离越近,选择的可能性越大。距离d的计算公式为:
[0141]
d=||x
new-x
old
||;
[0142]
在训练过程中,使用改进的蜂群优化算法来更新神经网络的权重和偏差。优化目标是最小化交叉熵损失函数,其公式如下:
[0143][0144]
其中,yi是真实标签,p(yi)是模型的预测结果,n是样本总数。
[0145]
蜂群优化算法的每次迭代都会更新神经网络的权重和偏差,步骤如下:
[0146]
1、初始化蜜蜂的位置,即神经网络的权重和偏差。
[0147]
2、评估每个蜜蜂的适应度,即通过神经网络在训练数据上的表现。
[0148]
3、根据混沌映射和基于距离的选择策略,选择新的位置。
[0149]
4、如果新的位置(即新的权重和偏差)得到了更低的损失,那么更新蜜蜂的位置。
[0150]
5、重复步骤2-4,直到满足停止条件(例如,达到最大迭代次数或损失低于预定阈值)。
[0151]
本发明所提出的方法有效地结合了神经网络的表达能力和蜂群优化算法的全局搜索能力,提高了数据清洗任务的性能。混沌映射增加了搜索的多样性,基于距离的选择策略使搜索更加聚焦,可以更快地找到优解。
[0152]
4)模型评估和调优:使用验证数据集评估模型的性能,并进行模型调优,如调整模型超参数、采用集成学习方法等。
[0153]
步骤三:清洗结果的应用和评估;
[0154]
经过训练的机器学习模型可以应用于未清洗的数据集,自动检测和纠正数据中的错误和异常。清洗结果可以用于后续的数据分析、挖掘和决策。清洗结果的评估是确保清洗效果的关键步骤。本发明对于数据质量评估,包括以下几个主要因素:完整性,一致性,及时性,准确性,有效性,唯一性。
[0155]
首先,为每个因素都定义一个评估函数,然后通过这些函数来计算一个总体的数据质量评分。这个总体评分可以被用来衡量整个数据集的质量。下面是每个因素可能的评估函数的描述和公式推导:
[0156]
完整性:衡量数据集中空值的多少。对于给定的数据集,可以通过以下公式来计算完整性评分:
[0157]
c=(1-(空值数量/总值数量))
×
100;
[0158]
一致性:衡量数据集中矛盾的数据的多少。可以通过以下公式来计算一致性评分:
[0159]
cons=(1-(矛盾数据数量/总数据数量))
×
100;
[0160]
及时性:衡量数据的新旧程度。这可以通过比较数据的生成日期和当前日期来计算。其公式为:
[0161]
t=91-((当前日期-数据生成日期)/最大可接受日期差))
×
100;
[0162]
准确性:衡量数据的准确程度。可以通过以下公式来计算准确性评分:
[0163]
a=(1-(错误数据数量/总数据数量))
×
100;
[0164]
有效性:衡量数据是否符合预定义的规则、约束或定义。其公式为:
[0165]
v=(1-(不符合规则的数据数量/总数据数量))
×
100;
[0166]
唯一性:衡量数据是否有重复。可以通过以下公式来计算唯一性评分:
[0167]
u=(1-(重复数据数量/总数据数量))
×
100;
[0168]
以上各项指标范围都是0-100,数值越高表示该项指标越好。
[0169]
然后,使用一个公式来将这些因素的评分整合到一个总体的数据质量评分中。为每个因素都设置一个权重值,然后通过加权平均的方式来计算总体评分。这个公式如下所示:
[0170]
q=w1
×
c+w2
×
cons+w3
×
t+w4
×
a+w5
×
v+w6
×
u;
[0171]
其中,q是总体数据质量评分,c、cons、t、a、v、u分别代表了完整性、一致性、及时性、准确性、有效性和唯一性的评分。w1、w2、w3、w4、w5、w6是每个因素的权重值,这些权重值的设置取决于你对每个因素的重视程度。
[0172]
本实施例的具体实现方案可以参见上述实施例中的相关说明,此处不再赘述。
[0173]
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
[0174]
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
[0175]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0176]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0177]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0178]
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模
块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0179]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0180]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0181]
本发明提出了一种信创环境下基于人工智能的数据清洗方法,有效地结合了机器学习算法和蜂群优化神经网络,以提高数据清洗的效率和准确性。主要的技术效果包括:
[0182]
1、提高数据清洗效率和准确性:通过使用机器学习算法自动检测和纠正数据中的错误、异常和不一致性,本发明显著提高了数据清洗的效率和准确性。特别是,使用蜂群优化神经网络,结合了神经网络的表达能力和蜂群优化算法的全局搜索能力,为数据清洗任务提供了更高的性能。
[0183]
2、减少人工干预:本发明减少了对人工干预的需求,降低了数据清洗的劳动强度和时间成本,同时避免了人为错误。
[0184]
3、保证数据质量和一致性:通过全面的数据质量评估,本发明确保了数据的完整性、一致性、及时性、准确性、有效性和唯一性,进一步保证了数据的质量和一致性。
[0185]
4、具有普适性和可扩展性:本发明的方法不仅适用于特定类型的数据或特定的数据清洗任务,还具有良好的可扩展性,可以应用于更广泛的数据类型和清洗任务。
[0186]
5、促进数据分析和决策:经过清洗的数据更加准确和一致,可以更好地支持后续的数据分析、数据挖掘和决策,从而提高业务效率和决策质量。
[0187]
采用了本发明的信创环境下基于人工智能实现数据清洗的方法、装置、处理器及其计算机可读存储介质,有效地结合了机器学习算法和蜂群优化神经网络,以提高数据清洗的效率和准确性。该方法能够提高数据清洗的效率和准确性,保证数据质量和一致性,减少人工干预,以支持更精准的数据分析和决策。
[0188]
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

技术特征:
1.一种信创环境下基于人工智能实现数据清洗的方法,其特征在于,所述的方法包括以下步骤:(1)进行数据预处理,并进行特征工程;(2)进行机器学习模型的构建和训练;(3)进行清洗结果的应用和评估。2.根据权利要求1所述的信创环境下基于人工智能实现数据清洗的方法,其特征在于,所述的步骤(1)的进行数据预处理,具体包括数据清洗、去除噪声和异常值和处理缺失值。3.根据权利要求1所述的信创环境下基于人工智能实现数据清洗的方法,其特征在于,所述的步骤(1)的进行特征工程,具体为:选择合适的特征并进行编码。4.根据权利要求1所述的信创环境下基于人工智能实现数据清洗的方法,其特征在于,所述的步骤(2)具体包括以下步骤:(2.1)进行数据标注,准备一个标注的数据集;(2.2)从原始数据中提取特征,作为机器学习模型的输入;(2.3)根据清洗任务的特点选择合适的机器学习模型,使用标注数据集进行模型训练,优化模型参数;(2.4)使用验证数据集评估模型的性能,并进行模型调优。5.根据权利要求4所述的信创环境下基于人工智能实现数据清洗的方法,其特征在于,所述的步骤(2.3)采用了改进蜂群优化神经网络,在每次迭代更新神经网络的权重和偏差,具体包括以下步骤:(2.3.1)初始化蜜蜂的位置,即神经网络的权重和偏差;(2.3.2)通过神经网络在训练数据上的表现,评估每个蜜蜂的适应度;(2.3.3)根据混沌映射和基于距离的选择策略,选择新的位置;(2.3.4)若新的权重和偏差产生更低的损失,则更新蜜蜂的位置;(2.3.5)重复步骤(2.3.2)至(2.3.4),直到满足停止条件。6.根据权利要求1所述的信创环境下基于人工智能实现数据清洗的方法,其特征在于,所述的步骤(3)具体包括以下步骤:(3.1)为数据质量评估的每个因素都定义一个评估函数;(3.2)通过每个因素的评估函数计算每个因素对应的评分;(3.3)根据所有因素的评分计算一个总体的数据质量评分;(3.4)通过总体的数据质量评分来衡量整个数据集的质量。7.根据权利要求6所述的信创环境下基于人工智能实现数据清洗的方法,其特征在于,所述的步骤(3.2)包含计算完整性评分c,具体为:根据以下公式计算完整性评分c:c=(1-(空值数量/总值数量))
×
100;所述的步骤(3.2)包含计算一致性评分cons,具体为:根据以下公式计算一致性评分cons:cons=(1-(矛盾数据数量/总数据数量))
×
100;所述的步骤(3.2)包含计算及时性评分t,具体为:根据以下公式计算及时性评分t:
t=(1-((当前日期-数据生成日期)/最大可接受日期差))
×
100;所述的步骤(3.2)包含计算准确性评分a,具体为:根据以下公式计算准确性评分a:a=(1-(错误数据数量/总数据数量))
×
100;所述的步骤(3.2)包含计算有效性评分v,具体为:根据以下公式计算有效性评分v:v=(1-(不符合规则的数据数量/总数据数量))
×
100;所述的步骤(3.2)包含计算唯一性评分u,具体为:根据以下公式计算唯一性评分u:u=(1-(重复数据数量/总数据数量))
×
100。8.根据权利要求1所述的信创环境下基于人工智能实现数据清洗的方法,其特征在于,所述的步骤(3.3)中计算总体的数据质量评分,具体为:根据以下公式计算总体的数据质量评分:q=w1
×
c+w2
×
cons+w3
×
t+w4
×
a+w5
×
v+w6
×
u;其中,q是总体数据质量评分,c、cons、t、a、v、u分别代表了完整性评分、一致性评分、及时性评分、准确性评分、有效性评分和唯一性评分,w1、w2、w3、w4、w5、w6为每个因素的权重值。9.一种信创环境下用于实现基于人工智能的数据清洗的装置,其特征在于,所述的装置包括:处理器,被配置成执行计算机可执行指令;存储器,存储一个或多个计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现权利要求1至8中任一项所述的信创环境下基于人工智能实现数据清洗的方法的各个步骤。10.一种信创环境下用于实现基于人工智能的数据清洗的处理器,其特征在于,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现权利要求1至8中任一项所述的信创环境下基于人工智能实现数据清洗的方法的各个步骤。11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现权利要求1至8中任一项所述的信创环境下基于人工智能实现数据清洗的方法的各个步骤。

技术总结
本发明涉及一种信创环境下基于人工智能实现数据清洗的方法,包括。本发明还涉及一种信创环境下用于实现基于人工智能的数据清洗的装置、处理器及其计算机可读存储介质。采用了本发明的信创环境下基于人工智能实现数据清洗的方法、装置、处理器及其计算机可读存储介质,有效地结合了机器学习算法和蜂群优化神经网络,以提高数据清洗的效率和准确性。该方法能够提高数据清洗的效率和准确性,保证数据质量和一致性,减少人工干预,以支持更精准的数据分析和决策。数据分析和决策。数据分析和决策。


技术研发人员:孙艳彬 魏明
受保护的技术使用者:普元信息技术股份有限公司
技术研发日:2023.07.04
技术公布日:2023/9/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐