数据清洗流程方法与流程

未命名 09-17 阅读:108 评论:0

数据清洗流程方法
【技术领域】
1.本发明涉及数据清洗流程方法的技术领域,特别是数据清洗流程方法的技术领域。


背景技术:

2.在厨具制造工业数据集成过程中,面临工业数据复杂多样,数据集成过程中的数据质量难以保障;现有的etl(提取-转换-加载)任务脚本调度方案效率低、核心业务数据更新慢,难以适应厨具制造工业大数据环境下的数据集成需求等问题。
3.本项目基于soa架构工业大数据融合、基于tan网多源异构不精确数据的清洗、etl的数据仓库管理集成技术构建自主可控智能数据资源管理平台,实现数据资源的自主可控智能化管理。
4.为了解决上述问题,实现数据资源的自主可控智能化管理,有必要提出数据清洗流程方法。


技术实现要素:

5.本发明的目的就是解决现有技术中的问题,提出数据清洗流程方法,能够从多角度、全方位判定数据来源的权威性、可靠性。
6.为实现上述目的,本发明提出了数据清洗流程方法,包括如下步骤;
7.步骤一:进行数据采集;
8.步骤二:全字段统计重复记录数据;
9.步骤三:将数据表存在重复的数据进行数据去重;
10.步骤四:将数据进行格式转换;
11.步骤五:将转换成功的数据进行缺省值处理;
12.步骤六:进行编码标准化处理;
13.步骤七:进行黄金数据源判定;
14.步骤八:进行数据整合;
15.步骤九:数据清洗完成。
16.作为优选,所述步骤三中,若数据表不存在重复的数据,则直接进行格式转换。
17.作为优选,所述步骤四中,格式转换包含日期格式转换、字符转换数字等。
18.作为优选,所述步骤五中,若数据进行格式转换不成功,则对转换不成功的数据赋特殊值,然后再进行缺省值处理。
19.作为优选,所述步骤五中,缺省值处理包含日期、金额、长度等。
20.作为优选,所述步骤七中,黄金数据源判定的流程如下;
21.step1:判断黄金数据源是否可以专家评定,若黄金数据源可以专家评定,则专家判定黄金源数据后,黄金数据源判定结束;
22.step2:若黄金数据源不可以专家评定,则要进入下述判定流程;
23.s1、导入要比较的样品数据;
24.s2、统计字段空值率;
25.s3、计算数据完整性指标;
26.s4、抽样检查数据的准确性;
27.s5、计算数据准确性指标;
28.s6、统计数据更新的时间点;
29.s7、计算数据时效性指标;
30.s8、统计可用记录数;
31.s9、计算数据可用性指标;
32.s10、汇总计算数据质量指标;
33.s11、进行数据源指标得分对比;
34.a.比分超过2:1后,则确定黄金数据源,黄金数据源判定结束;
35.b.比分没有超过2:1后,检验通过源数据统计数据被引用数量;
36.b1.若数量比例超过1:1,则确定黄金数据源,黄金数据源判定结束;
37.b2.若数量比例没有超过1:1,则无黄金数据源,黄金数据源判定结束。
38.作为优选,所述s3中,完整性等于完整记录数除以总记录数后得到的数值再乘以100%。
39.作为优选,所述s5中,准确性等于正确记录数除以总记录数后得到的数值再乘以100%。
40.作为优选,所述s7中,时效性等于及时更新记录数除以总记录数后得到的数值再乘以100%。
41.作为优选,所述s9中,可用性等于可用记录数除以总记录数后得到的数值再乘以100%。
42.本发明的有益效果:本发明通过从多角度、全方位判定数据来源的权威性、可靠性;首先是专家判断,企业内部公认的可信数据源;其次是指标判断,如果没有公认的可信数据源,则通过完整性、准确性、时效性、可用性评判数据的可信度;最后,如果还是不能判定,则通过下游数据的引用情况来判断,通常数据应用方引用更多的数据其可靠度更高。
43.本发明的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
44.图1是本发明数据清洗流程方法的流程图;
45.图2是本发明数据清洗流程方法的黄金数据源判定流程图。
【具体实施方式】
46.参阅图1、图2,本发明数据清洗流程方法,包括如下步骤;
47.步骤一:进行数据采集;
48.步骤二:全字段统计重复记录数据;
49.步骤三:将数据表存在重复的数据进行数据去重;
50.步骤四:将数据进行格式转换;
51.步骤五:将转换成功的数据进行缺省值处理;
52.步骤六:进行编码标准化处理;
53.步骤七:进行黄金数据源判定;
54.步骤八:进行数据整合;
55.步骤九:数据清洗完成。
56.其中,所述步骤三中,若数据表不存在重复的数据,则直接进行格式转换。
57.其中,所述步骤四中,格式转换包含日期格式转换、字符转换数字等。
58.其中,所述步骤五中,若数据进行格式转换不成功,则对转换不成功的数据赋特殊值,然后再进行缺省值处理。
59.其中,所述步骤五中,缺省值处理包含日期、金额、长度等。
60.其中,所述步骤七中,黄金数据源判定的流程如下;
61.step1:判断黄金数据源是否可以专家评定,若黄金数据源可以专家评定,则专家判定黄金源数据后,黄金数据源判定结束;
62.step2:若黄金数据源不可以专家评定,则要进入下述判定流程;
63.s1、导入要比较的样品数据;
64.s2、统计字段空值率;
65.s3、计算数据完整性指标;
66.s4、抽样检查数据的准确性;
67.s5、计算数据准确性指标;
68.s6、统计数据更新的时间点;
69.s7、计算数据时效性指标;
70.s8、统计可用记录数;
71.s9、计算数据可用性指标;
72.s10、汇总计算数据质量指标;
73.s11、进行数据源指标得分对比;
74.a.比分超过2:1后,则确定黄金数据源,黄金数据源判定结束;
75.b.比分没有超过2:1后,检验通过源数据统计数据被引用数量;
76.b1.若数量比例超过1:1,则确定黄金数据源,黄金数据源判定结束;
77.b2.若数量比例没有超过1:1,则无黄金数据源,黄金数据源判定结束。
78.其中,所述s3中,完整性等于完整记录数除以总记录数后得到的数值再乘以100%。
79.其中,所述s5中,准确性等于正确记录数除以总记录数后得到的数值再乘以100%。
80.其中,所述s7中,时效性等于及时更新记录数除以总记录数后得到的数值再乘以100%。
81.其中,所述s9中,可用性等于可用记录数除以总记录数后得到的数值再乘以100%。
82.本发明工作过程:
83.本发明数据清洗流程方法在工作过程中,通过从多角度、全方位判定数据来源的
权威性、可靠性;首先是专家判断,企业内部公认的可信数据源;其次是指标判断,如果没有公认的可信数据源,则通过完整性、准确性、时效性、可用性评判数据的可信度;最后,如果还是不能判定,则通过下游数据的引用情况来判断,通常数据应用方引用更多的数据其可靠度更高。
84.上述实施例是对本发明的说明,不是对本发明的限定,任何对本发明简单变换后的方案均属于本发明的保护范围。

技术特征:
1.数据清洗流程方法,其特征在于:包括如下步骤;步骤一:进行数据采集;步骤二:全字段统计重复记录数据;步骤三:将数据表存在重复的数据进行数据去重;步骤四:将数据进行格式转换;步骤五:将转换成功的数据进行缺省值处理;步骤六:进行编码标准化处理;步骤七:进行黄金数据源判定;步骤八:进行数据整合;步骤九:数据清洗完成。2.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤三中,若数据表不存在重复的数据,则直接进行格式转换。3.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤四中,格式转换包含日期格式转换、字符转换数字等。4.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤五中,若数据进行格式转换不成功,则对转换不成功的数据赋特殊值,然后再进行缺省值处理。5.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤五中,缺省值处理包含日期、金额、长度等。6.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤七中,黄金数据源判定的流程如下;step1:判断黄金数据源是否可以专家评定,若黄金数据源可以专家评定,则专家判定黄金源数据后,黄金数据源判定结束;step2:若黄金数据源不可以专家评定,则要进入下述判定流程;s1、导入要比较的样品数据;s2、统计字段空值率;s3、计算数据完整性指标;s4、抽样检查数据的准确性;s5、计算数据准确性指标;s6、统计数据更新的时间点;s7、计算数据时效性指标;s8、统计可用记录数;s9、计算数据可用性指标;s10、汇总计算数据质量指标;s11、进行数据源指标得分对比;a.比分超过2:1后,则确定黄金数据源,黄金数据源判定结束;b.比分没有超过2:1后,检验通过源数据统计数据被引用数量;b1.若数量比例超过1:1,则确定黄金数据源,黄金数据源判定结束;b2.若数量比例没有超过1:1,则无黄金数据源,黄金数据源判定结束。7.如权利要求6所述的数据清洗流程方法,其特征在于:所述s3中,完整性等于完整记
录数除以总记录数后得到的数值再乘以100%。8.如权利要求1所述的数据清洗流程方法,其特征在于:所述s5中,准确性等于正确记录数除以总记录数后得到的数值再乘以100%。9.如权利要求1所述的数据清洗流程方法,其特征在于:所述s7中,时效性等于及时更新记录数除以总记录数后得到的数值再乘以100%。10.如权利要求1所述的数据清洗流程方法,其特征在于:所述s9中,可用性等于可用记录数除以总记录数后得到的数值再乘以100%。

技术总结
本发明公开了数据清洗流程方法,包括如下步骤;步骤一:进行数据采集;步骤二:全字段统计重复记录数据;步骤三:将数据表存在重复的数据进行数据去重;步骤四:将数据进行格式转换。本发明通过从多角度、全方位判定数据来源的权威性、可靠性。可靠性。可靠性。


技术研发人员:梁郁庆 陈锡雁 袁军 蔡德全 王力 杨子勤
受保护的技术使用者:浙江天喜厨电股份有限公司
技术研发日:2023.06.28
技术公布日:2023/9/16
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐