一种基于类别代码匹配的多源数据优化处理方法与流程

未命名 08-13 阅读:115 评论:0


1.本发明涉及数据处理方法技术领域,尤其涉及一种多源数据处理方法。


背景技术:

2.随着社会的不断进步,部分城市正在以数字产业化和产业数字化为主攻方向,大力发展数字经济,建设智慧城市、数字生态,促进数字化转型;其中,信息资源库的建设和管理,是建设智慧城市的一项重要工作;对新增加的数据进行梳理、清洗以及数据质量提升的同时,对所有历史数据进行管理;通过数据梳理、关联比对和整合后,形成了公共基础信息资源,为领导决策、公共资源配置、公共服务与管理提供数据支撑;随着增量数据的梳理数量级越来越大,用户在政府工作和民生方面,对库的数据质量的要求也越来越高,需要进一步推进数据梳理工作。
3.经检索,中国专利申请号为cn201710521990.7的专利,公开了一种基于知识库的数据快速梳理方法及系统,基于根据业务信息资源及资源之间的关系已经建立的知识库对应的板块集合,判断当前要进行数据梳理的第二板块是否有与所述板块集合中的第一板块属于共同上级的相同业务类型,如果有,相同业务类型的业务信息资源从所述第一板块建立的知识库中选择,则该知识库中所对应的业务信息资源、资源及业务信息资源与资源间的关系被自动选择,快速形成梳理结果。上述专利中的梳理方法存在以下不足:在对于种类不同的多源数据进行梳理时,不能够很好的对其进行类别的划分,因此还有待改进。


技术实现要素:

4.本发明的目的是为了解决现有技术中存在的缺点,而提出的一种多源数据处理方法。
5.为了实现上述目的,本发明采用了如下技术方案:
6.一种多源数据处理方法,包括如下步骤:
7.s1:数据的分类,对数据的类型进行分类;
8.s2:数据的整理,基于数据类型进行数据整理;
9.s3:数据的优化,对整理后的数据进行优化;
10.s4:数据的存储,存储优化完成的数据;
11.其中,所述s1中,数据的分类具体包括如下步骤:
12.s11:预设类别库,针对所要获取的数据类型设立类别库;
13.s12:预设关键词,根据所要获取的数据类型,设立关键词;
14.s13:关键词与类别库的匹配,将关键词与相应的类别库进行匹配,赋予关键词相应的类别代码;
15.s14:在获取的源数据中筛查关键词,将筛查出的关键词的类别代码赋予该条源数据;
16.s15:将该条源数据根据类别代码的赋予结果存储至相应的类别库中。
17.优选的:所述s14步骤中,若筛查出一个关键词,直接将该源数据按照关键词的类别代码分类至相应的类别库中;若筛查出多个关键词,则将对应的类别代码均赋予该条源数据,针对重复的类别代码计次处理。
18.进一步的:所述类别代码赋有权重值,在对具有多个类别代码的源数据进行分类时,根据源数据被赋予的类别代码计算类别权重值,计算方式为:
19.该类别代码的权重值
×
该类别代码计次的次数=该源数据的类别权重值;
20.计算得出所有的类别权重值后,对类别权重值进行比较,以类别权重值最大的类别代码为准,将该源数据分类至相应的类别库中。
21.进一步优选的:所述s2步骤中,对数据的整理具体包括如下步骤:
22.s21:对类别库中的源数据进行查重处理;
23.s22:分析查重结果;
24.s23:删除重复数据。
25.作为本发明一种优选的:所述s21~s23步骤中,查重处理的方式为:对源数据关键词进行查重处理,当两个源数据的关键词重复度超过80%时,在源数据中提取特征信息,特征信息包括:人名、地名、日期;特征信息重复度为100%时,在两个源数据中,删除关键词数量较少的源数据。
26.作为本发明进一步优选的:所述关键词还赋有子类别代码,其中一个关键词赋有一个类别代码以及一个或多个子类别代码,所述类别库中设置有多个子类别库,子类别库与单一子类别代码相匹配。
27.作为本发明再进一步的方案:所述s3步骤中,对数据进行优化的步骤包括:
28.s31:提取源数据中的子类别代码;
29.s32:根据子类别代码匹配子类别库;
30.s33:根据子类别代码的数量,将该源数据分类至一个或多个子类别库中。
31.在前述方案的基础上:所述s4步骤中,数据存储具体为:对分类于子类别库中的源数据自动获取一个数据编号,根据数据编号、子类别、特征信息提供查询的功能。
32.在前述方案的基础上优选的:在所述查重处理时,新的源数据与已在子类别库中的源数据进行比对后,若删除的源数据为子类别库中的源数据时,新的源数据自动获取已删除的源数据的数据编号。
33.本发明的有益效果为:
34.1.本发明通过关键词匹配的方式对数据进行分类处理,基于关键词、类别代码和类别库的匹配,能够更有效、快速的对源数据进行类别划分,以便于后续的数据整理,提升了可靠性。
35.2.本发明通过设置类别代码即类别权重值,能够多角度的对源数据进行分析、分类处理,从而将该源数据分类至更为匹配的类别库中,提升了分类处理的可靠性。
36.3.本发明通过设置子类别代码,能够对源数据的类别进行细分,从而便于进一步处理和查阅,提升了实用性。
附图说明
37.图1为本发明提出的一种多源数据处理方法的流程图。
具体实施方式
38.下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
39.实施例1:
40.一种多源数据处理方法,包括如下步骤:
41.s1:数据的分类,对数据的类型进行分类;
42.s2:数据的整理,基于数据类型进行数据整理;
43.s3:数据的优化,对整理后的数据进行优化;
44.s4:数据的存储,存储优化完成的数据;
45.其中,所述s1中,数据的分类具体包括如下步骤:
46.s11:预设类别库,针对所要获取的数据类型设立类别库;
47.s12:预设关键词,根据所要获取的数据类型,设立关键词;
48.s13:关键词与类别库的匹配,将关键词与相应的类别库进行匹配,赋予关键词相应的类别代码;
49.s14:在获取的源数据中筛查关键词,将筛查出的关键词的类别代码赋予该条源数据;
50.s15:将该条源数据根据类别代码的赋予结果存储至相应的类别库中;
51.通过关键词匹配的方式对数据进行分类处理,基于关键词、类别代码和类别库的匹配,能够更有效、快速的对源数据进行类别划分,以便于后续的数据整理,提升了可靠性。
52.其中,所述s14步骤中,若筛查出一个关键词,直接将该源数据按照关键词的类别代码分类至相应的类别库中;若筛查出多个关键词,则将对应的类别代码均赋予该条源数据,针对重复的类别代码计次处理。
53.所述类别代码赋有权重值,在对具有多个类别代码的源数据进行分类时,根据源数据被赋予的类别代码计算类别权重值,计算方式为:
54.该类别代码的权重值
×
该类别代码计次的次数=该源数据的类别权重值;
55.计算得出所有的类别权重值后,对类别权重值进行比较,以类别权重值最大的类别代码为准,将该源数据分类至相应的类别库中。
56.通过设置类别代码即类别权重值,能够多角度的对源数据进行分析、分类处理,从而将该源数据分类至更为匹配的类别库中,提升了分类处理的可靠性。
57.所述s2步骤中,对数据的整理具体包括如下步骤:
58.s21:对类别库中的源数据进行查重处理;
59.s22:分析查重结果;
60.s23:删除重复数据。
61.其中,所述s21~s23步骤中,查重处理的方式为:对源数据关键词进行查重处理,当两个源数据的关键词重复度超过80%时,在源数据中提取特征信息,特征信息包括:人名、地名、日期等等;特征信息重复度为100%时,在两个源数据中,删除关键词数量较少的源数据。
62.其中,所述关键词还赋有子类别代码,其中一个关键词赋有一个类别代码以及一个或多个子类别代码,所述类别库中设置有多个子类别库,子类别库与单一子类别代码相匹配。
63.所述s3步骤中,对数据进行优化的步骤包括:
64.s31:提取源数据中的子类别代码;
65.s32:根据子类别代码匹配子类别库;
66.s33:根据子类别代码的数量,将该源数据分类至一个或多个子类别库中。
67.通过设置子类别代码,能够对源数据的类别进行细分,从而便于进一步处理和查阅,提升了实用性。
68.实施例2:
69.一种多源数据处理方法,本实施例在实施例1的基础上作出以下改进:所述s4步骤中,数据存储具体为:对分类于子类别库中的源数据自动获取一个数据编号,根据数据编号、子类别、特征信息提供查询的功能。
70.其中,在所述查重处理时,新的源数据与已在子类别库中的源数据进行比对后,若删除的源数据为子类别库中的源数据时,新的源数据自动获取已删除的源数据的数据编号。
71.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

技术特征:
1.一种多源数据处理方法,其特征在于,包括如下步骤:s1:数据的分类,对数据的类型进行分类;s2:数据的整理,基于数据类型进行数据整理;s3:数据的优化,对整理后的数据进行优化;s4:数据的存储,存储优化完成的数据;其中,所述s1中,数据的分类具体包括如下步骤:s11:预设类别库,针对所要获取的数据类型设立类别库;s12:预设关键词,根据所要获取的数据类型,设立关键词;s13:关键词与类别库的匹配,将关键词与相应的类别库进行匹配,赋予关键词相应的类别代码;s14:在获取的源数据中筛查关键词,将筛查出的关键词的类别代码赋予该条源数据;s15:将该条源数据根据类别代码的赋予结果存储至相应的类别库中。2.根据权利要求1所述的一种多源数据处理方法,其特征在于,所述s14步骤中,若筛查出一个关键词,直接将该源数据按照关键词的类别代码分类至相应的类别库中;若筛查出多个关键词,则将对应的类别代码均赋予该条源数据,针对重复的类别代码计次处理。3.根据权利要求2所述的一种多源数据处理方法,其特征在于,所述类别代码赋有权重值,在对具有多个类别代码的源数据进行分类时,根据源数据被赋予的类别代码计算类别权重值,计算方式为:该类别代码的权重值
×
该类别代码计次的次数=该源数据的类别权重值;计算得出所有的类别权重值后,对类别权重值进行比较,以类别权重值最大的类别代码为准,将该源数据分类至相应的类别库中。4.根据权利要求3所述的一种多源数据处理方法,其特征在于,所述s2步骤中,对数据的整理具体包括如下步骤:s21:对类别库中的源数据进行查重处理;s22:分析查重结果;s23:删除重复数据。5.根据权利要求4所述的一种多源数据处理方法,其特征在于,所述s21~s23步骤中,查重处理的方式为:对源数据关键词进行查重处理,当两个源数据的关键词重复度超过80%时,在源数据中提取特征信息,特征信息包括:人名、地名、日期;特征信息重复度为100%时,在两个源数据中,删除关键词数量较少的源数据。6.根据权利要求5所述的一种多源数据处理方法,其特征在于,所述关键词还赋有子类别代码,其中一个关键词赋有一个类别代码以及一个或多个子类别代码,所述类别库中设置有多个子类别库,子类别库与单一子类别代码相匹配。7.根据权利要求6所述的一种多源数据处理方法,其特征在于,所述s3步骤中,对数据进行优化的步骤包括:s31:提取源数据中的子类别代码;s32:根据子类别代码匹配子类别库;s33:根据子类别代码的数量,将该源数据分类至一个或多个子类别库中。8.根据权利要求7所述的一种多源数据处理方法,其特征在于,所述s4步骤中,数据存
储具体为:对分类于子类别库中的源数据自动获取一个数据编号,根据数据编号、子类别、特征信息提供查询的功能。9.根据权利要求8所述的一种多源数据处理方法,其特征在于,在所述查重处理时,新的源数据与已在子类别库中的源数据进行比对后,若删除的源数据为子类别库中的源数据时,新的源数据自动获取已删除的源数据的数据编号。

技术总结
本发明公开了一种多源数据处理方法,涉及数据处理方法技术领域;为了便于对多源数据进行分类处理;包括如下步骤:数据的分类,对数据的类型进行分类;数据的整理,基于数据类型进行数据整理;数据的优化,对整理后的数据进行优化;数据的存储,存储优化完成的数据。本发明通过关键词匹配的方式对数据进行分类处理,基于关键词、类别代码和类别库的匹配,能够更有效、快速的对源数据进行类别划分,以便于后续的数据整理,提升了可靠性;通过设置类别代码即类别权重值,能够多角度的对源数据进行分析、分类处理,从而将该源数据分类至更为匹配的类别库中,提升了分类处理的可靠性。提升了分类处理的可靠性。


技术研发人员:武刚 潘晓军 贺智博
受保护的技术使用者:深圳市大数据资源管理中心
技术研发日:2023.04.24
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐