一种配置化读取采集数据的方法及装置与流程

未命名 07-12 阅读:68 评论:0


1.本发明涉及数据读取技术领域,特别是一种配置化读取采集数据的方法及装置。


背景技术:

2.陶瓷产业工厂在数字化转型过程中,采集设备数据时是将整条数据采集上来,数据字段非常多。采集到的数据是以json的形式存放于hadoop上,目前针对读取hadoop的json文件抽取解析的方法如图1所示,每次有需求读取时都需要编写一个spark程序并且进行打包,这样会大大增加了开发工作量。


技术实现要素:

3.针对上述缺陷,本发明的目的在于提出一种配置化读取采集数据的方法及装置。
4.为达此目的,本发明采用以下技术方案:
5.本发明第一方面公开了一种配置化读取采集数据的方法,所述方法包括如下步骤:
6.输入数据存储参数、数据导入参数和配置文件,所述配置文件存储有需要读取和处理的指定字段;
7.根据所述数据存储参数读取到指定存储路径的采集数据;
8.将读取到的采集数据映射成临时表;
9.根据配置文件在所述临时表中读取和处理指定字段,得到目标数据;
10.根据数据导入参数,将目标数据导入到相应的doris表中。
11.进一步,采集数据以json文件加时间的形式存储在hadoop的hdfs上,所述数据存储参数包括存储路径参数和时间参数。
12.进一步,所述临时表以所述存储路径参数命名。
13.进一步,所述数据导入参数包括库名参数和表名参数。
14.进一步,所述步骤s4中,处理指定字段包括对相同字段进行合并处理。
15.进一步,通过spark程序执行上述步骤。
16.本发明第二方面公开了一种配置化读取采集数据的装置,应用在本发明第一方面公开的方法,包括输入模块、读取模块、映射模块、目标数据获取模块和导入模块;
17.所述输入模块用于输入数据存储参数、数据导入参数和配置文件,所述配置文件存储有需要读取和处理的指定字段;
18.所述读取模块用于根据所述数据存储参数读取到指定存储路径的采集数据;
19.所述映射模块用于将读取到的采集数据映射成临时表;
20.所述目标数据获取模块用于根据配置文件在所述临时表中读取和处理指定字段,得到目标数据;
21.所述导入模块用于根据数据导入参数,将目标数据导入到相应的doris表中。
22.本发明第三方面公开了一种电子设备,包括存储器、处理器及存储在存储器上并
可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面公开的方法。
23.本发明第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本发明第一方面公开的方法。
24.本发明提供的技术方案可以包括以下有益效果:
25.在本发明的实施例中,先获取数据存储参数、数据导入参数和配置文件,利用数据存储参数读取到指定存储路径的采集数据,将读取到的采集数据映射成临时表,以便于后续对采集数据进行读取和处理。根据配置文件,在临时表中读取和处理指定字段,得到目标数据;最后根据数据导入参数,将目标数据导入相应的doris表中。如此,可实现同类程序归一化处理,只需输入数据存储参数、数据导入参数和配置文件即可在计算存储引擎中读取出需要的doris表,无需根据不同的读取需求编写不同的spark程序,大大减少工作量和减少后面维护成本。
附图说明
26.图1是现有技术读取采集数据的示意图;
27.图2是本技术实施例的配置化读取采集数据的方法的示意图;
28.图3是本技术实施例的配置化读取采集数据的方法的流程示意图;
29.图4是本技术实施例的配置化读取采集数据的装置的结构示意图;
30.图5是本技术实施例的电子设备的基本结构示意图。
具体实施方式
31.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能解释为对本技术的限制。
32.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
33.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
34.下面以具体地实施例对本技术实施例的技术方案以及本技术实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
35.本技术一个实施例提供了一种配置化读取采集数据的方法,该方法由计算机设备执行,该计算机设备可以是终端或者服务器。终端可以是台式设备或者移动终端。服务器可
以是独立的物理服务器、物理服务器集群或者虚拟服务器。
36.如图2所示,该方法包括如下步骤:
37.s1:输入数据存储参数、数据导入参数和配置文件,所述配置文件存储有需要读取和处理的指定字段;
38.s2:根据所述数据存储参数读取到指定存储路径的采集数据;
39.s3:将读取到的采集数据映射成临时表;
40.s4:根据配置文件在所述临时表中读取和处理指定字段,得到目标数据;
41.s5:根据数据导入参数,将目标数据导入到相应的doris表中。
42.在本发明的实施例中,先获取数据存储参数、数据导入参数和配置文件,利用数据存储参数读取到指定存储路径的采集数据,将读取到的采集数据映射成临时表,以便于后续对采集数据进行读取和处理。根据配置文件,在临时表中读取和处理指定字段,得到目标数据;最后根据数据导入参数,将目标数据导入相应的doris表中。
43.具体地,在实际的应用中,技术人员可以通过编写出归一化读取的spark程序完成上述步骤s1-s5。编写出归一化读取的spark程序后,在归一化读取的spark程序中输入数据存储参数、数据导入参数和配置文件,归一化读取的spark程序根据数据存储参数读取到指定存储路径的采集数据,归一化读取的spark程序将读取到的采集数据映射成临时表;归一化读取的spark程序根据配置文件,在临时表中读取和处理指定字段,得到目标数据;最后,归一化读取的spark程序根据数据导入参数,将目标数据导入相应的doris表中。如此,便能得到技术人员需要的doris表。
44.本发明提供的一种配置化读取采集数据的方法,实现同类程序归一化处理,只需输入数据存储参数、数据导入参数和配置文件即可在计算存储引擎中读取出需要的doris表,无需根据不同的读取需求编写不同的spark程序,大大减少工作量和减少后面维护成本。
45.进一步具体地,采集数据以json文件加时间的形式存储在hadoop的hdfs(hadoopdistributedfilesystem,分布式文件系统)上,所述数据存储参数包括存储路径参数和时间参数。
46.其中,采集数据在hadoop的hdfs的存储路径进行过统一处理,使存储路径由存储路径参数和时间参数组成,例如生产线3号线和4号线的某段时间的设备数据会存储在hdfs的/ods/zhzc_nfn_equipment_3_4/yyyymmddhh/中,其中,ods表示的数据的原始层,zhzc表示是智慧制造的,nfn表示的是客户名称缩写,equipment表示的是设备数据,3_4表示的是3和4号线,yyyy表示年份,mm表示月份,dd表示日期,hh表示小时。因此,在本实施例中,存储路径参数是上述的/ods/zhzc_nfn_equipment_3_4/;时间参数是上述的yyyymmddhh/。如此,归一化读取的spark程序通过输入的数据存储参数和时间参数就可以读到指定存储路径的采集数据。
47.作为一种可选的实施例,所述临时表以所述存储路径参数命名。因为每个存储路径代表不同工厂生产线路设备,为此,本实施例通过将存储路径参数命名临时表,以便于在读出和处理需要字段时清晰地知道具体取的是哪个路径的采集数据。
48.作为一种可选的实施例,所述数据导入参数包括库名参数和表名参数。具体地,根据库名参数和表名参数确定相应的待导入的doris表,然后将目标数据导入到相应的待导
入的doris表中,得到技术人员实际需要的doris表。
49.作为一种可选的实施例,所述步骤s4中,处理指定字段包括对相同字段进行合并处理。例如,在具体应用中,以处理生产线多台球磨设备的采集数据为例,在完整的陶瓷生产线中包括有多台球磨设备,在数据采集时,会对各个球磨设备的数据进行采集,得到对应的球磨设备1、球磨设备2、球磨设备3
……
等采集数据。因此,当需要处理球磨设备的数据时,则可以根据指定字段“球磨设备”将球磨设备1、球磨设备2、球磨设备3
……
等采集数据进行合并处理。
50.图4为本技术又一实施例提供的一种配置化读取采集数据的装置100的结构示意图,如图4所示,该装置可以包括输入模块110、读取模块120、映射模块130、目标数据获取模块140和导入模块150,其中:
51.所述输入模块110用于输入数据存储参数、数据导入参数和配置文件,所述配置文件存储有需要读取和处理的指定字段;
52.所述读取模块120用于根据所述数据存储参数读取到指定存储路径的采集数据;
53.所述映射模块130用于将读取到的采集数据映射成临时表;
54.所述目标数据获取模块140用于根据配置文件在所述临时表中读取和处理指定字段,得到目标数据;
55.所述导入模块150用于根据数据导入参数,将目标数据导入到相应的doris表中。
56.在装置的具体应用中,通过输入模块110输入数据存储参数、数据导入参数和配置文件,读取模块120根据数据存储参数读取到指定存储路径的采集数据,映射模块130将读取到的采集数据映射成临时表;目标数据获取模块140根据配置文件,在临时表中读取和处理指定字段,得到目标数据;最后,导入模块150根据数据导入参数,将目标数据导入相应的doris表中。如此,便能得到技术人员需要的doris表。
57.本发明提供的一种配置化读取采集数据的装置,实现同类程序归一化处理,只需输入数据存储参数、数据导入参数和配置文件即可在计算存储引擎中读取出需要的doris表,无需根据不同的读取需求编写不同的spark程序,大大减少工作量和减少后面维护成本。
58.需要说明的是,本实施例为与上述的方法项实施例相对应的装置项实施例,本实施例可与上述方法项实施例互相配合实施。上述方法项实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在上述方法项实施例中。
59.本技术另一实施例提供了一种电子设备,如图5所示,图5所示的电子设备200包括:处理器210和存储器230。其中,处理器210和存储器230相连,如通过总线220相连。进一步地,电子设备还可以包括收发器240。需要说明的是,实际应用中收发器240不限于一个,该电子设备200的结构并不构成对本技术实施例的限定。
60.其中,处理器210应用于本技术实施例中,用于实现图4所示的输入模块、读取模块、映射模块、目标数据获取模块和导入模块的功能。处理器210可以是cpu,通用处理器,dsp,asic,fpga或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器210也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器
的组合等。
61.总线220可包括一通路,在上述组件之间传送信息。总线220可以是pci总线或eisa总线等。总线220可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
62.存储器230可以是rom或可存储静态信息和指令的其他类型的静态存储设备,ram或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom、cd-rom或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
63.存储器230用于存储执行本技术方案的应用程序代码,并由处理器210来控制执行。处理器210用于执行存储器230中存储的应用程序代码,以实现图4所示实施例提供的配置化读取采集数据的装置的动作。
64.本技术实施例提供的电子设备200,包括存储器230、处理器210及存储在存储器230上并可在处理器210上运行的计算机程序,处理器执行程序时,可实现:输入数据存储参数、数据导入参数和配置文件,所述配置文件存储有需要读取和处理的指定字段;
65.根据所述数据存储参数读取到指定存储路径的采集数据;
66.将读取到的采集数据映射成临时表;
67.根据配置文件在所述临时表中读取和处理指定字段,得到目标数据;
68.根据数据导入参数,将目标数据导入到相应的doris表中。
69.本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例所示的方法:
70.输入数据存储参数、数据导入参数和配置文件,所述配置文件存储有需要读取和处理的指定字段;
71.根据所述数据存储参数读取到指定存储路径的采集数据;
72.将读取到的采集数据映射成临时表;
73.根据配置文件在所述临时表中读取和处理指定字段,得到目标数据;
74.根据数据导入参数,将目标数据导入到相应的doris表中。
75.本技术实施例提供的计算机可读存储介质适用于上述方法的任一实施例。
76.应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
77.以上所述仅是本技术的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。

技术特征:
1.一种配置化读取采集数据的方法,其特征在于,所述方法包括如下步骤:输入数据存储参数、数据导入参数和配置文件,所述配置文件存储有需要读取和处理的指定字段;根据所述数据存储参数读取到指定存储路径的采集数据;将读取到的采集数据映射成临时表;根据配置文件在所述临时表中读取和处理指定字段,得到目标数据;根据数据导入参数,将目标数据导入到相应的doris表中。2.根据权利要求1所述的一种配置化读取采集数据的方法,其特征在于,采集数据以json文件加时间的形式存储在hadoop的hdfs上,所述数据存储参数包括存储路径参数和时间参数。3.根据权利要求2所述的一种配置化读取采集数据的方法,其特征在于:所述临时表以所述存储路径参数命名。4.根据权利要求1所述的一种配置化读取采集数据的方法,其特征在于:所述数据导入参数包括库名参数和表名参数。5.根据权利要求1所述的一种配置化读取采集数据的方法,其特征在于:所述步骤s4中,处理指定字段包括对相同字段进行合并处理。6.根据权利要求1所述的一种配置化读取采集数据的方法,其特征在于:通过spark程序执行上述步骤。7.一种配置化读取采集数据的装置,其特征在于:应用于上述如权利要求1-6任一项所述的一种配置化读取采集数据的方法,所述装置包括输入模块、读取模块、映射模块、目标数据获取模块和导入模块;所述输入模块用于输入数据存储参数、数据导入参数和配置文件,所述配置文件存储有需要读取和处理的指定字段;所述读取模块用于根据所述数据存储参数读取到指定存储路径的采集数据;所述映射模块用于将读取到的采集数据映射成临时表;所述目标数据获取模块用于根据配置文件在所述临时表中读取和处理指定字段,得到目标数据;所述导入模块用于根据数据导入参数,将目标数据导入到相应的doris表中。8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-6任一项所述的方法。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-6任一项所述的方法。

技术总结
本发明公开了一种配置化读取采集数据的方法及装置,涉及数据读取技术领域。配置化读取采集数据的方法包括:获取数据存储参数、数据导入参数和配置文件,利用数据存储参数读取到指定存储路径的采集数据,将读取到的采集数据映射成临时表,以便于后续对采集数据进行读取和处理。根据配置文件,在临时表中读取和处理指定字段,得到目标数据;最后根据数据导入参数,将目标数据导入相应的Doris表中。如此,可实现同类程序归一化处理,只需输入数据存储参数、数据导入参数和配置文件即可在计算存储引擎中读取出需要的Doris表,无需根据不同的读取需求编写不同的Spark程序,大大减少工作量和减少后面维护成本。量和减少后面维护成本。量和减少后面维护成本。


技术研发人员:梁英林 孔令超 林国友 吕火生
受保护的技术使用者:西藏众陶联供应链服务有限公司 林周佳住家网络科技有限公司 林周利利佳供应链服务有限公司 共青城市众陶联供应链服务有限公司
技术研发日:2023.03.31
技术公布日:2023/7/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐