数据采集流程的控制方法、装置、设备、系统和存储介质与流程
未命名
09-16
阅读:51
评论:0

技术领域:
:,尤其涉及一种数据采集流程的控制方法、装置、设备、系统和存储介质。
背景技术:
::2.现有技术中,通过网页的链接地址,能够寻找网页并读取网页中公开的感兴趣数据,实现数据采集的目的。但是,目前在数据采集的过程中,往往需要人工检查数据采集流程的健康状况,针对异常情况做人工干预,智能化程度低。技术实现要素:3.有鉴于此,本技术提出一种数据采集流程的控制方法、装置、设备、系统和存储介质,以解决目前在数据采集的过程中,往往需要人工检查数据采集流程的健康状况,针对异常情况做人工干预,智能化程度低的问题。4.本技术提出的技术方案具体如下:5.第一方面,本技术提供了一种数据采集流程的控制方法,包括:6.监控数据采集流程;所述数据采集流程为从设定网页采集数据的流程;7.若检测到所述数据采集流程中存在异常情况,则根据所述异常情况调整所述数据采集流程的采集周期;所述异常情况包括所述数据采集流程与设定的标准数据采集流程不符的情况。8.第二方面,本技术提供了一种一种数据采集流程的控制装置,包括:9.监控模块,用于监控数据采集流程;所述数据采集流程为从设定网页采集数据的流程;10.调整模块,用于若检测到所述数据采集流程中存在异常情况,则根据所述异常情况调整所述数据采集流程的采集周期;所述异常情况包括所述数据采集流程与设定的标准数据采集流程不符的情况。11.第三方面,本技术提供了一种电子设备,包括:12.存储器和处理器;13.其中,所述存储器用于存储程序;14.所述处理器,用于通过运行所述存储器中的程序,实现以上任意一项所述的方法。15.第四方面,本技术提供了一种数据采集系统,包括:16.数据采集模组和智能监控模组;17.所述数据采集模组,用于从设定网页采集数据;18.所述智能监控模组,用于按照以上任一项所述的方法,对所述数据采集模组进行监控。19.第五方面,本技术提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现以上任意一项所述的方法。20.本技术提出的数据采集流程的控制方法,通过对数据采集流程进行监控,在检测到数据采集流程中存在数据采集流程与设定的标准数据采集流程不符的异常情况时,能够根据异常情况调整数据采集流程的采集周期,实现自动对异常情况进行干预的目的,智能化程度高。附图说明21.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。22.图1是本技术实施例提供的一种数据采集流程的控制方法的流程示意图;23.图2是本技术实施例提供的一种数据采集流程的控制装置的结构示意图;24.图3是本技术实施例提供的一种电子设备的结构示意图;25.图4是本技术实施例提供的一种数据采集系统的结构示意图;26.图5是本技术实施例提供的另一种数据采集系统的结构示意图。具体实施方式27.本技术实施例技术方案适用于对数据采集流程进行监控的应用场景,采用本技术实施例技术方案,能够自动检测数据采集流程中的异常情况,并且根据异常情况调整数据采集流程的采集周期,实现自动对异常情况进行干预的目的,智能化程度高。28.示例性的,本技术实施例技术方案可应用于硬件处理器等硬件设备,或包装成软件程序被运行,当硬件处理器执行本技术实施例技术方案的处理过程,或上述软件程序被运行时,可以实现对数据采集流程的监控。本技术实施例只对本技术技术方案的具体处理过程进行示例性介绍,并不对本技术技术方案的具体执行形式进行限定,任意形式的可以执行本技术技术方案处理过程的技术实现形式,都可以被本技术实施例所采用。29.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。30.本技术实施例提出一种数据采集流程的控制方法,该方法可以由电子设备执行,该电子设备可以是任意的具有数据及指令处理功能的设备,例如可以是计算机、智能终端、服务器等。参见图1所示,该方法包括:31.s101、监控数据采集流程。32.上述数据采集流程为从设定网页采集数据的流程。其中,上述设定网页为公开且的网页,网页中的信息均为公开且脱敏的信息。可以获取设定网页的网址,通过请求设定网页的网址,连接至设定网页,然后从设定网页中获取感兴趣数据,实现数据采集的目的。33.具体地,本实施例中,可以预先设置标准数据采集流程。标准数据采集流程规定了数据采集的具体步骤,以便于实际在数据采集过程中,能够以标准数据采集流程为依据进行数据采集。34.其中,标准数据采集流程可以包括如下步骤:35.步骤一:可以先获取设定网页的网址。示例性的,设定网页的网址一般为统一资源定位器(uniformresourcelocator,url)。36.步骤二:按照设定的采集周期请求设定网页的网址,并获取设定网页中的感兴趣数据。其中,设定网页中的感兴趣数据一般为超文本标记语言(hypertextmarkuplanguage,html)文档。37.步骤三:对感兴趣数据进行处理,包括格式转换处理、数据清洗处理等。其中,格式转换处理,包括将步骤二的html文档解析为文档对象模型(documentobjectmodel,dom)树,并封装成java程序中的对象。数据清洗处理包括按照设定的数据清洗规则,从dom树中获取规则匹配的字段数据,并将数据进行结构化处理。38.步骤四:将进行格式转换、数据清洗处理后的数据存储到数据库中。39.本技术的实施例中,对实际的数据采集流程进行监控,以便于能够及时发现实际的数据采集流程中的异常情况并针对异常情况进行处理。40.s102、判断数据采集流程中是否存在异常情况;若数据采集流程中存在异常情况,则执行步骤s103;若数据采集流程中不存在异常情况,则重复执行步骤s101。41.具体地,受到网速、处理性能等因素的影响,可能会导致实际的数据采集流程与设定的标准数据采集流程不符,即,导致实际的数据采集流程中出现异常情况。例如,实际的数据采集流程的数据采集效率高于标准数据采集流程中规定的数据采集效率,或者,实际的数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率。42.进一步的,实际的数据采集流程的数据采集效率高于标准数据采集流程中规定的数据采集效率,包括实际的数据采集流程中,设定数量的采集周期内数据采集流程的耗时均低于标准数据采集流程中规定的耗时;实际的数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,包括实际的数据采集流程中,设定数量的采集周期内数据采集流程的耗时均高于标准数据采集流程中规定的耗时,或者实际采集到的数据质量低于标准数据采集流程中规定的标准质量。43.如果确定数据采集流程中存在异常情况,则可以执行步骤s103,根据异常情况调整数据采集流程的采集周期;如果确定数据采集流程中不存在异常情况,则重复执行步骤s101,持续对实际的数据采集流程进行监测。44.s103、根据异常情况调整数据采集流程的采集周期。45.如果确定数据采集流程中存在异常情况,本实施例中,根据异常情况对数据采集流程的采集周期进行调整。46.示例性的,如果确定实际的数据采集流程的数据采集效率高于标准数据采集流程中规定的数据采集效率,则表示在较短的时间内就可以完成一次数据采集流程,可以适当缩短采集周期,以提高对设定网页的请求次数,使数据采集的时效性更高;如果实际的数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,则需要适当延长采集周期,减少对设定网页的请求次数,实现避免造成对服务器资源的占用和浪费的目的。47.以上实施例中,通过对数据采集流程进行监控,在检测到数据采集流程中存在数据采集流程与设定的标准数据采集流程不符的异常情况时,能够根据异常情况调整数据采集流程的采集周期,实现自动对异常情况进行干预的目的,智能化程度高。48.作为一种可选的实现方式,在本技术另一实施例中公开了,以上实施例的步骤若检测到数据采集流程中存在异常情况,则根据异常情况调整数据采集流程的采集周期,具体可以包括如下步骤:若检测到数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,则延长采集周期。49.具体地,可以基于数据采集流程中的数据采集效率确定数据采集流程中是否存在异常情况。具体地,如果检测到数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,则表示数据采集流程中存在异常情况,需要对采集周期进行调整。50.本实施例中,在检测到数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率时,选择的处理方式为延长采集周期,减少对设定网页的请求次数,以避免造成对服务器资源的占用和浪费。51.作为一种可选的实现方式,在本技术另一实施例中公开了,以上实施例的步骤中,还可以包括如下步骤:若检测到数据采集流程的耗时大于标准数据采集流程中规定的标准耗时,则确定数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率。52.本技术的实施例中,如果检测到实际的数据采集流程的耗时大于标准数据采集流程中规定的标准耗时,也就是实际的数据采集流程的耗时较长时,则可以认定数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率。以便于选择的处理方式为延长采集周期,减少对设定网页的请求次数,避免造成对服务器资源的占用和浪费。53.具体地,网络环境变差,网速变慢,可能会导致数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率。因此可以通过检测请求网页时的网络延迟次数,确定网络环境是否变差,进而确定数据采集流程的数据采集效率是否落后于标准数据采集流程中规定的标准数据采集效率。54.因此,作为一种可选的实现方式,在本技术另一实施例中公开了,数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率包括数据采集流程请求网页时的网络延迟次数,大于标准数据采集流程中规定的第一次数;以上实施例的步骤若检测到数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,则延长采集周期,具体可以包括如下步骤:若检测到数据采集流程请求网页时的网络延迟次数,大于标准数据采集流程中规定的第一次数,则计算网络延迟次数与第一次数的第一比值;确定第一比值和当前的采集周期的乘积,为新的采集周期。55.本技术的实施例中,标准数据采集流程中规定了在请求设定网页时允许网络延迟次数的上限值,该上限值即为上述第一次数。一些实施例中,上述标准数据采集流程的步骤一中,规定了请求网页时的网络延迟次数上限值。第一次数的次数值可以根据实际情况进行设置,例如设置为1次、2次或者其他的次数,本实施例不做限定。56.需要说明的是,本实施例中,当检测到在请求设定网页时,实际的延迟时间大于设定时间时,才认为发生了网络延迟。该设定时间也可以根据实际情况进行设置,例如,当检测到请求设定网页时的延迟时间大于10毫秒时,才认为发生了网络延迟,本实施例不做限定。57.本实施例中检测数据采集流程请求网页时的网络延迟次数,如果检测到请求网页时的网络延迟次数大于第一次数,则需要对采集周期进行延长处理。具体地,可以计算网络延迟次数与第一次数的第一比值;确定第一比值和当前的采集周期的乘积,为新的采集周期。以便于在接下来的数据采集流程中,按照新的采集周期进行数据采集。58.计算公式如下:[0059][0060]需要说明的是,当实际的数据采集流程中再次出现异常情况需要调整周期时,将本步骤中确定的新的采集周期将作为当前的采集周期,以重新确定采集周期作为新的采集周期。[0061]示例性的,若第一次数为2次,当前的采集周期为1小时,当检测到请求网页时的网络延迟次数为1次或者2次时,表示数据采集流程中不存在异常情况;当检测到请求网页时的网络延迟次数为3次时,大于标准数据采集流程中规定的2次,表示数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,数据采集流程中存在异常情况,需要延长采集周期。[0062]新的采集周期为:[0063][0064]以上实施例中,通过比对请求网页时的网络延迟次数与标准数据采集流程中规定的第一次数的大小,能够快速、清晰地确定是否出现数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率的异常情况,如果出现该异常情况能够及时对周期进行自动调整,智能化程度高。同时,在网络较差的情况下,延长采集周期,减少对设定网页的请求次数,能够避免出现网络拥挤的情况。[0065]进一步的,标准数据采集流程中还可以规定一个数据采集周期内允许请求网页的次数。如果在一个数据采集周期内,实际的数据采集流程多次请求网页时均没有返回预期结果,并且请求次数超过规定的一个数据采集周期内允许请求网页的次数,则表示出现异常情况,此时可以自动停止数据采集流程,并通过邮件、短信等方式对管理员进行告警。[0066]数据清洗的时间过长,也可能会导致数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率。因此可以通过检测对采集到的数据进行清洗的清洗时长,确定数据采集流程的数据采集效率是否落后于标准数据采集流程中规定的标准数据采集效率。[0067]因此,作为一种可选的实现方式,在本技术另一实施例中公开了,数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率包括数据采集流程对采集到的数据进行清洗的清洗时长,大于标准数据采集流程中的规定时长,以上实施例的步骤若检测到数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,则延长采集周期,具体可以包括以下步骤:若检测到数据采集流程对采集到的数据进行清洗的清洗时长,大于标准数据采集流程中的规定时长,则计算清洗时长与规定时长的时长差;确定时长差的一半与当前的采集周期的和,为新的采集周期。[0068]本技术的实施例中,标准数据采集流程中规定了在对采集到的数据进行清洗的清洗时间上限值,该时间上限值为上述规定时长。一些实施例中,上述标准数据采集流程的步骤三中,还规定了对采集到的数据进行清洗的清洗时间上限值。上述规定时长可以根据实际情况进行设置,本实施例不做限定。[0069]在实际的数据采集过程中,本技术的实施例监测其数据清洗时的清洗时长,如果检测到实际的清洗时长大于规定时长,则需要对采集周期进行延长处理。具体地,可以计算清洗时长与规定时长的时长差,确定时长差的一半与当前的采集周期的和,为新的采集周期。以便于在接下来的数据采集流程中,按照新的采集周期进行数据采集。[0070]公式如下:[0071][0072]需要说明的是,当实际的数据采集流程中再次出现异常情况需要调整周期时,将本步骤中确定的新的采集周期将作为当前的采集周期,以重新确定采集周期作为新的采集周期。[0073]示例性的,若当前的采集周期为1小时,规定时长为20秒,若检测到对采集到某个数据采集周期中对采集到的数据进行清洗的清洗时长为16秒,则表示数据采集流程中不存在异常情况;若检测到某个数据采集周期中对采集到的数据进行清洗的清洗时长为21秒,则表示数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,数据采集流程出现异常情况,需要延长采集周期。[0074]新的采集周期为:[0075][0076]以上实施例中,通过比对采集到的数据进行清洗的清洗时长与规定时长大小,能够快速、清晰地确定是否出现数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率的异常情况,如果出现该异常情况能够及时对周期进行自动调整,智能化程度高。同时,在数据清洗时间较长的情况下延长采集周期,能够有效缓解数据清洗的压力。[0077]进一步的,如果在数据清洗过程中监控到其他的异常情况,则可以终止该次数据采集流程并进行告警。[0078]多次请求数据结果的重复率较高,会导致程序针对大量的重复数据进行格式转换处理、数据清洗处理,可能会导致数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率。因此可以通过检测多次请求数据结果重复率,确定数据采集流程的数据采集效率是否落后于标准数据采集流程中规定的标准数据采集效率。[0079]因此,作为一种可选的实现方式,在本技术另一实施例中公开了,在本技术另一实施例中公开了,数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率包括数据采集流程中的重复请求次数大于标准数据采集流程中规定的第二次数;以上实施例的步骤若检测到数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,则延长采集周期,具体可以包括如下步骤:若检测到数据采集流程中的重复请求次数大于标准数据采集流程中规定的第二次数,则计算重复请求次数与第二次数的第二比值;确定第二比值和当前的采集周期的乘积,为新的采集周期。[0080]上述重复请求次数为采集到的数据的重复率大于设定重复率阈值的请求次数。例如,连续三次数据采集所采集到的数据之间的重复率都大于设定重复率阈值,则表示重复请求次数为2次。[0081]本技术的实施例中,标准数据采集流程中规定了重复请求次数的上限值,该重复请求次数的上限值为上述第二次数。一些实施例中,上述标准数据采集流程的步骤三对数据进行结构化处理时,计算采集到的数据的重复率,并规定了重复请求次数的上限值。上述第二次数可以根据实际情况进行设置,本实施例不做限定。[0082]在实际的数据采集过程中,本技术的实施例监测重复请求次数,如果检测到重复请求次数大于第二次数,则需要对采集周期进行延长处理。具体地,可以计算重复请求次数与第二次数的第二比值,确定第二比值和当前的采集周期的乘积,为新的采集周期。以便于在接下来的数据采集流程中,按照新的采集周期进行数据采集。[0083]公式如下:[0084][0085]需要说明的是,当实际的数据采集流程中再次出现异常情况需要调整周期时,将本步骤中确定的新的采集周期将作为当前的采集周期,以重新确定采集周期作为新的采集周期。[0086]示例性的,若当前的采集周期为1小时,第二次数为2次,若检测重复请求次数为2次,则表示数据采集流程中不存在异常情况;若检测重复请求次数为3次,则表示数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,数据采集流程出现异常情况,需要延长采集周期。[0087]新的采集周期为:[0088][0089]以上实施例中,通过比对重复请求次数与第二次数,能够快速、清晰地确定是否出现数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率的异常情况,如果出现该异常情况能够及时对周期进行自动调整,智能化程度高。同时,在重复请求次数较多的情况下,表示设定网页中的信息未发生更新或者更新的次数较慢,则可以适当延长采集周期,以节约网络资源与算力资源。[0090]作为一种可选的实现方式,在本技术另一实施例中公开了,数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率包括实际运行环境的处理性能低于标准数据采集流程中规定的处理性能。[0091]具体地,当实际运行环境的处理性能低于标准数据采集流程中规定的处理性能时,会导致数据采集流程的数据采集处理速度变慢,进而导致数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率。[0092]示例性的,标准数据采集流程中规定的处理性能包括部署数据采集流程的服务器网络情况、cpu运行情况、运行内存、磁盘剩余空间等。当检测到实际的数据采集流程中出现以下至少一种情况时,确定数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,数据采集流程中出现异常情况:[0093]部署数据采集流程的服务器网络波动大于标准数据采集流程中规定的标准、cpu消耗大于标准数据采集流程中规定的标准、运行内存小于标准数据采集流程中规定的标准、磁盘剩余空间小于标准数据采集流程中规定的标准。[0094]当检测到实际运行环境的处理性能低于标准数据采集流程中规定的处理性能时,可以适当延长数据采集流程的采集周期,当实际运行环境的处理性能过低时,还可以停止数据采集流程并进行告警。[0095]以上实施例中,通过比对实际运行环境的与标准数据采集流程中规定的处理性能,能够快速、清晰地确定是否出现数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率的异常情况,如果出现该异常情况能够及时对周期进行自动调整,智能化程度高。同时,实际运行环境的处理性能较低的情况下延长采集周期,能够减少服务器的工作量。[0096]与上述数据采集流程的控制方法相对应的,本技术实施例还公开了一种数据采集流程的控制装置,参见图2所示,该装置包括:[0097]监控模块100,用于监控数据采集流程;数据采集流程为从设定网页采集数据的流程;[0098]调整模块110,用于若检测到数据采集流程中存在异常情况,则根据异常情况调整数据采集流程的采集周期;异常情况包括数据采集流程与设定的标准数据采集流程不符的情况。[0099]作为一种可选的实现方式,在本技术另一实施例中公开了,以上实施例的调整模块110,在若检测到数据采集流程中存在异常情况,则根据异常情况调整数据采集流程的采集周期时,具体用于:[0100]若检测到数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,则延长采集周期。[0101]作为一种可选的实现方式,在本技术另一实施例中公开了,数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率包括数据采集流程请求网页时的网络延迟次数,大于标准数据采集流程中规定的第一次数,以上实施例的调整模块110,在若检测到数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,则延长采集周期时,具体用于:[0102]若检测到数据采集流程请求网页时的网络延迟次数,大于标准数据采集流程中规定的第一次数,则计算网络延迟次数与第一次数的第一比值;确定第一比值和当前的采集周期的乘积,为新的采集周期。[0103]作为一种可选的实现方式,在本技术另一实施例中公开了,数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率包括数据采集流程对采集到的数据进行清洗的清洗时长,大于标准数据采集流程中的规定时长,以上实施例的调整模块110,在若检测到数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,则延长采集周期时,具体用于:[0104]若检测到数据采集流程对采集到的数据进行清洗的清洗时长,大于标准数据采集流程中的规定时长,则计算清洗时长与规定时长的时长差;确定时长差的一半与当前的采集周期的和,为新的采集周期。[0105]作为一种可选的实现方式,在本技术另一实施例中公开了,数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率包括数据采集流程中的重复请求次数大于标准数据采集流程中规定的第二次数;重复请求次数为采集到的数据的重复率大于设定重复率阈值的请求次数,以上实施例的调整模块110,在若检测到数据采集流程的数据采集效率落后于标准数据采集流程中规定的标准数据采集效率,则延长采集周期时,具体用于:[0106]若检测到数据采集流程中的重复请求次数大于标准数据采集流程中规定的第二次数,则计算重复请求次数与第二次数的第二比值;确定第二比值和当前的采集周期的乘积,为新的采集周期。[0107]作为一种可选的实现方式,在本技术另一实施例中公开了,异常情况包括实际运行环境的处理性能低于标准数据采集流程中规定的处理性能。[0108]具体地,上述的数据采集流程的控制装置的各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。[0109]本技术实施例还提出一种控制装置,该控制装置包括处理器和接口电路,该控制装置中的处理器通过该控制装置的接口电路与输入输出组件连接。[0110]该输入输出组件,具体是指能够使用户输入信息以及输出信息给用户的硬件组件,例如可以是麦克风、键盘、手写板,触控屏、显示器、音响、打印机等。[0111]上述的接口电路可以是任意的能够实现数据通信功能的接口电路,例如可以是usb接口电路、type-c接口电路、串口电路、pcie电路等。[0112]该控制装置中的处理器是具有信号处理能力的电路,其通过执行上述实施例中所介绍的任意一种数据采集流程的控制方法。[0113]当该控制装置应用于具有人机交互功能的设备时,该控制装置的输入输出组件可以是设备上输入组件和输出组件,例如麦克风、键盘、手写板,触控屏、显示器、音频播放器等,同时,该控制装置的处理器可以是设备自带的cpu或gpu等,该控制装置的接口电路可以是该设备的信息输入组件与cpu或gpu等处理器之间的接口电路。[0114]与上述数据采集流程的控制方法相对应的,本技术实施例还公开了一种电子设备,参见图3所示,该电子设备包括:[0115]存储器200和处理器210;[0116]其中,存储器200与处理器210连接,用于存储程序;[0117]处理器210,用于通过运行存储器200中存储的程序,实现上述任一实施例公开的数据采集流程的控制方法。[0118]具体地,上述电子设备还可以包括:总线、通信接口220、输入设备230和输出设备240。[0119]处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:[0120]总线可包括一通路,在计算机系统各个部件之间传送信息。[0121]处理器210可以是通用处理器,例如通用中央处理器(cpu)、微处理器等,也可以是特定应用集成电路(application-specificintegratedcircuit,asic),或一个或多个用于控制本技术方案程序执行的集成电路。还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。[0122]处理器210可包括主处理器,还可包括基带芯片、调制解调器等。[0123]存储器200中保存有执行本技术技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体地,存储器200可以包括只读存储器(read-onlymemory,rom)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(randomaccessmemory,ram)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。[0124]输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。[0125]输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。[0126]通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(ran),无线局域网(wlan)等。[0127]处理器210执行存储器200中所存放的程序,以及调用其他设备,可用于实现本技术上述实施例所提供的数据采集流程的控制方法的各个步骤。[0128]与上述数据采集流程的控制方法相对应的,本技术实施例还公开了一种数据采集系统,参见图4所示,该数据采集系统包括:数据采集模组300和智能监控模组310;[0129]数据采集模组300,用于从设定网页采集数据;[0130]智能监控模组310,用于按照以上实施例记载的数据采集流程的控制方法,对数据采集模组进行监控。[0131]本实施例提供的数据采集系统,与本技术上述实施例所提供的数据采集流程的控制方法属于同一申请构思,可执行本技术上述任意实施例所提供的数据采集流程的控制方法,具备执行上述数据采集流程的控制方法相应的功能模块和有益效果未在本实施例中详尽描述的技术细节,可参见本技术上述实施例提供的数据采集流程的控制方法的具体处理内容,此处不再加以赘述。[0132]作为一种可选的实现方式,在本技术另一实施例中公开了,如图5所示,数据采集系统还包括输入模组320、任务调度模组330和数据库模组340。[0133]其中,输入模组320用于获取设定网页的地址、设定的标准数据采集流程和设定的采集策略。其中,设定网页的地址、设定的标准数据采集流程和设定的采集策略一般是由用户输入的,也可以是根据用户的需求自动生成的,本实施例不做限定。[0134]设定的采集策略包括采集周期、数据清洗规则等。设定的标准数据采集流程包括标准的数据采集步骤,还包括上述实施例中的第一次数、规定时长、第二次数、运行环境的处理性能中的至少一种。一些实施例中,采集周期可以采用cron表达式。[0135]任务调度模组330用于控制数据采集模组300根据设定网页的地址、设定的采集策略、设定的标准数据采集流程进行数据采集。一些实施例中,任务调度模组330还支持cron表达式配置任务执行周期,记录数据采集流程的执行日志。[0136]数据库模组340用于存储数据采集模组300采集的数据。[0137]智能监控模组310用于若检测到数据采集模组300执行的数据采集流程中存在异常情况,则根据异常情况调整数据采集流程的采集周期。在对采集周期进行调整时,一些实施例中,智能监控模组310可以通过任务调度模组350进行周期调整,如图5所示。[0138]作为一种可选的实现方式,在本技术另一实施例中公开了,如图5所示,数据采集模组300包括页面解析模组、数据清洗模组、数据结构化模组和数据持久化模组;[0139]页面解析模组,用于根据设定网页的地址请求设定网页,并提取设定网页中的第一数据。示例性的,页面解析模组整合了多项数据采集技术,适用多种数据采集场景。页面解析模组可以整合jsoup、webmagic、httpclient、scrapy、cola、portia、selenium、playwright等技术,按照采集周期对设定网页进行网络请求,获取网页html文本内容。将html文本内容解析为dom树,将dom树维护成java对象,得到第一数据,并将第一数据传递到数据清洗模组。[0140]数据清洗模组,用于对第一数据进行清洗,得到第二数据。示例性的,数据清洗模组也整合了多项数据采集技术,适用多种数据采集场景。数据清洗模组可以整合jsoup、xpath、regex等技术,按照数据清洗规则从第一数据中获取感兴趣部分的网页内容数据,过滤其中的重复内容,判断内容是否符合需求,筛选出有价值的数据作为第二数据,并传递第二数据到数据结构化模组。[0141]数据结构化模组,用于对第二数据进行结构化处理,得到第三数据。示例性的,数据结构化模组针对数据清洗模组产生的零散的第二数据,进行格式化处理,每个第二数据对应可读性较高的属性名称,将具有关联性的第二数据合并为同一结构体得到第三数据,并将第三数据传递给数据持久化模组。[0142]数据持久化模组,用于对第三数据存储到数据库模组340中,对第三数据进行持久化处理。示例性的,数据持久化模组也整合了多项数据采集技术,适用多种数据采集场景。数据持久化模组集成springbootjpa、querydsl技术,兼容多种数据库模组340,包括mysql、oracle、sqlserver、postgresql。使用对应数据库驱动和数据库程序进行通信,将结构化数据持久化保存到指定数据库模组340中。也可将数据输出到word、excel、txt、json等格式的文档。持久化保存的数据可以随时读取。[0143]以上实施例中,将数据采集模组300进行了模块化处理,数据采集模组300中的各个模组之间独立工作,互不影响,当其中一个模组出现故障时,其他模组不会受到影响,如此设置,能够提高数据采集模组300的可靠性。[0144]一些实施例中,输入模组320为可视化操作界面。可视化操作界面包括使用vue、react、angular、vite、jquery、ts、html、css、js技术开发的web页面,提供友好的系统控制界面,核心功能包含数据采集流程管理、数据采集任务管理、数据采集任务实时监控、智能监控策略调整日志等。[0145]在一个具体的实施例中,需要在公开的网页中采集已脱敏且不涉及患者隐私网络问诊问答记录数据,数据采集系统的工作流程如下:[0146]在可视化操作界面输入目标网页的url地址。设置执行周期cron表达式为“000/1**?”,表示每隔一小时执行一次。设置当实际延迟大于10秒时为网络延迟,第一次数为1次,规定时长为10秒,第二次数为1次。[0147]当系统时间到达每个小时的0分0秒时,任务调度模组330将调度数据采集模组300执行数据采集流程。[0148]页面解析模组根据预设的url地址获取到设定网页的html文档,并将html文档解析为dom树,封装成java对象。[0149]页面解析模组使用xpath表达式“//div[contains(@class,'hot-qa-item')]”,从java对象中获取到问答节点列表;页面解析模组遍历每一个问答节点,进一步通过xpath表达式“//div[@class='qa-itemqa-item-ask”获取到提问节点列表,通过xpath表达式“//div[@class='qa-itemqa-item-answer']”获取回答节点列表。[0150]数据清洗模组最终清洗出该问答节点的有效文本数据,并由数据结构化模组封装为java对象。[0151]数据持久化模组将java对象持久化到mysql数据库中。[0152]当系统时间到达下一个执行周期时,任务调度模组330将再一次调度数据采集模组300执行数据采集流程。智能监控模组310将全程监控各个模组的运行,若出现网络延迟超过10秒、数据清洗超过10秒、数据重复1次等情况,会根据对应算法调整采集周期。[0153]在一个具体的实施例中,需要在公开的网页中采集已脱敏的流感常用药使用说明书数据,数据采集系统的工作流程如下:[0154]在可视化操作界面输入药品说明书查询网站的url地址。设置执行周期cron表达式为“0000/1*?”,表示每天0时0分0秒执行一次。设置当实际延迟大于20秒时为网络延迟,第一次数为1次,规定时长为20秒,第二次数为1次。[0155]当系统时间为每天0时0分0秒时,任务调度模组330将调度数据采集模组300执行数据采集流程。[0156]页面解析模组根据预设的url地址获取到目标页面的html文档,并将html文档解析为dom树,封装成java对象。[0157]页面解析模组使用xpath表达式“tr[contains(@class,'el-table_row')]”提取出药品列表,然后遍历药品列表中每个药品信息节点,并进一步使用xpath表达式“/td[1]/div/span”获取药品名称节点,使用xpath表达式“/td[2]/div/span”获取说明书来源节点。[0158]数据清洗模组清洗出药品信息节点中的有效文本数据,并由数据结构化模组封装为java对象。[0159]回调页面解析模组,使用playwright技术模拟用户点击药品名称链接,进入药品说明书页面,并通过xpath表达式获取药品说明书核心节点列表。[0160]页面解析模组遍历药品说明书节点列表,并通过xpath表达式“/span[1]”获取说明书字段名节点;通过xpath表达式“/div[1]/span”获取说明书字段值节点。[0161]数据清洗模组清洗出有效文本数据后,由数据结构化模组将字段名和字段值对应为json格式字符串,并封装为java对象。[0162]数据持久化模组将java对象持久化到mysql数据库中。[0163]当系统时间到达下一个执行周期时,任务调度模组330将再一次调度数据采集模组300执行数据采集流程。智能监控模组310将全程监控各个模组的运行,若出现网络延迟超过20秒、数据清洗超过20秒、数据重复1次等情况,都会根据对应算法进行规则自调节。[0164]除了上述方法和设备以外,本技术的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器210运行时使得处理器210执行上述实施例所提供的数据采集流程的控制方法的各个步骤。计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本技术实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行,或者完全在远程计算设备或服务器上执行。[0165]此外,本技术的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器210执行上述实施例所提供的数据采集流程的控制方法的各个步骤。[0166]所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线,或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体地例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件,或者上述的任意合适的组合。[0167]对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必需的。[0168]需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。[0169]本技术各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。[0170]本技术各实施例中装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。[0171]本技术所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其他的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其他的形式。[0172]作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。[0173]另外,在本技术各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。[0174]专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。[0175]结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或
技术领域:
:内所公知的任意其他形式的存储介质中。[0176]最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”“包含”或者其任何其他变体意在涵盖非排他性地包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。[0177]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其他实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。当前第1页12当前第1页12
技术特征:
1.一种数据采集流程的控制方法,其特征在于,包括:监控数据采集流程;所述数据采集流程为从设定网页采集数据的流程;若检测到所述数据采集流程中存在异常情况,则根据所述异常情况调整所述数据采集流程的采集周期;所述异常情况包括所述数据采集流程与设定的标准数据采集流程不符的情况。2.根据权利要求1所述的方法,其特征在于,若检测到所述数据采集流程中存在异常情况,则根据所述异常情况调整所述数据采集流程的采集周期,包括:若检测到所述数据采集流程的数据采集效率落后于所述标准数据采集流程中规定的标准数据采集效率,则延长所述采集周期。3.根据权利要求2所述的方法,其特征在于,所述数据采集流程的数据采集效率落后于所述标准数据采集流程中规定的标准数据采集效率包括所述数据采集流程请求网页时的网络延迟次数,大于所述标准数据采集流程中规定的第一次数;若检测到所述数据采集流程的数据采集效率落后于所述标准数据采集流程中规定的标准数据采集效率,则延长所述采集周期,包括:若检测到所述数据采集流程请求网页时的网络延迟次数,大于所述标准数据采集流程中规定的第一次数,则计算所述网络延迟次数与所述第一次数的第一比值;确定所述第一比值和当前的采集周期的乘积,为新的采集周期。4.根据权利要求2所述的方法,其特征在于,所述数据采集流程的数据采集效率落后于所述标准数据采集流程中规定的标准数据采集效率包括所述数据采集流程对采集到的数据进行清洗的清洗时长,大于所述标准数据采集流程中的规定时长;若检测到所述数据采集流程的数据采集效率落后于所述标准数据采集流程中规定的标准数据采集效率,则延长所述采集周期,包括:若检测到所述数据采集流程对采集到的数据进行清洗的清洗时长,大于所述标准数据采集流程中的规定时长,则计算所述清洗时长与所述规定时长的时长差;确定所述时长差的一半与当前的采集周期的和,为新的采集周期。5.根据权利要求2所述的方法,其特征在于,所述数据采集流程的数据采集效率落后于所述标准数据采集流程中规定的标准数据采集效率包括所述数据采集流程中的重复请求次数大于所述标准数据采集流程中规定的第二次数;所述重复请求次数为采集到的数据的重复率大于设定重复率阈值的请求次数;若检测到所述数据采集流程的数据采集效率落后于所述标准数据采集流程中规定的标准数据采集效率,则延长所述采集周期,包括:若检测到所述数据采集流程中的重复请求次数大于所述标准数据采集流程中规定的第二次数,则计算所述重复请求次数与所述第二次数的第二比值;确定所述第二比值和当前的采集周期的乘积,为新的采集周期。6.一种数据采集流程的控制装置,其特征在于,包括:监控模块,用于监控数据采集流程;所述数据采集流程为从设定网页采集数据的流程;调整模块,用于若检测到所述数据采集流程中存在异常情况,则根据所述异常情况调整所述数据采集流程的采集周期;所述异常情况包括所述数据采集流程与设定的标准数据采集流程不符的情况。
7.一种电子设备,其特征在于,包括:存储器和处理器;其中,所述存储器用于存储程序;所述处理器,用于通过运行所述存储器中的程序,实现如权利要求1至7中任意一项所述的方法。8.一种数据采集系统,其特征在于,包括:数据采集模组和智能监控模组;所述数据采集模组,用于从设定网页采集数据;所述智能监控模组,用于按照权利要求1-5任一项所述的方法,对所述数据采集模组进行监控。9.根据权利要求8所述的系统,其特征在于,所述数据采集模组包括页面解析模组、数据清洗模组、数据结构化模组和数据持久化模组;所述页面解析模组,用于请求设定网页,并提取所述设定网页中的第一数据;所述数据清洗模组,用于对所述第一数据进行清洗,得到第二数据;所述数据结构化模组,用于对所述第二数据进行结构化处理,得到第三数据;所述数据持久化模组,用于对所述第三数据进行持久化处理。10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至5中任意一项所述的方法。
技术总结
本申请提出一种数据采集流程的控制方法、装置、设备、系统和存储介质,该方法通过对数据采集流程进行监控,在检测到数据采集流程中存在数据采集流程与设定的标准数据采集流程不符的异常情况时,能够根据异常情况调整数据采集流程的采集周期,实现自动对异常情况进行干预的目的,智能化程度高。智能化程度高。智能化程度高。
技术研发人员:方俊杰 李锦程 崔荣涛
受保护的技术使用者:讯飞医疗科技股份有限公司
技术研发日:2023.04.24
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/