一种网络数据获取方法、装置、设备及介质与流程

未命名 08-26 阅读:166 评论:0


1.本发明涉及数据处理技术领域,尤其涉及一种网络数据获取方法、装置、设备及介质。


背景技术:

2.在互联网环境中,数据是非常重要的一种资产,爬虫系统则是有效获取数据的重要途径之一。
3.目前,很多网站采取了反爬虫技术,使用同一个ip去爬取网站数据,往往很容易被网站识别拉到黑名单中,从而不能继续爬取网站数据。此时,若想继续获取该网站的数据,采用代理ip访问网站进行数据爬取是有效的途径之一。
4.然而现有技术中通常会将代理ip存储到本地数据库中,致使代理ip数据在使用过程中不能同步进行其他操作,降低了数据的获取效率以及吞吐量,以及后续数据处理的灵活性以及存储的可定制性。


技术实现要素:

5.本发明提供了一种网络数据获取方法、装置、设备及介质,以解决在获取网络数据时效率低的问题。
6.根据本发明的一方面,提供了一种网络数据获取方法,该方法包括:
7.确定待爬取数据所处的数据源;
8.从提供代理ip的网站上爬取得到至少两个代理ip,将所述至少两个代理ip在线存储到预设的回传地址中,得到ip地址池;其中,所述ip地址池中的代理ip互不相同;
9.根据所述ip地址池访问所述数据源,并执行数据爬取任务。
10.根据本发明的另一方面,提供了一种网络数据获取装置,该装置包括:
11.数据源确定模块,用于确定待爬取数据所处的数据源;
12.ip地址池确定模块,用于从提供代理ip的网站上爬取得到至少两个代理ip,将所述至少两个代理ip在线存储到预设的回传地址中,得到ip地址池;其中,所述ip地址池中的代理ip互不相同;
13.数据爬取模块,用于根据所述ip地址池访问所述数据源,并执行数据爬取任务。
14.根据本发明的另一方面,提供了一种电子设备,该电子设备包括:
15.至少一个处理器;以及
16.与所述至少一个处理器通信连接的存储器;其中,
17.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的网络数据获取方法。
18.根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述
的网络数据获取方法。
19.本发明实施例的技术方案,通过将获取的代理ip以在线方式存储到预设的回传地址,能够满足不同的数据存储需求,避免了仅能存储在本地数据库,提高了数据处理的灵活性、数据存储的可定制性以及数据的可扩展性;且通过使用预设的回传地址存储代理ip,能够实现将代理ip存储到可控的位置,限制对存储数据的访问,避免了直接暴露真实的数据存储位置,提高了数据的隐私性和安全性。
20.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
21.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是根据本发明实施例一提供的一种网络数据获取方法的流程图;
23.图2是根据本发明实施例二提供的一种网络数据获取方法的流程图
24.图3是根据本发明实施例三提供的一种网络数据获取装置的结构示意图;
25.图4是实现本发明实施例的网络数据获取方法的电子设备的结构示意图。
具体实施方式
26.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
27.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
28.此外,还需要说明的是,本发明的技术方案中,所涉及的待爬取数据、代理ip等的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
29.实施例一
30.图1为本发明实施例一提供了一种网络数据获取方法的流程图,本实施例可适用于基于代理ip爬取网络数据的情况,该方法可以由网络数据获取装置来执行,该网络数据获取装置可以采用硬件和/或软件的形式实现,该网络数据获取装置可以集成在能够实现
网络数据获取方法的电子设备中。如图1所示,该方法包括:
31.s110、确定待爬取数据所处的数据源。
32.其中,待爬取数据可以是指用户需要从网络上获取的数据。数据源可以是存储有数据信息的网页。
33.本发明实施例的执行主体可以是终端设备或者服务器;优选的,本发明实施例的执行主体为一服务器,该服务器可以是设定工具创建的本地服务器。其中,设定工具可以由技术人员根据实际需求进行限定,本发明对所采用的设定工具不作任何限定。在一个具体实现方式中,设定工具可以是flask轻量级web应用程序框架。
34.具体的,在服务器爬取数据之前,需要确定待爬取数据所在的数据源信息。
35.s120、从提供代理ip的网站上爬取得到至少两个代理ip,将至少两个代理ip在线存储到预设的回传地址中,得到ip地址池;其中,ip地址池中的代理ip互不相同。
36.其中,代理ip用于访问数据源。预设的回传地址可以是指本机回送地址。通过将至少两个代理ip存储到回传地址中,得到包括至少两个代理ip的ip地址池。可选的,存储代理ip的回传地址可以以网页形式呈现给用户。
37.通过在回传地址中存储代理ip,可以并行执行使用代理ip访问数据源、删除代理ip以及新增代理ip等过程,且在向回传地址中新增代理ip时,只需将代理ip发送到回传地址,无需等待回传地址反馈接收响应,即可进行其他数据操作(如存储新的代理ip)。示例性的,ip地址池中可以存储预设数量的代理ip,且只要检测到该ip地址池中的代理ip被使用(即访问数据源),就会立即执行删除该被使用的代理ip的操作,以及还可从提供代理ip的网站上获取新的代理ip存储到ip地址池,即ip地址池的代理ip是动态更新的保证了ip地址能够实时性进行更新,提高了数据的获取效率,以及响应效率。另外,ip地址池中代理ip的数量等于或小于固定的数量阈值,通过控制ip地址池中代理ip的数量,从而避免ip地址池中的代理ip过多占用回传地址的资源。
38.具体的,服务器在提供代理ip的网站上爬取得到至少两个代理ip,并将爬取得到的代理ip以在线方式存储到预设的回传地址,得到存储有多个代理ip的ip地址池。可选的,步骤s110可以发生在步骤120之前,也可以发生在步骤s120之后,本发明实施例中对此不做具体限定。
39.在本发明实施例的一个可选方式中,从提供代理ip的网站上爬取得到至少两个代理ip,将至少两个代理ip在线存储到预设的回传地址中,得到ip地址池,包括:向提供代理ip的网站发送代理ip获取请求,以指示所述网站确定请求结果;接收网站返回的请求结果,并获取请求结果中的代理ip;将所述代理ip在线存储到预设的回传地址中,得到ip地址池。
40.具体的,服务器向提供代理ip的网站发送代理ip获取请求,提供代理ip的网站获取到服务器发送的请求,会确定该请求中需要获取的代理ip,并将携带有代理ip的请求结果返回给服务器,服务器会接收该请求结果并获取其携带的代理ip,并以在线形式将代理ip存储到预设的回传地址,得到存储有多个代理ip的ip地址池。
41.s130、根据ip地址池访问数据源,并执行数据爬取任务。
42.其中,数据爬取任务可以是指在数据源中获取待爬取数据的过程。具体的,从ip地址池中获取一个代理ip访问数据源,并在该数据源中执行数据爬取任务。
43.在本发明实施例的一个可选方式中,根据ip地址池访问所述数据源,并执行数据
爬取任务,包括:根据数据源的数据结构,确定待爬取数据所处的数据结构位置;根据ip地址池和数据结构位置访问所述数据源,并执行数据爬取任务。
44.其中,数据源的数据结构可以是指数据源的组成结构。例如,网站作为存储有数据信息的数据源,其是由《head》头部标签以及《body》主体标签构成,网页的主体标签部分存储有网页的数据资源,也即需要在网页中进行爬取的数据所处的结构位置。
45.具体的,采用预设的库函数对数据源进行解析获取数据源的数据结构,确定待爬取数据在数据源中所处的数据结构位置;从ip地址池中获取一个代理ip访问待爬取数据在数据源中所处的数据结构位置,执行数据爬取任务。在一个具体实现方式中,预设的库函数可以是beautifulsoup解析库,该库函数可以从网页中提取数据并进行网页数据进行解析。
46.本发明实施例的技术方案,通过将获取的代理ip以在线方式存储到预设的回传地址,能够满足不同的数据存储需求,避免了仅能存储在本地数据库,提高了数据处理的灵活性、数据存储的可定制性以及数据的可扩展性;且通过使用预设的回传地址存储代理ip,能够实现将代理ip存储到可控的位置,限制对存储数据的访问,避免了直接暴露真实的数据存储位置,提高了数据的隐私性和安全性。
47.实施例二
48.图2为本发明实施例二提供的一种网络数据获取方法的流程图,本实施例在上述实施例的基础上,对根据ip地址池访问所述数据源,并执行数据爬取任务,进行了进一步优化。需要说明的是,在本发明实施例未详述部分,可参见其他实施例的相关表述,再次不再赘述。如图2所示,该方法包括:
49.s210、确定待爬取数据所处的数据源。
50.s220、从提供代理ip的网站上爬取得到至少两个代理ip,将至少两个代理ip在线存储到预设的回传地址中,得到ip地址池。
51.s230、从ip地址池中选取代理ip,并采用该代理ip访问数据源进行数据爬取。
52.具体的,从ip地址池中选取一个代理ip,并采用该代理ip访问数据源,进行数据源中数据的爬取。可选的,从ip地址池中选取代理ip的方式可以是以随机获取的方式来进行选取。
53.s240、对爬取到的数据源数据进行标签解析,确定待爬取数据对应的标签位置,并根据标签位置获取待爬取的目标数据。
54.其中,数据源数据可以是指数据源中存在的各种类型的数据。例如网页中存在图像以及文字等数据,而网页中存在不同类型的数据都存在与之对应的标签,示例性的,《img》标签用于定义并显示图像数据。目标数据可以是指数据源中与待爬取数据的数据类型相同的数据。
55.具体的,在数据源中爬取到数据源数据之后,对数据源数据进行标签解析,将数据源数据按照标签类型划分成不同的数据类型,根据待爬取数据的数据类型确定数据源中对应的数据类型的标签位置,并根据确定的标签位置爬取该标签位置对应的目标数据,实现了对待爬取数据的精准获取,提高了数据的获取效率。
56.在本发明实施例的一个可选方式中,若目标数据为图像数据,则采用标签位置获取待爬取的目标数据之后,还包括:获取图像数据中各颜色通道的像素值,并根据各颜色通道的像素值确定各颜色通道的像素标准差;根据各颜色通道的像素标准差与预设阈值,对
图像数据进行筛选。
57.其中,颜色通道可以是指图像的红色(r)、绿色(g)以及蓝色(b)三种通道;对于彩色图像来说,其三种通道的像素值会存在明显的差异,而对于非彩色图像来说,其三种通道的像素值会比较接近。据此,可以根据图像数据的三通颜色通道的像素值来判断该图像数据是否为彩色图像数据。
58.具体的,通过获取图像数据中的各颜色通道的像素值,根据各颜色通道的像素值确定各颜色通道的像素标准差;若各颜色通道的像素标准差都未超过预设阈值,则确定该图像数据为非彩色图像,不对该图像数据进行获取;若存在任一颜色通道的像素标准差超过预设阈值,则确定该图像数据为彩色图像,并对该彩色图像进行获取。其中,预设阈值可以由本领域技术人员进行适应性设置。可选的,本发明实施例中可以通过采用opencv图像处理库,对图像数据进行处理,获取各颜色通道的像素平均值。可选的,像素标准差可以通过如下公式确定:
[0059][0060]
其中,σ表示像素标准差,n表示像素数量,xi表示当前颜色通道中第i个像素值,μ表示当前颜色通道的像素平均值。
[0061]
可选的,在获取到彩色图像之后,还包括:若该彩色图像的一个当前像素点坐标为(x,y),则该当前像素点的四个邻域像素点坐标为(x+1,y),(x-1,y),(x,y-1),(x,y+1),判断该当前像素点的rgb值与其四个领域像素点的rgb值是否相同;若相同,则将领域像素点作为当前像素点,继续判断当前像素点的rgb值与其四个领域像素点的rgb值是否相同;若相同,则记录该当前像素点;最终获取被记录的像素点的范围内的所有像素点构成的切片图像。
[0062]
可选的,本发明实施例的方法,还包括:获取目标数据的发布时间信息;根据发布时间信息和当前时间信息确定目标数据是否是在预设时间内发布的;若是,则持续监测数据源中待爬取数据的数据更新量;若所述数据更新量达到设定阈值,则更新数据源,并从ip地址池中重新获取代理ip,采用重新获取的代理ip访问更新后数据源进行数据爬取,以此来保证获取的目标数据的实时性。
[0063]
其中,发布时间信息可以是指目标数据发布到网站上时间信息。当前时间信息可以是指当前的实时时间。数据更新量可以是指在固定时间内新发布的数据量。可选的,预设时间可以是一周或者一个月;预设时间以及设定阈值的设置可以根据本领域技术人员进行适应性设置。
[0064]
具体的,通过获取目标数据发布到数据源的发布时间,根据发布时间以及当前时间确定目标数据是否是在预设时间内发布到数据源的;若是,则确定该数据源的活跃度较高,并持续检测监测该数据源的数据更新量;当该数据源的数据更新量达到设定阈值,则刷新该数据源,并从ip地址池中重新获取一个代理ip访问该数据源,进行数据爬取任务。可选的,从ip地址池中重新获取一个代理ip的方式可以是以随机获取的方式来进行获取。
[0065]
本发明实施例的技术方案,通过从ip地址池中选取代理ip访问数据源,进行数据爬取,对爬取到的数据源数据进行标签解析,确定待爬取数据在数据源中的对应的标签位置,并获取数据源中待爬取数据对应的目标数据,避免了数据源中无关数据的干扰,实现了对待爬取数据的精准获取,提高了数据的获取效率。
[0066]
实施例三
[0067]
图3为本发明实施例三提供的一种网络数据获取装置的结构示意图。该装置适用于基于代理ip爬取网络数据的情况。如图3所示,该装置包括:
[0068]
数据源确定模块310,用于确定待爬取数据所处的数据源;
[0069]
ip地址池确定模块320,用于从提供代理ip的网站上爬取得到至少两个代理ip,将至少两个代理ip在线存储到预设的回传地址中,得到ip地址池;其中,ip地址池中的代理ip互不相同;
[0070]
数据爬取模块330,用于根据ip地址池访问数据源,并执行数据爬取任务。
[0071]
本发明实施例的技术方案,通过将获取的代理ip以在线方式存储到预设的回传地址,能够满足不同的数据存储需求,避免了仅能存储在本地数据库,提高了数据处理的灵活性、数据存储的可定制性以及数据的可扩展性;且通过使用预设的回传地址存储代理ip,能够实现将代理ip存储到可控的位置,限制对存储数据的访问,避免了直接暴露真实的数据存储位置,提高了数据的隐私性和安全性。
[0072]
可选的,ip地址池确定模块320,可具体用于向提供代理ip的网站发送代理ip获取请求,以指示网站确定请求结果;接收网站返回的请求结果,并获取请求结果中的代理ip;将代理ip在线存储到预设的回传地址中,得到ip地址池。
[0073]
可选的,数据爬取模块330,包括:
[0074]
代理ip选取单元,用于从ip地址池中选取代理ip,并采用该代理ip访问数据源进行数据爬取;
[0075]
目标数据爬取单元,用于对爬取到的数据源数据进行标签解析,确定待爬取数据对应的标签位置,并根据标签位置获取待爬取的目标数据;
[0076]
像素标准差确定单元,用于若目标数据为图像数据;则获取图像数据中各颜色通道的像素值,并根据各颜色通道的像素值确定各颜色通道的像素标准差;
[0077]
筛选单元,用于根据各颜色通道的像素标准差与预设阈值,对图像数据进行筛选。
[0078]
可选的,数据爬取模块330,还包括:
[0079]
发布时间获取单元,用于获取目标数据的发布时间信息;
[0080]
数据监测单元,用于根据发布时间信息和当前时间信息确定目标数据是否是在预设时间内发布的;若是,则持续监测数据源中待爬取数据的数据更新量;
[0081]
重新获取单元,用于若数据更新量达到设定阈值,则更新数据源,并从ip地址池中重新获取代理ip,采用重新获取的代理ip访问更新后数据源进行数据爬取。
[0082]
可选的,数据爬取模块330,还包括:
[0083]
数据结构确定单元,用于根据数据源的数据结构,确定待爬取数据所处的数据结构位置;
[0084]
爬取单元,用于根据ip地址池和数据结构位置访问所述数据源,并执行数据爬取任务。
[0085]
本发明实施例所提供的网络数据获取装置可执行本发明任意实施例所提供的网络数据获取方法,具备执行方法相应的功能模块和有益效果。
[0086]
实施例四
[0087]
图4示出了可以用来实施本发明的实施例的电子设备410的结构示意图。电子设备
旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0088]
如图4所示,电子设备410包括至少一个处理器411,以及与至少一个处理器411通信连接的存储器,如只读存储器(rom)412、随机访问存储器(ram)413等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器411可以根据存储在只读存储器(rom)412中的计算机程序或者从存储单元418加载到随机访问存储器(ram)413中的计算机程序,来执行各种适当的动作和处理。在ram 413中,还可存储电子设备410操作所需的各种程序和数据。处理器411、rom 412以及ram 413通过总线414彼此相连。输入/输出(i/o)接口415也连接至总线414。
[0089]
电子设备410中的多个部件连接至i/o接口415,包括:输入单元416,例如键盘、鼠标等;输出单元417,例如各种类型的显示器、扬声器等;存储单元418,例如磁盘、光盘等;以及通信单元419,例如网卡、调制解调器、无线通信收发机等。通信单元419允许电子设备410通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0090]
处理器411可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器411的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器411执行上文所描述的各个方法和处理,例如网络数据获取方法。
[0091]
在一些实施例中,网络数据获取方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元418。在一些实施例中,计算机程序的部分或者全部可以经由rom 412和/或通信单元419而被载入和/或安装到电子设备410上。当计算机程序加载到ram 413并由处理器411执行时,可以执行上文描述的方法xxx的一个或多个步骤。备选地,在其他实施例中,处理器411可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行网络数据获取方法。
[0092]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0093]
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在
机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0094]
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0095]
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0096]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
[0097]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
[0098]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
[0099]
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

技术特征:
1.一种网络数据获取方法,其特征在于,包括:确定待爬取数据所处的数据源;从提供代理ip的网站上爬取得到至少两个代理ip,将所述至少两个代理ip在线存储到预设的回传地址中,得到ip地址池;其中,所述ip地址池中的代理ip互不相同;根据所述ip地址池访问所述数据源,并执行数据爬取任务。2.根据权利要求1所述的方法,其特征在于,所述从提供代理ip的网站上爬取得到至少两个代理ip,将所述至少两个代理ip在线存储到预设的回传地址中,得到ip地址池,包括:向提供代理ip的网站发送代理ip获取请求,以指示所述网站确定请求结果;接收所述网站返回的请求结果,并获取所述请求结果中的代理ip;将所述代理ip在线存储到预设的回传地址中,得到ip地址池。3.根据权利要求1所述的方法,其特征在于,所述根据所述ip地址池访问所述数据源,并执行数据爬取任务,包括:从所述ip地址池中选取代理ip,并采用该代理ip访问所述数据源进行数据爬取;对爬取到的数据源数据进行标签解析,确定所述待爬取数据对应的标签位置,并根据所述标签位置获取待爬取的目标数据。4.根据权利要求3所述的方法,其特征在于,若所述目标数据为图像数据,则采用所述标签位置获取待爬取的目标数据之后,还包括:获取所述图像数据中各颜色通道的像素值,并根据所述各颜色通道的像素值确定所述各颜色通道的像素标准差;根据所述各颜色通道的像素标准差与预设阈值,对所述图像数据进行筛选。5.根据权利要求3所述的方法,其特征在于,还包括:获取所述目标数据的发布时间信息;根据所述发布时间信息和当前时间信息确定所述目标数据是否是在预设时间内发布的;若是,则持续监测所述数据源中待爬取数据的数据更新量;若所述数据更新量达到设定阈值,则更新所述数据源,并从所述ip地址池中重新获取代理ip,采用重新获取的代理ip访问更新后数据源进行数据爬取。6.根据权利要求1所述的方法,其特征在于,根据所述ip地址池访问所述数据源,并执行数据爬取任务,包括:根据所述数据源的数据结构,确定待爬取数据所处的数据结构位置;根据所述ip地址池和所述数据结构位置访问所述数据源,并执行数据爬取任务。7.一种网络数据获取装置,其特征在于,包括:数据源确定模块,用于确定待爬取数据所处的数据源;ip地址池确定模块,用于从提供代理ip的网站上爬取得到至少两个代理ip,将所述至少两个代理ip在线存储到预设的回传地址中,得到ip地址池;其中,所述ip地址池中的代理ip互不相同;数据爬取模块,用于根据所述ip地址池访问所述数据源,并执行数据爬取任务。8.根据权利要求7所述的装置,其特征在于,所述ip地址池确定模块,具体用于:向提供代理ip的网站发送代理ip获取请求,以指示所述网站确定请求结果;接收所述网站返回的请求结果,并获取所述请求结果中的代理ip;
将所述代理ip在线存储到预设的回传地址中,得到ip地址池。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的网络数据获取方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的网络数据获取方法。

技术总结
本发明公开了一种网络数据获取方法、装置、设备及介质,涉及数据处理技术领域。该方法包括:确定待爬取数据所处的数据源;从提供代理IP的网站上爬取得到至少两个代理IP,将至少两个代理IP在线存储到预设的回传地址中,得到IP地址池;其中,IP地址池中的代理IP互不相同;根据IP地址池访问数据源,并执行数据爬取任务。本发明实施例通过将获取的代理IP以在线方式存储到预设的回传地址,能够满足不同的数据存储需求,避免了仅能存储在本地数据库,提高了数据处理的灵活性、数据存储的可定制性以及数据的可扩展性;同时能够实现将代理IP存储到可控的位置,避免了直接暴露真实的数据存储位置,提高了数据的隐私性和安全性。提高了数据的隐私性和安全性。提高了数据的隐私性和安全性。


技术研发人员:王兆麒 王兆麟 张浩楠
受保护的技术使用者:中国第一汽车股份有限公司
技术研发日:2023.05.30
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐