一种基于内容匹配对网页地址进行重定向的方法与流程
未命名
09-24
阅读:111
评论:0

1.本发明涉及网络应用技术领域,尤其是一种基于内容匹配对网页地址进行重定向的方法。
背景技术:
2.航天信息培训网校(以下简称航信网校)是面向企业、财税从业人员和社会公众的财税专业网络培训、学习平台。
3.航信网校收录了大量视频课程及文章,但是链接地址使用了伪静态地址和动态地址。在搜索引擎爬取文章地址的时候出现了两个地址,一个动态地址一个伪静态地址。
技术实现要素:
4.本发明为了重新配置服务器的重定向,提出了一种基于内容匹配对网页地址进行重定向的方法,包括:
5.获取作为基准内容的源网络内容和所述源网络内容的源网络地址,确定所述源网络内容的数据类型,根据数据类型获取所述源网络内容的标识特征、多个属性特征和数据特征;
6.将所述源网络内容的标识特征、多个属性特征和数据特征作为基准内容的基础标识特征、多个基准属性特征和基准数据特征;
7.基于所述基准内容的基础标识状态,在网络中进行搜索以获取与所述基准内容相关联的多个候选网页;
8.获取每个候选网页中候选内容的多个候选属性特征和候选数据特征,基于所述多个属性特征和数据特征与多个候选属性特征和候选数据特征的匹配结果,从多个候选网页中确定至少一个目标网页;
9.获取每个目标网页的目标网络地址,并将每个目标网页的目标网络地址发送给服务器,以使得服务器将每个目标网页重定向到所述源网络地址。
10.可选的,数据类型包括:文本数据、视频数据和音频数据
11.可选的,标识特征为用于在网络中识别所述源网络内容的标识信息。
12.可选的,当数据类型为文本数据时,所述多个属性特征包括:段落数量、字符数量和关键词。
13.可选的,当数据类型为视频数据时,所述多个属性特征包括:视频时间长度、关键视频节点和关键词。
14.可选的,当数据类型为音频数据时,所述多个属性特征包括:音频时间长度、关键音频节点和关键词。
15.可选的,当数据类型为文本数据时,所述数据特征包括:段落数量特征、字符数量特征和关键词特征。
16.可选的,当数据类型为视频数据时,所述数据特征包括:视频时间特征、关键视频
节点特征和关键词特征。
17.可选的,当数据类型为音频数据时,所述数据特征包括:音频时间长度特征、关键音频节点特征和关键词特征。
18.再一方面,本发明还提出了一种基于内容匹配对网页地址进行重定向的系统,包括:
19.采集模块,用于获取作为基准内容的源网络内容和所述源网络内容的源网络地址,确定所述源网络内容的数据类型,根据数据类型获取所述源网络内容的标识特征、多个属性特征和数据特征,将所述源网络内容的标识特征、多个属性特征和数据特征作为基准内容的基础标识特征、多个基准属性特征和基准数据特征;
20.搜索模块,用于基于所述基准内容的基础标识状态,在网络中进行搜索以获取与所述基准内容相关联的多个候选网页;
21.匹配模块,用于获取每个候选网页中候选内容的多个候选属性特征和候选数据特征,基于所述多个属性特征和数据特征与多个候选属性特征和候选数据特征的匹配结果,从多个候选网页中确定至少一个目标网页;
22.定向模块,获取每个目标网页的目标网络地址,并将每个目标网页的目标网络地址发送给服务器,以使得服务器将每个目标网页重定向到所述源网络地址。
23.可选的,数据类型包括:文本数据、视频数据和音频数据
24.可选的,标识特征为用于在网络中识别所述源网络内容的标识信息。
25.可选的,当数据类型为文本数据时,所述多个属性特征包括:段落数量、字符数量和关键词。
26.可选的,当数据类型为视频数据时,所述多个属性特征包括:视频时间长度、关键视频节点和关键词。
27.可选的,当数据类型为音频数据时,所述多个属性特征包括:音频时间长度、关键音频节点和关键词。
28.可选的,当数据类型为文本数据时,所述数据特征包括:段落数量特征、字符数量特征和关键词特征。
29.可选的,当数据类型为视频数据时,所述数据特征包括:视频时间特征、关键视频节点特征和关键词特征。
30.可选的,当数据类型为音频数据时,所述数据特征包括:音频时间长度特征、关键音频节点特征和关键词特征。
31.再一方面,本发明还提供了一种计算设备,包括:一个或多个处理器;
32.处理器,用于执行一个或多个程序;
33.当所述一个或多个程序被所述一个或多个处理器执行时,实现如上述所述的方法。
34.再一方面,本发明还提供了一种计算机可读存储介质,其上存有计算机程序,所述计算机程序被执行时,实现如上述所述的方法。
35.与现有技术相比,本发明的有益效果为:
36.本发明提供了一种基于内容匹配对网页地址进行重定向的方法,其特征在于,所述方法包括:获取作为基准内容的源网络内容和所述源网络内容的源网络地址,确定所述
源网络内容的数据类型,根据数据类型获取所述源网络内容的标识特征、多个属性特征和数据特征;将所述源网络内容的标识特征、多个属性特征和数据特征作为基准内容的基础标识特征、多个基准属性特征和基准数据特征;基于所述基准内容的基础标识状态,在网络中进行搜索以获取与所述基准内容相关联的多个候选网页;获取每个候选网页中候选内容的多个候选属性特征和候选数据特征,基于所述多个属性特征和数据特征与多个候选属性特征和候选数据特征的匹配结果,从多个候选网页中确定至少一个目标网页;获取每个目标网页的目标网络地址,并将每个目标网页的目标网络地址发送给服务器,以使得服务器将每个目标网页重定向到所述源网络地址。本发明增加了网站的域名权重和搜索引擎爬取的次数提升网站的整体排名,对网站文章伪静态地址的权重增加不会被动态地址分走部分权重。
附图说明
37.通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
38.图1是本发明一示例性实施例提供的一种基于内容匹配对网页地址进行重定向的方法流程示意图;
39.图2是本发明一示例性实施例提供的一种基于内容匹配对网页地址进行重定向的系统结构示意图。
具体实施方式
40.下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
41.应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
42.本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
43.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
44.示例性方法
45.实施例1:
46.本发明提出了一种基于内容匹配对网页地址进行重定向的方法,如图1所示,包括:
47.步骤1、获取作为基准内容的源网络内容和所述源网络内容的源网络地址,确定所述源网络内容的数据类型,根据数据类型获取所述源网络内容的标识特征、多个属性特征和数据特征;
48.步骤2、将所述源网络内容的标识特征、多个属性特征和数据特征作为基准内容的基础标识特征、多个基准属性特征和基准数据特征;
49.步骤3、基于所述基准内容的基础标识状态,在网络中进行搜索以获取与所述基准内容相关联的多个候选网页;
50.步骤4、获取每个候选网页中候选内容的多个候选属性特征和候选数据特征,基于所述多个属性特征和数据特征与多个候选属性特征和候选数据特征的匹配结果,从多个候选网页中确定至少一个目标网页;
51.步骤5、获取每个目标网页的目标网络地址,并将每个目标网页的目标网络地址发送给服务器,以使得服务器将每个目标网页重定向到所述源网络地址。
52.可选的,数据类型包括:文本数据、视频数据和音频数据
53.其中,标识特征为用于在网络中识别所述源网络内容的标识信息。
54.其中,当数据类型为文本数据时,所述多个属性特征包括:段落数量、字符数量和关键词。
55.其中,当数据类型为视频数据时,所述多个属性特征包括:视频时间长度、关键视频节点和关键词。
56.其中,当数据类型为音频数据时,所述多个属性特征包括:音频时间长度、关键音频节点和关键词。
57.其中,当数据类型为文本数据时,所述数据特征包括:段落数量特征、字符数量特征和关键词特征。
58.其中,当数据类型为视频数据时,所述数据特征包括:视频时间特征、关键视频节点特征和关键词特征。
59.其中,当数据类型为音频数据时,所述数据特征包括:音频时间长度特征、关键音频节点特征和关键词特征。
60.本发明增加了网站的域名权重和搜索引擎爬取的次数提升网站的整体排名,对网站文章伪静态地址的权重增加不会被动态地址分走部分权重。
61.实施例2:
62.本发明还提出了一种基于内容匹配对网页地址进行重定向的系统200,如图2所示,包括:
63.采集模块201,用于获取作为基准内容的源网络内容和所述源网络内容的源网络地址,确定所述源网络内容的数据类型,根据数据类型获取所述源网络内容的标识特征、多个属性特征和数据特征,将所述源网络内容的标识特征、多个属性特征和数据特征作为基准内容的基础标识特征、多个基准属性特征和基准数据特征;
64.搜索模块202,用于基于所述基准内容的基础标识状态,在网络中进行搜索以获取与所述基准内容相关联的多个候选网页;
65.匹配模块203,用于获取每个候选网页中候选内容的多个候选属性特征和候选数据特征,基于所述多个属性特征和数据特征与多个候选属性特征和候选数据特征的匹配结果,从多个候选网页中确定至少一个目标网页;
66.定向模块204,获取每个目标网页的目标网络地址,并将每个目标网页的目标网络地址发送给服务器,以使得服务器将每个目标网页重定向到所述源网络地址。
67.其中,数据类型包括:文本数据、视频数据和音频数据
68.其中,标识特征为用于在网络中识别所述源网络内容的标识信息。
69.其中,当数据类型为文本数据时,所述多个属性特征包括:段落数量、字符数量和关键词。
70.其中,当数据类型为视频数据时,所述多个属性特征包括:视频时间长度、关键视频节点和关键词。
71.其中,当数据类型为音频数据时,所述多个属性特征包括:音频时间长度、关键音频节点和关键词。
72.其中,当数据类型为文本数据时,所述数据特征包括:段落数量特征、字符数量特征和关键词特征。
73.其中,当数据类型为视频数据时,所述数据特征包括:视频时间特征、关键视频节点特征和关键词特征。
74.其中,当数据类型为音频数据时,所述数据特征包括:音频时间长度特征、关键音频节点特征和关键词特征。
75.本发明增加了网站的域名权重和搜索引擎爬取的次数提升网站的整体排名,对网站文章伪静态地址的权重增加不会被动态地址分走部分权重。
76.实施例3:
77.基于同一种发明构思,本发明还提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor、dsp)、专用集成电路(application specificintegrated circuit,asic)、现成可编程门阵列(field-programmable gatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能,以实现上述实施例中方法的步骤。
78.实施例4:
79.基于同一种发明构思,本发明还提供了一种存储介质,具体为计算机可读存储介质(memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执
行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中方法的步骤。
80.示例性计算机程序产品和计算机可读存储介质
81.除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。
82.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
83.此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。
84.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
85.以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
86.本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
87.本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
88.可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序
仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
89.还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
90.为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
技术特征:
1.一种基于内容匹配对网页地址进行重定向的方法,其特征在于,所述方法包括:获取作为基准内容的源网络内容和所述源网络内容的源网络地址,确定所述源网络内容的数据类型,根据数据类型获取所述源网络内容的标识特征、多个属性特征和数据特征;将所述源网络内容的标识特征、多个属性特征和数据特征作为基准内容的基础标识特征、多个基准属性特征和基准数据特征;基于所述基准内容的基础标识状态,在网络中进行搜索以获取与所述基准内容相关联的多个候选网页;获取每个候选网页中候选内容的多个候选属性特征和候选数据特征,基于所述多个属性特征和数据特征与多个候选属性特征和候选数据特征的匹配结果,从多个候选网页中确定至少一个目标网页;获取每个目标网页的目标网络地址,并将每个目标网页的目标网络地址发送给服务器,以使得服务器将每个目标网页重定向到所述源网络地址。2.根据权利要求1所述的方法,其特征在于,所述数据类型包括:文本数据、视频数据和音频数据。3.根据权利要求1所述的方法,其特征在于,所述标识特征为用于在网络中识别所述源网络内容的标识信息。4.根据权利要求1所述的方法,其特征在于,当数据类型为文本数据时,所述多个属性特征包括:段落数量、字符数量和关键词。5.根据权利要求1所述的方法,其特征在于,当数据类型为视频数据时,所述多个属性特征包括:视频时间长度、关键视频节点和关键词。6.根据权利要求1所述的方法,其特征在于,当数据类型为音频数据时,所述多个属性特征包括:音频时间长度、关键音频节点和关键词。7.根据权利要求1所述的方法,其特征在于,当数据类型为文本数据时,所述数据特征包括:段落数量特征、字符数量特征和关键词特征。8.根据权利要求1所述的方法,其特征在于,当数据类型为视频数据时,所述数据特征包括:视频时间特征、关键视频节点特征和关键词特征。9.根据权利要求1所述的方法,其特征在于,当数据类型为音频数据时,所述数据特征包括:音频时间长度特征、关键音频节点特征和关键词特征。10.一种基于内容匹配对网页地址进行重定向的系统,其特征在于,所述系统包括:采集模块,用于获取作为基准内容的源网络内容和所述源网络内容的源网络地址,确定所述源网络内容的数据类型,根据数据类型获取所述源网络内容的标识特征、多个属性特征和数据特征,将所述源网络内容的标识特征、多个属性特征和数据特征作为基准内容的基础标识特征、多个基准属性特征和基准数据特征;搜索模块,用于基于所述基准内容的基础标识状态,在网络中进行搜索以获取与所述基准内容相关联的多个候选网页;匹配模块,用于获取每个候选网页中候选内容的多个候选属性特征和候选数据特征,基于所述多个属性特征和数据特征与多个候选属性特征和候选数据特征的匹配结果,从多个候选网页中确定至少一个目标网页;定向模块,获取每个目标网页的目标网络地址,并将每个目标网页的目标网络地址发
送给服务器,以使得服务器将每个目标网页重定向到所述源网络地址。11.根据权利要求10所述的系统,其特征在于,所述数据类型包括:文本数据、视频数据和音频数据。12.根据权利要求10所述的系统,其特征在于,所述标识特征为用于在网络中识别所述源网络内容的标识信息。13.根据权利要求10所述的系统,其特征在于,当数据类型为文本数据时,所述多个属性特征包括:段落数量、字符数量和关键词。14.根据权利要求10所述的系统,其特征在于,当数据类型为视频数据时,所述多个属性特征包括:视频时间长度、关键视频节点和关键词。15.根据权利要求10所述的系统,其特征在于,当数据类型为音频数据时,所述多个属性特征包括:音频时间长度、关键音频节点和关键词。16.根据权利要求10所述的系统,其特征在于,当数据类型为文本数据时,所述数据特征包括:段落数量特征、字符数量特征和关键词特征。17.根据权利要求10所述的系统,其特征在于,当数据类型为视频数据时,所述数据特征包括:视频时间特征、关键视频节点特征和关键词特征。18.根据权利要求10所述的系统,其特征在于,当数据类型为音频数据时,所述数据特征包括:音频时间长度特征、关键音频节点特征和关键词特征。19.一种计算机设备,其特征在于,包括:一个或多个处理器;处理器,用于执行一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,实现如权利要求1-9中任一所述的方法。20.一种计算机可读存储介质,其特征在于,其上存有计算机程序,所述计算机程序被执行时,实现如权利要求1-9中任一所述的方法。
技术总结
本发明实施例公开了一种基于内容匹配对网页地址进行重定向的方法及系统,其中方法包括:根据数据类型获取所述源网络内容的标识特征、多个属性特征和数据特征;将所述源网络内容的标识特征、多个属性特征和数据特征作为基准内容的基础标识特征、多个基准属性特征和基准数据特征;在网络中进行搜索以获取与所述基准内容相关联的多个候选网页;基于所述多个属性特征和数据特征与多个候选属性特征和候选数据特征的匹配结果,从多个候选网页中确定至少一个目标网页;使得服务器将每个目标网页重定向到所述源网络地址。本发明增加了网站的域名权重和搜索引擎爬取的次数提升网站的整体排名,对网站文章伪静态地址的权重增加不会被动态地址分走部分权重。动态地址分走部分权重。动态地址分走部分权重。
技术研发人员:刘海超 周化龙 刘英杰 赵哿滢
受保护的技术使用者:航天信息股份有限公司
技术研发日:2022.12.27
技术公布日:2023/9/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/