一种业务流路由方法、系统、存储介质及设备

未命名 08-15 阅读：81 评论：0

1.本发明涉及一种业务流路由方法、系统、存储介质及设备，属于通信网络技术领域。

背景技术：

2.随着通信技术的不断发展，层出不穷的新的业务对网络提出了越来越高的要求，如5g网络中的urllc(低时延高可靠通信)业务对时延和丢包率都提出了非常严苛的要求。在网络通信中如何充分利用现有网络资源，以满足其业务特性需求为前提，引导业务流从源节点到达目的节点成为业内研究的热点之一。
3.传统的互联网架构采用分散控制方式，选路过程中“各自为政”，数据包在传送过程中都选择节点跳数最少的“最短路径”，造成网络流量不均衡、拥塞及业务性能不能保证的现象时有发生。在此背景下，数据面和控制面相分离的集中控制方式的网络架构逐渐取代传统的网络架构，新的架构下，sdn控制器负责从整体上规划各业务流的路由，协调各链路的流量，尽量减少拥塞的发生，从而提高了业务性能。
4.为了解决sdn架构下端到端业务流的合理路由问题，业界提出了很多方案，如申请号为201911183909.4、202211562064.1、202110118171.4、201811292342.x、202211473921.0的专利，但是目前还未见同时从业务性能和网络资源两方面同时进行优化的业务流路由方法。

技术实现要素：

5.本发明提供了一种业务流路由方法、系统、存储介质及设备，解决了背景技术中披露的问题。
6.为了解决上述技术问题，本发明所采用的技术方案是：
7.一种业务流路由方法，包括：
8.获取包含网络资源信息的网络拓扑信息和周期内所有业务流的信息；
9.根据网络拓扑信息和业务流信息，采用强化学习方法，获取优选策略；其中优选策略包括业务流优选路由策略、以及网络中各节点与各链路的优选网络资源分配策略；
10.若优选策略符合要求，则根据优选策略进行业务流路由。
11.获取周期内所有业务流的信息，包括：
12.采用时间片轮询的方式获取周期内所有业务的流信息；
13.按cos等级，将业务流信息送入不同的队列；其中，每个队列存储同一cos等级的业务流信息；同一队列中，业务流信息按照到达时间采用fifo的方式入队。
14.根据网络拓扑信息和业务流信息，采用强化学习方法，获取优选策略，包括：
15.按照cos等级从高到低的顺序，依次调度队列中的业务流信息，将调度的业务流信息和对应的网络拓扑信息作为强化学习方法每步的状态，采用强化学习方法，获取优选策略；
16.其中，与第n次调度对应的网络拓扑信息中，网络资源等于初始网络资源减去已分配的网络资源；已分配的网络资源为第n次调度之前的所有业务流分配到的网络资源。
17.网络资源包括各节点可用的计算资源和存储资源、各链路可用的带宽资源；
18.强化学习方法中的动作包括业务流路由、各节点为业务流分配的计算资源、各节点为业务流分配的存储资源、各链路为业务流分配的带宽资源。
19.业务流信息包括业务流的cos等级、业务流允许的最大时延、业务流允许的最大抖动、业务流允许的最大丢包率、业务流要求的最小带宽；
20.强化学习方法中，单步奖励函数为：
[0021][0022]
式中，r为单步奖励值，b
ij
为节点i与节点j之间链路的当前可用带宽资源，为各链路为业务流k分别的带宽资源，dk、jk、lk、bk、cosk分别为业务流k允许的最大时延、允许的最大抖动、允许的最大丢包率、要求的最小带宽、cos等级，d、j、l、b分别为业务流k实际的时延、抖动、丢包率和最小带宽。
[0023]
业务流信息被调度后，队列中删除被调度业务流的信息，若当前周期强化学习方法完成时，队列中剩余当前周期业务流信息，剩余的信息和下一周期内的所有业务流信息一起用作下一周期的业务流路由。
[0024]
一种业务流路由系统，包括：
[0025]
获取模块，获取包含网络资源信息的网络拓扑信息和周期内所有业务流的信息；
[0026]
强化学习模块，根据网络拓扑信息和业务流信息，采用强化学习方法，获取优选策略；其中优选策略包括业务流优选路由策略、以及网络中各节点与各链路的优选网络资源分配策略；
[0027]
动作模块，若优选策略符合要求，则根据优选策略进行业务流路由。
[0028]
一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行业务流路由方法。
[0029]
一种计算机设备，包括一个或多个处理器、以及一个或多个存储器，一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行业务流路由方法的指令。
[0030]
本发明所达到的有益效果：本发明获取包含网络资源信息的网络拓扑信息和周期内业务流信息，采用强化学习方法，从业务性能和网络资源两方面同时进行策略优化，基于优化策略进行业务流路由，可以在提升业务性能的同时进一步提升网络资源利用率。
附图说明
[0031]
图1为业务流路由方法的流程图；
[0032]
图2为获取业务流信息的流程图；
[0033]
图3为调度业务流信息的流程图；
[0034]
图4为强化学习的流程图；
[0035]
图5为sdn架构的示意图。
具体实施方式
[0036]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。
[0037]
如图1所示，一种业务流路由方法，包括以下步骤：
[0038]
步骤1，获取包含网络资源信息的网络拓扑信息和周期内所有业务流的信息；其中，周期可在一定范围内根据经验设置；
[0039]
步骤2，根据网络拓扑信息和业务流信息，采用强化学习方法，获取优选策略；其中优选策略包括业务流优选路由策略、以及网络中各节点与各链路的优选网络资源分配策略；
[0040]
步骤3，若优选策略符合要求，则根据优选策略进行业务流路由。
[0041]
上述方法实施在sdn架构的应用服务器内，通过获取包含网络资源信息的网络拓扑信息和周期内业务流信息，采用强化学习方法，从业务性能和网络资源两方面同时进行策略优化，基于优化策略进行业务流路由，可以在提升业务性能的同时进一步提升网络资源利用率。
[0042]
上述步骤1中，网络拓扑信息可直接从sdn控制器获取，具体是通过sdn控制器的网络检测功能获取，网络拓扑信息主要包括各节点及链路构成、各节点可用的计算资源和存储资源、各链路可用的带宽资源。
[0043]
业务流根据其时延、可靠性等要求的高低按照cos可划分成8个等级，即0～7(7对应要求最高)，最高7级表示业务有着最高的时延及可靠性要求，0级表示要求最低。
[0044]
在一个预设的周期内会产生很多业务流路，见图2，可采用时间片轮询的方式获取周期内所有业务的流信息，按cos等级，将业务流信息送入不同的队列；其中，每个队列存储同一cos等级的业务流信息，即队列有8个；同一队列中，业务流信息按照到达时间采用fifo的方式入队。
[0045]
按照cos等级从高到低的顺序，依次调度队列中的业务流信息，即高等级对应队列的业务流信息调度完后，低等级对应队列的业务流信息才能被调度，其中7级对应队列的业务流信息优先调度，调度按照fifo方式，具体见图3，业务流信息被调度后，队列中删除被调度业务流的信息。
[0046]
将调度的业务流信息和对应的网络拓扑信息作为强化学习方法每步的状态，采用强化学习方法，获取优选策略；其中，与第n次调度对应的网络拓扑信息中，网络资源等于初始网络资源减去已分配的网络资源；已分配的网络资源为第n次调度之前的所有业务流分配到的网络资源。
[0047]
如图4所示，强化学习方法采用ddpg算法，actor网络的输出直接选定一个动作，而
不是输出各动作的概率。
[0048]
ddpg算法由确定策略的actor网络、确定状态动作价值的critic网络以及它们的目标网络target actor网络和target critic网络构成，在创建好这4个网络后，初始化神经网络参数，并将actor网络和critic网络的参数赋值给target actor网络和target critic网络，同时设置好训练的最大回合数episode和每个回合的最大步数step，并设置回放存储器大小同时清空其数据。
[0049]
通过遍历邻节点的方法寻找业务流源节点与目的节点之间所有可能的路由，对actor网络的训练选择其中一个路由，在选择动作的过程中同时使用了ε-greedy策略。
[0050]
actor网络的输出除了选定的路由以外，还包括该路由中各节点(目的节点除外)为业务流分配的计算资源和存储资源、以及各链路为业务流分配的带宽资源，即ddpg算法中的动作包括业务流路由、各节点为业务流分配的计算资源、各节点为业务流分配的存储资源、各链路为业务流分配的带宽资源。这些动作实施后，将相应资源数值从各资源的现值中减去，以更新后的各资源现值连同业务流的源节点与目的节点、业务流的cos等级、业务流的到达率、业务流允许的最大时延、业务流允许的最大时延抖动、业务流允许的最大丢包率、业务流要求的最小带宽等作为下一状态的输入。
[0051]
每次actor网络的输出好坏通过回报函数reward体现，用公式表示为：
[0052][0053]
式中，r为单步奖励值，为各链路为业务流k分别的带宽资源，由actor网络的输出得到；b
ij
为节点i与节点j之间链路的当前可用带宽资源，为初始值减去每步获得；dk、jk、lk、bk、cosk分别为业务流k允许的最大时延、允许的最大抖动、允许的最大丢包率、要求的最小带宽、cos等级，由用户业务流特性定义；d、j、l、b分别为执行某步的动作后业务流k实际的时延、抖动、丢包率和最小带宽，通过网络测量得到。
[0054]
每步获得的状态s(包括各网络节点及链路构成、各节点可用计算资源、各链路可用带宽资源等数据的网络拓扑信息，及包括源节点、目的节点、cos等级、到达率、带宽需求、时延要求、抖动要求、丢包率要求等数据的业务流信息)、动作a(包括为本次业务流选定的路由，还包括该路由中除目的节点外各节点为业务流分配的计算资源和存储资源、以及各链路为本次业务流分配的带宽资源)、回报r(即reward，由公式(1)给出)、下一状态s’(包括各网络节点及链路构成、更新后的各节点可用计算资源、各链路可用带宽资源等数据的网络拓扑信息及包括源节点、目的节点、cos等级、到达率、带宽需求、时延要求、抖动要求、丢包率要求等数据的业务流信息)构成一个四元组(s，a，r，s’)，将这些四元组存入回放存储器。
[0055]
当回放存储器的数据达到一定数量时，把回放存储器中的s和a输入critic网络，
得到状态-动作价值q(s,a)，把回放存储器中的s’输入到target actor网络，得到下一动作a’，把回放存储器中的s’和a’一起输入到target critic网络，得到下一状态-动作价值q(s’，a’)，然后用q(s,a)＝reward+gamma
×
q(s’，a’)更新critic网络(gamma为折扣因子)，并使用策略梯度算法更新actor网络，用actor网络和critic网络的参数更新target actor网络和target critic网络的参数。
[0056]
到达每个episode的最大步数后则停止学习，重新启动下一个episode的学习过程；到达设定的episode最大数量时则停止学习过程，最后获得业务流优选路由策略、以及网络中各节点与各链路的优选网络资源分配策略。
[0057]
如果当前周期强化学习方法完成时，队列中剩余当前周期业务流信息，剩余的信息和下一周期内的所有业务流信息一起用作下一周期的业务流路由。
[0058]
获取优选策略中业务流的端到端时延、抖动、丢包率及沿途各节点所分配带宽并进行检查，若不符合要求，发出网络资源匮乏告警，否则将优选策略通知sdn控制器，由sdn控制器根据策略生成流表下发到相应节点(sdn交换机)，引导后续业务流从源节点到达目的节点，即根据优选策略进行业务流路由。
[0059]
本发明从端到端业务的时延、抖动、丢包率及网络链路的利用率等多方面对业务性能同时进行优化，并在优化时兼顾各种业务的不同性能要求,如不同业务的不同时延要求，根据网络现有资源进行节点计算资源和存储资源、以及链路带宽资源的合理分配，在提升业务性能的同时进一步提升网络资源利用率。
[0060]
基于相同的技术方案，本发明还公开了上述方法的虚拟系统，一种业务流路由系统，该系统装载在图5所示的sdn架构的应用服务器中，包括：
[0061]
获取模块，获取包含网络资源信息的网络拓扑信息和周期内所有业务流的信息。
[0062]
获取模块具体分为队列调度模块和拓扑模块，队列调度模块用以获取周期内所有业务流的信息，并进行队列存储；拓扑模块用以获取包含网络资源信息的网络拓扑信息。
[0063]
强化学习模块，根据网络拓扑信息和业务流信息，采用强化学习方法，获取优选策略；其中优选策略包括业务流优选路由策略、以及网络中各节点与各链路的优选网络资源分配策略；
[0064]
动作模块，若优选策略符合要求，则根据优选策略进行业务流路由；
[0065]
告警模块，若优选策略不符合要求，则发出告警。
[0066]
上述各模块的数据处理流程与方法对应步骤的一致，这里不重复描述了。
[0067]
基于相同的技术方案，本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行业务流路由方法。
[0068]
基于相同的技术方案，本发明还公开了一种计算机设备，包括一个或多个处理器、以及一个或多个存储器，一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行业务流路由方法的指令。
[0069]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产
品的形式。
[0070]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0071]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0072]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0073]
以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

技术特征：
1.一种业务流路由方法，其特征在于，包括：获取包含网络资源信息的网络拓扑信息和周期内所有业务流的信息；根据网络拓扑信息和业务流信息，采用强化学习方法，获取优选策略；其中优选策略包括业务流优选路由策略、以及网络中各节点与各链路的优选网络资源分配策略；若优选策略符合要求，则根据优选策略进行业务流路由。2.根据权利要求1所述的业务流路由方法，其特征在于，获取周期内所有业务流的信息，包括：采用时间片轮询的方式获取周期内所有业务的流信息；按cos等级，将业务流信息送入不同的队列；其中，每个队列存储同一cos等级的业务流信息；同一队列中，业务流信息按照到达时间采用fifo的方式入队。3.根据权利要求2所述的业务流路由方法，其特征在于，根据网络拓扑信息和业务流信息，采用强化学习方法，获取优选策略，包括：按照cos等级从高到低的顺序，依次调度队列中的业务流信息，将调度的业务流信息和对应的网络拓扑信息作为强化学习方法每步的状态，采用强化学习方法，获取优选策略；其中，与第n次调度对应的网络拓扑信息中，网络资源等于初始网络资源减去已分配的网络资源；已分配的网络资源为第n次调度之前的所有业务流分配到的网络资源。4.根据权利要求3所述的业务流路由方法，其特征在于，网络资源包括各节点可用的计算资源和存储资源、各链路可用的带宽资源；强化学习方法中的动作包括业务流路由、各节点为业务流分配的计算资源、各节点为业务流分配的存储资源、各链路为业务流分配的带宽资源。5.根据权利要求3所述的业务流路由方法，其特征在于，业务流信息包括业务流的cos等级、业务流允许的最大时延、业务流允许的最大抖动、业务流允许的最大丢包率、业务流要求的最小带宽；强化学习方法中，单步奖励函数为：式中，r为单步奖励值，b
ij
为节点i与节点j之间链路的当前可用带宽资源，为各链路为业务流k分别的带宽资源，d
k
、j
k
、l
k
、b
k
、cos
k
分别为业务流k允许的最大时延、允许的最大抖动、允许的最大丢包率、要求的最小带宽、cos等级，d、j、l、b分别为业务流k实际的时延、抖动、丢包率和最小带宽。6.根据权利要求3所述的业务流路由方法，其特征在于，业务流信息被调度后，队列中删除被调度业务流的信息，若当前周期强化学习方法完成时，队列中剩余当前周期业务流信息，剩余的信息和下一周期内的所有业务流信息一起用作下一周期的业务流路由。
7.一种业务流路由系统，其特征在于，包括：获取模块，获取包含网络资源信息的网络拓扑信息和周期内所有业务流的信息；强化学习模块，根据网络拓扑信息和业务流信息，采用强化学习方法，获取优选策略；其中优选策略包括业务流优选路由策略、以及网络中各节点与各链路的优选网络资源分配策略；动作模块，若优选策略符合要求，则根据优选策略进行业务流路由。8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行权利要求1～6所述的任一方法。9.一种计算机设备，其特征在于，包括：一个或多个处理器、以及一个或多个存储器，一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1～6所述的任一方法的指令。

技术总结
本发明公开了一种业务流路由方法、系统、存储介质及设备，本发明获取包含网络资源信息的网络拓扑信息和周期内业务流信息，采用强化学习方法，从业务性能和网络资源两方面同时进行策略优化，基于优化策略进行业务流路由，可以在提升业务性能的同时进一步提升网络资源利用率。利用率。利用率。

技术研发人员：杨国民
受保护的技术使用者：南京邮电大学
技术研发日：2023.06.09
技术公布日：2023/8/14

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：基于3D激光的集装箱码头场桥防碰撞控制系统及方法与流程 下一篇：一种公路隧道施工方法及系统与流程

一种业务流路由方法、系统、存储介质及设备

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种业务流路由方法、系统、存储介质及设备

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表