时间敏感网络流量调度方法和装置

未命名 08-18 阅读：178 评论：0

1.本发明涉及互联网技术领域，尤其涉及一种时间敏感网络流量调度方法和装置。

背景技术：

2.时间敏感网络被认为是时间敏感型应用(如工业控制和汽车)最有前途的网络范式。它通过将实时功能纳入以太网标准，成功地弥合了信息技术(it)和操作技术(ot)之间的差距，使其成为一种通用的解决方案。实时功能来自ieee 802.1qbv标准，它引入了时间感知流量整形器，并使网络交换机能够按照预定的循环时间表发送每个分组。
3.对于时间敏感网络来说，流量调度至关重要。时间敏感网络中的所有交换机必须根据精心设计的全局调度同步时钟并协同转发数据帧，以确保低延迟和确定性。然而，得出这样的时间规划表并不简单。它可以等效于每个物理链路上的受限时隙分配过程，是一个np难组合优化问题。典型解决方案像基于整数线性规划(ilp)或基于可满足性模理论(smt)的求解器需要几个小时甚至几天才能产生有效结果，这对于网络拓扑稳定的传统工厂来说是可以容忍的。
4.然而，随着柔性制造需求的增长，尤其是在工业网络中，流量调度的低效率成为企业灵活性的巨大障碍。例如，对于一家顶级汽车玻璃制造商，一条生产线每天可以生产多达10种不同类型的汽车玻璃。不同类型的汽车玻璃需要不同的流水线，例如有无涂层、有无加热器等，它们需要不同的检查程序。每条流水线大约有80到120个互连设备。切换流水线需要10分钟来更换模具，大约40分钟来重新配置网络计划和制造设置，如加热曲线。也就是说，流量调度较大的时间消耗会导致整个流程的低效率。而汽车供应商对工作流程和检验程序提出了更高的要求，生产线上安装了更多的设备，要求企业作出灵敏的反映。因此，调度已成为生产灵活性和效率的负担。
5.综上，现有技术存在时间敏感网络流量调度效率较低的问题。

技术实现要素：

6.本发明提供一种时间敏感网络流量调度方法和装置，用以解决现有技术中效率较低的缺陷，实现效率更高的时间敏感网络流量调度。
7.本发明提供一种时间敏感网络流量调度方法，包括：
8.获取时间敏感网络的网络状态；其中，所述网络状态包括物理网络拓扑、链路的时隙分配状态和数据流需求的集合；
9.将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码；其中，所述状态编码包括网络全局编码、链路编码和流编码；所述状态信息编码模块包括基于图神经网络的网络编码器和基于路径的流感知编码器；
10.将所述状态编码输入至多任务策略模型，以得到目标调度策略；其中，所述目标调度策略包括排序策略和路由策略；所述多任务策略模型是基于深度神经网络利用流量调度样本根据增强策略强化学习算法进行训练得到的。
11.根据本发明提供的一种深度强化学习的时间敏感网络流量调度方法，将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码，具体包括：
12.将所述物理网络拓扑和所述链路的时隙分配状态输入至基于图神经网络的网络编码器，对所述物理网络拓扑建模，以得到拓扑虚拟图；其中，所述拓扑虚拟图的节点表示有向链路，所述拓扑虚拟图的边表示所述有向链路的连接关系；所述链路的时隙分配状态作为节点的输入；
13.基于所述拓扑虚拟图，将所述节点的隐藏状态聚合并更新，以得到链路编码；
14.在所述拓扑虚拟图中添加超级节点，将所述超级节点的隐藏状态聚合并更新，以得到网络全局编码；其中，所述超级节点与所述拓扑虚拟图中所有节点连接，所述超级节点的输入为所有节点输入的平均值。
15.根据本发明提供的一种深度强化学习的时间敏感网络流量调度方法，将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码，具体包括：
16.将所述数据流需求的集合输入至基于路径的流感知编码器，按照每个数据流的预设数量条最短路径提取链路编码并聚合，以得到预设数量个路径编码；
17.将所有所述路径编码、所述网络全局编码和流需求编码合并，以得到流编码；其中，所述流需求编码是除源节点和目标节点之外的流的剩余实体标准化后进行投影得到的。
18.根据本发明提供的一种深度强化学习的时间敏感网络流量调度方法，将所述状态编码输入至多任务策略模型，以得到目标调度策略，具体包括：
19.将所述状态编码输入至多任务策略模型，根据第一预设公式计算目标调度策略；
20.所述第一预设公式包括：
[0021][0022]
其中，π表示目标调度策略；fi表示第i个流；n表示流的数量；ri表示第i个流的路由策略；s0表示拓扑虚拟图的初始状态；πs表示排序策略；s
t-1
表示拓扑虚拟图在步骤t-1时的状态；πr表示路由策略；r
t
表示第t个流的路由策略；i表示步骤i中被策略选择的流的下标。
[0023]
根据本发明提供的一种深度强化学习的时间敏感网络流量调度方法，根据第二预设公式计算排序策略，所述第二预设公式包括：
[0024][0025]
其中，πs表示排序策略；q(zi)表示第i个流的优先级分数；zi表示第i个流的流编码；zj表示第j个流的流编码；s
t
表示拓扑虚拟图在步骤t时的状态；i表示步骤i中被策略选择的流的下标；j表示softmax函数中被求和的流的下标。
[0026]
根据本发明提供的一种深度强化学习的时间敏感网络流量调度方法，将所述状态编码输入至多任务策略模型，以得到目标调度策略，之后还包括：
[0027]
根据所述目标调度策略确定目标调度流量及目标调度路由；
[0028]
根据所述目标调度流量及目标调度路由分配当前空闲时隙，并更新数据流对应的
物理链路的状态。
[0029]
根据本发明提供的一种深度强化学习的时间敏感网络流量调度方法，更新数据流对应的物理链路的状态，之后还包括：
[0030]
在所有数据流被调度结束后，根据第三预设公式计算奖励信号；
[0031]
所述第三预设公式包括：
[0032]
r＝1
success
+α
×
p
success
[0033]
其中，r表示奖励信号；如果调度成功，则1
success
等于1，否则为0；p
success
表示终止前成功调度的数据流的百分比；α表示平滑参数。
[0034]
根据本发明提供的一种深度强化学习的时间敏感网络流量调度方法，基于深度神经网络利用流量调度样本根据增强策略强化学习算法训练得到所述多任务策略模型，具体包括：
[0035]
基于所述奖励信号，对所述多任务策略模型的参数执行梯度下降，以得到训练完成的多任务策略模型。
[0036]
本发明还提供一种时间敏感网络流量调度装置，包括：
[0037]
获取单元，用于获取时间敏感网络的网络状态；其中，所述网络状态包括物理网络拓扑、链路的时隙分配状态和数据流需求的集合；
[0038]
编码单元，用于将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码；其中，所述状态编码包括网络全局编码、链路编码和流编码；所述状态信息编码模块包括基于图神经网络的网络编码器和基于路径的流感知编码器；
[0039]
策略单元，用于将所述状态编码输入至多任务策略模型，以得到目标调度策略；其中，所述目标调度策略包括排序策略和路由策略；所述多任务策略模型是基于深度神经网络利用流量调度样本根据增强策略强化学习算法进行训练得到的。
[0040]
本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述时间敏感网络流量调度方法。
[0041]
本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述时间敏感网络流量调度方法。
[0042]
本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述时间敏感网络流量调度方法。
[0043]
本发明提供的时间敏感网络流量调度方法和装置，通过获取时间敏感网络的网络状态；其中，所述网络状态包括物理网络拓扑、链路的时隙分配状态和数据流需求的集合；将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码；其中，所述状态编码包括网络全局编码、链路编码和流编码；所述状态信息编码模块包括基于图神经网络的网络编码器和基于路径的流感知编码器；将所述状态编码输入至多任务策略模型，以得到目标调度策略；其中，所述目标调度策略包括排序策略和路由策略；所述多任务策略模型是基于深度神经网络利用流量调度样本根据增强策略强化学习算法进行训练得到的。本发明采用无模型强化学习工作流，将时间敏感网络流量调度作为一个多步骤决策问题来解决，基于神经网络的代理将问题的当前状态作为输入并输出调度动作，实现效率更高的时间敏感网络流量调度。
附图说明
[0044]
为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0045]
图1是本发明提供的时间敏感网络流量调度方法的流程示意图之一；
[0046]
图2是本发明提供的时间敏感网络流量调度方法的流程示意图之二；
[0047]
图3是本发明提供的时间敏感网络流量调度方法的流程示意图之三；
[0048]
图4是本发明提供的时间敏感网络流量调度方法的流程示意图之四；
[0049]
图5是本发明提供的时间敏感网络流量调度方法的流程示意图之五；
[0050]
图6是本发明提供的时间敏感网络流量调度装置的结构示意图；
[0051]
图7是本发明提供的电子设备的结构示意图。
[0052]
附图标记：
[0053]
610：获取单元；620：编码单元；630：策略单元；
[0054]
710：处理器；720：通信接口；730：存储器；740：通信总线。
具体实施方式
[0055]
为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0056]
在现有技术中，一些实验观察到，尽管调度问题很难，但确认潜在调度的正确性或可满足性要简单得多。这为使用强化学习(rl)框架进行一系列试错过程并从隐式数据分布中导出更好的搜索策略提供了机会。最近，许多研究成功地将深度学习和强化学习应用于解决np难组合优化问题(例如，旅行商问题，装箱问题)。
[0057]
基于此，本发明提出一种时间敏感网络流量调度方法和装置。下面结合图1-图5描述本发明的时间敏感网络流量调度方法，图1是本发明提供的时间敏感网络流量调度方法的流程示意图之一，如图1所示，包括以下步骤：
[0058]
步骤110：获取时间敏感网络的网络状态；其中，所述网络状态包括物理网络拓扑、链路的时隙分配状态和数据流需求的集合。获取的是时间敏感网络的状态，具体而言，在每个步骤t期间，获取时间敏感网络的网络状态，其中包含物理网络拓扑、链路的时隙分配状态以及所有流需求的集合。在一些实施例中，通过调度器观察并获取时间敏感网络的网络状态。
[0059]
步骤120：将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码；其中，所述状态编码包括网络全局编码、链路编码和流编码；所述状态信息编码模块包括基于图神经网络的网络编码器和基于路径的流感知编码器。
[0060]
如图2所示，获取网络状态后，采用状态信息编码模块中的两级编码流水线来逐步处理网络状态和关键流量。具体地，首先，引入图神经网络来处理任意大小的网络和拓扑。然后，将数据流的需求和网络状态融合在一起，沿着其可能的路由聚合链路级特征，得到状
态编码。具体而言，状态信息编码模块主要由基于图神经网络的网络编码器和基于路径的流感知编码器两部分组成：
[0061]
基于图神经网络的网络编码器采用物理网络拓扑和链路的时隙分配状态作为输入，输出每个链路l的嵌入e
l
(即链路编码)和时间敏感网络全局的嵌入s(即网络全局编码)，以便调度器用任意的网络拓扑扩展其结构。包括以下两个部分：
[0062]
1)网络状态表示。由于大多数图神经网络都是为节点特征和执行节点任务而设计的，如节点分类或预测，而时间敏感网络调度问题更关心链路状态。因此，需要首先将原始的物理网络拓扑g(v，l)转换为拓扑虚拟图l(v
′
，l
′
)，以对物理链路进行建模。特别地，l中的每个节点表示g中的有向链路，并且如果中的两个链路la，lb端到端连接，则生成l中的边：
[0063][0064]
进一步地，时间敏感网络中的每个链路l具有1024个时隙作为全局调度周期。将原始特征x∈{0，1}
1024
作为链路l的输入，其中x
l
[i]＝1表示链路l中的第i个时隙被时间敏感网络流占用。
[0065]
2)消息传递神经网络。消息传递神经网络是一个通用框架，它阐述了大多数现有图神经网络模型。如图3所示，消息传递神经网络在每个步骤中包含聚合阶段和更新阶段。在聚合过程中，每个节点计算其邻居节点的消息，通过函数m(.)组合其当前隐藏状态。然后，通过逐元素求和操作聚合同一节点的消息。
[0066]
在更新期间，每个节点的隐藏状态由另一个函数u(.)使用聚合消息进行更新。在重复上述两个阶段t次之后，t跳邻居的信息被传播到每个节点的隐藏状态。
[0067]
在本发明中，基于图神经网络的网络编码器采用两个独立的多层感知器模块作为消息函数m(
·
)和更新函数u(
·
)。正式的基于图神经网络的网络编码器可以表示为：
[0068][0069][0070]
其中，m
t+1
表示步骤t+1时的消息值；m(
·
)表示消息函数；表示步骤t时w链路的隐藏状态；表示步骤t时l链路的隐藏状态；n(l)表示邻域，定义为在l
′
中指向l有向边的集合；表示步骤t+1时l链路的隐藏状态；u(
·
)表示更新函数；t表示步骤t；l表示拓扑中的链路。
[0071]
如图4所示，到共同组成链路编码。除了链路编码之外，本发明从全局角度总结了整个网络状态。具体地，将一个超级节点s添加到拓扑虚拟图l中，并将每个现有节点连接到它。状态是所有原始输入向量的平均值，最后一个隐藏状态被用作图摘要嵌入s，即网络全局编码。图4展示了基于图神经网络的网络编码器。随着普通链路的消息传递，超级节点s在每个步骤期间从所有其他节点接收消息，并更新其隐藏状态。
[0072]
基于路径的流感知编码器旨在获取每个流的信息表示，以捕获流和网络状态之间的相关性。它通过结合图神经网络的输出和原始需求，将每个流fi∈f编码为嵌入zi，即流编
码。
[0073]
在基于路径的流感知编码器中，为了解决复杂的依赖关系，首先需要获得每个数据流可能的路由的透视图。具体来说，沿着每个数据流的预设数量条(记为k)最短路径提取链接嵌入并聚合它们。由于数据包可能通过的链路的顺序也有助于调度决策，所以简单的链路级特征的总和将降低模型的表现力。因此，在这一步骤中，采用门控递归单元(gru)以保持顺序的方式对路径进行建模，具体地，将数据流需求的集合输入至基于路径的流感知编码器，按照每个数据流的预设数量条最短路径提取链路编码并聚合，以得到预设数量个路径编码。
[0074]
在一个实施例中，如图5，图5展示了所提出的基于路径的特征聚合的一个实施例的流程示意图。有3条简单的最短路径源节点a到目标节点d。对于每个路径，顺序地将其链接嵌入到门控递归单元模块中，并将最终的隐藏状态作为流fi的第j条路径的嵌入信息即路径编码。携带前一步信息的隐藏状态是门控递归单元在下一步输入的一部分。通过这种方式，可以获得具有相同隐藏状态维数的3个路径嵌入向量(路径编码)，从而限制了后续调度决策问题的维数。
[0075]
获得与最短路径数量相同的路径编码后，将所有路径编码、网络全局编码和流需求编码合并，以得到流编码。除了源节点和目标节点之外，将处理流fi的剩余实体(fi.prd，fi.md，fi.len)作为一个向量yi∈r3，它独立于图神经网络输出。为了避免数字溢出，原始的向量yi被提前标准化，然后线性投影到需求嵌入gi，即得到流需求编码。
[0076]
对于任何流量fi∈f，将网络全局编码(即图形级摘要嵌入s)，路径编码(即路径嵌入)以及流需求编码(即流需求嵌入gi)合并，得到流编码zi：
[0077][0078]
zi＝hi+mha(hi).
[0079]
其中，mlp表示多层感知机。mha(
·
)表示多头自我注意模块具有4个头，它类似于transformer的编码器无位置编码。简而言之，mha模块基于在每对嵌入hi，hj之间计算的相关性得分，通过所有其他流的加权组合来计算每个流的嵌入。
[0080]
步骤130：将所述状态编码输入至多任务策略模型，以得到目标调度策略；其中，所述目标调度策略包括排序策略和路由策略；所述多任务策略模型是基于深度神经网络利用流量调度样本根据增强策略强化学习算法进行训练得到的。
[0081]
多任务策略模型通过简化的多步骤子任务来捕获全局调度决策的基本特征。它获得所有的流表示z1，z2，...，zn并在每个步骤输出每个子任务的随机决策。排序策略就是将获得一个已经排好序的流队列，下一条流就是这个队列的第一条流。路由策略是指在为每条流规划出的预设数量条简单的最短路径之中，输出每条路径对应的概率，作为路由选择的依据。
[0082]
在强化学习中，大动作空间和长动作集对样本效率和模型表现力都有负面影响。为了处理指数级大的组合动作空间，将整个调度策略π分解为选择下一个流来调度f
t
∈f/f
scheduled
的排序策略πs和选择路由r
t
∈{1，2，...，k}的路由策略πr。由于深度神经网络(deep neural networks，dnn)更适合于高层决策，而不是产生精确的解决方案，在本发明中，将最
终的时隙分配过程排除生成调度策略的步骤之外。
[0083]
这样的分解使整个学习框架成为一个具有两个交互代理的连续马尔可夫博弈，其中两个代理共享相同的高级目标。因此，具有初始状态s0的多任务策略π可以被因子化为第一预设公式：
[0084][0085]
其中，π表示目标调度策略；fi表示第i个流，即在步骤i中被策略选择的流；n表示流的数量；ri表示第i个流的路由策略，即在步骤i中被选择流的路由策略；s0表示拓扑虚拟图的初始状态；πs表示排序策略；s
t-1
表示拓扑虚拟图在步骤t-1时的状态；πr表示路由策略；r
t
表示第t个流的路由策略，即在步骤t中被选择流的路由策略；i表示步骤i中被策略选择的流的下标。
[0086]
考虑到分解的动作空间和精心设计的状态编码器，策略网络的dnn设计相当简单。对于每个流程，已知的增强算法如下：对于每个流的嵌入输入zi，应用两个mlp模块：和其中k是所考虑的最短路径的数量，dh表示嵌入h的纬度。嵌入h包括状态编码。具体地，将q(zi)作为第i个流的优先级分数，即步骤i中调度的时间敏感网络流的优先级分数，并采用softmax来输出排序策略，也就是说，排序策略的计算可以表达为第二预设公式：
[0087][0088]
其中，πs表示排序策略；q(zi)表示第i个流的优先级分数；zi表示第i个流的流编码；zj表示第j个流的流编码；s
t
表示拓扑虚拟图在步骤t时的状态；i表示步骤i中被策略选择的流的下标；j表示softmax函数中被求和的流的下标。
[0089]
路由策略的计算则直接根据多任务策略网络的反馈获取预设数量条路由的评价从而进行选择，在具体操作过程中，w将每个流的嵌入输入zi映射到k维向量，给k条最短路径计算出概率值，将概率值作为评价值。在一些实施例中，选择评价最高的最短路径作为目标调度路由。
[0090]
在一些实施例中，本发明还包括，环境和强化学习训练算法协同为代理提供试错机会，并引导其从问题的隐式数据分布中学习更好的调度策略。
[0091]
具体地，环境主要负责状态维护和奖励计算。给定要调度的下一个流量f
t+1
及其路线r
t+1
，据此分配当前空闲时隙，并相应地更新链路状态。在所有流被正确调度或调度失败之后，计算强化学习训练的奖励信号r。
[0092]
也就是说，时隙分配算法将在强化学习的每一步调用。在一些实施例中，选择简单但被广泛采用的最早有效时隙优先算法作为本发明的时隙分配方式。具体地，对于预定路线中的每个链路，在流离开前一链路的时间之后迭代所有空时隙，如果当前链路上没有有效的时隙，终止调度过程。
[0093]
根据第三预设公式计算强化学习训练的奖励信号r。本发明的目标是在全局范围内满足所有流量需求，而奖励设计与这一总体目标密切相关，更高的报酬r意味着调度算法
的性能更好。第三预设公式包括：
[0094]
r＝1
success
+α
×
p
success
[0095]
其中，r表示奖励信号；如果调度成功，则1
success
等于1，否则为0；p
success
表示终止前成功调度的数据流的百分比；α表示平滑参数，用于平滑奖励信号。
[0096]
需要了解的是，本发明采用了增强的策略强化训练的梯度算法。其主要思想是利用观察到的回报直接对dnn参数执行梯度下降。为了简单起见，将神经网络中的所有参数定义为θ，与排序策略和路由策略相关的参数分别为θs和θr。根据著名的强化学习算法被形式化建模为：
[0097][0098]
其中，表示所有参数的梯度向量；e
π
表示方括号内公式对π的数学期望；r表示奖励信号；c
π
表示根据策略π采样的全解轨迹；θs表示排序策略的相关参数；θr表示路由策略相关的参数；πs表示排序策略；f
t
表示第t个流，即在步骤t中被策略选择的流；s
t-1
表示拓扑虚拟图在步骤t-1时的状态；表示排序策略相关的参数的梯度向量；表示路由策略相关的参数的梯度向量；πr表示路由策略；r
t
表示第t个流的路由策略，即在步骤t中被选择流的路由策略；i表示步骤i中被策略选择的流的下标。
[0099]
本发明提供的时间敏感网络流量调度方法基于获取的时间敏感网络的网络状态，应用可扩展的两阶段状态信息编码器来处理该网络状态，接着使用多任务策略神经网络来决定动作，即选择要调度的下一个流及其路由。环境通过为所选流分配时隙来执行动作，并相应地更新状态中的链路状态。在整个过程结束后，环境计算强化学习的算法的奖励信号，以逐步改进，提高可调度性。
[0100]
基于上述实施例，该方法中，将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码，具体包括：
[0101]
将所述物理网络拓扑和所述链路的时隙分配状态输入至基于图神经网络的网络编码器，对所述物理网络拓扑建模，以得到拓扑虚拟图；其中，所述拓扑虚拟图的节点表示有向链路，所述拓扑虚拟图的边表示所述有向链路的连接关系；所述链路的时隙分配状态作为节点的输入；
[0102]
基于所述拓扑虚拟图，将所述节点的隐藏状态聚合并更新，以得到链路编码；
[0103]
在所述拓扑虚拟图中添加超级节点，将所述超级节点的隐藏状态聚合并更新，以得到网络全局编码；其中，所述超级节点与所述拓扑虚拟图中所有节点连接，所述超级节点的输入为所有节点输入的平均值。
[0104]
具体地，基于图神经网络的网络编码器采用物理网络拓扑和链路的时隙分配状态作为输入，输出每个链路l的嵌入e
l
(即链路编码)和时间敏感网络全局的嵌入s(即网络全局编码)，以便调度器用任意的网络拓扑扩展其结构。包括以下两个部分：
[0105]
1)网络状态表示。由于大多数图神经网络都是为节点特征和执行节点任务而设计的，如节点分类或预测，而时间敏感网络调度问题更关心链路状态。因此，需要首先将原始
的物理网络拓扑g(v，l)转换为拓扑虚拟图l(v
′
，l
′
)，以对物理链路进行建模。特别地，l中的每个节点表示g中的有向链路，并且如果中的两个链路la，lb端到端连接，则生成l中的边：
[0106][0107]
进一步地，时间敏感网络中的每个链路l具有1024个时隙作为全局调度周期。将原始特征x∈{0，1}
1024
作为链路l的输入，其中x
l
[i]＝1表示链路l中的第i个时隙被时间敏感网络流占用。
[0108]
2)消息传递神经网络。消息传递神经网络是一个通用框架，它阐述了大多数现有图神经网络模型。如图3所示，消息传递神经网络在每个步骤中包含聚合阶段和更新阶段。在聚合过程中，每个节点计算其邻居节点的消息，通过函数m(.)组合其当前隐藏状态。然后，通过逐元素求和操作聚合同一节点的消息。
[0109]
在更新期间，每个节点的隐藏状态由另一个函数u(.)使用聚合消息进行更新。在重复上述两个阶段t次之后，t跳邻居的信息被传播到每个节点的隐藏状态。
[0110]
在本发明中，基于图神经网络的网络编码器采用两个独立的多层感知器模块作为消息函数m(
·
)和更新函数u(.)。正式的基于图神经网络的网络编码器可以表示为：
[0111][0112][0113]
其中，m
t+1
表示步骤t+1时的消息值；m(
·
)表示消息函数；表示步骤t时w链路的隐藏状态；表示步骤t时l链路的隐藏状态；n(l)表示邻域，定义为在l
′
中指向l有向边的集合；表示步骤t+1时l链路的隐藏状态；u(
·
)表示更新函数；t表示步骤t；l表示拓扑中的链路。
[0114]
如图4所示，到共同组成链路编码。除了链路编码之外，本发明从全局角度总结了整个网络状态。具体地，将一个超级节点s添加到拓扑虚拟图l中，并将每个现有节点连接到它。状态是所有原始输入向量的平均值，最后一个隐藏状态被用作图摘要嵌入s，即网络全局编码。图4展示了基于图神经网络的网络编码器。随着普通链路的消息传递，超级节点s在每个步骤期间从所有其他节点接收消息，并更新其隐藏状态。
[0115]
基于上述实施例，该方法中，将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码，具体包括：
[0116]
将所述数据流需求的集合输入至基于路径的流感知编码器，按照每个数据流的预设数量条最短路径提取链路编码并聚合，以得到预设数量个路径编码；
[0117]
将所有所述路径编码、所述网络全局编码和流需求编码合并，以得到流编码；其中，所述流需求编码是除源节点和目标节点之外的流的剩余实体标准化后进行投影得到的。
[0118]
具体地，基于路径的流感知编码器旨在获取每个流的信息表示，以捕获流和网络状态之间的相关性。它通过结合图神经网络的输出和原始需求，将每个流fi∈f编码为嵌入
zi，即流编码。
[0119]
在基于路径的流感知编码器中，为了解决复杂的依赖关系，首先需要获得每个数据流可能的路由的透视图。具体来说，沿着每个数据流的预设数量条(记为k)最短路径提取链接嵌入并聚合它们。由于数据包可能通过的链路的顺序也有助于调度决策，所以简单的链路级特征的总和将降低模型的表现力。因此，在这一步骤中，采用门控递归单元(gru)以保持顺序的方式对路径进行建模，具体地，将数据流需求的集合输入至基于路径的流感知编码器，按照每个数据流的预设数量条最短路径提取链路编码并聚合，以得到预设数量个路径编码。
[0120]
在一个实施例中，如图5，图5展示了所提出的基于路径的特征聚合的一个实施例的流程示意图。有3条简单的最短路径源节点a到目标节点d。对于每个路径，顺序地将其链接嵌入到门控递归单元模块中，并将最终的隐藏状态作为流fi的第j条路径的嵌入信息即路径编码。携带前一步信息的隐藏状态是门控递归单元在下一步输入的一部分。通过这种方式，可以获得具有相同隐藏状态维数的3个路径嵌入向量(路径编码)，从而限制了后续调度决策问题的维数。
[0121]
获得与最短路径数量相同的路径编码后，将所有路径编码、网络全局编码和流需求编码合并，以得到流编码。除了源节点和目标节点之外，将处理流fi的剩余实体(fi.prd，fi.md，fi.len)作为一个向量yi∈r3，它独立于图神经网络输出。为了避免数字溢出，原始的向量yi被提前标准化，然后线性投影到需求嵌入gi，即得到流需求编码。
[0122]
对于任何流量fi∈f，将网络全局编码(即图形级摘要嵌入s)，路径编码(即路径嵌入)以及流需求编码(即流需求嵌入gi)合并，得到流编码zi：
[0123][0124]
zi＝hi+mha(hi).
[0125]
其中，mlp表示多层感知机。mha(
·
)表示多头自我注意模块具有4个头，它类似于transformer的编码器无位置编码。简而言之，mha模块基于在每对嵌入hi，hj之间计算的相关性得分，通过所有其他流的加权组合来计算每个流的嵌入。
[0126]
基于上述实施例，该方法中，将所述状态编码输入至多任务策略模型，以得到目标调度策略，具体包括：
[0127]
将所述状态编码输入至多任务策略模型，根据第一预设公式计算目标调度策略；
[0128]
所述第一预设公式包括：
[0129][0130]
其中，π表示目标调度策略；fi表示第i个流；n表示流的数量；ri表示第i个流的路由策略；s0表示拓扑虚拟图的初始状态；πs表示排序策略；s
t-1
表示拓扑虚拟图在步骤t-1时的状态；πr表示路由策略；r
t
表示第t个流的路由策略；i表示步骤i中被策略选择的流的下标。
[0131]
具体地，为了处理指数级大的组合动作空间，将整个调度策略π分解为选择下一个流来调度f
t
∈f/f
scheduled
的排序策略πs和选择路由r
t
∈{1，2，...，k}的路由策略πr。由于深
度神经网络(deep neural networks，dnn)更适合于高层决策，而不是产生精确的解决方案，在本发明中，将最终的时隙分配过程排除生成调度策略的步骤之外。
[0132]
这样的分解使整个学习框架成为一个具有两个交互代理的连续马尔可夫博弈，其中两个代理共享相同的高级目标。因此，具有初始状态s0的多任务策略π可以被因子化为第一预设公式：
[0133][0134]
其中，π表示目标调度策略；fi表示第i个流，即在步骤i中被策略选择的流；n表示流的数量；ri表示第i个流的路由策略，即在步骤i中被选择流的路由策略；s0表示拓扑虚拟图的初始状态；πs表示排序策略；s
t-1
表示拓扑虚拟图在步骤t-1时的状态；πr表示路由策略；r
t
表示第t个流的路由策略，即在步骤t中被选择流的路由策略；i表示步骤i中被策略选择的流的下标。
[0135]
基于上述实施例，该方法中，根据第二预设公式计算排序策略，所述第二预设公式包括：
[0136][0137]
其中，πs表示排序策略；q(zi)表示第i个流的优先级分数；zi表示第i个流的流编码；zj表示第j个流的流编码；s
t
表示拓扑虚拟图在步骤t时的状态；i表示步骤i中被策略选择的流的下标；j表示softmax函数中被求和的流的下标。
[0138]
具体地，对于每个流的嵌入输入zi，应用两个mlp模块：和其中k是所考虑的最短路径的数量，dh表示嵌入h的纬度。嵌入h包括状态编码。具体地，将q(zi)作为第i个流的优先级分数，即步骤i中调度的时间敏感网络流的优先级分数，并采用softmax来输出排序策略，也就是说，排序策略的计算可以表达为第二预设公式：
[0139][0140]
其中，πs表示排序策略；q(zi)表示第i个流的优先级分数；zi表示第i个流的流编码；zj表示第j个流的流编码；s
t
表示拓扑虚拟图在步骤t时的状态；i表示步骤i中被策略选择的流的下标；j表示softmax函数中被求和的流的下标。
[0141]
基于上述实施例，该方法中，将所述状态编码输入至多任务策略模型，以得到目标调度策略，之后还包括：
[0142]
根据所述目标调度策略确定目标调度流量及目标调度路由；
[0143]
根据所述目标调度流量及目标调度路由分配当前空闲时隙，并更新数据流对应的物理链路的状态。
[0144]
具体地，目标调度策略包括排序策略和路由策略，排序策略包括一个已经排好序
的流队列，目标调度流量就是这个队列的第一条流，路由策略包括预设数量条路由的评价，在一些实施例中，选择评价最高的最短路径作为目标调度路由。
[0145]
此外，环境主要负责状态维护和奖励计算。给定要调度的下一个流量f
t+1
及其路线r
t+1
，据此分配当前空闲时隙，并相应地更新链路状态。
[0146]
基于上述实施例，该方法中，更新数据流对应的物理链路的状态，之后还包括：
[0147]
在所有数据流被调度结束后，根据第三预设公式计算奖励信号；
[0148]
所述第三预设公式包括：
[0149]
r＝1
success
+α
×
p
success
[0150]
其中，r表示奖励信号；如果调度成功，则1
success
等于1，否则为0；p
success
表示终止前成功调度的数据流的百分比；α表示平滑参数。
[0151]
具体地，根据第三预设公式计算强化学习训练的奖励信号r。本发明的目标是在全局范围内满足所有流量需求，而奖励设计与这一总体目标密切相关，更高的报酬r意味着调度算法的性能更好。第三预设公式包括：
[0152]
r＝1
success
+α
×
p
success
[0153]
其中，r表示奖励信号；如果调度成功，则1
success
等于1，否则为0；p
success
表示终止前成功调度的数据流的百分比；α表示平滑参数，用于平滑奖励信号。
[0154]
基于上述实施例，该方法中，基于深度神经网络利用流量调度样本根据增强策略强化学习算法训练得到所述多任务策略模型，具体包括：
[0155]
基于所述奖励信号，对所述多任务策略模型的参数执行梯度下降，以得到训练完成的多任务策略模型。
[0156]
具体地，本发明采用了增强的策略强化训练的梯度算法。其主要思想是利用观察到的回报直接对dnn参数执行梯度下降。为了简单起见，将神经网络中的所有参数定义为θ，与排序策略和路由策略相关的参数分别为θs和θr。根据著名的强化学习算法被形式化建模为：
[0157][0158]
其中，表示所有参数的梯度向量；e
π
表示方括号内公式对π的数学期望；r表示奖励信号；cπ表示根据策略π采样的全解轨迹；θs表示排序策略的相关参数；θr表示路由策略相关的参数；πs表示排序策略；f
t
表示第t个流，即在步骤t中被策略选择的流；s
t-1
表示拓扑虚拟图在步骤t-1时的状态；表示排序策略相关的参数的梯度向量；表示路由策略相关的参数的梯度向量；πr表示路由策略；r
t
表示第t个流的路由策略，即在步骤t中被选择流的路由策略；i表示步骤i中被策略选择的流的下标。
[0159]
本发明提供的时间敏感网络流量调度方法，通过获取时间敏感网络的网络状态；其中，所述网络状态包括物理网络拓扑、链路的时隙分配状态和数据流需求的集合；将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码；其中，所述状态编码包括网络全局编码、链路编码和流编码；所述状态信息编码模块包括基于图神经网
络的网络编码器和基于路径的流感知编码器；将所述状态编码输入至多任务策略模型，以得到目标调度策略；其中，所述目标调度策略包括排序策略和路由策略；所述多任务策略模型是基于深度神经网络利用流量调度样本根据增强策略强化学习算法进行训练得到的。本发明采用无模型强化学习工作流，将时间敏感网络流量调度作为一个多步骤决策问题来解决，基于神经网络的代理将问题的当前状态作为输入并输出调度动作，实现效率更高的时间敏感网络流量调度。
[0160]
下面对本发明提供的时间敏感网络流量调度装置进行描述，下文描述的时间敏感网络流量调度装置与上文描述的时间敏感网络流量调度方法可相互对应参照。
[0161]
图6是本发明提供的基于域名列表的服务器安全检查装置的结构示意图，如图6所示，包括获取单元610，编码单元620，策略单元630，其中，
[0162]
获取单元610，用于获取时间敏感网络的网络状态；其中，所述网络状态包括物理网络拓扑、链路的时隙分配状态和数据流需求的集合；
[0163]
编码单元620，用于将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码；其中，所述状态编码包括网络全局编码、链路编码和流编码；所述状态信息编码模块包括基于图神经网络的网络编码器和基于路径的流感知编码器；
[0164]
策略单元630，用于将所述状态编码输入至多任务策略模型，以得到目标调度策略；其中，所述目标调度策略包括排序策略和路由策略；所述多任务策略模型是基于深度神经网络利用流量调度样本根据增强策略强化学习算法进行训练得到的。
[0165]
基于上述实施例，该装置中，将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码，具体包括：
[0166]
将所述物理网络拓扑和所述链路的时隙分配状态输入至基于图神经网络的网络编码器，对所述物理网络拓扑建模，以得到拓扑虚拟图；其中，所述拓扑虚拟图的节点表示有向链路，所述拓扑虚拟图的边表示所述有向链路的连接关系；所述链路的时隙分配状态作为节点的输入；
[0167]
基于所述拓扑虚拟图，将所述节点的隐藏状态聚合并更新，以得到链路编码；
[0168]
在所述拓扑虚拟图中添加超级节点，将所述超级节点的隐藏状态聚合并更新，以得到网络全局编码；其中，所述超级节点与所述拓扑虚拟图中所有节点连接，所述超级节点的输入为所有节点输入的平均值。
[0169]
基于上述实施例，该装置中，将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码，具体包括：
[0170]
将所述数据流需求的集合输入至基于路径的流感知编码器，按照每个数据流的预设数量条最短路径提取链路编码并聚合，以得到预设数量个路径编码；
[0171]
将所有所述路径编码、所述网络全局编码和流需求编码合并，以得到流编码；其中，所述流需求编码是除源节点和目标节点之外的流的剩余实体标准化后进行投影得到的。
[0172]
基于上述实施例，该装置中，将所述状态编码输入至多任务策略模型，以得到目标调度策略，具体包括：
[0173]
将所述状态编码输入至多任务策略模型，根据第一预设公式计算目标调度策略；
[0174]
所述第一预设公式包括：
[0175][0176]
其中，π表示目标调度策略；fi表示第i个流；n表示流的数量；ri表示第i个流的路由策略；s0表示拓扑虚拟图的初始状态；πs表示排序策略；s
t-1
表示拓扑虚拟图在步骤t-1时的状态；πr表示路由策略；r
t
表示第t个流的路由策略；i表示步骤i中被策略选择的流的下标。
[0177]
基于上述实施例，该装置中，根据第二预设公式计算排序策略，所述第二预设公式包括：
[0178][0179]
其中，πs表示排序策略；q(zi)表示第i个流的优先级分数；zi表示第i个流的流编码；zj表示第j个流的流编码；s
t
表示拓扑虚拟图在步骤t时的状态；i表示步骤i中被策略选择的流的下标；j表示softmax函数中被求和的流的下标。
[0180]
基于上述实施例，该装置中，将所述状态编码输入至多任务策略模型，以得到目标调度策略，之后还包括：
[0181]
根据所述目标调度策略确定目标调度流量及目标调度路由；
[0182]
根据所述目标调度流量及目标调度路由分配当前空闲时隙，并更新数据流对应的物理链路的状态。
[0183]
基于上述实施例，该装置中，更新数据流对应的物理链路的状态，之后还包括：
[0184]
在所有数据流被调度结束后，根据第三预设公式计算奖励信号；
[0185]
所述第三预设公式包括：
[0186]
r＝1
success
+α
×
p
success
[0187]
其中，r表示奖励信号；如果调度成功，则1
success
等于1，否则为0；p
success
表示终止前成功调度的数据流的百分比；α表示平滑参数。
[0188]
基于上述实施例，该装置中，基于深度神经网络利用流量调度样本根据增强策略强化学习算法训练得到所述多任务策略模型，具体包括：
[0189]
基于所述奖励信号，对所述多任务策略模型的参数执行梯度下降，以得到训练完成的多任务策略模型。
[0190]
本发明提供的时间敏感网络流量调度装置，通过获取时间敏感网络的网络状态；其中，所述网络状态包括物理网络拓扑、链路的时隙分配状态和数据流需求的集合；将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码；其中，所述状态编码包括网络全局编码、链路编码和流编码；所述状态信息编码模块包括基于图神经网络的网络编码器和基于路径的流感知编码器；将所述状态编码输入至多任务策略模型，以得到目标调度策略；其中，所述目标调度策略包括排序策略和路由策略；所述多任务策略模型是基于深度神经网络利用流量调度样本根据增强策略强化学习算法进行训练得到的。本发明采用无模型强化学习工作流，将时间敏感网络流量调度作为一个多步骤决策问题来解决，基于神经网络的代理将问题的当前状态作为输入并输出调度动作，实现效率更高的时间敏感网络流量调度。
[0191]
图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行时间敏感网络流量调度方法，该方法包括：获取时间敏感网络的网络状态；其中，所述网络状态包括物理网络拓扑、链路的时隙分配状态和数据流需求的集合；将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码；其中，所述状态编码包括网络全局编码、链路编码和流编码；所述状态信息编码模块包括基于图神经网络的网络编码器和基于路径的流感知编码器；将所述状态编码输入至多任务策略模型，以得到目标调度策略；其中，所述目标调度策略包括排序策略和路由策略；所述多任务策略模型是基于深度神经网络利用流量调度样本根据增强策略强化学习算法进行训练得到的。
[0192]
此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0193]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的时间敏感网络流量调度方法，该方法包括：获取时间敏感网络的网络状态；其中，所述网络状态包括物理网络拓扑、链路的时隙分配状态和数据流需求的集合；将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码；其中，所述状态编码包括网络全局编码、链路编码和流编码；所述状态信息编码模块包括基于图神经网络的网络编码器和基于路径的流感知编码器；将所述状态编码输入至多任务策略模型，以得到目标调度策略；其中，所述目标调度策略包括排序策略和路由策略；所述多任务策略模型是基于深度神经网络利用流量调度样本根据增强策略强化学习算法进行训练得到的。
[0194]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的时间敏感网络流量调度方法，该方法包括：获取时间敏感网络的网络状态；其中，所述网络状态包括物理网络拓扑、链路的时隙分配状态和数据流需求的集合；将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码；其中，所述状态编码包括网络全局编码、链路编码和流编码；所述状态信息编码模块包括基于图神经网络的网络编码器和基于路径的流感知编码器；将所述状态编码输入至多任务策略模型，以得到目标调度策略；其中，所述目标调度策略包括排序策略和路由策略；所述多任务策略模型是基于深度神经网络利用流量调度样本根据增强策略强化学习算法进行训练得到的。
[0195]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可
以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0196]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0197]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：
1.一种时间敏感网络流量调度方法，其特征在于，包括：获取时间敏感网络的网络状态；其中，所述网络状态包括物理网络拓扑、链路的时隙分配状态和数据流需求的集合；将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码；其中，所述状态编码包括网络全局编码、链路编码和流编码；所述状态信息编码模块包括基于图神经网络的网络编码器和基于路径的流感知编码器；将所述状态编码输入至多任务策略模型，以得到目标调度策略；其中，所述目标调度策略包括排序策略和路由策略；所述多任务策略模型是基于深度神经网络利用流量调度样本根据增强策略强化学习算法进行训练得到的。2.根据权利要求1所述的时间敏感网络流量调度方法，其特征在于，将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码，具体包括：将所述物理网络拓扑和所述链路的时隙分配状态输入至基于图神经网络的网络编码器，对所述物理网络拓扑建模，以得到拓扑虚拟图；其中，所述拓扑虚拟图的节点表示有向链路，所述拓扑虚拟图的边表示所述有向链路的连接关系；所述链路的时隙分配状态作为节点的输入；基于所述拓扑虚拟图，将所述节点的隐藏状态聚合并更新，以得到链路编码；在所述拓扑虚拟图中添加超级节点，将所述超级节点的隐藏状态聚合并更新，以得到网络全局编码；其中，所述超级节点与所述拓扑虚拟图中所有节点连接，所述超级节点的输入为所有节点输入的平均值。3.根据权利要求2所述的时间敏感网络流量调度方法，其特征在于，将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码，具体包括：将所述数据流需求的集合输入至基于路径的流感知编码器，按照每个数据流的预设数量条最短路径提取链路编码并聚合，以得到预设数量个路径编码；将所有所述路径编码、所述网络全局编码和流需求编码合并，以得到流编码；其中，所述流需求编码是除源节点和目标节点之外的流的剩余实体标准化后进行投影得到的。4.根据权利要求1所述的时间敏感网络流量调度方法，其特征在于，将所述状态编码输入至多任务策略模型，以得到目标调度策略，具体包括：将所述状态编码输入至多任务策略模型，根据第一预设公式计算目标调度策略；所述第一预设公式包括：其中，π表示目标调度策略；f
i
表示第i个流；n表示流的数量；r
i
表示第i个流的路由策略；s0表示拓扑虚拟图的初始状态；π
s
表示排序策略；s
t-1
表示拓扑虚拟图在步骤t-1时的状态；π
r
表示路由策略；r
t
表示第t个流的路由策略；i表示步骤i中被策略选择的流的下标。5.根据权利要求4所述的时间敏感网络流量调度方法，其特征在于，根据第二预设公式计算排序策略，所述第二预设公式包括：
其中，π
s
表示排序策略；q(z
i
)表示第i个流的优先级分数；z
i
表示第i个流的流编码；z
j
表示第j个流的流编码；s
t
表示拓扑虚拟图在步骤t时的状态；i表示步骤i中被策略选择的流的下标；j表示softmax函数中被求和的流的下标。6.根据权利要求5所述的时间敏感网络流量调度方法，其特征在于，将所述状态编码输入至多任务策略模型，以得到目标调度策略，之后还包括：根据所述目标调度策略确定目标调度流量及目标调度路由；根据所述目标调度流量及目标调度路由分配当前空闲时隙，并更新数据流对应的物理链路的状态。7.根据权利要求6所述的时间敏感网络流量调度方法，其特征在于，更新数据流对应的物理链路的状态，之后还包括：在所有数据流被调度结束后，根据第三预设公式计算奖励信号；所述第三预设公式包括：r＝1
success
+α
×
p
success
其中，r表示奖励信号；如果调度成功，则1
success
等于1，否则为0；p
success
表示终止前成功调度的数据流的百分比；α表示平滑参数。8.根据权利要求7所述的时间敏感网络流量调度方法，其特征在于，基于深度神经网络利用流量调度样本根据增强策略强化学习算法训练得到所述多任务策略模型，具体包括：基于所述奖励信号，对所述多任务策略模型的参数执行梯度下降，以得到训练完成的多任务策略模型。9.一种时间敏感网络流量调度装置，其特征在于，包括：获取单元，用于获取时间敏感网络的网络状态；其中，所述网络状态包括物理网络拓扑、链路的时隙分配状态和数据流需求的集合；编码单元，用于将所述网络状态输入至状态信息编码模块，将所述网络状态编码，以得到状态编码；其中，所述状态编码包括网络全局编码、链路编码和流编码；所述状态信息编码模块包括基于图神经网络的网络编码器和基于路径的流感知编码器；策略单元，用于将所述状态编码输入至多任务策略模型，以得到目标调度策略；其中，所述目标调度策略包括排序策略和路由策略；所述多任务策略模型是基于深度神经网络利用流量调度样本根据增强策略强化学习算法进行训练得到的。10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述时间敏感网络流量调度方法。

技术总结
本发明提供一种时间敏感网络流量调度方法和装置，获取时间敏感网络的网络状态；其中，网络状态包括物理网络拓扑、链路的时隙分配状态和数据流需求的集合；将网络状态输入至状态信息编码模块，将网络状态编码，以得到状态编码；将状态编码输入至多任务策略模型，以得到目标调度策略；其中，目标调度策略包括排序策略和路由策略；多任务策略模型是基于深度神经网络利用流量调度样本根据增强策略强化学习算法进行训练得到的。本发明采用无模型强化学习工作流，将时间敏感网络流量调度作为一个多步骤决策问题来解决，基于神经网络的代理将问题的当前状态作为输入并输出调度动作，实现效率更高的时间敏感网络流量调度。率更高的时间敏感网络流量调度。率更高的时间敏感网络流量调度。

技术研发人员：杨铮贺骁武诸葛向文
受保护的技术使用者：清华大学
技术研发日：2023.05.24
技术公布日：2023/8/16

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种基于光纤传感器数据手套训练系统及钢琴训练系统的制作方法 下一篇：一种用于养殖大棚的空调器的制作方法

时间敏感网络流量调度方法和装置

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

时间敏感网络流量调度方法和装置

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表