一种空分复用弹性光网络中基于深度强化学习的资源分配方法

未命名 09-10 阅读:86 评论:0


1.本发明涉及光通信领域,尤其涉及空分复用弹性光网络的资源分配,具体涉及一种基于深度强化学习的路由、调制、纤芯和频谱分配方法。


背景技术:

2.近年来提出的基于正交频分复用(orthogonal frequency division multiplexing,ofdm)的弹性光网络(elastic optical networks,eons)已被证明是高速光通信的一个很有前景的选择,它可以根据业务带宽需求将频谱分配给光路。但是随着5g技术的到来,网络消耗的带宽资源持续增长,使用单芯光纤的eons已达到其本身的物理极限,于是空分复用弹性光网络(space division multiplexing elastic optical networks,sdm-eons)被广泛研究,它将弹性光网络拓展到空间域,增加了传输能力,但由于其引入了空间维度,因此也会引入新的问题。首先,基于ofdm弹性光网络中的路由、调制和频谱分配(routing,modulation and spectrum assignment,rmsa)问题就扩展成为路由、调制、纤芯和频谱分配(routing,modulation,core and spectrumassignment,rmcsa)问题,这使得资源分配更加复杂。其次,多纤芯引入的同时会引入纤芯之间的串扰问题,同时也会增加多纤芯的频谱碎片问题。
3.随着人工智能技术的不断发展,越来越多的学者开始研究如何将深度学习、强化学习等技术应用于光网络的资源分配,在文献[1]中提出了deeprmsa算法(x.chen,b.li,r.proietti,h.lu,z.zhu and s.j.b.yoo,"deeprmsa:a deep reinforcement learning framework for routing,modulation and spectrum assignment in elastic optical networks,"in journal of lightwave technology,vol.37,no.16,pp.4155-4163,15aug.15,2019,doi:10.1109/jlt.2019.2923615.),deeprmsa中包含许多深度神经网络(deep neural networks,dnn),该dnn能够感知复杂的eons状态,使deeprmsa对策略进行参数化,从而学习正确的在线rmsa策略。文献[2](b.tang,y.-c.huang,y.xue and w.zhou,"heuristic reward design for deep reinforcement learning-based routing,modulation and spectrum assignment of elastic optical networks,"in ieee communications letters,vol.26,no.11,pp.2675-2679,nov.2022,doi:10.1109/lcomm.2022.3195778.)在文献[1]的基础上提出一种基于启发式奖励的强化学习方法,通过在奖励设计过程中包含一些启发式信息,减少机器学习的探索盲目性,相较于deeprmsa算法改善了性能。但是这两个文献都是基于单芯光纤的频谱资源分配方法,并未进一步扩展到空间域。当把深度强化学习应用在多纤芯的光纤上,不仅会有多纤芯分配的问题,还会增加多纤芯之间的串扰问题和频谱碎片问题。
[0004]
因此,考虑到现有基于深度强化学习的弹性光网络资源分配方法,本发明提出一种空分复用弹性光网络中基于深度强化学习的资源分配方法,在将深度强化学习应用到多纤芯资源分配的同时,设计一种启发式奖励机制,该奖励机制同时考虑了芯间串扰问题和
频谱分配问题,深度强化学习模型通过奖励机制控制智能体的训练方向,从而更有效地学习策略,提高业务传输的成功率。


技术实现要素:

[0005]
有鉴于此,本发明的目的在于提供一种空分复用弹性光网络中基于深度强化学习的资源分配方法,在考虑多纤芯串扰和频谱碎片的基础上,提出一种启发式奖励机制,目的是控制智能体的训练方向,进而提高业务传输的成功率。
[0006]
为达到上述目的,本发明提供如下技术方案:
[0007]
一种空分复用弹性光网络中基于深度强化学习的资源分配方法,具体步骤如下:
[0008]
s1:初始化网络拓扑,初始化各链路频谱资源状态;
[0009]
s2:对纤芯进行分组,并为每个组划分级别;
[0010]
s3:通过ksp算法,计算到来业务源、目节点之间的k条最短路径作为候选路径,并记录;
[0011]
s4:根据当前业务类型,计算业务请求在每条候选路径中所需的频隙数fsk,并记录;
[0012]
s5:根据当前各链路频谱资源状态和业务请求相关信息,计算深度强化学习中智能体的输入状态is,并记录;
[0013]
s6:根据输入状态is,智能体选择k条候选路径中的一条,并在该路径中选择一条纤芯c,并记录;
[0014]
s7:通过first fit策略在智能体选择的纤芯中寻找可用的频隙块,并且计算频隙块中各个频隙的串扰值;
[0015]
s8:判断寻找的频隙块是否满足业务需求和串扰阈值的限制,选择是否为业务分配对应频谱资源,并记录判断结果;
[0016]
s9:奖励机制通过记录的判断结果和智能体选择的候选路径信息,计算奖励值r;
[0017]
s10:将输入状态is、智能体选择的路径以及计算出来的奖励值r反馈给智能体进行训练。
[0018]
进一步,在步骤s2中,分组具体包括:
[0019]
s21:考虑到多纤芯之间的芯间串扰问题,根据顶点着色的原理将纤芯划分为不同的纤芯组,保证同组内的纤芯互不相邻;
[0020]
s22:对于每个纤芯组,统计组内纤芯的相邻纤芯总数,进而计算出组内每个纤芯的平均相邻纤芯数;
[0021]
s23:根据每个组的平均相邻纤芯数对组进行升序排序,然后根据排列顺序将组的级别从高到低划分,由于高级别组中纤芯的平均相邻纤芯数较少,从而与其他纤芯之间的芯间串扰影响相对较小,因此在资源分配时尽量先考虑高级别组中的纤芯。
[0022]
进一步,在步骤s4中,业务请求在每条候选路径所需频隙数fsk的计算具体包括:
[0023]
s41:计算每条候选路径的物理距离dk(km);
[0024]
s42:确定业务请求在每条候选路径的调制格式,进而将业务带宽需求b转化为所需的频隙数bk(k=1,2,3,...,k),b转换bk的定义如公式(1):
[0025][0026]
w表示一个频隙fs的带宽(这里为12.5ghz),bk表示业务需求带宽b在候选路径k所需的频隙数。
[0027]
进一步,在步骤s5中,输入状态is具体包括:
[0028]
s51:将业务请求的源节点、目的节点分别建模为一个向量(one-hot)e
src
和e
dst
,向量中的每个元素表示光网络中的节点,源节点、目的节点表示为1,其它节点表示为0;
[0029]
s52:计算当前各链路频谱资源状态,对于每条候选路径上的每条纤芯,获得它们的公共可用频隙,然后计算可用频隙的总数n
fs
、可用频隙块的总数n
fsb
、满足带宽需求的可用频隙块总数n'
fsb
、满足业务带宽需求的第一个可用频隙块的起始索引i
start
、满足带宽需求的第一个可用频隙块的大小s
first
、可用频隙块的平均大小
[0030]
s53:输入状态is的定义如公式(2):
[0031][0032]
t表示业务所需时间,k表示k条候选路径的第k条,c表示每根光纤中c条纤芯的某条。
[0033]
进一步,在步骤s9中,奖励机制具体包括:
[0034]
r:表示反馈给智能体的奖励值,范围为r∈[-1,1];
[0035]
xr:表示有关芯间串扰的奖励,根据智能体选择的纤芯所在组的级别来进行计算,若是纤芯所在组级别最高则xr=1,若是纤芯所在组级别最低则xr=0.8;否则,根据组级别按照一定的步长递减计算xr;
[0036]fr
:表示有关频谱碎片的奖励,在所有候选路径的所有纤芯中,若智能体选择的纤芯中平均可用频隙块最大,则fr=1,否则fr=0.8;
[0037]
α:表示芯间串扰的奖励xr和频谱碎片的奖励fr在奖励r中的占比情况,范围为α∈[0,1];
[0038]
根据智能体选择的路径是否能为业务分配频谱资源,计算奖励值r,如公式(3)所示:
[0039][0040]
若不能为业务分配资源,业务请求被拒绝,此时奖励值最低r=-1;若是能为业务分配频谱资源,业务请求被接收,奖励r=α
·
xr+(1-α)
·fr
,其中α的作用是可以根据不同业务场景调整芯间串扰和频谱碎片在奖励机制中的影响,从而在不同的应用场景中奖励机制可以更灵活的对智能体进行反馈,使智能体更好的进行训练。
[0041]
本发明的有益效果在于:
[0042]
提出一种空分复用弹性光网络中基于深度强化学习的资源分配方法,本发明将深度强化学习应用于空分复用弹性光网络中的同时,设计一种奖励机制,该奖励机制包含芯间串扰和频谱碎片问题,通过奖励机制中的参数α,控制智能体朝着不同的方向训练:选择芯间串扰影响更小的纤芯(α>0.5,比如α=1)、选择频谱碎片程度更低的纤芯(α<0.5,比如α=0)或者综合芯间串扰和频谱碎片问题来进行纤芯的选择(比如α=0.5),通过启发式的奖励设计,让智能体朝着我们所想的方向进行训练,减少智能体训练时的探索过程,使得智能体更快、更好的训练,获得更好的资源分配模型,从而降低业务阻塞率。
附图说明
[0043]
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
[0044]
图1本发明的联合系统框图;
[0045]
图2本发明的奖励机制流程图;
[0046]
图3本发明使用的7芯光纤图;
[0047]
图4本发明提出的资源分配流程图。
具体实施方案
[0048]
下面将结合附图和实施例,对本发明进行详细的描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049]
本发明提供一种空分复用弹性光网络中基于深度强化学习的资源分配方法,主要用于解决空分复用弹性光网络中路由、调制、纤芯和频谱分配问题。参考图1,首先,本发明在rmcsa问题中引入深度强化学习,让智能体通过训练去选择对未来累计效果更有益的资源分配方式;然后,本发明在奖励机制中考虑到芯间串扰和频谱碎片问题,奖励机制反馈给智能体进行训练,从而让智能体选择更好的分配方式,进一步降低业务阻塞率。
[0050]
参照图2,智能体通过输入状态is选择某条候选路径中的一条纤芯,在选中的纤芯中通过firstfit策略寻找满足业务请求的可用频隙块,若是没有找到可用的频隙块,则奖励值为-1;若是找到可用的频隙块,计算可用的频谱块中各个频隙是否满足串扰阈值的限制,若是不满足串扰阈值限制,则奖励值为-1;若是满足串扰阈值的限制,则根据公式r=α
·
xr+(1-α)
·fr
计算奖励值,奖励计算结束。
[0051]
参照图4,其是本技术一个实施例的空分复用弹性光网络的资源分配流程图,包括:
[0052]
输入:光网络拓扑g(v,e),动态业务i,业务请求数目i(i={1,2,3,

,i
max
}),其中业务i携带的信息为(si,di,bi,ti),si、di、bi和ti分别表示业务i的源节点、目的节点、所需的业务带宽大小和业务持续时间。
[0053]
输出:请求的传输路径pk,业务编号i,业务阻塞率bp,业务带宽阻塞率bbp。
[0054]
s1:初始化网络拓扑,初始化各链路频谱资源状态,初始化业务编号i=1(i∈i);
[0055]
s2:对纤芯进行分组,并为每个组划分级别;
[0056]
s3:动态业务i到达;
[0057]
s4:由ksp算法计算业务源节点、目的节点之间k条最短路径,按照传输距离升序排序,作为k条候选路径;
[0058]
s5:根据调制水平,计算业务i在每条候选路径中所需频隙数bk,计算规则如公式(1);
[0059]
s6:计算每条候选路径中各链路频谱资源状态,对于每条路径的每条纤芯,获得它们的公共可用频隙,然后计算可用频隙的总数n
fs
、可用频隙块的总数n
fsb
、满足带宽需求的可用频隙块总数n'
fsb
、满足带宽需求的第一个可用频隙块的起始索引i
start
、满足带宽需求的第一个可用频隙块的大小s
first
、可用频隙块的平均大小
[0060]
s7:根据业务请求相关信息和当前各链路频谱资源状态,计算输入状态is,具体计算公式如式(2);
[0061]
s8:深度强化学习的智能体根据输入状态is,从动作空间a(k条候选路径*c条纤芯)选择一个动作a(一条候选路径中的一条纤芯);
[0062]
s9:判断选择的纤芯是否有满足业务需求的频谱资源,若是有,则根据first fit策略选择满足条件的频隙块fsb,转步骤s10,若是没有则转步骤s12;
[0063]
s10:判断选择的频隙块fsb是否满足串扰阈值的限制,若是满足转步骤s11,否则步骤转s12;
[0064]
s11:业务i成功传输,转步骤s13;
[0065]
s12:业务i传输失败,业务阻塞,转步骤s14;
[0066]
s13:计算奖励值r=α
·
xr+(1-α)
·fr
,转步骤s15;
[0067]
s14:业务阻塞,奖励值r=-1,转步骤s15;
[0068]
s15:生成奖励值r;
[0069]
s16:结合步骤s7的输入状态is、步骤s8选择的纤芯和步骤s15的奖励值r,生成训练数据,反馈给智能体进行训练;
[0070]
s17:令i=i+1,判断i范围,如果i∈i,转步骤s3;如果转步骤s18;
[0071]
s18:算法结束。
[0072]
其中步骤s9到步骤s15主要为奖励机制算法,如图4的虚线框中所示。
[0073]
参照图3,在一个可行的实施例中,所述s2:对纤芯进行分组,并为每个组划分级别的步骤,包括:
[0074]
s21:将不相邻的纤芯分为一组,纤芯1、2和3分为一组,表示为g1={1,2,3},纤芯4、5和6分为一组,表示为g2={4,5,6},中间纤芯7分为一组,表示为g3={7};
[0075]
s22:计算每组的平均相邻纤芯数,对于g1,纤芯1的相邻纤芯为纤芯4、6和7,纤芯2的相邻纤芯为纤芯4、5和7,纤芯3的相邻纤芯为纤芯5、6和7,故纤芯1、2和3的相邻纤芯数都为3,g1中纤芯的相邻纤芯总数为3+3+3=9,每条纤芯的平均相邻纤芯数为9/3=3;同理,g2中每条纤芯的平均相邻纤芯数为3,g3中每条纤芯的平均相邻纤芯数为6;
[0076]
s23:根据每个组的平均相邻纤芯数进行升序排序,组排序依次为g1、g2、g3(或者g2、g1、g3),g1(或者g2)排序最前,组级别最高,表示为1,g2(或者g1)排序次前,组级别表示为2,g3排序最后,组级别最低,表示为3。
[0077]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,对于本领域
的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:
1.一种空分复用弹性光网络中基于深度强化学习的资源分配方法,其特征在于,该方法具体包括以下步骤:s1:初始化网络拓扑,初始化各链路频谱资源状态;s2:对纤芯进行分组,并为每个组划分级别;s3:通过ksp算法,计算到来业务源、目节点之间的k条最短路径作为候选路径,并记录;s4:根据当前业务类型,计算业务请求在每条候选路径中所需的频隙数fs
k
,并记录;s5:根据当前各链路频谱资源状态和业务请求相关信息,计算深度强化学习中智能体的输入状态i
s
,并记录;s6:根据输入状态i
s
,智能体选择k条候选路径中的一条,并在该路径中选择一条纤芯c,并记录;s7:通过firstfit策略在智能体选择的纤芯中寻找可用的频隙块,并且计算频隙块中各个频隙的串扰值;s8:判断寻找的频隙块是否满足业务需求和串扰阈值的限制,选择是否为业务分配对应频谱资源,并记录判断结果;s9:奖励机制通过记录的判断结果和智能体选择的候选路径信息,计算奖励值r;s10:将输入状态i
s
、智能体选择的路径以及计算出来的奖励值r反馈给智能体进行训练。2.根据权利要求1所述的一种空分复用弹性光网络中基于深度强化学习的资源分配方法,其特征在于,在步骤s2中,分组具体包括:s21:纤芯分组,根据顶点着色的原理将纤芯划分为不同的纤芯组,保证同组内的纤芯互不相邻;s22:对于每个纤芯组,统计组内纤芯的相邻纤芯总数,进而计算出组内每个纤芯的平均相邻纤芯数;s23:根据每个组的平均相邻纤芯数进行升序排序,然后根据排列顺序将组的级别从高到低划分。3.根据权利要求1所述的一种空分复用弹性光网络中基于深度强化学习的资源分配方法,其特征在于,在步骤s5中,输入状态i
s
具体包括:s51:计算业务请求相关信息,主要有源节点、目的节点、业务请求所需的带宽大小以及业务持续时间,并记录;s52:计算当前各链路频谱资源状态,并记录;s53:计算输入状态:i
s
={{业务请求相关信息},{各链路频谱资源状态}}。4.根据权利要求1所述的一种空分复用弹性光网络中基于深度强化学习的资源分配方法,其特征在于,在步骤s9中,奖励机制具体包括:s91:根据智能体选择的纤芯所在组的级别计算奖励x
r
,若是纤芯所在组级别最高则x
r
=1,若是纤芯所在组级别最低则x
r
=0.8;否则,根据组级别按照一定的步长递减计算x
r
;s92:计算用来表示频谱碎片的奖励f
r
,在所有候选路径的所有纤芯中,若智能体选择的纤芯中平均可用频隙块s
fsb
最大,则f
r
=1,否则f
r
=0.8;s93:根据智能体选择的路径是否能为业务分配频谱资源,计算奖励值r:若不能为业务分配资源,业务请求被拒绝,奖励r=-1;若能为业务分配频谱资源,业务请求被接收,奖励r
=α
·
x
r
+(1-α)
·
f
r
,α表示芯间串扰的奖励x
r
在奖励r中的占比。

技术总结
本发明涉及一种空分复用弹性光网络中基于深度强化学习的资源分配方法,属于光通信领域。本发明在将深度强化学习应用于空分复用弹性光网络的同时,设计一种奖励机制,该奖励机制考虑了多纤芯之间的芯间串扰和频谱碎片问题。首先,将业务请求信息与当前光网络中频谱使用状况作为强化学习中智能体的输入;其次,智能体在动作空间中选择一条路径中的一条纤芯,若该纤芯有满足条件的频谱资源并且其满足串扰阈值的限制,奖励机制将根据智能体选择的纤芯所在组的级别和纤芯中频谱碎片程度综合计算奖励值,否则将奖励值设为最低;随后,将计算出来的奖励值反馈给智能体进行训练,让智能体选择对于长期来讲更好的资源分配方式,从而降低业务阻塞率。降低业务阻塞率。降低业务阻塞率。


技术研发人员:张盛峰 张晓斌 沈燕红
受保护的技术使用者:重庆邮电大学
技术研发日:2023.06.27
技术公布日:2023/9/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐