一种联合波束赋形方法

未命名 07-15 阅读:62 评论:0


1.本发明属于无线通信技术领域,涉及一种联合波束赋形方法。


背景技术:

2.随着数字电子技术及电磁超材料的发展,可重构智能表面也被称为ris,被设计实现。经过理论推导以及实验证明,其可用以提高能源效率、频谱效率、定位精度。ris可以是无源的,故可用作智能反射器,以缓解阻塞和阴影效应,扩大通信覆盖范围,构建新的级联信道以解决直连路径被阻塞的问题。通过调节ris相位矩阵φ,获得更高的方向性增益,或降低反射信号在一定范围用户间的干扰。具体来说,ris的每个单元通过可调相移独立反射入射信号,从而实现无源波束赋形。ris相移矩阵的调整可被认为是被动波束赋形,而基站的发送预编码优化是有源波束赋形。通过ris相移矩阵和基站发送预编码的联合优化,有效地提高系统的通信性能。但两个优化变量存在非凸约束,且存在用户间干扰问题。
3.目前,传统的优化方法主要包括(1)基于交替优化方法;(2)半监督神经网络方法;(3)基于深度强化学习的双变量同时优化,如双变量优化ddpg方法。
4.目前现有技术的缺陷包括:(1)优化问题非凸特性通常需要采用交替优化的方式迭代求解,但迭代求解的收敛效率低和陷入局部最优;(2)半监督神经网络需要通过大量的数据半监督地训练得到最优解,但收敛缓慢且容易陷入局部最优;(3)将双变量作为深度强化学习的动作,导致动作维度较大,收敛缓慢。


技术实现要素:

5.本发明提供一种基于深度强化学习的ris系统和速率最大化波束赋形方法,用以解决当基站到用户的视距信道受阻无法可靠通信,以及传统优化方法容易陷入局部最优且无法快速收敛到最优解的问题。
6.本发明通过以下步骤予以实现。
7.s1:首先将ris引入多用户-多输入单输出通信系统,并悬挂于yoz平面,其相位矩阵为φ,为对角阵。其中第n(n∈n)个单元可表示为满足θn∈[0,2π)。
[0008]
定义ris与第k(k∈k)个用户之间的信道为每个信道服从瑞利分布,ris与所有用户的信道为矩阵
[0009]
基站与ris的信道为服从莱斯分布,视距信道定义为非视距信道定义为满足下式:
[0010]
[0011]
基站-用户间无直连信道,仅能通过基站-ris-用户的级联信道完成通信。
[0012]
用户k的接收信号为yk如下式所示:
[0013][0014]
其中gk为基站的对用户k的发送预编码,为g的第k列,xk为基站发送给第k个用户的单比特信号,ωk为零均值加性高斯白噪声。
[0015]
生成n
sample
组多用户-多输入单输出通信系统的信道状态矩阵h1和h2,随机初始化生成满足约束的φ0,通过生成训练数据集
[0016]
基站的发送预编码,满足tr{ghg}≤p
max
,其中p
max
为基站的最大传输功率。
[0017]
用户k的信干噪比被表示为γk,如下式所示:
[0018][0019]
s2:系统的最大和速率可表示为r,如下式所示:
[0020][0021]
系统的优化目标为在满足ris相移矩阵和基站发送预编码的约束条件下,最大化ris辅助的多用户-多输入单输出通信系统的最大和速率r,其具体表示为:
[0022][0023]
进一步的,(p1)是一个具有多用户干扰的,多变量优化的非凸约束问题。
[0024]
s3:整体网络分为两个部分:首先,通过深度强化学习,具体为深度确定性策略梯度ddpg网络完成ris相移矩阵的优化,ddpg包含actor和critic网络两部分,每套网络分为本地l和目标t两组,故全部网络参数包括和四部分。
[0025]
进一步的,其中actor网络根据和完成状态s到动作a的映射,critic网络根据和评判动作a对系统优化的价值,同时使用收益函数计算生成的动作a的价值对系统进行奖励。
[0026]
s4:当ddpg稳定输出较优的φ
opt
时,使用预训练的神经网络-加权最小均方误差nn-wmmse网络,原始的加权最小均方误差方法可被称为wmmse,将作为输入,输出发送预编码g,nn-wmmse将(p1)转化为如下的加权最小和最小均方误差问题:
[0027][0028]
其中,表示接收信号与原始信号xk的均方误差,yk为接收信号,wk为每个用户的增益加权。
[0029]
进一步的,nn-wmmse通过以下顺序完成对每个变量的优化,
[0030][0031]
nn-wmmse通过l层网络拟合上述uk,vk和gk的乘加操作,并通过预训练的求逆网络完成a的求逆,以完成上述参数更新。
[0032]
在本方法中,nn-wmmse预先使用维度与h
nn
一致的ris辅助的多用户-多输入单输出信道矩阵集{h
train
}和通过原始wmmse生成的最优{g
train
},组合成数据集和标签{h
train
,g
train
}完成训练,使用随机梯度下降sgd作为优化器,学习率为γ
nn

[0033]
进一步的,为满足{ghg}≤p
max
,在网络的最后一层使用softmax函数归一化每个用户的发送预编码gk的权重,归一化后的输出如下式所示:
[0034][0035]
其中vecdiag表示对矩阵的角线元素矢量化。
[0036]
s5:整体网络训练e个轮次,每个轮次使用epo∈[1,e]表示,每个轮次经历t个步长,每步用,每n
step
完成一次actor和critic网络参数更新,每e
step
个轮次联合优化ddpg和nn-wmmse,整体网络的具体优化步骤如下:
[0037]
s5-1:开始每轮迭代优化时,首先从训练数据集随机抽取一个h
drl
,进行归一化并作为ddpg网络的初始状态s0,归一化方式如下:
[0038][0039]
这种归一化方式使数据集更具有同分布性,使得网络更快收敛。
[0040]
s5-2:在迭代过程中,actor网络使用s
t-1
依据策略生成生成且当时,在生成的a
t
添加额外的噪声a
t
=a
t
+n,nn∈[-0.5,0.5]。
[0041]
进一步的,an(n∈n)代表a
t
的第n个单元,为满足an∈[0,1),actor网络的输出层使用sigmoid函数完成对a
t
的钳位,再通过将an转化φ
t
对角线上的第n个元素,并更新状态矩阵
[0042]
其中,actor网络的输入信道矩阵按虚部、实部和模值分为3通道,并按用户端进行拼接,以将矩阵拼接为类似方阵的形状,便于特征提取,以防池化层损失用户信息的特征,拼接维度为整体网络输入维度为{3
×ncat
×nt
},输出维度为{n
×
1}。
[0043]
s5-3:根据(p1)设定适合于系统的收益函数如下所示,在每一个步长t∈[1,t],计算收益函数,评判actor网络每一步生成的a
t
的有效性。
[0044]
进一步的,当t%k==0时,此时已针对每一个用户完成相位矩阵优化,使用当前系统的r的收益函数完成奖励设置,r
t
(r)设定如下:
[0045][0046]
当t%k∈[1,k-1],使用系统信干噪比完成这些步长中的动作奖励计算,奖励r
t
(γ)设定如下:
[0047][0048]
s5-4:critic网络使用依据下式计算得到对当前动作价值的估计:
[0049][0050]
其中γ
drl
为折扣系数,∈为收益关注系数,σ
t
为重采样系数。
[0051]
在网络结构中,critic网络的输入为actor的输出a
t
与s
t
的拼接矩阵,由于a
t
×
2π的每个元素为角度值,使用欧拉公式展开为的每个元素为角度值,使用欧拉公式展开为故sin(a
t
×
2π)作为动作的第一维度,cos(a
t
×
2π)作为动作的第二维度,a
t
×
2π作为第三维
度,critic网络的输入维度变为度,critic网络的输入维度变为其中
[0052]
s5-5:存储{s
t
,a
t
,r
t
,s
t+1

t
}为ddpg的元组元素e
t
,并将其放置在重放缓冲区,以便后续重新采样学习,其中重放缓冲区定义为其中存在的样本数定义为b
size

[0053]
s5-6:当重放缓冲区满足b
size
》m
size
且t%n
step
==0,即满足一次小批量学习数量m
size
且需要进行网络更新时,从重放缓冲区按σ
t
采集具有更高学习价值的样本,并分别计算actor和critic网络的损失函数la和lc,如下式所示:
[0054][0055]
其中,对ddpg的本地网络参数更新式如下:
[0056][0057]
对ddpg的目标网络参数更新式如下:
[0058][0059]
其中μa和μc为ddpg的本地actor和critic网络的学习率,τ为目标actor和critic网络的学习率,采用先更新本地网络,再更新目标网络的更新顺序,选用的优化器为adam。
[0060]
s5-7:当满足epo%e
step
==0,根据下式推导出wk与γk的关系,并根据γk与r的关系,利用当前系统的和速率,计算l(θ
nn
,μ)并通过随机梯度下降sgd优化器完成nn-wmmse的参数更新:
[0061][0062]
并同时利用s5-6所述的方法完成ddpg网络参数更新。
[0063]
s6:直至完成设定的e轮次,网络训练完成,网络根据输入的多用户-多输入单输出信道矩阵,输出可最大化多用户-多输入单输出通信系统和速率的ris相位矩阵φ和基站的发送预编码g。
[0064]
本发明的有益效果如下:
[0065]
本发明提供的一种联合波束赋性方法,是基于深度强化学习最大化ris辅助的多
用户-多输入单输出通信系统和速率的联合波束赋形方法。区别于现有技术,该方法利用深度强化学习的探索机制避免了现有的方法陷入局部最优的问题。此外,该方法降低了动作维数,保证收敛速度比同时优化两个变量的方法更快。同时,该方法还通过无监督联合优化保证了两部分网络参数的不断更新,从而产生更大的系统和速率。在各种情况下的仿真表明,该方法具有较强的鲁棒性,具有更好的稳定性和更快的收敛速度。
附图说明
[0066]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0067]
图1是本发明实施例的通信场景示意图;
[0068]
图2是本发明实施例的ddpg网络结构示意图;
[0069]
图3是本发明实施例的nn-wmmse网络结构示意图;
[0070]
图4是本发明实施例的整体流程示意图;
[0071]
图5是本发明实施例的训练结果示意图;
[0072]
图6是本发明实施例的与不同方法的优化效果对比图。
[0073]
图7是本发明实施例的方法的设计流图。
具体实施方式
[0074]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0075]
本发明具体实施步骤如下:
[0076]
s1:首先将ris引入多用户-多输入单输出通信系统,并悬挂于yoz平面,其相位矩阵为φ,为对角阵。其中第n(n∈n)个单元可表示为满足θn∈[0,2π),本实例中满足n=100。
[0077]
定义ris与第k(k∈k)个用户的信道为每个信道服从瑞利分布,ris与所有用户的信道为矩阵本实例中用户数k=32。
[0078]
基站与ris的信道为本实例中n
t
=64,h1服从莱斯分布,如式(1)所述,基站-用户间无直连信道,仅能通过基站-ris-用户的级联信道完成通信,整体通信系统如图1所示。
[0079]
生成n
sample
组多用户-多输入单输出通信系统的信道状态矩阵h1和h2,随机初始化生成满足约束的φ0,通过生成训练数据集数据集大小n
sample
为5000。
[0080]
基站的发送预编码,满足tr{ghg}≤p
max
,本实例中p
max
=20db。
[0081]
s2:系统的优化目标为在满足ris相移矩阵和基站发送预编码的约束条件下,最大化ris辅助的多用户-多输入单输出通信系统的最大和速率r,其中(p1)是一个具有多用户干扰的,多变量优化的非凸约束问题。
[0082]
s3:整体网络分为两个部分:首先,通过深度强化学习,具体为ddpg网络完成ris相移矩阵的优化,ddpg包含actor和critic网络两部分,每套网络分为本地l和目标t两组,故全部网络参数包括和四部分,整体ddpg框架如图2所示。
[0083]
图2所示的actor网络根据和完成状态s到动作a的映射,和也就是图中的网络结构中的非线性映射参数,包括卷积,批归一化层,激活函数以及全连接层。
[0084]
同样的,critic网络根据和评判动作a对系统优化的价值,同时使用收益函数计算生成的动作a的价值对系统进行奖励。
[0085]
s4:当ddpg稳定输出较优的φ
opt
时,预训练的nn-wmmse,将wmmse,将作为输入,输出发送预编码g,nn-wmmse将(p1)转化为如下的加权最小和最小均方误差问题(p2)。
[0086]
其中,nn-wmmse由如图3所示的l层网络拟合上述的uk,vk和gk的乘加操作,并通过预训练的求逆网络完成式(7)对中a矩阵的求逆运算,以完成(7)中全部参数的更新,在本设计实例中l=5。
[0087]
在本方法中,nn-wmmse预先使用维度与h
nn
一致的ris辅助的多用户-多输入单输出信道矩阵集{h
train
}和通过原始wmmse生成的最优{g
train
},组合成数据集和标签{h
train
,g
train
}完成训练,使用随机梯度下降法sgd作为优化器,学习率为γ
nn
=0.002。
[0088]
进一步的,为满足{ghg}≤p
max
,在网络的最后一层使用softmax函数归一化每个用户的发送预编码gk的权重,归一化如式(8)所述。
[0089]
s5:整体网络训练e个轮次,每个轮次使用epo∈[1,e]表示,每个轮次经历t个步长,每n
step
完成一次actor和critic网络参数更新,每e
step
个轮次联合优化ddpg和nn-wmmse,本实例中设定e=5000,t=200,n
step
=20以及e
step
=50。
[0090]
整体网络流程如图4所示,其体优化步骤如下:
[0091]
s5-1:开始每轮迭代优化时,首先从训练数据集随机抽取一个h
drl
,进行归一化并作为ddpg网络的初始状态s0,并由式(9)完成归一化,保证数据集更具有同分布性,使得网络更快收敛。
[0092]
s5-2:在迭代过程中,actor网络使用s
t-1
依据策略生成生成且当时,在生成的a
t
添加额外的噪声a
t
=a
t
+n,nn∈[-0.5,0.5]。
[0093]
进一步的,an(n∈n)代表a
t
的第n个单元,为满足an∈[0,1),actor网络的输出层使用sigmoid函数完成对a
t
的钳位,再通过将an转化φ
t
对角线上的第n个元素,并更新状态矩阵
[0094]
图4中所示的actor网络的输入信道矩阵按虚部、实部和模值分为3通道,并按用户端进行拼接,以将矩阵拼接为类似方阵的形状,便于特征提取,以防池化层损失用户信息的
特征,拼接维度为整体网络输入维度为{3
×ncat
×nt
},输出维度为{n
×
1}。
[0095]
s5-3:根据(p1)设定适合于系统的收益函数如下所示,在每一个步长t∈[1,t],计算收益函数,评判actor网络每一步生成的a
t
的有效性。
[0096]
进一步的,当t%k==0时,此时已针对每一个用户完成相位矩阵优化,使用当前系统的r的收益函数完成奖励设置,r
t
(r)如式(10)设定。
[0097]
当t%k∈[1,k-1],使用系统信干噪比完成这些步长中动作的奖励计算,奖励r
t
(γ)如式(11)设定。
[0098]
s5-4:critic网络使用依据式(12)计算得到对当前动作价值的估计,其中在本实施例中,设定γ
drl
=0.99为折扣系数,∈=0.1为收益关注系数。
[0099]
在网络结构中,critic网络的输入为actor的输出a
t
与s
t
的拼接矩阵,由于a
t
×
2π的每个元素为角度值,使用欧拉公式展开为的每个元素为角度值,使用欧拉公式展开为故cos(a
t
×
2π)作为动作的第一维度,sin(a
t
×
2π)作为动作的第二维度,a
t
×
2π作为第三维度,critic网络的输入维度变为度,critic网络的输入维度变为其中
[0100]
s5-5:存储{s
t
,a
t
,r
t
,s
t+1

t
}为drl元组元素e
t
,并将其放置在重放缓冲区,以便后续重新采样学习,其中重放缓冲区定义为其中存在的样本数定义为b
size
,在本设计实例中,的最大容量为50000。
[0101]
s5-6:当重放缓冲区满足b
size
》m
size
且t%n
step
==0,即满足一次小批量学习数量m
size
=80,且需要进行网络更新时,从重放缓冲区按式(12)中σ
t
采集具有更高学习价值的样本,并分别依据式(13)计算actor和critic网络的损失函数la和lc,并通过式(14)和(15)完成两套参数的更新。
[0102]
并设定μa和μc为ddpg的本地actor和critic网络的学习率,τ为目标actor和critic网络的学习率,采用先更新本地网络,再更新目标网络的更新顺序,选用的优化器为adam,在本实例中设定μa=0.0015,μc=0.001及τ=0.015。
[0103]
s5-7:当满足epo%e
step
==0,根据式(16)推导出wk与γk的关系,并根据γk与r的关系,利用当前系统的和速率,计算l(θ
nn
,μ)并通过随机梯度下降sgd优化器完成nn-wmmse的参数更新,同时利用s5-6所述的方法完成ddpg网络参数更新。
[0104]
s6:直至完成设定的e个轮次,网络训练完成,网络根据输入的多用户-多输入单输出信道矩阵,输出可最大化多用户-多输入单输出通信系统和速率的ris相位矩阵φ和基站的发送预编码g。
[0105]
整体所方法可被定义为piecewise-drl,其所以通过在同样的参数下n
t
=64,n=100,k=32以及p
max
=20db完成网络训练并对比训练网络的平均收益对比出不同方法的收敛速度和优化效果。通过图5可知,所提出的piecewise-drl方法更快达到收敛,且平均收益更高,所以得到了更大的系统和速率。
[0106]
图6进一步展示了piecewise-drl与其他现存方法的最大和速率相对于p
max
的变化关系。为了提供全面的评估,引入了两组通信系统参数进行对比。随着p
max
的增加,所有方法
的和速率都呈现单调增加的趋势。具体来说,系统天线数量越多,系统和速率越高。此外,所提出的piecewise-drl在两种参数设置下都优于其他已有方法,并且差距随着p
max
的增加而扩大。这种现象主要是由于在低p
max
值时传输预编码矩阵的影响不显著。在更高的p
max
下,与其他方法相比,piecewise-drl实现了大约5%到20%的性能增益。这些结果表明,该方法通过联合优化基站发送预编码和ris相移角度完成系统和速率的最大化,特别是在高p
max
场景下,整体方法的设计流程图如图7所示。
[0107]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.一种联合波束赋形方法,其特征在于利用深度强化学习求解可重构智能表面的相移矩阵,并使用神经网络半监督地求解基站的发送预编码。借助深度强化学习的探索-奖励机制使用优化后的变量求解出当前系统和速率,使用适合系统的收益函数鼓励系统持续探索最优解,以得出多用户-多输入单输出的通信系统最大和速率,其具体包括如下步骤:s1:首先将可重构智能表面引入多用户-多输入单输出通信系统,并悬挂于yoz平面,其相位矩阵为φ,为对角阵,其中第n(n∈n)个单元可表示为满足定义可重构智能表面与第k(k∈k)个用户的信道为每个信道服从瑞利分布,可重构智能表面与所有用户的信道为矩阵基站与可重构智能表面的信道为服从莱斯分布,视距信道定义为非视距信道定义为满足下式:基站-用户间无直连信道,仅能通过基站-可重构智能表面-用户的级联信道完成通信;用户k的接收信号为y
k
如下式所示:其中g
k
为基站的对用户k的发送预编码,为g的第k列,x
k
为基站发送给第k个用户的单比特信号,ω
k
为零均值加性高斯白噪声;生成n
sample
组多用户-多输入单输出通信系统的信道状态矩阵h1和h2,随机初始化生成满足约束的φ0,通过生成训练数据集基站的发送预编码,满足其中p
max
为基站的最大传输功率;用户k的信干噪比可表示为γ
k
,如下式所示:s2:系统的最大和速率可表示为r,如下式所示:系统的优化目标为在满足可重构智能表面相移矩阵和基站发送预编码的约束条件下,
最大化可重构智能表面辅助的多用户-多输入单输出通信系统的最大和速率r,其具体表示为:进一步的,(p1)是一个具有多用户干扰的,多变量优化的非凸约束问题;s3:整体网络分为两个部分:首先,通过深度强化学习,具体为深度确定性策略梯度ddpg网络完成可重构智能表面相移矩阵的优化,ddpg包含actor和critic网络两部分,每套网络分为本地l和目标t两组,故全部网络参数包括网络分为本地l和目标t两组,故全部网络参数包括和四部分;进一步的,其中actor网络根据和完成状态s到动作a的映射,critic网络根据和评判动作a对系统优化的价值,同时使用收益函数计算生成的动作a的价值对系统进行奖励;s4:当ddpg稳定输出较优的φ
opt
时,使用预训练的神经网络-加权最小均方误差nn-wmmse网络,原始的加权最小均方误差方法可被称为wmmse,将作为输入,输出发送预编码g,nn-wmmse将(p1)转化为如下的加权最小和最小均方误差问题:其中,表示接收信号与原始信号x
k
的均方误差,y
k
为接收信号,w
k
为每个用户的增益加权;进一步的,nn-wmmse通过以下顺序完成对每个变量的优化;nn-wmmse通过l层网络拟合上述u
k
,v
k
和g
k
的乘加操作,并通过预训练的求逆网络完成a
的求逆,以完成上述参数更新;s5:整体网络训练e个轮次,每个轮次使用epo∈[1,e]表示,每个轮次经历t个步长,每n
step
完成一次actor和critic网络参数更新,每e
step
个轮次联合优化ddpg和nn-wmmse;s6:直至完成设定的e轮次,网络训练完成,网络根据输入的多用户-多输入单输出信道矩阵,输出可最大化多用户-多输入单输出通信系统和速率的可重构智能表面相位矩阵φ和基站的发送预编码g。2.根据权利要求1所述的一种联合波束赋形方法,其特征在于:所述的s4中的nn-wmmse预先使用维度与h
nn
一致的可重构智能表面辅助的多用户-多输入单输出信道矩阵集{h
train
}和通过原始wmmse生成的最优{g
train
},组合成数据集和标签{h
train
,g
train
}完成训练,使用sgd作为优化器,学习率为γ
nn
;进一步的,为满足{g
h
g}≤p
max
,在网络的最后一层使用softmax函数归一化每个用户的发送预编码g
k
的权重,归一化后的输出如下式所示:其中vecdiag表示对矩阵的角线元素矢量化。3.据权利要求1所述的一种联合波束赋形方法,其特征在于:所述的s5中整体网络的具体优化步骤如下:s5-1:开始每轮迭代优化时,首先从训练数据集随机抽取一个h
drl
,进行归一化并作为ddpg网络的初始状态s0,归一化方式如下:这种归一化方式使数据集更具有同分布性,使得网络更快收敛;s5-2:在迭代过程中,actor网络使用s
t-1
依据策略生成生成且当时,在生成的a
t
添加额外的噪声a
t
=a
t
+n,n
n
∈[-0.5,0.5];进一步的,a
m
(n∈n)代表a
t
的第n个单元,为满足a
n
∈[0,1),actor网络的输出层使用sigmoid函数完成对a
t
的钳位,再通过将a
n
转化φ
t
对角线上的第n个元素,并更新状态矩阵进一步的,actor网络的输入信道矩阵按虚部、实部和模值分为3通道,并按用户端进行拼接,以将矩阵拼接为类似方阵的形状,便于特征提取,以防池化层损失用户信息的特征,拼接维度为整体网络输入维度为{3
×
n
cat
×
n
t
},输出维度为{n
×
1};s5-3:根据(p1)设定适合于系统的收益函数如下所示,在每一个步长t∈[1,t],计算收益函数,评判actor网络每一步生成的a
t
的有效性;进一步的,当t%k==0时,此时已针对每一个用户完成相位矩阵优化,使用当前系统的r的收益函数完成奖励设置,r
t
(r)设定如下:
当t%k∈[1,k-1],使用系统信干噪比完成这一阶段动作的奖励计算,奖励r
t
(γ)设定如下:s5-4:critic网络使用依据下式计算得到对当前动作价值的估计:其中γ
drl
为折扣系数,∈为收益关注系数,σ
t
为重采样系数;critic网络的输入为actor的输出a
t
与s
t
的拼接矩阵,由于a
t
×
2π的每个元素为角度值,使用欧拉公式展开为故sin(a
t
×
2π)作为动作的第一维度,cos(a
t
×
2π)作为动作的第二维度,a
t
×
2π作为第三维度,critic网络的输入维度变为维度变为其中s5-5:存储{s
t
,a
t
,r
t
,s
t+1

t
}为ddpg的元组元素e
t
,并将其放置在重放缓冲区,以便后续重新采样学习,其中重放缓冲区定义为其中存在的样本数定义为b
size
;s5-6:当重放缓冲区满足b
size
>m
size
且t%n
step
==0,即满足一次小批量的学习数量m
size
且需要进行网络更新时,从重放缓冲区按σ
t
采集具有更高学习价值的样本,并分别计算actor和critic网络的损失函数l
a
和l
c
,如下式所示:其中,对ddpg的本地网络参数更新式如下:对ddpg的目标网络参数更新式如下:
式中μ
a
和μ
c
为ddpg的本地actor和critic网络的学习率,τ为目标actor和critic网络的学习率,采用先更新本地网络,再更新目标网络的更新顺序,优化器为adam;s5-7:当满足epo%e
step
==0,根据下式推导出w
k
与γ
k
的关系,并根据γ
k
与r的关系,利用当前系统的和速率,计算l(θ
nn
,μ)并通过sgd优化器完成nn-wmmse的参数更新,并同时利用s5-6所述的方法完成ddpg网络参数更新。

技术总结
本发明涉及一种联合波束赋形方法,属于无线通信技术领域。特别涉及一种基于DRL的联合优化RIS相移矩阵和基站发射预编码以最大化MU-MISO通信系统最大和速率的非凸优化多变量的方法。针对基于传统非凸优化多变量方法通过放缩非凸约束,再迭代优化两个变量,容易陷入局部最优解得问题。本发明利用强化学习的探索-奖励机制,通过设定适合该优化问题的收益函数奖励系统不断探索联合变量最优解。针对同时优化两个变量的DRL网络的动作维度较大导致收敛缓慢的问题。本发明通过拆分两个优化变量交替求解,通过计算得到的系统和速率联合优化网络参数加速网络收敛,同时避免陷入局部最优。优。优。


技术研发人员:王卫江 李剑铮 蒋荣堃 薛丞博 王贵愚
受保护的技术使用者:北京理工大学
技术研发日:2023.05.15
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐