一种基于深度强化学习的无线电传输方法及装置

未命名 07-17 阅读:75 评论:0


1.本发明涉及无线通信技术领域,尤其涉及一种基于深度强化学习的无线电传输方法及装置。


背景技术:

2.在实际生活中,人们对频谱资源的需求日益增加,运用认知无线电技术将用户接入空闲频谱可以提高频谱利用率,资源分配是认知无线电的关键技术之一,其通过分配最佳信道和优化传输功率来提高系统的整体性能。
3.目前,市面上大多基于最优控制或者博弈论来解决资源分配问题,也有通过强化学习中的无模型策略来解决资源分配问题。但是,利用最优控制或博弈论解决资源分配问题的前提条件是无线网络中的用户均知道所有信道的状态信息,这在实际应用过程中是难以实现的,通过强化学习中的无模型策略来解决资源分配问题也会遇到收敛缓慢的问题,存在随机噪声和测量误差,因此,提出一种基于深度强化学习的无线电传输方法,以提高无线电传输系统的整体性能显得尤为重要。


技术实现要素:

4.本发明所要解决的技术问题在于,提供一种基于深度强化学习的无线电传输方法及装置,能够有利于为每个用户做出最优的信道接入和功率分配策略,不仅保证了次用户传输的公平性,更提高了传输系统的整体稳定性和传输速率。
5.为了解决上述技术问题,本发明第一方面公开了一种基于深度强化学习的无线电传输方法,所述方法包括:
6.建立信道选择与功率分配的联合优化模型,并初始化所述联合优化模型的回合训练次数、记忆池、深度神经网络以及所述深度神经网络的参数集合,所述参数集合包括所述深度神经网络的初始网络参数;
7.针对当次回合训练所述联合优化模型,初始化所述信道选择对应的第一智能体的状态;
8.根据贪婪策略确定所述第一智能体的动作,根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态,并根据所述贪婪策略确定所述第二智能体的动作;
9.将所述第一智能体的动作和所述第二智能体的动作输入到所述深度神经网络中进行分析,并获取所述深度神经网络返回的回报内容;
10.更新所述智能体的状态,并根据所述智能体的状态、所述智能体的动作、所述回报内容以及所述智能体更新后的状态生成状态转移,将所述状态转移存储到所述记忆池中;
11.从所述记忆池中随机采样预设数量的数据集合,并根据所述数据集合计算损失函数,根据所述损失函数和反向传播算法更新所述深度神经网络的初始网络参数,得到当次神经网络参数;
12.将所述当次神经网络参数确定为下一次训练所述联合优化模型时所述深度神经网络的初始网络参数,并继续对所述联合优化模型执行训练操作,直至所述联合优化模型的训练次数达到所述回合训练次数,并确定最后一次训练得到的所述联合优化模型为目标联合优化模型;
13.通过所述目标联合优化模型进行信道和功率的选择。
14.作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
15.根据软更新方式,更新所述当次神经网络参数,得到当次最优网络参数;
16.将所述当次最优网络参数确定为下一次训练所述联合优化模型时所述深度神经网络的初始网络参数,并执行所述的继续对所述联合优化模型执行训练操作,直至所述联合优化模型的训练次数达到所述回合训练次数,并确定最后一次训练得到的所述联合优化模型为目标联合优化模型的操作。
17.作为一种可选的实施方式,在本发明第一方面中,所述信道选择对应的第一智能体的状态的初始化公式为:
[0018][0019]
其中,表示第t个时隙所述信道选择对应的第一智能体初始化后的状态,w
t
表示第t个时隙的信道占用情况,表示第t个时隙次用户到认知基站的信道增益,表示第t个时隙所述次用户到主基站的信道增益,表示第t个隙时主用户到所述认知基站的信道增益,当t=0时,代表第一次对所述信道选择对应的第一智能体的状态进行初始化,每个时隙开始时都对所述信道选择对应的第一智能体的状态进行初始化且每个时隙初始化后的所述第一智能体的状态用于当次所述联合优化模型的训练。
[0020]
作为一种可选的实施方式,在本发明第一方面中,所述参数集合还包括贪婪策略的阈值;
[0021]
所述根据贪婪策略确定所述第一智能体的动作,包括:
[0022]
将所述第一智能体的状态输入到所述深度神经网络中,得到所述深度神经网络的第一返回值;
[0023]
随机生成第一概率,当所述第一概率小于或等于所述贪婪策略的阈值时,随机选择所述第一智能体的动作,当所述第一概率大于所述贪婪策略的阈值时时,根据第一动作选择公式,选择所述第一智能体的动作;
[0024]
所述根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态,并根据贪婪策略确定所述第二智能体的动作,包括:
[0025]
根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态;
[0026]
将所述第二智能体的状态输入到所述深度神经网络中,得到所述深度神经网络的第二返回值;
[0027]
随机生成第二概率,当所述第二概率小于或等于所述贪婪策略的阈值时,随机选择所述第二智能体的动作,当所述第二概率大于所述贪婪策略的阈值时时,根据第二动作选择公式,选择所述第二智能体的动作。
[0028]
作为一种可选的实施方式,在本发明第一方面中,所述第一动作选择公式为:
[0029][0030]
公式中,表示第t个时隙所述第一智能体的动作,表示第t个时隙所述第一智能体的动作集合,qr表示所述第一返回值,表示第t个时隙所述第一智能体的状态,θ表示与所述第一智能体对应的所述深度神经网络的初始网络参数;
[0031]
所述第二动作选择公式为:
[0032][0033]
公式中,表示第t个时隙所述第二智能体的动作,表示第t个时隙所述第二智能体的动作集合,q
p
表示所述第二返回值,表示第t个时隙所述第二智能体的状态,表示与所述第二智能体对应的所述深度神经网络的初始网络参数。
[0034]
作为一种可选的实施方式,在本发明第一方面中,所述回报内容的计算公式为:
[0035][0036]
其中,表示在第t个时隙第n个次用户对信道m的接入情况,表示在第t个时隙第n个次用户在信道m上的信道干燥比,表示第t个时隙的线性公平指数,表示第n个次用户在第t个时隙的可到速率,表示第n个次用户在第t个时隙的发射功率,表示第t个时隙次用户到主基站的信道增益,i
th
为干扰门限。
[0037]
作为一种可选的实施方式,在本发明第一方面中,所述更新所述智能体的状态,并根据所述智能体的状态、所述智能体的动作、所述回报内容以及所述智能体更新后的状态生成状态转移,将所述状态转移存储到所述记忆池中,包括:
[0038]
更新所述第一智能体的状态和所述第二智能体的状态;
[0039]
根据所述第一智能体的状态、所述第一智能体的动作、所述回报内容和更新后的所述第一智能体的状态生成第一状态转移,并将所述第一状态转移存储到所述信道选择对应的第一记忆池;
[0040]
根据所述第二智能体的状态、所述第二智能体的动作、所述回报内容和更新后的所述第二智能体的状态生成第二状态转移,当时隙大于等于预设时隙阈值时,将所述第二状态转移存储到所述功率分配对应的第二记忆池。
[0041]
作为一种可选的实施方式,在本发明第一方面中,所述从所述记忆池中随机采样预设数量的数据集合,包括:
[0042]
从所述第一记忆池中,随机采样与所述第一智能体对应的第一数据集合,从所述第二记忆池中,随机采样与所述第二智能体对应的第二数据集合;
[0043]
所述根据所述数据集合计算损失函数,包括:
[0044]
根据所述第一数据集合计算所述第一智能体对应的第一损失函数,根据所述第二数据集合计算所述第二智能体对应的第二损失函数。
[0045]
作为一种可选的实施方式,在本发明第一方面中,所述参数集合还包括所述深度神经网络的学习速率;
[0046]
所述第一损失函数的计算公式为:
[0047][0048]
所述第二算是函数的计算公式为:
[0049][0050]
所述反向传播算法的公式为:
[0051][0052]
其中,表示所述第一数据集合,表示所述第一数据集合中的样本数目,表示所述第二数据集合,表示所述第二数据集合中的样本数目,表示所述深度神经网络输出的与所述第一数据集合中第j个样本对应的第一输出值,表示所述深度神经网络输出的与所述第二数据集合中第j个样本对应的第二输出值,qr(sj,aj|θ)和分别表示所述第一智能体和所述第二智能体在状态sj下采取动作aj所得到的期望累积折扣收益,j表示所述第一样本集合和所述第二样本集合中的第j个样本,sj表示第j个样本的状态,aj表示第j个样本的动作,θ

表示与所述第一智能体对应的所述当次神经网络参数,θ表示与所述第一智能体对应的所述初始网络参数,表示与所述第二智能体对应的所述当次神经网络参数,表示与所述第二智能体对应的所述初始网络参数,lrr表示所述第一智能体对应的学习速率,lr
p
表示所述第二智能体对应的学习速率。
[0053]
作为一种可选的实施方式,在本发明第一方面中,
[0054]
本发明第二方面公开了一种基于深度强化学习的无线电传输装置,所述装置包括:
[0055]
初始化模块,用于建立信道选择与功率分配的联合优化模型,并初始化所述联合优化模型的回合训练次数、记忆池、深度神经网络以及所述深度神经网络的参数集合,所述参数集合包括所述深度神经网络的初始网络参数;
[0056]
所述初始化模块,还用于针对当次回合训练所述联合优化模型,初始化所述信道选择对应的第一智能体的状态;
[0057]
第一确定模块,用于根据贪婪策略确定所述第一智能体的动作,根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态,并根据所述贪婪策略确定所述第二智能体的动作;
[0058]
输入模块,用于将所述第一智能体的动作和所述第二智能体的动作输入到所述深度神经网络中进行分析,并获取所述深度神经网络返回的回报内容;
[0059]
更新模块,用于更新所述智能体的状态,并根据所述智能体的状态、所述智能体的动作、所述回报内容以及所述智能体更新后的状态生成状态转移,将所述状态转移存储到所述记忆池中;
[0060]
采样模块,用于从所述记忆池中随机采样预设数量的数据集合,并根据所述数据集合计算损失函数,根据所述损失函数和反向传播算法更新所述深度神经网络的初始网络参数,得到当次神经网络参数;
[0061]
所述第一确定模块,还用于将所述当次神经网络参数确定为下一次训练所述联合优化模型时所述深度神经网络的初始网络参数,并继续对所述联合优化模型执行训练操作,直至所述联合优化模型的训练次数达到所述回合训练次数,并确定最后一次训练得到的所述联合优化模型为目标联合优化模型;
[0062]
选择模块,用于通过所述目标联合优化模型进行信道和功率的选择。
[0063]
作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
[0064]
所述更新模块,还用于根据软更新方式,更新所述当次神经网络参数,得到当次最优网络参数;
[0065]
第二确定模块,用于将所述当次最优网络参数确定为下一次训练所述联合优化模型时所述深度神经网络的初始网络参数,并触发所述第一确定模块执行所述的继续对所述联合优化模型执行训练操作,直至所述联合优化模型的训练次数达到所述回合训练次数,并确定最后一次训练得到的所述联合优化模型为目标联合优化模型的操作。
[0066]
作为一种可选的实施方式,在本发明第二方面中,所述信道选择对应的第一智能体的状态的初始化公式为:
[0067][0068]
其中,表示第t个时隙所述信道选择对应的第一智能体初始化后的状态,w
t
表示第t个时隙的信道占用情况,表示第t个时隙次用户到认知基站的信道增益,表示第t个时隙所述次用户到主基站的信道增益,表示第t个隙时主用户到所述认知基站的信道增益,当t=0时,代表第一次对所述信道选择对应的第一智能体的状态进行初始化,每个时隙开始时都对所述信道选择对应的第一智能体的状态进行初始化且每个时隙初始化后的所述第一智能体的状态用于当次所述联合优化模型的训练。
[0069]
作为一种可选的实施方式,在本发明第二方面中,所述参数集合还包括贪婪策略的阈值;
[0070]
所述第一确定模块根据贪婪策略确定所述第一智能体的动作的具体实施方式为:
[0071]
将所述第一智能体的状态输入到所述深度神经网络中,得到所述深度神经网络的第一返回值;
[0072]
随机生成第一概率,当所述第一概率小于或等于所述贪婪策略的阈值时,随机选择所述第一智能体的动作,当所述第一概率大于所述贪婪策略的阈值时时,根据第一动作选择公式,选择所述第一智能体的动作;
[0073]
所述第一确定模块根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态,并根据贪婪策略确定所述第二智能体的动作的具体实施方式为:
[0074]
根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态;
[0075]
将所述第二智能体的状态输入到所述深度神经网络中,得到所述深度神经网络的第二返回值;
[0076]
随机生成第二概率,当所述第二概率小于或等于所述贪婪策略的阈值时,随机选择所述第二智能体的动作,当所述第二概率大于所述贪婪策略的阈值时时,根据第二动作选择公式,选择所述第二智能体的动作。
[0077]
作为一种可选的实施方式,在本发明第二方面中,所述第一动作选择公式为:
[0078][0079]
公式中,表示第t个时隙所述第一智能体的动作,表示第t个时隙所述第一智能体的动作集合,qr表示所述第一返回值,表示第t个时隙所述第一智能体的状态,θ表示与所述第一智能体对应的所述深度神经网络的初始网络参数;
[0080]
所述第二动作选择公式为:
[0081][0082]
公式中,表示第t个时隙所述第二智能体的动作,表示第t个时隙所述第二智能体的动作集合,q
p
表示所述第二返回值,表示第t个时隙所述第二智能体的状态,表示与所述第二智能体对应的所述深度神经网络的初始网络参数。
[0083]
作为一种可选的实施方式,在本发明第二方面中,所述回报内容的计算公式为:
[0084][0085]
其中,表示在第t个时隙第n个次用户对信道m的接入情况,表示在第t个时隙第n个次用户在信道m上的信道干燥比,表示第t个时隙的线性公平指数,表示第n个次用户在第t个时隙的可到速率,表示第n个次用户在第t个时隙的发射功率,表示第t个时隙次用户到主基站的信道增益,i
th
为干扰门限。
[0086]
作为一种可选的实施方式,在本发明第二方面中,所述更新模块更新所述智能体的状态,并根据所述智能体的状态、所述智能体的动作、所述回报内容以及所述智能体更新后的状态生成状态转移,将所述状态转移存储到所述记忆池中的具体实施方式为:
[0087]
更新所述第一智能体的状态和所述第二智能体的状态;
[0088]
根据所述第一智能体的状态、所述第一智能体的动作、所述回报内容和更新后的所述第一智能体的状态生成第一状态转移,并将所述第一状态转移存储到所述信道选择对应的第一记忆池;
[0089]
根据所述第二智能体的状态、所述第二智能体的动作、所述回报内容和更新后的
所述第二智能体的状态生成第二状态转移,当时隙大于等于预设时隙阈值时,将所述第二状态转移存储到所述功率分配对应的第二记忆池。
[0090]
作为一种可选的实施方式,在本发明第二方面中,所述采样模块从所述记忆池中随机采样预设数量的数据集合的具体实施方式为:
[0091]
从所述第一记忆池中,随机采样与所述第一智能体对应的第一数据集合,从所述第二记忆池中,随机采样与所述第二智能体对应的第二数据集合;
[0092]
所述采样模块根据所述数据集合计算损失函数的具体实施方式为:
[0093]
根据所述第一数据集合计算所述第一智能体对应的第一损失函数,根据所述第二数据集合计算所述第二智能体对应的第二损失函数。
[0094]
作为一种可选的实施方式,在本发明第二方面中,所述参数集合还包括所述深度神经网络的学习速率;
[0095]
所述第一损失函数的计算公式为:
[0096][0097]
所述第二算是函数的计算公式为:
[0098][0099]
所述反向传播算法的公式为:
[0100][0101]
其中,表示所述第一数据集合,表示所述第一数据集合中的样本数目,表示所述第二数据集合,表示所述第二数据集合中的样本数目,表示所述深度神经网络输出的与所述第一数据集合中第j个样本对应的第一输出值,表示所述深度神经网络输出的与所述第二数据集合中第j个样本对应的第二输出值,qr(sj,aj|θ)和分别表示所述第一智能体和所述第二智能体在状态sj下采取动作aj所得到的期望累积折扣收益,j表示所述第一样本集合和所述第二样本集合中的第j个样本,sj表示第j个样本的状态,aj表示第j个样本的动作,θ

表示与所述第一智能体对应的所述当次神经网络参数,θ表示与所述第一智能体对应的所述初始网络参数,表示与所述第二智能体对应的所述当次神经网络参数,表示与所述第二智能体对应的所述初始网络参数,lrr表示所述第一智能体对应的学习速率,lr
p
表示所述第二智能体对应的学习速率。
[0102]
本发明第三方面公开了另一种基于深度强化学习的无线电传输装置,所述装置包括:
[0103]
存储有可执行程序代码的存储器;
[0104]
与所述存储器耦合的处理器;
[0105]
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于深度强化学习的无线电传输方法。
[0106]
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于深度强化学习的无线电传输方法。
[0107]
与现有技术相比,本发明实施例具有以下有益效果:
[0108]
本发明实施例中,够对建立的信道选择与功率分配的联合优化模型中的神经网络参数进行优化训练,通过贪婪策略选择智能体的动作,通过对存储到记忆池的状态转移进行损失函数的计算,以及通过反向传播算法和软更新方式得到最优网络参数,进而通过最优网络参数对信道选择与功率分配的联合优化模型进行优化迭代,然后通过联合优化模型进行信道和功率的选择。可见,实施本发明能够为每个用户做出最优的信道接入和功率分配策略,不仅保证了次用户传输的公平性,更提高了传输系统的整体稳定性和传输速率。
附图说明
[0109]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0110]
图1是本发明实施例公开的一种基于深度强化学习的无线电传输方法的流程示意图;
[0111]
图2是本发明实施例公开的另一种基于深度强化学习的无线电传输方法的流程示意图;
[0112]
图3是本发明实施例公开的一种基于深度强化学习的无线电传输装置的结构示意图;
[0113]
图4是本发明实施例公开的另一种基于深度强化学习的无线电传输装置的结构示意图;
[0114]
图5是本发明实施例公开的又一种基于深度强化学习的无线电传输装置的结构示意图;
[0115]
图6是本发明实施例公开的一种认知无线电系统模型示意图;
[0116]
图7是本发明实施例公开的一种在信道选择与功率分配联合优化模型下不同策略对平均效用函数值r的影响的示意图;
[0117]
图8是本发明实施例公开的一种在信道选择与功率分配联合优化模型下pu处的干扰门限i
th
对平均效用函数值r的影响示意图。
具体实施方式
[0118]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0119]
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图
在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
[0120]
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0121]
本发明公开了一种基于深度强化学习的无线电传输方法及装置,能够对建立的信道选择与功率分配的联合优化模型中的神经网络参数进行优化训练,进而通过最优网络参数对信道选择与功率分配的联合优化模型进行优化迭代,然后通过联合优化模型进行信道和功率的选择,有利于为每个用户做出最优的信道接入和功率分配策略,不仅保证了次用户传输的公平性,更提高了传输系统的整体稳定性和传输速率。
[0122]
为了更好的理解本发明所描述的基于深度强化学习的无线电传输方法及装置,首先对基于深度强化学习的无线电传输方法和装置所适用的认知无线电系统模型进行描述,具体的,该认知无线电系统模型可以如图6所示,图6为本发明实施例的一种认知无线电系统模型示意图。如图6所示,该认知无线电系统模型为多用户认知无线电模型,包括两个部分:第一部分是m个主用户(pu)与1个主机站(pbs)组成的主网络(pun),其中,pu-m,m=1,...,m,表示第m个主用户;第二部分是由1个认知基站(cbs)和n个次用户(su)组成的认知无线电网络(crn),其中,su-n,n=1,...,n,表示第n个次用户。本模型中,pun覆盖m个正交信道,且每个pu对应一个正交信道,crn网络位于pun的覆盖区域内,并和pun以同步的时隙方式运行。
[0123]
如图6所示,该认知无线电系统模型中,su通过underlay模式接入许可信道,同时一个su在每个时隙期间仅可访问一个信道以完成其数据传输,当su访问被pu占用的信道时,需限制su的发射功率以使su对pu的干扰保持在干扰容限i
th
内,cbs在每个时隙开始阶段进行频谱感知来获得瞬时信道状态信息(csi),并根据信道状态信息确定各个su的接入信道和发射功率,然后将决策通过特定的控制信道广播给所有su。
[0124]
需要说明的是,图6所示的认知无线电系统模型只是为了表示基于深度强化学习的无线电传输方法所适用的认知无线电系统模型,涉及到的主用户(pu)、主机站(pbs)、次用户(su)、认知基站(cbs)等也只是示意性的,图6所示的认知无线电系统模型对此不做限定。且以上对基于深度强化学习的无线电传输方法所适用的认知无线电系统模型做了描述,下面对基于深度强化学习的无线电传输方法及装置进行详细说明。
[0125]
实施例一
[0126]
请参阅图1,图1是本发明实施例公开的一种基于深度强化学习的无线电传输方法的流程示意图。其中,图1所描述的基于深度强化学习的无线电传输方法可以应用于无线电传输系统中,如认知无线电系统,本发明实施例不做限定。
[0127]
如图1所示,该基于深度强化学习的无线电传输方法可以包括以下操作:
[0128]
101、建立信道选择与功率分配的联合优化模型,并初始化联合优化模型的回合训练次数、记忆池、深度神经网络以及深度神经网络的参数集合,参数集合包括深度神经网络的初始网络参数。
[0129]
本发明实施例中,可选的,回合训练次数可以表示为n,信道选择对应的记忆池可以表示为dr,功率分配对应的记忆池可以表示为d
p
,深度神经网络表示可以表示为q网络,参数集合可以包括深度神经网络的初始网络参数,其中信道选择对应的初始网络参数可以表示为θ,功率分配对应的初始网络参数可以表示为可选的,参数集合还可以包括折扣因子、学习速率、贪婪策略的阈值和/或软替代系数,其中,信道选择和功率分配对应的折扣因子可以分别表示为γr和γ
p
,信道选择和功率分配对应的学习速率可以分别表示为lrr和lr
p
,贪婪策略的阈值可以表示为ε,信道选择和功率分配对应的软替代系数可以分别表示为νr和ν
p
,本实施例不做限定。
[0130]
102、针对当次回合训练联合优化模型,初始化信道选择对应的第一智能体的状态。
[0131]
本发明实施例中,可选的,信道选择对应的第一智能体的状态可以表示为其中,表示第t个时隙的信道占用情况,表示第t个时隙次用户到认知基站的信道增益,表示第t个时隙次用户到主用户基站的信道增益,表示第t个时隙主用户到认知基站的信道增益,本实施例不做限定。
[0132]
103、根据贪婪策略确定第一智能体的动作,根据第一智能体的动作和第一智能体的状态确定功率分配对应的第二智能体的状态,并根据贪婪策略确定第二智能体的动作。
[0133]
本发明实施例中,可选的,第一智能体的动作可以表示为第二智能体的状态可以表示为第二智能体的动作可以表示为
[0134]
104、将第一智能体的动作和第二智能体的动作输入到深度神经网络中进行分析,并获取深度神经网络返回的回报内容。
[0135]
本发明实施例中,可选的,深度神经网络返回的回报内容可以表示为r
t

[0136]
105、更新智能体的状态,并根据智能体的状态、智能体的动作、回报内容以及智能体更新后的状态生成状态转移,将状态转移存储到记忆池中。
[0137]
本发明实施例中,可选的,更新智能体的状态可以包括将第一智能体的状态从状态更新为将第二智能体的状态从状态更新为状态转移可以包括第一智能体对应的状态转移和第二智能体对应的状态转移将状态转移存储到记忆池中包括将第一智能体对应的状态转移存储到记忆池dr以及将第二智能体对应的状态转移存储到记忆池d
p

[0138]
106、从记忆池中随机采样预设数量的数据集合,并根据数据集合计算损失函数,根据损失函数和反向传播算法更新深度神经网络的初始网络参数,得到当次神经网络参数。
[0139]
本发明实施例中,可选的,从记忆池中随机采样预设数量的数据集合包括第一智能体对应的数据集合以及第二智能体对应的数据集合第一智能体对应的损失函数
公式为第二智能体对应的损失函数公式为第一智能体对应的反向传播算法的公式为第二智能体对应的反向传播算法的公式为
[0140]
107、将当次神经网络参数确定为下一次训练联合优化模型时深度神经网络的初始网络参数,并继续对联合优化模型执行训练操作,直至联合优化模型的训练次数达到回合训练次数,并确定最后一次训练得到的联合优化模型为目标联合优化模型。
[0141]
108、通过目标联合优化模型进行信道和功率的选择。
[0142]
可见,实施本发明实施例所描述的基于深度强化学习的无线电传输方法能够对建立的信道选择与功率分配的联合优化模型中的神经网络参数进行优化训练,通过贪婪策略选择智能体的动作,通过对存储到记忆池的状态转移进行损失函数的计算,以及通过反向传播算法和软更新方式得到最优网络参数,提高了确定出的最优网络参数的准确性和可靠性,进而通过最优网络参数对信道选择与功率分配的联合优化模型进行优化迭代,然后通过联合优化模型进行信道和功率的选择,有利于为每个用户做出最优的信道接入和功率分配策略,不仅保证了次用户传输的公平性,更提高了传输系统的整体稳定性和传输速率。
[0143]
在一个可选的实施例中,参数集合还包括贪婪策略的阈值;
[0144]
根据贪婪策略确定第一智能体的动作可以包括以下操作:
[0145]
将第一智能体的状态输入到深度神经网络中,得到深度神经网络的第一返回值;
[0146]
随机生成第一概率,当第一概率小于或等于贪婪策略的阈值时,随机选择第一智能体的动作,当第一概率大于贪婪策略的阈值时时,根据第一动作选择公式,选择第一智能体的动作;
[0147]
根据第一智能体的动作和第一智能体的状态确定功率分配对应的第二智能体的状态,并根据贪婪策略确定第二智能体的动作可以包括以下操作:
[0148]
根据第一智能体的动作和第一智能体的状态确定功率分配对应的第二智能体的状态;
[0149]
将第二智能体的状态输入到深度神经网络中,得到深度神经网络的第二返回值;
[0150]
随机生成第二概率,当第二概率小于或等于贪婪策略的阈值时,随机选择第二智能体的动作,当第二概率大于贪婪策略的阈值时时,根据第二动作选择公式,选择第二智能体的动作。
[0151]
该可选的实施例中,深度神经网络的第一返回值可以表示为qr,深度神经网络的第一返回值可以表示为q
p
,第一概率可以表示为p,第一动作选择公式可以表示为第二概率可以表示为q,第二动作选择公式可以表示为
[0152]
可见,实施该可选的实施例能够将第一智能体的状态输入到深度神经网络中,得到深度神经网络的第一返回值,并根据随机生成的第一概率,依据贪婪策略以及第一动作
选择公式选择第一智能体的动作,能够根据第一智能体的动作和第一智能体的状态确定功率分配对应的第二智能体的状态,将第二智能体的状态输入到深度神经网络中,得到深度神经网络的第二返回值,并根据随机生成的第二概率,依据贪婪策略以及第二动作选择公式选择第二智能体的动作,有效提高了确定出的智能体的状态的可靠性和稳定性,根据第一动作选择公式和第二动作选择公式确定智能体的动作,能够提高选择智能体动作的精准性和可量化行,进一步保证了对联合优化模型进行优化训练的精准性和可靠性。
[0153]
实施例二
[0154]
请参阅图2,图2是本发明实施例公开的另一种基于深度强化学习的无线电传输方法的流程示意图。其中,图2所描述的基于深度强化学习的无线电传输方法可以应用于无线电传输系统中,如认知无线电系统,本发明实施例不做限定。如图2所示,该基于深度强化学习的无线电传输方法可以包括以下操作:
[0155]
201、建立信道选择与功率分配的联合优化模型,并初始化联合优化模型的回合训练次数、记忆池、深度神经网络以及深度神经网络的参数集合,参数集合包括深度神经网络的初始网络参数。
[0156]
202、针对当次回合训练联合优化模型,初始化信道选择对应的第一智能体的状态。
[0157]
203、根据贪婪策略确定第一智能体的动作,根据第一智能体的动作和第一智能体的状态确定功率分配对应的第二智能体的状态,并根据贪婪策略确定第二智能体的动作。
[0158]
204、将第一智能体的动作和第二智能体的动作输入到深度神经网络中进行分析,并获取深度神经网络返回的回报内容。
[0159]
205、更新智能体的状态,并根据智能体的状态、智能体的动作、回报内容以及智能体更新后的状态生成状态转移,将状态转移存储到记忆池中。
[0160]
206、从记忆池中随机采样预设数量的数据集合,并根据数据集合计算损失函数,根据损失函数和反向传播算法更新深度神经网络的初始网络参数,得到当次神经网络参数。
[0161]
207、根据软更新方式,更新当次神经网络参数,得到当次最优网络参数。
[0162]
本发明实施例中,可选的,信道选择对应的软更新公式可以表示为θ
′←
(1-νr)θ

+νrθ,功率分配对应的软更新公式可以表示为其中,νr和ν
p
分别表示信道选择和功率分配对应的软替代系数,
[0163]
208、将当次最优网络参数确定为下一次训练联合优化模型时深度神经网络的初始网络参数,继续对联合优化模型执行训练操作,直至联合优化模型的训练次数达到回合训练次数,并确定最后一次训练得到的联合优化模型为目标联合优化模型的操作。
[0164]
209、通过目标联合优化模型进行信道和功率的选择。
[0165]
本发明实施例中,针对步骤201-步骤206和步骤209的其他描述,请参照实施例一中针对步骤101-步骤106和步骤108的详细描述,本发明实施例不再赘述。
[0166]
可见,实施本发明实施例所描述的基于深度强化学习的无线电传输方法能够对建立的信道选择与功率分配的联合优化模型中的神经网络参数进行优化训练,通过贪婪策略选择智能体的动作,通过对存储到记忆池的状态转移进行损失函数的计算,以及通过反向传播算法和软更新方式得到最优网络参数,提高了确定出的最优网络参数的准确性和可靠
性,并将最优网络参数确定为下一次训练联合优化模型时深度神经网络的初始网络参数,继续对联合优化模型执行训练操作,进而通过最优网络参数对信道选择与功率分配的联合优化模型进行优化迭代,保证了联合优化模型每次优化操作的精准性和可靠性,然后通过联合优化模型进行信道和功率的选择,有利于为每个用户做出最优的信道接入和功率分配策略,不仅保证了次用户传输的公平性,更提高了传输系统的整体稳定性和传输速率。
[0167]
在一个可选的实施例中,信道选择对应的第一智能体的状态的初始化公式为:
[0168][0169]
其中,表示第t个时隙信道选择对应的第一智能体初始化后的状态,w
t
表示第t个时隙的信道占用情况,表示第t个时隙次用户到认知基站的信道增益,表示第t个时隙次用户到主基站的信道增益,表示第t个隙时主用户到认知基站的信道增益,当t=0时,代表第一次对信道选择对应的第一智能体的状态进行初始化,每个时隙开始时都对信道选择对应的第一智能体的状态进行初始化且每个时隙初始化后的第一智能体的状态用于当次联合优化模型的训练。
[0170]
该可选的实施例中,可选的,在每个回合开始时,第一智能体对应的初始化状态可以表示为其中,w0表示当前时隙的信道占用情况,和表示各链路的信道增益。
[0171]
可见,实施该可选的实施例能够对初始化的信道选择对应的第一智能体的状态进行公式表述,提高了后续确定第一智能体的动作和第二智能体的动作的精准性和可靠性。
[0172]
在另一个可选的实施例中,第一动作选择公式为:
[0173][0174]
公式中,表示第t个时隙第一智能体的动作,表示第t个时隙第一智能体的动作集合,qr表示第一返回值,表示第t个时隙第一智能体的状态,θ表示与第一智能体对应的深度神经网络的初始网络参数;
[0175]
第二动作选择公式为:
[0176][0177]
公式中,表示第t个时隙第二智能体的动作,表示第t个时隙第二智能体的动作集合,q
p
表示第二返回值,表示第t个时隙第二智能体的状态,表示与第二智能体对应的深度神经网络的初始网络参数。
[0178]
该可选的实施例中,可选的,在每个回合的第t步,信道选择对应的第一智能体首先根据ε贪婪策略选择动作并将和同时作为功率分配对应的第二智能体的状态输入,再根据ε贪婪策略选择动作
[0179]
可见,实施该可选的实施例能够根据贪婪策略选择智能体的动作,提高了确定出的智能体的动作的准确性和可靠性,进而提升了后续将智能体的动作输入到认知无线环境
中,生成回报的准确性。
[0180]
在又一个可选的实施例中回报内容的计算公式为:
[0181][0182]
其中,表示在第t个时隙第n个次用户对信道m的接入情况,表示在第t个时隙第n个次用户在信道m上的信道干燥比,表示第t个时隙的线性公平指数,表示第n个次用户在第t个时隙的可到速率,表示第n个次用户在第t个时隙的发射功率,表示第t个时隙次用户到主基站的信道增益,i
th
为干扰门限。
[0183]
该可选的实施例中,对于信道模型,考虑了大尺度路径损耗衰减和小尺度锐利衰落,假设信道遵循准静态衰落,并且一个块衰落与单个时隙重合,第t个时隙信道增益可以表示为:
[0184][0185]
其中,表示第t个时隙的锐利衰落信道增益,表示大尺度路径损耗分量,d
xy
表示x和y之间的距离,d0表示参考距离,α表示路径损耗指数;x和y分别表示发射机和接收机,xy表示x和y之间的信道链路,因此,表示第t个时隙次用户到认知基站的信道增益,表示第t个时隙次用户到主用户基站的信道增益,表示第t个时隙主用户到认知基站的信道增益。
[0186]
该可选的实施例中,表示su-n在第t个时隙上选择接入的信道,表示su-n在第t个时隙上选择的发射功率,其中,p
max
为su的最大发射功率,因此,第t个时隙所有su的信道接入策略集合表示为功率分配策略集合表示为
[0187]
该可选的实施例中,空闲信道的数量被认定为是随时间变化的,定义一个指示函数来表示当前时隙的信道占用情况:
[0188][0189]
则表示第t个时隙的信道占用情况;定义一个指示函数a
m,n
t来表示第t个时隙下su-n对信道m的接入情况:
[0190][0191]
在第t个时隙,su-n在信道m上的信道干燥比(sinr)表示为:
[0192][0193]
第t个时隙上su-n的可到速率为:
[0194][0195]
引入线性公平指数ρ,第t个时隙上系统的公平指数计算公式为:
[0196][0197]
若一个或多个su的速度为零,则ρ=0表示系统不公平,而ρ=1表示系统中每个su的速率完全相同,因此,ρ越接近1,系统公平性越好。
[0198]
该可选的实施例中,系统的和速率计算公式为:
[0199][0200]
定义效用函数r=λρ,则第t个时隙下的效用函数为:
[0201][0202]
该可选的实施例中,如图7所示,图7是本发明实施例公开的一种在信道选择与功率分配联合优化模型下不同策略对平均效用函数值r的影响的示意图,如图7所示,使用提出的联合优化模型的平均效用函数值r随着训练回合数的增加而增大,并且在第100回合逐渐收敛,与近视贪婪策略和随机选择策略相比,联合优化算法的平均效用函数值r得到了大幅的提升;如图8所示,图8是本发明实施例公开的一种在信道选择与功率分配联合优化模型下pu处的干扰门限i
th
对平均效用函数值r的影响示意图,如图8所示,随着i
t

增大,su则可以更大的发射功率进行数据传输,因此su的和速率会逐渐增大,从而使系统的平均效用函数值r增大。
[0203]
可见,实施该可选的实施例能够结合信道占用情况、信道接入情况、信道干燥比、线性公平指数以及和速度计算公式来计算回报内容,确定出的回报内容的准确性和可靠性,同时保证了联合优化模型的公平性,也保证了联合优化模型中信道传输的速率。
[0204]
在又一个可选的实施例中,更新智能体的状态,并根据智能体的状态、智能体的动作、回报内容以及智能体更新后的状态生成状态转移,将状态转移存储到记忆池中可以包括以下操作:
[0205]
更新第一智能体的状态和第二智能体的状态;
[0206]
根据第一智能体的状态、第一智能体的动作、回报内容和更新后的第一智能体的状态生成第一状态转移,并将第一状态转移存储到信道选择对应的第一记忆池;
[0207]
根据第二智能体的状态、第二智能体的动作、回报内容和更新后的第二智能体的状态生成第二状态转移,当时隙大于等于预设时隙阈值时,将第二状态转移存储到功率分
配对应的第二记忆池。
[0208]
该可选的实施例中,更新第一智能体的状态为更新第二智能体的状态为第一智能体对应的第一状态转移可以表示为第一记忆池可以表示为dr,第二智能体对应的第二状态转移可以表示为第二记忆池可以表示为d
p

[0209]
可见,实施该可选的实施例能够将更新后的第一智能体和第二智能体分别对应的状态转移存储到对应的记忆池中,提高了确定出的状态转移的精准性和可靠性,进而保证了后续从记忆池中提取出的样本的可靠性。
[0210]
在又一个可选的实施例中,从记忆池中随机采样预设数量的数据集合可以包括以下操作:
[0211]
从第一记忆池中,随机采样与第一智能体对应的第一数据集合,从第二记忆池中,随机采样与第二智能体对应的第二数据集合;
[0212]
根据数据集合计算损失函数,包括:
[0213]
根据第一数据集合计算第一智能体对应的第一损失函数,根据第二数据集合计算第二智能体对应的第二损失函数。
[0214]
该可选的实施例中,可以选的,采样方式可以为随机采样,也可以为系统采样,还可以为根据预设条件进行采样,本实施例不做限定。第一数据集合可以表示为第二数据集合可以表示为和分别表示第一数据集合和第二数据集合中的样本数量,表示深度神经网络输出的与第一数据集合中第j个样本对应的第一输出值,表示深度神经网络输出的与第二数据集合中第j个样本对应的第二输出值,qr(sj,aj|θ)和分别表示第一智能体和第二智能体在状态sj下采取动作aj所得到的期望累积折扣收益,j表示第一样本集合和第二样本集合中的第j个样本,sj表示第j个样本的状态,aj表示第j个样本的动作,θ

表示与第一智能体对应的当次神经网络参数,θ表示与第一智能体对应的初始网络参数,表示与第二智能体对应的当次神经网络参数,表示与第二智能体对应的初始网络参数,lrr表示第一智能体对应的学习速率,lr
p
表示第二智能体对应的学习速率。
[0215]
可见,实施该可选的实施例能够从第一记忆池中,随机采样与第一智能体对应的第一数据集合,从第二记忆池中,随机采样与第二智能体对应的第二数据集合,并根据第一数据集合计算第一智能体对应的第一损失函数,根据第二数据集合计算第二智能体对应的第二损失函数,提高了确定出的损失函数的精准性和可靠性,进而保证后续对网络参数进行优化的准确性。
[0216]
在又一个可选的实施例中,参数集合还包括深度神经网络的学习速率;
[0217]
第一损失函数的计算公式为:
[0218]
[0219]
第二算是函数的计算公式为:
[0220][0221]
反向传播算法的公式为:
[0222][0223]
其中,表示第一数据集合,表示第一数据集合中的样本数目,表示第二数据集合,表示第二数据集合中的样本数目,表示深度神经网络输出的与第一数据集合中第j个样本对应的第一输出值,表示深度神经网络输出的与第二数据集合中第j个样本对应的第二输出值,qr(sj,aj|θ)和分别表示第一智能体和第二智能体在状态sj下采取动作aj所得到的期望累积折扣收益,j表示第一样本集合和第二样本集合中的第j个样本,sj表示第j个样本的状态,aj表示第j个样本的动作,θ

表示与第一智能体对应的当次神经网络参数,θ表示与第一智能体对应的初始网络参数,表示与第二智能体对应的当次神经网络参数,表示与第二智能体对应的初始网络参数,lrr表示第一智能体对应的学习速率,lr
p
表示第二智能体对应的学习速率。
[0224]
可见,实施该可选的实施例能够结合损失函数公式,根据第一数据集合计算第一智能体对应的第一损失函数,根据第二数据集合计算第二智能体对应的第二损失函数,并根据损失函数,通过反向传播算法更新网络参数,提高了确定出的损失函数和网络参数的精准性和可靠性,进而保证后续对联合优化模型进行优化的准确性。
[0225]
实施例三
[0226]
请参阅图3,图3是本发明实施例公开的一种基于深度强化学习的无线电传输装置的结构示意图。其中,图3所描述的基于深度强化学习的无线电传输装置可以应用于无线电传输系统中,如认知无线电系统,本发明实施例不做限定。
[0227]
如图3所示,该基于深度强化学习的无线电传输装置可以包括:
[0228]
初始化模块301,用于建立信道选择与功率分配的联合优化模型,并初始化联合优化模型的回合训练次数、记忆池、深度神经网络以及深度神经网络的参数集合,参数集合包括深度神经网络的初始网络参数;
[0229]
初始化模块301,还用于针对当次回合训练联合优化模型,初始化信道选择对应的第一智能体的状态;
[0230]
第一确定模块302,用于根据贪婪策略确定第一智能体的动作,根据第一智能体的动作和第一智能体的状态确定功率分配对应的第二智能体的状态,并根据贪婪策略确定第二智能体的动作;
[0231]
输入模块303,用于将第一智能体的动作和第二智能体的动作输入到深度神经网络中进行分析,并获取深度神经网络返回的回报内容;
[0232]
更新模块304,用于更新智能体的状态,并根据智能体的状态、智能体的动作、回报内容以及智能体更新后的状态生成状态转移,将状态转移存储到记忆池中;
[0233]
采集模块305,用于从记忆池中随机采样预设数量的数据集合,并根据数据集合计
算损失函数,根据损失函数和反向传播算法更新深度神经网络的初始网络参数,得到当次神经网络参数;
[0234]
第一确定模块302,还用于将当次神经网络参数确定为下一次训练联合优化模型时深度神经网络的初始网络参数,并继续对联合优化模型执行训练操作,直至联合优化模型的训练次数达到回合训练次数,并确定最后一次训练得到的联合优化模型为目标联合优化模型;
[0235]
选择模块306,用于通过目标联合优化模型进行信道和功率的选择。
[0236]
可见,实施图3所描述的基于深度强化学习的无线电传输装置能够对建立的信道选择与功率分配的联合优化模型中的神经网络参数进行优化训练,通过贪婪策略选择智能体的动作,通过对存储到记忆池的状态转移进行损失函数的计算以及通过反向传播算法和软更新方式得到最优网络参数,提高了确定出的最优网络参数的准确性和可靠性,进而通过最优网络参数对信道选择与功率分配的联合优化模型进行优化迭代,然后通过联合优化模型进行信道和功率的选择,有利于为每个用户做出最优的信道接入和功率分配策略,不仅保证了次用户传输的公平性,更提高了传输系统的整体稳定性和传输速率。
[0237]
在一个可选的实施例中,如图4所示,该基于深度强化学习的无线电传输装置还可以包括:
[0238]
更新模块304,还用于根据软更新方式,更新当次神经网络参数,得到当次最优网络参数;
[0239]
第二确定模块307,用于将当次最优网络参数确定为下一次训练联合优化模型时深度神经网络的初始网络参数,并触发第一确定模块302执行继续对联合优化模型执行训练操作,直至联合优化模型的训练次数达到回合训练次数,并确定最后一次训练得到的联合优化模型为目标联合优化模型的操作。
[0240]
可见,实施图4所描述的基于深度强化学习的无线电传输装置能够对建立的信道选择与功率分配的联合优化模型中的神经网络参数进行优化训练,通过贪婪策略选择智能体的动作,通过对存储到记忆池的状态转移进行损失函数的计算以及通过反向传播算法和软更新方式得到最优网络参数,提高了确定出的最优网络参数的准确性和可靠性,并将最优网络参数确定为下一次训练联合优化模型时深度神经网络的初始网络参数,继续对联合优化模型执行训练操作,进而通过最优网络参数对信道选择与功率分配的联合优化模型进行优化迭代,保证了联合优化模型每次优化操作的精准性和可靠性,然后通过联合优化模型进行信道和功率的选择,有利于为每个用户做出最优的信道接入和功率分配策略,不仅保证了次用户传输的公平性,更提高了传输系统的整体稳定性和传输速率。
[0241]
在另一个可选的实施例中,如图4所示,信道选择对应的第一智能体的状态的初始化公式为:
[0242][0243]
其中,表示第t个时隙信道选择对应的第一智能体初始化后的状态,w
t
表示第t个时隙的信道占用情况,表示第t个时隙次用户到认知基站的信道增益,表示第t个时隙次用户到主基站的信道增益,表示第t个隙时主用户到认知基站的信道增益,当t=0
时,代表第一次对信道选择对应的第一智能体的状态进行初始化,每个时隙开始时都对信道选择对应的第一智能体的状态进行初始化且每个时隙初始化后的第一智能体的状态用于当次联合优化模型的训练。
[0244]
可见,实施图4所描述的基于深度强化学习的无线电传输装置能够能够对初始化的信道选择对应的第一智能体的状态进行公式表述,提高了后续确定第一智能体的动作和第二智能体的动作的精准性和可靠性。
[0245]
在又一个可选的实施例中,如图4所示,参数集合还包括贪婪策略的阈值;
[0246]
第一确定模块302根据贪婪策略确定第一智能体的动作的具体方式包括:
[0247]
将第一智能体的状态输入到深度神经网络中,得到深度神经网络的第一返回值;
[0248]
随机生成第一概率,当第一概率小于或等于贪婪策略的阈值时,随机选择第一智能体的动作,当第一概率大于贪婪策略的阈值时时,根据第一动作选择公式,选择第一智能体的动作;
[0249]
第一确定模块302根据第一智能体的动作和第一智能体的状态确定功率分配对应的第二智能体的状态,并根据贪婪策略确定第二智能体的动作的具体方式包括:
[0250]
根据第一智能体的动作和第一智能体的状态确定功率分配对应的第二智能体的状态;
[0251]
将第二智能体的状态输入到深度神经网络中,得到深度神经网络的第二返回值;
[0252]
随机生成第二概率,当第二概率小于或等于贪婪策略的阈值时,随机选择第二智能体的动作,当第二概率大于贪婪策略的阈值时时,根据第二动作选择公式,选择第二智能体的动作。
[0253]
可见,实施图4所描述的基于深度强化学习的无线电传输装置能够将第一智能体的状态输入到深度神经网络中,得到深度神经网络的第一返回值,并根据随机生成的第一概率,依据贪婪策略以及第一动作选择公式选择第一智能体的动作,能够根据第一智能体的动作和第一智能体的状态确定功率分配对应的第二智能体的状态,将第二智能体的状态输入到深度神经网络中,得到深度神经网络的第二返回值,并根据随机生成的第二概率,依据贪婪策略以及第二动作选择公式选择第二智能体的动作,有效提高了确定出的智能体的状态的可靠性和稳定性,根据第一动作选择公式和第二动作选择公式确定智能体的动作,能够提高选择智能体动作的精准性和可量化行,进一步保证了对联合优化模型进行优化训练的精准性和可靠性。
[0254]
在又一个可选的实施例中,如图4所示,第一动作选择公式为:
[0255][0256]
公式中,表示第t个时隙第一智能体的动作,表示第t个时隙第一智能体的动作集合,qr表示第一返回值,表示第t个时隙第一智能体的状态,θ表示与第一智能体对应的深度神经网络的初始网络参数;
[0257]
第二动作选择公式为:
[0258]
[0259]
公式中,表示第t个时隙第二智能体的动作,表示第t个时隙第二智能体的动作集合,q
p
表示第二返回值,表示第t个时隙第二智能体的状态,表示与第二智能体对应的深度神经网络的初始网络参数。
[0260]
可见,实施图4所描述的基于深度强化学习的无线电传输装置能够根据贪婪策略选择智能体的动作,提高了确定出的智能体的动作的准确性和可靠性,进而提升了后续将智能体的动作输入到认知无线环境中,生成回报的准确性。
[0261]
在又一个可选的实施例中,如图4所示,回报内容的计算公式为:
[0262][0263]
其中,表示在第t个时隙第n个次用户对信道m的接入情况,表示在第t个时隙第n个次用户在信道m上的信道干燥比,表示第t个时隙的线性公平指数,表示第n个次用户在第t个时隙的可到速率,表示第n个次用户在第t个时隙的发射功率,表示第t个时隙次用户到主基站的信道增益,i
th
为干扰门限。
[0264]
可见,实施图4所描述的基于深度强化学习的无线电传输装置能够结合信道占用情况、信道接入情况、信道干燥比、线性公平指数以及和速度计算公式来计算回报内容,确定出的回报内容的准确性和可靠性,同时保证了联合优化模型的公平性,也保证了联合优化模型中信道传输的速率。
[0265]
在又一个可选的实施例中,如图4所示,更新模块304更新智能体的状态,并根据智能体的状态、智能体的动作、回报内容以及智能体更新后的状态生成状态转移,将状态转移存储到记忆池中的具体方式包括:
[0266]
更新第一智能体的状态和第二智能体的状态;
[0267]
根据第一智能体的状态、第一智能体的动作、回报内容和更新后的第一智能体的状态生成第一状态转移,并将第一状态转移存储到信道选择对应的第一记忆池;
[0268]
根据第二智能体的状态、第二智能体的动作、回报内容和更新后的第二智能体的状态生成第二状态转移,当时隙大于等于预设时隙阈值时,将第二状态转移存储到功率分配对应的第二记忆池。
[0269]
可见,实施图4所描述的基于深度强化学习的无线电传输装置能够更新后的第一智能体和第二智能体分别对应的状态转移存储到对应的记忆池中,提高了确定出的状态转移的精准性和可靠性,进而保证了后续从记忆池中提取出的样本的可靠性。
[0270]
在又一个可选的实施例中,如图4所示,采样模块305从记忆池中随机采样预设数量的数据集合的具体方式包括:
[0271]
从第一记忆池中,随机采样与第一智能体对应的第一数据集合,从第二记忆池中,随机采样与第二智能体对应的第二数据集合;
[0272]
采样模块305根据数据集合计算损失函数的具体方式包括:
[0273]
根据第一数据集合计算第一智能体对应的第一损失函数,根据第二数据集合计算
第二智能体对应的第二损失函数。
[0274]
可见,实施图4所描述的基于深度强化学习的无线电传输装置能够从第一记忆池中,随机采样与第一智能体对应的第一数据集合,从第二记忆池中,随机采样与第二智能体对应的第二数据集合,并根据第一数据集合计算第一智能体对应的第一损失函数,根据第二数据集合计算第二智能体对应的第二损失函数,提高了确定出的损失函数的精准性和可靠性,进而保证后续对网络参数进行优化的准确性。
[0275]
在又一个可选的实施例中,如图4所示,参数集合还包括深度神经网络的学习速率;
[0276]
第一损失函数的计算公式为:
[0277][0278]
第二算是函数的计算公式为:
[0279][0280]
反向传播算法的公式为:
[0281][0282]
其中,表示第一数据集合,表示第一数据集合中的样本数目,表示第二数据集合,表示第二数据集合中的样本数目,表示深度神经网络输出的与第一数据集合中第j个样本对应的第一输出值,表示深度神经网络输出的与第二数据集合中第j个样本对应的第二输出值,qr(sj,aj|θ)和分别表示第一智能体和第二智能体在状态sj下采取动作aj所得到的期望累积折扣收益,j表示第一样本集合和第二样本集合中的第j个样本,sj表示第j个样本的状态,aj表示第j个样本的动作,θ

表示与第一智能体对应的当次神经网络参数,θ表示与第一智能体对应的初始网络参数,表示与第二智能体对应的当次神经网络参数,表示与第二智能体对应的初始网络参数,lrr表示第一智能体对应的学习速率,lr
p
表示第二智能体对应的学习速率。
[0283]
可见,实施图4所描述的基于深度强化学习的无线电传输装置能够结合损失函数公式,根据第一数据集合计算第一智能体对应的第一损失函数,根据第二数据集合计算第二智能体对应的第二损失函数,并根据损失函数,通过反向传播算法更新网络参数,提高了确定出的损失函数和网络参数的精准性和可靠性,进而保证后续对联合优化模型进行优化的准确性。
[0284]
实施例四
[0285]
请参阅图5,图5是本发明实施例公开的又一种基于深度强化学习的无线电传输装置的结构示意图。如图5所示,该基于深度强化学习的无线电传输装置可以包括:
[0286]
存储有可执行程序代码的存储器401;
[0287]
与存储器401耦合的处理器402;
[0288]
处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一或本发明实施例二所描述的基于深度强化学习的无线电传输方法中的步骤。
[0289]
实施例五
[0290]
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或本发明实施例二所描述的基于深度强化学习的无线电传输方法中的步骤。
[0291]
实施例六
[0292]
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的基于深度强化学习的无线电传输方法中的步骤。
[0293]
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0294]
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(read-only memory,rom)、随机存储器(random access memory,ram)、可编程只读存储器(programmable read-only memory,prom)、可擦除可编程只读存储器(erasable programmable read only memory,eprom)、一次可编程只读存储器(one-time programmable read-only memory,otprom)、电子抹除式可复写只读存储器(electrically-erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
[0295]
最后应说明的是:本发明实施例公开的一种基于深度强化学习的无线电传输方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

技术特征:
1.一种基于深度强化学习的无线电传输方法,其特征在于,所述方法包括:建立信道选择与功率分配的联合优化模型,并初始化所述联合优化模型的回合训练次数、记忆池、深度神经网络以及所述深度神经网络的参数集合,所述参数集合包括所述深度神经网络的初始网络参数;针对当次回合训练所述联合优化模型,初始化所述信道选择对应的第一智能体的状态;根据贪婪策略确定所述第一智能体的动作,根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态,并根据所述贪婪策略确定所述第二智能体的动作;将所述第一智能体的动作和所述第二智能体的动作输入到所述深度神经网络中进行分析,并获取所述深度神经网络返回的回报内容;更新所述智能体的状态,并根据所述智能体的状态、所述智能体的动作、所述回报内容以及所述智能体更新后的状态生成状态转移,将所述状态转移存储到所述记忆池中;从所述记忆池中随机采样预设数量的数据集合,并根据所述数据集合计算损失函数,根据所述损失函数和反向传播算法更新所述深度神经网络的初始网络参数,得到当次神经网络参数;将所述当次神经网络参数确定为下一次训练所述联合优化模型时所述深度神经网络的初始网络参数,并继续对所述联合优化模型执行训练操作,直至所述联合优化模型的训练次数达到所述回合训练次数,并确定最后一次训练得到的所述联合优化模型为目标联合优化模型;通过所述目标联合优化模型进行信道和功率的选择。2.根据权利要求1所述的基于深度强化学习的无线电传输方法,其特征在于,所述方法还包括:根据软更新方式,更新所述当次神经网络参数,得到当次最优网络参数;将所述当次最优网络参数确定为下一次训练所述联合优化模型时所述深度神经网络的初始网络参数,并执行所述的继续对所述联合优化模型执行训练操作,直至所述联合优化模型的训练次数达到所述回合训练次数,并确定最后一次训练得到的所述联合优化模型为目标联合优化模型的操作。3.根据权利要求1或2所述的基于深度强化学习的无线电传输方法,其特征在于,所述信道选择对应的第一智能体的状态的初始化公式为:其中,表示第t个时隙所述信道选择对应的第一智能体初始化后的状态,w
t
表示第t个时隙的信道占用情况,表示第t个时隙次用户到认知基站的信道增益,表示第t个时隙所述次用户到主基站的信道增益,表示第t个隙时主用户到所述认知基站的信道增益,当t=0时,代表第一次对所述信道选择对应的第一智能体的状态进行初始化,每个时隙开始时都对所述信道选择对应的第一智能体的状态进行初始化且每个时隙初始化后的所述第一智能体的状态用于当次所述联合优化模型的训练。
4.根据权利要求1-3任一项所述的基于深度强化学习的无线电传输方法,其特征在于,所述参数集合还包括贪婪策略的阈值;所述根据贪婪策略确定所述第一智能体的动作,包括:将所述第一智能体的状态输入到所述深度神经网络中,得到所述深度神经网络的第一返回值;随机生成第一概率,当所述第一概率小于或等于所述贪婪策略的阈值时,随机选择所述第一智能体的动作,当所述第一概率大于所述贪婪策略的阈值时时,根据第一动作选择公式,选择所述第一智能体的动作;所述根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态,并根据贪婪策略确定所述第二智能体的动作,包括:根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态;将所述第二智能体的状态输入到所述深度神经网络中,得到所述深度神经网络的第二返回值;随机生成第二概率,当所述第二概率小于或等于所述贪婪策略的阈值时,随机选择所述第二智能体的动作,当所述第二概率大于所述贪婪策略的阈值时时,根据第二动作选择公式,选择所述第二智能体的动作。5.根据权利要求4所述的基于深度强化学习的无线电传输方法,其特征在于,所述第一动作选择公式为:公式中,表示第t个时隙所述第一智能体的动作,表示第t个时隙所述第一智能体的动作集合,q
r
表示所述第一返回值,表示第t个时隙所述第一智能体的状态,θ表示与所述第一智能体对应的所述深度神经网络的初始网络参数;所述第二动作选择公式为:公式中,表示第t个时隙所述第二智能体的动作,表示第t个时隙所述第二智能体的动作集合,q
p
表示所述第二返回值,表示第t个时隙所述第二智能体的状态,表示与所述第二智能体对应的所述深度神经网络的初始网络参数。6.根据权利要求1-5任一项所述的基于深度强化学习的无线电传输方法,其特征在于,所述回报内容的计算公式为:其中,表示在第t个时隙第n个次用户对信道m的接入情况,表示在第t个时
隙第n个次用户在信道m上的信道干燥比,表示第t个时隙的线性公平指数,表示第n个次用户在第t个时隙的可到速率,表示第n个次用户在第t个时隙的发射功率,表示第t个时隙次用户到主基站的信道增益,i
th
为干扰门限。7.根据权利要求1所述的基于深度强化学习的无线电传输方法,其特征在于,所述更新所述智能体的状态,并根据所述智能体的状态、所述智能体的动作、所述回报内容以及所述智能体更新后的状态生成状态转移,将所述状态转移存储到所述记忆池中,包括:更新所述第一智能体的状态和所述第二智能体的状态;根据所述第一智能体的状态、所述第一智能体的动作、所述回报内容和更新后的所述第一智能体的状态生成第一状态转移,并将所述第一状态转移存储到所述信道选择对应的第一记忆池;根据所述第二智能体的状态、所述第二智能体的动作、所述回报内容和更新后的所述第二智能体的状态生成第二状态转移,当时隙大于等于预设时隙阈值时,将所述第二状态转移存储到所述功率分配对应的第二记忆池。8.根据权利要求7所述的基于深度强化学习的无线电传输方法,其特征在于,所述从所述记忆池中随机采样预设数量的数据集合,包括:从所述第一记忆池中,随机采样与所述第一智能体对应的第一数据集合,从所述第二记忆池中,随机采样与所述第二智能体对应的第二数据集合;所述根据所述数据集合计算损失函数,包括:根据所述第一数据集合计算所述第一智能体对应的第一损失函数,根据所述第二数据集合计算所述第二智能体对应的第二损失函数。9.根据权利要求8所述的基于深度强化学习的无线电传输方法,其特征在于,所述参数集合还包括所述深度神经网络的学习速率;所述第一损失函数的计算公式为:所述第二算是函数的计算公式为:所述反向传播算法的公式为:其中,表示所述第一数据集合,表示所述第一数据集合中的样本数目,表示所述第二数据集合,表示所述第二数据集合中的样本数目,表示所述深度神经网络输出的与所述第一数据集合中第j个样本对应的第一输出值,表示所述深度神经网络输出的与所述第二数据集合中第j个样本对应的第二输出值,和分
别表示所述第一智能体和所述第二智能体在状态s
j
下采取动作a
j
所得到的期望累积折扣收益,j表示所述第一样本集合和所述第二样本集合中的第j个样本,s
j
表示第j个样本的状态,a
j
表示第j个样本的动作,θ

表示与所述第一智能体对应的所述当次神经网络参数,θ表示与所述第一智能体对应的所述初始网络参数,表示与所述第二智能体对应的所述当次神经网络参数,表示与所述第二智能体对应的所述初始网络参数,lr
r
表示所述第一智能体对应的学习速率,lr
p
表示所述第二智能体对应的学习速率。10.一种基于深度强化学习的无线电传输装置,其特征在于,所述装置包括:初始化模块,用于建立信道选择与功率分配的联合优化模型,并初始化所述联合优化模型的回合训练次数、记忆池、深度神经网络以及所述深度神经网络的参数集合,所述参数集合包括所述深度神经网络的初始网络参数;所述初始化模块,还用于针对当次回合训练所述联合优化模型,初始化所述信道选择对应的第一智能体的状态;第一确定模块,用于根据贪婪策略确定所述第一智能体的动作,根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态,并根据所述贪婪策略确定所述第二智能体的动作;输入模块,用于将所述第一智能体的动作和所述第二智能体的动作输入到所述深度神经网络中进行分析,并获取所述深度神经网络返回的回报内容;更新模块,用于更新所述智能体的状态,并根据所述智能体的状态、所述智能体的动作、所述回报内容以及所述智能体更新后的状态生成状态转移,将所述状态转移存储到所述记忆池中;采样模块,用于从所述记忆池中随机采样预设数量的数据集合,并根据所述数据集合计算损失函数,根据所述损失函数和反向传播算法更新所述深度神经网络的初始网络参数,得到当次神经网络参数;所述第一确定模块,还用于将所述当次神经网络参数确定为下一次训练所述联合优化模型时所述深度神经网络的初始网络参数,并继续对所述联合优化模型执行训练操作,直至所述联合优化模型的训练次数达到所述回合训练次数,并确定最后一次训练得到的所述联合优化模型为目标联合优化模型;选择模块,用于通过所述目标联合优化模型进行信道和功率的选择。

技术总结
本发明公开了一种基于深度强化学习的无线电传输方法及装置,该方法包括:对建立的信道选择与功率分配的联合优化模型中的神经网络参数进行优化训练,通过贪婪策略选择智能体的动作,通过对存储到记忆池的状态转移进行损失函数的计算,以及通过反向传播算法和软更新方式得到最优网络参数,进而通过最优网络参数对信道选择与功率分配的联合优化模型进行优化迭代,然后通过联合优化模型进行信道和功率的选择。可见,实施本发明能够为每个用户做出最优的信道接入和功率分配策略,不仅保证了用户传输的公平性,更提高了传输系统的整体稳定性和传输速率。性和传输速率。性和传输速率。


技术研发人员:姜克建 冯福锋 侯海风 张丽英 张明祥 王俊 徐浩东 林瑞全 刘佳鑫
受保护的技术使用者:福州大学
技术研发日:2023.01.09
技术公布日:2023/6/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐