一种通信系统的数据传输优化方法、装置、终端及介质与流程
未命名
07-12
阅读:73
评论:0

1.本发明涉及noma通信技术领域,尤其涉及的是一种通信系统的数据传输优化方法、装置、终端及介质。
背景技术:
2.相比于正交多址技术,noma(non-orthogonal multiple access,即非正交多址接入)是一种提升频谱效率的关键无线接入之一。并且,利用能够改变无线信道环境的irs(intelligent reflecting surface,即智能反射平面),可以构建新型的irs辅助的noma通信系统。由于irs的被动特性,获取精确的csi(channel state information,信道状态信息)是具有挑战性的。
3.针对传统的有效容量最大化问题,现有的方案仅仅考虑通信实现受限下的信道容量优化问题,但是,信道容量优化问题还需要考虑信息时效性,而信息时效性是不同于通信时延的性能指标,其利用信息年龄(age of information,aoi)进行度量。因为,在信息时效性的限制对有效容量的影响是值得研究的问题。最后,考虑到noma系统之间存在干扰,并且irs具有较多的子单元数,现有的信道容量优化方案并不能实现在保障信息时效性的同时最大化有效容量。
4.因此,现有技术还有待改进。
技术实现要素:
5.本发明要解决的技术问题在于,针对现有技术缺陷,本发明提供一种通信系统的数据传输优化方法、装置、终端及介质,以解决具有非完美csi的irs辅助的noma通信系统中信息时效性保障的有效容量最大化问题。
6.本发明解决技术问题所采用的技术方案如下:
7.第一方面,本发明提供一种通信系统的数据传输优化方法,包括:
8.根据级联信道模型对irs辅助的信道进行建模;
9.根据aoi的定义得到每个设备的aoi违规概率;
10.构建信息时效性保障的有效容量最大化问题;
11.根据李雅普诺夫优化算法将长期随机优化问题转化为每时隙确定性优化问题;
12.将原有效容量最优化问题转化为马尔可夫决策过程;
13.根据sac算法对irs相移和设备传输功率进行联合优化,得到优化后的数据传输策略。
14.在一种实现方式中,所述根据级联信道模型对irs辅助的信道进行建模,之前包括:
15.将时间按照时隙进行划分,得到若干个时隙;
16.在时隙t时,获取设备k的信号:
17.18.其中,h
ai
(t)∈1
×
n表示在时隙t时ap与irs之间的信道状态矩阵;
19.h
ik
(t)表示在时隙t时irs与设备k之间的信道状态矩阵;
20.sk(t)表示设备k在时隙t时的信号;
21.pk(t)表示设备k在时隙t时的功率;
22.nk表示设备k在基站端的噪声;
23.φ(t)表示在时隙t时irs的所有子单元的相位矩阵,
24.在一种实现方式中,所述根据级联信道模型对irs辅助的信道进行建模,包括:
25.利用所述级联信道模型对所述irs辅助的通信信道进行建模:
[0026][0027]
其中,表示为估计的级联信道,diag(h
ai
(t))h
ik
(t)为从ap通过irs到设备的级联信道矩阵;
[0028]
δqk(t)表示时隙t时设备k级联信道相应的信道估计误差。
[0029]
在一种实现方式中,所述根据aoi的定义得到每个设备的aoi违规概率,包括:
[0030]
确定设备k在时隙t时的aoi值:
[0031][0032]
其中,ak(t)表示在时隙t时设备k的aoi值,表示设备k处第u个数据包达到的时间,表示设备k传输第u个数据包时间;
[0033]
计算每个设备k的aoi违规概率:
[0034][0035]
其中,dk表示设备k aoi的门限值,pr{x}表示事件x成立的概率,εk表示设备kaoi违规概率的最大值。
[0036]
在一种实现方式中,所述根据aoi的定义得到每个设备的aoi违规概率,还包括:
[0037]
获取针对任意任务达到模式的设备aoi违规概率与实时任务队列、处理任务数等参数之间的关系:
[0038][0039]
其中,表示在时间[t-dk,t)内设备k处达到数据包数;
[0040]
根据所述设备aoi违规概率与所述实时任务队列、所述处理任务数等参数之间的关系,计算每个设备k的aoi违规概率:
[0041][0042]
其中,t表示总时隙数。
[0043]
在一种实现方式中,所述构建信息时效性保障的有效容量最大化问题,包括:
[0044]
确定设备k的与时延相关的有效容量:
[0045][0046]
其中,θ表示服务质量因子;
[0047]
将信息时效性保障的有效容量最大化问题表示为:
[0048][0049]
s.t.信息时效性限制:
[0050]
瞬时功率限制:
[0051]
平均功率限制:
[0052]
相位决策限制:
[0053]
其中,p={pk(t),k∈k,t∈t}表示整个t时隙内k个设备的功率值,φ={φ1(t),l,φf(t),l,φf(t),t∈t}表示整个t时隙内irs所有子单元的相移值,表示设备k瞬时功率值的门限值,表示设备k平均功率值的门限值。
[0054]
在一种实现方式中,所述根据李雅普诺夫优化算法将长期随机优化问题转化为每时隙确定性优化问题,包括:
[0055]
利用虚拟队列模型将信息时效性限制条件和平均功率限制条件转化为队列稳定性问题:
[0056][0057][0058]
确定李雅普诺夫偏移惩罚函数:
[0059][0060]
其中,b表示为决策变量无关的变量值;
[0061]
将信息时效性保障的有效容量最大化问题转化为每时隙确定性优化问题:
[0062][0063][0064]
s.t.瞬时功率限制条件:
[0065]
相位决策限制条件:
[0066]
在一种实现方式中,所述将原有效容量最优化问题转化为马尔可夫决策过程,包括:
[0067]
定义所述马尔可夫决策过程的行动空间、决策空间和奖励函数;
[0068]
根据所述行动空间、决策空间和奖励函数构建离散的马尔可夫决策过程。
[0069]
在一种实现方式中,所述定义所述马尔可夫决策过程的行动空间、决策空间和奖励函数,包括:
[0070]
状态空间:将非完美csi的irs辅助的noma通信系统的行动空间定义为:
[0071][0072]
其中,表示所有队列长度;
[0073]
行动空间:将行动空间定义为:
[0074][0075]
其中,表示时隙t时所有设备和irs子单元的功率值和相位值;
[0076]
奖励函数:将每时隙确定性优化问题的目标函数定义为每个时隙t时执行完决策获得到奖励:
[0077][0078]
在一种实现方式中,所述根据sac算法对irs相移和设备传输功率进行联合优化,得到优化后的数据传输策略,包括:
[0079]
通过决策分布的输出针对当前的状态信息s(t)得到当前的决策a(t);
[0080]
根据当前的状态信息和动作获得奖励r(t)和下一个状态信息s(t+1),并且将(s(t),a(t),r(t),s(t+1))存入到经验回放中;
[0081]
根据最小化损失函数和均方误差的梯度,更新q1网络和q2网络的参数和将两个q函数值的最小值作为每个q函数更新的q函数值;
[0082]
根据最小化kl散度函数和kl散度的梯度,更新策略网络的参数θ
μ
;
[0083]
利用梯度下降最小化奖励函数和熵函数的加权和,更新熵函数的权重值λ;
[0084]
利用软更新方法,更新目标q1函数和目标q2函数的参数和
[0085]
第二方面,本发明提供一种通信系统的数据传输优化装置,包括:
[0086]
信道建模模块,用于根据级联信道模型对irs辅助的信道进行建模;
[0087]
违规概率计算模块,用于根据aoi的定义得到每个设备的aoi违规概率;
[0088]
有效容量模块,用于构建信息时效性保障的有效容量最大化问题;
[0089]
第一优化模块,用于根据李雅普诺夫优化算法将长期随机优化问题转化为每时隙确定性优化问题;
[0090]
第二优化模块,用于将原有效容量最优化问题转化为马尔可夫决策过程;
[0091]
联合优化模块,用于根据sac算法对irs相移和设备传输功率进行联合优化,得到优化后的数据传输策略。
[0092]
第三方面,本发明提供一种终端,包括:处理器以及存储器,所述存储器存储有通信系统的数据传输优化程序,所述通信系统的数据传输优化程序被所述处理器执行时用于
实现如第一方面所述的通信系统的数据传输优化方法的操作。
[0093]
第四方面,本发明还提供一种介质,所述介质为计算机可读存储介质,所述介质存储有通信系统的数据传输优化程序,所述通信系统的数据传输优化程序被处理器执行时用于实现如第一方面所述的通信系统的数据传输优化方法的操作。
[0094]
本发明采用上述技术方案具有以下效果:
[0095]
本发明针对具有非完美csi的irs辅助的noma通信系统中信息时效性保障的有效容量最大化问题,首先,利用非完美级联信道模型对其信道建模,以及推导出aoi违规概率与状态更新数据包队列、传输数据包数等参数之间的关系,用于利用数据包队列长度和传输数据包数判断aoi的违规情况,并且在此基础上制定irs辅助noma系统中时效性保障的有效容量最大化问题。其次,利用李雅普诺夫优化方法将所提出的长期随机优化问题转化为每时隙确定性优化问题问题。最后,考虑到每时隙优化问题是非凸的,本发明提出基于深度强化学习的irs相移和设备传输功率联合优化算法,以获取高效的联合优化方案。
附图说明
[0096]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0097]
图1是本发明的一种实现方式中通信系统的数据传输优化方法的流程图。
[0098]
图2是本发明的一种实现方式中irs辅助的noma通信系统示意图。
[0099]
图3是本发明的一种实现方式中设备aoi的示意图。
[0100]
图4是本发明的一种实现方式中基于soft actor critic的irs相移和设备传输功率联合优化示意图。
[0101]
图5是本发明的一种实现方式中终端的功能原理图。
[0102]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0103]
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0104]
示例性方法
[0105]
针对传统的有效容量最大化问题,现有的方案仅仅考虑通信实现受限下的信道容量优化问题,但是,信道容量优化问题还需要考虑信息时效性,而信息时效性是不同于通信时延的性能指标,其利用信息年龄(age of information,aoi)进行度量。因为,在信息时效性的限制对有效容量的影响是值得研究的问题。最后,考虑到noma系统之间存在干扰,并且irs具有较多的子单元数,现有的信道容量优化方案并不能实现在保障信息时效性的同时最大化有效容量。
[0106]
针对上述技术问题,本实施例中提供了一种通信系统的数据传输优化方法,利用非正交多址接入(non-orthogonal multiple access,noma)技术的高频和智能反射平面
(intelligent reflecting surface,irs)的高谱效等优势,构建新型的irs辅助的noma通信系统。针对具有非完美信道状态信息(channel state information,csi)的新型通信系统,利用李雅普诺夫优化技术和深度强化学习方法设计irs相移和设备传输功率联合优化方案,用于在保障信息时效性情况下最大化有效容量。
[0107]
如图1所示,本发明实施例提供一种通信系统的数据传输优化方法,包括以下步骤:
[0108]
步骤s100,根据级联信道模型对irs辅助的信道进行建模。
[0109]
在本实施例中,该通信系统的数据传输优化方法应用于终端上,该终端包括但不限于:计算机等设备。
[0110]
在本实施例中,针对具有非完美csi的irs辅助的noma通信系统中信息时效性保障的有效容量最大化问题,首先,利用非完美级联信道模型对其信道建模,以及推导出aoi违规概率与状态更新数据包队列、传输数据包数等参数之间的关系,用于利用数据包队列长度和传输数据包数判断aoi的违规情况,并且在此基础上制定irs辅助noma系统中时效性保障的有效容量最大化问题。其次,利用李雅普诺夫优化方法将所提出的长期随机优化问题转化为每时隙确定性优化问题问题。最后,考虑到每时隙优化问题是非凸的,本实施例中提出基于深度强化学习的irs相移和设备传输功率联合优化算法,以获取高效的联合优化方案。
[0111]
本实施例中考虑一个irs辅助的noma通信系统,如图2所示。其系统包括一个ap和k个终端设备。终端设备不定期地采集周围环境数据,并且将数据包通过irs向ap发送状态更新数据包用于在ap端更新k个终端设备端的观测点的状态信息(终端设备利用温度计测量一个观测点的温度,ap通过终端设备不断更新与温度相关的数据包以掌握观测点的温度变化),其中,这些终端设备复用同一频段发送状态更新数据包。每个设备端都具有一个缓存区,状态更新数据包随机生成,然后以先到先服务的队列模式在缓存区内排队。irs具有f=f
x
×fy
子反射单元。利用这些子反射单元改变信道相位用于改善无线信道环境以提升通信性能,并且控制器控制子反射单元的相位,其中,不改变信号的模值。另外,ap和设备之间被建筑物等阻挡,不存在直接链路。由于多个设备复用同一频段,设备需要控制功率减少设备间干扰,并且通过改变irs子反射单元的相位来改善无线信道环境。因此,需设计irs相位和设备传输功率联合优化方法用于提升irs辅助的noma通信系统。
[0112]
为了解决具有非完美csi的irs辅助的noma通信系统中信息时效性保障的有效容量最大化问题,提出一种基于深度强化学习的irs相位和传输功率联合优化方法,首先利用级联信道模型对irs辅助的信道进行建模,在进行建模之前,需要对设备k的信号进行表示。
[0113]
具体地,在本实施例的一种实现方式中,步骤s100之前包括以下步骤:
[0114]
步骤s001,将时间按照时隙进行划分,得到若干个时隙;
[0115]
步骤s002,在时隙t时,获取设备k的信号。
[0116]
本实施例中,所考虑的通信系统将时间按照时隙进行划分,在时隙t时,基站接收端来自于设备k的信号可以表示为:
[0117][0118]
其中,h
ai
(t)∈1
×
n表示在时隙t时ap与irs之间的信道状态矩阵;h
ik
(t)表示在时
隙t时irs与设备k之间的信道状态矩阵;sk(t)表示设备k在时隙t时的信号;pk(t)表示设备k在时隙t时的功率;nk表示设备k在基站端的噪声;φ(t)表示在时隙t时irs的所有子单元的相位矩阵,
[0119]
本实施例中考虑到irs的被动特性,无法准确地获取csi。利用级联信道模型对irs辅助的通信信道进行建模。
[0120]
具体地,在本实施例的一种实现方式中,步骤s100包括以下步骤:
[0121]
步骤s101,利用所述级联信道模型对所述irs辅助的通信信道进行建模。
[0122]
在建模的过程中,将定义diag(h
ai
(t))h
ik
(t)为从ap通过irs到设备的级联信道矩阵。并且将表示为估计的级联信道,从而得到其中,因此,从ap通过irs到设备的级联信道可以表示为:
[0123][0124]
其中,δqk(t)表示时隙t时设备k级联信道相应的信道估计误差,并且vec(δqk(t))服从循环对称复高斯分布,即vec(δqk(t)):cn(0,σq),σq表示δqk(t)的协方差矩阵。
[0125]
另外,需要每个设备的来决定多设备的解码顺序,其中,eh(t)在每个时隙t开始时都是未知的。因此,这里利用决定多设备的解码顺序,并且假设从而,在时隙t时,设备k的信号与干扰加噪声比(signal to interference plus noise ration,sinr)可以表示为:
[0126][0127]
其中,pk(t)表示时隙t时设备k的功率值,pi(t)表示时隙t时设备i的功率值,σ2表示噪声功率,当k=k,从而根据香农公式可以得到设备k的速率,其表示为:
[0128]rk
(t)=wlog2(1+γk(t))
ꢀꢀ
(4)
[0129]
其中,w表示信道带宽。表示传输状态更新数据包的数目,其中,τ表示时隙长度,z表示状态更新数据包的大小。
[0130]
如图1所示,在本发明实施例的一种实现方式中,通信系统的数据传输优化方法还包括以下步骤:
[0131]
步骤s200,根据aoi的定义得到每个设备的aoi违规概率。
[0132]
在本实施例中,在对irs辅助的信道进行建模后,根据aoi的定义得到每个设备的aoi违规概率。
[0133]
如图3所示,图3中显示了三个设备的aoi变化示意图,比如设备2,设备端具有6个状态更新数据包,每个方框表示数据包的生成时间,比如第4方框是2,表示这个数据包是在时隙2时生成的。在第7个时隙时,设备传输了三个数据包,这样在ap端设备2的aoi将变为7-2=5,并且设备2的aoi门限值是4,表示第7时隙时,设备2的aoi是不满足信息时效性要求。
[0134]
具体地,在本实施例的一种实现方式中,步骤s200包括以下步骤:
[0135]
步骤s201,确定设备k在时隙t时的aoi值;
[0136]
步骤s202,计算每个设备k的aoi违规概率。
[0137]
在本实施例中,设备k在时隙t时的aoi表示为:
[0138][0139]
其中,ak(t)表示在时隙t时设备k的aoi,表示设备k处第u个数据包达到的时间,表示设备k传输第u个数据包时间。
[0140]
每个设备k的aoi违规概率表示为:
[0141][0142]
这里,dk表示设备k aoi的门限值,pr{x}表示事件x成立的概率,εk表示设备kaoi违规概率的最大值。
[0143]
在本实施例的一种实现方式中,步骤s200还包括以下步骤:
[0144]
步骤s203,获取针对任意任务达到模式的设备aoi违规概率与实时任务队列、处理任务数等参数之间的关系;
[0145]
步骤s204,根据所述设备aoi违规概率与所述实时任务队列、所述处理任务数等参数之间的关系,计算每个设备k的aoi违规概率。
[0146]
在本实施例中,在计算每个设备k的aoi违规概率后,获取针对任意任务达到模式的设备aoi违规概率和实时任务队列、处理任务数等参数之间的关系,其可以表示为:
[0147][0148]
其中,表示在时间[t-dk,t)内设备k处达到数据包数。因此,公式(6)等价于:
[0149][0150]
这里,t表示总时隙数。
[0151]
如图1所示,在本发明实施例的一种实现方式中,通信系统的数据传输优化方法还包括以下步骤:
[0152]
步骤s300,构建信息时效性保障的有效容量最大化问题。
[0153]
在本实施例中,在得到每个设备的aoi违规概率后,根据aoi违规概率制定信息时效性保障的有效容量最大化问题。
[0154]
具体地,在本实施例的一种实现方式中,步骤s300包括以下步骤:
[0155]
步骤s301,确定设备k的与时延相关的有效容量;
[0156]
步骤s302,确定信息时效性保障的有效容量最大化问题。
[0157]
在本实施例中,根据有效容量定义可以得到,设备k的与时延相关的有效容量可以表示为:
[0158][0159]
其中,θ表示服务质量(quality of service,qos)因子。考虑到设备的瞬时功率和平均功率受限,将信息时效性保障的有效容量最大化问题表示为:
[0160][0161]
s.t.信息时效性限制:
[0162]
瞬时功率限制:
[0163]
平均功率限制:
[0164]
相位决策限制:
[0165]
其中,p={pk(t),k∈k,t∈t}表示整个t时隙内k个设备的功率值,φ={φ1(t),l,φf(t),l,φf(t),t∈t}表示整个t时隙内irs所有子单元的相移值,表示设备k瞬时功率值的门限值,表示设备k平均功率值的门限值。
[0166]
如图1所示,在本发明实施例的一种实现方式中,通信系统的数据传输优化方法还包括以下步骤:
[0167]
步骤s400,根据李雅普诺夫优化算法将长期随机优化问题转化为每时隙确定性优化问题。
[0168]
在本实施例中,在制定信息时效性保障的有效容量最大化问题后,对有效容量最大化问题进行求解,即基于李雅普诺夫优化技术将长期随机优化问题转化为每时隙确定性优化问题。
[0169]
具体地,在本实施例的一种实现方式中,步骤s400包括以下步骤:
[0170]
步骤s401,利用虚拟队列模型将信息时效性限制条件和平均功率限制条件转化为队列稳定性问题;
[0171]
步骤s402,确定李雅普诺夫偏移惩罚函数;
[0172]
步骤s403,将信息时效性保障的有效容量最大化问题转化为每时隙确定性优化问题。
[0173]
在本实施例中,首先,利用虚拟队列模型将信息时效性限制条件和平均功率限制条件转化为队列稳定性问题,其表示为:
[0174]
[0175][0176]
其次,根据李雅普诺优化技术,李雅普诺偏移惩罚函数可以表示为:
[0177][0178]
其中,b表示为决策变量无关的变量值。因此,可以将问题(p1)转化为以下问题:
[0179][0180]
(p2)
[0181]
s.t.瞬时功率限制条件:
[0182]
相位决策限制条件:
[0183]
对于问题(p2),首先考虑到目标函数具有单位阶跃函数,此问题为非凸问题。其次,由于p和φ存在耦合关系,必须要分解成多个子问题,交替求解子问题,直至收敛。但是,当信道状态、数据包队列和虚拟队列长度变化时,每个子问题需要重新求解最优解,频繁求解子问题会影响收敛性。因此,本实施例中针对问题(p2),考虑到深度强化学习具有实时获取接近最优解的能力,提出基于深度强化学习的算法以获得问题(p2)的最优解决方案。另外,考虑确定性策略梯度(ddpg)具有过度预估q值的缺点,本实施例中利用soft actor critic深度强化学习方法(即sac算法)来求解问题p2。
[0184]
如图1所示,在本发明实施例的一种实现方式中,通信系统的数据传输优化方法还包括以下步骤:
[0185]
步骤s500,将原有效容量最优化问题转化为马尔可夫决策过程。
[0186]
在本实施例中,将具有非完美csi的irs辅助的noma通信系统作为一个智能体。将智能体的决策过程建模为一个离散的马尔可夫决策过程(markov decision process,mdp)。
[0187]
具体地,在本实施例的一种实现方式中,步骤s500包括以下步骤:
[0188]
步骤s501,定义所述马尔可夫决策过程的行动空间、决策空间和奖励函数;
[0189]
步骤s502,根据所述行动空间、决策空间和奖励函数构建离散的马尔可夫决策过程。
[0190]
以下定义该mdp的行动空间、决策空间和奖励函数。
[0191]
1)状态空间:将非完美csi的irs辅助的noma通信系统的行动空间定义为其中,表示所有队列长度。
[0192]
具体地,qk(t)表示时隙t时设备k的数据包队列,bk(t)表示时隙t时与信息时效性限制条件相关的虚拟队列长度,zk(t)表示时隙t时与平均功率限制条件相关的虚拟队列长度,表示在时间[t-di,t)内设备k处达到数据包数;h
ai
(t),h
ik
(t),δqk(t)表示信道状态,具体地,h
ai
(t)表示时隙t时ap与irs之间的信道状态,h
ik
(t)表示时隙t时irs与设备k之间的信道状态,δqk(t)表示时隙t时级联信道的误差;表示时隙(t-1)时所有设备和irs子单元的功率值和相位值。
[0193]
2)行动空间:本实施例中主要考虑联合控制设备的传输功率和irs相位以保障信息时效性情况下最大化有效容量,因此将行动空间定义为其中,表示时隙t时所有设备和irs子单元的功率值和相位值。
[0194]
3)奖励函数:问题(p1)等价于问题(p2),因此将问题(p2)目标函数定义为每个时隙t时执行完决策获得到奖励,即
[0195]
如图1所示,在本发明实施例的一种实现方式中,通信系统的数据传输优化方法还包括以下步骤:
[0196]
步骤s600,根据sac算法对irs相移和设备传输功率进行联合优化,得到优化后的数据传输策略。
[0197]
在本实施例中,执行基于soft actor critic的irs相移和设备传输功率联合优化方法,对通信系统的数据传输进行优化。
[0198]
具体地,在本实施例的一种实现方式中,步骤s600包括以下步骤:
[0199]
步骤s601,通过决策分布的输出针对当前的状态信息s(t)得到当前的决策a(t);
[0200]
步骤s602,根据当前的状态信息和动作获得奖励r(t)和下一个状态信息s(t+1),并且将(s(t),a(t),r(t),s(t+1))存入到经验回放中;
[0201]
步骤s603,根据最小化损失函数和均方误差的梯度,更新q1网络和q2网络的参数和将两个q函数值的最小值作为每个q函数更新的q函数值;
[0202]
步骤s604,根据最小化kl散度函数和kl散度的梯度,更新策略网络的参数θ
μ
;
[0203]
步骤s605,利用梯度下降最小化奖励函数和熵函数的加权和,更新熵函数的权重值λ;
[0204]
步骤s606,利用软更新方法,更新目标q1函数和目标q2函数的参数和
[0205]
在本实施例中,如图4所示,基于soft actor critic算法执行以上步骤s601~步骤s606,用于最优化信息时效性保障下的有效容量。
[0206]
本实施例中,考虑到irs辅助noma系统中csi的获取信道状态困难,利用非完美级联信道模型对其信道建模,并且在此基础上制定irs辅助noma系统中时效性保障的有效容量最大化问题;利用李雅普诺夫优化方法和深度强化学习方法,提出基于soft actor critic的irs相移和设备传输功率联合优化方案,用于最优化信息时效性保障下的有效容量。
[0207]
本实施例通过上述技术方案达到以下技术效果:
[0208]
本实施例针对具有非完美csi的irs辅助的noma通信系统中信息时效性保障的有效容量最大化问题,首先,利用非完美级联信道模型对其信道建模,以及推导出aoi违规概率与状态更新数据包队列、传输数据包数等参数之间的关系,用于利用数据包队列长度和传输数据包数判断aoi的违规情况,并且在此基础上制定irs辅助noma系统中时效性保障的有效容量最大化问题。其次,利用李雅普诺夫优化方法将所提出的长期随机优化问题转化为每时隙确定性优化问题问题。最后,考虑到每时隙优化问题是非凸的,本实施例提出基于深度强化学习的irs相移和设备传输功率联合优化算法,以获取高效的联合优化方案。
[0209]
示例性设备
[0210]
基于上述实施例,本发明还提供一种通信系统的数据传输优化装置,包括:
[0211]
信道建模模块,用于根据级联信道模型对irs辅助的信道进行建模;
[0212]
违规概率计算模块,用于根据aoi的定义得到每个设备的aoi违规概率;
[0213]
有效容量模块,用于构建信息时效性保障的有效容量最大化问题;
[0214]
第一优化模块,用于根据李雅普诺夫优化算法将长期随机优化问题转化为每时隙确定性优化问题;
[0215]
第二优化模块,用于将原有效容量最优化问题转化为马尔可夫决策过程;
[0216]
联合优化模块,用于根据sac算法对irs相移和设备传输功率进行联合优化,得到优化后的数据传输策略。
[0217]
基于上述实施例,本发明还提供一种终端,其原理框图可以如图5所示。
[0218]
该终端包括:通过系统总线连接的处理器、存储器、接口、显示屏以及通讯模块;其中,该终端的处理器用于提供计算和控制能力;该终端的存储器包括存储介质以及内存储器;该存储介质存储有操作系统和计算机程序;该内存储器为存储介质中的操作系统和计算机程序的运行提供环境;该接口用于连接外部设备,例如,移动终端以及计算机等设备;该显示屏用于显示相应的信息;该通讯模块用于与云端服务器或移动终端进行通讯。
[0219]
该计算机程序被处理器执行时用以实现通信系统的数据传输优化方法的操作。
[0220]
本领域技术人员可以理解的是,图5中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0221]
在一个实施例中,提供了一种终端,其中,包括:处理器和存储器,存储器存储有通信系统的数据传输优化程序,通信系统的数据传输优化程序被处理器执行时用于实现如上的通信系统的数据传输优化方法的操作。
[0222]
在一个实施例中,提供了一种存储介质,其中,存储介质存储有通信系统的数据传输优化程序,通信系统的数据传输优化程序被处理器执行时用于实现如上的通信系统的数据传输优化方法的操作。
[0223]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
[0224]
综上,本发明提供了一种通信系统的数据传输优化方法、装置、终端及介质,方法
包括:根据级联信道模型对irs辅助的信道进行建模;根据aoi的定义得到每个设备的aoi违规概率;构建信息时效性保障的有效容量最大化问题;根据李雅普诺夫优化算法将长期随机优化问题转化为每时隙确定性优化问题;将原有效容量最优化问题转化为马尔可夫决策过程;根据sac算法对irs相移和设备传输功率进行联合优化,得到优化后的数据传输策略。本发明解决了具有非完美csi的irs辅助noma通信系统中信息时效性保障的有效容量最大化问题。
[0225]
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
技术特征:
1.一种通信系统的数据传输优化方法,其特征在于,包括:根据级联信道模型对irs辅助的信道进行建模;根据aoi的定义得到每个设备的aoi违规概率;构建信息时效性保障的有效容量最大化问题;根据李雅普诺夫优化算法将长期随机优化问题转化为每时隙确定性优化问题;将原有效容量最优化问题转化为马尔可夫决策过程;根据sac算法对irs相移和设备传输功率进行联合优化,得到优化后的数据传输策略。2.根据权利要求1所述的通信系统的数据传输优化方法,其特征在于,所述根据级联信道模型对irs辅助的信道进行建模,之前包括:将时间按照时隙进行划分,得到若干个时隙;在时隙t时,获取设备k的信号:其中,h
ai
(t)∈1
×
n表示在时隙t时ap与irs之间的信道状态矩阵;h
ik
(t)表示在时隙t时irs与设备k之间的信道状态矩阵;s
k
(t)表示设备k在时隙t时的信号;p
k
(t)表示设备k在时隙t时的功率;n
k
表示设备k在基站端的噪声;φ(t)表示在时隙t时irs的所有子单元的相位矩阵,3.根据权利要求1所述的通信系统的数据传输优化方法,其特征在于,所述根据级联信道模型对irs辅助的信道进行建模,包括:利用所述级联信道模型对所述irs辅助的通信信道进行建模:其中,表示为估计的级联信道,diag(h
ai
(t))h
ik
(t)为从ap通过irs到设备的级联信道矩阵;δq
k
(t)表示时隙t时设备k级联信道相应的信道估计误差。4.根据权利要求1所述的通信系统的数据传输优化方法,其特征在于,所述根据aoi的定义得到每个设备的aoi违规概率,包括:确定设备k在时隙t时的aoi值:其中,a
k
(t)表示在时隙t时设备k的aoi值,表示设备k处第u个数据包达到的时间,表示设备k传输第u个数据包时间;计算每个设备k的aoi违规概率:其中,d
k
表示设备k aoi的门限值,pr{x}表示事件x成立的概率,ε
k
表示设备kaoi违规概率的最大值。
5.根据权利要求4所述的通信系统的数据传输优化方法,其特征在于,所述根据aoi的定义得到每个设备的aoi违规概率,还包括:获取针对任意任务达到模式的设备aoi违规概率与实时任务队列、处理任务数等参数之间的关系:其中,表示在时间[t-d
k
,t)内设备k处达到数据包数;根据所述设备aoi违规概率与所述实时任务队列、所述处理任务数等参数之间的关系,计算每个设备k的aoi违规概率:其中,t表示总时隙数。6.根据权利要求1所述的通信系统的数据传输优化方法,其特征在于,所述构建信息时效性保障的有效容量最大化问题,包括:确定设备k的与时延相关的有效容量:其中,θ表示服务质量因子;将信息时效性保障的有效容量最大化问题表示为:s.t.信息时效性限制:瞬时功率限制:平均功率限制:相位决策限制:其中,p={p
k
(t),k∈k,t∈t}表示整个t时隙内k个设备的功率值,φ={φ1(t),l,φ
f
(t),l,φ
f
(t),t∈t}表示整个t时隙内irs所有子单元的相移值,表示设备k瞬时功率值的门限值,表示设备k平均功率值的门限值。7.根据权利要求1所述的通信系统的数据传输优化方法,其特征在于,所述根据李雅普诺夫优化算法将长期随机优化问题转化为每时隙确定性优化问题,包括:利用虚拟队列模型将信息时效性限制条件和平均功率限制条件转化为队列稳定性问题:题:
确定李雅普诺夫偏移惩罚函数:其中,b表示为决策变量无关的变量值;将信息时效性保障的有效容量最大化问题转化为每时隙确定性优化问题:s.t.瞬时功率限制条件:相位决策限制条件:8.根据权利要求1所述的通信系统的数据传输优化方法,其特征在于,所述将原有效容量最优化问题转化为马尔可夫决策过程,包括:定义所述马尔可夫决策过程的行动空间、决策空间和奖励函数;根据所述行动空间、决策空间和奖励函数构建离散的马尔可夫决策过程。9.根据权利要求8所述的通信系统的数据传输优化方法,其特征在于,所述定义所述马尔可夫决策过程的行动空间、决策空间和奖励函数,包括:状态空间:将非完美csi的irs辅助的noma通信系统的行动空间定义为:其中,表示所有队列长度;行动空间:将行动空间定义为:其中,表示时隙t时所有设备和irs子单元的功率值和相位值;奖励函数:将每时隙确定性优化问题的目标函数定义为每个时隙t时执行完决策获得到奖励:10.根据权利要求1所述的通信系统的数据传输优化方法,其特征在于,所述根据sac算法对irs相移和设备传输功率进行联合优化,得到优化后的数据传输策略,包括:通过决策分布的输出针对当前的状态信息s(t)得到当前的决策a(t);根据当前的状态信息和动作获得奖励r(t)和下一个状态信息s(t+1),并且将(s(t),a(t),r(t),s(t+1))存入到经验回放中;根据最小化损失函数和均方误差的梯度,更新q1网络和q2网络的参数和将两个
q函数值的最小值作为每个q函数更新的q函数值;根据最小化kl散度函数和kl散度的梯度,更新策略网络的参数θ
μ
;利用梯度下降最小化奖励函数和熵函数的加权和,更新熵函数的权重值λ;利用软更新方法,更新目标q1函数和目标q2函数的参数和11.一种通信系统的数据传输优化装置,其特征在于,包括:信道建模模块,用于根据级联信道模型对irs辅助的信道进行建模;违规概率计算模块,用于根据aoi的定义得到每个设备的aoi违规概率;有效容量模块,用于构建信息时效性保障的有效容量最大化问题;第一优化模块,用于根据李雅普诺夫优化算法将长期随机优化问题转化为每时隙确定性优化问题;第二优化模块,用于将原有效容量最优化问题转化为马尔可夫决策过程;联合优化模块,用于根据sac算法对irs相移和设备传输功率进行联合优化,得到优化后的数据传输策略。12.一种终端,其特征在于,包括:处理器以及存储器,所述存储器存储有通信系统的数据传输优化程序,所述通信系统的数据传输优化程序被所述处理器执行时用于实现如权利要求1-10中任意一项所述的通信系统的数据传输优化方法的操作。13.一种介质,其特征在于,所述介质为计算机可读存储介质,所述介质存储有通信系统的数据传输优化程序,所述通信系统的数据传输优化程序被处理器执行时用于实现如权利要求1-10中任意一项所述的通信系统的数据传输优化方法的操作。
技术总结
本发明公开了一种通信系统的数据传输优化方法、装置、终端及介质,包括:根据级联信道模型对IRS辅助的信道进行建模;根据AoI的定义得到每个设备的AoI违规概率;构建信息时效性保障的有效容量最大化问题;根据李雅普诺夫优化算法将长期随机优化问题转化为每时隙确定性优化问题;将原有效容量最优化问题转化为马尔可夫决策过程;根据SAC算法对IRS相移和设备传输功率进行联合优化,得到优化后的数据传输策略。本发明解决了具有非完美CSI的IRS辅助NOMA通信系统中信息时效性保障的有效容量最大化问题。大化问题。大化问题。
技术研发人员:刘龙 许晓东 陈昊 陈建侨 马楠 张平
受保护的技术使用者:鹏城实验室
技术研发日:2022.12.20
技术公布日:2023/7/11
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/