一种基于隐式对手建模的强化学习抗干扰通信方法
未命名
10-09
阅读:145
评论:0

1.本发明属于通信抗干扰技术领域,特别是涉及一种基于隐式对手建模的强化学习抗干扰通信方法。
背景技术:
2.随着通讯技术的迅猛发展和无线通信应用领域的不断扩大,通讯空间的电磁环境日益复杂。在无线通信的频段中,经常伴随着各种环境干扰或是恶意的人为阻塞攻击,这对通信质量和可靠性产生了严重的影响。因此,越来越多的科学家和工程师开始关注无线通信中的抗干扰技术,并致力于研究如何智能且高效地规避存在干扰的频段,以提高通信系统的性能和可靠性。为了解决这个问题,研究人员采用了多种方法来进行研究和实践。其中一个重要的方法是利用人工智能和机器学习技术,开发出智能化的无线通信系统,使其能够自动地适应复杂的电磁环境和干扰情况。这些系统可以通过对无线信号的监测和分析,快速识别和定位干扰源,并采取相应的措施来避免或抵抗干绕。
3.2018年天津大学的马永涛等人公开了一种基于强化学习的认知无线电抗干扰智能决策的方法(中国专利申请号:cn201810325152.7),该方法将通信过程本发明提供一种基于强化学习算法的认知无线电抗干扰决策方法,该方法利用认知无线电感知频谱环境,根据当前频谱环境做出最合适的抗干扰通信策略,该方法使用时序差分公式更新状态价值。此方法维护的状态价值表格固定,且公式参数不变,鲁棒性比较差。
4.2022年南京邮电大学的田峰等人公开了一种基于深度强化学习的多用户通信抗干扰智能决策方法(中国专利申请号:cn202210579127.8),该方法利用卷积神经网络估计当前状态下的状态价值,根据预估状态价值选取通信策略,该方法具有状态空间大,并且决策鲁棒性强的优点。2022年杭州电子科技大学的陈一波等人发表了《基于sarsa学习的跳频系统智能抗干扰决策算法》,该论文将基于置信度上界(ucb)的动作选择机制和优先遍历思想应用于sarsa学习,该动作选择机制更好地平衡了探索与利用的矛盾,提升了系统的收敛速度和稳态性能,该方法在面对模式化干扰的效果会更加优秀。但以上算法面对的干扰都是智能程度比较低的固定模式的干扰,如扫频干扰、疏状谱干扰、宽带阻塞干扰等,面对干扰模式一直改变且干扰可以学习的干扰来说,这些算法很容易不收敛,或者抵抗效果微弱,难以有效应对这种新型智能干扰。
技术实现要素:
5.针对上述现有技术的不足,本发明的目的在于提供一种利用通信频段与干扰节点历史干扰数据对其隐式建模,结合深度强化学习的通信抗干扰决策方法。
6.本发明是通过以下技术方案实现的,本发明提出一种基于隐式对手建模的强化学习抗干扰通信方法,所述方法包括以下步骤:
7.步骤1:构建含有两个节点一对一进行通信的无线通信模型,同时干扰节点使用强化学习算法选择频段对通信节点干扰,三个节点处在同一个频谱空间中;
8.步骤2:通信节点获得当前频谱空间被干扰节点干扰的情况,结合当前通信频段对干扰节点隐式建模,对建模整理成的数据加以处理送至神经网络中处理;
9.步骤3:选择合适的通信频段进行通信并且将得到的信息储存到经验回放池;
10.步骤4:当经验回放池中的经验数量达到给定值时,对经验池中的样本按照样本新旧生成被抽取概率,在经验池中抽取一定数量的经验更新神经网络的参数,并定时更新。
11.进一步地,步骤1中,干扰节点的强化学习决策算法使用q-learning算法,干扰节点维护一张q
ler
表格,q
ler
表格一个维度代表通信频段,另一个维度代表干扰频段,每次干扰后都对q
ler
表格更新。
12.进一步地,步骤2中,一共分为10个通信频段,通信节点感知当前时刻被干扰的频段,干扰状态用一个向量[p1,p2,p3,...,p
10
]表示,其中pn表示第n个频段的干扰信号功率;设通信节点此时的通信频段为m,故设置向量[a1,a2,a3,...,a
10
]代表此刻通信频段,其中am置为1,其他置为0;将向量[p1,p2,p3,...,p
10
][a1,a2,a3,...,a
10
]结合生成一个大小为10*10的矩阵,代表结合了干扰状态与通信频段的环境状态空间;使用训练神经网络和目标神经网络处理所提环境状态空间矩阵,其中这两个网络的结构相同,包括四个全连接层;将大小为10*10的矩阵展平为长度100的列表送入训练神经网络,首先将列表送入前两层神经网络,然后将得到的输出分为两路,分别送至两个不同的全连接层,将两个全连接层的输出加权得到最终结果。
[0013]
进一步地,步骤3中,根据ε-贪婪算法,随机产生一个随机数,若此随机数小于ε,则随机选择一个频段通信,若随机数大于ε,则选择当前情况下的最大状态动作价值的频段通信。
[0014]
进一步地,步骤4中,从经验池中按照经验新旧生成每个经验被抽取的概率,依据此概率抽取一定数量的经验,其中每个样本的概率使用公式获得,p
sample
是经验sample被选中的概率,t指当前时刻,n是当前时刻经验回放池中一共拥有的经验数量,是常数,且在[0,1]区间,靠近1的程度代表优先选择新样本的概率,越靠近1则概率越大,通过梯度下降算法对目标神经网络的参数θ2迭代更新,c步之后将目标神经网络参数θ2更新至训练神经网络的参数θ1中。
[0015]
本发明的有益效果为:
[0016]
1.干扰节点设置了基于q-learning的强化学习算法,此干扰学习能力强,本发明可以有效抵抗这种干扰;
[0017]
2.将干扰节点干扰信息与通信节点通信信息综合起来作为状态空间,在考虑干扰环境状态的同时蕴含了对于干扰节点的隐式建模信息,充分利用所能获取的数据;
[0018]
3.采取两个神经网络,一个为训练网络,一个为目标网络,目标网络定时同步训练网络参数,这样使训练更加稳定;
[0019]
4.根据样本新旧而生成不同概率,经验回放池依据此概率抽取经验,使抽取训练的经验更新,更有效;
[0020]
5.q值估计采用两个不同的全连接层分开计算并加权的方式,使神经网络能更高效学习状态价值函数。
附图说明
[0021]
图1是一对一通信抗干扰场景示意图;
[0022]
图2是基于隐式对手建模的强化学习抗干扰通信方法流程图;
[0023]
图3是对手隐式建模的示意图;
[0024]
图4是经验回放机制的方法流程图;
[0025]
图5是干扰节点q-learning算法的实现流程图;
[0026]
图6是本发明针对q-learning算法干扰的第一次运行效果展示图;
[0027]
图7是本发明针对q-learning算法干扰的第二次运行效果展示图;
[0028]
图8是本发明针对q-learning算法干扰的第三次运行效果展示图;
[0029]
图9是dddqn(dueling double deep q-learning)抗干扰算法对q-learning算法干扰的第一次运行效果展示图;
[0030]
图10是dddqn(dueling double deep q-learning)抗干扰算法对q-learning算法干扰的第二次运行效果展示图。
具体实施方式
[0031]
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0032]
本发明的一种基于隐式对手建模的强化学习抗干扰通信方法利用一对一通信抗干扰模型,部署了q-learning强化学习算法的干扰节点对其频段干扰,通信节点获取干扰频段,同时将此刻通信频段结合送入训练神经网络中处理,以贪婪原则选择最优通信频段或者是随机频段进行通信;将所选动作,此动作产生的奖励,干扰频段与通信频段结合而成的环境状态,干扰频段与通信频段结合而成的环境状态输入到经验回放池中,当经验数量达到最小经验值时,从经验池中按照样本新旧生成概率,依据此不等概率抽取一定数量的经验更新目标神经网络的参数,经过一定步数之后将训练神经网络的参数同步为目标神经网络的参数。
[0033]
具体流程如下:
[0034]
1.使用python语言搭建一个模拟信道通信环境,环境设置为十个通信频段,用通信频段状态向量[a1,a2,a3,...,a
10
],设通信节点此时的通信频段为m,故设置向量[a1,a2,am,...,a
10
]代表此刻通信频段,其中am置为1,其他置为0,干扰状态为[p1,p2,...,p
10
],其中pn表示第n个频段的干扰信号功率,pn的范围为[0,10]。
[0035]
2.干扰节点与通信节点都能获取频段状态,时刻t通信频段状态[a1,a2,a3,...,a
10
]被干扰节点所知,同时干扰状态[p1,p2,...,p
10
]被通信节点所知。
[0036]
3.干扰节点使用通信频段向量[a1,a2,a3,...,a
10
]作为q-learning算法的输入,干扰节点维护一张q
ler
表格,q
ler
表格一个维度代表通信频段,另一个维度代表干扰频段,每次干扰都根据q
ler
表格选取选择下一时刻要干扰的三个频段d1,d2,d3,q
ler
表格依据如下公式更新,q(s
t
,a
t
)表示t时刻下状态s与
动作a的价值,指该时刻选择动作a得到的收益,α
ler
,γ
ler
是一个常量,取[0,1]之间,其中收益在干扰频段与通信频段相同时为r
suc_ler
,不同则为r
los_ler
。干扰频段选取选择根据ε-贪婪算法,随机产生一个随机数,若此随机数小于ε
ler
,则随机选择一个频段d与相邻两个频段d-1,d+1干扰,若随机数大于ε
ler
,则选择在(s,a)情况下的最大环境动作价值的频段d与d-1,d+1频段干扰。
[0037]
4.通信节点将干扰频段向量[p1,p2,p3,...,p
10
]与通信频段向量[a1,a2,a3,...,a
10
]结合生成一个大小为10*10的矩阵env,若三个干扰频段的中心为h,通信节点通信的频段为g,于是设置环境状态矩阵env中的(g,h)位置的元素为1,使用python的flatten()函数将其展开为长度为100的一维列表[1,100],此列表结合了通信频段状态与干扰频段状态。
[0038]
5.通信节点使用矩阵env作为环境状态,输入至训练神经网络中,训练神经网络首先包含两个全连接层,并且使用relu激活,得到的值分别送入两个不同的全连接层。这两个不同全连接层的输出分别为状态价值v,动作价值a,将v,a加权,加权函数为:
[0039][0040]
v(s,o),q(s,o,a),a(s,o,a)分别表示在干扰频段为s、通信频段为o时的状态估值、动作a的q值以及动作优势估值,代表所有动作数量之和,表示所有可行动作的动作优势估值之和。
[0041]
6.加权得到的数表示该干扰频段状态与通信频段状态下,在下一时刻通信节点选择各个频段的收益[q(n1|(s,o)),q(n2|(s,o)),...,q(n
10
|(s,o))],ni代表选取第i个频段通信。
[0042]
7.通信节点根据向量[q(n1|(s,o)),q(n2|(s,o)),...,q(n
10
|(s,o))]计算得到最大q值频段n
max
,基于ε-greey原则概率选取通信频段,随机产生一个随机数,若此随机数小于ε,则随机选择一个频段通信,若随机数大于ε,那么选择最大q值频段n
max
通信。
[0043]
8.若选择第n频段进行通信,干扰节点此刻选择的干扰频段d-1,d,d+1中包含第n频段,那么将通信奖励设置为r
los
,若不包含第n频段,则奖励设置为r
suc
;然后将所选动作n,此动作产生的奖励r,干扰频段状态与通信频段状态结合的矩阵env,下一时刻干扰频段状态与通信频段状态结合的矩阵env
next
合并生成一个经验元组输入到经验回放池中,当经验元组数量达到给定值min_batch时,从经验池中按照样本新旧产生优先级概率,依据此不均等概率抽取一定数量的经验,其中每个样本的概率使用公式获得,其中p
sample
意思使样本sample被选中的概率,t指当前时刻,n是当前时刻经验回放池中一共拥有的经验数量,是常数,且在[0,1]区间,靠近1的程度代表优先选择新样本的概率,越靠近1则越大。选择通过梯度下降算法对目标神经网络的参数θ2迭代更新,将神经网络的损失函数构造为均方误差的形式n代表的是样本的数量,γ是一个常数,取[0,1]之间,maxa′
q(si′
,n
′
)指的是下一个状态的最大q值,训练神经网络用于计
算q(si,ni)项,目标神经网络计算ri+γmaxa′
q(s
′i,n
′
)项。在c步之后将目标神经网络参数θ2更新至训练神经网络的参数θ1中。
[0044]
9.重复步骤3-8,直到达到最大循环值m时停止。
[0045]
下面结合具体参数给出实施例:
[0046]
步骤3中的r
suc_ler
设置为[9,10]之间的一个随机数,r
los_ler
设置为[-0.1,0]之间的一个随机数,ε
ler
=0.05,α
ler
=0.05,γ
ler
=0.95;步骤5中目标神经网络与训练神经网络的结构相同,第一层参数为(100,128)的全连接层,使用relu激活,第二层参数为(128,32)的全连接层,使用relu激活,一个求动作价值a的全连接层,参数为(32,10),一个求状态价值v的全连接层,参数为(32,1);步骤7中的ε=0.07;步骤8中的r
suc
设置为[10,11]之间的随机数,r
los
设置为[-0.1,0]之间的随机数,min_batch=100,α=0.2,神经网络学习率lr=0.002,γ=0.965,步骤c=50;步骤9中的m=2000。
[0047]
使用以上参数产生每一阶段的平均收益,一阶段20轮次,结果在图6-8中显示,若设本次动作收益r大于8,那么判定该动作决策成功。分别运行三次本发明得到抗干扰结果图,横轴代表阶段数,纵轴代表收益,其中图6表示第一次运行,其在后1000次动作的成功率为88.8%,图7表示第二次运行,其在后1000次动作的成功率为94.1%,图8表示第三次运行,其在后1000次动作的成功率为96.4%。
[0048]
若使用dddqn算法对干扰节点进行抵抗,分别运行两次该算法得到抗干扰结果图,横轴代表阶段数,纵轴代表收益,其中图9表示第一次运行,其在后1000次动作的成功率为76.0%,图10表示第二次运行,其在后1000次动作的成功率为82%。
[0049]
经过两者对比,发现决策成功率明显比dddqn抗干扰方法高,证明了本发明提出方法具有较好的抗智能干扰效果。
[0050]
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
技术特征:
1.一种基于隐式对手建模的强化学习抗干扰通信方法,其特征在于:所述方法包括以下步骤:步骤1:构建含有两个节点一对一进行通信的无线通信模型,同时干扰节点使用强化学习算法选择频段对通信节点干扰,三个节点处在同一个频谱空间中;步骤2:通信节点获得当前频谱空间被干扰节点干扰的情况,结合当前通信频段对干扰节点隐式建模,对建模整理成的数据加以处理送至神经网络中处理;步骤3:选择合适的通信频段进行通信并且将得到的信息储存到经验回放池;步骤4:当经验回放池中的经验数量达到给定值时,对经验池中的样本按照样本新旧生成被抽取概率,在经验池中抽取一定数量的经验更新神经网络的参数,并定时更新。2.根据权利要求1所述的方法,其特征在于,步骤1中,干扰节点的强化学习决策算法使用q-learning算法,干扰节点维护一张q
ler
表格,q
ler
表格一个维度代表通信频段,另一个维度代表干扰频段,每次干扰后都对q
ler
表格更新。3.根据权利要求1所述的方法,其特征在于,步骤2中,一共分为10个通信频段,通信节点感知当前时刻被干扰的频段,干扰状态用一个向量[p1,p2,p3,...,p
10
]表示,其中p
n
表示第n个频段的干扰信号功率;设通信节点此时的通信频段为m,故设置向量[a1,a2,a3,...,a
10
]代表此刻通信频段,其中a
m
置为1,其他置为0;将向量[p1,p2,p3,...,p
10
][a1,a2,a3,...,a
10
]结合生成一个大小为10*10的矩阵,代表结合了干扰状态与通信频段的环境状态空间;使用训练神经网络和目标神经网络处理所提环境状态空间矩阵,其中这两个网络的结构相同,包括四个全连接层;将大小为10*10的矩阵展平为长度100的列表送入训练神经网络,首先将列表送入前两层神经网络,然后将得到的输出分为两路,分别送至两个不同的全连接层,将两个全连接层的输出加权得到最终结果。4.根据权利要求1所述的方法,其特征在于,步骤3中,根据ε-贪婪算法,随机产生一个随机数,若此随机数小于ε,则随机选择一个频段通信,若随机数大于ε,则选择当前情况下的最大状态动作价值的频段通信。5.根据权利要求3所述的方法,其特征在于,步骤4中,从经验池中按照经验新旧生成每个经验被抽取的概率,依据此概率抽取一定数量的经验,其中每个样本的概率使用公式获得,p
sample
是经验sample被选中的概率,t指当前时刻,n是当前时刻经验回放池中一共拥有的经验数量,是常数,且在[0,1]区间,靠近1的程度代表优先选择新样本的概率,越靠近1则概率越大,通过梯度下降算法对目标神经网络的参数θ2迭代更新,c步之后将目标神经网络参数θ2更新至训练神经网络的参数θ1中。
技术总结
本发明提出一种基于隐式对手建模的强化学习抗干扰通信方法。该方法包括:搭建一对一通信抗干扰模型,通信节点获取强化学习智能干扰节点干扰频段信息,将此信息与通信节点通信频段信息结合为隐含干扰节点建模信息的环境状态,将此环境状态送至神经网络处理,根据贪婪算法选出通信频段,通信完成后将选择的频段,此时的奖励,环境状态与下一时隙环境状态组成经验元组输入到经验回放池中,按照样本新旧优先级产生不等概率,依概率抽取经验,优化神经网络参数。本发明利用干扰节点历史干扰信息,对其隐式建模,结合深度强化学习算法以获取抵抗该智能干扰的能力。取抵抗该智能干扰的能力。取抵抗该智能干扰的能力。
技术研发人员:侯长波 马鹏 周志超 林佳昕 刘秦 蒋睿
受保护的技术使用者:哈尔滨工程大学
技术研发日:2023.06.07
技术公布日:2023/10/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/