基于深度强化学习和RawI/Q的射频指纹识别方法及相关装置

未命名 09-08 阅读:270 评论:0

基于深度强化学习和rawi/q的射频指纹识别方法及相关装置
技术领域
1.本发明属于射频指纹识别技术领域,特别涉及基于深度强化学习和raw i/q的射频指纹识别方法及相关装置。


背景技术:

2.射频指纹识别技术是自动识别技术的一个门类,最初应用于敌机识别,之后随着研究者们的不断发展研究,射频指纹技术也逐渐应用在无线设备识别中。射频指纹是由设备的电子元件在生产时产生的各种特有硬件属性构成的,这种特征不会因为无线传输的调制方式,传输信息内容而改变,故广泛应用于设备识别领域中。
3.而随着机器学习的不断发展以及与各个领域的交叉应用,射频指纹的特征提取步骤由传统的手工设计特征转变为使用神经网络模型来学习隐藏特征。有研究指出手工设计特征可以被伪造,例如对基带信号的操作可以改变载波频率偏移和相位偏移,而深度学习方法由于没有显性的特征设计方案,更难伪造。
4.但是由于电磁环境愈发复杂,且在某些未知环境下数据集的采集十分困难,故研究如何充分利用规模小的,有限的数据集是有必要的。深度学习方法在大规模数据集的辐射源识别中表现出卓越的效果,但是对于小规模数据集常常出现过拟合,导致识别率低。


技术实现要素:

5.本发明的目的在于提供基于深度强化学习和raw i/q的射频指纹识别方法及相关装置,以解决小规模数据集常常出现过拟合,导致识别率低的问题。
6.为实现上述目的,本发明采用以下技术方案:
7.第一方面,本发明提供基于深度强化学习和raw i/q的射频指纹识别方法,包括:
8.对用户ue设备采集i/q样本数据;
9.自定义搭建用户ue设备识别的样本环境,搭建一维神经网络模型cnn;
10.结合自定义的样本环境以及搭建的神经网络模型cnn,对样本数据进行dqn强化学习;
11.结合dqn强化学习设计奖励函数,对样本数据进行训练,在不同的训练步数下,识别准确率变化的仿真验证。
12.可选的,采集i/q样本数据时通过修改lte射频发射器的属性,包括同向正交iq不平衡,相位噪声和功率放大器增益,区分为5个硬件属性不同的设备。
13.可选的,每个设备采集100个iq数据样本,每个样本长度为7680*1,数据集按照7:2:1分为训练集,验证集,测试集。
14.可选的,环境包含了样本选取函数,动作奖励函数,动作执行函数以及状态重置函数。
15.可选的,结合自定义的样本环境以及搭建的神经网络模型cnn,对样本数据进行dqn强化学习:
16.定义环境:环境的状态定义为样本,每个不同的样本代表不同的状态,在执行判断动作后进入下一个样本,同时由自定义的奖惩机制返回reward;
17.∈-greedy策略:epsilon参数设置在(0.01,1)之间线性衰减,衰减系数设置为0.0001;当随机数小于epsilon时,随机选取动作,否则选取最大q值的动作;
18.cnn模型拟合q表,输出不同状态下各个动作的q值,q值按照下列公式更新:
19.q_new(critic)=old_q(target)+alpha*(r+gamma*max(q’(target))-old_q);
20.实验设置全局参数alpha=0.5,gama=0.5,cnn包含4个卷积层,两个最大池化层,激活函数使用tanh函数,以及最后输出层使用dense层;
21.experience replay,首先建立经验池memorry,在未达到最小采样长度时,持续探索并且保存每次探索的结果(s,a,r,s’);经验池达到最小采样长度后,随机采样经验池中的数据进行训练学习;
22.训练dqn,首先初始化环境,得到初始状态,然后由贪心函数选取动作并得到对应的q值,再与环境交互,得到下一个状态以及本动作的奖赏;由下一状态的q值计算出loss,返回训练,并将状态更新为下一状态,至此完成一次学习;达到预设学习次数后,将critic网络参数复制给target网络,直到循环结束。
23.可选的,设计奖励函数,针对不同数量的设备识别,奖励函数不一致:设备数目为5,奖励函数设计为,判断动作正确奖励10分,动作与实际目标差距为1扣1分,差距为2扣2分,差距为3扣3分,差距为4扣4分;判断错误的惩罚由判断动作与实际目标之间的差异大小决定,二者差距越大,奖励越小。
24.可选的,训练过程:
25.完成在200,400,600,1000,2000,4000的训练步数下,识别准确率变化的仿真验证;并在训练步数为4000下,完成信噪比分别为20db,30db,40db的仿真训练。
26.第二方面,本发明提供基于深度强化学习和raw i/q的射频指纹识别系统,包括:
27.数据采集模块,用于对用户ue设备采集i/q样本数据;
28.环境搭建模块,用于自定义搭建用户ue设备识别的样本环境,搭建一维神经网络模型cnn;
29.强化学习模块,用于结合自定义的样本环境以及搭建的神经网络模型cnn,对样本数据进行dqn强化学习;
30.训练输出模块,用于结合dqn强化学习设计奖励函数,对样本数据进行训练,在不同的训练步数下,识别准确率变化的仿真验证。
31.第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于深度强化学习和raw i/q的射频指纹识别方法的步骤。
32.第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于深度强化学习和raw i/q的射频指纹识别方法的步骤。
33.与现有技术相比,本发明有以下技术效果:
34.本发明针对信道环境以及信号调制未知,样本数据难以大量收集的情景,提出基于强化学习的射频指纹识别技术。利用强化学习不需要标注大量数据标签,以及不需要很
精细的特征提取步骤的优点,对ue设备采集的i/q样本数据进行训练,实现了dqn与射频指纹识别技术的结合。实验结果表明在小样本数量下,深度强化学习与监督学习相比,能够更快的提高设备识别准确率,并且准确率达到98%以上。其优点具体如下:
35.第一:方案采用了基于raw iq的射频指纹,利用发射端射频传输中的iq调制器属性的差异来区别不同设备。相比传统的射频指纹识别技术,本方案对收集的样本未进行复杂的特征提取,且不需要预知调制方式,信道环境等先验知识,直接利用原始iq数据的幅值,相位特征进行学习。
36.第二:方案结合了深度强化学习框架。在接收端采集样本的昂贵成本条件下,有限的数据样本并不能使模型充分学习数据与标签之间的非线性映射关系,从而导致识别准确率无法达到预期值;而深度强化学习可以在探索与利用之间折中权衡,利用已采集的样本数据来获取奖励,在初期学习时能够记忆并快速学习潜在特征,使未来可以获得更好的动作选择,从而使样本数据得到充分利用。
37.第三:针对设备识别与dqn算法的结合,本方案自定义了适用于设备识别的强化学习环境,并针对由离散动作空间和状态空间导致的回报稀疏问题,设计了奖励函数,对比分析了不同奖励方式下准确率的差异,实验表明设计后的奖励函数使得算法识别准确率得到显著提高。
附图说明
38.图1是本发明的dqn的流程图;
39.图2是本发明的数据采集模块图;
40.图3是本发明cnn模型;
41.图4是本发明的数据预处理流程图;
42.图5是本发明的奖惩函数优化前后结果对比图。
具体实施方式
43.以下结合附图对本发明进一步说明:
44.请参阅图1至图5,本发明提供一种基于深度强化学习的ue无线设备识别方法,能够在难以对数据标注标签值以及样本数据收集困难的情况下,对不同ue设备进行识别分类,并且有98%的高准确率。本发明也对比分析了在不同信噪比下,算法的性能变化。在dqn算法优化方面,对奖励函数进行了设计调整,使其避免在多次迭代中陷入局部最优策略。
45.本发明针对信道环境以及信号调制未知,样本数据难以大量收集的情景,提出基于深度强化学习的射频指纹识别技术。利用强化学习不需要标注大量数据标签,以及不需要很精细的特征提取步骤的优点,对ue设备采集的i/q样本数据进行训练,实现了dqn与射频指纹识别技术的结合。在dqn算法优化方面,对奖励函数进行了设计调整:奖励函数设计为,判断动作正确奖励10分,动作与实际目标差距为1扣1分,差距为2扣2分,差距为3扣3分,差距为4扣4分。判断错误的惩罚力度由判断动作与实际目标之间的差异大小决定,二者差距越大,奖励越小。且为防止出现在探索中智能体陷入原地踏步的情形,所有判断错误的奖励均为扣分,此设计不仅可以防止智能体陷入局部最优的死循环,还可以督促智能体更加快速的学习正确的判断。
46.本发明通过以下技术方案实现:
47.一种基于深度强化学习的ue设备识别仿真方法:
48.步骤1,根据实验目的,需要在simulink上仿真lte rf transmitter示例(图2),采集得到5个不同ue设备的数据样本。本发明通过修改lte射频发射器的属性,包括同向正交(iq)不平衡,相位噪声和功率放大器增益,将其区分为5个硬件属性不同的设备(各个设备属性参数如表1),每个设备采集100个iq数据样本,每个样本长度为7680*1,数据集按照7:2:1分为训练集,验证集,测试集。处理过程如图4所示。
49.表1lte射频发射器参数设置
50.设备idi/q_gaini/q_phasevga_noisehpa_gainhpa_noisehpa_ip311.1852.5137.34821.64.1313.4197.2253443.72073941.24.92.7237.34551.15.22.537.150
51.步骤2,根据需求分析,编写dqn代码仿真。自定义针对ue设备识别的环境,环境框架仿照openai环境框架结构,编写的环境包含了样本选取函数,动作奖励函数,动作执行函数以及状态重置函数。
52.步骤3,搭建拟合效果良好的一维cnn(模型结构如图3),用于输出不同状态的q值。
53.步骤4,搭建完整dqn框架(伪代码流程如下表),结合自定义的样本环境以及搭建的cnn,对样本数据进行探索学习。
54.[0055][0056]
步骤5,设计奖励函数,针对不同数量的设备识别,奖励函数不一致。本发明实验设备数目为5,奖励函数设计为,判断动作正确奖励10分,动作与实际目标差距为1扣1分,差距为2扣2分,差距为3扣3分,差距为4扣4分。判断错误的惩罚由判断动作与实际目标之间的差异大小决定,二者差距越大,奖励越小。且为防止出现在探索中智能体陷入原地踏步的情形,所有判断错误的奖励均为扣分,此设计不仅可以防止智能体陷入局部最优的死循环,还可以督促智能体更加快速的学习正确的判断。
[0057]
步骤6,在完成所有仿真部分设计后,对样本进行训练。完成在200,400,600,1000,2000,4000的训练步数下,识别准确率变化的仿真验证。并在训练步数为4000下,完成信噪比分别为20db,30db,40db的仿真训练。
[0058]
信噪比/db203040识别准确率0.50.840.98
[0059]
参阅图2所示,本发明采集使用原始rf数据样本作为强化学习的输入状态。数据采集环境设置为awgn信道,噪声影响为高斯白噪声,设置信道的信噪比为40db,修改rf transmitter的参数,采集停止时间设置为0.1s。
[0060]
参阅图1所示dqn实现流程图:
[0061]
(1)定义环境:环境的状态定义为我们的样本,每个不同的样本代表不同的状态,在执行判断动作后进入下一个样本,同时由自定义的奖惩机制返回reward。
[0062]
(2)∈-greedy策略:epsilon参数设置在(0.01,1)之间线性衰减,衰减系数设置为0.0001。当随机数小于epsilon时,随机选取动作,否则选取最大q值的动作。
[0063]
(3)cnn模型拟合q表,输出不同状态下各个动作的q值。q值按照下列公式更新:
[0064]
q_new(critic)=old_q(target)+alpha*(r+gamma*max(q’(target))-old_q);
[0065]
实验设置全局参数alpha=0.5,gama=0.5,cnn包含4个卷积层,两个最大池化层,激活函数使用tanh函数,以及最后输出层使用dense层。具体卷积通道数以及卷积核大小设置如图2所示。
[0066]
(4)experience replay,首先建立经验池memorry,在未达到最小采样长度时,持续探索并且保存每次探索的结果(s,a,r,s’);经验池达到最小采样长度后,随机采样经验池中的数据进行训练学习。
[0067]
(5)开始训练dqn,首先初始化环境,得到初始状态,然后由贪心函数选取动作并得到对应的q值,再与环境交互,得到下一个状态以及本动作的奖赏。由下一状态的q值计算出loss,返回训练,并将状态更新为下一状态,至此完成一次学习。一定学习次数后,将critic网络参数复制给target网络,直到循环结束。
[0068]
参阅图5,基于深度强化学习的ue设备识别方法与基于cnn的方法相比,在训练步数低于1000时,我们的dqn模型能够更快的从小批量样本中,学习做出正确的判断;基于dqn的奖惩机制改进前,奖惩机制为判断正确加一分,判断错误扣一分,最终识别准确度只有0.8,并且在训练步数2000以后,准确率基本不变。本方案设置奖惩机制为判断正确加10分,判断错误扣分,且惩罚大小由做出的判断与正确目标之间差距大小决定(例如差值为1扣1分,差值为3扣3分,依次逐步增大惩罚力度),最终达到0.98的识别准确度。
[0069]
本发明再一实施例中,提供基于深度强化学习和raw i/q的射频指纹识别系统,能够用于实现上述的基于深度强化学习和raw i/q的射频指纹识别方法,具体的,该系统包括:
[0070]
数据采集模块,用于对用户ue设备采集i/q样本数据;
[0071]
环境搭建模块,用于自定义搭建用户ue设备识别的样本环境,搭建一维神经网络模型cnn;
[0072]
强化学习模块,用于结合自定义的样本环境以及搭建的神经网络模型cnn,对样本数据进行dqn强化学习;
[0073]
训练输出模块,用于结合dqn强化学习设计奖励函数,对样本数据进行训练,在不同的训练步数下,识别准确率变化的仿真验证。
[0074]
本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0075]
本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于
执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor、dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于深度强化学习和raw i/q的射频指纹识别方法的操作。
[0076]
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关基于深度强化学习和raw i/q的射频指纹识别方法的相应步骤。
[0077]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0078]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0079]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0080]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0081]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然
可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

技术特征:
1.基于深度强化学习和raw i/q的射频指纹识别方法,其特征在于,包括:对用户ue设备采集i/q样本数据;自定义搭建用户ue设备识别的样本环境,搭建一维神经网络模型cnn;结合自定义的样本环境以及搭建的神经网络模型cnn,对样本数据进行dqn强化学习;结合dqn强化学习设计奖励函数,对样本数据进行训练,在不同的训练步数下,识别准确率变化的仿真验证。2.根据权利要求1所述的基于深度强化学习和raw i/q的射频指纹识别方法,其特征在于,采集i/q样本数据时通过修改lte射频发射器的属性,包括同向正交iq不平衡,相位噪声和功率放大器增益,区分为5个硬件属性不同的设备。3.根据权利要求2所述的基于深度强化学习和raw i/q的射频指纹识别方法,其特征在于,每个设备采集100个iq数据样本,每个样本长度为7680*1,数据集按照7:2:1分为训练集,验证集,测试集。4.根据权利要求1所述的基于深度强化学习和raw i/q的射频指纹识别方法,其特征在于,环境包含了样本选取函数,动作奖励函数,动作执行函数以及状态重置函数。5.根据权利要求1所述的基于深度强化学习和raw i/q的射频指纹识别方法,其特征在于,结合自定义的样本环境以及搭建的神经网络模型cnn,对样本数据进行dqn强化学习:定义环境:环境的状态定义为样本,每个不同的样本代表不同的状态,在执行判断动作后进入下一个样本,同时由自定义的奖惩机制返回reward;∈-greedy策略:epsilon参数设置在(0.01,1)之间线性衰减,衰减系数设置为0.0001;当随机数小于epsilon时,随机选取动作,否则选取最大q值的动作;cnn模型拟合q表,输出不同状态下各个动作的q值,q值按照下列公式更新:q_new(critic)=old_q(target)+alpha*(r+gamma*max(q’(target))-old_q);实验设置全局参数alpha=0.5,gama=0.5,cnn包含4个卷积层,两个最大池化层,激活函数使用tanh函数,以及最后输出层使用dense层;experience replay,首先建立经验池memorry,在未达到最小采样长度时,持续探索并且保存每次探索的结果(s,a,r,s’);经验池达到最小采样长度后,随机采样经验池中的数据进行训练学习;训练dqn,首先初始化环境,得到初始状态,然后由贪心函数选取动作并得到对应的q值,再与环境交互,得到下一个状态以及本动作的奖赏;由下一状态的q值计算出loss,返回训练,并将状态更新为下一状态,至此完成一次学习;达到预设学习次数后,将critic网络参数复制给target网络,直到循环结束。6.根据权利要求1所述的基于深度强化学习和raw i/q的射频指纹识别方法,其特征在于,设计奖励函数,针对不同数量的设备识别,奖励函数不一致:设备数目为5,奖励函数设计为,判断动作正确奖励10分,动作与实际目标差距为1扣1分,差距为2扣2分,差距为3扣3分,差距为4扣4分;判断错误的惩罚由判断动作与实际目标之间的差异大小决定,二者差距越大,奖励越小。7.根据权利要求1所述的基于深度强化学习和raw i/q的射频指纹识别方法,其特征在于,训练过程:完成在200,400,600,1000,2000,4000的训练步数下,识别准确率变化的仿真验证;并
在训练步数为4000下,完成信噪比分别为20db,30db,40db的仿真训练。8.基于深度强化学习和raw i/q的射频指纹识别系统,其特征在于,包括:数据采集模块,用于对用户ue设备采集i/q样本数据;环境搭建模块,用于自定义搭建用户ue设备识别的样本环境,搭建一维神经网络模型cnn;强化学习模块,用于结合自定义的样本环境以及搭建的神经网络模型cnn,对样本数据进行dqn强化学习;训练输出模块,用于结合dqn强化学习设计奖励函数,对样本数据进行训练,在不同的训练步数下,识别准确率变化的仿真验证。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于深度强化学习和raw i/q的射频指纹识别方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于深度强化学习和raw i/q的射频指纹识别方法的步骤。

技术总结
基于深度强化学习和Raw I/Q的射频指纹识别方法及相关装置,包括:对用户UE设备采集I/Q样本数据;自定义搭建用户UE设备识别的样本环境,搭建一维神经网络模型CNN;结合自定义的样本环境以及搭建的神经网络模型CNN,对样本数据进行DQN强化学习;结合DQN强化学习设计奖励函数,对样本数据进行训练,在不同的训练步数下,识别准确率变化的仿真验证。利用强化学习不需要标注大量数据标签,以及不需要很精细的特征提取步骤的优点,对UE设备采集的I/Q样本数据进行训练,实现了DQN与射频指纹识别技术的结合。实验结果表明在小样本数量下,深度强化学习与监督学习相比,能够更快的提高设备识别准确率,并且准确率达到98%以上。并且准确率达到98%以上。并且准确率达到98%以上。


技术研发人员:徐东阳 叶蛟
受保护的技术使用者:西安交通大学
技术研发日:2023.05.18
技术公布日:2023/9/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐