基于深度强化学习和RawI/Q的射频指纹识别方法及相关装置

文档序号:35336484发布日期:2023-09-06 23:13阅读:109来源:国知局
基于深度强化学习和RawI/Q的射频指纹识别方法及相关装置

本发明属于射频指纹识别,特别涉及基于深度强化学习和raw i/q的射频指纹识别方法及相关装置。


背景技术:

1、射频指纹识别技术是自动识别技术的一个门类,最初应用于敌机识别,之后随着研究者们的不断发展研究,射频指纹技术也逐渐应用在无线设备识别中。射频指纹是由设备的电子元件在生产时产生的各种特有硬件属性构成的,这种特征不会因为无线传输的调制方式,传输信息内容而改变,故广泛应用于设备识别领域中。

2、而随着机器学习的不断发展以及与各个领域的交叉应用,射频指纹的特征提取步骤由传统的手工设计特征转变为使用神经网络模型来学习隐藏特征。有研究指出手工设计特征可以被伪造,例如对基带信号的操作可以改变载波频率偏移和相位偏移,而深度学习方法由于没有显性的特征设计方案,更难伪造。

3、但是由于电磁环境愈发复杂,且在某些未知环境下数据集的采集十分困难,故研究如何充分利用规模小的,有限的数据集是有必要的。深度学习方法在大规模数据集的辐射源识别中表现出卓越的效果,但是对于小规模数据集常常出现过拟合,导致识别率低。


技术实现思路

1、本发明的目的在于提供基于深度强化学习和raw i/q的射频指纹识别方法及相关装置,以解决小规模数据集常常出现过拟合,导致识别率低的问题。

2、为实现上述目的,本发明采用以下技术方案:

3、第一方面,本发明提供基于深度强化学习和raw i/q的射频指纹识别方法,包括:

4、对用户ue设备采集i/q样本数据;

5、自定义搭建用户ue设备识别的样本环境,搭建一维神经网络模型cnn;

6、结合自定义的样本环境以及搭建的神经网络模型cnn,对样本数据进行dqn强化学习;

7、结合dqn强化学习设计奖励函数,对样本数据进行训练,在不同的训练步数下,识别准确率变化的仿真验证。

8、可选的,采集i/q样本数据时通过修改lte射频发射器的属性,包括同向正交iq不平衡,相位噪声和功率放大器增益,区分为5个硬件属性不同的设备。

9、可选的,每个设备采集100个iq数据样本,每个样本长度为7680*1,数据集按照7:2:1分为训练集,验证集,测试集。

10、可选的,环境包含了样本选取函数,动作奖励函数,动作执行函数以及状态重置函数。

11、可选的,结合自定义的样本环境以及搭建的神经网络模型cnn,对样本数据进行dqn强化学习:

12、定义环境:环境的状态定义为样本,每个不同的样本代表不同的状态,在执行判断动作后进入下一个样本,同时由自定义的奖惩机制返回reward;

13、∈-greedy策略:epsilon参数设置在(0.01,1)之间线性衰减,衰减系数设置为0.0001;当随机数小于epsilon时,随机选取动作,否则选取最大q值的动作;

14、cnn模型拟合q表,输出不同状态下各个动作的q值,q值按照下列公式更新:

15、q_new(critic)=old_q(target)+alpha*(r+gamma*max(q’(target))-old_q);

16、实验设置全局参数alpha=0.5,gama=0.5,cnn包含4个卷积层,两个最大池化层,激活函数使用tanh函数,以及最后输出层使用dense层;

17、experience replay,首先建立经验池memorry,在未达到最小采样长度时,持续探索并且保存每次探索的结果(s,a,r,s’);经验池达到最小采样长度后,随机采样经验池中的数据进行训练学习;

18、训练dqn,首先初始化环境,得到初始状态,然后由贪心函数选取动作并得到对应的q值,再与环境交互,得到下一个状态以及本动作的奖赏;由下一状态的q值计算出loss,返回训练,并将状态更新为下一状态,至此完成一次学习;达到预设学习次数后,将critic网络参数复制给target网络,直到循环结束。

19、可选的,设计奖励函数,针对不同数量的设备识别,奖励函数不一致:设备数目为5,奖励函数设计为,判断动作正确奖励10分,动作与实际目标差距为1扣1分,差距为2扣2分,差距为3扣3分,差距为4扣4分;判断错误的惩罚由判断动作与实际目标之间的差异大小决定,二者差距越大,奖励越小。

20、可选的,训练过程:

21、完成在200,400,600,1000,2000,4000的训练步数下,识别准确率变化的仿真验证;并在训练步数为4000下,完成信噪比分别为20db,30db,40db的仿真训练。

22、第二方面,本发明提供基于深度强化学习和raw i/q的射频指纹识别系统,包括:

23、数据采集模块,用于对用户ue设备采集i/q样本数据;

24、环境搭建模块,用于自定义搭建用户ue设备识别的样本环境,搭建一维神经网络模型cnn;

25、强化学习模块,用于结合自定义的样本环境以及搭建的神经网络模型cnn,对样本数据进行dqn强化学习;

26、训练输出模块,用于结合dqn强化学习设计奖励函数,对样本数据进行训练,在不同的训练步数下,识别准确率变化的仿真验证。

27、第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于深度强化学习和raw i/q的射频指纹识别方法的步骤。

28、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于深度强化学习和raw i/q的射频指纹识别方法的步骤。

29、与现有技术相比,本发明有以下技术效果:

30、本发明针对信道环境以及信号调制未知,样本数据难以大量收集的情景,提出基于强化学习的射频指纹识别技术。利用强化学习不需要标注大量数据标签,以及不需要很精细的特征提取步骤的优点,对ue设备采集的i/q样本数据进行训练,实现了dqn与射频指纹识别技术的结合。实验结果表明在小样本数量下,深度强化学习与监督学习相比,能够更快的提高设备识别准确率,并且准确率达到98%以上。其优点具体如下:

31、第一:方案采用了基于raw iq的射频指纹,利用发射端射频传输中的iq调制器属性的差异来区别不同设备。相比传统的射频指纹识别技术,本方案对收集的样本未进行复杂的特征提取,且不需要预知调制方式,信道环境等先验知识,直接利用原始iq数据的幅值,相位特征进行学习。

32、第二:方案结合了深度强化学习框架。在接收端采集样本的昂贵成本条件下,有限的数据样本并不能使模型充分学习数据与标签之间的非线性映射关系,从而导致识别准确率无法达到预期值;而深度强化学习可以在探索与利用之间折中权衡,利用已采集的样本数据来获取奖励,在初期学习时能够记忆并快速学习潜在特征,使未来可以获得更好的动作选择,从而使样本数据得到充分利用。

33、第三:针对设备识别与dqn算法的结合,本方案自定义了适用于设备识别的强化学习环境,并针对由离散动作空间和状态空间导致的回报稀疏问题,设计了奖励函数,对比分析了不同奖励方式下准确率的差异,实验表明设计后的奖励函数使得算法识别准确率得到显著提高。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1