一种电磁频谱博弈智能训练装置和方法

文档序号:38625390发布日期:2024-07-12 11:28阅读:15来源:国知局
一种电磁频谱博弈智能训练装置和方法

本发明涉及电磁空间安全领域,具体涉及一种电磁频谱博弈智能训练装置和方法。


背景技术:

1、目前,现有频谱博弈过程,干扰方往往依赖专家经验、先验知识,在有限数据条件下进行单方离线模型训练,得到的识别和对抗算法模型很难实现对不同场景、不同任务、不同目标的直接使用,更难以在“有智”对“有智”、智能与反智能的闭环博弈对抗条件下实现模型的自我演进和自主生长。当前电磁频谱博弈的训练过程,存在以下问题:

2、一方面,面向复杂未知目标实时博弈,智能算法研究与模型训练缺少高质量、大样本、多模态数据和对抗目标支持。当前人工智能研究需要依赖大量的样本数据进行学习,但实际频谱博弈领域存在研究缺少多模态、大样本数据支持。实际频谱数据获取难度大、样本量小、多样性不足,单方离线模型训练很难直接使用,更难以实现模型的自我演进。此外,电磁空间瞬息万变,采集的大量数据存在片面残缺,高质量数据少等问题,而实际频谱博弈过程数据采集难度大,复用难度高;实际外场试验过程中,受人员、场地、经费限制,数据采集仅仅是针对当下特定场景,难以全面反映实际情况,而且数据量少、成本高、积累周期长;频谱博弈领域,频谱仿真主要以功能特征级仿真为主,虽然数据生成速度快、规模大,但是数据逼真度低,与实际信号级数据差异较大。

3、另一方面,频谱感知、认知与干扰算法多样,但当前电磁频谱博弈智能研究缺少对抗目标与环境支撑。智能算法的功能、性能指标并不为使用者甚至是设计者熟知。如何基于智能模型,构建有效的电磁频谱博弈智能训练装置和方法,是当前急需解决的问题。


技术实现思路

1、本发明所要解决的技术问题在于,提供一种电磁频谱博弈智能训练装置和方法,解决当前电磁频谱博弈的训练过程存在的面向复杂未知目标实时博弈,智能算法研究与模型训练缺少高质量、大样本、多模态数据和对抗目标支持的问题,推进智能模型在电磁频谱博弈智能训练中的有效应用。

2、为了解决上述技术问题,本发明实施例第一方面公开了一种电磁频谱博弈智能训练装置,包括:基础设施层和硬件资源层;

3、所述基础设施层,与硬件资源层相连接,用于对电磁频谱博弈智能训练过程进行控制,提供数据资源和计算资源;

4、所述硬件资源层,用于实现电磁频谱博弈过程中的信号产生、信道模拟和环境模拟;

5、所述基础设施层,包括频谱对抗博弈控制分系统、数据和资源管理分系统;

6、所述频谱对抗博弈控制分系统,与数据和资源管理分系统连接,用于生成和显示频谱对抗博弈的仿真场景,对频谱对抗博弈训练过程进行控制;对频谱对抗博弈训练过程进行评估,得到对抗效果评估信息和训练效果评估信息;

7、所述数据和资源管理分系统,用于对电磁频谱博弈智能训练过程中各个分系统产生的数据进行采集和存储,对所述硬件资源层进行资源管理;存储用于训练干扰决策评估模型的离线数据集。

8、所述硬件资源层,包括可编程目标模拟分系统、软件定义干扰侧模拟分系统、射频信道模拟分系统、复杂环境模拟分系统;

9、所述可编程目标模拟分系统,与所述频谱对抗博弈控制分系统以及数据和资源管理分系统连接,用于产生目标信号;接收得到所述射频信道模拟分系统发出的信道目标信号和信道干扰信号,对所述信道目标信号和信道干扰信号进行处理,得到结果目标信号;将所述结果目标信号发送至所述频谱对抗博弈控制分系统;

10、所述软件定义干扰侧模拟分系统,与所述频谱对抗博弈控制分系统以及数据和资源管理分系统连接,用于接收得到所述射频信道模拟分系统发出的信道目标信号,对所述信道目标信号进行信号特征提取处理,得到信号特征信息;对所述信号特征信息进行干扰决策处理,得到相应的干扰信号,将所述干扰信号发送至所述射频信道模拟分系统;

11、所述射频信道模拟分系统,与所述频谱对抗博弈控制分系统以及数据和资源管理分系统连接,用于对射频信道进行模拟,对输入信号进行衰减和叠加环境信号处理;

12、所述复杂环境模拟分系统,与所述频谱对抗博弈控制分系统以及数据和资源管理分系统连接,用于基于所述背景目标信息的辐射信号,产生环境信号,将所述环境信号发送至所述射频信道模拟分系统。

13、所述软件定义干扰侧模拟分系统,包括信号侦察模块、干扰决策模块、干扰信号产生模块;

14、所述信号侦察模块,用于对接收信号进行信号特征提取处理,得到信号特征信息;所述信号特征信息,包括载频、带宽、码元速率、幅度、调制类型;

15、所述干扰决策模块,采用训练完毕的干扰决策评估模型来实现;

16、所述干扰信号产生模块,用于接收所述干扰决策模块得到的干扰信号参数;根据所述干扰信号参数,产生对应的干扰信号;所述干扰信号参数,包括干扰信号中心频率、带宽、占空比、调制方式。

17、所述干扰决策评估模型,包括输入模块、评估模块、决策网络;所述评估模块,包括行为评估网络和目标评估网络;

18、所述输入模块,利用输入端接收数据,并利用各个输出端,将所述数据输出;

19、所述决策网络的输入端,与所述输入模块的输出端相连接;

20、所述行为评估网络的输入端,与所述输入模块的输出端相连接;

21、所述行为评估网络的输出端,与所述目标评估网络的输入端相连接;

22、所述决策网络的输入端,与所述目标评估网络的输出端相连接;

23、所述行为评估网络的输入端,与所述决策网络的输出端相连接;

24、所述决策网络,包括:第一输入层、第一隐藏层、第一上采样层、第一卷积层、第二隐藏层、第三隐藏层和第一输出层;

25、所述行为评估网络,包括:第二输入层、第四隐藏层、第二上采样层、第五隐藏层、第二卷积层、第一残差注意力层和第二输出层;

26、所述目标评估网络,包括:第三输入层、第六隐藏层、第七隐藏层、第八隐藏层和第三输出层;

27、所述第一至第八隐藏层,均采用全连接网络来实现;

28、所述行为评估网络,用于对输入的信号特征信息和干扰信号参数进行处理,得到第一估计值;利用参数更新值,对其参数进行更新;

29、所述目标评估网络,对所述信号特征信息和干扰信号参数进行处理,得到干扰效果值;利用参数更新值,对其参数进行更新;

30、所述决策网络,用于对所述信号特征信息、干扰效果值进行处理,得到干扰信号参数;利用参数更新值,对其参数进行更新。

31、所述干扰决策评估模型的训练过程,包括:

32、s1,随机初始化所述干扰决策评估模型的评估模块和决策网络的参数;初始化训练次数值为1;获取离线数据集;所述离线数据集,包括离线数据;每个离线数据,包括信号特征信息、干扰信号参数和干扰效果值;所述干扰效果值,通过对抗效果评估信息获得;

33、s2,将所述离线数据集进行随机抽样,得到抽样数据集;将所述抽样数据集中的信号特征信息,输入所述雷达干扰决策评估模型;

34、s3,利用所述干扰决策评估模型对输入数据进行处理,得到信号特征信息对应的干扰信号参数和干扰效果值;

35、s4,采用第一参数更新模型对所述行为评估网络和目标评估网络进行参数更新;

36、s5,采用第二参数更新模型对所述决策网络进行参数更新;

37、s6,使训练次数值增加1,判断所述训练次数值是否大于设定的训练阈值,若不大于所述训练阈值,判断所有得到的干扰效果值之和,是否大于所述抽样数据集中的所有干扰效果值之和,若大于所述抽样数据集中的所有干扰效果值之和,完成对所述干扰决策评估模型的训练过程,若不大于所述抽样数据集中的所有干扰效果值之和,执行s2;若大于所述训练阈值,完成对所述干扰决策评估模型的训练过程。

38、所述第一参数更新模型,其计算表达式为:

39、

40、θ←0+v;

41、式中,当对行为评估网络进行参数更新时,x(i)为所述抽样数据集中的第i个数据的干扰信号参数,当对目标评估网络进行参数更新时,x(i)为所述抽样数据集中的第i个数据的干扰效果值,为损失函数,v为参数更新值,θ为所述行为评估网络或目标评估网络的参数,η为初始参数学习率,α为第一调整参数,0≤α≤1,表示针对变量θ求偏导数,f(x(i);θ)表示所述行为评估网络对所述抽样数据集中的第i个数据计算得到的第一估计值,或者,所述目标评估网络对所述抽样数据集中的第i个数据计算得到的干扰效果值,f(·)为所述行为评估网络或目标评估网络对应的计算函数;exp表示常数e的幂运算;η和α为预设值;

42、所述第二参数更新模型,其计算表达式为:

43、

44、其中,ψ表示所述决策网络的参数,l3表示所述决策网络的更新步长,表示对l3(ψ)中的ψ参数求梯度,l3(ψ)表示所述决策网络的损失函数,表示所述决策网络的参数更新值,表示利用对所述决策网络的参数ψ进行更新。

45、本发明实施例第二方面,公开了一种电磁频谱博弈智能训练方法,应用于所述的电磁频谱博弈智能训练装置,包括:

46、获取场景规划信息和场景想定信息;所述场景规划信息,包括目标设备初始位置、干扰设备初始位置、目标设备运动信息、干扰设备运动信息;

47、所述场景想定信息,包括所述电磁频谱博弈智能训练所处的地理环境信息和背景目标信息;所述背景目标信息,包括背景目标的运动轨迹和辐射信号;

48、利用所述频谱对抗博弈控制分系统,将所述场景规划信息加载到所述场景想定信息中,得到仿真场景信息;

49、利用复杂环境模拟分系统,基于所述背景目标信息的辐射信号,产生环境信号,将所述环境信号发送至所述射频信道模拟分系统;

50、利用可编程目标模拟分系统,产生目标信号,将所述目标信号发送至射频信道模拟分系统,接收得到所述射频信道模拟分系统发出的信道目标信号和信道干扰信号,对所述信道目标信号和信道干扰信号进行处理,得到结果目标信号;将所述结果目标信号发送至所述频谱对抗博弈控制分系统;

51、利用所述软件定义干扰侧模拟分系统,接收得到所述射频信道模拟分系统发出的信道目标信号,对所述信道目标信号进行信号特征提取处理,得到信号特征信息;对所述信号特征信息进行干扰决策处理,得到相应的干扰信号,将所述干扰信号发送至所述射频信道模拟分系统;

52、利用射频信道模拟分系统,对所述目标信号进行衰减处理和叠加环境信号处理,得到信道目标信号;对所述干扰信号进行衰减处理和叠加环境信号处理,得到信道干扰信号;将所述信道目标信号,发送至所述可编程目标模拟分系统和软件定义干扰侧模拟分系统;将所述信道干扰信号,发送至所述可编程目标模拟分系统;

53、利用所述频谱对抗博弈控制分系统,对结果目标信号进行评估处理,得到对抗效果评估信息,将所述对抗效果评估信息发送至离线数据库和所述软件定义干扰侧模拟分系统;对所述对抗效果评估信息进行训练评估处理,得到训练效果评估信息,将所述训练效果评估信息发送至离线数据库;

54、利用所述数据和资源管理分系统,对电磁频谱博弈智能训练过程中各个分系统产生的数据进行采集和存储。

55、所述对结果目标信号进行评估处理,得到对抗效果评估信息,包括:

56、计算得到结果目标信号和对应的目标信号的差异值;根据所述差异值的倒数,确定对抗效果评估信息。

57、所述对所述对抗效果评估信息进行训练评估处理,得到训练效果评估信息,包括:

58、利用若干个场景规划信息和场景想定信息下的对抗效果评估信息,构建得到对抗效果评估信息集合;

59、利用所述对抗效果评估信息集合,构建得到对抗效果评估矩阵;所述对抗效果评估矩阵的第i行、第j行的元素xij,为第i个场景规划信息和第j个场景想定信息下的对抗效果评估信息;

60、对所述对抗效果评估矩阵,进行第一标准计算处理,得到第一标准矩阵;

61、所述第一标准计算处理的表达式为:

62、

63、其中,m表示场景规划信息的数目,xij表示所述对抗效果评估矩阵的第i行、第j列的元素,zij表示第一标准矩阵的第i行、第j列的元素;

64、对所述第一标准矩阵进行列最优处理,得到最优解向量;

65、所述列最优处理,是取出每一列中最大的数,构成最优解向量z+;所述最优解向量的表达式为:

66、

67、其中,n为场景想定信息数目;

68、对所述第一标准矩阵进行列最劣处理,得到最劣解向量;

69、所述列最劣处理,是取出每一列中最小的数,构成最劣解向量z-;所述最劣解向量的表达式为:

70、

71、对所述最劣解向量和最优解向量进行评分计算处理,得到训练效果评估信息;所述评分计算处理的表达式为:

72、

73、式中,s为训练效果评估信息,ωj为预设的第j个场景想定信息的重要性权重;ωj,通过预先设置得到,或通过计算第一标准矩阵的每一列的方差值得到。

74、本发明的有益效果为:

75、本发明基于智能模型,构建了有效的电磁频谱博弈智能训练装置和方法。本发明通过构建目标侧与干扰侧环境模拟器产生信号级数据,联通目标侧与干扰侧进行实时交互,并由算法控制干扰侧信号参数对电磁目标形成不同程度干扰效果,目标侧目标侧根据自身受干扰状态及时给出干扰效果反馈,从而实现算法训练闭环,达到智能生长的目的。

76、本发明解决了当前电磁频谱博弈的训练过程存在的面向复杂未知目标实时博弈,智能算法研究与模型训练缺少高质量、大样本、多模态数据和对抗目标支持的问题,推进智能模型在电磁频谱博弈智能训练中的有效应用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1